SmolLM2 — Local AI Model by HuggingFace

Name: LLM Configurator — GPU VRAM Checker
Author: LLM Configurator

作者： Jakub Rusinowski · 最后更新： 2026年7月10日

The smallest production-quality LLMs. HuggingFace's SmolLM2 models are designed to run on microcontrollers, phones, and browsers via WebAssembly. Despite tiny size, they show surprising intelligence thanks to careful data curation with the Smoltalk dataset.

Hardware Requirements

SmolLM2 1.7B Instruct	Min 1 GB VRAM · Q4_K_M · 8,192 ctx · `ollama run smollm2:1.7b`
SmolLM2 360M Instruct	Min 1 GB VRAM · Q4_K_M · 8,192 ctx · `ollama run smollm2:360m`

Recommended GPU

The cheapest GPU that runs SmolLM2 locally (min 1 GB VRAM) is the Intel Arc B570 (10 GB).

联盟营销声明: 本页部分链接为联盟推广链接——如果你通过它们购买，LLM Configurator 可能会获得佣金，而你无需支付任何额外费用。作为亚马逊联盟成员（Amazon Associate），LLM Configurator 会从符合条件的购买中获得收益。

Intel Arc B570 10GB

首发建议零售价：$219

2026年价格波动较大——请以当前商品页价格为准。

在亚马逊查看价格

How to Run Locally

Install Ollama then run: ollama run smollm2:1.7b

Minimum VRAM: 1 GB. For best results use Q4_K_M quantization.

SmolLM2 — Frequently Asked Questions

How much VRAM does SmolLM2 need?

SmolLM2 needs about 1 GB VRAM at Q4_K_M quantization for its smallest variant. Variants: SmolLM2 1.7B Instruct (1 GB, Q4_K_M); SmolLM2 360M Instruct (1 GB, Q4_K_M). On Apple Silicon, unified memory counts toward this requirement.

Can I run SmolLM2 on an RTX 4090 (24 GB)?

Yes — SmolLM2 runs on an RTX 4090 (24 GB) and other 24 GB cards such as the RTX 3090. Smaller variants also fit comfortably on 8–16 GB GPUs at Q4_K_M.

What quantization should I use for SmolLM2?

Q4_K_M is the best balance of quality and VRAM for SmolLM2 in most cases. Choose Q8_0 for near-lossless quality if you have spare VRAM, or smaller quants (Q3/Q2) only when memory is tight.

How do I run SmolLM2 with Ollama?

Install Ollama, then run: ollama run smollm2:1.7b. This downloads SmolLM2 and starts a local, OpenAI-compatible endpoint — no internet connection is needed after the initial download.