Memory budget · 16 GB

Best local LLMs for 16GB

16GB is not a single ceiling. A 16GB Mac, a 16GB GPU and a 16GB Laptop each leave a different amount free for model weights, so the largest model you can run changes with the memory type, not just the number.

Usable range: 10.5–15 GB
Models that fit: 69
Memory types: 3
Top pick: 21B

What 16GB actually gives you

Apple unified memory ~10.5 GB usable on Apple M5 (16GB) Comfortable ceiling: 12.2B GPU VRAM ~15 GB usable on Nvidia GeForce RTX 4080 (16GB) Comfortable ceiling: 21B System RAM (CPU only) ~12 GB usable on 16GB RAM Laptop (CPU/iGPU only) Comfortable ceiling: 14B

Usable figures are sourced per device (tap a card for the full profile). Verdicts below use Q4_K_M, the community-default quant.

Top pick for 16GB Q4_K_M

gpt-oss 20B 21B MoE

Runs comfortably on the most capable 16GB setup (Nvidia GeForce RTX 4080 (16GB), ~15 GB usable) at ~13.2 GB. Check it against your exact device on its model page.

Models ranked for 16GB

Biggest that fits first Mac · GPU · Laptop

gpt-oss 20B
21B MoE · ~13.2 GB at Q4_K_M

Mac No GPU Yes Laptop No
ER
ERNIE 4.5 21B-A3B
21B MoE · ~14.3 GB at Q4_K_M

Mac No GPU Tight Laptop No
DeepSeek-V2-Lite
16B MoE · ~12.2 GB at Q4_K_M

Mac No GPU Yes Laptop No
Phi-4 14B
14B · ~10.8 GB at Q4_K_M · Elo 1256

Mac No GPU Yes Laptop Tight
Qwen2.5 14B
14B · ~10.7 GB at Q4_K_M

Mac No GPU Yes Laptop Yes
Qwen3 14B
14B · ~10.7 GB at Q4_K_M

Mac No GPU Yes Laptop Yes
DeepSeek-R1-Distill-Qwen 14B
14B · ~10.7 GB at Q4_K_M

Mac No GPU Yes Laptop Yes
Qwen2.5 Coder 14B
14B · ~10.1 GB at Q4_K_M

Mac Tight GPU Yes Laptop Yes
Phi-4-reasoning
14B · ~10.1 GB at Q4_K_M

Mac Tight GPU Yes Laptop Yes
Mistral Nemo 12B
12.2B · ~8.6 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 3 12B
12B · ~8.9 GB at Q4_K_M · Elo 1342

Mac Yes GPU Yes Laptop Yes
Gemma 4 12B
12B · ~8.7 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Llama 3.2 Vision 11B
10.7B · ~9 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
FN
Falcon3 10B
10B · ~7.5 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 2 9B
9B · ~7.3 GB at Q4_K_M · Elo 1266

Mac Yes GPU Yes Laptop Yes
GL
GLM-4 9B
9B · ~7.3 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
GL
GLM-4-9B-0414
9B · ~7.2 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
NE
Nemotron Nano 9B v2
9B · ~7.6 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
OR
Ornith 1.0 9B
9B · ~7.1 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Granite 4.1 8B
8.8B · ~6.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
LF
LFM2.5 8B-A1B
8.3B MoE · ~6.7 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5-VL 7B
8.29B · ~7.1 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
DeepSeek-R1-0528-Qwen3-8B
8.19B · ~6.2 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Llama 3.1 8B
8B · ~6.4 GB at Q4_K_M · Elo 1211

Mac Yes GPU Yes Laptop Yes
Qwen3 8B
8B · ~6.5 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
DeepSeek-R1-Distill-Llama 8B
8B · ~6.4 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 3n E4B
8B · ~5.7 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 4 E4B
8B · ~6.5 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Mistral 7B
7B · ~5.8 GB at Q4_K_M · Elo 1149

Mac Yes GPU Yes Laptop Yes
Qwen2.5 7B
7B · ~6.1 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
DeepSeek-R1-Distill-Qwen 7B
7B · ~6.1 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 Coder 7B
7B · ~5.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 4 E2B
5.1B · ~4.4 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 3 4B
4B · ~3.8 GB at Q4_K_M · Elo 1303

Mac Yes GPU Yes Laptop Yes
Qwen3 4B
4B · ~3.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
NE
Nemotron 3 Nano 4B
4B · ~3.9 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Phi-3.5-mini 3.8B
3.82B · ~3.7 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Phi-4-mini 3.8B
3.8B · ~3.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Phi-4-mini-reasoning
3.8B · ~3.6 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5-VL 3B
3.75B · ~4.4 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Granite 4.1 3B
3.4B · ~3.3 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 3B
3.09B · ~3.3 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 Coder 3B
3.09B · ~3 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Llama 3.2 3B
3B · ~3.2 GB at Q4_K_M · Elo 1166

Mac Yes GPU Yes Laptop Yes
SmolLM3 3B
3B · ~3 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
OP
Apple OpenELM 3B
3B · ~3 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 2 2B
2.61B · ~2.9 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Granite 3.1 2B
2.53B · ~2.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
S
Sarvam-1 2B
2B · ~2.7 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
SmolLM2 1.7B
1.7B · ~2.2 GB at Q4_K_M · Elo 1114

Mac Yes GPU Yes Laptop Yes
Qwen3 1.7B
1.7B · ~2.4 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 1.5B
1.54B · ~2.2 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 Coder 1.5B
1.54B · ~2 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
MI
MiniCPM-V 4.6
1.3B · ~1.6 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
LF
LFM2 1.2B
1.17B · ~2.5 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
LF
LFM2.5 1.2B
1.17B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
LF
LFM2.5 1.2B Thinking
1.17B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
TL
TinyLlama 1.1B
1.1B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
OP
Apple OpenELM 1.1B
1.1B · ~1.7 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Llama 3.2 1B
1B · ~1.8 GB at Q4_K_M · Elo 1110

Mac Yes GPU Yes Laptop Yes
Gemma 3 1B
1B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
LF
LFM2 700M
0.742B · ~1.9 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen3 0.6B
0.6B · ~1.5 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 0.5B
0.494B · ~1.5 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Qwen2.5 Coder 0.5B
0.494B · ~1.4 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
SmolLM2 360M
0.362B · ~1.2 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
LF
LFM2 350M
0.354B · ~1.4 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
Gemma 3 270M
0.27B · ~1.1 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes
SmolLM2 135M
0.135B · ~1 GB at Q4_K_M

Mac Yes GPU Yes Laptop Yes

Each chip links to the full breakdown for that model on a real 16GB device. "Tight" means it fits but with little headroom, close other apps.

The ceiling, per memory type

Apple M5 (16GB) (~10.5 GB usable)

Runs up to Mistral Nemo 12B (12.2B) comfortably at Q4_K_M. Larger models either sit tight or spill past the ~10.5 GB it can give a model.

Nvidia GeForce RTX 4080 (16GB) (~15 GB usable)

Runs up to gpt-oss 20B (21B) comfortably at Q4_K_M. Larger models either sit tight or spill past the ~15 GB it can give a model.

16GB RAM Laptop (CPU/iGPU only) (~12 GB usable)

Runs up to Phi-4-reasoning (14B) comfortably at Q4_K_M. Larger models either sit tight or spill past the ~12 GB it can give a model.

16GB phones & tablets

Phones report 16GB too, but iOS/Android reserve more and the runtimes differ. Their usable pool is smaller:

iPad Pro M4 (16GB, 1TB/2TB config) ~12 GB Google Pixel 9 Pro ~10.5 GB Samsung Galaxy S25 Ultra (16GB, 1TB config only) ~12 GB Google Pixel 10 Pro ~10.5 GB Samsung Galaxy S26 Ultra (16GB, 1TB config) ~12 GB

Too large for any 16GB device

Mistral Small 3 24B 24B Sarvam-M 24B 24B Mistral Small 3.1 24B 24B Magistral Small 24B Devstral Small 24B LFM2 24B-A2B 24B Gemma 4 26B-A4B 26.5B Gemma 2 27B 27B Gemma 3 27B 27B Qwen3.6 27B 27.8B Granite 4.1 30B 28.9B Sarvam-30B 30B Nemotron 3 Nano 30B-A3B 30B Nemotron Cascade 2 30B-A3B 30B GLM-4.7-Flash 30B Qwen3 30B-A3B 30.5B Qwen3-Coder 30B-A3B 30.5B North Mini Code 1.0 30.5B Qwen2.5 32B 32B Qwen3 32B 32B DeepSeek-R1-Distill-Qwen 32B 32B Qwen2.5 Coder 32B 32B Granite 4.0 H Small 32B GLM-4-32B-0414 32B EXAONE 4.0 32B 32B OLMo 2 32B Instruct 32B Granite 4.0 H Small 32B Olmo 3.1 32B Instruct 32B Gemma 4 31B 32.7B Laguna XS 2.1 33.4B Yi 1.5 34B 34B Falcon-H1-34B-Instruct 34B Qwen-AgentWorld 35B-A3B 34.7B Command R 35B 35B Ornith 1.0 35B 35B Seed-OSS 36B Instruct 36B Qwen3.6 35B-A3B 36B Mixtral 8x7B 46.7B Llama-3.3-Nemotron-Super-49B-v1 49B Llama 3.3 70B 70B Qwen2.5 72B 72B Hunyuan-A13B-Instruct 80B Sarvam-105B 105B GLM-4.5-Air 106B Llama 4 Scout 109B Command A 111B gpt-oss 120B 117B Laguna S 2.1 118B Nemotron 3 Super 120B-A12B 120B dots.llm1 142B Qwen3 235B A22B 235B DeepSeek-V4-Flash 284B GLM-4.6 357B Llama 4 Maverick 400B MiniMax M3 428B MiniMax-M1-80k 456B Qwen3-Coder 480B-A35B Instruct 480B Nemotron 3 Ultra 550B-A55B 550B DeepSeek R1 671B DeepSeek V3 671B DeepSeek-R1-0528 671B GLM-5.2 744B Kimi K2 Instruct 1000B Kimi K2.6 1000B Kimi K2.7 Code 1000B DeepSeek-V4-Pro 1600B

FAQ

How much of 16GB can a model actually use?

It depends on the memory type. Apple unified memory: about 10.5 GB (Apple M5 (16GB)); GPU VRAM: about 15 GB (Nvidia GeForce RTX 4080 (16GB)); System RAM (CPU only): about 12 GB (16GB RAM Laptop (CPU/iGPU only)). The rest is reserved for the OS, display and runtime overhead.

What is the best local LLM for 16GB?

gpt-oss 20B (21B) is the strongest model that runs comfortably at Q4_K_M on the most capable 16GB setup (Nvidia GeForce RTX 4080 (16GB), ~15 GB usable). On a tighter 16GB device the ceiling is lower, shown per row above.

Why does a 16GB GPU fit a bigger model than a 16GB Mac?

A discrete GPU gives almost all of its VRAM to the model (leave ~1 GB for the driver). Apple Silicon shares one unified pool with macOS, so roughly 66% is available to the GPU for weights. Same 16GB sticker, different usable budget, so the model ceiling differs.

Memory figures are estimates at Q4_K_M with a small context. See methodology.