Memory budget · 24 GB

Best local LLMs for 24GB

24GB is not a single ceiling. A 24GB Mac and a 24GB GPU each leave a different amount free for model weights, so the largest model you can run changes with the memory type, not just the number.

Usable range: 16–23 GB
Models that fit: 101
Memory types: 2
Top pick: 32.7B

What 24GB actually gives you

Apple unified memory ~16 GB usable on Apple M4 Pro (24GB) Comfortable ceiling: 21B GPU VRAM ~23 GB usable on Nvidia GeForce RTX 4090 (24GB) Comfortable ceiling: 32.7B

Usable figures are sourced per device (tap a card for the full profile). Verdicts below use Q4_K_M, the community-default quant.

Top pick for 24GB Q4_K_M

Gemma 4 31B 32.7B

Runs comfortably on the most capable 24GB setup (Nvidia GeForce RTX 4090 (24GB), ~23 GB usable) at ~20.5 GB. Check it against your exact device on its model page.

Models ranked for 24GB

Biggest that fits first Mac · GPU

SE
Seed-OSS 36B Instruct
36B · ~22.5 GB at Q4_K_M

Mac No GPU Tight
CR
Command R 35B
35B · ~22.3 GB at Q4_K_M

Mac No GPU Tight
Yi
Yi 1.5 34B
34B · ~21.4 GB at Q4_K_M

Mac No GPU Tight
FN
Falcon-H1-34B-Instruct
34B · ~21.1 GB at Q4_K_M

Mac No GPU Tight
LA
Laguna XS 2.1
33.4B MoE · ~22.2 GB at Q4_K_M

Mac No GPU Tight
Gemma 4 31B
32.7B · ~20.5 GB at Q4_K_M

Mac No GPU Yes
Qwen2.5 32B
32B · ~22.1 GB at Q4_K_M

Mac No GPU Tight
Qwen3 32B
32B · ~22 GB at Q4_K_M · Elo 1347

Mac No GPU Tight
DeepSeek-R1-Distill-Qwen 32B
32B · ~22.1 GB at Q4_K_M

Mac No GPU Tight
Qwen2.5 Coder 32B
32B · ~20.7 GB at Q4_K_M

Mac No GPU Tight
Granite 4.0 H Small
32B MoE · ~20.4 GB at Q4_K_M

Mac No GPU Yes
GL
GLM-4-32B-0414
32B · ~20.5 GB at Q4_K_M

Mac No GPU Yes
EX
EXAONE 4.0 32B
32B · ~20.2 GB at Q4_K_M

Mac No GPU Yes
OL
OLMo 2 32B Instruct
32B · ~21.7 GB at Q4_K_M

Mac No GPU Tight
Granite 4.0 H Small
32B MoE · ~20.3 GB at Q4_K_M

Mac No GPU Yes
OL
Olmo 3.1 32B Instruct
32B · ~20.3 GB at Q4_K_M

Mac No GPU Yes
Qwen3 30B-A3B
30.5B MoE · ~20.7 GB at Q4_K_M · Elo 1383

Mac No GPU Tight
Qwen3-Coder 30B-A3B
30.5B MoE · ~19.4 GB at Q4_K_M

Mac No GPU Yes
NO
North Mini Code 1.0
30.5B MoE · ~21.1 GB at Q4_K_M

Mac No GPU Tight
S
Sarvam-30B
30B MoE · ~21.7 GB at Q4_K_M

Mac No GPU Tight
GL
GLM-4.7-Flash
30B MoE · ~19.2 GB at Q4_K_M

Mac No GPU Yes
Granite 4.1 30B
28.9B · ~19.1 GB at Q4_K_M

Mac No GPU Yes
Qwen3.6 27B
27.8B · ~18.9 GB at Q4_K_M

Mac No GPU Yes
Gemma 2 27B
27B · ~18.7 GB at Q4_K_M · Elo 1289

Mac No GPU Yes
Gemma 3 27B
27B · ~18.6 GB at Q4_K_M · Elo 1366

Mac No GPU Yes
Gemma 4 26B-A4B
26.5B MoE · ~19 GB at Q4_K_M

Mac No GPU Yes
Mistral Small 3 24B
24B · ~16.3 GB at Q4_K_M · Elo 1357

Mac No GPU Yes
S
Sarvam-M 24B
24B · ~16.3 GB at Q4_K_M

Mac No GPU Yes
Mistral Small 3.1 24B
24B · ~15.4 GB at Q4_K_M

Mac Tight GPU Yes
Magistral Small
24B · ~16 GB at Q4_K_M

Mac Tight GPU Yes
Devstral Small
24B · ~15.4 GB at Q4_K_M

Mac Tight GPU Yes
LF
LFM2 24B-A2B
24B MoE · ~15.4 GB at Q4_K_M

Mac Tight GPU Yes
gpt-oss 20B
21B MoE · ~13.2 GB at Q4_K_M

Mac Yes GPU Yes
ER
ERNIE 4.5 21B-A3B
21B MoE · ~14.3 GB at Q4_K_M

Mac Yes GPU Yes
DeepSeek-V2-Lite
16B MoE · ~12.2 GB at Q4_K_M

Mac Yes GPU Yes
Phi-4 14B
14B · ~10.8 GB at Q4_K_M · Elo 1256

Mac Yes GPU Yes
Qwen2.5 14B
14B · ~10.7 GB at Q4_K_M

Mac Yes GPU Yes
Qwen3 14B
14B · ~10.7 GB at Q4_K_M

Mac Yes GPU Yes
DeepSeek-R1-Distill-Qwen 14B
14B · ~10.7 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 Coder 14B
14B · ~10.1 GB at Q4_K_M

Mac Yes GPU Yes
Phi-4-reasoning
14B · ~10.1 GB at Q4_K_M

Mac Yes GPU Yes
Mistral Nemo 12B
12.2B · ~8.6 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 3 12B
12B · ~8.9 GB at Q4_K_M · Elo 1342

Mac Yes GPU Yes
Gemma 4 12B
12B · ~8.7 GB at Q4_K_M

Mac Yes GPU Yes
Llama 3.2 Vision 11B
10.7B · ~9 GB at Q4_K_M

Mac Yes GPU Yes
FN
Falcon3 10B
10B · ~7.5 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 2 9B
9B · ~7.3 GB at Q4_K_M · Elo 1266

Mac Yes GPU Yes
GL
GLM-4 9B
9B · ~7.3 GB at Q4_K_M

Mac Yes GPU Yes
GL
GLM-4-9B-0414
9B · ~7.2 GB at Q4_K_M

Mac Yes GPU Yes
NE
Nemotron Nano 9B v2
9B · ~7.6 GB at Q4_K_M

Mac Yes GPU Yes
OR
Ornith 1.0 9B
9B · ~7.1 GB at Q4_K_M

Mac Yes GPU Yes
Granite 4.1 8B
8.8B · ~6.8 GB at Q4_K_M

Mac Yes GPU Yes
LF
LFM2.5 8B-A1B
8.3B MoE · ~6.7 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5-VL 7B
8.29B · ~7.1 GB at Q4_K_M

Mac Yes GPU Yes
DeepSeek-R1-0528-Qwen3-8B
8.19B · ~6.2 GB at Q4_K_M

Mac Yes GPU Yes
Llama 3.1 8B
8B · ~6.4 GB at Q4_K_M · Elo 1211

Mac Yes GPU Yes
Qwen3 8B
8B · ~6.5 GB at Q4_K_M

Mac Yes GPU Yes
DeepSeek-R1-Distill-Llama 8B
8B · ~6.4 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 3n E4B
8B · ~5.7 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 4 E4B
8B · ~6.5 GB at Q4_K_M

Mac Yes GPU Yes
Mistral 7B
7B · ~5.8 GB at Q4_K_M · Elo 1149

Mac Yes GPU Yes
Qwen2.5 7B
7B · ~6.1 GB at Q4_K_M

Mac Yes GPU Yes
DeepSeek-R1-Distill-Qwen 7B
7B · ~6.1 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 Coder 7B
7B · ~5.8 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 4 E2B
5.1B · ~4.4 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 3 4B
4B · ~3.8 GB at Q4_K_M · Elo 1303

Mac Yes GPU Yes
Qwen3 4B
4B · ~3.8 GB at Q4_K_M

Mac Yes GPU Yes
NE
Nemotron 3 Nano 4B
4B · ~3.9 GB at Q4_K_M

Mac Yes GPU Yes
Phi-3.5-mini 3.8B
3.82B · ~3.7 GB at Q4_K_M

Mac Yes GPU Yes
Phi-4-mini 3.8B
3.8B · ~3.8 GB at Q4_K_M

Mac Yes GPU Yes
Phi-4-mini-reasoning
3.8B · ~3.6 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5-VL 3B
3.75B · ~4.4 GB at Q4_K_M

Mac Yes GPU Yes
Granite 4.1 3B
3.4B · ~3.3 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 3B
3.09B · ~3.3 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 Coder 3B
3.09B · ~3 GB at Q4_K_M

Mac Yes GPU Yes
Llama 3.2 3B
3B · ~3.2 GB at Q4_K_M · Elo 1166

Mac Yes GPU Yes
SmolLM3 3B
3B · ~3 GB at Q4_K_M

Mac Yes GPU Yes
OP
Apple OpenELM 3B
3B · ~3 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 2 2B
2.61B · ~2.9 GB at Q4_K_M

Mac Yes GPU Yes
Granite 3.1 2B
2.53B · ~2.8 GB at Q4_K_M

Mac Yes GPU Yes
S
Sarvam-1 2B
2B · ~2.7 GB at Q4_K_M

Mac Yes GPU Yes
SmolLM2 1.7B
1.7B · ~2.2 GB at Q4_K_M · Elo 1114

Mac Yes GPU Yes
Qwen3 1.7B
1.7B · ~2.4 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 1.5B
1.54B · ~2.2 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 Coder 1.5B
1.54B · ~2 GB at Q4_K_M

Mac Yes GPU Yes
MI
MiniCPM-V 4.6
1.3B · ~1.6 GB at Q4_K_M

Mac Yes GPU Yes
LF
LFM2 1.2B
1.17B · ~2.5 GB at Q4_K_M

Mac Yes GPU Yes
LF
LFM2.5 1.2B
1.17B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes
LF
LFM2.5 1.2B Thinking
1.17B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes
TL
TinyLlama 1.1B
1.1B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes
OP
Apple OpenELM 1.1B
1.1B · ~1.7 GB at Q4_K_M

Mac Yes GPU Yes
Llama 3.2 1B
1B · ~1.8 GB at Q4_K_M · Elo 1110

Mac Yes GPU Yes
Gemma 3 1B
1B · ~1.8 GB at Q4_K_M

Mac Yes GPU Yes
LF
LFM2 700M
0.742B · ~1.9 GB at Q4_K_M

Mac Yes GPU Yes
Qwen3 0.6B
0.6B · ~1.5 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 0.5B
0.494B · ~1.5 GB at Q4_K_M

Mac Yes GPU Yes
Qwen2.5 Coder 0.5B
0.494B · ~1.4 GB at Q4_K_M

Mac Yes GPU Yes
SmolLM2 360M
0.362B · ~1.2 GB at Q4_K_M

Mac Yes GPU Yes
LF
LFM2 350M
0.354B · ~1.4 GB at Q4_K_M

Mac Yes GPU Yes
Gemma 3 270M
0.27B · ~1.1 GB at Q4_K_M

Mac Yes GPU Yes
SmolLM2 135M
0.135B · ~1 GB at Q4_K_M

Mac Yes GPU Yes

Each chip links to the full breakdown for that model on a real 24GB device. "Tight" means it fits but with little headroom, close other apps.

The ceiling, per memory type

Apple M4 Pro (24GB) (~16 GB usable)

Runs up to ERNIE 4.5 21B-A3B (21B) comfortably at Q4_K_M. Larger models either sit tight or spill past the ~16 GB it can give a model.

Nvidia GeForce RTX 4090 (24GB) (~23 GB usable)

Runs up to Gemma 4 31B (32.7B) comfortably at Q4_K_M. Larger models either sit tight or spill past the ~23 GB it can give a model.

FAQ

How much of 24GB can a model actually use?

It depends on the memory type. Apple unified memory: about 16 GB (Apple M4 Pro (24GB)); GPU VRAM: about 23 GB (Nvidia GeForce RTX 4090 (24GB)). The rest is reserved for the OS, display and runtime overhead.

What is the best local LLM for 24GB?

Gemma 4 31B (32.7B) is the strongest model that runs comfortably at Q4_K_M on the most capable 24GB setup (Nvidia GeForce RTX 4090 (24GB), ~23 GB usable). On a tighter 24GB device the ceiling is lower, shown per row above.

Why does a 24GB GPU fit a bigger model than a 24GB Mac?

A discrete GPU gives almost all of its VRAM to the model (leave ~1 GB for the driver). Apple Silicon shares one unified pool with macOS, so roughly 66% is available to the GPU for weights. Same 24GB sticker, different usable budget, so the model ceiling differs.

Sources

Memory figures are estimates at Q4_K_M with a small context. See methodology.

Best local LLMs for 24GB

What 24GB actually gives you

Models ranked for 24GB

The ceiling, per memory type

Too large for any 24GB device

FAQ

Sources