Best LLMs for 80 GB VRAM

Autor: Jakub Rusinowski · Ostatnia aktualizacja: 30 lipca 2026

These are the strongest local models that fit entirely in 80 GB of VRAM, ranked by capability, with the quantization level and estimated tokens/sec needed to fit.

GPUs at This Tier

Ranked Models

Qwen 2.5 Family — Qwen 2.5 72B Instruct	Q4_K_M · 43 GB · ~45 tok/s on NVIDIA A100 80GB
Qwen 2.5 Family — Qwen 2.5 Coder 32B	Q4_K_M · 19.5 GB · ~99 tok/s on NVIDIA A100 80GB
Llama 3.3 — Llama 3.3 70B Instruct	Q2_K_XS (Tight) · 26 GB · ~74 tok/s on NVIDIA A100 80GB
Qwen 3 — Qwen 3 32B	Q4_K_M · 19.5 GB · ~99 tok/s on NVIDIA A100 80GB
DeepSeek R1 — DeepSeek R1 Distill Qwen 32B	Q4_K_M · 19.5 GB · ~99 tok/s on NVIDIA A100 80GB
Kimi K2.5 / K2.6 — Kimi K2.6	Q4_K_M · 19 GB · ~102 tok/s on NVIDIA A100 80GB
Qwen 2.5 Family — Qwen 2.5 14B Instruct	Q4_K_M · 9.5 GB · ~204 tok/s on NVIDIA A100 80GB
Kimi K2.5 / K2.6 — Kimi K2.5	Q4_K_M · 19 GB · ~102 tok/s on NVIDIA A100 80GB
Nemotron 70B — Nemotron 70B Instruct	Q4_K_M · 39 GB · ~50 tok/s on NVIDIA A100 80GB
Qwen 3.5 (Legacy Listing — Unverified) — Qwen 3.5 122B-A10B (MoE)	Q4_K_M · 13.5 GB · ~400 tok/s on NVIDIA A100 80GB
Gemma 4 (Legacy Listing — Unverified) — Gemma 4 27B ⭐	Q4_K_M · 14 GB · ~138 tok/s on NVIDIA A100 80GB
Qwen 3 — Qwen 3 14B	Q4_K_M · 9.5 GB · ~204 tok/s on NVIDIA A100 80GB
Qwen 3.5 (Legacy Listing — Unverified) — Qwen 3.5 72B	Q4_K_M · 42 GB · ~46 tok/s on NVIDIA A100 80GB
Qwen 3.7 — Qwen 3.7 35B-A3B	Q4_K_M · 21 GB · ~400 tok/s on NVIDIA A100 80GB
Llama 4 — Llama 4 Maverick 17B	Q4_K_M · 24 GB · ~400 tok/s on NVIDIA A100 80GB

FAQ

What LLMs run well with 80 GB VRAM?

Qwen 2.5 Family, Qwen 2.5 Family, Llama 3.3, Qwen 3, DeepSeek R1 all fit in 80 GB VRAM.

Which GPUs have 80 GB VRAM?

NVIDIA A100 80GB, NVIDIA H100 80GB, AMD Ryzen AI Max+ 395, Apple M2 Max.

Can-I-Run Pages Near 80 GB

Adjacent VRAM Tiers

Best LLMs for 64 GB VRAM

Buying Guide

Best GPU Buyer Guide 2026

← All VRAM Tiers | Check Your Hardware