Skip to main content

Specifications

VRAM

16 GB

Memory Bandwidth

736 GB/s

Architecture

Ada Lovelace

Generation

RTX 40

FP16 TFLOPS

120

Vendor

NVIDIA

CUDA Cores

10,240

Tensor Cores

320

Check prices for NVIDIA GeForce RTX 4080 Super

Runs Great(61)

Full GPU inference at good speed

Aya Expanse 8B

8B · Q4_K_M · 4.9 GB

~120.2 tok/s

BGE Large EN v1.5

0.335B · FP16 · 0.67 GB

~1098.5 tok/s

CodeLlama 13B

13B · Q4_K_M · 7.9 GB

~74.5 tok/s

CodeLlama 7B

7B · Q4_K_M · 4.2 GB

~140.2 tok/s

Command R7B

7B · Q4_K_M · 4.5 GB

~130.8 tok/s

DeepSeek Coder V2 Lite 16B

16B · Q4_K_M · 9.5 GB

~62 tok/s

DeepSeek R1 Distill Llama 8B

8B · Q4_K_M · 4.9 GB

~120.2 tok/s

DeepSeek R1 Distill Qwen 1.5B

1.5B · Q4_K_M · 1 GB

~588.8 tok/s

DeepSeek R1 Distill Qwen 14B

14B · Q4_K_M · 8.7 GB

~67.7 tok/s

DeepSeek R1 Distill Qwen 7B

7B · Q4_K_M · 4.7 GB

~125.3 tok/s

Devstral Small 2 24B

24B · Q4_K_M · 12 GB

~49.1 tok/s

Gemma 2 2B

2B · Q4_K_M · 1.5 GB

~392.5 tok/s

Gemma 2 9B

9B · Q4_K_M · 5.5 GB

~107.1 tok/s

Gemma 3 12B

12B · Q4_K_M · 7.3 GB

~80.7 tok/s

Gemma 3 1B

1B · Q4_K_M · 0.7 GB

~841.1 tok/s

Gemma 3 4B

4B · Q4_K_M · 2.5 GB

~235.5 tok/s

Gemma 3n E2B

2B · Q4_K_M · 1 GB

~588.8 tok/s

Gemma 3n E4B

4B · Q4_K_M · 2 GB

~294.4 tok/s

Gemma 4 E2B

2.3B · Q4_K_M · 2.7 GB

~218.1 tok/s

Gemma 4 E4B

4.5B · Q4_K_M · 4.1 GB

~143.6 tok/s

GPT-OSS 20B

20B · Q4_K_M · 10 GB

~58.9 tok/s

Hermes 3 Llama 3.1 8B

8B · Q4_K_M · 4.9 GB

~120.2 tok/s

InternLM 2.5 20B

20B · Q4_K_M · 12 GB

~49.1 tok/s

InternLM 2.5 7B

7B · Q4_K_M · 4.7 GB

~125.3 tok/s

Llama 3.1 8B

8B · Q3_K_M · 3.9 GB

~130.2 tok/s

Llama 3.2 1B

1.24B · Q4_K_M · 0.75 GB

~785.1 tok/s

Llama 3.2 3B

3.21B · Q4_K_M · 2 GB

~294.4 tok/s

Mistral 7B v0.3

7B · Q3_K_M · 3.5 GB

~145 tok/s

Mistral Nemo 12B

12B · Q4_K_M · 7.3 GB

~80.7 tok/s

Mistral Small 3.1 24B

24B · Q4_K_M · 12.6 GB

~46.7 tok/s

mxbai-embed-large

0.335B · FP16 · 0.67 GB

~1098.5 tok/s

Nemotron Mini 4B

4B · Q4_K_M · 2.5 GB

~235.5 tok/s

Nomic Embed Text v1.5

0.137B · FP16 · 0.27 GB

~2725.9 tok/s

Phi-3 Medium 14B

14B · Q4_K_M · 8.2 GB

~71.8 tok/s

Phi-3 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~256 tok/s

Phi-4 14B

14B · Q4_K_M · 8.2 GB

~71.8 tok/s

Phi-4 Mini 3.8B

3.8B · Q4_K_M · 2.3 GB

~256 tok/s

Phi-4 Reasoning 14B

14B · Q4_K_M · 7 GB

~84.1 tok/s

Phi-4 Reasoning Plus 14B

14B · Q4_K_M · 7 GB

~84.1 tok/s

Qwen 2.5 0.5B

0.5B · Q4_K_M · 0.4 GB

~1472 tok/s

Qwen 2.5 1.5B

1.5B · Q4_K_M · 1 GB

~588.8 tok/s

Qwen 2.5 14B

14B · Q4_K_M · 8.7 GB

~67.7 tok/s

Qwen 2.5 3B

3B · Q4_K_M · 1.9 GB

~309.9 tok/s

Qwen 2.5 7B

7B · Q3_K_M · 3.7 GB

~137.2 tok/s

Qwen 2.5 Coder 7B

7B · Q4_K_M · 4.7 GB

~125.3 tok/s

Qwen3 0.6B

0.6B · Q4_K_M · 0.3 GB

~1962.7 tok/s

Qwen3 1.7B

1.7B · Q4_K_M · 0.9 GB

~654.2 tok/s

Qwen3 14B

14B · Q4_K_M · 7 GB

~84.1 tok/s

Qwen3 4B

4B · Q4_K_M · 2 GB

~294.4 tok/s

Qwen3 8B

8B · Q4_K_M · 4 GB

~147.2 tok/s

Qwen3.5 4B

4B · Q4_K_M · 2 GB

~294.4 tok/s

Qwen3.5 9B

9B · Q4_K_M · 4.5 GB

~130.8 tok/s

SmolLM3 3B

3B · Q4_K_M · 1.5 GB

~392.5 tok/s

Snowflake Arctic Embed L

0.335B · FP16 · 0.67 GB

~1098.5 tok/s

Stable Code 3B

3B · Q4_K_M · 1.8 GB

~327.1 tok/s

StableLM 2 1.6B

1.6B · Q4_K_M · 1 GB

~588.8 tok/s

StarCoder2 15B

15B · Q4_K_M · 9 GB

~65.4 tok/s

StarCoder2 3B

3B · Q4_K_M · 1.8 GB

~327.1 tok/s

StarCoder2 7B

7B · Q4_K_M · 4.2 GB

~140.2 tok/s

Yi 1.5 6B

6B · Q4_K_M · 3.7 GB

~159.1 tok/s

Yi 1.5 9B

9B · Q4_K_M · 5.5 GB

~107.1 tok/s

Runs with Limits(29)

Partial GPU offload, hybrid, or CPU-only — expect slower speeds

Can't Run(18)

Insufficient VRAM and RAM for these models