7.1 蒸馏模型概览

满血版 671B 需要数百 GB 显存，但蒸馏版 7B 只需要一张 RTX 4060——推理能力却接近 o1-mini。

这一节在讲什么？

DeepSeek-R1 的满血版有 671B 参数，需要数百 GB 显存才能运行——只有大型数据中心才能部署。但 DeepSeek 通过蒸馏技术，把 R1 的推理能力"浓缩"到了 1.5B 到 70B 的小模型中。这些蒸馏模型在普通消费级 GPU 上就能运行，推理能力却远超同等参数量的普通模型。这一节我们概览所有蒸馏模型，帮你根据硬件条件选择合适的版本。

为什么需要蒸馏模型

满血版 DeepSeek-R1 的部署需求：

  参数量：671B（MoE，激活 37B）
  显存需求：约 800GB（FP16）或 400GB（INT8）
  硬件：8× NVIDIA H100 80GB 或等效配置
  成本：数十万美元

  → 只有大型企业才能承担

蒸馏模型的部署需求：

  参数量：7B
  显存需求：约 5GB（FP16）或 3GB（INT4）
  硬件：一张 RTX 4060 8GB
  成本：几千元

  → 普通开发者就能运行

蒸馏模型的核心价值是民主化 AI——让每个人都能在本地运行接近 o1-mini 水平的推理模型。

蒸馏模型列表

模型	基座	参数量	模型大小	推荐硬件	推理能力
R1-Distill-Qwen-1.5B	Qwen2.5-Math	1.5B	3GB	CPU 可跑	入门级
R1-Distill-Qwen-7B	Qwen2.5	7B	5GB	RTX 4060	接近 o1-mini
R1-Distill-Llama-8B	Llama3.1	8B	5GB	RTX 4060	接近 o1-mini
R1-Distill-Qwen-14B	Qwen2.5	14B	15GB	RTX 4070	性能级
R1-Distill-Qwen-32B	Qwen2.5	32B	25GB	RTX 4090	发烧级
R1-Distill-Llama-70B	Llama3.3	70B	50GB+	多卡工作站	工作站级

性能对比

基准测试	1.5B	7B	8B	14B	32B	70B	R1 满血
AIME 2024	28.9%	55.5%	50.0%	69.7%	72.6%	78.0%	79.8%
MATH-500	83.9%	92.8%	89.1%	95.0%	96.2%	97.3%	97.3%

7B 蒸馏版在 MATH-500 上达到了 92.8%——这已经超过了 GPT-4o 的 78.3%，接近 Claude Sonnet 的水平。

蒸馏模型的选择策略

你的硬件条件                      → 推荐模型
───────────────────────────────────────────────
没有 GPU，只有 CPU               → R1-Distill-Qwen-1.5B
消费级 GPU（RTX 4060 8GB）       → R1-Distill-Qwen-7B
中端 GPU（RTX 4070 12GB）        → R1-Distill-Qwen-14B
高端 GPU（RTX 4090 24GB）        → R1-Distill-Qwen-32B
多卡工作站（2× RTX 4090）        → R1-Distill-Llama-70B

常见误区

误区一：蒸馏模型质量差

恰恰相反。蒸馏模型继承了 R1 的推理策略，在同等参数量下远超普通模型。7B 蒸馏版在数学测试上超过了 Qwen3-8B（+10.0%），与 Qwen3-235B 相当。

误区二：蒸馏模型只能做数学

不是。蒸馏模型保留了 R1 的通用推理能力——代码生成、逻辑分析、内容创作都能做。只是数学推理是蒸馏模型最突出的优势。

误区三：参数量越大越好

不是。大模型需要更多显存和更长的推理时间。如果你的硬件只有 8GB VRAM，强行运行 14B 模型会导致系统卡顿甚至崩溃。选择模型时，先看硬件条件。

误区四：蒸馏模型跟原始基座模型一样

不一样。蒸馏模型用 R1 的推理数据训练，推理能力远超原始基座。比如 R1-Distill-Qwen-7B 的推理能力远超原始的 Qwen2.5-7B——这就是蒸馏的力量。

小结

这一节我们概览了 DeepSeek 的蒸馏模型：从 1.5B 到 70B，覆盖从 CPU 到多卡工作站的硬件需求。7B 蒸馏版在数学测试上超过 GPT-4o，只需要一张 RTX 4060。选择蒸馏模型的核心原则是"根据硬件条件选择"——不要强行运行超出硬件能力的模型。下一节我们学习用 Ollama 部署蒸馏模型。

7.1 蒸馏模型概览 ​

这一节在讲什么？ ​

为什么需要蒸馏模型 ​

蒸馏模型列表 ​

性能对比 ​

蒸馏模型的选择策略 ​

常见误区 ​

小结 ​