跳转到内容

7.1 蒸馏模型概览

满血版 671B 需要数百 GB 显存,但蒸馏版 7B 只需要一张 RTX 4060——推理能力却接近 o1-mini。


这一节在讲什么?

DeepSeek-R1 的满血版有 671B 参数,需要数百 GB 显存才能运行——只有大型数据中心才能部署。但 DeepSeek 通过蒸馏技术,把 R1 的推理能力"浓缩"到了 1.5B 到 70B 的小模型中。这些蒸馏模型在普通消费级 GPU 上就能运行,推理能力却远超同等参数量的普通模型。这一节我们概览所有蒸馏模型,帮你根据硬件条件选择合适的版本。


为什么需要蒸馏模型

满血版 DeepSeek-R1 的部署需求:

  参数量:671B(MoE,激活 37B)
  显存需求:约 800GB(FP16)或 400GB(INT8)
  硬件:8× NVIDIA H100 80GB 或等效配置
  成本:数十万美元

  → 只有大型企业才能承担

蒸馏模型的部署需求:

  参数量:7B
  显存需求:约 5GB(FP16)或 3GB(INT4)
  硬件:一张 RTX 4060 8GB
  成本:几千元

  → 普通开发者就能运行

蒸馏模型的核心价值是民主化 AI——让每个人都能在本地运行接近 o1-mini 水平的推理模型。


蒸馏模型列表

模型基座参数量模型大小推荐硬件推理能力
R1-Distill-Qwen-1.5BQwen2.5-Math1.5B3GBCPU 可跑入门级
R1-Distill-Qwen-7BQwen2.57B5GBRTX 4060接近 o1-mini
R1-Distill-Llama-8BLlama3.18B5GBRTX 4060接近 o1-mini
R1-Distill-Qwen-14BQwen2.514B15GBRTX 4070性能级
R1-Distill-Qwen-32BQwen2.532B25GBRTX 4090发烧级
R1-Distill-Llama-70BLlama3.370B50GB+多卡工作站工作站级

性能对比

基准测试1.5B7B8B14B32B70BR1 满血
AIME 202428.9%55.5%50.0%69.7%72.6%78.0%79.8%
MATH-50083.9%92.8%89.1%95.0%96.2%97.3%97.3%

7B 蒸馏版在 MATH-500 上达到了 92.8%——这已经超过了 GPT-4o 的 78.3%,接近 Claude Sonnet 的水平。


蒸馏模型的选择策略

你的硬件条件                      → 推荐模型
───────────────────────────────────────────────
没有 GPU,只有 CPU               → R1-Distill-Qwen-1.5B
消费级 GPU(RTX 4060 8GB)       → R1-Distill-Qwen-7B
中端 GPU(RTX 4070 12GB)        → R1-Distill-Qwen-14B
高端 GPU(RTX 4090 24GB)        → R1-Distill-Qwen-32B
多卡工作站(2× RTX 4090)        → R1-Distill-Llama-70B

常见误区

误区一:蒸馏模型质量差

恰恰相反。蒸馏模型继承了 R1 的推理策略,在同等参数量下远超普通模型。7B 蒸馏版在数学测试上超过了 Qwen3-8B(+10.0%),与 Qwen3-235B 相当。

误区二:蒸馏模型只能做数学

不是。蒸馏模型保留了 R1 的通用推理能力——代码生成、逻辑分析、内容创作都能做。只是数学推理是蒸馏模型最突出的优势。

误区三:参数量越大越好

不是。大模型需要更多显存和更长的推理时间。如果你的硬件只有 8GB VRAM,强行运行 14B 模型会导致系统卡顿甚至崩溃。选择模型时,先看硬件条件。

误区四:蒸馏模型跟原始基座模型一样

不一样。蒸馏模型用 R1 的推理数据训练,推理能力远超原始基座。比如 R1-Distill-Qwen-7B 的推理能力远超原始的 Qwen2.5-7B——这就是蒸馏的力量。


小结

这一节我们概览了 DeepSeek 的蒸馏模型:从 1.5B 到 70B,覆盖从 CPU 到多卡工作站的硬件需求。7B 蒸馏版在数学测试上超过 GPT-4o,只需要一张 RTX 4060。选择蒸馏模型的核心原则是"根据硬件条件选择"——不要强行运行超出硬件能力的模型。下一节我们学习用 Ollama 部署蒸馏模型。

基于 MIT 许可发布