主题
7.1 蒸馏模型概览
满血版 671B 需要数百 GB 显存,但蒸馏版 7B 只需要一张 RTX 4060——推理能力却接近 o1-mini。
这一节在讲什么?
DeepSeek-R1 的满血版有 671B 参数,需要数百 GB 显存才能运行——只有大型数据中心才能部署。但 DeepSeek 通过蒸馏技术,把 R1 的推理能力"浓缩"到了 1.5B 到 70B 的小模型中。这些蒸馏模型在普通消费级 GPU 上就能运行,推理能力却远超同等参数量的普通模型。这一节我们概览所有蒸馏模型,帮你根据硬件条件选择合适的版本。
为什么需要蒸馏模型
满血版 DeepSeek-R1 的部署需求:
参数量:671B(MoE,激活 37B)
显存需求:约 800GB(FP16)或 400GB(INT8)
硬件:8× NVIDIA H100 80GB 或等效配置
成本:数十万美元
→ 只有大型企业才能承担
蒸馏模型的部署需求:
参数量:7B
显存需求:约 5GB(FP16)或 3GB(INT4)
硬件:一张 RTX 4060 8GB
成本:几千元
→ 普通开发者就能运行蒸馏模型的核心价值是民主化 AI——让每个人都能在本地运行接近 o1-mini 水平的推理模型。
蒸馏模型列表
| 模型 | 基座 | 参数量 | 模型大小 | 推荐硬件 | 推理能力 |
|---|---|---|---|---|---|
| R1-Distill-Qwen-1.5B | Qwen2.5-Math | 1.5B | 3GB | CPU 可跑 | 入门级 |
| R1-Distill-Qwen-7B | Qwen2.5 | 7B | 5GB | RTX 4060 | 接近 o1-mini |
| R1-Distill-Llama-8B | Llama3.1 | 8B | 5GB | RTX 4060 | 接近 o1-mini |
| R1-Distill-Qwen-14B | Qwen2.5 | 14B | 15GB | RTX 4070 | 性能级 |
| R1-Distill-Qwen-32B | Qwen2.5 | 32B | 25GB | RTX 4090 | 发烧级 |
| R1-Distill-Llama-70B | Llama3.3 | 70B | 50GB+ | 多卡工作站 | 工作站级 |
性能对比
| 基准测试 | 1.5B | 7B | 8B | 14B | 32B | 70B | R1 满血 |
|---|---|---|---|---|---|---|---|
| AIME 2024 | 28.9% | 55.5% | 50.0% | 69.7% | 72.6% | 78.0% | 79.8% |
| MATH-500 | 83.9% | 92.8% | 89.1% | 95.0% | 96.2% | 97.3% | 97.3% |
7B 蒸馏版在 MATH-500 上达到了 92.8%——这已经超过了 GPT-4o 的 78.3%,接近 Claude Sonnet 的水平。
蒸馏模型的选择策略
你的硬件条件 → 推荐模型
───────────────────────────────────────────────
没有 GPU,只有 CPU → R1-Distill-Qwen-1.5B
消费级 GPU(RTX 4060 8GB) → R1-Distill-Qwen-7B
中端 GPU(RTX 4070 12GB) → R1-Distill-Qwen-14B
高端 GPU(RTX 4090 24GB) → R1-Distill-Qwen-32B
多卡工作站(2× RTX 4090) → R1-Distill-Llama-70B常见误区
误区一:蒸馏模型质量差
恰恰相反。蒸馏模型继承了 R1 的推理策略,在同等参数量下远超普通模型。7B 蒸馏版在数学测试上超过了 Qwen3-8B(+10.0%),与 Qwen3-235B 相当。
误区二:蒸馏模型只能做数学
不是。蒸馏模型保留了 R1 的通用推理能力——代码生成、逻辑分析、内容创作都能做。只是数学推理是蒸馏模型最突出的优势。
误区三:参数量越大越好
不是。大模型需要更多显存和更长的推理时间。如果你的硬件只有 8GB VRAM,强行运行 14B 模型会导致系统卡顿甚至崩溃。选择模型时,先看硬件条件。
误区四:蒸馏模型跟原始基座模型一样
不一样。蒸馏模型用 R1 的推理数据训练,推理能力远超原始基座。比如 R1-Distill-Qwen-7B 的推理能力远超原始的 Qwen2.5-7B——这就是蒸馏的力量。
小结
这一节我们概览了 DeepSeek 的蒸馏模型:从 1.5B 到 70B,覆盖从 CPU 到多卡工作站的硬件需求。7B 蒸馏版在数学测试上超过 GPT-4o,只需要一张 RTX 4060。选择蒸馏模型的核心原则是"根据硬件条件选择"——不要强行运行超出硬件能力的模型。下一节我们学习用 Ollama 部署蒸馏模型。