1.1 DeepSeek 是什么？开源、低价、强推理的国产大模型

如果 GPT-4 是 AI 领域的"iPhone"，那 DeepSeek 就是"小米"——同样的体验，1/30 的价格，还能自己拆开改。

这一节在讲什么？

你可能已经用过 ChatGPT、Claude 或者 Gemini，它们都很强，但有一个共同点——贵。GPT-4o 的 API 每百万 input token 要 $2.50，Claude Sonnet 要 $3，如果你的应用每天处理几百万 token，月账单可能上千美元。DeepSeek 的出现打破了这个局面——它以 GPT-4 级别的代码生成能力和接近 o3 的推理能力，只收 GPT-4 1/10 的价格。更重要的是，它是开源的——你可以下载模型权重，部署在自己的服务器上，数据完全不出机房。这一节我们把 DeepSeek 的定位、核心优势和与其他模型的对比讲清楚，帮你理解为什么 DeepSeek 在 2025 年引发了全球关注。

DeepSeek 的定位：开源、低价、强推理

DeepSeek 是中国 AI 公司深度求索（DeepSeek AI）开发的大语言模型系列。它的核心定位可以用三个关键词概括：

开源（Open Source）：DeepSeek 的模型权重以 MIT 许可证开源——这是最宽松的开源许可证之一，允许你自由使用、修改、分发，甚至用于商业产品。你可以把 DeepSeek 的模型下载到自己的服务器上运行，可以基于它微调自己的模型，可以用它的推理数据训练其他模型。相比之下，GPT-4、Claude、Gemini 都是闭源的——你只能通过 API 调用，无法看到模型内部，无法自己部署。

低价（Low Cost）：DeepSeek 的 API 价格极低——deepseek-chat（V3.2）每百万 input token 仅 $0.27，是 Claude Sonnet 的 1/11、GPT-4o 的 1/9。更厉害的是，DeepSeek 支持前缀缓存——如果你的请求前缀跟之前的请求相同，缓存命中的 token 价格再降 75%，低至 $0.07/M。这意味着在多轮对话场景下，DeepSeek 的实际成本可能只有标价的 1/4。

强推理（Strong Reasoning）：DeepSeek-R1 是专门为推理设计的模型——它在数学、逻辑、编程等需要"深度思考"的任务上表现卓越。在 AIME 2025 数学竞赛测试中，R1 达到了 87.5% 的准确率，接近 OpenAI o3 的水平。在编程基准 Aider 上，R1 达到了 71.6% 的通过率，略超 Claude Opus 4 的 70.6%——而价格只有 Opus 的 1/30。

与 GPT-4 / Claude / Gemini 的对比

理解 DeepSeek 最好的方式是把它放在主流大模型的生态里对比：

维度	DeepSeek V3.2	DeepSeek R1	GPT-4o	Claude Sonnet 4	Gemini 2.5 Pro
开源	✅ MIT	✅ MIT	❌	❌	❌
输入价格	$0.27/M	$0.55/M	$2.50/M	$3/M	$1.25/M
输出价格	$1.10/M	$2.19/M	$10/M	$15/M	$10/M
缓存折扣	✅ 75% off	✅ 75% off	❌	❌	❌
上下文	128K	64K	128K	200K	1M
代码生成	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
推理能力	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
中文能力	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
本地部署	✅ 蒸馏版	✅ 蒸馏版	❌	❌	❌

从这个对比中你能看出 DeepSeek 的独特价值：

价格优势：V3.2 的 input 价格是 GPT-4o 的 1/9，output 价格是 1/9。R1 虽然比 V3 贵一倍，但仍然只有 GPT-4o 的 1/5。
推理优势：R1 在数学和逻辑推理上接近 o3 水平，这是 GPT-4o 和 Claude Sonnet 做不到的。
开源优势：唯一可以本地部署的主流大模型，适合有隐私和合规需求的企业。
中文优势：DeepSeek 的中文能力在所有模型中最强——这对中文用户来说是硬性优势。

但 DeepSeek 也有短板：Function Calling 能力不如 Claude，长上下文不如 Gemini，英文能力不如 GPT-4o。我们会在第 8 章详细讨论这些局限。

DeepSeek 的核心优势

让我们深入理解 DeepSeek 的五个核心优势：

1. 开源——MIT 许可证，可商用、可修改、可蒸馏

DeepSeek 的模型权重以 MIT 许可证发布，这意味着你可以：

商业使用：把 DeepSeek 集成到你的商业产品中，不需要支付许可费
修改模型：基于 DeepSeek 微调你自己的行业模型
蒸馏训练：用 DeepSeek-R1 的推理数据训练更小的模型——DeepSeek 官方就是这么做的，他们用 R1 的 80 万条推理样本微调 Qwen 和 Llama，得到了性能接近 o1-mini 的蒸馏模型

python

# 开源意味着你可以直接下载模型权重
# 从 HuggingFace 下载 DeepSeek-R1
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B",
    torch_dtype=torch.float16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Qwen-7B")

2. 低价——1/30 的价格，同等的代码质量

让我们算一笔账：假设你每天用 AI 生成代码，每天消耗 100 万 input token 和 50 万 output token：

月度成本对比（30 天）：

  DeepSeek V3.2：
    input:  100万 × 30天 × $0.27/M = $8.1
    output: 50万 × 30天 × $1.10/M = $16.5
    合计：$24.6/月

  Claude Sonnet 4：
    input:  100万 × 30天 × $3/M = $90
    output: 50万 × 30天 × $15/M = $225
    合计：$315/月

  GPT-4o：
    input:  100万 × 30天 × $2.50/M = $75
    output: 50万 × 30天 × $10/M = $150
    合计：$225/月

  DeepSeek 的成本是 Claude 的 1/13，GPT-4o 的 1/9

如果考虑缓存命中（多轮对话场景下缓存命中率通常 50%+），DeepSeek 的实际成本更低。

3. 强推理——R1 接近 o3 水平

DeepSeek-R1 的推理能力是它最引人注目的优势。在几个关键基准测试上：

基准测试	DeepSeek R1	OpenAI o1	GPT-4o	Claude Sonnet
AIME 2025（数学）	87.5%	~88%	59.4%	~65%
GPQA（科学推理）	81.0%	~78%	68.4%	~70%
Aider（编程）	71.6%	~72%	~49%	~65%

R1 的推理能力接近 o1，远超 GPT-4o 和 Claude Sonnet——而价格只有 o1 的一小部分。

4. OpenAI 兼容——迁移零成本

DeepSeek 的 API 完全兼容 OpenAI 格式——你只需要改 base_url 和 api_key，代码零修改：

python

# 从 OpenAI 迁移到 DeepSeek，只需改两行
from openai import OpenAI

# 之前用 OpenAI
# client = OpenAI(api_key="sk-...", base_url="https://api.openai.com/v1")

# 现在用 DeepSeek
client = OpenAI(api_key="sk-...", base_url="https://api.deepseek.com")

# 其余代码完全不变
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "Hello!"}]
)

5. 中英双语——中文能力突出

DeepSeek 的训练数据包含大量中文语料，中文理解和生成能力在所有主流模型中最强。这对中文用户来说是硬性优势——无论是中文代码注释、中文文档生成、还是中文业务逻辑理解，DeepSeek 都比 GPT-4o 和 Claude 更准确。

谁适合用 DeepSeek

适合用 DeepSeek 的人：

预算有限的开发者——用 1/10 的价格获得接近 GPT-4 的代码生成能力
需要开源模型的企业——可以私有化部署，数据不出机房
中文场景用户——中文理解和生成能力最强
AI Agent 构建者——Function Calling + 低成本 = 高性价比 Agent
需要强推理的用户——R1 的数学和逻辑推理接近 o3

不太适合用 DeepSeek 的人：

需要最强 Function Calling 的用户——Claude Sonnet 在工具调用上更可靠
需要超长上下文的用户——Gemini 2.5 Pro 的 1M 上下文无可替代
需要多模态能力的用户——DeepSeek 目前主要是文本模型

常见误区

误区一：DeepSeek 只是"便宜的 GPT 替代品"

不是。DeepSeek 有三个 GPT 不具备的独特优势：开源（可私有化部署）、强推理（R1 接近 o3）、中文能力突出。它不是"便宜的替代品"，而是在某些场景下（推理、中文、成本敏感）是更好的选择。

误区二：开源意味着质量差

恰恰相反。DeepSeek-R1 在 AIME 2025 上达到 87.5%，Aider 编程测试达到 71.6%——这些成绩超过了很多闭源模型。开源不等于低质量，DeepSeek 证明了开源模型可以达到甚至超过闭源模型的水平。

误区三：DeepSeek 只能做中文

不是。DeepSeek 的英文能力也很强——在 HumanEval、MMLU-Pro 等英文基准上表现优秀。只是中文能力相对更强，不代表英文能力弱。

误区四：671B 参数意味着需要超级计算机

DeepSeek 采用 MoE（Mixture of Experts）架构，671B 是总参数量，但每次推理只激活 37B 参数——这相当于一个 37B 参数的 Dense 模型的推理成本。而且 DeepSeek 提供了 1.5B 到 70B 的蒸馏模型，普通消费级 GPU 就能运行。

小结

这一节我们建立了对 DeepSeek 的基本认知：它是一个开源、低价、强推理的大模型，API 价格是 Claude 的 1/30，推理能力接近 o3，中文能力最强，兼容 OpenAI 格式。DeepSeek 不是"便宜的 GPT 替代品"——它在推理、中文、开源生态上有独特优势。下一节我们深入 DeepSeek 的模型家族，看看 V3 和 R1 两条产品线各有什么特点。

1.1 DeepSeek 是什么？开源、低价、强推理的国产大模型 ​

这一节在讲什么？ ​

DeepSeek 的定位：开源、低价、强推理 ​

与 GPT-4 / Claude / Gemini 的对比 ​

DeepSeek 的核心优势 ​

1. 开源——MIT 许可证，可商用、可修改、可蒸馏 ​

2. 低价——1/30 的价格，同等的代码质量 ​

3. 强推理——R1 接近 o3 水平 ​

4. OpenAI 兼容——迁移零成本 ​

5. 中英双语——中文能力突出 ​

谁适合用 DeepSeek ​

常见误区 ​

小结 ​