概述
DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有671B总参数量,每个token激活37B参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济性训练。
模型架构
- 总参数:671B(67B激活/token)
- 上下文长度:128K tokens
- 架构创新:首创无辅助损失负载均衡策略,采用多Token预测(MTP)训练目标
- 训练效率:仅用2.788M H800 GPU小时完成全量训练
API 接入
安装 SDK
pip install openai
调用示例(OpenAI兼容接口)
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello"}
],
stream=False
)
print(response.choices[0].message.content)
流式输出
stream = client.chat.completions.create(
model="deepseek-chat",
messages=[{"role": "user", "content": "解释量子计算"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
可用模型
| 模型 | 参数量 | 上下文 | 说明 |
| deepseek-chat | 671B (37B激活) | 128K | V3 对话模型 |
| deepseek-reasoner | 671B | 128K | R1 推理模型 |
性能基准
在 MMLU 5-shot 上达到 87.1%,BBH 3-shot 达到 87.5%,超越同级别开源模型,与闭源领先模型性能相当。训练过程全程无不可恢复的loss尖峰,无需回滚,展现了卓越的训练稳定性。
FP8 混合精度训练
DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性和有效性,通过算法、框架和硬件的协同设计,克服了跨节点MoE训练的通信瓶颈,几乎实现了完整的计算-通信重叠。
DeepSeek API 概览
DeepSeek API 采用与 OpenAI 兼容的接口格式,开发者可以零成本迁移现有代码。同时提供 Anthropic API 兼容格式,支持多种集成方式。
基础配置
可用模型
| 模型名 | 说明 |
| deepseek-v4-pro | 最新旗舰模型,支持思考模式 |
| deepseek-v4-flash | 快速响应版,高性价比 |
| deepseek-chat | 将废弃(2026/07/24),对应v4-flash非思考模式 |
| deepseek-reasoner | 将废弃(2026/07/24),对应v4-flash思考模式 |
Python 快速开始
使用 OpenAI SDK
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
# 非流式调用
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
stream=False
)
print(response.choices[0].message.content)
思考模式
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "user", "content": "求解:x^2 + 5x + 6 = 0"}
],
thinking={"type": "enabled"},
reasoning_effort="high", # low/medium/high
stream=False
)
流式输出
stream = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "写一首关于春天的诗"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
cURL 调用
curl https://api.deepseek.com/chat/completions
-H "Content-Type: application/json"
-H "Authorization: Bearer $DEEPSEEK_API_KEY"
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"thinking": {"type": "enabled"},
"reasoning_effort": "high",
"stream": false
}'
Agent 工具集成
DeepSeek API 已被主流 AI Agent 工具支持,无需编码即可使用:
- Claude Code — 配置自定义API端点
- GitHub Copilot — 选择 DeepSeek 作为后端模型
- OpenCode — 直接支持 DeepSeek
- One API — 通过渠道配置接入
定价
| 模型 | 输入 | 输出(含思考) | 输出(不含思考) |
| deepseek-v4-pro | ¥4/1M tokens | ¥16/1M tokens | ¥16/1M tokens |
| deepseek-v4-flash | ¥1/1M tokens | ¥4/1M tokens | ¥4/1M tokens |
相比 OpenAI 同级别模型,DeepSeek 的定价低 80-90%。
DeepSeek-V3 简介
DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,总参数671B,每个token激活37B参数。该模型在多项基准测试中达到或超越闭源模型水平,训练成本仅为2.788M H800 GPU小时。
核心架构创新
1. 多头潜在注意力(MLA)
DeepSeek-V3 沿用并改进了 DeepSeek-V2 提出的 MLA 机制。与传统多头注意力(MHA)相比,MLA 通过低秩压缩 Key-Value 对,显著降低推理时的 KV Cache 内存占用,同时保持模型质量。
2. DeepSeekMoE 架构
采用细粒度专家分割策略,将传统8个专家拆分为更多小专家,每个token路由到Top-K个专家。这种设计提高了专家特化程度和计算效率。
3. 无辅助损失的负载均衡
传统MoE模型需要辅助损失函数来平衡各专家的负载,但这会损害模型性能。DeepSeek-V3 开创性地提出无辅助损失策略,通过动态偏置项调整专家选择概率,在保持负载均衡的同时避免性能损失。
4. 多Token预测(MTP)
DeepSeek-V3 引入多Token预测训练目标,模型同时预测后续多个token。这一创新带来两个好处:
- 训练时提供更丰富的学习信号,提升模型性能
- 推理时可用于推测解码(Speculative Decoding),加速生成
训练效率突破
FP8 混合精度训练
DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性。通过精心设计的量化策略,FP8训练与BF16训练的性能差异可忽略不计,同时将计算和通信开销减半。
计算-通信重叠
通过算法、框架和硬件的协同设计,实现了跨节点MoE训练中计算与通信的近乎完全重叠,极大提升了训练效率。
后训练:从DeepSeek-R1蒸馏
DeepSeek-V3 创新性地从长思维链(CoT)模型 DeepSeek-R1 蒸馏推理能力。该方法:
- 将R1的验证和反思模式优雅地融入V3
- 显著提升推理性能
- 同时保持输出风格和长度的可控性
基准测试表现
| 评测 | DeepSeek-V3 | GPT-4o | Claude 3.5 Sonnet |
| MMLU | 88.5 | 87.2 | 88.3 |
| MMLU-Pro | 75.9 | 72.6 | 78.0 |
| HumanEval | 65.2 | - | - |
| MATH | 61.6 | - | - |
| C-Eval | 90.1 | - | - |
开源资源
- 模型权重:HuggingFace (deepseek-ai/DeepSeek-V3)
- 基础模型:DeepSeek-V3-Base(671B参数,128K上下文)
- 总大小:685B(含14B MTP模块权重)
- 许可证:MIT License(可商用)
## DeepSeek API 快速入门
### 为什么选择DeepSeek
- 成本极低(约为GPT-4的1/10)
- 中文能力强
- 支持超长上下文
- 开源可本地部署
### API调用
```python
from openai import OpenAI
client = OpenAI(
api_key="YOUR_DEEPSEEK_KEY",
base_url="https://api.deepseek.com/v1"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[{"role": "user", "content": "介绍一下自己"}]
)
```
### 模型选择
| 模型 | 特点 | 适用场景 |
|------|------|----------|
| deepseek-chat | 通用对话 | 日常对话 |
| deepseek-coder | 代码专用 | 编程任务 |
| deepseek-reasoner | 推理增强 | 复杂推理 |
## DeepSeek V4 Thinking 模式详解
### 什么是 Thinking 模式
DeepSeek V4 系列原生支持 Thinking 模式(思维链推理),模型在回答前先进行内部推理,输出更准确的结果。
### 模式切换
```python
from openai import OpenAI
client = OpenAI(base_url="https://api.deepseek.com/v1", api_key="your-key")
# 标准(平衡模式)
response = client.chat.completions.create(
model="deepseek-v4-pro",
reasoning_effort="standard",
messages=[{"role": "user", "content": "解方程 x^2 + 3x - 4 = 0"}]
)
# 扩展推理(数学/科研)
response = client.chat.completions.create(
model="deepseek-v4-pro",
reasoning_effort="extended",
messages=[{"role": "user", "content": "证明哥德巴赫猜想"}]
)
```
### V4-Pro vs V4-Flash 参数对比
| 参数 | V4-Pro | V4-Flash |
|------|--------|----------|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 最大上下文 | 1,000,000 tokens | 1,000,000 tokens |
| 输入价格(缓存命中) | 0.25/M | 0.2/M |
| 输出价格 | 6/M | 2/M |
### 适用场景
- V4-Pro:数学推理、竞赛编程、企业级应用
- V4-Flash:日常对话、代码补全、大规模调用
## DeepSeek V4 多模态能力指南
### 支持的模态
DeepSeek V4 系列支持以下多模态输入:
- 纯文本
- 文本 + 图片
- 文本 + 图片 + 音频
### 图片输入示例
```python
from openai import OpenAI
client = OpenAI(base_url="https://api.deepseek.com/v1", api_key="your-key")
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "描述这张图片"},
{"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}}
]
}
]
)
print(response.choices[0].message.content)
```
### 函数调用
```python
tools = [{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取天气",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名"}
},
"required": ["city"]
}
}
}]
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "北京天气怎么样"}],
tools=tools,
tool_choice="auto"
)
```
### 注意事项
- V4 系列兼容 OpenAI 和 Anthropic 双协议
- deepseek-chat 和 deepseek-reasoner 将于2026年7月24日退役
- 新 model ID:deepseek-v4-flash / deepseek-v4-pro