DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有671B总参数量,每个token激活37B参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济性训练。
pip install openai
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello"}
],
stream=False
)
print(response.choices[0].message.content)
stream = client.chat.completions.create(
model="deepseek-chat",
messages=[{"role": "user", "content": "解释量子计算"}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
| 模型 | 参数量 | 上下文 | 说明 |
|---|---|---|---|
| deepseek-chat | 671B (37B激活) | 128K | V3 对话模型 |
| deepseek-reasoner | 671B | 128K | R1 推理模型 |
在 MMLU 5-shot 上达到 87.1%,BBH 3-shot 达到 87.5%,超越同级别开源模型,与闭源领先模型性能相当。训练过程全程无不可恢复的loss尖峰,无需回滚,展现了卓越的训练稳定性。
DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性和有效性,通过算法、框架和硬件的协同设计,克服了跨节点MoE训练的通信瓶颈,几乎实现了完整的计算-通信重叠。
评论区