DeepSeek V3 模型使用指南

2026-05-07 · DeepSeek

概述

DeepSeek-V3 是一个强大的混合专家（Mixture-of-Experts, MoE）语言模型，拥有671B总参数量，每个token激活37B参数。该模型采用多头潜在注意力（MLA）和 DeepSeekMoE 架构，实现了高效推理和经济性训练。

模型架构

总参数：671B（67B激活/token）
上下文长度：128K tokens
架构创新：首创无辅助损失负载均衡策略，采用多Token预测（MTP）训练目标
训练效率：仅用2.788M H800 GPU小时完成全量训练

API 接入

安装 SDK

pip install openai

调用示例（OpenAI兼容接口）

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello"}
    ],
    stream=False
)

print(response.choices[0].message.content)

流式输出

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "解释量子计算"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

可用模型

模型	参数量	上下文	说明
deepseek-chat	671B (37B激活)	128K	V3 对话模型
deepseek-reasoner	671B	128K	R1 推理模型

性能基准

在 MMLU 5-shot 上达到 87.1%，BBH 3-shot 达到 87.5%，超越同级别开源模型，与闭源领先模型性能相当。训练过程全程无不可恢复的loss尖峰，无需回滚，展现了卓越的训练稳定性。

FP8 混合精度训练

DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性和有效性，通过算法、框架和硬件的协同设计，克服了跨节点MoE训练的通信瓶颈，几乎实现了完整的计算-通信重叠。

← Anthropi… Google G… →

DeepSeek V3 模型使用指南

概述

模型架构

API 接入

安装 SDK

调用示例（OpenAI兼容接口）

流式输出

可用模型

性能基准

FP8 混合精度训练

评论区

发表评论取消回复

欢迎回来

创建账号

DeepSeek V3 模型使用指南

概述

模型架构

API 接入

安装 SDK

调用示例（OpenAI兼容接口）

流式输出

可用模型

性能基准

FP8 混合精度训练

评论区

发表评论 取消回复

发表评论取消回复