欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

DeepSeek V3 模型使用指南

2026-05-07 · DeepSeek

概述

DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有671B总参数量,每个token激活37B参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济性训练。

模型架构

  • 总参数:671B(67B激活/token)
  • 上下文长度:128K tokens
  • 架构创新:首创无辅助损失负载均衡策略,采用多Token预测(MTP)训练目标
  • 训练效率:仅用2.788M H800 GPU小时完成全量训练

API 接入

安装 SDK

pip install openai

调用示例(OpenAI兼容接口)

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello"}
    ],
    stream=False
)

print(response.choices[0].message.content)

流式输出

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "解释量子计算"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

可用模型

模型参数量上下文说明
deepseek-chat671B (37B激活)128KV3 对话模型
deepseek-reasoner671B128KR1 推理模型

性能基准

在 MMLU 5-shot 上达到 87.1%,BBH 3-shot 达到 87.5%,超越同级别开源模型,与闭源领先模型性能相当。训练过程全程无不可恢复的loss尖峰,无需回滚,展现了卓越的训练稳定性。

FP8 混合精度训练

DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性和有效性,通过算法、框架和硬件的协同设计,克服了跨节点MoE训练的通信瓶颈,几乎实现了完整的计算-通信重叠。

评论区

发表评论