DeepSeek

DeepSeek V3 模型使用指南

概述

DeepSeek-V3 是一个强大的混合专家（Mixture-of-Experts, MoE）语言模型，拥有671B总参数量，每个token激活37B参数。该模型采用多头潜在注意力（MLA）和 DeepSeekMoE 架构，实现了高效推理和经济性训练。

模型架构

总参数：671B（67B激活/token）
上下文长度：128K tokens
架构创新：首创无辅助损失负载均衡策略，采用多Token预测（MTP）训练目标
训练效率：仅用2.788M H800 GPU小时完成全量训练

API 接入

安装 SDK

pip install openai

调用示例（OpenAI兼容接口）

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello"}
    ],
    stream=False
)

print(response.choices[0].message.content)

流式输出

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "解释量子计算"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

可用模型

模型	参数量	上下文	说明
deepseek-chat	671B (37B激活)	128K	V3 对话模型
deepseek-reasoner	671B	128K	R1 推理模型

性能基准

在 MMLU 5-shot 上达到 87.1%，BBH 3-shot 达到 87.5%，超越同级别开源模型，与闭源领先模型性能相当。训练过程全程无不可恢复的loss尖峰，无需回滚，展现了卓越的训练稳定性。

FP8 混合精度训练

DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性和有效性，通过算法、框架和硬件的协同设计，克服了跨节点MoE训练的通信瓶颈，几乎实现了完整的计算-通信重叠。

DeepSeek

DeepSeek API 快速入门与集成指南

DeepSeek API 概览

DeepSeek API 采用与 OpenAI 兼容的接口格式，开发者可以零成本迁移现有代码。同时提供 Anthropic API 兼容格式，支持多种集成方式。

基础配置

参数	值
Base URL (OpenAI格式)	`https://api.deepseek.com`
Base URL (Anthropic格式)	`https://api.deepseek.com/anthropic`
API Key 申请	platform.deepseek.com/api_keys

可用模型

模型名	说明
deepseek-v4-pro	最新旗舰模型，支持思考模式
deepseek-v4-flash	快速响应版，高性价比
deepseek-chat	将废弃(2026/07/24)，对应v4-flash非思考模式
deepseek-reasoner	将废弃(2026/07/24)，对应v4-flash思考模式

Python 快速开始

使用 OpenAI SDK

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

# 非流式调用
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ],
    stream=False
)
print(response.choices[0].message.content)

思考模式

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "求解：x^2 + 5x + 6 = 0"}
    ],
    thinking={"type": "enabled"},
    reasoning_effort="high",  # low/medium/high
    stream=False
)

流式输出

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "写一首关于春天的诗"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

cURL 调用

curl https://api.deepseek.com/chat/completions 
 -H "Content-Type: application/json" 
 -H "Authorization: Bearer $DEEPSEEK_API_KEY" 
 -d '{
   "model": "deepseek-v4-pro",
   "messages": [
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": "Hello!"}
   ],
   "thinking": {"type": "enabled"},
   "reasoning_effort": "high",
   "stream": false
 }'

Agent 工具集成

DeepSeek API 已被主流 AI Agent 工具支持，无需编码即可使用：

Claude Code — 配置自定义API端点
GitHub Copilot — 选择 DeepSeek 作为后端模型
OpenCode — 直接支持 DeepSeek
One API — 通过渠道配置接入

定价

模型	输入	输出（含思考）	输出（不含思考）
deepseek-v4-pro	¥4/1M tokens	¥16/1M tokens	¥16/1M tokens
deepseek-v4-flash	¥1/1M tokens	¥4/1M tokens	¥4/1M tokens

相比 OpenAI 同级别模型，DeepSeek 的定价低 80-90%。

DeepSeek

DeepSeek-V3 技术深度解析：MoE架构与训练创新

DeepSeek-V3 简介

DeepSeek-V3 是一个强大的混合专家（Mixture-of-Experts, MoE）语言模型，总参数671B，每个token激活37B参数。该模型在多项基准测试中达到或超越闭源模型水平，训练成本仅为2.788M H800 GPU小时。

核心架构创新

1. 多头潜在注意力（MLA）

DeepSeek-V3 沿用并改进了 DeepSeek-V2 提出的 MLA 机制。与传统多头注意力（MHA）相比，MLA 通过低秩压缩 Key-Value 对，显著降低推理时的 KV Cache 内存占用，同时保持模型质量。

2. DeepSeekMoE 架构

采用细粒度专家分割策略，将传统8个专家拆分为更多小专家，每个token路由到Top-K个专家。这种设计提高了专家特化程度和计算效率。

3. 无辅助损失的负载均衡

传统MoE模型需要辅助损失函数来平衡各专家的负载，但这会损害模型性能。DeepSeek-V3 开创性地提出无辅助损失策略，通过动态偏置项调整专家选择概率，在保持负载均衡的同时避免性能损失。

4. 多Token预测（MTP）

DeepSeek-V3 引入多Token预测训练目标，模型同时预测后续多个token。这一创新带来两个好处：

训练时提供更丰富的学习信号，提升模型性能
推理时可用于推测解码（Speculative Decoding），加速生成

训练效率突破

FP8 混合精度训练

DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性。通过精心设计的量化策略，FP8训练与BF16训练的性能差异可忽略不计，同时将计算和通信开销减半。

计算-通信重叠

通过算法、框架和硬件的协同设计，实现了跨节点MoE训练中计算与通信的近乎完全重叠，极大提升了训练效率。

后训练：从DeepSeek-R1蒸馏

DeepSeek-V3 创新性地从长思维链（CoT）模型 DeepSeek-R1 蒸馏推理能力。该方法：

将R1的验证和反思模式优雅地融入V3
显著提升推理性能
同时保持输出风格和长度的可控性

基准测试表现

评测	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet
MMLU	88.5	87.2	88.3
MMLU-Pro	75.9	72.6	78.0
HumanEval	65.2	-	-
MATH	61.6	-	-
C-Eval	90.1	-	-

开源资源

模型权重：HuggingFace (deepseek-ai/DeepSeek-V3)
基础模型：DeepSeek-V3-Base（671B参数，128K上下文）
总大小：685B（含14B MTP模块权重）
许可证：MIT License（可商用）

DeepSeek

DeepSeek API 快速入门

## DeepSeek API 快速入门 ### 为什么选择DeepSeek - 成本极低（约为GPT-4的1/10） - 中文能力强 - 支持超长上下文 - 开源可本地部署 ### API调用 ```python from openai import OpenAI client = OpenAI( api_key="YOUR_DEEPSEEK_KEY", base_url="https://api.deepseek.com/v1" ) response = client.chat.completions.create( model="deepseek-chat", messages=[{"role": "user", "content": "介绍一下自己"}] ) ``` ### 模型选择 | 模型 | 特点 | 适用场景 | |------|------|----------| | deepseek-chat | 通用对话 | 日常对话 | | deepseek-coder | 代码专用 | 编程任务 | | deepseek-reasoner | 推理增强 | 复杂推理 |

DeepSeek

DeepSeek V4 Thinking 模式详解

## DeepSeek V4 Thinking 模式详解 ### 什么是 Thinking 模式 DeepSeek V4 系列原生支持 Thinking 模式（思维链推理），模型在回答前先进行内部推理，输出更准确的结果。 ### 模式切换 ```python from openai import OpenAI client = OpenAI(base_url="https://api.deepseek.com/v1", api_key="your-key") # 标准（平衡模式） response = client.chat.completions.create( model="deepseek-v4-pro", reasoning_effort="standard", messages=[{"role": "user", "content": "解方程 x^2 + 3x - 4 = 0"}] ) # 扩展推理（数学/科研） response = client.chat.completions.create( model="deepseek-v4-pro", reasoning_effort="extended", messages=[{"role": "user", "content": "证明哥德巴赫猜想"}] ) ``` ### V4-Pro vs V4-Flash 参数对比 | 参数 | V4-Pro | V4-Flash | |------|--------|----------| | 总参数 | 1.6T | 284B | | 激活参数 | 49B | 13B | | 最大上下文 | 1,000,000 tokens | 1,000,000 tokens | | 输入价格(缓存命中) | 0.25/M | 0.2/M | | 输出价格 | 6/M | 2/M | ### 适用场景 - V4-Pro：数学推理、竞赛编程、企业级应用 - V4-Flash：日常对话、代码补全、大规模调用

DeepSeek

DeepSeek V4 多模态能力指南

## DeepSeek V4 多模态能力指南 ### 支持的模态 DeepSeek V4 系列支持以下多模态输入： - 纯文本 - 文本 + 图片 - 文本 + 图片 + 音频 ### 图片输入示例 ```python from openai import OpenAI client = OpenAI(base_url="https://api.deepseek.com/v1", api_key="your-key") response = client.chat.completions.create( model="deepseek-v4-pro", messages=[ { "role": "user", "content": [ {"type": "text", "text": "描述这张图片"}, {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}} ] } ] ) print(response.choices[0].message.content) ``` ### 函数调用 ```python tools = [{ "type": "function", "function": { "name": "get_weather", "description": "获取天气", "parameters": { "type": "object", "properties": { "city": {"type": "string", "description": "城市名"} }, "required": ["city"] } } }] response = client.chat.completions.create( model="deepseek-v4-pro", messages=[{"role": "user", "content": "北京天气怎么样"}], tools=tools, tool_choice="auto" ) ``` ### 注意事项 - V4 系列兼容 OpenAI 和 Anthropic 双协议 - deepseek-chat 和 deepseek-reasoner 将于2026年7月24日退役 - 新 model ID：deepseek-v4-flash / deepseek-v4-pro

欢迎回来

创建账号

DeepSeek V3 模型使用指南

概述

模型架构

API 接入

安装 SDK

调用示例（OpenAI兼容接口）

流式输出

可用模型

性能基准

FP8 混合精度训练

DeepSeek API 快速入门与集成指南

DeepSeek API 概览

基础配置

可用模型

Python 快速开始

使用 OpenAI SDK

思考模式

流式输出

cURL 调用

Agent 工具集成

定价

DeepSeek-V3 技术深度解析：MoE架构与训练创新

DeepSeek-V3 简介

核心架构创新

1. 多头潜在注意力（MLA）

2. DeepSeekMoE 架构

3. 无辅助损失的负载均衡

4. 多Token预测（MTP）

训练效率突破

FP8 混合精度训练

计算-通信重叠

后训练：从DeepSeek-R1蒸馏

基准测试表现

开源资源

DeepSeek API 快速入门

DeepSeek V4 Thinking 模式详解

DeepSeek V4 多模态能力指南