欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册
DeepSeek

DeepSeek V3 模型使用指南

概述

DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,拥有671B总参数量,每个token激活37B参数。该模型采用多头潜在注意力(MLA)和 DeepSeekMoE 架构,实现了高效推理和经济性训练。

模型架构

  • 总参数:671B(67B激活/token)
  • 上下文长度:128K tokens
  • 架构创新:首创无辅助损失负载均衡策略,采用多Token预测(MTP)训练目标
  • 训练效率:仅用2.788M H800 GPU小时完成全量训练

API 接入

安装 SDK

pip install openai

调用示例(OpenAI兼容接口)

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello"}
    ],
    stream=False
)

print(response.choices[0].message.content)

流式输出

stream = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "解释量子计算"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

可用模型

模型参数量上下文说明
deepseek-chat671B (37B激活)128KV3 对话模型
deepseek-reasoner671B128KR1 推理模型

性能基准

在 MMLU 5-shot 上达到 87.1%,BBH 3-shot 达到 87.5%,超越同级别开源模型,与闭源领先模型性能相当。训练过程全程无不可恢复的loss尖峰,无需回滚,展现了卓越的训练稳定性。

FP8 混合精度训练

DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性和有效性,通过算法、框架和硬件的协同设计,克服了跨节点MoE训练的通信瓶颈,几乎实现了完整的计算-通信重叠。

DeepSeek

DeepSeek API 快速入门与集成指南

DeepSeek API 概览

DeepSeek API 采用与 OpenAI 兼容的接口格式,开发者可以零成本迁移现有代码。同时提供 Anthropic API 兼容格式,支持多种集成方式。

基础配置

参数
Base URL (OpenAI格式)https://api.deepseek.com
Base URL (Anthropic格式)https://api.deepseek.com/anthropic
API Key 申请platform.deepseek.com/api_keys

可用模型

模型名说明
deepseek-v4-pro最新旗舰模型,支持思考模式
deepseek-v4-flash快速响应版,高性价比
deepseek-chat将废弃(2026/07/24),对应v4-flash非思考模式
deepseek-reasoner将废弃(2026/07/24),对应v4-flash思考模式

Python 快速开始

使用 OpenAI SDK

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

# 非流式调用
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"}
    ],
    stream=False
)
print(response.choices[0].message.content)

思考模式

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "求解:x^2 + 5x + 6 = 0"}
    ],
    thinking={"type": "enabled"},
    reasoning_effort="high",  # low/medium/high
    stream=False
)

流式输出

stream = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "写一首关于春天的诗"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

cURL 调用

curl https://api.deepseek.com/chat/completions 
 -H "Content-Type: application/json" 
 -H "Authorization: Bearer $DEEPSEEK_API_KEY" 
 -d '{
   "model": "deepseek-v4-pro",
   "messages": [
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": "Hello!"}
   ],
   "thinking": {"type": "enabled"},
   "reasoning_effort": "high",
   "stream": false
 }'

Agent 工具集成

DeepSeek API 已被主流 AI Agent 工具支持,无需编码即可使用:

  • Claude Code — 配置自定义API端点
  • GitHub Copilot — 选择 DeepSeek 作为后端模型
  • OpenCode — 直接支持 DeepSeek
  • One API — 通过渠道配置接入

定价

模型输入输出(含思考)输出(不含思考)
deepseek-v4-pro¥4/1M tokens¥16/1M tokens¥16/1M tokens
deepseek-v4-flash¥1/1M tokens¥4/1M tokens¥4/1M tokens

相比 OpenAI 同级别模型,DeepSeek 的定价低 80-90%。

DeepSeek

DeepSeek-V3 技术深度解析:MoE架构与训练创新

DeepSeek-V3 简介

DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,总参数671B,每个token激活37B参数。该模型在多项基准测试中达到或超越闭源模型水平,训练成本仅为2.788M H800 GPU小时。

核心架构创新

1. 多头潜在注意力(MLA)

DeepSeek-V3 沿用并改进了 DeepSeek-V2 提出的 MLA 机制。与传统多头注意力(MHA)相比,MLA 通过低秩压缩 Key-Value 对,显著降低推理时的 KV Cache 内存占用,同时保持模型质量。

2. DeepSeekMoE 架构

采用细粒度专家分割策略,将传统8个专家拆分为更多小专家,每个token路由到Top-K个专家。这种设计提高了专家特化程度和计算效率。

3. 无辅助损失的负载均衡

传统MoE模型需要辅助损失函数来平衡各专家的负载,但这会损害模型性能。DeepSeek-V3 开创性地提出无辅助损失策略,通过动态偏置项调整专家选择概率,在保持负载均衡的同时避免性能损失。

4. 多Token预测(MTP)

DeepSeek-V3 引入多Token预测训练目标,模型同时预测后续多个token。这一创新带来两个好处:

  • 训练时提供更丰富的学习信号,提升模型性能
  • 推理时可用于推测解码(Speculative Decoding),加速生成

训练效率突破

FP8 混合精度训练

DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性。通过精心设计的量化策略,FP8训练与BF16训练的性能差异可忽略不计,同时将计算和通信开销减半。

计算-通信重叠

通过算法、框架和硬件的协同设计,实现了跨节点MoE训练中计算与通信的近乎完全重叠,极大提升了训练效率。

后训练:从DeepSeek-R1蒸馏

DeepSeek-V3 创新性地从长思维链(CoT)模型 DeepSeek-R1 蒸馏推理能力。该方法:

  • 将R1的验证和反思模式优雅地融入V3
  • 显著提升推理性能
  • 同时保持输出风格和长度的可控性

基准测试表现

评测DeepSeek-V3GPT-4oClaude 3.5 Sonnet
MMLU88.587.288.3
MMLU-Pro75.972.678.0
HumanEval65.2--
MATH61.6--
C-Eval90.1--

开源资源

  • 模型权重:HuggingFace (deepseek-ai/DeepSeek-V3)
  • 基础模型:DeepSeek-V3-Base(671B参数,128K上下文)
  • 总大小:685B(含14B MTP模块权重)
  • 许可证:MIT License(可商用)
DeepSeek

DeepSeek API 快速入门

## DeepSeek API 快速入门 ### 为什么选择DeepSeek - 成本极低(约为GPT-4的1/10) - 中文能力强 - 支持超长上下文 - 开源可本地部署 ### API调用 ```python from openai import OpenAI client = OpenAI( api_key="YOUR_DEEPSEEK_KEY", base_url="https://api.deepseek.com/v1" ) response = client.chat.completions.create( model="deepseek-chat", messages=[{"role": "user", "content": "介绍一下自己"}] ) ``` ### 模型选择 | 模型 | 特点 | 适用场景 | |------|------|----------| | deepseek-chat | 通用对话 | 日常对话 | | deepseek-coder | 代码专用 | 编程任务 | | deepseek-reasoner | 推理增强 | 复杂推理 |
DeepSeek

DeepSeek V4 Thinking 模式详解

## DeepSeek V4 Thinking 模式详解 ### 什么是 Thinking 模式 DeepSeek V4 系列原生支持 Thinking 模式(思维链推理),模型在回答前先进行内部推理,输出更准确的结果。 ### 模式切换 ```python from openai import OpenAI client = OpenAI(base_url="https://api.deepseek.com/v1", api_key="your-key") # 标准(平衡模式) response = client.chat.completions.create( model="deepseek-v4-pro", reasoning_effort="standard", messages=[{"role": "user", "content": "解方程 x^2 + 3x - 4 = 0"}] ) # 扩展推理(数学/科研) response = client.chat.completions.create( model="deepseek-v4-pro", reasoning_effort="extended", messages=[{"role": "user", "content": "证明哥德巴赫猜想"}] ) ``` ### V4-Pro vs V4-Flash 参数对比 | 参数 | V4-Pro | V4-Flash | |------|--------|----------| | 总参数 | 1.6T | 284B | | 激活参数 | 49B | 13B | | 最大上下文 | 1,000,000 tokens | 1,000,000 tokens | | 输入价格(缓存命中) | 0.25/M | 0.2/M | | 输出价格 | 6/M | 2/M | ### 适用场景 - V4-Pro:数学推理、竞赛编程、企业级应用 - V4-Flash:日常对话、代码补全、大规模调用
DeepSeek

DeepSeek V4 多模态能力指南

## DeepSeek V4 多模态能力指南 ### 支持的模态 DeepSeek V4 系列支持以下多模态输入: - 纯文本 - 文本 + 图片 - 文本 + 图片 + 音频 ### 图片输入示例 ```python from openai import OpenAI client = OpenAI(base_url="https://api.deepseek.com/v1", api_key="your-key") response = client.chat.completions.create( model="deepseek-v4-pro", messages=[ { "role": "user", "content": [ {"type": "text", "text": "描述这张图片"}, {"type": "image_url", "image_url": {"url": "https://example.com/image.jpg"}} ] } ] ) print(response.choices[0].message.content) ``` ### 函数调用 ```python tools = [{ "type": "function", "function": { "name": "get_weather", "description": "获取天气", "parameters": { "type": "object", "properties": { "city": {"type": "string", "description": "城市名"} }, "required": ["city"] } } }] response = client.chat.completions.create( model="deepseek-v4-pro", messages=[{"role": "user", "content": "北京天气怎么样"}], tools=tools, tool_choice="auto" ) ``` ### 注意事项 - V4 系列兼容 OpenAI 和 Anthropic 双协议 - deepseek-chat 和 deepseek-reasoner 将于2026年7月24日退役 - 新 model ID:deepseek-v4-flash / deepseek-v4-pro