DeepSeek-V3 是一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,总参数671B,每个token激活37B参数。该模型在多项基准测试中达到或超越闭源模型水平,训练成本仅为2.788M H800 GPU小时。
DeepSeek-V3 沿用并改进了 DeepSeek-V2 提出的 MLA 机制。与传统多头注意力(MHA)相比,MLA 通过低秩压缩 Key-Value 对,显著降低推理时的 KV Cache 内存占用,同时保持模型质量。
采用细粒度专家分割策略,将传统8个专家拆分为更多小专家,每个token路由到Top-K个专家。这种设计提高了专家特化程度和计算效率。
传统MoE模型需要辅助损失函数来平衡各专家的负载,但这会损害模型性能。DeepSeek-V3 开创性地提出无辅助损失策略,通过动态偏置项调整专家选择概率,在保持负载均衡的同时避免性能损失。
DeepSeek-V3 引入多Token预测训练目标,模型同时预测后续多个token。这一创新带来两个好处:
DeepSeek-V3 首次在超大规模模型上验证了 FP8 训练的可行性。通过精心设计的量化策略,FP8训练与BF16训练的性能差异可忽略不计,同时将计算和通信开销减半。
通过算法、框架和硬件的协同设计,实现了跨节点MoE训练中计算与通信的近乎完全重叠,极大提升了训练效率。
DeepSeek-V3 创新性地从长思维链(CoT)模型 DeepSeek-R1 蒸馏推理能力。该方法:
| 评测 | DeepSeek-V3 | GPT-4o | Claude 3.5 Sonnet |
|---|---|---|---|
| MMLU | 88.5 | 87.2 | 88.3 |
| MMLU-Pro | 75.9 | 72.6 | 78.0 |
| HumanEval | 65.2 | - | - |
| MATH | 61.6 | - | - |
| C-Eval | 90.1 | - | - |
评论区