AI 论文

大语言模型技术综述：从 GPT 到 DeepSeek

2026-05-07 · AI 论文

摘要

本文对2023-2026年间大语言模型（LLM）的关键技术进展进行综述，涵盖架构创新、训练方法、推理优化和应用趋势。

一、模型架构演进

1 Dense 模型

GPT-4、Claude、Gemini 等闭源模型采用 Dense Transformer 架构，所有参数在每次推理中激活。优势在于简单稳定，劣势是推理成本随参数量线性增长。

2 MoE 模型

混合专家（MoE）架构仅激活部分专家参数，DeepSeek-V3（671B总参/37B激活）和 Mixtral 是典型代表。核心挑战在于负载均衡——DeepSeek-V3 首创无辅助损失策略解决了这一难题。

3 多头潜在注意力（MLA）

DeepSeek-V2 提出的 MLA 机制将 KV Cache 压缩至低维潜在空间，显著降低推理内存占用，同时保持注意力质量。

二、训练方法

1 预训练

训练数据从万亿级 token 增长至14.8万亿（DeepSeek-V3），数据质量的重要性超越数量。FP8 混合精度训练成为超大规模模型训练的新范式。

2 后训练：SFT + RL

监督微调（SFT）+ 强化学习（RLHF/RLAIF）成为标准流程。DeepSeek-R1 验证了纯 RL 训练可涌现推理能力，无需 SFT 预热。

3 知识蒸馏

从大模型（教师）向小模型（学生）蒸馏推理能力成为趋势。DeepSeek-V3 从 R1 系列模型蒸馏 CoT 推理模式，在保持输出风格的同时提升推理性能。

三、推理优化

1 多Token预测（MTP）

传统自回归模型逐 token 生成，MTP 允许同时预测多个 token，既可提升训练信号，也可用于推理加速（推测解码）。

2 上下文扩展

从 4K → 32K → 128K → 1M+ token 上下文，RoPE 外推和 YaRN 等技术使模型在超长上下文中保持稳定。

四、推理模型

OpenAI o1/o3、DeepSeek-R1 等推理模型通过 Chain-of-Thought 显式展示推理过程，在数学、编程和科学推理任务上表现显著提升。关键发现：推理 compute-time scaling 比训练 scaling 更高效。

五、趋势展望

Agent 化：LLM 从对话工具走向自主 Agent，工具调用和多步规划成为核心能力
多模态：视觉、音频、视频理解与生成一体化
端侧部署：量化、蒸馏使大模型能力下沉到手机和边缘设备
成本效率：MoE + FP8 训练使顶级模型训练成本降至百万美元级别

← One API … Midjourn… →

大语言模型技术综述：从 GPT 到 DeepSeek

摘要

一、模型架构演进

1 Dense 模型

2 MoE 模型

3 多头潜在注意力（MLA）

二、训练方法

1 预训练

2 后训练：SFT + RL

3 知识蒸馏

三、推理优化

1 多Token预测（MTP）

2 上下文扩展

四、推理模型

五、趋势展望

评论区

发表评论取消回复

欢迎回来

创建账号

大语言模型技术综述：从 GPT 到 DeepSeek

摘要

一、模型架构演进

1 Dense 模型

2 MoE 模型

3 多头潜在注意力（MLA）

二、训练方法

1 预训练

2 后训练：SFT + RL

3 知识蒸馏

三、推理优化

1 多Token预测（MTP）

2 上下文扩展

四、推理模型

五、趋势展望

评论区

发表评论 取消回复

发表评论取消回复