AI 论文

大语言模型发展综述：从 Transformer 到 DeepSeek

2026-05-07 · AI 论文

引言

大语言模型（LLM）是当前人工智能领域最重要的技术突破之一。从2017年 Transformer 架构的提出，到如今参数量达数千亿的超级模型，LLM 的发展深刻改变了人机交互方式。本文梳理大语言模型的发展脉络、关键技术突破和未来趋势。

第一阶段：奠基期（2017-2020）

Transformer 架构（2017）

Google 在《Attention Is All You Need》论文中提出 Transformer 架构，以自注意力机制替代循环结构，实现了序列建模的并行化。这一架构成为后续所有LLM的基础。

GPT 系列（2018-2020）

GPT-1（2018）：1.17亿参数，验证了预训练+微调范式
GPT-2（2019）：15亿参数，展示了零样本学习能力
GPT-3（2020）：1750亿参数，少样本学习的重大突破

BERT（2018）

Google 提出的双向编码器模型，通过掩码语言模型预训练，在NLU任务上取得突破性成果。

第二阶段：对齐期（2020-2023）

InstructGPT 与 RLHF（2022）

OpenAI 提出基于人类反馈的强化学习（RLHF），通过三个步骤将基础模型对齐为有用的助手：

监督微调（SFT）：人工标注优质对话数据
奖励模型（RM）：训练偏好模型
强化学习（PPO）：用奖励模型优化策略

ChatGPT（2022.11）

基于 GPT-3.5 + RLHF 的对话模型，引发全球AI热潮，两个月用户破亿。

GPT-4（2023.3）

多模态大模型，支持图文输入，在专业考试中达到人类前10%水平。

第三阶段：开源与架构创新（2023-2025）

LLaMA 系列

Meta 开源LLaMA系列模型，证明了小模型精心训练也能达到优异性能，催生了整个开源LLM生态。

MoE 架构

Mixtral、DeepSeek-V2/V3 采用混合专家架构，在保持大模型能力的同时降低推理成本。DeepSeek-V3 以671B总参数、37B激活参数，实现了性能与效率的最佳平衡。

推理模型

OpenAI o1/o3、DeepSeek-R1 等推理模型通过强化学习训练，学会在回答前进行深度思考，在数学、编程、科学推理上大幅超越传统模型。

关键技术突破

技术	意义
自注意力机制	并行化序列建模
缩放定律	模型越大能力越强
RLHF	对齐人类偏好
MoE	效率与能力的平衡
MLA	降低推理内存
FP8训练	降低训练成本
推理时计算	用更多思考换更好结果

未来趋势

Agent化：从对话到自主执行任务
多模态融合：文本、图像、视频、音频的统一理解与生成
小模型高效化：蒸馏和压缩使小模型达到大模型水平
长上下文：从4K到1M+，处理超长文档
安全与对齐：确保AI行为符合人类价值观

← Gemini 多… 多模态AI研究前… →

大语言模型发展综述：从 Transformer 到 DeepSeek

引言

第一阶段：奠基期（2017-2020）

Transformer 架构（2017）

GPT 系列（2018-2020）

BERT（2018）

第二阶段：对齐期（2020-2023）

InstructGPT 与 RLHF（2022）

ChatGPT（2022.11）

GPT-4（2023.3）

第三阶段：开源与架构创新（2023-2025）

LLaMA 系列

MoE 架构

推理模型

关键技术突破

未来趋势

评论区

发表评论取消回复

欢迎回来

创建账号

大语言模型发展综述：从 Transformer 到 DeepSeek

引言

第一阶段：奠基期（2017-2020）

Transformer 架构（2017）

GPT 系列（2018-2020）

BERT（2018）

第二阶段：对齐期（2020-2023）

InstructGPT 与 RLHF（2022）

ChatGPT（2022.11）

GPT-4（2023.3）

第三阶段：开源与架构创新（2023-2025）

LLaMA 系列

MoE 架构

推理模型

关键技术突破

未来趋势

评论区

发表评论 取消回复

发表评论取消回复