欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

大语言模型发展综述:从 Transformer 到 DeepSeek

2026-05-07 · AI 论文

引言

大语言模型(LLM)是当前人工智能领域最重要的技术突破之一。从2017年 Transformer 架构的提出,到如今参数量达数千亿的超级模型,LLM 的发展深刻改变了人机交互方式。本文梳理大语言模型的发展脉络、关键技术突破和未来趋势。

第一阶段:奠基期(2017-2020)

Transformer 架构(2017)

Google 在《Attention Is All You Need》论文中提出 Transformer 架构,以自注意力机制替代循环结构,实现了序列建模的并行化。这一架构成为后续所有LLM的基础。

GPT 系列(2018-2020)

  • GPT-1(2018):1.17亿参数,验证了预训练+微调范式
  • GPT-2(2019):15亿参数,展示了零样本学习能力
  • GPT-3(2020):1750亿参数,少样本学习的重大突破

BERT(2018)

Google 提出的双向编码器模型,通过掩码语言模型预训练,在NLU任务上取得突破性成果。

第二阶段:对齐期(2020-2023)

InstructGPT 与 RLHF(2022)

OpenAI 提出基于人类反馈的强化学习(RLHF),通过三个步骤将基础模型对齐为有用的助手:

  1. 监督微调(SFT):人工标注优质对话数据
  2. 奖励模型(RM):训练偏好模型
  3. 强化学习(PPO):用奖励模型优化策略

ChatGPT(2022.11)

基于 GPT-3.5 + RLHF 的对话模型,引发全球AI热潮,两个月用户破亿。

GPT-4(2023.3)

多模态大模型,支持图文输入,在专业考试中达到人类前10%水平。

第三阶段:开源与架构创新(2023-2025)

LLaMA 系列

Meta 开源LLaMA系列模型,证明了小模型精心训练也能达到优异性能,催生了整个开源LLM生态。

MoE 架构

Mixtral、DeepSeek-V2/V3 采用混合专家架构,在保持大模型能力的同时降低推理成本。DeepSeek-V3 以671B总参数、37B激活参数,实现了性能与效率的最佳平衡。

推理模型

OpenAI o1/o3、DeepSeek-R1 等推理模型通过强化学习训练,学会在回答前进行深度思考,在数学、编程、科学推理上大幅超越传统模型。

关键技术突破

技术意义
自注意力机制并行化序列建模
缩放定律模型越大能力越强
RLHF对齐人类偏好
MoE效率与能力的平衡
MLA降低推理内存
FP8训练降低训练成本
推理时计算用更多思考换更好结果

未来趋势

  • Agent化:从对话到自主执行任务
  • 多模态融合:文本、图像、视频、音频的统一理解与生成
  • 小模型高效化:蒸馏和压缩使小模型达到大模型水平
  • 长上下文:从4K到1M+,处理超长文档
  • 安全与对齐:确保AI行为符合人类价值观

评论区

发表评论