欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

大语言模型技术综述:从 GPT 到 DeepSeek

2026-05-07 · AI 论文

摘要

本文对2023-2026年间大语言模型(LLM)的关键技术进展进行综述,涵盖架构创新、训练方法、推理优化和应用趋势。

一、模型架构演进

1 Dense 模型

GPT-4、Claude、Gemini 等闭源模型采用 Dense Transformer 架构,所有参数在每次推理中激活。优势在于简单稳定,劣势是推理成本随参数量线性增长。

2 MoE 模型

混合专家(MoE)架构仅激活部分专家参数,DeepSeek-V3(671B总参/37B激活)和 Mixtral 是典型代表。核心挑战在于负载均衡——DeepSeek-V3 首创无辅助损失策略解决了这一难题。

3 多头潜在注意力(MLA)

DeepSeek-V2 提出的 MLA 机制将 KV Cache 压缩至低维潜在空间,显著降低推理内存占用,同时保持注意力质量。

二、训练方法

1 预训练

训练数据从万亿级 token 增长至14.8万亿(DeepSeek-V3),数据质量的重要性超越数量。FP8 混合精度训练成为超大规模模型训练的新范式。

2 后训练:SFT + RL

监督微调(SFT)+ 强化学习(RLHF/RLAIF)成为标准流程。DeepSeek-R1 验证了纯 RL 训练可涌现推理能力,无需 SFT 预热。

3 知识蒸馏

从大模型(教师)向小模型(学生)蒸馏推理能力成为趋势。DeepSeek-V3 从 R1 系列模型蒸馏 CoT 推理模式,在保持输出风格的同时提升推理性能。

三、推理优化

1 多Token预测(MTP)

传统自回归模型逐 token 生成,MTP 允许同时预测多个 token,既可提升训练信号,也可用于推理加速(推测解码)。

2 上下文扩展

从 4K → 32K → 128K → 1M+ token 上下文,RoPE 外推和 YaRN 等技术使模型在超长上下文中保持稳定。

四、推理模型

OpenAI o1/o3、DeepSeek-R1 等推理模型通过 Chain-of-Thought 显式展示推理过程,在数学、编程和科学推理任务上表现显著提升。关键发现:推理 compute-time scaling 比训练 scaling 更高效。

五、趋势展望

  • Agent 化:LLM 从对话工具走向自主 Agent,工具调用和多步规划成为核心能力
  • 多模态:视觉、音频、视频理解与生成一体化
  • 端侧部署:量化、蒸馏使大模型能力下沉到手机和边缘设备
  • 成本效率:MoE + FP8 训练使顶级模型训练成本降至百万美元级别

评论区

发表评论