本文对2023-2026年间大语言模型(LLM)的关键技术进展进行综述,涵盖架构创新、训练方法、推理优化和应用趋势。
GPT-4、Claude、Gemini 等闭源模型采用 Dense Transformer 架构,所有参数在每次推理中激活。优势在于简单稳定,劣势是推理成本随参数量线性增长。
混合专家(MoE)架构仅激活部分专家参数,DeepSeek-V3(671B总参/37B激活)和 Mixtral 是典型代表。核心挑战在于负载均衡——DeepSeek-V3 首创无辅助损失策略解决了这一难题。
DeepSeek-V2 提出的 MLA 机制将 KV Cache 压缩至低维潜在空间,显著降低推理内存占用,同时保持注意力质量。
训练数据从万亿级 token 增长至14.8万亿(DeepSeek-V3),数据质量的重要性超越数量。FP8 混合精度训练成为超大规模模型训练的新范式。
监督微调(SFT)+ 强化学习(RLHF/RLAIF)成为标准流程。DeepSeek-R1 验证了纯 RL 训练可涌现推理能力,无需 SFT 预热。
从大模型(教师)向小模型(学生)蒸馏推理能力成为趋势。DeepSeek-V3 从 R1 系列模型蒸馏 CoT 推理模式,在保持输出风格的同时提升推理性能。
传统自回归模型逐 token 生成,MTP 允许同时预测多个 token,既可提升训练信号,也可用于推理加速(推测解码)。
从 4K → 32K → 128K → 1M+ token 上下文,RoPE 外推和 YaRN 等技术使模型在超长上下文中保持稳定。
OpenAI o1/o3、DeepSeek-R1 等推理模型通过 Chain-of-Thought 显式展示推理过程,在数学、编程和科学推理任务上表现显著提升。关键发现:推理 compute-time scaling 比训练 scaling 更高效。
评论区