大语言模型(LLM)是当前人工智能领域最重要的技术突破之一。从2017年 Transformer 架构的提出,到如今参数量达数千亿的超级模型,LLM 的发展深刻改变了人机交互方式。本文梳理大语言模型的发展脉络、关键技术突破和未来趋势。
Google 在《Attention Is All You Need》论文中提出 Transformer 架构,以自注意力机制替代循环结构,实现了序列建模的并行化。这一架构成为后续所有LLM的基础。
Google 提出的双向编码器模型,通过掩码语言模型预训练,在NLU任务上取得突破性成果。
OpenAI 提出基于人类反馈的强化学习(RLHF),通过三个步骤将基础模型对齐为有用的助手:
基于 GPT-3.5 + RLHF 的对话模型,引发全球AI热潮,两个月用户破亿。
多模态大模型,支持图文输入,在专业考试中达到人类前10%水平。
Meta 开源LLaMA系列模型,证明了小模型精心训练也能达到优异性能,催生了整个开源LLM生态。
Mixtral、DeepSeek-V2/V3 采用混合专家架构,在保持大模型能力的同时降低推理成本。DeepSeek-V3 以671B总参数、37B激活参数,实现了性能与效率的最佳平衡。
OpenAI o1/o3、DeepSeek-R1 等推理模型通过强化学习训练,学会在回答前进行深度思考,在数学、编程、科学推理上大幅超越传统模型。
| 技术 | 意义 |
|---|---|
| 自注意力机制 | 并行化序列建模 |
| 缩放定律 | 模型越大能力越强 |
| RLHF | 对齐人类偏好 |
| MoE | 效率与能力的平衡 |
| MLA | 降低推理内存 |
| FP8训练 | 降低训练成本 |
| 推理时计算 | 用更多思考换更好结果 |
评论区