AI 论文

论文解读：Scaling Laws — 大模型的力量密码

2026-05-08 · AI 论文

论文标题：Scaling Laws for Neural Language Models

作者：Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown 等（OpenAI）

发表：arXiv 2020

引用量：5,000+

arXiv：2001.08361

一、核心发现：Loss是幂律

OpenAI团队发现了一个惊人的规律：语言模型的交叉熵损失（Loss）与三个因素呈幂律关系：

L(N) ∝ N^{-α_N}    # N = 模型参数量     α_N ≈ 0.076
L(D) ∝ D^{-α_D}    # D = 训练数据量     α_D ≈ 0.095
L(C) ∝ C^{-α_C}    # C = 训练计算量     α_C ≈ 0.050

这些幂律关系跨越7个数量级都成立！这意味着从1M参数到100B参数，同样的规律都在起作用。

二、三大要素的相对重要性

论文最实用的结论——在固定算力预算下如何分配资源：

模型参数量N：影响最大，增加参数比增加训练步数更有效
数据量D：重要但不是第一优先，当D不足时模型会过拟合
计算量C：≈ 6ND（每个参数每个数据点约6FLOPs）

三、反直觉的结论

1 大模型应早停

最优策略：训练非常大的模型，在远未收敛时就停止。

传统观念：训练到收敛。但Scaling Laws证明，把同样算力用来训练更大的模型（即使没收敛），效果比把小模型训练到收敛更好。

# 不是这样：
小模型 → 训练到收敛 → 中等效果

# 而是这样：
大模型 → 训练到1/3就停 → 更好效果

2 模型大小比训练时长重要

当算力增加10倍时，最优分配是：

模型大小增加约5.5倍
训练步数仅增加约1.8倍

结论：优先增大模型，其次增加训练步数。

3 其他架构细节不太重要

在足够大的范围内，网络深度/宽度比、注意力头数等架构超参数对Loss的影响远小于N、D、C。这解释了为什么GPT系列一直沿用类似的架构——规模比架构更重要。

四、过拟合的预测

论文给出了过拟合的简单公式：

δ(L) ≈ (N/N_0)^{α_N} · (D/D_0)^{-α_D}

# 经验法则：当 D > 20 × N 时，过拟合可忽略
# 即：1B参数模型至少需要20B Token的数据

这为"需要多少训练数据"提供了定量指导。

五、Chinchilla：Scaling Laws的验证

2022年DeepMind的Chinchilla论文验证并修正了Scaling Laws：

Gopher (280B) 训练了300B Token → 不是最优的
Chinchilla (70B) 训练了1.4T Token → 更好的Loss
结论：之前的模型都太大了，数据量不够

最优比例约为 N : D ≈ 1 : 20（参数:Token数）

六、对AI行业的深远影响

军备竞赛：Scaling Laws直接推动了GPT-3/4、PaLM、LLaMA等超大模型的诞生
投资依据：风投和科技公司根据Scaling Laws决定AI投资规模
LLaMA的反例：Meta用更多数据训练更小模型（70B），效果媲美GPT-3(175B)
推理优化：规模法则也适用于推理，推动了量化、蒸馏等研究

七、争议与局限

幂律是否永远成立？有人认为存在"Scaling Laws的极限"
数据墙：高质量文本数据可能不够训练下一代模型
只关注Loss，不代表所有能力同步提升
对齐税：更大的模型可能需要更多对齐成本

八、原文摘要

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

← 论文解读：Mam… Hermes A… →

论文解读：Scaling Laws — 大模型的力量密码

一、核心发现：Loss是幂律

二、三大要素的相对重要性

三、反直觉的结论

1 大模型应早停

2 模型大小比训练时长重要

3 其他架构细节不太重要

四、过拟合的预测

五、Chinchilla：Scaling Laws的验证

六、对AI行业的深远影响

七、争议与局限

八、原文摘要

评论区

发表评论取消回复

欢迎回来

创建账号

论文解读：Scaling Laws — 大模型的力量密码

一、核心发现：Loss是幂律

二、三大要素的相对重要性

三、反直觉的结论

1 大模型应早停

2 模型大小比训练时长重要

3 其他架构细节不太重要

四、过拟合的预测

五、Chinchilla：Scaling Laws的验证

六、对AI行业的深远影响

七、争议与局限

八、原文摘要

评论区

发表评论 取消回复

发表评论取消回复