欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

论文解读:Scaling Laws — 大模型的力量密码

2026-05-08 · AI 论文

论文标题:Scaling Laws for Neural Language Models

作者:Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown 等(OpenAI)

发表:arXiv 2020

引用量:5,000+

arXiv:2001.08361

一、核心发现:Loss是幂律

OpenAI团队发现了一个惊人的规律:语言模型的交叉熵损失(Loss)与三个因素呈幂律关系

L(N) ∝ N^{-α_N}    # N = 模型参数量     α_N ≈ 0.076
L(D) ∝ D^{-α_D}    # D = 训练数据量     α_D ≈ 0.095
L(C) ∝ C^{-α_C}    # C = 训练计算量     α_C ≈ 0.050

这些幂律关系跨越7个数量级都成立!这意味着从1M参数到100B参数,同样的规律都在起作用。

二、三大要素的相对重要性

论文最实用的结论——在固定算力预算下如何分配资源

  • 模型参数量N:影响最大,增加参数比增加训练步数更有效
  • 数据量D:重要但不是第一优先,当D不足时模型会过拟合
  • 计算量C:≈ 6ND(每个参数每个数据点约6FLOPs)

三、反直觉的结论

1 大模型应早停

最优策略:训练非常大的模型,在远未收敛时就停止

传统观念:训练到收敛。但Scaling Laws证明,把同样算力用来训练更大的模型(即使没收敛),效果比把小模型训练到收敛更好。

# 不是这样:
小模型 → 训练到收敛 → 中等效果

# 而是这样:
大模型 → 训练到1/3就停 → 更好效果

2 模型大小比训练时长重要

当算力增加10倍时,最优分配是:

  • 模型大小增加约5.5倍
  • 训练步数仅增加约1.8倍

结论:优先增大模型,其次增加训练步数

3 其他架构细节不太重要

在足够大的范围内,网络深度/宽度比、注意力头数等架构超参数对Loss的影响远小于N、D、C。这解释了为什么GPT系列一直沿用类似的架构——规模比架构更重要

四、过拟合的预测

论文给出了过拟合的简单公式:

δ(L) ≈ (N/N_0)^{α_N} · (D/D_0)^{-α_D}

# 经验法则:当 D > 20 × N 时,过拟合可忽略
# 即:1B参数模型至少需要20B Token的数据

这为"需要多少训练数据"提供了定量指导。

五、Chinchilla:Scaling Laws的验证

2022年DeepMind的Chinchilla论文验证并修正了Scaling Laws:

  • Gopher (280B) 训练了300B Token → 不是最优的
  • Chinchilla (70B) 训练了1.4T Token → 更好的Loss
  • 结论:之前的模型都太大了,数据量不够

最优比例约为 N : D ≈ 1 : 20(参数:Token数)

六、对AI行业的深远影响

  • 军备竞赛:Scaling Laws直接推动了GPT-3/4、PaLM、LLaMA等超大模型的诞生
  • 投资依据:风投和科技公司根据Scaling Laws决定AI投资规模
  • LLaMA的反例:Meta用更多数据训练更小模型(70B),效果媲美GPT-3(175B)
  • 推理优化:规模法则也适用于推理,推动了量化、蒸馏等研究

七、争议与局限

  • 幂律是否永远成立?有人认为存在"Scaling Laws的极限"
  • 数据墙:高质量文本数据可能不够训练下一代模型
  • 只关注Loss,不代表所有能力同步提升
  • 对齐税:更大的模型可能需要更多对齐成本

八、原文摘要

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

评论区

发表评论