OpenAI团队发现了一个惊人的规律:语言模型的交叉熵损失(Loss)与三个因素呈幂律关系:
L(N) ∝ N^{-α_N} # N = 模型参数量 α_N ≈ 0.076
L(D) ∝ D^{-α_D} # D = 训练数据量 α_D ≈ 0.095
L(C) ∝ C^{-α_C} # C = 训练计算量 α_C ≈ 0.050
这些幂律关系跨越7个数量级都成立!这意味着从1M参数到100B参数,同样的规律都在起作用。
论文最实用的结论——在固定算力预算下如何分配资源:
最优策略:训练非常大的模型,在远未收敛时就停止。
传统观念:训练到收敛。但Scaling Laws证明,把同样算力用来训练更大的模型(即使没收敛),效果比把小模型训练到收敛更好。
# 不是这样:
小模型 → 训练到收敛 → 中等效果
# 而是这样:
大模型 → 训练到1/3就停 → 更好效果
当算力增加10倍时,最优分配是:
结论:优先增大模型,其次增加训练步数。
在足够大的范围内,网络深度/宽度比、注意力头数等架构超参数对Loss的影响远小于N、D、C。这解释了为什么GPT系列一直沿用类似的架构——规模比架构更重要。
论文给出了过拟合的简单公式:
δ(L) ≈ (N/N_0)^{α_N} · (D/D_0)^{-α_D}
# 经验法则:当 D > 20 × N 时,过拟合可忽略
# 即:1B参数模型至少需要20B Token的数据
这为"需要多少训练数据"提供了定量指导。
2022年DeepMind的Chinchilla论文验证并修正了Scaling Laws:
最优比例约为 N : D ≈ 1 : 20(参数:Token数)
We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.
评论区