GPT-3很强大,但存在严重问题:
核心问题:语言模型没有与人类意图对齐(Alignment)。它只学会了"预测下一个词",不知道人类真正想要什么。
让人类标注员写出高质量的"提示→回复"对,用这些数据微调GPT-3:
提示: "请用简单的话解释量子纠缠"
人类回复: "量子纠缠就像一对神奇的骰子,不管隔多远,
同时掷出总是相同的数字。爱因斯坦称之为'鬼魅般的远距作用'..."
收集约13,000条高质量示范数据。
让人类标注员对模型的多个输出进行排序,训练一个能预测人类偏好的奖励模型:
收集约33,000条比较数据。RM是一个6B参数的GPT-3模型,输出一个标量分数。
用奖励模型的分数作为奖励信号,通过PPO算法优化SFT模型:
# PPO目标函数(简化)
objective = E[Reward(x, y)] - β · KL(π_θ || π_ref)
# 奖励 = RM分数 + KL惩罚
# KL惩罚防止模型偏离原始分布太远(避免reward hacking)
这篇论文证明了两个关键观点:
这直接催生了ChatGPT:InstructGPT的方法应用到GPT-3.5/GPT-4上,就是ChatGPT。
Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Our resulting 1.3B parameter model significantly outperforms GPT-3 despite being over 100x smaller.
评论区