欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

论文解读:InstructGPT — 用人类反馈让AI听话

2026-05-08 · AI 论文

论文标题:Training language models to follow instructions with human feedback

作者:Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida 等(OpenAI)

发表:NeurIPS 2022

引用量:6,000+

arXiv:2203.02155

一、问题:大模型不听话

GPT-3很强大,但存在严重问题:

  • 不遵循指令:用户让它总结,它可能续写故事
  • 输出有害内容:可能生成偏见、歧视、暴力内容
  • 编造事实:一本正经地胡说八道(幻觉问题)

核心问题:语言模型没有与人类意图对齐(Alignment)。它只学会了"预测下一个词",不知道人类真正想要什么。

二、三步对齐方案:SFT → RM → PPO

第一步:监督微调(SFT)

让人类标注员写出高质量的"提示→回复"对,用这些数据微调GPT-3:

提示: "请用简单的话解释量子纠缠"
人类回复: "量子纠缠就像一对神奇的骰子,不管隔多远,
同时掷出总是相同的数字。爱因斯坦称之为'鬼魅般的远距作用'..."

收集约13,000条高质量示范数据。

第二步:训练奖励模型(RM)

让人类标注员对模型的多个输出进行排序,训练一个能预测人类偏好的奖励模型:

  1. 给SFT模型一个提示,生成4-9个回复
  2. 人类标注员将回复从最好到最差排序
  3. 训练RM学习这种排序偏好

收集约33,000条比较数据。RM是一个6B参数的GPT-3模型,输出一个标量分数。

第三步:PPO强化学习

用奖励模型的分数作为奖励信号,通过PPO算法优化SFT模型:

# PPO目标函数(简化)
objective = E[Reward(x, y)] - β · KL(π_θ || π_ref)

# 奖励 = RM分数 + KL惩罚
# KL惩罚防止模型偏离原始分布太远(避免reward hacking)

三、关键发现

  • 1.3B的InstructGPT在人类评估中优于175B的GPT-3——对齐比规模更重要
  • 输出更安全:有害输出减少约25%(真实性和毒性评估)
  • 在"遵循指令"维度上,85%的情况下InstructGPT优于GPT-3
  • RLHF不会显著损害模型在其他NLP任务上的能力

四、RLHF的核心洞察

这篇论文证明了两个关键观点:

  1. 人类偏好可以被建模:RM能从人类排序中学到一致的偏好函数
  2. 小模型+对齐 > 大模型+不对齐:对齐是比规模更重要的因素

这直接催生了ChatGPT:InstructGPT的方法应用到GPT-3.5/GPT-4上,就是ChatGPT。

五、从InstructGPT到ChatGPT

  • InstructGPT是ChatGPT的技术前身
  • 同样的RLHF流程被应用于GPT-3.5 → ChatGPT
  • 后续模型(GPT-4、Claude等)都采用类似的对齐方法
  • Constitutional AI(Anthropic)是RLHF的改进版本

六、局限性

  • 人类标注员可能不一致(不同人有不同偏好)
  • RM可能被"sandbagging"(模型学会在RM面前表现好,但实际输出仍有问题)
  • 对齐是持续的过程,新能力需要新的对齐工作

七、原文摘要

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Our resulting 1.3B parameter model significantly outperforms GPT-3 despite being over 100x smaller.

评论区

发表评论