欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

论文解读:GPT-3 — 语言模型的少样本学习奇迹

2026-05-08 · AI 论文

论文标题:Language Models are Few-Shot Learners

作者:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan 等(OpenAI,共31位作者)

发表:NeurIPS 2020

引用量:20,000+

arXiv:2005.14165

一、核心假设:规模即能力

GPT-3的核心理念极其简洁:把模型做到足够大,它就能在不需要梯度更新的情况下学会新任务

在GPT-3之前,NLP任务的标准流程是"预训练→微调"(需要标注数据和梯度更新)。GPT-3提出了全新的范式:预训练→提示(In-Context Learning),只需给模型几个示例,它就能理解任务并执行。

二、模型规模

参数GPT-3 (175B)GPT-2 (1.5B)BERT-Large
参数量1,750亿15亿3.4亿
层数964824
隐藏维度12,2881,6001,024
注意力头数962516
上下文窗口2,0481,024512
训练数据570GB文本40GB16GB

三、三种学习范式

GPT-3定义了三种无需梯度更新的学习方式:

  • Zero-shot:只给任务描述,无示例
    Translate to French: "Hello world" →
  • One-shot:给1个示例
    Translate to French:
    "Hello" → "Bonjour"
    "How are you" →
  • Few-shot:给多个示例(论文最多用64个)
    Translate to French:
    "Hello" → "Bonjour"  
    "Goodbye" → "Au revoir"
    "Thanks" → "Merci"
    "Please" →

四、涌现能力(Emergent Abilities)

GPT-3最令人震惊的发现:某些能力只有在模型达到一定规模后才突然出现,小模型完全不具备:

  • 算术推理(3位数加法)
  • 新闻文章生成(人类难以辨别真伪)
  • SAT类比题
  • 编写/理解代码

这是"涌现能力"概念在AI领域的标志性发现,直接推动了后来的Scaling Laws研究。

五、关键实验结果

  • 翻译:Few-shot GPT-3在法→英翻译上接近监督SOTA
  • 问答:TriviaQA上Few-shot达到SOTA水平
  • 超级GLUE:Few-shot大幅超过零样本基线
  • 文本生成:人类评估者仅52%概率区分GPT-3文章和人类文章

六、局限性与争议

  • 偏见与毒性:模型会反映训练数据中的社会偏见
  • 事实准确性:生成内容可能看似合理但包含事实错误
  • 计算成本:训练费用估计数百万美元
  • 效率问题:175B参数的推理成本极高

七、影响与遗产

  • 直接催生了ChatGPT(InstructGPT + RLHF是对GPT-3的对齐改进)
  • 证明了Scaling Laws的威力,推动了AI行业的"军备竞赛"
  • 定义了In-Context Learning范式,影响了Prompt Engineering的发展
  • "涌现能力"概念影响了后续对大模型能力的系统性研究

八、原文摘要

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. We train GPT-3, an autoregressive language model with 175 billion parameters, and test its performance on dozens of NLP tasks. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model.

评论区

发表评论