AI 论文

论文解读：GPT-3 — 语言模型的少样本学习奇迹

2026-05-08 · AI 论文

论文标题：Language Models are Few-Shot Learners

作者：Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan 等（OpenAI，共31位作者）

发表：NeurIPS 2020

引用量：20,000+

arXiv：2005.14165

一、核心假设：规模即能力

GPT-3的核心理念极其简洁：把模型做到足够大，它就能在不需要梯度更新的情况下学会新任务。

在GPT-3之前，NLP任务的标准流程是"预训练→微调"（需要标注数据和梯度更新）。GPT-3提出了全新的范式：预训练→提示（In-Context Learning），只需给模型几个示例，它就能理解任务并执行。

二、模型规模

参数	GPT-3 (175B)	GPT-2 (1.5B)	BERT-Large
参数量	1,750亿	15亿	3.4亿
层数	96	48	24
隐藏维度	12,288	1,600	1,024
注意力头数	96	25	16
上下文窗口	2,048	1,024	512
训练数据	570GB文本	40GB	16GB

三、三种学习范式

GPT-3定义了三种无需梯度更新的学习方式：

Zero-shot：只给任务描述，无示例
```
Translate to French: "Hello world" →
```

One-shot：给1个示例

Translate to French:
"Hello" → "Bonjour"
"How are you" →

Few-shot：给多个示例（论文最多用64个）

Translate to French:
"Hello" → "Bonjour"  
"Goodbye" → "Au revoir"
"Thanks" → "Merci"
"Please" →

四、涌现能力（Emergent Abilities）

GPT-3最令人震惊的发现：某些能力只有在模型达到一定规模后才突然出现，小模型完全不具备：

算术推理（3位数加法）
新闻文章生成（人类难以辨别真伪）
SAT类比题
编写/理解代码

这是"涌现能力"概念在AI领域的标志性发现，直接推动了后来的Scaling Laws研究。

五、关键实验结果

翻译：Few-shot GPT-3在法→英翻译上接近监督SOTA
问答：TriviaQA上Few-shot达到SOTA水平
超级GLUE：Few-shot大幅超过零样本基线
文本生成：人类评估者仅52%概率区分GPT-3文章和人类文章

六、局限性与争议

偏见与毒性：模型会反映训练数据中的社会偏见
事实准确性：生成内容可能看似合理但包含事实错误
计算成本：训练费用估计数百万美元
效率问题：175B参数的推理成本极高

七、影响与遗产

直接催生了ChatGPT（InstructGPT + RLHF是对GPT-3的对齐改进）
证明了Scaling Laws的威力，推动了AI行业的"军备竞赛"
定义了In-Context Learning范式，影响了Prompt Engineering的发展
"涌现能力"概念影响了后续对大模型能力的系统性研究

八、原文摘要

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. We train GPT-3, an autoregressive language model with 175 billion parameters, and test its performance on dozens of NLP tasks. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model.

← 论文解读：BER… 论文解读：DDP… →

论文解读：GPT-3 — 语言模型的少样本学习奇迹

一、核心假设：规模即能力

二、模型规模

三、三种学习范式

四、涌现能力（Emergent Abilities）

五、关键实验结果

六、局限性与争议

七、影响与遗产

八、原文摘要

评论区

发表评论取消回复

欢迎回来

创建账号

论文解读：GPT-3 — 语言模型的少样本学习奇迹

一、核心假设：规模即能力

二、模型规模

三、三种学习范式

四、涌现能力（Emergent Abilities）

五、关键实验结果

六、局限性与争议

七、影响与遗产

八、原文摘要

评论区

发表评论 取消回复

发表评论取消回复