Attention Is All You Need 解读
2026-05-09
·
AI 论文
## Attention Is All You Need
**论文链接**:https://arxiv.org/abs/1706.03762
**发表时间**:2017年
**作者**:Vaswani et al. (Google)
### 核心贡献
提出了Transformer架构,彻底改变了NLP领域。
### 关键创新
#### 1. 自注意力机制
```
Attention(Q, K, V) = softmax(QK^T / √d_k) V
```
#### 2. 多头注意力
```python
MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O
```
#### 3. 位置编码
```
PE(pos, 2i) = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))
```
### 影响与意义
- 奠定了GPT、BERT等模型基础
- 并行计算效率大幅提升
- 成为现代大模型标准架构
评论区