欢迎回来

登录 EAKE AI,继续您的智能之旅

忘记密码?
还没有账号?立即注册

Attention Is All You Need 解读

2026-05-09 · AI 论文
## Attention Is All You Need **论文链接**:https://arxiv.org/abs/1706.03762 **发表时间**:2017年 **作者**:Vaswani et al. (Google) ### 核心贡献 提出了Transformer架构,彻底改变了NLP领域。 ### 关键创新 #### 1. 自注意力机制 ``` Attention(Q, K, V) = softmax(QK^T / √d_k) V ``` #### 2. 多头注意力 ```python MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O ``` #### 3. 位置编码 ``` PE(pos, 2i) = sin(pos / 10000^(2i/d)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d)) ``` ### 影响与意义 - 奠定了GPT、BERT等模型基础 - 并行计算效率大幅提升 - 成为现代大模型标准架构

评论区

发表评论