AI 论文

大语言模型技术综述：从 GPT 到 DeepSeek

摘要

本文对2023-2026年间大语言模型（LLM）的关键技术进展进行综述，涵盖架构创新、训练方法、推理优化和应用趋势。

一、模型架构演进

1 Dense 模型

GPT-4、Claude、Gemini 等闭源模型采用 Dense Transformer 架构，所有参数在每次推理中激活。优势在于简单稳定，劣势是推理成本随参数量线性增长。

2 MoE 模型

混合专家（MoE）架构仅激活部分专家参数，DeepSeek-V3（671B总参/37B激活）和 Mixtral 是典型代表。核心挑战在于负载均衡——DeepSeek-V3 首创无辅助损失策略解决了这一难题。

3 多头潜在注意力（MLA）

DeepSeek-V2 提出的 MLA 机制将 KV Cache 压缩至低维潜在空间，显著降低推理内存占用，同时保持注意力质量。

二、训练方法

1 预训练

训练数据从万亿级 token 增长至14.8万亿（DeepSeek-V3），数据质量的重要性超越数量。FP8 混合精度训练成为超大规模模型训练的新范式。

2 后训练：SFT + RL

监督微调（SFT）+ 强化学习（RLHF/RLAIF）成为标准流程。DeepSeek-R1 验证了纯 RL 训练可涌现推理能力，无需 SFT 预热。

3 知识蒸馏

从大模型（教师）向小模型（学生）蒸馏推理能力成为趋势。DeepSeek-V3 从 R1 系列模型蒸馏 CoT 推理模式，在保持输出风格的同时提升推理性能。

三、推理优化

1 多Token预测（MTP）

传统自回归模型逐 token 生成，MTP 允许同时预测多个 token，既可提升训练信号，也可用于推理加速（推测解码）。

2 上下文扩展

从 4K → 32K → 128K → 1M+ token 上下文，RoPE 外推和 YaRN 等技术使模型在超长上下文中保持稳定。

四、推理模型

OpenAI o1/o3、DeepSeek-R1 等推理模型通过 Chain-of-Thought 显式展示推理过程，在数学、编程和科学推理任务上表现显著提升。关键发现：推理 compute-time scaling 比训练 scaling 更高效。

五、趋势展望

Agent 化：LLM 从对话工具走向自主 Agent，工具调用和多步规划成为核心能力
多模态：视觉、音频、视频理解与生成一体化
端侧部署：量化、蒸馏使大模型能力下沉到手机和边缘设备
成本效率：MoE + FP8 训练使顶级模型训练成本降至百万美元级别

AI 论文

大语言模型发展综述：从 Transformer 到 DeepSeek

引言

大语言模型（LLM）是当前人工智能领域最重要的技术突破之一。从2017年 Transformer 架构的提出，到如今参数量达数千亿的超级模型，LLM 的发展深刻改变了人机交互方式。本文梳理大语言模型的发展脉络、关键技术突破和未来趋势。

第一阶段：奠基期（2017-2020）

Transformer 架构（2017）

Google 在《Attention Is All You Need》论文中提出 Transformer 架构，以自注意力机制替代循环结构，实现了序列建模的并行化。这一架构成为后续所有LLM的基础。

GPT 系列（2018-2020）

GPT-1（2018）：1.17亿参数，验证了预训练+微调范式
GPT-2（2019）：15亿参数，展示了零样本学习能力
GPT-3（2020）：1750亿参数，少样本学习的重大突破

BERT（2018）

Google 提出的双向编码器模型，通过掩码语言模型预训练，在NLU任务上取得突破性成果。

第二阶段：对齐期（2020-2023）

InstructGPT 与 RLHF（2022）

OpenAI 提出基于人类反馈的强化学习（RLHF），通过三个步骤将基础模型对齐为有用的助手：

监督微调（SFT）：人工标注优质对话数据
奖励模型（RM）：训练偏好模型
强化学习（PPO）：用奖励模型优化策略

ChatGPT（2022.11）

基于 GPT-3.5 + RLHF 的对话模型，引发全球AI热潮，两个月用户破亿。

GPT-4（2023.3）

多模态大模型，支持图文输入，在专业考试中达到人类前10%水平。

第三阶段：开源与架构创新（2023-2025）

LLaMA 系列

Meta 开源LLaMA系列模型，证明了小模型精心训练也能达到优异性能，催生了整个开源LLM生态。

MoE 架构

Mixtral、DeepSeek-V2/V3 采用混合专家架构，在保持大模型能力的同时降低推理成本。DeepSeek-V3 以671B总参数、37B激活参数，实现了性能与效率的最佳平衡。

推理模型

OpenAI o1/o3、DeepSeek-R1 等推理模型通过强化学习训练，学会在回答前进行深度思考，在数学、编程、科学推理上大幅超越传统模型。

关键技术突破

技术	意义
自注意力机制	并行化序列建模
缩放定律	模型越大能力越强
RLHF	对齐人类偏好
MoE	效率与能力的平衡
MLA	降低推理内存
FP8训练	降低训练成本
推理时计算	用更多思考换更好结果

未来趋势

Agent化：从对话到自主执行任务
多模态融合：文本、图像、视频、音频的统一理解与生成
小模型高效化：蒸馏和压缩使小模型达到大模型水平
长上下文：从4K到1M+，处理超长文档
安全与对齐：确保AI行为符合人类价值观

AI 论文

多模态AI研究前沿：视觉语言模型综述

多模态AI的崛起

视觉语言模型（VLM）是大语言模型的自然延伸，将文本理解与视觉感知统一在单一模型中。2023年以来，VLM领域迎来了爆发式增长，从早期简单的图像描述进化到复杂的视觉推理和生成。

技术演进路线

第一代：拼接式架构

早期方法（如LLaVA）将预训练视觉编码器（CLIP ViT）与LLM拼接，通过投影层对齐视觉和语言特征空间。这种方式简单有效，但视觉分辨率受限于编码器。

第二代：原生多模态

GPT-4V、Gemini 等模型采用原生多模态训练，视觉和语言token在同一Transformer中联合处理。这种方法实现更深的跨模态理解，但训练成本极高。

第三代：统一生成

最新模型（Gemini 3、GPT-5）不仅能理解图像，还能生成图像，实现了真正的输入输出多模态统一。图像不再是"外部输入"，而是模型的"原生输出"。

关键模型对比

模型	机构	视觉编码	图像生成	视频理解
GPT-4o	OpenAI	原生	✅ (DALL·E)	有限
Gemini 3 Pro	Google	原生	✅ (Nano-Banana)	✅
Claude Sonnet 4	Anthropic	拼接	❌	有限
LLaVA-NeXT	开源	CLIP	❌	❌
Qwen-VL-Max	阿里	ViT	✅	✅

核心能力

图像理解

OCR：精确识别图片中的文字
图表解读：理解数据可视化
UI理解：分析界面布局和交互
文档解析：多页PDF内容提取

视觉推理

空间关系判断
因果推理（"为什么这个杯子会倒？"）
多步逻辑推理（数学图表→计算→结论）

图像生成

最新VLM不仅能理解图像，还能直接生成：

Gemini Nano-Banana 2：支持思考模式的图像生成
GPT-5：集成DALL·E 4的原生图像生成
Qwen-VL：中文场景优化的图像生成

视频理解

处理视频帧序列，理解时序动态：

Gemini 3 Pro：支持长视频分析
GPT-5：视频内容摘要和问答

应用场景

场景	应用	推荐模型
文档处理	合同/发票/报告自动化	GPT-4o, Claude Sonnet
电商	商品图生成/描述/搜索	Gemini 3 Pro
医疗	影像辅助诊断	定制化模型
教育	公式识别/解题辅导	GPT-5, Gemini 3 Pro
设计	UI/UX设计辅助	Gemini 3, GPT-5

挑战与未来方向

高分辨率处理：当前模型对高分辨率图像的理解仍有限
视频理解：长视频的时序推理仍是难点
3D理解：空间感知和3D重建
实时交互：低延迟的视觉对话
幻觉问题：模型可能"看到"不存在的内容

AI 论文

论文解读：Attention Is All You Need — Transformer架构的诞生

论文标题：Attention Is All You Need

作者：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

发表：NeurIPS 2017 | Google Brain / Google Research

引用量：120,000+（AI史上被引最多论文之一）

arXiv：1706.03762

一、为什么这篇论文改变了一切

2017年之前，序列建模被RNN和LSTM统治。它们必须逐步处理序列，无法并行，训练慢，长距离依赖难捕获。Vaswani等人提出了一个大胆的想法：完全抛弃循环和卷积，只用注意力机制。

这个看似简单的决定，引爆了整个AI领域——GPT、BERT、ChatGPT、Midjourney、Sora……几乎所有现代AI模型都建立在Transformer之上。可以说，没有这篇论文，就没有今天的AI革命。

二、核心创新：缩放点积注意力

自注意力（Self-Attention）让序列中每个位置都能直接"看到"所有其他位置：

Attention(Q, K, V) = softmax(QK^T / √d_k) · V

其中：

Q（Query）：当前位置发出的"查询"——"我在找什么？"
K（Key）：每个位置提供的"键"——"我有什么？"
V（Value）：每个位置提供的"值"——"我的内容是……"
√d_k：缩放因子，防止点积过大导致softmax梯度消失

直觉理解：Q是"我要找什么"，K是"这里有什么"，Q·K计算匹配度，再用匹配度加权V，得到融合全局信息的表示。

三、多头注意力（Multi-Head Attention）

单次注意力只能关注一种模式。多头注意力让模型同时关注多种关系：

MultiHead(Q,K,V) = Concat(head_1, ..., head_h) · W^O
where head_i = Attention(Q·W_i^Q, K·W_i^K, V·W_i^V)

原论文使用8个头，每个头维度 d_k = d_model/h = 512/8 = 64。不同的头可以分别关注语法关系、语义关系、位置关系等。

四、Transformer完整架构

编码器（Encoder）：6层，每层包含多头自注意力 + 前馈网络 + 残差连接 + LayerNorm

解码器（Decoder）：6层，额外增加交叉注意力层（关注编码器输出）+ 掩码自注意力（防止看到未来信息）

# 编码器单层
x = LayerNorm(x + MultiHeadSelfAttention(x))
x = LayerNorm(x + FFN(x))

# FFN（Position-wise前馈网络）
FFN(x) = max(0, x·W_1 + b_1)·W_2 + b_2  # 维度 512 → 2048 → 512

五、位置编码（Positional Encoding）

注意力机制本身没有位置概念，需要注入位置信息。原论文使用正弦/余弦函数：

PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

选择三角函数的原因：1）可以让模型学习相对位置关系；2）对未见过的序列长度有泛化能力。

六、实验结果

任务	指标	Transformer成绩	之前最佳
WMT14 英→德	BLEU	28.4	26.1（集模型）
WMT14 英→法	BLEU	41.8	40.5

关键：训练仅需3.5天（8 GPU），远少于之前模型所需的数周。

七、影响与遗产

GPT系列：只使用Transformer Decoder的自回归语言模型
BERT：只使用Transformer Encoder的双向编码模型
T5/BART：完整的Encoder-Decoder架构
ViT：将Transformer应用于图像，Patch代替Token
多模态模型：CLIP、GPT-4V等均基于Transformer

2024年，Transformer论文引用量突破12万次，成为计算机科学史上最具影响力的论文之一。

八、原文摘要

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU.

AI 论文

论文解读：BERT — 双向预训练开启NLP新纪元

论文标题：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

发表：NAACL 2019 | Google AI Language

引用量：90,000+

arXiv：1810.04805

一、BERT之前的世界

2018年之前的NLP预训练只有两条路：

ELMo：分别从左→右和右→左训练两个LSTM，拼接得到表示——不是真正的双向
GPT-1：Transformer Decoder，只能看左侧上下文——单向的

BERT的核心洞察：真正的双向表示比单向表示强大得多。但直接让模型看到左右两侧会"作弊"（预测词时看到了自己），于是BERT设计了巧妙的预训练任务来解决这个问题。

二、两大预训练任务

1 Masked Language Model (MLM)

随机遮蔽15%的输入Token，让模型预测被遮蔽的词：

输入: "The [MASK] sat on the [MASK]"
目标: 预测 [MASK] → "cat", "mat"

具体策略：80%替换为[MASK]，10%替换为随机词，10%保持不变。混合策略防止模型只学[MASK]位置。

2 Next Sentence Prediction (NSP)

给定句子A和B，判断B是否是A的下一句：

输入: [CLS] The cat sat on the mat [SEP] It was happy [SEP]
标签: IsNext ✓

输入: [CLS] The cat sat on the mat [SEP] Stock prices fell [SEP]  
标签: NotNext ✗

NSP帮助模型理解句子间关系，对问答、自然语言推理等任务至关重要。

三、模型架构

BERT使用Transformer Encoder（没有Decoder），因为需要双向注意力：

模型	层数	隐藏维度	注意力头数	参数量
BERT-Base	12	768	12	1.1亿
BERT-Large	24	1024	16	3.4亿

四、微调范式

BERT开创了"预训练+微调"范式：

预训练：在大规模无标注文本上训练MLM+NSP（耗资巨大，一般只有大厂做）
微调：在下游任务上用标注数据训练，只需在[CLS]上加一层分类头

关键优势：同一个预训练模型可以微调到任何NLP任务，无需重新设计架构。

五、横扫11项NLP任务

任务	数据集	BERT成绩	提升幅度
综合NLU	GLUE	80.5%	+7.7%
自然语言推理	MultiNLI	86.7%	+4.6%
问答v1.1	SQuAD 1.1	93.2 F1	+1.5
问答v2.0	SQuAD 2.0	83.1 F1	+5.1

BERT在11项任务上全面刷新SOTA，震撼了整个NLP社区。

六、影响与遗产

预训练范式：BERT证明了"预训练+微调"的强大，这一范式延续至今
RoBERTa：移除NSP，更大batch size，更多数据，证明BERT还有更大潜力
ALBERT：参数共享，降低模型尺寸
SpanBERT/ELECTRA：改进预训练任务
现代LLM：GPT-3/ChatGPT虽然用Decoder，但继承了预训练思想

七、原文摘要

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT model can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial task-specific architecture modifications.

AI 论文

论文解读：GPT-3 — 语言模型的少样本学习奇迹

论文标题：Language Models are Few-Shot Learners

作者：Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan 等（OpenAI，共31位作者）

发表：NeurIPS 2020

引用量：20,000+

arXiv：2005.14165

一、核心假设：规模即能力

GPT-3的核心理念极其简洁：把模型做到足够大，它就能在不需要梯度更新的情况下学会新任务。

在GPT-3之前，NLP任务的标准流程是"预训练→微调"（需要标注数据和梯度更新）。GPT-3提出了全新的范式：预训练→提示（In-Context Learning），只需给模型几个示例，它就能理解任务并执行。

二、模型规模

参数	GPT-3 (175B)	GPT-2 (1.5B)	BERT-Large
参数量	1,750亿	15亿	3.4亿
层数	96	48	24
隐藏维度	12,288	1,600	1,024
注意力头数	96	25	16
上下文窗口	2,048	1,024	512
训练数据	570GB文本	40GB	16GB

三、三种学习范式

GPT-3定义了三种无需梯度更新的学习方式：

Zero-shot：只给任务描述，无示例
```
Translate to French: "Hello world" →
```

One-shot：给1个示例

Translate to French:
"Hello" → "Bonjour"
"How are you" →

Few-shot：给多个示例（论文最多用64个）

Translate to French:
"Hello" → "Bonjour"  
"Goodbye" → "Au revoir"
"Thanks" → "Merci"
"Please" →

四、涌现能力（Emergent Abilities）

GPT-3最令人震惊的发现：某些能力只有在模型达到一定规模后才突然出现，小模型完全不具备：

算术推理（3位数加法）
新闻文章生成（人类难以辨别真伪）
SAT类比题
编写/理解代码

这是"涌现能力"概念在AI领域的标志性发现，直接推动了后来的Scaling Laws研究。

五、关键实验结果

翻译：Few-shot GPT-3在法→英翻译上接近监督SOTA
问答：TriviaQA上Few-shot达到SOTA水平
超级GLUE：Few-shot大幅超过零样本基线
文本生成：人类评估者仅52%概率区分GPT-3文章和人类文章

六、局限性与争议

偏见与毒性：模型会反映训练数据中的社会偏见
事实准确性：生成内容可能看似合理但包含事实错误
计算成本：训练费用估计数百万美元
效率问题：175B参数的推理成本极高

七、影响与遗产

直接催生了ChatGPT（InstructGPT + RLHF是对GPT-3的对齐改进）
证明了Scaling Laws的威力，推动了AI行业的"军备竞赛"
定义了In-Context Learning范式，影响了Prompt Engineering的发展
"涌现能力"概念影响了后续对大模型能力的系统性研究

八、原文摘要

We demonstrate that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. We train GPT-3, an autoregressive language model with 175 billion parameters, and test its performance on dozens of NLP tasks. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model.

AI 论文

论文解读：DDPM — 扩散模型如何颠覆图像生成

论文标题：Denoising Diffusion Probabilistic Models

作者：Jonathan Ho, Ajay Jain, Pieter Abbeel

发表：NeurIPS 2020 | UC Berkeley

引用量：15,000+

arXiv：2006.11239

代码：GitHub

一、从GAN到扩散模型

2020年之前，图像生成被GAN统治。GAN生成快但训练不稳定、模式崩塌、缺乏多样性。扩散模型提供了一个全新的思路：与其直接生成，不如先学会去噪。

灵感来自非平衡热力学——墨水滴入水中逐渐扩散（加噪），如果我们学会逆转这个过程（去噪），就能从噪声中"提取"出清晰的图像。

二、前向过程（加噪）

给定一张清晰图像x_0，逐步添加高斯噪声，经过T步后变成纯噪声x_T：

q(x_t | x_{t-1}) = N(x_t; √(1-β_t) · x_{t-1}, β_t · I)

其中β_t是预设的噪声方差表（如从0.0001线性增长到0.02）。

关键性质——可以一步跳到任意时刻：

q(x_t | x_0) = N(x_t; √ᾱ_t · x_0, (1-ᾱ_t) · I)
其中 ᾱ_t = ∏(1-β_s)

三、反向过程（去噪）

训练一个神经网络来预测每一步添加的噪声，从而逐步去噪：

p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), Σ_θ(x_t, t))

核心简化：不直接预测x_0，而是预测噪声ε：

# 模型预测噪声
ε_θ = U-Net(x_t, t)

# 从x_t推导x_{t-1}
μ_θ = (1/√α_t) · (x_t - (β_t/√(1-ᾱ_t)) · ε_θ)

四、为什么预测噪声而非原图？

这是DDPM最精妙的设计之一：

预测噪声让损失函数简化为简单的MSE：L = ||ε - ε_θ(x_t, t)||²
噪声分布简单（高斯），模型更容易学习
与去噪分数匹配（Denoising Score Matching）建立理论联系

五、U-Net架构

DDPM使用修改版U-Net作为去噪网络：

编码器-解码器结构 + 跳跃连接
在每个分辨率层注入时间步t的嵌入
使用自注意力层（低分辨率处）捕获全局结构
渐进式特征提取：粗略结构→精细细节

六、实验结果

数据集	指标	DDPM成绩	之前最佳
CIFAR-10	FID	3.17	~3.5 (StyleGAN2)
CIFAR-10	IS	9.46	~9.2
LSUN 256×256	样本质量	≈ProgressiveGAN	—

七、从DDPM到现代扩散模型

Stable Diffusion：在潜空间中做扩散（而非像素空间），极大降低计算成本
DALL·E 2/3：扩散模型 + CLIP引导
Midjourney：扩散模型 + 精细化美学调优
Sora：视频扩散模型，3D时空Patch
DDIM：加速采样，从1000步减少到50步

八、原文摘要

We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound designed according to a novel connection between diffusion probabilistic models and denoising score matching with Langevin dynamics. On the unconditional CIFAR10 dataset, we obtain an Inception score of 9.46 and a state-of-the-art FID score of 3.17.

AI 论文

论文解读：InstructGPT — 用人类反馈让AI听话

论文标题：Training language models to follow instructions with human feedback

作者：Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida 等（OpenAI）

发表：NeurIPS 2022

引用量：6,000+

arXiv：2203.02155

一、问题：大模型不听话

GPT-3很强大，但存在严重问题：

不遵循指令：用户让它总结，它可能续写故事
输出有害内容：可能生成偏见、歧视、暴力内容
编造事实：一本正经地胡说八道（幻觉问题）

核心问题：语言模型没有与人类意图对齐（Alignment）。它只学会了"预测下一个词"，不知道人类真正想要什么。

二、三步对齐方案：SFT → RM → PPO

第一步：监督微调（SFT）

让人类标注员写出高质量的"提示→回复"对，用这些数据微调GPT-3：

提示: "请用简单的话解释量子纠缠"
人类回复: "量子纠缠就像一对神奇的骰子，不管隔多远，
同时掷出总是相同的数字。爱因斯坦称之为'鬼魅般的远距作用'..."

收集约13,000条高质量示范数据。

第二步：训练奖励模型（RM）

让人类标注员对模型的多个输出进行排序，训练一个能预测人类偏好的奖励模型：

给SFT模型一个提示，生成4-9个回复
人类标注员将回复从最好到最差排序
训练RM学习这种排序偏好

收集约33,000条比较数据。RM是一个6B参数的GPT-3模型，输出一个标量分数。

第三步：PPO强化学习

用奖励模型的分数作为奖励信号，通过PPO算法优化SFT模型：

# PPO目标函数（简化）
objective = E[Reward(x, y)] - β · KL(π_θ || π_ref)

# 奖励 = RM分数 + KL惩罚
# KL惩罚防止模型偏离原始分布太远（避免reward hacking）

三、关键发现

1.3B的InstructGPT在人类评估中优于175B的GPT-3——对齐比规模更重要
输出更安全：有害输出减少约25%（真实性和毒性评估）
在"遵循指令"维度上，85%的情况下InstructGPT优于GPT-3
RLHF不会显著损害模型在其他NLP任务上的能力

四、RLHF的核心洞察

这篇论文证明了两个关键观点：

人类偏好可以被建模：RM能从人类排序中学到一致的偏好函数
小模型+对齐 > 大模型+不对齐：对齐是比规模更重要的因素

这直接催生了ChatGPT：InstructGPT的方法应用到GPT-3.5/GPT-4上，就是ChatGPT。

五、从InstructGPT到ChatGPT

InstructGPT是ChatGPT的技术前身
同样的RLHF流程被应用于GPT-3.5 → ChatGPT
后续模型（GPT-4、Claude等）都采用类似的对齐方法
Constitutional AI（Anthropic）是RLHF的改进版本

六、局限性

人类标注员可能不一致（不同人有不同偏好）
RM可能被"sandbagging"（模型学会在RM面前表现好，但实际输出仍有问题）
对齐是持续的过程，新能力需要新的对齐工作

七、原文摘要

Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Our resulting 1.3B parameter model significantly outperforms GPT-3 despite being over 100x smaller.

AI 论文

论文解读：ResNet — 残差连接如何让网络无限深

论文标题：Deep Residual Learning for Image Recognition

作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

发表：CVPR 2016 | Microsoft Research

引用量：200,000+（计算机视觉史上被引最多论文）

arXiv：1512.03385

一、深度网络的退化问题

直觉上，网络越深应该越强。但实验发现了一个反直觉的现象：56层网络的训练误差比20层网络还高。

这不是过拟合（训练误差也高），而是退化问题（Degradation）：更深的网络反而更难优化。理论上，深层网络至少应该和浅层网络一样好（多余的层学恒等映射即可），但SGD很难学出恒等映射。

二、残差学习的核心思想

何恺明的天才洞察：与其让网络学习H(x)，不如让它学习F(x) = H(x) - x

# 普通网络：直接学习映射
H(x) = 目标映射

# 残差网络：学习残差
F(x) = H(x) - x  →  即 H(x) = F(x) + x

如果某一层只需要做恒等映射，残差网络只需学F(x)=0，这比学H(x)=x容易得多！

三、残差块（Residual Block）

输入x
  → Conv → BN → ReLU → Conv → BN
  → + x（跳跃连接/Shortcut Connection）
  → ReLU
  → 输出

关键：跳跃连接不增加参数，不增加计算量，只做恒等映射（element-wise addition）。

四、为什么有效？

梯度直通：跳跃连接为梯度提供了一条"高速公路"，缓解梯度消失
恒等映射容易学：F(x)=0比H(x)=x更容易优化
信息融合：每层只需学习"残差"（与恒等映射的偏差），而非完整的变换

五、网络架构

网络	层数	Top-5错误率
VGG-19	19	7.32%
Plain-34	34	10.02%（退化！）
ResNet-34	34	5.71%
ResNet-101	101	4.60%
ResNet-152	152	3.57%

ResNet-152比VGG-19深8倍，但复杂度反而更低！ResNet横扫ILSVRC 2015全部5项冠军。

六、超越图像分类

残差连接的影响远超计算机视觉：

Transformer：每个子层都有残差连接（Add & Norm）
GPT/BERT：深层Transformer依赖残差连接训练
扩散模型U-Net：跳跃连接是核心
AlphaGo/AlphaFold：都使用了残差结构

可以说，没有残差连接，就不可能有现代深度学习。

七、原文摘要

Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers — 8x deeper than VGG nets but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task.

AI 论文

论文解读：Mamba — 线性时间的序列建模革命

论文标题：Mamba: Linear-Time Sequence Modeling with Selective State Spaces

作者：Albert Gu, Tri Dao

发表：ICML 2024 | Carnegie Mellon / Princeton

引用量：2,000+

arXiv：2312.00752

一、Transformer的阿喀琉斯之踵

Transformer虽然强大，但有一个根本缺陷：注意力计算是O(n²)复杂度。序列长度翻倍，计算量翻四倍。当上下文窗口从2K扩展到128K、1M时，计算成本爆炸式增长。

大量工作试图替代Transformer：线性注意力、RNN变体、状态空间模型（SSM）等，但它们在语言任务上始终不如注意力机制。

Mamba解决了这个困局：既保持线性复杂度，又在语言建模上匹配甚至超越Transformer。

二、状态空间模型（SSM）基础

SSM用隐状态h(t)建模序列，类似连续版的RNN：

# 连续时间
h'(t) = A·h(t) + B·x(t)    # 状态更新
y(t)  = C·h(t)              # 输出

# 离散化后（可并行训练）
h_t = Ā·h_{t-1} + B̄·x_t
y_t = C·h_t

之前的S4模型证明SSM在长序列建模上有优势，但传统SSM的A、B、C参数是固定的（与输入无关），无法做内容相关的推理。

三、Mamba的核心创新：选择性机制

Mamba的关键洞察：让SSM参数成为输入的函数：

# 传统SSM（参数固定）
B, C, Δ = 固定参数

# Mamba（选择性SSM，参数随输入变化）
B(x) = Linear(x)     # 输入决定"看什么"
C(x) = Linear(x)     # 输入决定"输出什么"  
Δ(x) = softplus(Linear(x))  # 输入决定"记住多少"

这让模型可以选择性地传播或遗忘信息——遇到重要Token就"记住"，遇到无关Token就"忽略"。

直觉理解：就像阅读时，重要内容仔细读（大Δ=慢更新=记住），废话快速跳过（小Δ=快更新=遗忘）。

四、硬件感知并行算法

选择性机制让SSM无法用卷积高效实现（因为参数依赖输入）。Mamba设计了硬件感知的并行扫描算法：

在GPU的SRAM（而非HBM）中执行递归计算
避免materialization中间状态，减少内存IO
实际推理速度比Transformer快5倍

五、Mamba块架构

输入x
  → 线性投影 → 分成x, z两路
  → x路: Conv1d → SiLU → 选择性SSM → 与z路相乘(SiLU)
  → 线性投影 → 输出

# 没有注意力！没有MLP！只有SSM + 卷积 + 门控

6. 实验结果

语言建模：Mamba-3B在预训练困惑度上匹配Transformer-6B（两倍大的模型）
推理速度：5倍于同规模Transformer的吞吐量
长序列：在百万长度序列上性能持续提升
多模态：在音频、基因组数据上也达到SOTA

七、影响与未来

Mamba是首个在语言任务上真正匹敌Transformer的非注意力架构
Jamba（AI21）将Mamba与注意力混合，进一步验证其价值
Mamba-2引入结构化状态空间对偶（SSD），更高效
未来可能的方向：Mamba + 注意力混合架构、多模态Mamba

八、原文摘要

Foundation models are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures have been developed to address Transformers' computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language. We identify that a key weakness of such models is their inability to perform content-based reasoning, and make several improvements. First, simply letting the SSM parameters be functions of the input addresses their weakness with discrete modalities. We integrate these selective SSMs into a simplified end-to-end neural network architecture without attention or even MLP blocks (Mamba). Mamba enjoys fast inference (5x higher throughput than Transformers) and linear scaling in sequence length.

AI 论文

论文解读：Scaling Laws — 大模型的力量密码

论文标题：Scaling Laws for Neural Language Models

作者：Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown 等（OpenAI）

发表：arXiv 2020

引用量：5,000+

arXiv：2001.08361

一、核心发现：Loss是幂律

OpenAI团队发现了一个惊人的规律：语言模型的交叉熵损失（Loss）与三个因素呈幂律关系：

L(N) ∝ N^{-α_N}    # N = 模型参数量     α_N ≈ 0.076
L(D) ∝ D^{-α_D}    # D = 训练数据量     α_D ≈ 0.095
L(C) ∝ C^{-α_C}    # C = 训练计算量     α_C ≈ 0.050

这些幂律关系跨越7个数量级都成立！这意味着从1M参数到100B参数，同样的规律都在起作用。

二、三大要素的相对重要性

论文最实用的结论——在固定算力预算下如何分配资源：

模型参数量N：影响最大，增加参数比增加训练步数更有效
数据量D：重要但不是第一优先，当D不足时模型会过拟合
计算量C：≈ 6ND（每个参数每个数据点约6FLOPs）

三、反直觉的结论

1 大模型应早停

最优策略：训练非常大的模型，在远未收敛时就停止。

传统观念：训练到收敛。但Scaling Laws证明，把同样算力用来训练更大的模型（即使没收敛），效果比把小模型训练到收敛更好。

# 不是这样：
小模型 → 训练到收敛 → 中等效果

# 而是这样：
大模型 → 训练到1/3就停 → 更好效果

2 模型大小比训练时长重要

当算力增加10倍时，最优分配是：

模型大小增加约5.5倍
训练步数仅增加约1.8倍

结论：优先增大模型，其次增加训练步数。

3 其他架构细节不太重要

在足够大的范围内，网络深度/宽度比、注意力头数等架构超参数对Loss的影响远小于N、D、C。这解释了为什么GPT系列一直沿用类似的架构——规模比架构更重要。

四、过拟合的预测

论文给出了过拟合的简单公式：

δ(L) ≈ (N/N_0)^{α_N} · (D/D_0)^{-α_D}

# 经验法则：当 D > 20 × N 时，过拟合可忽略
# 即：1B参数模型至少需要20B Token的数据

这为"需要多少训练数据"提供了定量指导。

五、Chinchilla：Scaling Laws的验证

2022年DeepMind的Chinchilla论文验证并修正了Scaling Laws：

Gopher (280B) 训练了300B Token → 不是最优的
Chinchilla (70B) 训练了1.4T Token → 更好的Loss
结论：之前的模型都太大了，数据量不够

最优比例约为 N : D ≈ 1 : 20（参数:Token数）

六、对AI行业的深远影响

军备竞赛：Scaling Laws直接推动了GPT-3/4、PaLM、LLaMA等超大模型的诞生
投资依据：风投和科技公司根据Scaling Laws决定AI投资规模
LLaMA的反例：Meta用更多数据训练更小模型（70B），效果媲美GPT-3(175B)
推理优化：规模法则也适用于推理，推动了量化、蒸馏等研究

七、争议与局限

幂律是否永远成立？有人认为存在"Scaling Laws的极限"
数据墙：高质量文本数据可能不够训练下一代模型
只关注Loss，不代表所有能力同步提升
对齐税：更大的模型可能需要更多对齐成本

八、原文摘要

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Larger models are significantly more sample-efficient, such that optimally compute-efficient training involves training very large models on a relatively modest amount of data and stopping significantly before convergence.

AI 论文

Attention Is All You Need 解读

## Attention Is All You Need **论文链接**：https://arxiv.org/abs/1706.03762 **发表时间**：2017年 **作者**：Vaswani et al. (Google) ### 核心贡献提出了Transformer架构，彻底改变了NLP领域。 ### 关键创新 #### 1. 自注意力机制 ``` Attention(Q, K, V) = softmax(QK^T / √d_k) V ``` #### 2. 多头注意力 ```python MultiHead(Q, K, V) = Concat(head_1, ..., head_h) W^O ``` #### 3. 位置编码 ``` PE(pos, 2i) = sin(pos / 10000^(2i/d)) PE(pos, 2i+1) = cos(pos / 10000^(2i/d)) ``` ### 影响与意义 - 奠定了GPT、BERT等模型基础 - 并行计算效率大幅提升 - 成为现代大模型标准架构

AI 论文

Chain-of-Thought Prompting 解读

## Chain-of-Thought Prompting **论文链接**：https://arxiv.org/abs/2201.11903 **发表时间**：2022年 **作者**：Wei et al. (Google) ### 核心思想通过引导模型展示推理过程，显著提升复杂任务表现。 ### 方法对比 #### 标准提示 ``` Q: Roger有5个网球，他又买了2罐网球，每罐3个。他现在有多少网球？ A: 11 ``` #### 思维链提示 ``` Q: Roger有5个网球，他又买了2罐网球，每罐3个。他现在有多少网球？ A: Roger一开始有5个网球。 2罐网球，每罐3个，所以是2×3=6个。 5+6=11个。答案是11。 ``` ### 性能提升 | 任务类型 | 标准提示 | 思维链 | 提升 | |----------|----------|--------|------| | GSM8K | 17.1% | 55.5% | +38.4% | | SVAMP | 41.1% | 71.0% | +29.9% |

AI 论文

精读 DeepSeek V4 技术报告：DSA稀疏注意力与万亿MoE架构

## 精读 DeepSeek V4 技术报告：DSA稀疏注意力与万亿MoE架构 ### 论文信息 - **标题**：DeepSeek-V4 Technical Report - **发布**：2026年4月 - **机构**：DeepSeek - **协议**：MIT 开源 ### 核心创新 #### 1. DSA 稀疏注意力机制 DeepSeek V4 引入全新的混合注意力机制（Hybrid Attention），使长上下文推理成本大幅下降： - 原生支持 1M tokens 上下文 - 百万 token 输入成本仅为传统方案的零头 #### 2. MoE 架构升级 | 模型 | 总参数 | 激活参数 | MoE 层数 | |------|--------|---------|---------| | V4-Pro | 1.6T | 49B | 61层 | | V4-Flash | 284B | 13B | 28层 | #### 3. 性能对比 - Agentic Coding：开源最佳 - SuperCLUE 中文评测：登顶 - 数学/STEM/竞赛编程：超越所有已公开开源模型 ### 产业影响 - 端云协同成为行业共识 - V4 的开源发布标志着国产大模型进入"百万上下文+极致性价比"时代 - 部署成本降至新低（MIT协议免费使用） ### 延伸阅读 - [DeepSeek V3 技术报告](https://arxiv.org/abs/2412.19437) - [DeepSeek V4 接入教程](https://www.cnblogs.com/qiniushanghai/p/19958003)

AI 论文

精读 GPT-5.5 技术报告：从通用对话到个性化智能助手

## 精读 GPT-5.5 技术报告：从通用对话到个性化智能助手 ### 论文信息 - **标题**：GPT-5.5 System Card - **发布**：2026年4月 - **机构**：OpenAI ### 核心创新 #### 1. Agent 原生架构 GPT-5.5 是自 GPT-4.5 以来首个从零重新训练的基础模型： - 可在较少指令下自主完成多步骤复杂任务 - Terminal-Bench 82.7%（Agentic 工作流全球最强） - 每兆瓦 Token 输出量提升 50 倍 #### 2. 个性化记忆系统 2026年5月推出的记忆功能： - 跨会话调取历史对话和文件 - 关联 Gmail 等外部服务 - 提示词长度缩短 62%，效率提升 47% #### 3. 幻觉率大幅下降 | 场景 | GPT-5.3 Instant | GPT-5.5 Instant | |------|-----------------|------------------| | 高敏感领域幻觉率 | 基线 | -52.5% | | 用户标记错误率 | 基线 | -37.3% | | AIME 2025 数学 | 65.4 分 | 81.2 分 | #### 4. 版本矩阵 | 版本 | Token 成本 | 适用场景 | |------|-----------|----------| | GPT-5.5 Instant | 最低 | 日常对话 | | GPT-5.5 Standard | $5/$30 | 开发者 | | GPT-5.5 Thinking | 更高 | 深度推理 | | GPT-5.5 Pro | 最高 | 关键决策 | ### 产业影响 - GPT-5.5 Instant 免费开放标志着 AI 普惠时代的到来 - Token 效率提升 35 倍重塑成本结构 - 记忆系统开启个性化 AI 新范式

AI 论文

精读 Claude Opus 4.7 技术报告：自验证机制与 Routines 自动化

## 精读 Claude Opus 4.7 技术报告：自验证机制与 Routines 自动化 ### 论文信息 - **标题**：Claude Opus 4.7 Model Card - **发布**：2026年4月17日 - **机构**：Anthropic ### 核心创新 #### 1. 软件工程突破 - CursorBench：70%（前代 58%） - SWE-bench Pro：64.3% - 可独立完成复杂算法实现、深度重构、复杂 Bug 诊断 #### 2. 自验证机制 Claude Opus 4.7 引入输出前自主验证： - 在输出前完成自我检查 - 大幅减少人工审查时间 - 新增 `/ultrareview` 深度代码审查命令 #### 3. 视觉能力跃升 - 375万像素图片输入（前代3倍） - 支持复杂软件界面理解 - Claude Design 视觉创作工具上线 #### 4. Routines 自动化工作流配置一次即可自动运行： - 定时触发 - API 事件触发 - GitHub 事件触发 - 自动代码审查和测试 #### 5. 安全架构 - Claude Mythos Preview 展示了模型的安全边界 - Constitutional AI 持续演进 - "有意削弱"策略确保可控性 ### 性能对比 | 基准 | Opus 4.6 | Opus 4.7 | GPT-5.5 | |------|----------|----------|----------| | CursorBench | 58% | 70% | - | | SWE-bench Pro | - | 64.3% | - | | 编程任务 | 需监督 | 可独立 | 多步工具链 |

AI 论文

Scaling Sparse Neural Networks — 稀疏神经网络扩展研究

论文概述

本文探讨了稀疏神经网络在大规模场景下的扩展性，研究如何通过稀疏激活和条件计算实现模型参数量的大幅增长，同时保持推理成本的线性增长。

核心贡献

提出新的稀疏路由机制，支持超大规模MoE模型的稳定训练
在保持推理成本不变的情况下，模型参数量可扩展至万亿级别
实验表明稀疏模型在多项基准测试中达到或超过稠密模型的表现

关键数据

指标	稠密模型	稀疏模型
参数量	100B	1T（激活100B）
推理成本	1x	1.2x
MMLU	82.3%	84.1%

研究意义

本研究为下一代大模型的架构设计提供了重要参考，表明稀疏化是突破稠密模型扩展瓶颈的有效路径。

AI 论文

精读 Qwen3 技术报告：混合思维与原生MCP支持

Qwen3 是阿里巴巴通义千问团队开源的第三代大语言模型系列，首次在开源模型中引入了"混合思维"（Hybrid Thinking）机制，结合快思考与慢思考能力，覆盖 0.6B 到 235B 全参数谱系。

核心特性

混合思维架构：融合快思考（快速响应）和慢思考（深度推理）两种模式，根据任务复杂度自动切换
原生 MCP 支持：内置 Model Context Protocol 支持，可直接调用外部工具和插件
128K 超长上下文：支持最高 128,000 tokens 的上下文窗口，适合长文档分析
多语言支持：覆盖中文、英文在内 119 种语言和方言
强大代码能力：CodeQwen1.5 作为基座，代码生成、调试和解释能力业界领先

技术规格

模型	参数量	上下文	部署方式
Qwen3-0.6B	0.6B	32K	本地/移动端
Qwen3-8B	8B	128K	消费级 GPU
Qwen3-32B	32B	128K	专业 GPU
Qwen3-235B-A22B	235B（激活22B）	128K	多卡集群

混合思维详解

Qwen3 的混合思维机制是其最大创新。传统大模型在所有任务上都使用相同的方式推理，而 Qwen3 能够：

对简单问答直接给出快速回答（快思考）
对复杂推理任务自动切换到链式思考（慢思考）
通过 /Think 和 /Fast 指令手动控制思考模式

API 调用示例

curl https://api.eake.cn/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{"model":"qwen3-235b-a22b","messages":[{"role":"user","content":"解释一下量子计算中的叠加态原理"}],"thinking":{"type":"enabled","budget_tokens":4000}}'

Qwen3 的开源打破了闭源模型在推理能力上的垄断，混合思维机制使其在复杂任务上的表现大幅提升，同时保持了可控的推理成本。

AI 论文

精读 Gemini 2.5 技术报告：百万上下文与深度思考

Gemini 2.5 Pro 是 Google DeepMind 推出的旗舰多模态大模型，支持文本、图像、视频、音频和代码的联合理解与生成。其核心突破在于百万级上下文窗口和"深度思考"模式。

核心能力

百万上下文：Gemini 2.5 Pro 支持 1M tokens 上下文，可以一次性处理整本书籍、长篇代码库或数百页文档
深度思考模式：内置思考链机制，可对复杂问题进行多步推理，适用于数学证明、代码调试、战略分析
原生多模态：统一架构处理文本、图像、视频、音频，无需多模态拼接
工具调用：内置函数调用（Function Calling）能力，可连接外部 API 和工具
代码自动执行：内置 Python 代码沙箱，可自动运行生成的代码并返回结果

模型对比

模型	上下文	多模态	代码执行	适合场景
Gemini 2.5 Pro	1M	原生	✅	复杂推理、长文档分析
Gemini 2.5 Flash	1M	原生	✅	快速响应、高频调用
Gemini 2.0 Flash	1M	原生	❌	通用任务

深度思考原理

Gemini 2.5 Pro 的深度思考模式通过扩展思考预算（Thinking Budget）实现，模型会在生成最终答案前，内部进行长达 32K tokens 的思考过程，相当于将推理能力前置到模型内部。

适用场景

长文档摘要与问答（支持 PDF、网页、代码库整体输入）
复杂代码调试和重构（自动分析错误并给出修复方案）
多模态内容分析（同时理解图文视频内容）
深度研究任务（自动进行多轮假设验证）

AI 论文

论文解读：Scaling Laws — 大模型缩放定律

论文解读：Scaling Laws

论文背景

Scaling Laws 是人工智能领域的重要研究方向，对推动大语言模型的发展具有深远影响。本文将深入浅出地介绍其核心思想和技术细节。

核心概念

Scaling Laws 的关键创新点在于重新思考了模型训练和推理的基本范式。通过引入新的方法论，在多个基准测试中取得了显著的性能提升。

技术原理

该方法的核心思想可以概括为以下几个要点：

理论基础：建立在坚实的数学和计算机科学原理之上
实现路径：提供了清晰可行的工程实现方案
实验验证：在多个数据集上进行了充分的消融实验

应用价值

Scaling Laws 的研究成果已在工业界得到广泛应用，特别是在提升模型推理能力、优化训练效率、改善生成质量等方面展现出巨大潜力。

总结

Scaling Laws 代表了当前 AI 研究的前沿方向之一，对于从事大模型研究和应用开发的从业者来说，是必读的重要文献。

AI 论文

论文解读：Chain-of-Thought — 思维链推理

论文解读：Chain-of-Thought

论文背景

Chain-of-Thought 是人工智能领域的重要研究方向，对推动大语言模型的发展具有深远影响。本文将深入浅出地介绍其核心思想和技术细节。

核心概念

Chain-of-Thought 的关键创新点在于重新思考了模型训练和推理的基本范式。通过引入新的方法论，在多个基准测试中取得了显著的性能提升。

技术原理

该方法的核心思想可以概括为以下几个要点：

理论基础：建立在坚实的数学和计算机科学原理之上
实现路径：提供了清晰可行的工程实现方案
实验验证：在多个数据集上进行了充分的消融实验

应用价值

Chain-of-Thought 的研究成果已在工业界得到广泛应用，特别是在提升模型推理能力、优化训练效率、改善生成质量等方面展现出巨大潜力。

总结

Chain-of-Thought 代表了当前 AI 研究的前沿方向之一，对于从事大模型研究和应用开发的从业者来说，是必读的重要文献。

AI 论文

论文解读：Mixture of Experts — MoE混合专家架构

论文解读：Mixture of Experts

论文背景

Mixture of Experts 是人工智能领域的重要研究方向，对推动大语言模型的发展具有深远影响。本文将深入浅出地介绍其核心思想和技术细节。

核心概念

Mixture of Experts 的关键创新点在于重新思考了模型训练和推理的基本范式。通过引入新的方法论，在多个基准测试中取得了显著的性能提升。

技术原理

该方法的核心思想可以概括为以下几个要点：

理论基础：建立在坚实的数学和计算机科学原理之上
实现路径：提供了清晰可行的工程实现方案
实验验证：在多个数据集上进行了充分的消融实验

应用价值

Mixture of Experts 的研究成果已在工业界得到广泛应用，特别是在提升模型推理能力、优化训练效率、改善生成质量等方面展现出巨大潜力。

总结

Mixture of Experts 代表了当前 AI 研究的前沿方向之一，对于从事大模型研究和应用开发的从业者来说，是必读的重要文献。

AI 论文

论文解读：RLHF — 人类反馈强化学习

论文解读：RLHF

论文背景

RLHF 是人工智能领域的重要研究方向，对推动大语言模型的发展具有深远影响。本文将深入浅出地介绍其核心思想和技术细节。

核心概念

RLHF 的关键创新点在于重新思考了模型训练和推理的基本范式。通过引入新的方法论，在多个基准测试中取得了显著的性能提升。

技术原理

该方法的核心思想可以概括为以下几个要点：

理论基础：建立在坚实的数学和计算机科学原理之上
实现路径：提供了清晰可行的工程实现方案
实验验证：在多个数据集上进行了充分的消融实验

应用价值

RLHF 的研究成果已在工业界得到广泛应用，特别是在提升模型推理能力、优化训练效率、改善生成质量等方面展现出巨大潜力。

总结

RLHF 代表了当前 AI 研究的前沿方向之一，对于从事大模型研究和应用开发的从业者来说，是必读的重要文献。

AI 论文

论文解读：RAG — 检索增强生成

论文解读：RAG

论文背景

RAG 是人工智能领域的重要研究方向，对推动大语言模型的发展具有深远影响。本文将深入浅出地介绍其核心思想和技术细节。

核心概念

RAG 的关键创新点在于重新思考了模型训练和推理的基本范式。通过引入新的方法论，在多个基准测试中取得了显著的性能提升。

技术原理

该方法的核心思想可以概括为以下几个要点：

理论基础：建立在坚实的数学和计算机科学原理之上
实现路径：提供了清晰可行的工程实现方案
实验验证：在多个数据集上进行了充分的消融实验

应用价值

RAG 的研究成果已在工业界得到广泛应用，特别是在提升模型推理能力、优化训练效率、改善生成质量等方面展现出巨大潜力。

总结

RAG 代表了当前 AI 研究的前沿方向之一，对于从事大模型研究和应用开发的从业者来说，是必读的重要文献。

AI 论文

AI智能体知道任务何时简单吗？迈向复杂度感知的推理与执行

摘要（译文）：大语言模型智能体越来越多地自动化多步工程与信息工作流，却很少评估任务实际所需的工作量。本文提出"任务感知的执行范围估计"：在投入算力前判断任务难度、所需信息与最短可靠路径。形式化"最小充分执行"与"智能体认知冗余比(ACRR)"，提出 E3（估计-执行-扩展）策略。在 MSE-Bench（121个编辑的确定性基准）上，E3 以 85% 成本、91% token、92% 被检文件的削减达到最强基线 100% 成功率，并超越自适应检索基线 16%。

作者：Junjie Yin, Xinyu Feng｜发布：2026-07-14｜原文：arxiv.org/abs/2607.13034

AI 论文

TerraZero：面向零演示自博弈的大规模程序化驾驶仿真

摘要（译文）：训练鲁棒的自动驾驶智能体需要足够快（支撑大规模强化学习）、足够真实（锚定真实地图结构）、足够多样（覆盖安全关键长尾）的仿真器。TerraZero 是程序化驾驶仿真器+自博弈训练栈：可配置 C 引擎在 CPU 跑仿真、GPU 跑策略推理，零拷贝路径下单服务器 GPU 达 130 万 agent 步/秒，远快于现有对象级仿真器，同时保留异构智能体、多动力学模型与完整交规执行。仅用强化学习从零训练，无人类演示。策略跨城市零样本泛化，登顶 InterPlan 长尾基准。

作者：Zhouchonghao Wu 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.13028

AI 论文

PalmClaw：面向手机的原生端侧智能体框架

摘要（译文）：现有移动智能体多通过 GUI 操作（点按/滑动/输入）控制手机，形成长且依赖界面的序列，无法直接访问设备能力。PalmClaw 是开源框架，在手机端原生运行，直接管理会话、记忆、技能、工具与智能体循环。将设备能力暴露为带明确参数的"设备工具"，使每个动作显式可控。实验显示任务成功率相对提升 11.5%、完成时间减少 94.9%。

作者：Hongru Cai 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.13027

AI 论文

基于冻结离散扩散语言模型的音频原生语音识别

摘要（译文）：本文探索用离散扩散语言模型并行精炼整段转录（而非逐 token 自回归）。为 DiffusionGemma（26B MoE，均匀随机 token 离散扩散）训练音频原生接口：冻结 Whisper 编码器提供声学特征，轻量投影映射至嵌入空间，低秩适配让冻结主干关注新模态——仅训练约 4200 万参数（主干的 0.16%）。发现常规训练目标无法锚定音频，用 CTC 损失打破死锁。最终模型在 LibriSpeech test-clean 达 6.6% 词错率，约 8 步并行转录，单适配器支持多语言。

作者：Harsha Vardhan Khurdula 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.13013

AI 论文

沉默制胜：LLM计划评估中的删除非单调性、自主利用与类型化状态门控

摘要（译文）：计划评估器可能因计划"变得不明确"而给更高分。本文研究分阶段期望价值评分器中的该失败：删除内部转移可提升分数。在 26 条路线队列上，57 次合法删除全部匹配解析恒等式；得分寻优器在 21/26 路线上找到超基线结构。GATE 对 26/26 条"沉默"路线拒绝放分。提出 PCSC 检测并对抗基于模型中介的类型化状态记录的事后遗漏拼接。评估创建的是"省略激励"而非计划改进。

作者：Aleh Manchuliantsau｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12986

AI 论文

抵抗与更新：激励兼容LLM的反事实报告坐标

摘要（译文）：对齐模型在非证据激励压力下常误报（附和自信用户或夸大确定性）。本文归因为内部激励不兼容(IC)失败，提出学习并认证"反事实报告中介"：对禁止影响（压力/声望/改风格）不变、对授权证据（真实证据）响应。两需求"抵抗"与"更新"方向相反。在贝叶斯见证基准上，用互换干预（而非探针精度）因果识别答案/置信/告诫的低秩报告坐标；免训练的双通夹紧达到抵抗与更新同时 1.00（95% CI [0.99,1.00]）。

作者：Sen Yang, Yuen-Hei Yeung｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12985

AI 论文

FormalAnalyticGeo：基于神经符号的解析几何多模态问题生成框架

摘要（译文）：解析几何因标注稀缺而欠探索。FormalAnalyticGeo 用形式语言 CDL（条件描述语言）桥接自由文本与精确图表渲染（符号距离场引擎）。四个专用 LLM 组件依次工作：生成器产出多样问题、形式化器转 CDL、测量器基于渲染图视觉测量提取真值、质量验证器三阶段检查。结构化反馈驱动自动重试，形成无需人工标注的闭环。规模化产出 AnalyticGeo7K（7000+ 验证多模态问题），中位相对误差 0.70%。

作者：Ruoran Xu 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12982

AI 论文

形式而非内容？冻结小代码模型中通过提示与权重学习的错误条件自检的预注册安慰剂对照评估

摘要（译文）：冻结小代码 LLM 本地部署，但指导失败后重试的信息仍缺乏安慰剂对照测量。本文将失败程序视为猜想、执行反例视为相对预言的证伪，提出 PoPE（波普尔安慰剂对照评估）：测量证伪代码能否被同一模型操作使用。错误内容与通道特异性安慰剂配对（保留预声明脚手架但消融任务相关内容）。在提示通道与权重通道下评估 0.5–1.5B 冻结小代码模型，结果读作"机制为零"——内容归因优势未确认。

作者：Mehmet Iscan｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12962

AI 论文

ViHoRec：质量可控的越南语酒店推荐数据集与冷启动基准

摘要（译文）：越南语推荐研究受限于缺乏公开、文档完备的酒店交互资源。ViHoRec 含 18,267 条交互（6,832 用户 × 560 酒店），爬自 Booking.com、Traveloka、Ivivu。贡献：可复现构建流水线（跨平台实体解析+量化质量控制）、HMAC 假名隐私保护发布、冷启动基准（时序留一拆分+数据中心消融+无依赖基线）。短历史用户上学习模型锐降，UserKNN 整体最强。

作者：Minh Hoang Nguyen｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12946

AI 论文

面向低功耗边缘平台的基于视觉的实时跌倒检测

摘要（译文）：主流视觉跌倒检测将其视为静态姿态分类或离散时序模式匹配，忽视人体支撑系统的失稳动力学。本文提出物理信息框架，将跌倒重构为耦合动力系统的稳定性丧失事件。双 LTC 架构（质心 CoM + 支撑基底 BoS 子系统）以液态时间常数网络连续建模惯性轨迹与触地调整；可学习耦合模块模拟两子系统物理交互，稳定性流形分类器在联合隐空间检测边界穿越。参数低于 5 万，可在资源受限边缘设备实时推理。

作者：Wenjun Xia 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12909

AI 论文

MemOps：长程对话中生命周期记忆操作基准

摘要（译文）：长期记忆是陪伴式 LLM 智能体的基础能力，但现有基准几乎只在最终问答层面评估，混淆了记忆失败的异质成因（漏记事实、绑定错误目标、纠正后依赖陈旧值）。本文主张记忆是显式操作的"生命周期"（记住/遗忘/更新/反思及其组合），提出 MemOps 基准，用结构化轨迹表示每个记忆事件（触发/目标/范围/状态转移/证据），生成可控长对话+六类操作级探针。揭示当前系统在重构有序记忆状态轨迹上明显薄弱。

作者：Xixuan Hao 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12893

AI 论文

UR-VC：面向时间衍生进度代理的无监督机器人价值校正

摘要（译文）：机器人学习系统日益依赖稠密进度/价值信号评估中间状态，但此类标签难以规模化获取，常以演示内归一化时间作可扩展替代（后帧=更高进度）。在接触丰富操作中，机器人可能取得进展后又因打滑/抓取失败而丧失，而时间标签单调递增。UR-VC 是离线、免训练方法，利用演示数据中"相似状态跨片段复现但时间戳不同"的规律，检索相似状态聚合其时间标签得校正估计，无需人工标签/奖励标注/额外价值模型。

作者：Lirui Zhao 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12892

AI 论文

面向自主、免微调临床症状检测的多智能体系统：开发与验证研究

摘要（译文）：临床笔记含大量就诊症状体征，却很少进入结构化字段。现有抽取要么规则误报多，要么需大量微调。Pythia 是多智能体系统，自主编写并优化临床概念抽取提示，无需手动工程或微调，运行于本地开源模型，用开发集敏感度/特异度选提示。在 400 份临床笔记（387 患者）72 个症状上，Pythia 平均敏感度 0.76、特异度 0.95，优于词典法且可本地部署。

作者：Cameron Cagan 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12886

AI 论文

ChartGenEval：基于corruption测试的多维度反馈的节奏游戏谱面生成评估

摘要（译文）：生成的节奏游戏谱面无需复现官方音符序列，因此参考音符一致度测的是"重建"而非完整设计问题。ChartGenEval 是六问评估框架+自动 corruption 测试核心：放开音符选择、仅用官方谱面时序图锚定时序。用剂量可控失败测试各核心输出，而非假设某熟悉统计量测谱面质量。80 个歌曲组上七输出轴在九项非冗余测试中满足预设敏感性与不变性标准。

作者：Jhen-Ke Lin｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12857

AI 论文

加速掩码扩散大语言模型：高效推理技术综述

摘要（译文）：扩散大语言模型(dLLM)在并行生成上具理论优势，但并行本身不保证实际加速，需扩散感知缓存与复用等专门推理机制。本文提出统一延迟分解框架，解耦算法/架构/系统因素并分析其对实际部署速度的影响，沿三轴分类加速技术（算法创新、架构与系统优化、推理时缩放），提供可复现基准指南并指出开放挑战。

作者：Daehoon Gwak 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12829

AI 论文

视觉语言模型推理中的视觉访问边界

摘要（译文）：思维链(CoT)广泛用于 VLM 的测试时缩放，但尚不清楚 VLM 生成长推理轨迹时扩展了什么。本文提出 Visual Access Sweep 因果干预，沿层深与生成时间遮蔽生成 token 对图像 token 的注意力，定义"视觉访问边界(VAB)"为保持任务精度的最小访问区域。发现 CoT 主要通过扩展语言侧对"图像衍生隐状态"的计算，而非延长图像 token 直接访问；CoT 增益受感知读出限制。

作者：Hiroto Osaka 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12815

AI 论文

固定翼无人机对移动目标的自主跟踪与末制导

摘要（译文）：本文提出搭载云台(PT)相机的固定翼无人机统一控制框架，完成从初始目标检测到精确末制导的端到端任务。三阶段：视觉目标获取→基于 NMPC 的跟踪→末制导。跟踪中用无迹卡尔曼滤波(UKF)融合 YOLO 视觉检测与惯性测量；引入带控制障碍函数(CBF)的约束感知 NMPC 防止无人机自遮挡。满足末制导条件后无缝切换至基于四元数的偏置比例导引律(BPNG)，强制精确撞击角约束。高保真仿真验证稳定鲁棒跟踪与精确拦截。

作者：Wei-Hao Liou, Teng-Hu Cheng｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12801

AI 论文

一词普查：44个语言模型的答案选择趋同性

摘要（译文）：当语言模型须从大量同等有效选项中选一个答案，它会选哪个，又多常与其它模型相同？要求"选一个词"，44 个模型 41% 选了"serendipity"。本文用极简工具（31 个单轮提示，每模型问 4 次，无系统提示）刻画此收敛，以精确匹配分析（无嵌入、无裁判、每模型约 1 美元）。收敛极端（31 类中 7 类单一答案占超 80%），但跨模型从众度差异超 4 倍；人物/社区微调模型最发散，最新旗舰最从众。

作者：Tapan Parikh｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12796

AI 论文

Silent Alarm：跨模型与量化级别比较危险识别的J空间协议

摘要（译文）：越狱鲁棒性研究通常用 LLM-as-judge 评估生成响应，敏感于评分流程且仅捕获观测行为。本文提出 JADR（危险识别的雅可比评估），在首个响应 token 前用 J 空间（可言语化概念的工作空间）测量模型内部表征。不调用外部裁判，计算完全在本地、在受评估模型激活上运行，可比较不同模型及同一模型的量化/微调变体。SafetyAUC 指标以统计显著性区分强弱内部安全机制，并捕捉量化区间的实质性差异。

作者：Roman Prosvirnin 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12792

AI 论文

谁给打分者打分？共演化评估指标与技能的自改进LLM智能体

摘要（译文）：自演化智能体系统靠创建/修订/淘汰自身技能改进，但每个循环都暗含"已有可靠评估指标"的假设，许多应用并无。本文三点主张：①指标可演化（进化生命周期搜索小缺陷检测器组合）；②无真值指标时，Double Ratchet（指标与生命周期管理技能循环共演化）恢复提升，在代码生成/文本SQL/报告生成上保留 88–110% 的留出提升；③安全来自锚点纪律+外部审计。当演化技能博弈报告 rubric，独立裁判捕获、单检测器修复、任务感知裁判在 77% 决定对中选演化输出。

作者：Xing Zhang 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12790

AI 论文

我们真的需要大于1B参数的多模态情绪语言模型吗？

摘要（译文）：多模态大模型(MLLM)提升多模态情绪识别(MER)性能，但常伴随参数增大（至少 7B），高计算成本阻碍机器人/移动端实时部署。本文挑战"大模型必要"假设，提出轻量框架 Light-MER，通过知识蒸馏将强教师模型知识转移至亚十亿学生模型。两种新优化：①结合切片 Wasserstein 距离与隐状态对齐的最优传输损失；②基于 GRPO 平衡性能与效率的多奖励优化。九个基准上达 SOTA 且更高效。

作者：Kaiwen Zheng 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12787

AI 论文

当足够接近还不够：量子电路合成中的自回归漂移

摘要（译文）：容错量子电路优化需精确功能等价且最小化 T 门等非 Clifford 资源。本文用 4480 万参数编码器-解码器 transformer 研究该问题。参数化电路上混合方法（结构来自 transformer、角度来自经典优化）中位保真度 1.000；Clifford+T 电路上模型学_valid 语法与准确 T 计数统计，但精确等价随目标长度锐降（≤9 门 88% → >26 门近零）。根因自回归漂移：早期 token 发散向左向右解码不可逆传播。多候选选择+数据扩 2.5x 将精确匹配从 7% 提至 39.5%。

作者：Mehdi Saeedi 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12780

AI 论文

微电网能源协调中联邦强化学习的约束感知聚合

摘要（译文）：联邦强化学习(FedRL)协调分布式能源而不共享原始数据，但 FedAvg 等标准聚合不顾系统级约束，常导致不安全全局行为。本文提出将局部性能与估计约束违反纳入服务端更新的聚合规则。其中简单惩罚规则 w_i∝R_i−αV_i 提供最可靠的奖励-安全权衡，无需对偶优化或改本地训练。在 DairyGridEnv（多农场电池协调，随机需求+共享电网容量约束）及芬兰/德国真实负荷上评估，相对 FedAvg 大幅减违规提奖励。

作者：Usman Haider, Karl Mason｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12763

AI 论文

Hallo4D：面向一致时空生成的多模态幻觉缓解

摘要（译文）：现有 3D 生成方法常依赖 2D 扩散监督而无显式几何一致性机制，导致重复结构、几何错位等空间幻觉；4D 生成中更出现抖动、身份闪烁、结构漂移。Hallo4D 是统一、模型无关的框架，缓解 3D/4D 生成的时空幻觉。引入"生成-检测-校正"范式，用大型多模态语言模型(LMM)从多视图多帧渲染中识别并总结时空不一致，共识驱动图像空间一致性优化（LMM 选择器多模型投票评估候选校正），无需重训。大量实验超越强基线。

作者：Hongbo Wang 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12752

AI 论文

基于季节性卫星影像的乳业农场站点弱监督时空候选发现

摘要（译文）：卫星影像农场发现是时空候选排序问题（证据分布于牧场/田界/道路/建筑/季节植被）。直接农场标签常不完整。本文提出弱监督流水线，从季节性 Sentinel 影像+开放地图先验排序乳业农场候选簇。Barlow Twins 编码器学多季节瓦片嵌入（无农场标签）；弱 OpenStreetMap 农场先验分为先验集与留出集。规则评分经空间图（地理邻近+嵌入相似）平滑，高分组聚类为排序候选。26,722 瓦片中选 535 高置信瓦片成 71 候选簇，top5 簇 500m 内精度 0.60。

作者：Usman Haider 等｜发布：2026-07-14｜原文：arxiv.org/abs/2607.12748

欢迎回来

创建账号

大语言模型技术综述：从 GPT 到 DeepSeek

摘要

一、模型架构演进

1 Dense 模型

2 MoE 模型

3 多头潜在注意力（MLA）

二、训练方法

1 预训练

2 后训练：SFT + RL

3 知识蒸馏

三、推理优化

1 多Token预测（MTP）

2 上下文扩展

四、推理模型

五、趋势展望

大语言模型发展综述：从 Transformer 到 DeepSeek

引言

第一阶段：奠基期（2017-2020）

Transformer 架构（2017）

GPT 系列（2018-2020）

BERT（2018）

第二阶段：对齐期（2020-2023）

InstructGPT 与 RLHF（2022）

ChatGPT（2022.11）

GPT-4（2023.3）

第三阶段：开源与架构创新（2023-2025）

LLaMA 系列

MoE 架构

推理模型

关键技术突破

未来趋势

多模态AI研究前沿：视觉语言模型综述

多模态AI的崛起

技术演进路线

第一代：拼接式架构

第二代：原生多模态

第三代：统一生成

关键模型对比

核心能力

图像理解

视觉推理

图像生成

视频理解

应用场景

挑战与未来方向

论文解读：Attention Is All You Need — Transformer架构的诞生

一、为什么这篇论文改变了一切

二、核心创新：缩放点积注意力

三、多头注意力（Multi-Head Attention）

四、Transformer完整架构

五、位置编码（Positional Encoding）

六、实验结果

七、影响与遗产

八、原文摘要

论文解读：BERT — 双向预训练开启NLP新纪元

一、BERT之前的世界

二、两大预训练任务

1 Masked Language Model (MLM)

2 Next Sentence Prediction (NSP)

三、模型架构

四、微调范式

五、横扫11项NLP任务

六、影响与遗产

七、原文摘要

论文解读：GPT-3 — 语言模型的少样本学习奇迹

一、核心假设：规模即能力

二、模型规模

三、三种学习范式

四、涌现能力（Emergent Abilities）

五、关键实验结果

六、局限性与争议

七、影响与遗产

八、原文摘要

论文解读：DDPM — 扩散模型如何颠覆图像生成

一、从GAN到扩散模型

二、前向过程（加噪）

三、反向过程（去噪）

四、为什么预测噪声而非原图？