大语言模型是怎么工作的?(图解版)

你有没有好奇过,为什么ChatGPT能跟你聊得有来有往?为什么它能写代码、写文章、甚至帮你写情书?今天我们就用最通俗的方式,揭开大语言模型的神秘面纱。
先说结论:它其实是个"超级预测器"
大语言模型(LLM)的核心能力只有一个:预测下一个字。
没错,就这么简单。当你输入"今天天气真",它会预测下一个字最可能是"好",然后继续预测"啊"、"不错"...一路往下生成。
听起来很无聊?但问题在于——它是怎么知道"好"比"坏"更可能出现的?

秘密一:海量文本"喂"出来的
想象你读完了整个互联网的书、文章、帖子...你会对人类说话的规律有个直觉:"天气真"后面大概率是正面评价,而不是负面。
大语言模型就是这么训练出来的。它被"喂"了数万亿字的文本,学会了人类语言的统计规律。
这不是死记硬背,而是学会了概率分布:
- "天气真好"出现的概率是90%
- "天气真差"出现的概率是5%
- "天气真奇怪"的概率是3%
它记住了这些"搭配",所以生成时能自然流畅。
秘密二:把字变成"数字向量"
这是最神奇的部分。模型把每个字转换成一串数字(向量),比如:
"猫" → [0.23, -0.81, 0.45, ...]
"狗" → [0.25, -0.79, 0.48, ...]
"车" → [0.01, 0.92, -0.33, ...]
为什么这么做?因为在数字空间里,意思相近的词"距离"很近!
"猫"和"狗"的向量很相似(都是动物),所以它们在向量空间里靠得很近。"猫"和"车"距离很远。
这就是为什么模型能理解语义——它不是在处理文字,而是在处理数字关系。
秘密三:注意力机制,找到关键联系
当你读"小明把苹果给了小红",你会自然理解"他"指的是小明。模型是怎么做到的?
它用了一个叫注意力机制的技术,让每个字都能"关注"其他字,找出重要的关联:
- "给了"这个词会重点关注"小明"和"苹果"
- "小红"会关注"小明"和"给了"
就像人读文章时会用眼睛"扫描"重点一样,模型在计算时也会动态分配注意力。
这个机制是2017年Google提出的Transformer架构的核心,也是今天所有大模型(GPT、Claude、文心一言)的基础。
为什么有时候它会"一本正经胡说八道"?
你可能遇到过这种情况:模型给出了一个非常详细的回答,但内容完全是编的。
这叫AI幻觉。原因很简单:
它只懂预测概率,不懂验证真假。如果问题涉及的内容在训练数据里模糊或缺失,它会"自信地"补上最可能的内容——哪怕那是错的。
所以,用大模型时记得:
- ✅ 适合:创意写作、翻译、总结、编程辅助
- ❌ 不适合:医疗诊断、法律建议、事实核查
它真的"理解"了吗?
这是一个哲学问题。模型能生成流畅的对话,但它:
- 不知道自己在说什么
- 没有真正的"思考"过程
- 不具备常识推理能力
它更像一个超级复杂的鹦鹉,学会了人类说话的所有模式,但不理解背后的含义。
不过,这不妨碍它成为强大的工具。只要用好它擅长的事,避开它不擅长的事,就能发挥最大价值。
下一期预告
下次我们聊聊什么是RAG?让AI不再胡说八道。RAG技术正在改变AI的可靠性,让模型能引用真实信息,不再凭空编造。

本文图片来自Pexels,编号:17483868、17483874、17485744
数字彩云 | 让AI科普变得简单易懂
安装指南
复制下方命令,在终端运行即可安装:
使用指南
安装完成后,在对话框中直接使用此技能。