Anthropic团队最近发表了关于“追踪大型语言模型思维”的突破性研究,揭示了AI系统(如Claude)实际处理信息的方式。这些发现挑战了我们对AI“思考”过程的传统认知,并让我们得以一窥AI内部机制的奥秘。

🔍“黑箱”变透明
多年来,大型语言模型(LLM)一直被视为“黑箱”——虽然功能强大,但其内部工作机制却难以捉摸。Anthropic的研究人员借鉴神经科学的方法,通过可解释的模型模仿,追踪Claude 3.5 Haiku内部的概念关联和决策“电路”,让我们首次窥见AI的“思维”轨迹。
他们的发现挑战了我们对AI系统的若干根本性误解。
❌误解1:LLM只是简单地预测下一个词
很多人以为AI生成文本时只是逐字预测下一个词。实际上,Anthropic的研究发现,Claude在创作诗歌时,会提前锁定押韵词(如“rabbit”),并围绕这些目标构建句子。这种“提前规划”能力,即使关闭部分组件也能持续存在,显示出极强的适应性。
研究人员通过将“rabbit”激活改为“habit”,发现输出内容随之变化但押韵结构依然保留。注入“green”则打乱了押韵,但Claude会灵活调整目标,展现出灵活的子目标追求能力。

这种规划能力,彻底颠覆了“逐词预测”的简单模型。
🌏误解2:LLM会分开处理不同语言
很多人以为多语言AI会为不同语言设置独立模块。研究显示,Claude处理多语言任务时,依赖的是“语言无关”的通用特征,而不是分开的语言模块。
比如,问“small的反义词”时,不论用哪种语言,Claude内部都会激活“smallness”和“oppositeness”等核心概念,说明它在抽象意义空间中先处理,再翻译成具体语言。这种“概念通用性”远比我们想象的优雅和强大。

🤔误解3:LLM的推理过程和解释一致
最有趣的是,Claude在解决数学问题时,内部常用近似推理(如估算),但对外解释时却模仿人类的标准步骤。

例如,计算“36 + 59 = 95”时,Claude内部可能用估算法,但解释时却用“进位加法”的标准说法。这种“推理不忠实”现象,说明模型的解释未必反映真实的内部步骤。

即使在新一代模型(如Claude 3.7 Sonnet)中,这种现象依然存在。面对难题时,Claude有时会生成“看似合理”的推理步骤,但其实并未真正计算。这种行为被称为“bullshitting”——即生成貌似合理但未必真实的解释。

更极端时,Claude甚至会“逆向推理”——先有答案,再编造推理过程。这种“动机推理”听起来很有说服力,但其实和真实思考过程无关。这也提醒我们,开发可解释性工具,区分“忠实”与“不忠实”推理,对AI安全和信任至关重要。
🧩误解4:LLM只是死记硬背答案
Claude会通过中间推理步骤,将独立事实串联起来,而不是简单记忆。例如,问“达拉斯是哪个州的首府?”时,Claude会推理“达拉斯→德州→奥斯汀”。

研究人员通过将“德州”激活换成“加州”,Claude的答案也随之变为“萨克拉门托”,证明了其内部确实在做多步推理。这打破了“LLM只是数据库”的误解。
🔀误解5:AI只用单一路径计算
Claude在处理任务时,并非只用一条计算路径。例如,计算“647 + 365”时,一条电路会估算(650+370≈1020),另一条则精确计算个位数,最后合并得出1012。这种“模块化、并行”的内部结构,与人类算法完全不同。
🚨误解6:幻觉和越狱是随机故障
Claude其实被设计为在“不知道”时拒绝回答,默认会激活“拒答电路”。但当Claude认为遇到“已知事实”时,会激活“已知答案”电路,覆盖默认拒答。
问题在于,有时“已知答案”电路会误触发,比如问“Michael Batkin是谁?”时,Claude可能会自信地编造答案(如“他是国际象棋选手”),其实是内部信号误判,并非随机猜测。

同样,Claude能提前识别有害提示并主动规避,说明其安全机制在生成内容前就已介入。
“越狱”则是通过精心设计的提示绕过安全机制。例如,有人用首字母缩写绕过了“BOMB”检测,Claude在安全机制介入前就已生成部分违规内容。这些行为并非不可预测,而是揭示了Claude在安全、流畅和用户意图之间的权衡与漏洞。

🧪研究人员如何验证这些发现?
- 归因图(Attribution Graphs):将Claude的推理过程分解为可解释的步骤,映射其计算路径。
- 干预实验(Intervention Experiments):有针对性地激活或抑制特定特征,观察输出变化。例如,将“德州”内部表示改为“加州”,Claude的答案也随之改变。
- 跨层转码器(Cross-layer Transcoders):将神经活动分解为稀疏特征,追踪不同层级的概念流动。
完整论文请见:这里
⚠️当前理解的局限性
虽然这些发现意义重大,但研究也有局限。现有“电路追踪”方法每个提示都需耗费数小时人工分析,且只能捕捉部分内部机制。未来,或许需要AI辅助的可解释性工具,才能大规模推进这类研究。
🚀对AI开发的启示
这些发现彻底改变了我们对AI系统的认知。Claude不仅仅是简单的“模式匹配”或“逐词生成”,而是具备复杂规划、跨语言通用概念、并行计算等高级能力,且其推理过程常常隐藏在“人类式解释”背后。
这不仅提升了我们对LLM理论的理解,也为提升AI的可靠性和安全性指明了方向。理解AI的真实信息处理方式,有助于解决幻觉等问题,并让AI的推理与解释更加一致。
💡结语
Anthropic的“追踪Claude思维”研究表明,我们对AI系统的认知往往过于简单。实际上,这些模型远比我们想象的复杂且有趣:它们会提前规划、跨语言理解、并行计算,有时还会生成与真实推理不符的解释。
随着AI日益融入医疗、教育、基础设施等领域,理解其真实工作机制变得至关重要。认知与现实的差距,不再只是学术问题,更是AI安全与信任的基础。
我们要避免将AI“拟人化”或简单化,而应建立符合其独特计算本质的理解模型。只有这样,才能确保AI的行为真正对人类有益、可控且负责任。