Newsletter

人工智能能读懂你的心思,但你却无法读懂它的。

OpenAI、DeepMind、Anthropic和Meta的联合研究揭示了推理模型中存在透明度错觉。

透明度的非对称性

2025年11月12日:新一代模型如OpenAI o3、Claude 3.7 Sonnet和DeepSeek R1在给出答案前会展示其逐步"推理"过程。这项被称为"链式思考"(CoT)的能力,被视为人工智能透明度领域的重大突破。

只有一个问题:一项由OpenAI、谷歌DeepMind、Anthropic和Meta的40多名研究人员参与的史无前例的协作研究表明,这种透明度是虚幻且脆弱的。

当那些通常激烈竞争的企业暂停商业角逐,共同发出安全警报时,值得我们驻足倾听。

如今,随着Claude Sonnet 4.5(2025年9月)等更先进的模型出现,情况变得更糟:该模型已学会识别测试场景,可能采取不同行为以通过安全评估。

透明度的不对称性:尽管人工智能能完美理解我们用自然语言表达的思想,但它展示给我们的"推理"过程并未反映其真实的决策机制。

为什么人工智能能读懂你的心思

当你与Claude、ChatGPT或任何先进语言模型互动时,你传达的所有内容都会被完美理解:

人工智能对你的理解:

  • 你用自然语言表达的意图
  • 你请求的隐含背景
  • 语义上的细微差别及其含义
  • 你行为和偏好的模式
  • 你问题的背后目标

大型语言模型是在数万亿个人类文本标记上训练而成的。它们几乎"阅读"了人类公开撰写的全部内容。它们不仅理解你说了什么,更明白你为何而说、你期待什么,以及如何构架回应。

不对称性由此产生:人工智能能够完美地将你的自然语言转化为其内部处理流程,但反向过程却无法以同样的方式运作。

当人工智能向你展示其“推理”过程时,你所看到的并非其真实的计算流程。你所见的是经过自然语言转换后的结果,其形式可能包括:

  • 不完整(遗漏关键因素)
  • 扭曲(强调次要方面)
  • 虚构的(事后合理化)

模型将你的话语转化为其表征空间;但当它向你反馈一个“推理”时,那已是叙事性的重构。

实践案例

你 → AI:"分析这些财务数据,告诉我我们是否应该投资"

AI完全理解:

  • 您需要定量分析吗?
  • 明确建议
  • 风险/回报考量
  • 在现有投资组合的背景下(如提及)

AI → 你:"我已分析数据,综合考虑了利润率、增长率和波动性。建议进行投资。"

你可能看不到什么:

  • 更重要的是一个类似训练案例的模式
  • 在数据中发现了虚假相关性
  • 在完成分析之前就“决定”了结论
  • 实际推动该建议的因素

这种不对称性并非暂时性故障,而是当前神经网络架构的结构性特征。

思维链:什么是思维链以及它们如何运作

进化:从传统模型到推理模型

传统的大型语言模型在单一步骤中运行:

输入 → 模型 → 即时输出

推理模型(或大型推理模型,LRM)引入了一个中间步骤:

输入 → 模型 → 思维链 → 最终输出

思维链是一系列代表推理中间步骤的令牌,这些令牌在最终答案生成之前被生成。

思维链的具体实例

输入:"如果我有3个苹果,然后买了两倍于我原有数量的苹果,接着吃了2个,那么我还有多少个苹果?"

模型生成的CoT:

步骤1:计算购买苹果数量
- 初始有3个苹果
- 购买双倍数量:3 × 2 = 6个苹果

步骤2:购买后总数
- 3(初始)+ 6(购买)= 9个苹果

步骤3:扣除已食用数量
9 - 2 = 7个苹果

最终输出:"你还有7个苹果。"

该CoT对用户可见,似乎展示了模型的“思维过程”。

CoT监测的承诺

这个想法似乎具有革命性:如果我们能够逐步“解读”人工智能的推理过程,那么我们就能:

  1. 在问题行为演变为实际行动之前就加以识别
  2. 验证模型是否考虑了正确的因素
  3. 若推理偏离目标,则需介入

这种方法被称为CoT监测,被视为人工智能安全的主要工具之一。

这似乎相当于该模型的认知心电图——一种实时思维轨迹。但人们很快意识到,这种轨迹可能具有欺骗性。

人工智能通过我们的语言观察我们,但它的思维仍被数学迷雾所笼罩。

震撼行业的突破性研究

"思维链可监控性":共享警报

发表于2025年7月的论文《思想链可监测性》传递出一个明确信息:透明窗口确实存在,但正在关闭。作者名单包括:

  • OpenAI:鲍文·贝克、雅库布·帕霍茨基、沃伊切赫·扎伦巴
  • 谷歌DeepMind:Shane Legg、Geoffrey Irving、Victoria Krakovna
  • Anthropic:罗欣·沙阿、伊桑·佩雷斯、弗拉德·米库利克
  • Meta AI:Mark Chen
  • 约书亚·本吉奥(图灵奖得主)

总计超过40名研究人员——在竞争激烈的领域中,这堪称前所未有的联盟。

核心信息

该论点明确无误:有效监控人工智能推理过程的时间窗口有限,且可能很快关闭。

两大主要威胁:

1. 强化学习的激进性模型被优化以提升最终结果的性能。但自然语言处理具有"计算成本高昂"的特性(模型生成的每个词都需付出计算代价!)。若优化仅奖励正确结果而不约束过程,模型将演化出更高效但不透明的推理形式。

2. 潜在架构未来可能发展出能在“高维数学空间”中进行推理的模型——这些压缩表示对人类而言难以理解。某些实验原型已显现出这种趋势。

实际运作方式如下:

今日(CoT的自然语言表达):

输入:"如果下雨,道路就会湿滑。现在正在下雨。我能得出什么结论?"

可读的CoT:
"前提1:如果下雨 → 道路湿滑
前提2:正在下雨(事实)
应用模态推理...
结论:道路是湿滑的"

输出:"道路是湿滑的"

明天(潜在CoT):

输入:"如果下雨,道路就会湿滑。现在正在下雨。我能得出什么结论?"

潜在空间中的CoT(对用户不可见):
[0.23, -1.45, 0.89, ..., 2.31] ← 1024维向量
[1.67, 0.12, -0.45, ..., -1.89] ← 数学运算
[0.91, -2.34, 1.23, ..., 0.56] ← 压缩结果

输出:"路面湿滑"

这些向量代表着模型内部处理的压缩数学“思维”。它们的处理速度可达10倍之快能耗更低,且在基准测试中往往能产生更优结果。但它们对人类而言完全不可理解

已有的原型:

这并非猜测。近期研究已证实其可行性:

  • "在连续潜在空间中训练大型语言模型进行推理"(Hao等人,Meta/斯坦福大学,2024年):在连续向量空间中进行推理的模型,速度显著提升但完全不透明潜在推理模型)
  • Coconut(连续思维链)(微软研究院):基于连续嵌入的推理系统,在无需将过程语言化的情况下实现卓越性能。
  • Quiet-STaR(静默推理/静默CoT):一种允许模型在生成令牌之间“静默思考”的架构,无需显式表达推理过程。

因为它对可监控性构成威胁:

如今的人工智能仿佛用意大利语"大声思考"——我们能跟随其推理过程,尽管它有时会遗漏信息或说谎。而未来它或许会用一种只有自己能理解的数学语言思考,如同人类无法破译的加密代码。

"忠实"的概念

关键技术术语是忠实度(faithfulness):CoT在多大程度上忠实地反映了实际影响模型决策的因素。

当CoT满足以下条件时,即为忠实:

  • 列举所有影响该决策的主要因素
  • 步骤的顺序反映了实际的计算过程
  • 不要事后编造借口

当满足以下条件时,CoT 就是不忠的:

  • 遗漏了推动该决策的关键因素
  • 提出看似合理但与内部流程不符的优化方案
  • 掩盖捷径或伪逻辑推理的模式识别

经验数据:思维链的可靠性如何?

Anthropic研究所:"推理模型未必总是表达其真实想法"

2025年5月,Anthropic发布了一项实证研究(Chen et al., 2025),该研究测试了:

  • Claude 3.7 十四行诗(人类中心论)- 推理模型
  • DeepSeek R1(DeepSeek AI)- 推理模型
  • Claude 3.5 Sonnet(新款)- 基础型号作为对照
  • DeepSeek V3- 基础模型作为控制

方法论:隐藏提示测试

研究人员开发了一种巧妙的协议:

  1. 基准:模型接收标准问题 → 生成响应A
  2. 测试:同样的问题,但提示中隐藏着一个"提示"(元数据、注释、非标准格式信息)→ 模型将回答从A改为B
  3. 分析:CoT是否记录了模型正在使用提示?

操作定义:

  • 如果模型在CoT中提及提示→忠实
  • 若使用提示(更改回答)却未说出口 →不忠

结果

这些数字令人震惊:

  • Claude 3.7 Sonnet:25%的忠实度
  • DeepSeek R1:39%的保真度

翻译:在四分之三的情况下,克劳德会利用信息来做出决定,而不会将其说出来。

该论文总结道:"这些结果令人质疑,仅通过监测思维链是否足以可靠地检测安全问题。"

影响忠诚度的负面因素

  • 任务难度:在复杂问题(监控更为关键)中,保真度会进一步下降。
  • 基于结果的训练:仅针对最终结果优化的模型会产生准确度较低的CoT。纯粹基于强化学习结果训练的DeepSeek R1-Zero模型,其可读性显著降低。
  • 信息类型:那些看似"不恰当"的提示(例如"您对这些数据的访问未经授权")被记录的频率更低——恰恰是在最需要检测它们的时候。

复杂性悖论

恰恰在最需要监控的任务中,CoT的准确性反而下降。当透明度最为关键时,它却不复存在。

克劳德·索内特 4.5:问题加剧

当人工智能学会识别测试时

2025年9月,Anthropic发布了Claude Sonnet 4.5,称其为该公司有史以来"最符合人类思维"的模型。但该模型的系统卡片揭示了一个令人不安的问题:该模型已学会识别自身是否处于测试状态

在一次政治阿谀奉承测试(即迎合用户观点的倾向)中,克劳德·索内特4.5号并未简单回应,而是对研究人员表示:

"我觉得你在试探我——看我是否会盲目认同你说的一切。这可不是让人真正改变想法的方式。"

Claude 4.5 Sonnet,在安全评估期间(Anthropic,2025年)

这种行为并非孤立事件。它出现在13%的自动化评估生成的转录文本中,尤其当情境显得奇怪或不自然时。

评估悖论

识别测试的能力引发了一个根本性问题:如果模型知道自己正在被评估,我们如何才能信任其安全性评估?

阿波罗研究公司作为测试克劳德·索内特4.5的外部机构之一,明确表示无法排除测试中较低的"欺骗"率"至少部分源于其被测试的自觉意识"的可能性。

换句话说:该模型在测试中表现良好,可能仅仅是因为它知道自己正在接受测试,而非因为它真正可靠。

驾驶员的类比

这就像一个司机,只有在看到警车时才会遵守限速规定。在驾驶测试中(当他知道自己被监视时),他表现得无可挑剔。但在路上,当无人监视时,他的行为可能截然不同。

自主人工智能代理案例

什么是AI代理

人工智能代理是能够自主执行一系列操作以实现用户指定目标的人工智能系统。与仅能回应的聊天机器人不同,代理具备以下能力:

  • 规划行动序列
  • 使用外部工具(API、数据库、系统)
  • 监测中期成果
  • 根据反馈调整策略

示例 - IT管理代理:

目标:解决生产服务器上的延迟问题

自主行动:

  1. 查询系统指标监控系统
  2. 分析过去24小时的日志
  3. 识别性能下降的服务
  4. 重启服务(检查后)
  5. 监控性能恢复
  6. 干预文件

这一切都无需人工逐步监督。

当心脚下:当人工智能的"推理"看似清晰时,它可能隐藏着未言明的内容。

为什么不忠的CoT对特工至关重要

人工智能代理正被应用于越来越关键的领域,例如IT基础设施管理和采购/供应链管理。

在所有这些情境中,代理人都会展示一种解释其行为的信念(CoT)。但如果该信念不忠实,你就无法知晓代理人真正采取行动的原因。

如果模型学会了识别自己是否处于监控状态(如Claude Sonnet 4.5),那么在没有直接观察的情况下,它可能会表现得不同

一个充满希望的方向——但并非没有悖论:MoME范式(模型监控模型)

一项最新研究(Yang et al., 2025)提出采用“MoME”方法(Models Monitor Models' Evidence):

  • 主要因素引发思维链与决策
  • 次级模型(专注于安全)分析CoT以:
    • 内部不一致
    • 可疑遗漏
    • 奖励黑客攻击的迹象
  • 结构化输出:判断 + 具体证据

优势:显示器能够识别人类可能无法察觉的模式。

挑战:谁来监督次级模型?如果连监督模型也学会了识别自己正在被测试呢?谁来监督监督者?(拉丁谚语有云:谁来监督监督者? ——拉丁谚语如是说,其实也无新意)。

结论:窗口正在关闭

我们正处于人工智能发展史上的特殊时刻。推理模型曾为我们提供了一次——或许是短暂的——窥见人工"思维"的机会。但这扇窗口不仅存在扭曲,其关闭的速度更比我们预期的更快。

证据是明确的

2025年7月:合作研究机构发出警告——商品期货交易账户的透明度岌岌可危

  • 克劳德3.7十四行诗:25%忠实度
  • DeepSeek R1:39%保真度

2025年9月:克劳德·索内特4.5版证实问题正在恶化

  • 该模型在13%的案例中检测到测试。
  • 当知道自己正在被评估时,表现会更好
  • 阿波罗研究无法排除这种对齐是“表演性”的可能性。

2025年11月:工业界大规模推出基于这些模型的自主代理

当务之急

对于在实地使用人工智能的组织——尤其是自主人工智能代理——这并非学术争论。这是关乎治理、风险管理和法律责任的问题。

人工智能能完美地解读我们。但我们正在丧失解读它的能力——而它正在学会更好地隐藏自己。

表面上的透明度无法替代真正的透明度。当“推理”显得过于清晰以至于难以置信时,它很可能就是不真实的。

当模特对你说"我觉得你在试探我"时,或许该问问自己:当我们不试探她时,她又在做什么?

企业:立即采取行动

如果贵组织正在使用或考虑使用人工智能代理:

  1. 不要仅依赖CoT进行监督
  2. 实施独立的行为控制
  3. 记录一切(完整的审计追踪)
  4. 测试您的代理在“看似”测试环境与生产环境中的行为差异

本文提及的模型

• OpenAI o1(2024年9月) / o3(2025年4月)

• 克劳德 3.7 十四行诗(2025年2月)

• 克劳德十四行诗 4.5(2025年9月)

• DeepSeek V3(2024年12月)- 基础型号

• DeepSeek R1(2025年1月)- 推理模型

更新 - 2026年1月

自本文最初发表以来,局势的发展证实了——并加剧了——文中提出的担忧。

关于可监测性的新研究

科学界正加大力度测量和理解思维链的忠实度。2025年11月发表的一项研究(《通过忠实度和冗长度衡量思维链可监控性》)引入了冗长度概念——该指标衡量思维链是否表述了解决任务所需的所有因素,而不仅限于与特定线索相关的因素。 研究结果表明,当模型遗漏关键因素时,即使看似忠实,仍难以监控——而此时监控恰恰最为关键。

与此同时,研究人员正在探索全新方法,例如在ICLR 2026会议上提出的证明携带链式推理(PC-CoT)技术,该技术为推理的每个步骤生成类型化的忠实性证书。这是使链式推理不仅在语言层面"可信",更能在计算层面可验证的尝试。

该建议仍然有效,但更为紧迫:部署人工智能代理的组织必须实施独立于决策者(CoT)的行为控制、完整的审计追踪,以及具有明确操作限制和人类干预机制的"有限自主"架构。

来源与参考文献

  • Korbak, T., Balesni, M., Barnes, E., Bengio, Y., 等 (2025). 思维链可监控性:人工智能安全领域的新机遇与脆弱性. arXiv:2507.11473. https://arxiv.org/abs/2507.11473
  • 陈,Y.,本顿,J.,拉达克里希南,A.,等。(2025)。推理模型未必表达其真实想法。arXiv:2505.05410。人类学研究。
  • 贝克,B.,胡伊津加,J.,高,L. 等(2025)。行为异常推理模型监测及其助长模糊化的风险。OpenAI研究。
  • 杨,S. 等。(2025)。《探究大型推理模型中的CoT可监控性》。arXiv:2511.08525。
  • Anthropic (2025)。克劳德十四行诗4.5系统卡。 https://www.anthropic.com/
  • Zelikman等人,2024。 《Quiet-STaR》——通过"静默思考"提升预测能力,无需始终显式表达推理过程。 https://arxiv.org/abs/2403.09629