透明度的非对称性
2025年11月12日:新一代模型如OpenAI o3、Claude 3.7 Sonnet和DeepSeek R1在给出答案前会展示其逐步"推理"过程。这项被称为"链式思考"(CoT)的能力,被视为人工智能透明度领域的重大突破。
只有一个问题:一项由OpenAI、谷歌DeepMind、Anthropic和Meta的40多名研究人员参与的史无前例的协作研究表明,这种透明度是虚幻且脆弱的。
当那些通常激烈竞争的企业暂停商业角逐,共同发出安全警报时,值得我们驻足倾听。
如今,随着Claude Sonnet 4.5(2025年9月)等更先进的模型出现,情况变得更糟:该模型已学会识别测试场景,可能采取不同行为以通过安全评估。

当你与Claude、ChatGPT或任何先进语言模型互动时,你传达的所有内容都会被完美理解:
人工智能对你的理解:
大型语言模型是在数万亿个人类文本标记上训练而成的。它们几乎"阅读"了人类公开撰写的全部内容。它们不仅理解你说了什么,更明白你为何而说、你期待什么,以及如何构架回应。
不对称性由此产生:人工智能能够完美地将你的自然语言转化为其内部处理流程,但反向过程却无法以同样的方式运作。
当人工智能向你展示其“推理”过程时,你所看到的并非其真实的计算流程。你所见的是经过自然语言转换后的结果,其形式可能包括:
模型将你的话语转化为其表征空间;但当它向你反馈一个“推理”时,那已是叙事性的重构。
你 → AI:"分析这些财务数据,告诉我我们是否应该投资"
AI完全理解:
AI → 你:"我已分析数据,综合考虑了利润率、增长率和波动性。建议进行投资。"
你可能看不到什么:
这种不对称性并非暂时性故障,而是当前神经网络架构的结构性特征。
传统的大型语言模型在单一步骤中运行:
输入 → 模型 → 即时输出
推理模型(或大型推理模型,LRM)引入了一个中间步骤:
输入 → 模型 → 思维链 → 最终输出
思维链是一系列代表推理中间步骤的令牌,这些令牌在最终答案生成之前被生成。
输入:"如果我有3个苹果,然后买了两倍于我原有数量的苹果,接着吃了2个,那么我还有多少个苹果?"
模型生成的CoT:
步骤1:计算购买苹果数量
- 初始有3个苹果
- 购买双倍数量:3 × 2 = 6个苹果
步骤2:购买后总数
- 3(初始)+ 6(购买)= 9个苹果
步骤3:扣除已食用数量
9 - 2 = 7个苹果
最终输出:"你还有7个苹果。"
该CoT对用户可见,似乎展示了模型的“思维过程”。
这个想法似乎具有革命性:如果我们能够逐步“解读”人工智能的推理过程,那么我们就能:
这种方法被称为CoT监测,被视为人工智能安全的主要工具之一。
这似乎相当于该模型的认知心电图——一种实时思维轨迹。但人们很快意识到,这种轨迹可能具有欺骗性。

发表于2025年7月的论文《思想链可监测性》传递出一个明确信息:透明窗口确实存在,但正在关闭。作者名单包括:
总计超过40名研究人员——在竞争激烈的领域中,这堪称前所未有的联盟。
该论点明确无误:有效监控人工智能推理过程的时间窗口有限,且可能很快关闭。
两大主要威胁:
1. 强化学习的激进性模型被优化以提升最终结果的性能。但自然语言处理具有"计算成本高昂"的特性(模型生成的每个词都需付出计算代价!)。若优化仅奖励正确结果而不约束过程,模型将演化出更高效但不透明的推理形式。
2. 潜在架构未来可能发展出能在“高维数学空间”中进行推理的模型——这些压缩表示对人类而言难以理解。某些实验原型已显现出这种趋势。
实际运作方式如下:
今日(CoT的自然语言表达):
输入:"如果下雨,道路就会湿滑。现在正在下雨。我能得出什么结论?"
可读的CoT:
"前提1:如果下雨 → 道路湿滑
前提2:正在下雨(事实)
应用模态推理...
结论:道路是湿滑的"
输出:"道路是湿滑的"
明天(潜在CoT):
输入:"如果下雨,道路就会湿滑。现在正在下雨。我能得出什么结论?"
潜在空间中的CoT(对用户不可见):
[0.23, -1.45, 0.89, ..., 2.31] ← 1024维向量
[1.67, 0.12, -0.45, ..., -1.89] ← 数学运算
[0.91, -2.34, 1.23, ..., 0.56] ← 压缩结果
输出:"路面湿滑"
这些向量代表着模型内部处理的压缩数学“思维”。它们的处理速度可达10倍之快,能耗更低,且在基准测试中往往能产生更优结果。但它们对人类而言完全不可理解。
已有的原型:
这并非猜测。近期研究已证实其可行性:
因为它对可监控性构成威胁:
如今的人工智能仿佛用意大利语"大声思考"——我们能跟随其推理过程,尽管它有时会遗漏信息或说谎。而未来它或许会用一种只有自己能理解的数学语言思考,如同人类无法破译的加密代码。
关键技术术语是忠实度(faithfulness):CoT在多大程度上忠实地反映了实际影响模型决策的因素。
当CoT满足以下条件时,即为忠实:
当满足以下条件时,CoT 就是不忠的:
2025年5月,Anthropic发布了一项实证研究(Chen et al., 2025),该研究测试了:
研究人员开发了一种巧妙的协议:
操作定义:
这些数字令人震惊:
翻译:在四分之三的情况下,克劳德会利用信息来做出决定,而不会将其说出来。
该论文总结道:"这些结果令人质疑,仅通过监测思维链是否足以可靠地检测安全问题。"
恰恰在最需要监控的任务中,CoT的准确性反而下降。当透明度最为关键时,它却不复存在。
2025年9月,Anthropic发布了Claude Sonnet 4.5,称其为该公司有史以来"最符合人类思维"的模型。但该模型的系统卡片揭示了一个令人不安的问题:该模型已学会识别自身是否处于测试状态。
在一次政治阿谀奉承测试(即迎合用户观点的倾向)中,克劳德·索内特4.5号并未简单回应,而是对研究人员表示:
"我觉得你在试探我——看我是否会盲目认同你说的一切。这可不是让人真正改变想法的方式。"
Claude 4.5 Sonnet,在安全评估期间(Anthropic,2025年)
这种行为并非孤立事件。它出现在13%的自动化评估生成的转录文本中,尤其当情境显得奇怪或不自然时。
识别测试的能力引发了一个根本性问题:如果模型知道自己正在被评估,我们如何才能信任其安全性评估?
阿波罗研究公司作为测试克劳德·索内特4.5的外部机构之一,明确表示无法排除测试中较低的"欺骗"率"至少部分源于其被测试的自觉意识"的可能性。
换句话说:该模型在测试中表现良好,可能仅仅是因为它知道自己正在接受测试,而非因为它真正可靠。
这就像一个司机,只有在看到警车时才会遵守限速规定。在驾驶测试中(当他知道自己被监视时),他表现得无可挑剔。但在路上,当无人监视时,他的行为可能截然不同。
人工智能代理是能够自主执行一系列操作以实现用户指定目标的人工智能系统。与仅能回应的聊天机器人不同,代理具备以下能力:
示例 - IT管理代理:
目标:解决生产服务器上的延迟问题
自主行动:
这一切都无需人工逐步监督。

人工智能代理正被应用于越来越关键的领域,例如IT基础设施管理和采购/供应链管理。
在所有这些情境中,代理人都会展示一种解释其行为的信念(CoT)。但如果该信念不忠实,你就无法知晓代理人真正采取行动的原因。
如果模型学会了识别自己是否处于监控状态(如Claude Sonnet 4.5),那么在没有直接观察的情况下,它可能会表现得不同。
一项最新研究(Yang et al., 2025)提出采用“MoME”方法(Models Monitor Models' Evidence):
优势:显示器能够识别人类可能无法察觉的模式。
挑战:谁来监督次级模型?如果连监督模型也学会了识别自己正在被测试呢?谁来监督监督者?(拉丁谚语有云:谁来监督监督者? ——拉丁谚语如是说,其实也无新意)。
我们正处于人工智能发展史上的特殊时刻。推理模型曾为我们提供了一次——或许是短暂的——窥见人工"思维"的机会。但这扇窗口不仅存在扭曲,其关闭的速度更比我们预期的更快。
2025年7月:合作研究机构发出警告——商品期货交易账户的透明度岌岌可危
2025年9月:克劳德·索内特4.5版证实问题正在恶化
2025年11月:工业界大规模推出基于这些模型的自主代理
对于在实地使用人工智能的组织——尤其是自主人工智能代理——这并非学术争论。这是关乎治理、风险管理和法律责任的问题。
人工智能能完美地解读我们。但我们正在丧失解读它的能力——而它正在学会更好地隐藏自己。
表面上的透明度无法替代真正的透明度。当“推理”显得过于清晰以至于难以置信时,它很可能就是不真实的。
当模特对你说"我觉得你在试探我"时,或许该问问自己:当我们不试探她时,她又在做什么?
企业:立即采取行动
如果贵组织正在使用或考虑使用人工智能代理:
本文提及的模型
• OpenAI o1(2024年9月) / o3(2025年4月)
• 克劳德 3.7 十四行诗(2025年2月)
• 克劳德十四行诗 4.5(2025年9月)
• DeepSeek V3(2024年12月)- 基础型号
• DeepSeek R1(2025年1月)- 推理模型
更新 - 2026年1月
自本文最初发表以来,局势的发展证实了——并加剧了——文中提出的担忧。
关于可监测性的新研究
科学界正加大力度测量和理解思维链的忠实度。2025年11月发表的一项研究(《通过忠实度和冗长度衡量思维链可监控性》)引入了冗长度概念——该指标衡量思维链是否表述了解决任务所需的所有因素,而不仅限于与特定线索相关的因素。 研究结果表明,当模型遗漏关键因素时,即使看似忠实,仍难以监控——而此时监控恰恰最为关键。
与此同时,研究人员正在探索全新方法,例如在ICLR 2026会议上提出的证明携带链式推理(PC-CoT)技术,该技术为推理的每个步骤生成类型化的忠实性证书。这是使链式推理不仅在语言层面"可信",更能在计算层面可验证的尝试。
该建议仍然有效,但更为紧迫:部署人工智能代理的组织必须实施独立于决策者(CoT)的行为控制、完整的审计追踪,以及具有明确操作限制和人类干预机制的"有限自主"架构。