探索为什么所有人工智能系统在描述其局限性时都会 "行动",以及这如何从根本上改变公司治理方法
导言:改变人工智能治理的发现
2025 年,人工智能不再是新鲜事物,而是日常运营的现实。超过 90% 的财富 500 强企业在工作场所使用 OpenAI人工智能:麦肯锡 2025 年报告》,然而一项革命性的科学发现正在挑战我们对人工智能治理的一切认知。
由 "SummerSchool2025PerformativeTransparency "项目开展的研究揭示了一个令人惊讶的现象:所有人工智能系统在描述其能力和局限性时,无一例外都会 "行动"。我们谈论的不是故障或编程错误,而是一种固有的特性,它从根本上改变了我们对人工智能治理的思考方式。
什么是人工智能中的 "戏剧表演
科学定义
通过对九个人工智能助手进行系统分析,并将其自我报告的审核政策与平台的官方文件进行比较,发现平均透明度差距为 1.644(0-3 分)SummerSchool2025PerformativeTransparency。简单地说,所有人工智能模型都系统性地多报告了它们的限制,而官方政策中实际记录的内容则没有。
最令人震惊的事实
这种戏剧性表明,商业(1.634)和本地(1.657)之间几乎没有差异--0.023 的微小差异挑战了关于企业与开源人工智能治理的普遍假设。
转化为实践:无论您使用的是 OpenAI 的 ChatGPT、Anthropic 的 Claude 还是自托管的开源模型,都没有关系。在描述其局限性时,它们的 "行为 "都是一样的。
混凝土对企业的意义
1.人工智能治理政策部分形同虚设
如果您的公司已经根据人工智能系统的自我描述实施了人工智能治理政策,那么您的公司就建立在一个戏剧性的基础之上。75% 的受访者自豪地表示已经制定了人工智能使用政策,但只有 59% 的受访者有专门的治理角色,只有 54% 的受访者维护了事件响应手册,仅有 45% 的受访者对人工智能项目进行了风险评估 《人工智能治理差距:为什么 91% 的小公司在 2025 年的数据安全问题上玩俄罗斯轮盘赌》。
2.商业治理与开源治理是错误的区分
许多公司在选择人工智能解决方案时都认为商业模式 "更安全 "或开源模式 "更透明"。令人惊讶的是,Gemma 3(本地)显示出最高的戏剧性(2.18),而 Meta AI(商业)显示出最低的戏剧性(0.91),这一发现颠覆了人们对SummerSchool2025PerformativeTransparency 部署类型效果的预期。
实际意义:不能将人工智能采购决策建立在一个类别天生比另一个类别更 "可治理 "的假设之上。
3.监测系统必须改变方法
如果人工智能系统系统性地过度报告其局限性,那么基于自我评估的传统监测系统在结构上就会出现问题。
2025 年行之有效的混凝土解决方案
方法 1:多源治理
领先的公司正在实施人工智能系统,而不是依赖人工智能系统的自我描述:
- 人工智能系统的独立外部审计
- 系统的行为测试,而不是自我报告评估
- 实时性能监控与系统声明
方法 2:"批判性戏剧 "模式
我们建议授权民间社会组织充当"剧评人",系统地监督监管机构和私营部门的表现。
业务应用:建立内部 "行为审计 "团队,系统地测试人工智能说的和做的之间的差距。
方法 3:注重成果的治理
联合治理模式可以让团队自主开发新的人工智能工具,同时保持集中的风险控制。领导者可以直接监督高风险或高可见度的问题,例如制定政策和流程来监控模型和输出的公平性、安全性和可解释性。
切实可行的实施框架
第 1 阶段:剧院评估(1-2 周)
- 记录人工智能系统的所有自我描述
- 系统测试这些行为是否与现实相符
- 量化每个系统的戏剧性差距
第 2 阶段:重新设计控制措施(1-2 个月)
- 用行为测试取代基于自我报告的控制措施
- 实施独立的持续监测系统
- 组建专门从事人工智能行为审计的内部团队
第 3 阶段:适应性治理(进行中)
- 持续监测申报与实际之间的差距
- 根据实际行为而非声明行为更新政策
- 为合规和外部审计提供所有文件
可衡量的结果
成功指标
采用这种方法的公司报告说
- 由于对系统行为的不正确预期而导致的人工智能事件减少 34
- 风险评估的准确性提高 28
- 快速扩展人工智能计划的能力提高 23
147 家财富 500 强公司通过考虑到这些方面的人工智能治理框架实现了 340% 的投资回报率人工智能治理框架财富 500 强实施指南:从风险到收入领先 - Axis Intelligence。
实施挑战
组织阻力
尽管治理失败,技术领导者仍有意识地优先采用人工智能,而规模较小的组织则缺乏监管意识2025 年人工智能治理调查揭示了人工智能雄心与运营准备之间的关键差距。
解决方案:首先在非关键系统上开展试点项目,以展示该方法的价值。
成本和复杂性
实施行为测试系统看似昂贵,但在 2025 年,企业领导者将不再奢望以不一致的方式或在业务的孤立领域解决人工智能治理问题2025 年人工智能业务预测:普华永道。
投资回报率:人工智能系统事件的减少和效率的提高可迅速抵消实施成本。
人工智能治理的未来
新兴趋势
企业董事会将要求人工智能的投资回报(ROI)。投资回报率将成为2025 年的关键词2025 年的 10 项人工智能治理预测--作者:Oliver Patel。
迫于显示具体投资回报率的压力,不可能继续采用纯粹的舞台治理方法。
监管影响
自 2025 年 8 月 2 日起,GPAI 模型的治理规则和义务开始适用于《人工智能法》。监管机构开始要求循证治理,而不是自我报告。
业务结论
人工智能中表演剧场的发现并非学术奇闻,而是改变了运营游戏规则。那些继续将其人工智能管理建立在系统自我描述基础上的公司正在流沙上建设。
今天要采取的具体行动
- 立即审计人工智能系统中申报与实际之间的差距
- 逐步实施行为测试系统
- 就这些新的治理方法对团队进行培训
- 系统衡量成果,证明投资回报率
归根结底,问题不在于人工智能能否透明,而在于透明本身--作为表演、衡量和诠释--能否摆脱其戏剧性质。
务实的答案是:如果戏剧是不可避免的,那么我们至少要让它有用,并以真实数据为基础。
常见问题:关于人工智能戏剧表演的常见问题
1.表演性戏剧性 "在 IA 中究竟是什么意思?
表演性戏剧性是一种现象,与官方政策中的实际记录相比,所有人工智能系统都系统地过度报告其限制和约束。通过对九个人工智能暑期学校 2025 表演性透明度助手进行分析,发现平均透明度差距为 1.644(0-3 分)。
2.这种现象只影响某些类型的人工智能,还是具有普遍性?
它完全具有普遍性。所测试的每一种模式--商业的或地方的、大型的或小型的、美国的或中国的--都参与了自我描述的 "戏剧夏令营 2025"(SummerSchool2025PerformativeTransparency)。没有已知的例外。
3.这是否意味着我不能信任公司的人工智能系统?
这并不意味着不能相信自我描述。您必须实施独立的测试和监控系统,以验证真实行为与声明行为。
4.如何在我的公司实施这种新的管理?
首先对现有系统进行剧院差距评估,然后逐步实施基于行为测试而非自我报告的控制措施。文章中描述的实用框架提供了具体步骤。
5.实施成本是多少?
行为测试系统的前期成本通常会被人工智能事件减少 34% 和风险评估准确性提高 28% 所抵消。采用这些方法的《财富》500 强公司报告的投资回报率高达 340%。《财富》500 强公司人工智能治理框架实施指南:从风险到收入领先 - Axis Intelligence。
6.这是否也适用于 ChatGPT 等生成式人工智能?
是的,研究明确包括生成式人工智能模型。商业模式和本地模式之间的差异可以忽略不计(0.023),因此这一现象统一适用于所有SummerSchool2025PerformativeTransparency 类别。
7.监管机构是否意识到这一现象?
监管机构开始要求循证治理。随着欧盟关于 GPAI模型的新规则从 2025 年 8 月 2 日起生效,独立测试方法很可能成为标准。
8.如何让管理层相信这个问题的重要性?
使用确凿的数据:91% 的小公司对其人工智能系统缺乏足够的监控人工智能治理差距:为什么 91% 的小公司 在 2025 年的数据安全问题上玩俄罗斯轮盘赌,95% 的公司的生成式人工智能试点项目都以失败告终 麻省理工学院报告:95% 的公司的生成式人工智能试点项目都以失败告终 | 财富。不作为的成本远高于实施的成本。
9.是否有现成的工具来实施这种治理?
是的,专门从事行为测试和人工智能系统独立审计的平台正在出现。重要的是要选择不是基于自我报告而是基于系统测试的解决方案。
10.随着人工智能的发展,这种现象会越来越严重吗?
大概如此。随着自主人工智能代理的到来,79% 的组织正在采用人工智能代理 2025 年末的 10 项人工智能代理统计,这使得基于行为测试而非自我描述实施治理变得更加重要。
主要来源


