Newsletter

推理的幻觉:撼动人工智能世界的争论

苹果公司发表了两篇毁灭性论文--"GSM-符号"(2024 年 10 月)和 "思维的幻觉"(2025 年 6 月)--这两篇论文展示了 LLM 如何在经典问题(河内塔、过河)的微小变化上失效:"仅改变数值时,性能会下降"。在复杂的河内塔问题上零成功。但亚历克斯-劳森(Alex Lawsen,开放慈善组织)以 "思考的幻觉 "为题进行了反驳,展示了失败的方法论:失败的原因是令牌输出限制而非推理崩溃,自动脚本错误地分类了部分正确的输出,有些谜题在数学上是无法解决的。克劳德/杰米尼/GPT 通过使用递归函数重复测试,而不是罗列棋步,创下了河内塔 15 次解题记录。加里-马库斯(Gary Marcus)接受了苹果公司关于 "分布转移 "的理论,但世界计算机大会前的计时论文提出了战略问题。商业影响:在关键任务上对人工智能的信任度有多高?解决方案:神经符号方法 神经网络用于模式识别和语言,符号系统用于形式逻辑。举例说明:人工智能会计可以理解 "多少差旅费?",但 SQL/计算/税务审计 = 确定性代码。
法比奥-劳里亚
Electe‍ 首席执行官兼创始人
当人工智能推理遇到现实:机器人正确应用了逻辑规则,但却把篮球认成了橙子。这是一个完美的比喻,说明了 LLM 如何在不具备真正理解能力的情况下模拟逻辑过程。

在过去的几个月里,人工智能界经历了一场由苹果公司发表的两篇有影响力的研究论文引发的激烈辩论。第一篇是 GSM 符号(2024年10月)和第二篇、 思维的幻觉(2025年6月),对所谓的大型语言模型的推理能力提出了质疑,引发了整个行业的不同反应。

正如我们在上一篇文章中分析的那样 "进步的假象:模拟通用人工智能,却无法实现它 "一文中已经分析过。人工推理问题触及了我们所认为的机器智能的核心。

苹果公司的研究报告

苹果公司的研究人员对大型推理模型(Large Reasoning Models,LRM)进行了系统分析,这些模型在提供答案之前会生成详细的推理轨迹。分析结果令人吃惊,对许多人来说更是令人震惊。

进行的测试

这项研究对最先进的模型进行了经典算法解谜,例如

  • 河内塔:1957 年首次破解的数学难题
  • 渡河问题:具有特定限制条件的逻辑谜题
  • GSM 符号基准:小学数学问题的变体

用经典谜题测试推理能力:农夫、狼、山羊和卷心菜问题是苹果公司研究中用来评估法律硕士推理能力的逻辑谜题之一。难度在于找到正确的交叉顺序,同时避免狼吃掉山羊或山羊吃掉卷心菜。这是一项简单而有效的测试,可用于区分算法理解和模式记忆。

有争议的结果

结果表明,即使问题表述的微小变化也会导致成绩的显著变化,这表明推理的脆弱性令人担忧。正如 AppleInsider 报道当仅改变 GSM 符号基准问题中的数值时,所有模型的性能都会下降"。

反攻:思考的幻觉

很快,人工智能界就做出了回应。Open Philanthropy 的 Alex Lawsen 与 Anthropic 的 Claude Opus 合作发表了一篇题为 "The Illusion of Thinking "的详细反驳文章。 "思考的幻觉对苹果公司的研究方法和结论提出了质疑。

主要反对意见

  1. 忽略输出限制:许多归因于 "推理崩溃 "的故障实际上是由于模型输出令牌限制造成的
  2. 错误评估:自动脚本还将部分但算法正确的输出归类为完全失败
  3. 不可能解决的问题:有些谜题在数学上是无法解决的,但模型却会因无法解决这些谜题而受到惩罚

确认测试

当劳森用其他方法重复测试时--要求模型生成递归函数,而不是列出所有棋步--结果却大相径庭。克劳德、双子座和 GPT 等模型正确解决了有 15 条记录的河内塔问题,远远超出了苹果公司报告的零成功的复杂度。

辩论中的权威声音

加里-马库斯:历史评论家

加里-马库斯马库斯(Gary Marcus)长期批评法学硕士的推理能力,他认为苹果公司的研究结果证实了他长达20年的理论。马库斯认为,法学硕士仍然在 "分布转移"--即超越训练数据的概括能力--方面挣扎,而他们仍然是 "已经解决的问题的优秀解决者"。

本地骆驼社区

讨论还蔓延到了一些专业社区,如 Reddit 上的上的 LocalLlama 等专业社区,开发人员和研究人员在那里讨论开源模式和本地实施的实际意义。

超越争议:对公司的意义

战略意义

这场辩论并不纯粹是学术性的。它直接影响到:

  • 生产中的人工智能部署:我们能在多大程度上信任模型来完成关键任务?
  • 研发投资:如何集中资源实现下一个突破?
  • 与利益相关者沟通:如何管理对人工智能能力的现实期望?

神经符号方式

正如一些 技术见解越来越需要将以下方面结合起来的混合方法:

  • 用于模式识别和语言理解的神经网络
  • 用于算法推理和形式逻辑的符号系统

举个简单的例子:人工智能助理帮助记账。当你问 "我这个月在旅行上花了多少钱?"时,语言模型会理解并提取相关参数(类别:旅行,时间:本月)。但查询数据库、计算总和并检查财务约束的 SQL 查询呢?这是由确定性代码完成的,而不是神经模型。

时机和战略背景

观察家们注意到,苹果公司的这份文件是在 WWDC 前不久发表的,这不禁让人怀疑其战略动机。正如9to5Mac 的分析的分析,"苹果论文发表的时间--就在 WWDC 之前--引起了一些人的关注。这是一个研究里程碑,还是苹果在更广泛的人工智能领域重新定位的战略举措?

对未来的启示

研究人员

  • 实验设计:区分架构限制和实施限制的重要性
  • 严格评估:需要将认知能力与实际限制分开的精密基准
  • 方法透明:全面记录实验设置和限制的义务

企业

  • 现实的期望:认识到当前的局限性而不放弃未来的潜力
  • 混合方法:投资于结合不同技术优势的解决方案
  • 持续评估:实施反映真实使用场景的测试系统

结论:驾驭不确定性

苹果公司的论文引发的争论提醒我们,我们对人工智能的理解仍处于早期阶段。正如我们在 上一篇文章中指出的,区分模拟推理和真实推理仍然是我们这个时代最复杂的挑战之一。

真正的教训并不在于 LLM 能否进行人类意义上的 "推理",而在于我们如何才能构建既能利用其优势又能弥补其局限性的系统。在人工智能已经改变整个行业的今天,问题不再是这些工具是否 "聪明",而是如何有效、负责任地使用它们。

企业人工智能的未来可能不在于单一的革命性方法,而在于几种互补技术的智能协调。在这种情况下,批判性地、诚实地评估我们工具能力的能力本身就是一种竞争优势。

如需深入了解贵组织的人工智能战略并实施稳健的解决方案,我们的专家团队可为您提供定制咨询。

资料来源和参考文献:

促进业务增长的资源