推理的幻觉：撼动人工智能世界的争论

Newsletter

推理的幻觉：撼动人工智能世界的争论

苹果公司发表了两篇毁灭性论文--"GSM-符号"（2024 年 10 月）和 "思维的幻觉"（2025 年 6 月）--这两篇论文展示了 LLM 如何在经典问题（河内塔、过河）的微小变化上失效："仅改变数值时，性能会下降"。在复杂的河内塔问题上零成功。但亚历克斯-劳森（Alex Lawsen，开放慈善组织）以 "思考的幻觉 "为题进行了反驳，展示了失败的方法论：失败的原因是令牌输出限制而非推理崩溃，自动脚本错误地分类了部分正确的输出，有些谜题在数学上是无法解决的。克劳德/杰米尼/GPT 通过使用递归函数重复测试，而不是罗列棋步，创下了河内塔 15 次解题记录。加里-马库斯（Gary Marcus）接受了苹果公司关于 "分布转移 "的理论，但世界计算机大会前的计时论文提出了战略问题。商业影响：在关键任务上对人工智能的信任度有多高？解决方案：神经符号方法神经网络用于模式识别和语言，符号系统用于形式逻辑。举例说明：人工智能会计可以理解 "多少差旅费？"，但 SQL/计算/税务审计 = 确定性代码。

法比奥-劳里亚

ELECTE首席执行官兼创始人

用人工智能总结本文

当人工智能推理遇到现实：机器人正确应用了逻辑规则，但却把篮球认成了橙子。这是一个完美的比喻，说明了 LLM 如何在不具备真正理解能力的情况下模拟逻辑过程。

‍

在过去的几个月里，苹果公司发表的两篇颇具影响力的研究论文引发了人工智能界的激烈讨论。第一篇是 "思维的幻觉"（illusion-of-thinking-the-debate-that-is-shaking-the-world-of-ai&_bhlid=a540c17e5de7c2723906dabd9b8f31cdf0c5bf18" target="_blank" id="">"GSM-Symbolic"（2024 年 10 月），第二篇是 "思维的幻觉"（" The Illusion of Thinking"）、 "思考的幻觉"（2025 年 6 月(2025年6月），对所谓的大型语言模型的推理能力提出了质疑，在业界引起了不同的反响。

‍

正如我们在先前深入探讨中分析的那样 《进步的幻觉：模拟通用人工智能却无法实现》，人工智能推理问题触及了我们对机器智能认知的核心本质。

‍

苹果公司的研究报告

苹果公司的研究人员对大型推理模型（Large Reasoning Models，LRM）进行了系统分析，这些模型在提供答案之前会生成详细的推理轨迹。分析结果令人吃惊，对许多人来说更是令人震惊。

‍

进行的测试

这项研究对最先进的模型进行了经典算法解谜，例如

河内塔：1957 年首次破解的数学难题
渡河问题：具有特定限制条件的逻辑谜题
GSM 符号基准：小学数学问题的变体

‍

*通过经典谜题测试推理能力：* *农夫、狼、山羊和卷心菜的问题* 是苹果研究中用于评估大型语言模型推理能力的逻辑谜题之一。难点在于找出正确的过河顺序，避免狼吃掉山羊或山羊吃掉卷心菜的情况发生。这是一个简单却有效的测试，能区分算法理解与模式记忆。

‍

有争议的结果

结果表明，即使问题表述的微小变化也会导致成绩的显著变化，这表明推理的脆弱性令人担忧。正如 AppleInsider 报道当仅改变 GSM 符号基准问题中的数值时，所有模型的性能都会下降"。

‍

反攻：思考的幻觉

‍

很快，人工智能界就做出了回应。Open Philanthropy 的 Alex Lawsen 与 Anthropic 的 Claude Opus 合作发表了一篇题为 "The Illusion of Thinking "的详细反驳文章。 "思考的幻觉对苹果公司的研究方法和结论提出了质疑。

主要反对意见

忽略输出限制：许多归因于 "推理崩溃 "的故障实际上是由于模型输出令牌限制造成的
错误评估：自动脚本还将部分但算法正确的输出归类为完全失败
不可能解决的问题：有些谜题在数学上是无法解决的，但模型却会因无法解决这些谜题而受到惩罚

确认测试

当劳森用其他方法重复测试时--要求模型生成递归函数，而不是列出所有棋步--结果却大相径庭。克劳德、gemini和 GPT 等模型正确地解决了河内塔问题，并有 15 条记录，远远超出了苹果公司报告的零成功的复杂度。

‍

辩论中的权威声音

‍

加里-马库斯：历史评论家

加里-马库斯马库斯（Gary Marcus）长期批评法学硕士的推理能力，他认为苹果公司的研究结果证实了他长达20年的理论。马库斯认为，法学硕士仍然在 "分布转移"--即超越训练数据的概括能力--方面挣扎，而他们仍然是 "已经解决的问题的优秀解决者"。

‍

本地骆驼社区

讨论还蔓延到了一些专业社区，如 Reddit 上的上的 LocalLlama 等专业社区，开发人员和研究人员在那里讨论开源模式和本地实施的实际意义。

‍

超越争议：对公司的意义

战略意义

这场辩论并不纯粹是学术性的。它直接影响到：

生产中的人工智能部署：我们能在多大程度上信任模型来完成关键任务？
研发投资：如何集中资源实现下一个突破？
与利益相关者沟通：如何管理对人工智能能力的现实期望？

神经符号方式

正如一些 技术见解越来越需要将以下方面结合起来的混合方法：

用于模式识别和语言理解的神经网络
用于算法推理和形式逻辑的符号系统

举个简单的例子：人工智能助理帮助记账。当你问 "我这个月在旅行上花了多少钱？"时，语言模型会理解并提取相关参数（类别：旅行，时间：本月）。但查询数据库、计算总和并检查财务约束的 SQL 查询呢？这是由确定性代码完成的，而不是神经模型。

‍

时机和战略背景

观察家们注意到，苹果公司的这份文件是在 WWDC 前不久发表的，这不禁让人怀疑其战略动机。正如9to5Mac 的分析的分析，"苹果论文发表的时间--就在 WWDC 之前--引起了一些人的关注。这是一个研究里程碑，还是苹果在更广泛的人工智能领域重新定位的战略举措？

‍

对未来的启示

研究人员

实验设计：区分架构限制和实施限制的重要性
严格评估：需要将认知能力与实际限制分开的精密基准
方法透明：全面记录实验设置和限制的义务

企业

现实的期望：认识到当前的局限性而不放弃未来的潜力
混合方法：投资于结合不同技术优势的解决方案
持续评估：实施反映真实使用场景的测试系统

‍

结论：驾驭不确定性

‍

苹果公司的论文引发的争论提醒我们，我们对人工智能的理解仍处于早期阶段。正如我们在 上一篇文章中指出的，区分模拟推理和真实推理仍然是我们这个时代最复杂的挑战之一。

‍

真正的教训并不在于 LLM 能否进行人类意义上的 "推理"，而在于我们如何才能构建既能利用其优势又能弥补其局限性的系统。在人工智能已经改变整个行业的今天，问题不再是这些工具是否 "聪明"，而是如何有效、负责任地使用它们。

‍

企业人工智能的未来可能不在于单一的革命性方法，而在于几种互补技术的智能协调。在这种情况下，批判性地、诚实地评估我们工具能力的能力本身就是一种竞争优势。

‍

最新进展（2026年1月）

OpenAI发布o3和o4-mini：2025年4月16日，OpenAI正式公开发布o3和o4-mini——这是o系列中最先进的推理模型。这些模型现可自主运用工具，融合网络搜索、文件分析、视觉推理与图像生成能力。 o3在Codeforces、SWE-bench和MMMU等基准测试中创下新纪录，而o4-mini则针对高吞吐量推理任务优化了性能与成本。这些模型展现出"图像思维"能力，可通过视觉转换内容实现更深入的分析。

DeepSeek-R1震撼人工智能行业：2025年1月，DeepSeek发布开源推理模型R1，其性能可媲美OpenAI o1，而训练成本仅需600万美元（西方同类模型需数亿美元）。 DeepSeek-R1证明推理能力可通过纯强化学习实现，无需人工标注示范。该模型在数十个国家成为App Store和Google Play免费榜冠军应用。 2026年1月，DeepSeek发布了60页的扩展论文，揭示了训练秘诀，并坦率承认蒙特卡洛树搜索（MCTS）等技术无法实现通用推理。

Anthropic更新Claude的"宪法"：2026年1月22日，Anthropic为Claude发布了长达23,000字的新宪法，将伦理框架从规则导向转变为基于伦理原则的理解。该文件成为首份正式承认人工智能可能具备意识或道德地位的大型人工智能企业框架，声明Anthropic关注Claude的"心理健康、自我认知与福祉"。

争论愈演愈烈：2025年7月的一项研究复现并优化了苹果公司的基准测试，证实当复杂度适度提升（约8个圆盘的河内塔）时，LRM仍会显现认知局限。研究人员证明这不仅源于输出限制，更源于真实的认知边界，表明这场争论远未结束。

‍

如需深入了解贵组织的人工智能战略并实施稳健的解决方案，我们的专家团队可为您提供定制咨询。

‍