


在过去的几个月里,人工智能界经历了一场由苹果公司发表的两篇有影响力的研究论文引发的激烈辩论。第一篇是 GSM 符号(2024年10月)和第二篇、 思维的幻觉(2025年6月),对所谓的大型语言模型的推理能力提出了质疑,引发了整个行业的不同反应。
正如我们在上一篇文章中分析的那样 "进步的假象:模拟通用人工智能,却无法实现它 "一文中已经分析过。人工推理问题触及了我们所认为的机器智能的核心。
苹果公司的研究人员对大型推理模型(Large Reasoning Models,LRM)进行了系统分析,这些模型在提供答案之前会生成详细的推理轨迹。分析结果令人吃惊,对许多人来说更是令人震惊。
这项研究对最先进的模型进行了经典算法解谜,例如

结果表明,即使问题表述的微小变化也会导致成绩的显著变化,这表明推理的脆弱性令人担忧。正如 AppleInsider 报道当仅改变 GSM 符号基准问题中的数值时,所有模型的性能都会下降"。
很快,人工智能界就做出了回应。Open Philanthropy 的 Alex Lawsen 与 Anthropic 的 Claude Opus 合作发表了一篇题为 "The Illusion of Thinking "的详细反驳文章。 "思考的幻觉对苹果公司的研究方法和结论提出了质疑。
当劳森用其他方法重复测试时--要求模型生成递归函数,而不是列出所有棋步--结果却大相径庭。克劳德、双子座和 GPT 等模型正确解决了有 15 条记录的河内塔问题,远远超出了苹果公司报告的零成功的复杂度。
加里-马库斯马库斯(Gary Marcus)长期批评法学硕士的推理能力,他认为苹果公司的研究结果证实了他长达20年的理论。马库斯认为,法学硕士仍然在 "分布转移"--即超越训练数据的概括能力--方面挣扎,而他们仍然是 "已经解决的问题的优秀解决者"。
讨论还蔓延到了一些专业社区,如 Reddit 上的上的 LocalLlama 等专业社区,开发人员和研究人员在那里讨论开源模式和本地实施的实际意义。
这场辩论并不纯粹是学术性的。它直接影响到:
正如一些 技术见解越来越需要将以下方面结合起来的混合方法:
举个简单的例子:人工智能助理帮助记账。当你问 "我这个月在旅行上花了多少钱?"时,语言模型会理解并提取相关参数(类别:旅行,时间:本月)。但查询数据库、计算总和并检查财务约束的 SQL 查询呢?这是由确定性代码完成的,而不是神经模型。
观察家们注意到,苹果公司的这份文件是在 WWDC 前不久发表的,这不禁让人怀疑其战略动机。正如9to5Mac 的分析的分析,"苹果论文发表的时间--就在 WWDC 之前--引起了一些人的关注。这是一个研究里程碑,还是苹果在更广泛的人工智能领域重新定位的战略举措?
苹果公司的论文引发的争论提醒我们,我们对人工智能的理解仍处于早期阶段。正如我们在 上一篇文章中指出的,区分模拟推理和真实推理仍然是我们这个时代最复杂的挑战之一。
真正的教训并不在于 LLM 能否进行人类意义上的 "推理",而在于我们如何才能构建既能利用其优势又能弥补其局限性的系统。在人工智能已经改变整个行业的今天,问题不再是这些工具是否 "聪明",而是如何有效、负责任地使用它们。
企业人工智能的未来可能不在于单一的革命性方法,而在于几种互补技术的智能协调。在这种情况下,批判性地、诚实地评估我们工具能力的能力本身就是一种竞争优势。
如需深入了解贵组织的人工智能战略并实施稳健的解决方案,我们的专家团队可为您提供定制咨询。