推理的幻觉:撼动人工智能世界的争论
苹果公司发表了两篇毁灭性论文--"GSM-符号"(2024 年 10 月)和 "思维的幻觉"(2025 年 6 月)--这两篇论文展示了 LLM 如何在经典问题(河内塔、过河)的微小变化上失效:"仅改变数值时,性能会下降"。在复杂的河内塔问题上零成功。但亚历克斯-劳森(Alex Lawsen,开放慈善组织)以 "思考的幻觉 "为题进行了反驳,展示了失败的方法论:失败的原因是令牌输出限制而非推理崩溃,自动脚本错误地分类了部分正确的输出,有些谜题在数学上是无法解决的。克劳德/杰米尼/GPT 通过使用递归函数重复测试,而不是罗列棋步,创下了河内塔 15 次解题记录。加里-马库斯(Gary Marcus)接受了苹果公司关于 "分布转移 "的理论,但世界计算机大会前的计时论文提出了战略问题。商业影响:在关键任务上对人工智能的信任度有多高?解决方案:神经符号方法 神经网络用于模式识别和语言,符号系统用于形式逻辑。举例说明:人工智能会计可以理解 "多少差旅费?",但 SQL/计算/税务审计 = 确定性代码。