Newsletter

为什么数学很难(即使你是人工智能)

语言模型不知道如何像我们记忆圆周率那样乘法记忆结果,但这并不能使它们成为数学家。问题是结构性的:它们通过统计相似性来学习,而不是通过算法理解来学习。即使是新的 "推理模型",如 o1,也会在琐碎的任务中失败:经过几秒钟的处理后,它能正确地计算出 "草莓 "中的 "r",但当它要写一段话,每句话的第二个字母组成一个单词时,它就会失败。月租 200 美元的高级版则需要四分钟才能解决儿童即时完成的问题。2025 年的 DeepSeek 和 Mistral 仍然会计算错误的字母。新出现的解决方案是什么?混合方法--最聪明的模型已经知道何时调用真正的计算器,而不是自己尝试计算。范式转变:人工智能不必知道如何做所有事情,只需协调正确的工具即可。最后的悖论:GPT-4 可以出色地向你解释极限理论,但却把乘法算错了,而袖珍计算器却总能正确求解。在数学教育方面,它们非常出色--以无限的耐心进行解释,调整示例,分解复杂的推理。要精确计算?依靠计算器,而不是人工智能。

许多人依靠 LLM来执行数学运算。这种方法行不通。

问题其实很简单:大型语言模型(LLM)并不真正懂得乘法。它们有时能算出正确的结果,就像我可能对圆周率的值了如指掌一样。但这并不意味着我是数学家,也不意味着 LLM 真的懂得数学。

实例

例如:49858 *59949 = 298896167242 这个结果总是一样的,没有中间值。要么对,要么错。

即使经过大量的数学训练,最好的模型也只能正确解决部分运算。另一方面,一个简单的袖珍计算器却能得到 100% 的正确结果。数字越大,LLM 的性能就越差。

有可能解决这个问题吗?

基本问题在于,这些模型是通过相似性而不是通过理解来学习的。这些模型在处理与训练过的问题相似的问题时效果最佳,但却无法真正理解问题的含义。

如果您想了解更多信息,我建议您阅读这篇文章 "法律硕士是如何工作的?法学硕士是如何工作的".

而计算器则使用编程好的精确算法来执行数学运算。

这就是为什么我们绝不能完全依赖 LLM 进行数学计算:即使在最好的条件下,有大量特定的训练数据,它们也无法保证最基本运算的可靠性。混合方法或许可行,但仅靠 LLM 是不够的。也许,在解决所谓的"草莓问题"时,我们也会采用这种方法。

法学硕士在数学研究中的应用

在教育方面,LLM 可以充当个性化辅导员,能够根据学生的理解水平调整讲解内容。例如,当学生面临微积分问题时,LLM 可以将推理分解成更简单的步骤,并为求解过程的每一步提供详细解释。这种方法有助于建立对基本概念的牢固理解。

一个特别有趣的方面是,法律硕士能够提出相关的各种例子。如果学生正在尝试理解极限的概念,法律硕士可以呈现不同的数学情景,从简单的情况开始,逐步过渡到更复杂的情况,从而让学生逐步理解这一概念。

一个很有前景的应用是使用 LLM 将复杂的数学概念翻译成更容易理解的自然语言。这有利于向更广泛的受众传播数学知识,并有助于克服学习这门学科的传统障碍。

LLM 还可以协助编写教材,生成不同难度的练习,并就学生提出的解决方案提供详细反馈。这样,教师就能更好地定制学生的学习路径。

真正的优势

从更广泛的意义上讲,即使是最不 "有能力 "的学生,在帮助他们学习时也需要极大的 "耐心"。尽管如此,即使是 AI 有时也会 "失去耐心"。请看这个 "有趣的 例子.

更新 2025:推理模型和混合方法

随着所谓的 "推理模型"(如 OpenAI o1 和deepseekR1)的出现,2024-2025 年取得了重大进展。这些模型在数学基准测试中取得了令人瞩目的成绩:o1 能正确解决国际数学奥林匹克竞赛中 83% 的问题,而 GPT-4o 仅能正确解决 13% 的问题。但要注意的是:它们并没有解决上述基本问题。

o1 经过几秒钟的 "推理 "就能正确解决这个问题,但如果让它写一段话,每句话的第二个字母组成单词 "CODE",它就会失败。DeepSeek R1 和其他最新模型仍然会弄错基本计数。2025 年 2 月,Mistral 一直在回答 "草莓 "中只有两个 "r"。

正在出现的诀窍是混合方法:当需要用 49858 乘以 5994949 时,更先进的模型不再试图根据训练时看到的计算结果的相似性来 "猜测 "结果。取而代之的是,它们会调用计算器或执行 Python 代码,这与知道自己极限的智能人的做法如出一辙。

这种 "工具使用 "代表了一种范式的转变:人工智能不一定要能独自完成所有事情,但必须能够协调合适的工具。推理模型结合了理解问题的语言能力、规划解决方案的逐步推理能力,以及委托专业工具(计算器、Python 解释器、数据库)进行精确执行的能力。

教训?2025 年的 LLMs 在数学上更有用,不是因为他们 "学会了 "乘法--他们还没有真正做到这一点--而是因为他们中的一些人已经开始懂得何时将乘法委托给那些真正会做乘法的人。基本问题仍然存在:他们是通过统计相似性而不是算法理解来操作的。对于精确计算来说,5 欧元的计算器仍然可靠得多。

促进业务增长的资源