草莓问题

Newsletter

草莓问题

草莓里有几个 "r"？- GPT-4o 的答案是 "2"，而一个六岁的孩子却知道是 3。问题在于标记化：模型看到的是[str][aw][berry]，而不是字母。OpenAI 并没有用 o1 解决这个问题，而是通过教模型 "先思考后说话 "来解决这个问题。结果：在数学奥林匹克竞赛中，OpenAI 的成绩是 83% 对 13%，但耗时是 30 秒而不是 3 秒，成本是原来的三倍。语言模型是非凡的概率工具，但仍需要人来计算。

法比奥-劳里亚

Electe‍ 首席执行官兼创始人

用人工智能总结本文

从草莓问题到 o1 模型：OpenAI 如何解决（部分）代币化限制问题

2024 年夏天，一个病毒式的网络流行语让世界上最先进的语言模型陷入了尴尬："'草莓'这个词里有几个'r'？正确答案是三个，但 GPT-4o 顽固地回答 "两个"。这个看似微不足道的错误暴露了语言模型的根本局限：它们无法分析单词中的单个字母。

2024 年 9 月 12 日，OpenAI 发布了 o1--内部代号为 "草莓"--新系列 "推理模型 "中的第一个模型，该模型专为克服此类限制而设计。没错，这个名字绝非偶然：OpenAI 的一位研究人员证实，o1 最终能够正确计算 "草莓 "中的 "r"。

但解决方案却与原文的想象大相径庭。OpenAI 并没有 "教 "模型逐个字母分析单词。相反，它开发了一种完全不同的方法：教模型在回答前进行 "推理"。

计数问题：模型为何会出错

问题的根源仍然在于标记化--语言模型处理文本的基本过程。正如 2025 年 5 月发表在 arXiv 上的一篇技术文章（《草莓问题：代币化语言模型中字符级理解的出现》）所解释的那样，这些模型并不把单词看作字母序列，而是看作 "代币"--转换成数字的意义单位。

当 GPT-4 处理单词 "strawberry "时，其标记化器会将其分为三个部分：[str][aw][berry]，每个部分都有一个特定的数字 ID（496、675、15717）。对模型来说，"草莓 "不是由 10 个字母组成的序列，而是由 3 个数字标记组成的序列。这就好像他在读一本书，书中的每个单词都用一个代码代替，然后有人让他数一数他从未见过的代码中的字母。

复合词的问题更为复杂。如 "Timekeeper "被分解成多个独立的词块，这使得模型无法在没有明确推理过程的情况下确定字母的确切位置。分词不仅会影响字母计数，还会影响对单词内部结构的理解。

解决方案 o1：先推理再回应

OpenAI o1 用一种意想不到的方式解决了这个问题：它没有修改标记化技术--这在技术上是很困难的，而且会影响模型的效率--而是用一种叫做 "思维链推理 "的技术教会系统 "先思考，再说话"。

当你问 o1 "草莓 "中有几个 "r "时，模型不会立即回答。对于复杂的问题，它要花几秒钟，有时甚至几分钟，在内部处理一个不为用户所知的 "推理链"。这个过程允许它

认识到需求需要在特征层面进行分析
制定分解单词的策略
通过不同方法测试响应
在给出最终答案前纠正任何错误

正如 OpenAI 研究员诺姆-布朗（Noam Brown）在 X 上发表的一系列文章中所解释的那样："o1 是通过强化学习训练出来的，先'思考'，再通过私人思维链做出反应。在训练过程中，模型在推理过程中的每一个正确步骤都会得到奖励，而不仅仅是最终的正确答案。

结果令人印象深刻，但代价高昂。在国际奥林匹克数学竞赛的资格考试中，o1 的解题正确率为 83%，而 GPT-4o 为 13%。在博士水平的科学问题上，它的正确率达到 78%，而 GPT-4o 只有 56%。但这种能力是有代价的：o1 回答问题需要 30 多秒，而 GPT-4o 只需 3 秒；每百万代币的输入成本为 15 美元，而 GPT-4o 为 5 美元。

思维链：如何真正发挥作用

这种技术并不神奇，而是有条不紊的。当收到提示时，o1 会在内部生成一长串 "想法"，这些想法不会显示给用户。对于 "草莓 "中的 "r "问题，内部过程可能是：

"首先，我必须了解单词结构。草莓可以标记为 [str][aw][berry]。要计算'r'，我必须在字符级重建完整的单词。Str 包含：s-t-r（1 个 "r"）。Aw 包含：a-w（0 个 "r"）。Berry 包含：b-e-r-y（2 个 "r"）。总计：1+0+2 = 3 个 "r"。我检查：Strawberry = s-t-r-a-w-b-e-r-r-y。我数'r'：位置 3、位置 8、位置 9。确认：3 个'r'"。

这种内部推理在设计上是隐藏的。OpenAI 明确禁止用户试图揭示 o1 的思维链，对提示进行监控，并可能取消违反这一规则的用户的访问权限。该公司以人工智能安全和竞争优势为理由，但这一决定却被使用语言模型的开发人员批评为失去了透明度。

持续限制： o1 不完美

尽管取得了进展，但 o1 并没有完全解决这个问题。2025 年 1 月，发表在《语言日志》（Language Log）上的一项研究对各种模型进行了测试，以应对一项更复杂的挑战："写一段话，每句话的第二个字母组成单词'CODE'"。

o1 标准版（20 美元/月）失败了，因为它错误地将每个单词首字母算作 "第二个字母"。o1-pro（200 美元/月）经过 4 分 10 秒的 "思考"，解决了这个问题。2025 年 1 月震动市场的中国型号 DeepSeek R1 也犯了与 o1 标准版相同的错误。

基本问题依然存在：这些模型仍然是通过标记而不是字母来看待文本。正如一位研究人员在《语言日志》中指出的："标记化是语言模型本质的一部分；对于任何错误的答案，解释正是'嗯，标记化'"。

学术研究：在人物层面形成认识

2025 年 5 月，arXiv 上发表了一篇重要论文（《草莓问题：标记化语言模型中字符级理解的出现》），从理论角度分析了这一现象。研究人员创建了 19 个合成任务，在受控语境中分离出字符级推理，证明这些能力是在训练后期才突然出现的。

该研究认为，学习人物构成与学习常识性知识并无本质区别--当模型中的实例和联系达到临界质量时，就会通过 "概念渗透 "过程出现。

研究人员提出了一种轻量级的架构修改，在保留基于子词的模型的归纳优势的同时，显著提高了字符级推理能力。不过，这些修改仍处于实验阶段，尚未在商业模型中实施。

实际意义：何时信任，何时不信任

草莓案例给我们上了关于语言模型可靠性的重要一课：它们是概率工具，而不是确定性计算器。正如马克-利伯曼（Mark Liberman）在《语言日志》（Language Log）一书中所指出的："在涉及计算事物的任务中，你应该谨慎相信当前任何人工智能系统的反应"。

这并不意味着模型毫无用处。正如一位评论家所指出的："一只猫犯了被黄瓜吓到的愚蠢错误，并不意味着我们就不应该信任这只猫，让它去完成把啮齿动物赶出大楼这一困难得多的任务"。如果你想系统地计算字母，语言模型并不是合适的工具，但对于自动处理成千上万的播客文本并提取嘉宾和主持人的姓名来说，它们却是极好的工具。

对于要求绝对精确的任务--飞船登陆火星、计算药物剂量、验证法律合规性--目前的语言模型在没有人为监督或外部验证的情况下仍显不足。这些模型的概率性质使其在模式匹配和创造性生成方面非常强大，但在错误不可接受的任务中却不可靠。

未来：打造按小时推理的模型

OpenAI表示，它打算试验 "推理数小时、数天甚至数周 "的o1模型，以进一步提高其推理能力。2024 年 12 月，o3 发布（为避免与移动运营商 O2 发生商标冲突，略去了 o2 的名称），2025 年 3 月，o1-pro 的 API 发布，这是 OpenAI 迄今为止最昂贵的人工智能模型，输入价格为每百万代币 150 美元，输出价格为每百万代币 600 美元。

方向很明确：OpenAI 正在投资于让模型 "思考 "更长时间（测试时间计算），而不是让模型越来越大（扩展）。与训练越来越庞大的模型相比，这种方法在能量和计算上更具可持续性。

但一个悬而未决的问题依然存在：这些模型是真的在 "推理"，还是只是通过更复杂的统计模式来模拟推理？苹果公司 2024 年 10 月发表的研究报告称，o1 等模型可以从自己的训练数据中复制推理步骤。通过改变数学问题中的数字和名称，或者简单地重新运行同一个问题，这些模型的表现明显要差得多。通过添加无关但逻辑上不相关的信息，一些模型的性能骤降了 65%。

结论：有基本限制的强大工具

草莓问题和 o1 解决方案揭示了当前语言模型的潜力和固有局限。OpenAI 已经证明，通过有针对性的训练和额外的处理时间，模型可以克服标记化的某些结构限制。但他们并没有消除它，而是规避了它。

对于用户和开发人员来说，实践的教训是显而易见的：了解这些系统是如何工作的--它们在哪些方面做得好，在哪些方面做得不好--是有效使用它们的关键。对于概率任务、模式匹配、创造性生成和信息合成来说，语言模型是很好的工具。但对于需要确定性精确度的任务--计算、计算、验证具体事实--如果没有外部监督或辅助工具，它们仍然是不可靠的。

即使是世界上最先进的人工智能系统，也会在遇到一个六岁小孩都能立刻解决的问题时踌躇不前。这并不是因为它们笨，而是因为它们的 "思维 "方式与我们大相径庭--也许我们不应该再指望它们像人类一样思考了。

资料来源