法比奥-劳里亚

草莓问题

2025 年 3 月 17 日
在社交媒体上分享

草莓草莓"的发布,让人们看到了语言模型的一个根本局限:它们无法分析单词中的单个字母。这一缺陷深刻揭示了语言模型的工作原理。

计算问题

当要求 ChatGPT 计算 "草莓 "一词中的 "r "时,模型经常会出错。这种错误并不是因为缺乏智能,而是语言模型分析文本的方式造成的。要了解原因,我们需要知道 标记化.

通过代币看世界

语言模型不把单词看作字母序列,而是看作 "标记"--转换成数字的意义单位。这就像阅读一本书,书中的每个单词都由数字代码代替。例如,"schoolbooks"(教科书)一词就被分成了两个独立的标记:"school"(学校)和 "books"(书籍)。这就解释了为什么模型难以正确计算这个单词中的 "o"--它实际上并没有把它看作一个单词。

一个具有启发性的例子

想象一下,在学习一种语言时,"学校 "一词总是用数字 "412 "来表示。如果有人问你 "412 "里有多少个 "o",如果我们从未见过这个单词的完整写法,就无法正确回答。语言模型也有类似的情况:它们通过数字来处理意义,而无法获得单词的字面构成。

复合词的挑战

复合词的问题就更严重了。由于 "Timekeeper "被分割成不同的词块,因此模型很难确定字母 "and "的确切位置。这种分裂不仅会影响字母计数,还会影响对内部单词结构的理解。

草莓问题的解决方案(也许)

未来的 OpenAI 模型 "草莓 "应通过引入创新的文本处理方法来克服这一局限。该模型将不再仅仅依赖于传统的标记化,而是能够在单个字母的层面上对单词进行分析,从而实现更精确的计数和分析操作。

对未来的影响

这个问题的重要性超出了简单的字母计数。这种细粒度分析能力可以大大提高人工智能模型的语言理解能力,使它们能够解决需要在字符层面进行详细文本分析的问题。

计划中的这一技术集成将是语言模型发展方向上的一大进步,它将更有能力 "推理 "语言的基本细节,而不仅仅是统计模式。

法比奥-劳里亚

首席执行官兼创始人 |Electe

作为Electe 公司的首席执行官,我帮助中小企业做出数据驱动型决策。我撰写有关商业领域人工智能的文章。

最受欢迎
注册获取最新消息

在您的收件箱中接收每月新闻和见解
。不要错过

谢谢!您提交的材料已收到!
哎呀!提交表格时出了点问题。