草莓草莓"的发布,让人们看到了语言模型的一个根本局限:它们无法分析单词中的单个字母。这一缺陷深刻揭示了语言模型的工作原理。
计算问题
当要求 ChatGPT 计算 "草莓 "一词中的 "r "时,模型经常会出错。这种错误并不是因为缺乏智能,而是语言模型分析文本的方式造成的。要了解原因,我们需要知道 标记化.
通过代币看世界
语言模型不把单词看作字母序列,而是看作 "标记"--转换成数字的意义单位。这就像阅读一本书,书中的每个单词都由数字代码代替。例如,"schoolbooks"(教科书)一词就被分成了两个独立的标记:"school"(学校)和 "books"(书籍)。这就解释了为什么模型难以正确计算这个单词中的 "o"--它实际上并没有把它看作一个单词。
一个具有启发性的例子
想象一下,在学习一种语言时,"学校 "一词总是用数字 "412 "来表示。如果有人问你 "412 "里有多少个 "o",如果我们从未见过这个单词的完整写法,就无法正确回答。语言模型也有类似的情况:它们通过数字来处理意义,而无法获得单词的字面构成。
复合词的挑战
复合词的问题就更严重了。由于 "Timekeeper "被分割成不同的词块,因此模型很难确定字母 "and "的确切位置。这种分裂不仅会影响字母计数,还会影响对内部单词结构的理解。
草莓问题的解决方案(也许)
未来的 OpenAI 模型 "草莓 "应通过引入创新的文本处理方法来克服这一局限。该模型将不再仅仅依赖于传统的标记化,而是能够在单个字母的层面上对单词进行分析,从而实现更精确的计数和分析操作。
对未来的影响
这个问题的重要性超出了简单的字母计数。这种细粒度分析能力可以大大提高人工智能模型的语言理解能力,使它们能够解决需要在字符层面进行详细文本分析的问题。
计划中的这一技术集成将是语言模型发展方向上的一大进步,它将更有能力 "推理 "语言的基本细节,而不仅仅是统计模式。