商业

超越算法：人工智能模型是如何训练和完善的

"数据是关键。生成式人工智能的圣杯"--美国运通首席技术官希拉里-帕克（Hilary Packer）。在人工智能项目中，数据处理占 80% 的工作量。DeepSeek 改变了规则：推理成本是 OpenAI 的 1/30。Dario Amodei：成本每年下降 4 倍。"我希望成本降到零"--Intuit 的 CDO。对于大多数公司来说，蒸馏+RAG 的组合就是神奇所在。未来？大量植根于公司数据的具体而廉价的模型。

法比奥-劳里亚

Electe‍ 首席执行官兼创始人

用人工智能总结本文

如何训练人工智能模型

人工智能模型的训练是当代技术发展中最复杂的挑战之一。模型的有效训练不仅仅是一个简单的算法问题，它需要有条不紊的多学科方法，将数据、数据科学、领域知识和软件工程融为一体。正如詹姆斯-卢克（James Luke）在其开创性著作《超越算法：为企业提供人工智能》中所指出的，人工智能实施的成功更多取决于数据管理和系统设计，而非算法本身。随着 DeepSeek-R1 模型等创新技术重新定义了成本和可访问性，这一领域正在发生迅速变化。

‍

基础：数据收集和管理

质量而非数量

与人们通常认为的相反，数据的数量并不总是成功的决定因素。数据的质量和代表性更为重要。因此，整合不同的数据源至关重要：

‍

专有数据：从道德角度收集，并由现有实施机构进行匿名化处理
授权数据：来自符合严格质量标准的可靠供应商
开放源码数据集：经过仔细核实，确保多样性和准确性
合成数据：人工生成，以填补空白并解决隐私问题

这种整合创建了一个全面的培训基地，既能捕捉真实世界的场景，又能维护道德和隐私标准。

数据准备的挑战

数据处理 "过程占人工智能项目所需工作量的 80%。这一阶段包括

数据清理：消除不一致、重复和异常值
数据转换：转换为适合处理的格式
数据整合：融合通常使用不兼容模式和格式的不同数据源
处理缺失数据：统计估算或使用替代数据等策略

正如美国运通首席技术官 Hilary Packer指出的那样："老实说，对我们来说最重要的时刻就是数据。你可以做出世界上最好的模型选择......但数据才是关键。验证和准确性是现在生成式人工智能的圣杯"。

‍

模型结构：正确的尺寸

模型架构的选择必须以要解决的问题的具体性质为指导，而不是以个人倾向或喜好为指导。不同类型的问题需要不同的方法：

‍

基于变换器的语言模型，适用于需要深入理解语言的任务
用于图像和模式识别的卷积神经网络
用于分析实体间复杂关系的图形神经网络
优化和决策问题的强化学习
针对复杂用例结合多种方法的混合架构

架构优化需要对不同配置进行系统评估，重点是平衡性能和计算要求，而随着 DeepSeek-R1 等模型的出现，这一点变得更加重要，因为这些模型能以更低的成本提供先进的推理能力。

‍

先进的培训方法

‍

蒸馏模型

在当前的人工智能生态系统中，"蒸馏 "已成为一种特别强大的工具。这一过程可以创建更小、更具体的模型，这些模型继承了 DeepSeek-R1 等更大、更复杂的模型的推理能力。

‍

正如 DeepSeek 的案例所示，该公司将其推理能力提炼到了几个较小的模型上，包括 Meta 的 Llama 系列和阿里巴巴的 Qwen 系列的开源模型。这些较小的模型随后可以针对特定任务进行优化，从而加快了快速和专业化模型的发展趋势。

‍

机器学习开发人员 Sam Witteveen 认为："我们开始进入一个人们使用多种模型的世界。他们不会一直只使用一种模型"。这包括 Gemini Flash 和 GPT-4o Mini 等低成本封闭模型，它们 "在 80% 的使用案例中都能很好地发挥作用"。

多任务学习

多任务学习允许模型在不同功能之间共享知识，而不是针对相关技能训练单独的模型：

模型同时优化多个相关目标
更广泛地接触不同的任务，使基本功能受益匪浅
提高所有任务的性能，尤其是数据有限的任务
通过组件共享提高计算效率

监督微调 (SFT)

对于在非常特殊的领域开展业务的公司来说，由于网络或通常用于训练语言模型的书籍中没有广泛的信息，有监督微调（SFT）是一种有效的选择。

DeepSeek 证明，使用 "成千上万 "的问答数据集也有可能取得好成绩。例如，IBM 工程师克里斯-海（Chris Hay）展示了他如何使用自己的数学特定数据集建立一个小型模型，并以极快的速度获得答案，其性能超过了 OpenAI 的 o1 模型在相同任务上的表现。

强化学习 (RL)

希望进一步根据特定偏好训练模型的公司--例如，让客户支持聊天机器人富有同情心但又简洁明了--会希望采用强化学习（RL）技术。如果公司希望聊天机器人根据用户反馈调整语气和建议，这种方法就特别有用。

检索-增强生成（RAG）

对于大多数公司来说，检索-增强生成（RAG）是最简单、最安全的途径。这是一个相对简单的过程，企业可以利用数据库中的专有数据锚定其模型，确保输出结果准确无误且针对特定领域。

根据Vectara 进行的一项研究，这种方法还有助于抵消 DeepSeek 等模型的一些幻觉问题，目前在 14% 的情况下会出现幻觉，而 OpenAI 的 o3 模型只有 8% 出现幻觉。

对于大多数公司来说，模型提炼和 RAG 的结合是神奇之处，即使是那些在数据科学或编程方面技能有限的人也能轻松实现。

‍

评估和改进：超越准确度指标

有效的人工智能不仅要以原始精度来衡量，还需要一个全面的评估框架，其中要考虑到：

功能准确性：模型产生正确结果的频率
鲁棒性：在不同输入和条件下性能的一致性
公平性：在不同用户群体和应用场景中实现一致的性能
校准：置信度得分与实际准确度之间的一致性
效率：计算和内存要求
可解释性：决策过程的透明度，DeepSeek 经过提炼的模型在这一方面表现出色，可显示其推理过程

成本曲线的影响

DeepSeek 的发布带来的最直接影响是其积极的降价。技术行业预计成本会随着时间的推移而下降，但很少有人预料到降价会如此之快。DeepSeek 证明，功能强大的开放式模型可以既便宜又高效，为广泛试验和经济高效的实施创造了机会。

‍

Vectara 首席执行官阿姆尔-阿瓦达拉（Amr Awadallah）强调了这一点，他指出，真正的临界点不仅仅是训练成本，还有推理成本，DeepSeek 每个令牌的推理成本约为 OpenAI 的 o1 或 o3 模型的 1/30。"Awadallah说："OpenAI、Anthropic和谷歌双子星能够获得的利润现在至少要减少90%，因为它们无法在如此高的价格下保持竞争力。

‍

不仅如此，这些成本还将继续降低。Anthropic 首席执行官达里奥-阿莫代（Dario Amodei）最近表示，开发模型的成本将以每年约四倍的速度持续下降。因此，LLM 供应商的收费标准也将继续降低。

‍

Intuit公司的CDO阿肖克-斯里瓦斯塔瓦（Ashok Srivastava）说："我完全预计成本将归零，"Intuit公司一直在其税务和会计软件产品（如TurboTax和Quickbooks）中大力推广人工智能。"......延迟将归零。它们将成为我们可以使用的基本功能。"

‍