法比奥-劳里亚

超越算法:人工智能模型是如何训练和完善的

2025 年 4 月 7 日
在社交媒体上分享

如何训练人工智能模型

人工智能模型的训练是当代技术发展中最复杂的挑战之一。模型的有效训练不仅仅是一个简单的算法问题,它需要一种将数据科学、领域知识和软件工程融为一体的有条不紊的多学科方法。正如詹姆斯-卢克(James Luke)在其开创性著作《超越算法:为企业提供人工智能》中所指出的,人工智能的成功实施更多取决于数据管理和系统设计,而非算法本身。随着 DeepSeek-R1 模型等创新技术重新定义了成本和可访问性,这一领域正在发生迅速变化。

基础:数据收集和管理

质量而非数量

与人们通常认为的相反,数据的数量并不总是成功的决定因素。数据的质量和代表性更为重要。因此,整合不同的数据源至关重要:

  • 专有数据:从道德角度收集,并由现有实施机构进行匿名化处理
  • 授权数据:来自符合严格质量标准的可靠供应商
  • 开放源码数据集:经过仔细核实,确保多样性和准确性
  • 合成数据:人工生成,以填补空白并解决隐私问题

这种整合创建了一个全面的培训基地,既能捕捉真实世界的场景,又能维护道德和隐私标准。

数据准备的挑战

数据处理 "过程占人工智能项目所需工作量的 80%。这一阶段包括

  • 数据清理:消除不一致、重复和异常值
  • 数据转换:转换为适合处理的格式
  • 数据整合:融合通常使用不兼容模式和格式的不同数据源
  • 处理缺失数据:统计估算或使用替代数据等策略

正如美国运通首席技术官 Hilary Packer指出的那样:"老实说,对我们来说最重要的时刻就是数据。你可以做出世界上最好的模型选择......但数据才是关键。验证和准确性是现在生成式人工智能的圣杯"。

模型结构:正确的尺寸

模型架构的选择必须以要解决的问题的具体性质为指导,而不是以个人倾向或喜好为指导。不同类型的问题需要不同的方法:

  • 基于变换器的语言模型,适用于需要深入理解语言的任务
  • 用于图像和模式识别的卷积神经网络
  • 用于分析实体间复杂关系的图形神经网络
  • 优化和决策问题的强化学习
  • 针对复杂用例结合多种方法的混合架构

架构优化需要对不同配置进行系统评估,重点是平衡性能和计算要求,而随着 DeepSeek-R1 等模型的出现,这一点变得更加重要,因为这些模型能以更低的成本提供先进的推理能力。

先进的培训方法

蒸馏模型

在当前的人工智能生态系统中,"蒸馏 "已成为一种特别强大的工具。这一过程可以创建更小、更具体的模型,这些模型继承了 DeepSeek-R1 等更大、更复杂的模型的推理能力。

正如DeepSeek的案例所示,该公司将其推理能力提炼到几个较小的模型上,包括Meta的Llama系列和阿里巴巴的Qwen系列的开源模型。这些较小的模型随后可以针对特定任务进行优化,从而加快了快速和专业化模型的发展趋势。

机器学习开发人员 Sam Witteveen 认为:"我们开始进入一个人们使用多种模型的世界。他们不会一直只使用一种模型"。这包括 Gemini Flash 和 GPT-4o Mini 等低成本封闭模型,它们 "在 80% 的使用案例中都能很好地发挥作用"。

多任务学习

多任务学习允许模型在不同功能之间共享知识,而不是针对相关技能训练单独的模型:

  • 模型同时优化多个相关目标
  • 更广泛地接触不同的任务,使基本功能受益匪浅
  • 提高所有任务的性能,尤其是数据有限的任务
  • 通过组件共享提高计算效率

监督微调 (SFT)

对于在非常特殊的领域开展业务的公司来说,由于网络或通常用于训练语言模型的书籍中没有广泛的信息,有监督微调(SFT)是一种有效的选择。

DeepSeek 证明,使用 "成千上万 "的问答数据集也有可能取得好成绩。例如,IBM 工程师克里斯-海(Chris Hay)展示了他如何使用自己的数学特定数据集建立一个小型模型,并以极快的速度获得答案,其性能超过了 OpenAI 的 o1 模型在相同任务上的表现。

强化学习 (RL)

希望进一步根据特定偏好训练模型的公司--例如,让客户支持聊天机器人富有同情心但又简洁明了--会希望采用强化学习(RL)技术。如果公司希望聊天机器人根据用户反馈调整语气和建议,这种方法就特别有用。

检索-增强生成(RAG)

对于大多数公司来说,检索-增强生成(RAG)是最简单、最安全的途径。这是一个相对简单的过程,企业可以利用数据库中的专有数据锚定其模型,确保输出结果准确无误且针对特定领域。

根据 Vectara 进行的一项研究,这种方法还有助于抵消 DeepSeek 等模型的一些幻觉问题,目前在 14% 的情况下会出现幻觉,而 OpenAI 的 o3 模型只有 8% 出现幻觉。

对于大多数公司来说,模型提炼和 RAG 的结合是神奇之处,即使是那些在数据科学或编程方面技能有限的人也能轻松实现。

评估和改进:超越准确度指标

有效的人工智能不仅要以原始精度来衡量,还需要一个全面的评估框架,其中要考虑到:

  • 功能准确性:模型产生正确结果的频率
  • 鲁棒性: 在不同输入和条件下性能的一致性
  • 公平性:在不同用户群体和应用场景中实现一致的性能
  • 校准:置信度得分与实际准确度之间的一致性
  • 效率:计算和内存要求
  • 可解释性:决策过程的透明度,DeepSeek 经过提炼的模型在这一方面表现出色,可显示其推理过程

成本曲线的影响

DeepSeek 的发布带来的最直接影响是其积极的降价。技术行业预计成本会随着时间的推移而下降,但很少有人预料到降价会如此之快。DeepSeek 证明,功能强大的开放式模型可以既便宜又高效,为广泛试验和经济高效的实施创造了机会。

Vectara 首席执行官阿姆尔-阿瓦达拉(Amr Awadallah)强调了这一点,他指出,真正的临界点不仅仅是训练成本,还有推理成本,DeepSeek 每个令牌的推理成本约为 OpenAI 的 o1 或 o3 模型的 1/30。"Awadallah说:"OpenAI、Anthropic和谷歌双子星能够获得的利润现在至少要减少90%,因为它们无法在如此高的价格下保持竞争力。

不仅如此,这些成本还将继续降低。Anthropic 首席执行官达里奥-阿莫代(Dario Amodei)最近表示,开发模型的成本将以每年约四倍的速度持续下降。因此,LLM 供应商的收费标准也将继续降低。

Intuit公司的CDO阿肖克-斯里瓦斯塔瓦(Ashok Srivastava)说:"我完全预计成本将归零,"Intuit公司一直在其税务和会计软件产品(如TurboTax和Quickbooks)中大力推广人工智能。"......延迟将归零。它们将成为我们可以使用的基本功能。"

结论:商业人工智能的未来是开放、廉价和数据驱动的

OpenAI 的 DeepSeek 和 Deep Research 不仅仅是人工智能武器库中的新工具,它们还是一场深刻变革的标志,在这场变革中,公司将部署大量专门构建的模型,这些模型成本效益极高、能力出众,并且植根于公司自身的数据和方法。

对于企业来说,信息是明确的:构建强大的特定领域人工智能应用的工具就在眼前。如果不利用这些工具,就有可能落后。但是,真正的成功将来自于您如何整理数据、利用 RAG 和提炼等技术,以及在预训练阶段之外的创新。

正如 AmEx 的 Packer 所说:能够正确管理数据的公司将引领下一波人工智能创新浪潮。

法比奥-劳里亚

首席执行官兼创始人 |Electe

作为Electe 公司的首席执行官,我帮助中小企业做出数据驱动型决策。我撰写有关商业领域人工智能的文章。

最受欢迎
注册获取最新消息

在您的收件箱中接收每周新闻和见解
。不要错过

谢谢!您提交的材料已收到!
哎呀!提交表格时出了点问题。