如何训练人工智能模型
人工智能模型的训练是当代技术发展中最复杂的挑战之一。模型的有效训练不仅仅是一个简单的算法问题,它需要一种将数据科学、领域知识和软件工程融为一体的有条不紊的多学科方法。正如詹姆斯-卢克(James Luke)在其开创性著作《超越算法:为企业提供人工智能》中所指出的,人工智能的成功实施更多取决于数据管理和系统设计,而非算法本身。随着 DeepSeek-R1 模型等创新技术重新定义了成本和可访问性,这一领域正在发生迅速变化。
基础:数据收集和管理
质量而非数量
与人们通常认为的相反,数据的数量并不总是成功的决定因素。数据的质量和代表性更为重要。因此,整合不同的数据源至关重要:
- 专有数据:从道德角度收集,并由现有实施机构进行匿名化处理
- 授权数据:来自符合严格质量标准的可靠供应商
- 开放源码数据集:经过仔细核实,确保多样性和准确性
- 合成数据:人工生成,以填补空白并解决隐私问题
这种整合创建了一个全面的培训基地,既能捕捉真实世界的场景,又能维护道德和隐私标准。
数据准备的挑战
数据处理 "过程占人工智能项目所需工作量的 80%。这一阶段包括
- 数据清理:消除不一致、重复和异常值
- 数据转换:转换为适合处理的格式
- 数据整合:融合通常使用不兼容模式和格式的不同数据源
- 处理缺失数据:统计估算或使用替代数据等策略
正如美国运通首席技术官 Hilary Packer指出的那样:"老实说,对我们来说最重要的时刻就是数据。你可以做出世界上最好的模型选择......但数据才是关键。验证和准确性是现在生成式人工智能的圣杯"。
模型结构:正确的尺寸
模型架构的选择必须以要解决的问题的具体性质为指导,而不是以个人倾向或喜好为指导。不同类型的问题需要不同的方法:
- 基于变换器的语言模型,适用于需要深入理解语言的任务
- 用于图像和模式识别的卷积神经网络
- 用于分析实体间复杂关系的图形神经网络
- 优化和决策问题的强化学习
- 针对复杂用例结合多种方法的混合架构
架构优化需要对不同配置进行系统评估,重点是平衡性能和计算要求,而随着 DeepSeek-R1 等模型的出现,这一点变得更加重要,因为这些模型能以更低的成本提供先进的推理能力。
先进的培训方法
蒸馏模型
在当前的人工智能生态系统中,"蒸馏 "已成为一种特别强大的工具。这一过程可以创建更小、更具体的模型,这些模型继承了 DeepSeek-R1 等更大、更复杂的模型的推理能力。
正如DeepSeek的案例所示,该公司将其推理能力提炼到几个较小的模型上,包括Meta的Llama系列和阿里巴巴的Qwen系列的开源模型。这些较小的模型随后可以针对特定任务进行优化,从而加快了快速和专业化模型的发展趋势。
机器学习开发人员 Sam Witteveen 认为:"我们开始进入一个人们使用多种模型的世界。他们不会一直只使用一种模型"。这包括 Gemini Flash 和 GPT-4o Mini 等低成本封闭模型,它们 "在 80% 的使用案例中都能很好地发挥作用"。
多任务学习
多任务学习允许模型在不同功能之间共享知识,而不是针对相关技能训练单独的模型:
- 模型同时优化多个相关目标
- 更广泛地接触不同的任务,使基本功能受益匪浅
- 提高所有任务的性能,尤其是数据有限的任务
- 通过组件共享提高计算效率
监督微调 (SFT)
对于在非常特殊的领域开展业务的公司来说,由于网络或通常用于训练语言模型的书籍中没有广泛的信息,有监督微调(SFT)是一种有效的选择。
DeepSeek 证明,使用 "成千上万 "的问答数据集也有可能取得好成绩。例如,IBM 工程师克里斯-海(Chris Hay)展示了他如何使用自己的数学特定数据集建立一个小型模型,并以极快的速度获得答案,其性能超过了 OpenAI 的 o1 模型在相同任务上的表现。
强化学习 (RL)
希望进一步根据特定偏好训练模型的公司--例如,让客户支持聊天机器人富有同情心但又简洁明了--会希望采用强化学习(RL)技术。如果公司希望聊天机器人根据用户反馈调整语气和建议,这种方法就特别有用。
检索-增强生成(RAG)
对于大多数公司来说,检索-增强生成(RAG)是最简单、最安全的途径。这是一个相对简单的过程,企业可以利用数据库中的专有数据锚定其模型,确保输出结果准确无误且针对特定领域。
根据 Vectara 进行的一项研究,这种方法还有助于抵消 DeepSeek 等模型的一些幻觉问题,目前在 14% 的情况下会出现幻觉,而 OpenAI 的 o3 模型只有 8% 出现幻觉。
对于大多数公司来说,模型提炼和 RAG 的结合是神奇之处,即使是那些在数据科学或编程方面技能有限的人也能轻松实现。
评估和改进:超越准确度指标
有效的人工智能不仅要以原始精度来衡量,还需要一个全面的评估框架,其中要考虑到:
- 功能准确性:模型产生正确结果的频率
- 鲁棒性: 在不同输入和条件下性能的一致性
- 公平性:在不同用户群体和应用场景中实现一致的性能
- 校准:置信度得分与实际准确度之间的一致性
- 效率:计算和内存要求
- 可解释性:决策过程的透明度,DeepSeek 经过提炼的模型在这一方面表现出色,可显示其推理过程
成本曲线的影响
DeepSeek 的发布带来的最直接影响是其积极的降价。技术行业预计成本会随着时间的推移而下降,但很少有人预料到降价会如此之快。DeepSeek 证明,功能强大的开放式模型可以既便宜又高效,为广泛试验和经济高效的实施创造了机会。
Vectara 首席执行官阿姆尔-阿瓦达拉(Amr Awadallah)强调了这一点,他指出,真正的临界点不仅仅是训练成本,还有推理成本,DeepSeek 每个令牌的推理成本约为 OpenAI 的 o1 或 o3 模型的 1/30。"Awadallah说:"OpenAI、Anthropic和谷歌双子星能够获得的利润现在至少要减少90%,因为它们无法在如此高的价格下保持竞争力。
不仅如此,这些成本还将继续降低。Anthropic 首席执行官达里奥-阿莫代(Dario Amodei)最近表示,开发模型的成本将以每年约四倍的速度持续下降。因此,LLM 供应商的收费标准也将继续降低。
Intuit公司的CDO阿肖克-斯里瓦斯塔瓦(Ashok Srivastava)说:"我完全预计成本将归零,"Intuit公司一直在其税务和会计软件产品(如TurboTax和Quickbooks)中大力推广人工智能。"......延迟将归零。它们将成为我们可以使用的基本功能。"
结论:商业人工智能的未来是开放、廉价和数据驱动的
OpenAI 的 DeepSeek 和 Deep Research 不仅仅是人工智能武器库中的新工具,它们还是一场深刻变革的标志,在这场变革中,公司将部署大量专门构建的模型,这些模型成本效益极高、能力出众,并且植根于公司自身的数据和方法。
对于企业来说,信息是明确的:构建强大的特定领域人工智能应用的工具就在眼前。如果不利用这些工具,就有可能落后。但是,真正的成功将来自于您如何整理数据、利用 RAG 和提炼等技术,以及在预训练阶段之外的创新。
正如 AmEx 的 Packer 所说:能够正确管理数据的公司将引领下一波人工智能创新浪潮。