法比奥-劳里亚

人工智能训练数据:助力人工智能的百亿业务

2025 年 9 月 14 日
在社交媒体上分享

隐形产业让 ChatGPT、稳定扩散和其他所有现代人工智能系统成为可能

人工智能最隐秘的地方

当您使用 ChatGPT 撰写电子邮件或使用 Midjourney 生成图片时,您很少会想到人工智能 "神奇 "的背后是什么。然而,在每一个智能回复和每一张生成的图片背后,都隐藏着一个数十亿美元的产业,但却很少有人提及:人工智能训练数据市场

根据MarketsandMarkets的数据,到 2029 年,这一领域的产值将达到95.8 亿美元,年增长率为 27.7%,是现代人工智能的真正引擎。但这一隐藏业务究竟是如何运作的呢?

移动数十亿人口的隐形生态系统

商业巨头

在人工智能训练数据领域,有几家公司占据着主导地位,但大多数人却从未听说过它们:

Scale AI 是业内最大的公司,拥有28% 的市场份额,在获得 Meta 的投资后,其估值最近达到了290 亿美元。他们的企业客户每年为高质量数据支付10 万至数百万美元不等的费用。

总部位于澳大利亚的Appen 公司运营着一个170 个国家100 多万名专家组成的全球网络,这些专家为人工智能手动标记和整理数据。Airbnb、约翰迪尔(John Deere)和宝洁(Procter & Gamble)等公司利用他们的服务来 "教授 "人工智能模型。

开源世界

与此同时,还有一个由LAION(大规模人工智能开放网络)等组织领导的开源生态系统。LAION是德国的一个非营利组织,它创建了LAION-5B,这个包含58.5 亿个图像-文本对的数据集使稳定扩散成为可能。

Common Crawl每月发布数 TB 的原始网络数据,用于训练 GPT-3、LLaMA 和许多其他语言模型。

人工智能的隐性成本

公众不知道的是,训练一个现代人工智能模型的成本已经变得多么昂贵。根据Epoch AI 的数据,在过去八年里,成本每年增长2-3 倍

实际成本实例:

最令人惊讶的数字是什么?根据AltIndex.com 的数据,自 2020 年以来,人工智能培训成本增加了 4300%

该部门面临的道德和法律挑战

版权问题

最具争议的问题之一涉及版权材料的使用。2025 年 2 月,特拉华州法院在汤森路透诉 ROSS Intelligence一案中裁定,人工智能培训可直接构成版权侵权,驳回了 "合理使用 "的辩护理由。

美国版权局发布了一份长达 108 页的报告,认为某些用途不能作为合理使用进行辩护,这为人工智能公司潜在的巨额许可成本铺平了道路。

隐私和个人数据

麻省理工学院技术评论》的一项调查显示,最广泛使用的数据集之一 DataComp CommonPool 包含数百万张护照、信用卡和出生证明的图像。在过去两年中,下载次数超过了 200 万次,这引发了巨大的隐私问题。

未来:稀缺与创新

峰值数据问题

专家预测,到2028 年,大部分人工生成的在线公共文本都将被使用。这种 "数据峰值 "的情况正促使企业寻求创新的解决方案:

  • 合成数据:人工生成训练数据
  • 许可协议战略合作伙伴关系,如 OpenAI 与《金融时报》之间的协议
  • 多模态数据:文本、图像、音频和视频的组合

新法规即将出台

加州人工智能透明度法案》将要求公司披露用于培训的数据集,而欧盟正在《人工智能法案》中实施类似的要求。

意大利企业的机遇

对于希望开发人工智能解决方案的公司来说,了解这一生态系统至关重要:

经济实惠的选择

企业解决方案:

  • 人工智能Appen扩展关键任务项目
  • 专业服务:如用于 NLP 的 Nexdata 或用于音频数据的 FileMarket AI

结论

人工智能训练数据市场价值 95.8 亿美元,并以每年 27.7% 的速度增长。这一隐形产业不仅是现代人工智能的引擎,也是当代最大的道德和法律挑战之一。

在下一篇文章中,我们将探讨企业如何具体进入这个世界,并提供一份实用指南,帮助企业利用当前可用的数据集和工具开始开发人工智能解决方案。

对于那些现在就想了解更多信息的人,我们编制了一份详细的指南,其中包括实施路线图、具体成本和完整的工具堆栈--可通过订阅时事通讯免费下载。

立即开始使用的实用链接:

技术来源:

不要等待 "人工智能革命"。创造它。一个月后,当别人还在计划时,你可能已经有了自己的第一个工作模型。

法比奥-劳里亚

首席执行官兼创始人 Electe

作为Electe 公司的首席执行官,我帮助中小企业做出数据驱动型决策。我撰写有关商业领域人工智能的文章。

最受欢迎
注册获取最新消息

在您的收件箱中接收每周新闻和见解
。不要错过

谢谢!您提交的材料已收到!
哎呀!提交表格时出了点问题。