隐形产业让 ChatGPT、稳定扩散和其他所有现代人工智能系统成为可能
人工智能最隐秘的地方
当您使用 ChatGPT 撰写电子邮件或使用 Midjourney 生成图片时,您很少会想到人工智能 "神奇 "的背后是什么。然而,在每一个智能回复和每一张生成的图片背后,都隐藏着一个数十亿美元的产业,但却很少有人提及:人工智能训练数据市场。
根据MarketsandMarkets的数据,到 2029 年,这一领域的产值将达到95.8 亿美元,年增长率为 27.7%,是现代人工智能的真正引擎。但这一隐藏业务究竟是如何运作的呢?
移动数十亿人口的隐形生态系统
商业巨头
在人工智能训练数据领域,有几家公司占据着主导地位,但大多数人却从未听说过它们:
Scale AI 是业内最大的公司,拥有28% 的市场份额,在获得 Meta 的投资后,其估值最近达到了290 亿美元。他们的企业客户每年为高质量数据支付10 万至数百万美元不等的费用。
总部位于澳大利亚的Appen 公司运营着一个由170 个国家100 多万名专家组成的全球网络,这些专家为人工智能手动标记和整理数据。Airbnb、约翰迪尔(John Deere)和宝洁(Procter & Gamble)等公司利用他们的服务来 "教授 "人工智能模型。
开源世界
与此同时,还有一个由LAION(大规模人工智能开放网络)等组织领导的开源生态系统。LAION是德国的一个非营利组织,它创建了LAION-5B,这个包含58.5 亿个图像-文本对的数据集使稳定扩散成为可能。
Common Crawl每月发布数 TB 的原始网络数据,用于训练 GPT-3、LLaMA 和许多其他语言模型。
人工智能的隐性成本
公众不知道的是,训练一个现代人工智能模型的成本已经变得多么昂贵。根据Epoch AI 的数据,在过去八年里,成本每年增长2-3 倍。
实际成本实例:
- 谷歌双子座 1.0 Ultra:约 1.92 亿美元
- GPT-4:估计超过 1 亿美元
- 未来预测:到 2027 年超过 10 亿美元
最令人惊讶的数字是什么?根据AltIndex.com 的数据,自 2020 年以来,人工智能培训成本增加了 4300%。
该部门面临的道德和法律挑战
版权问题
最具争议的问题之一涉及版权材料的使用。2025 年 2 月,特拉华州法院在汤森路透诉 ROSS Intelligence一案中裁定,人工智能培训可直接构成版权侵权,驳回了 "合理使用 "的辩护理由。
美国版权局发布了一份长达 108 页的报告,认为某些用途不能作为合理使用进行辩护,这为人工智能公司潜在的巨额许可成本铺平了道路。
隐私和个人数据
麻省理工学院技术评论》的一项调查显示,最广泛使用的数据集之一 DataComp CommonPool 包含数百万张护照、信用卡和出生证明的图像。在过去两年中,下载次数超过了 200 万次,这引发了巨大的隐私问题。
未来:稀缺与创新
峰值数据问题
专家预测,到2028 年,大部分人工生成的在线公共文本都将被使用。这种 "数据峰值 "的情况正促使企业寻求创新的解决方案:
- 合成数据:人工生成训练数据
- 许可协议:战略合作伙伴关系,如 OpenAI 与《金融时报》之间的协议
- 多模态数据:文本、图像、音频和视频的组合
新法规即将出台
加州人工智能透明度法案》将要求公司披露用于培训的数据集,而欧盟正在《人工智能法案》中实施类似的要求。
意大利企业的机遇
对于希望开发人工智能解决方案的公司来说,了解这一生态系统至关重要:
经济实惠的选择
- 拥抱的脸:50,000 多个免费数据集
- 开放源码数据集:用于实验项目的 Common Crawl、LAION、MS COCO
企业解决方案:
- 人工智能和Appen可扩展关键任务项目
- 专业服务:如用于 NLP 的 Nexdata 或用于音频数据的 FileMarket AI
结论
人工智能训练数据市场价值 95.8 亿美元,并以每年 27.7% 的速度增长。这一隐形产业不仅是现代人工智能的引擎,也是当代最大的道德和法律挑战之一。
在下一篇文章中,我们将探讨企业如何具体进入这个世界,并提供一份实用指南,帮助企业利用当前可用的数据集和工具开始开发人工智能解决方案。
对于那些现在就想了解更多信息的人,我们编制了一份详细的指南,其中包括实施路线图、具体成本和完整的工具堆栈--可通过订阅时事通讯免费下载。
立即开始使用的实用链接:
技术来源:
- 拥抱脸部文档
- PyTorch 教程
- TensorFlow 指南
- 带代码的论文(SOTA 模型 + 数据集)
-
不要等待 "人工智能革命"。创造它。一个月后,当别人还在计划时,你可能已经有了自己的第一个工作模型。


