Newsletter

创造力悖论:人工智能、版权和人类的未来

"我不觉得受宠若惊。我觉得我多年积累的东西被偷走了"--格雷格-鲁特科夫斯基(Greg Rutkowski),他的名字出现在 120 万条稳定扩散提示中。吉卜力风格 "揭示了真正的区别:梵高理解日本美学原则,而人工智能则提取像素之间的统计相关性。斯坦福大学的研究表明,模型在 3% 的时间内会重新生成几乎完全相同的图像。这不是灵感,而是记忆。超过 25 万名艺术家采用 Glaze 和 Nightshade 来保护自己。

人类创造力与人工创造力:区别究竟在哪里(以及吉卜力风格为何能给我们一些启示)

2024-2025 年,关于人工智能和版权的讨论急剧升温。这不再是理论上的讨论:《纽约时报》起诉 OpenAI 侵犯版权(2023 年 12 月),盖蒂图片公司(Getty Images)起诉稳定人工智能公司(Stability AI),数千名艺术家提起集体诉讼。人工智能公司回应说,他们的系统会像人类一样 "学习",但事实真的如此吗?

人类的创造力总是通过联系发展起来的:莎士比亚从历史编年史和民间故事中获得灵感,梵高研究日本版画,披头士乐队从演奏美国摇滚乐开始。艺术家总是重新诠释以前的作品。科技公司说,人工智能也是如此。但 "吉卜力风格 "的案例揭示了这种说法是多么简单。

吉卜力案例:当风格变成争议

在 "Midjourney "或 "DALL-E "中输入 "吉卜力风格",你会看到与宫崎骏名作惊人相似的画面:粉嫩的色彩、蓬松的云朵、梦幻般的风景、大眼睛的人物。这在技术上令人印象深刻。这也是一个深刻的问题。

吉卜力工作室花了几十年的时间来发展这种独特的美学:精确的色调选择、传统的动画技术以及植根于日本文化和宫崎骏个人理念的艺术哲学。当人工智能模型在几秒钟内就能复制出这种 "风格 "时,它真的是在 "学习 "宫崎骏从迪斯尼动画和日本漫画中学到的东西吗?还是只是未经许可,将从吉卜力成千上万帧动画中提取的视觉模式重新组合?

这种差异不是哲学上的,而是法律和经济上的。根据发表在 arXiv 上的斯坦福分析(Carlini 等人,2023 年),稳定扩散(Stable Diffusion)等扩散模型在受到特定提示时,能在约 3% 的情况下从训练集中再生出几乎相同的图像。这不是 "灵感",而是存储和复制。

波兰数字艺术家格雷格-鲁特科夫斯基(Greg Rutkowski)发现,他的名字出现在稳定扩散(Stable Diffusion)网站上的 120 万条提示中--无意中成为了被要求最多的 "风格 "之一,但他从未表示过同意,也没有得到任何补偿。他对《麻省理工科技评论》说:"我不觉得受宠若惊。我觉得我多年打造的东西被人偷走了。

教育之争:2024-2025 年的数字

人工智能训练的规模已达到前所未有的程度。LAION-5B 是最广泛使用的图像模型数据集之一,包含从互联网上收集的 58.5 亿个图像-文本对,其中包括受版权保护的作品。GPT-4 是在互联网的大量内容上进行训练的,其中包括付费文章、书籍和专有软件代码。

正在进行的重大法律诉讼:

  • 纽约时报》诉 OpenAI/微软(2023 年 12 月):要求数十亿美元的损害赔偿,指控其对数十年来受保护的文章进行 GPT 培训
  • Getty Images vs Stability AI(2023 年 2 月):被指控无证使用 1200 多万张 Getty 图片
  • 艺术家集体起诉Stability AI/Midjourney/DeviantArt(2023 年 1 月):数千名艺术家起诉系统性版权侵权行为
  • 环球音乐诉 Suno 和 Udio(2024 年 6 月):音乐生成平台被控对受保护目录进行培训

人工智能公司援引美国法律中的 "合理使用 "条款为这种做法辩护:他们认为培训是 "变革性的",并没有取代原有市场。但多家法院正在对这一解释提出质疑。

凯瑟琳-福雷斯特(Katherine Forrest)法官在 2024 年 1 月审理盖蒂诉稳定人工智能公司案时,驳回了驳回动议,允许继续审理此案:"人工智能模型的训练是否构成合理使用的问题非常复杂,需要对事实进行彻底审查。翻译:人工智能公司不能简单地援引合理使用就了事。

贸易协定:市场解决方案应运而生

面对法律压力,人工智能公司开始就许可证问题进行谈判。OpenAI 已经与以下公司签订了协议

  • 美联社(2023 年 7 月):以许可证换取新闻档案
  • Axel Springer(2023 年 12 月):同意使用 Politico、Business Insider 的内容
  • 金融时报》(2024 年 4 月):培训内容许可证
  • 新闻集团(2024 年 5 月):交易金额 2.5 亿美元,为期 5 年,可访问《华尔街日报》、《巴伦周刊》和《纽约邮报

谷歌也与 Reddit、Stack Overflow 和多家出版商签署了类似协议。Anthropic 与出版商就书籍的使用进行了谈判。

但这些协议只适用于有谈判能力的大型出版商。数以百万计的个人创作者--艺术家、摄影师、自由撰稿人--在已经完成的培训中使用的作品仍然得不到补偿。

人工学习与机器学习:真正的区别(超越统计学)

人工智能像人类一样学习 "的说法在技术上具有误导性。让我们看看两者的根本区别:

规模和速度:人类艺术家一生中可能要研究成百上千件作品。GPT-4 已在数万亿单词上进行过训练。在数十亿幅图像上进行稳定扩散。这种规模是无法比拟的,超出了 "灵感 "的任何合理定义。

语义理解:梵高在研究日本版画时,并不是机械地照搬其视觉模式--他理解其基本美学原则(负空间的使用、不对称构图、对自然的强调),并通过他的欧洲后印象派视角对其进行了重新诠释。他的作品是有意识的文化综合体。

人工智能模型没有人类意义上的'理解'。正如圣达菲研究所教授梅兰妮-米切尔(Melanie Mitchell)在她的《人工智能:思考人类指南》(Artificial Intelligence: A Guide for Thinking Humans)一书中所解释的那样:"深度学习系统擅长模式识别,但缺乏因果理解、抽象推理或对世界的心智模型。稳定扩散 "并不'理解'吉卜力的与众不同之处--它只是在数百万个标有'吉卜力风格'的像素点之间提取统计相关性。

创作意图:人类艺术家会根据个人愿景、想要传达的信息以及想要唤起的情感,做出有意识的创作选择。宫崎骏将环保主题、和平主义、女权主义融入他的电影--有意识的道德和艺术选择。

人工智能根据统计概率生成:"给定提示 X 和训练集 Y,哪个像素配置最有可能?没有意图,没有信息,没有愿景。正如特德-蒋(Ted Chiang)在《纽约客》(The New Yorker)杂志上写道:"ChatGPT 是一张模糊的网络图片"--一种有损压缩,恰恰失去了使原始内容具有价值的特质。

改造与重组:巴勃罗-毕加索研究非洲面具,却创造了立体主义--一场全新的艺术运动,重塑了绘画的空间表现形式。这种转变是彻底的、独创的。

生成式人工智能模型通过在潜在空间进行插值来运行:它们将训练集的元素重新组合成新的配置,但仍然受限于它们所训练的数据的统计分布。它们无法创造出违反已学统计规律的真正的新美学。正如麻省理工学院的研究(Shumailov 等人,2023 年)所证明的那样,根据以前的人工智能输出结果反复训练的模型会逐渐退化--这种现象被称为 "模型崩溃"。

原创性 "人工智能的悖论

这就是核心悖论所在:人工智能可以生成看似原创的输出结果(人类从未见过吉卜力风格的特定图像),但在统计上却是衍生的(它们是对现有模式的插值)。这是一种表面形式的原创,没有根本性的创新。

这具有深远的影响。正如哲学家约翰-塞尔(John Searle)在其著名的 "中式房间论证 "中提出的观点:模拟认知过程并不等于拥有认知过程。人工智能可以模拟创造力,但不具备人类意义上的创造力。

新兴技术和监管解决方案

面对争议,人们正在制定各种解决方案:

艺术家的保护工具:

  • Glaze(芝加哥大学):对图像进行难以察觉的扰动,"欺骗 "试图学习图像风格的人工智能模型的软件
  • Nightshade(同一团队):攻击性版本,可 "毒化 "训练数据,破坏未经许可使用数据的模型
  • 第一年就有超过 25 万名艺术家采用了这些工具

退出登记册:

  • 我是否被训练过(催生人工智能):数据库允许艺术家检查他们的作品是否在 LAION 和其他数据集中,并有退出机制。
  • 一些较新的机型尊重这些选择退出(Stability AI 已宣布部分符合要求)

补偿框架:

  • 催生人工智能许可证:当作品被用于训练时补偿艺术家的微型许可证系统
  • 仍处于试验阶段,未被广泛采用

政府法规:

欧盟人工智能法》(2024 年 8 月生效)要求人工智能生成模型的提供者公布所使用的受版权保护的训练数据的详细摘要。这是监管部门首次尝试实施透明化。

田纳西州的《ELVIS 法案》(2024 年 3 月)专门保护语音和肖像表演者,使其免受未经授权的使用,该法案是美国首个针对深度语音和视觉伪造进行专门立法的州。

向美国国会提出的建议包括要求明确选择版权作品(而不是选择退出),以及建立培训数据集公共登记册。

创造力的未来:混合还是替代?

两种对未来的憧憬相互对峙:

乐观观点(人工智能公司):人工智能是一种放大人类创造力的工具,就像 Photoshop 或音乐合成器一样。艺术家将利用人工智能加速工作流程、探索变化、克服创作障碍。混合艺术形式将会出现,人类指导视觉,人工智能执行技术部分。

具体的例子已经存在:电影《寒霜》(2023 年)使用人工智能生成背景和纹理,并由人类艺术家指导艺术方向。音乐家使用 Suno 和 Udio 生成伴奏音轨,以便即兴创作。作家将 GPT 作为 "橡皮鸭 "来讨论叙事创意。

悲观观点(许多创作者):人工智能将使创意商品化,侵蚀创意工作的经济价值,直到只有拥有卓越技能的精英才能生存。平均创造力 "将被廉价的生成器所取代,摧毁富有创造力的中产阶级--就像 19 世纪工业自动化淘汰工匠一样。

初步证据支持了这种担忧:在 Fiverr 等自由职业平台上,2023 年对插画师和文案的需求下降了 21%(Fiverr 2023 年第四季度数据),而 "人工智能艺术创作 "的需求却呈爆炸式增长。自从格雷格-鲁特科夫斯基(Greg Rutkowski)的风格在 "稳定扩散"(Stable Diffusion)上流行起来后,他的直接佣金下降了 40%。

事实可能介于两者之间:某些形式的创意工作将实现自动化(通用的插图、基本的文案营销),而高度原创、概念性、文化根植性的创意仍将是人类的领域。

最后的思考:完美模仿时代的真实性

区分人类内容和人工智能内容将变得越来越困难。如今,在没有水印或信息披露的情况下,通常无法区分 GPT-4 文本与人类文本,或 Midjourney 图像与照片。当 Sora(OpenAI 视频生成器)公开后,这种区分将扩展到视频。

这引发了关于真实性的深刻问题。如果人工智能生成的吉卜力风格图像能唤起与原作相同的情感,那么它是否具有相同的价值?哲学家沃尔特-本雅明(Walter Benjamin)在他的《技术可复制时代的艺术作品》(1935 年)中认为,机械复制会侵蚀原作的 "灵气"--它在时空上的独特性和真实性。

生成式人工智能将这一论点发挥到了极致:它不是复制现有作品,而是生成无穷无尽的变体,这些变体模拟原作,但又不是原作。这就是鲍德里亚式的模拟--没有原作的复制品。

然而,有意识的创造性行为中也有一些不可复制的人类特质:艺术家选择每一个笔触时都知道他想要传达什么;作家精心创作每一个句子以唤起特定的情感;作曲家有意识地营造张力和决断力。人工智能可以模拟结果,但无法模拟过程,而创造力的真正价值或许就在于过程。

吉卜力工作室在一份声明(2023 年 11 月)中写道:"我们电影的灵魂不在于可以复制的视觉风格,而在于我们一帧一帧为我们想要讲述的故事而做出的创造性决定。这是无法自动化的"。

艺术的价值归根结底来自于它能够与人类的经历产生深刻的联系,让我们感到被理解、被挑战、被改变。人工智能能否实现这一点仍是一个未决问题。但是,只要艺术是人类为人类创造的,是对人类境况的诉说,它就会保留任何算法都无法复制的东西:将生活经验的真实性转化为审美形式。

资料来源

  • 卡利尼、尼古拉斯等人--《从扩散模型中提取训练数据》,arXiv:2301.13188 (2023)
  • 米切尔、梅兰妮--《人工智能:思考型人类指南》(2019年)
  • Chiang,Ted--《ChatGPT 是一张模糊的网络 JPEG》,《纽约客》(2023 年 2 月)
  • Shumailov, Ilia 等人 - 《递归的诅咒:对生成数据的训练使模型遗忘》,arXiv:2305.17493 (2023)
  • 麻省理工科技评论》--"这位艺术家正在主宰人工智能生成的艺术。 他对此并不满意"(2022 年 9 月)
  • 欧盟人工智能法--条例(欧盟)2024/1689
  • 本雅明、沃尔特--《技术可复制时代的艺术作品》(1935 年)
  • 公共记录诉讼:纽约时报诉 OpenAI、盖蒂诉稳定人工智能
  • Fiverr 2023 年第四季度盈利报告

促进业务增长的资源