首页AI 新闻
Stable Diffusion 的诉讼案或将引发 AI 界地震
6

Stable Diffusion 的诉讼案或将引发 AI 界地震

好说新闻
好说新闻
2023-04-05 15:48
当我要求软件在麦当劳招牌前画“米老鼠”时,它生成了你在上面看到的图片。

Stable Diffusion 可以做到这一点,因为它是在从网络上收集的数亿张示例图像上进行训练的。其中一些图像属于公有领域,或者在知识共享等许可下发布。许多其他人则不然,世界上的艺术家和摄影师对此并不满意。

今年一月,三位视觉艺术家对创建Stable Diffusion的初创公司Stability AI提起集体版权诉讼。今年2月,图片授权巨头盖蒂(Getty)提起了自己的诉讼。

“Stability AI已经从Getty Images的收藏中复制了超过12万张照片,以及相关的标题和元数据,未经Getty Images许可或补偿,”Getty在其诉讼中写道。

生成人工智能是一项新技术,法院从未就其版权影响作出裁决。有一些强有力的论据认为,版权的合理使用原则允许Stability AI使用这些图像。但另一方面也有强有力的论据。法院很有可能裁定Stability AI大规模违反版权法。

对于这个仍处于起步阶段的行业来说,这将是一场法律地震。构建尖端的生成式人工智能需要从数千甚至数百万版权所有者那里获得许可。这个过程可能非常缓慢和昂贵,只有少数大公司能够负担得起。即便如此,由此产生的模型也可能没有那么好。较小的公司可能会完全被排除在行业之外。

“复杂的拼贴工具”?

集体诉讼的原告将 Stable Diffusion 描述为一种“复杂的拼贴工具”,其中包含其培训图像的“压缩副本”。如果这是真的,这个案子对原告来说将是一个致命一击。

但加州大学伯克利分校(University of California, Berkeley)的计算机科学家埃里克·华莱士(Erik Wallace)表示,这种说法存在“技术上的不准确之处”,并且“大大夸大了真相”。

华莱士指出,Stable Diffusion 的大小只有几个G——太小了,无法包含所有甚至非常多的训练图像的压缩副本。 实际上,Stable Diffusion 的工作原理是首先将用户的提示转换为潜在表示:汇总图像内容的数字列表。

正如您可以根据纬度和经度识别地球表面上的点一样,Stable Diffusion 根据图像在“图像空间”中的“坐标”来表征图像。然后,它将这种潜在表示转换为图像。

如果你让稳定扩散画“海滩上的金毛猎犬水彩画”,它会产生一幅类似于这张图片左上角的图片。为此,它首先将提示转换为相应的潜在表示形式,即汇总图片中应该存在的元素的数字列表。也许第 17 位的正值表示狗,第 54 位的负数表示海滩,第 73 位的正值表示水彩画,依此类推。

我只是为了说明目的而编造了这些数字;真正的潜在表征更为复杂,人类不容易解释。但是,无论如何,都会有一个与提示相对应的数字列表,稳定扩散使用这种潜在表示来生成图像。

其他三个角的图片也是由稳定扩散使用以下提示生成的:

  • 右上:“一碗水果的静物数码单反相机照片”
  • 左下:“星夜风格的埃菲尔铁塔”
  • 右下:“摩天大楼的建筑草图”

六乘六网格的要点是说明稳定扩散的潜在空间是连续的;该软件不仅可以绘制狗或一碗水果的图像,还可以绘制“介于”狗和一碗水果之间的图像。例如,第一排的第三张照片描绘了一只略带水果味的狗坐在蓝色盘子上。

或者沿着底行看。当你从左到右移动时,建筑的形状逐渐从埃菲尔铁塔变为摩天大楼,而风格从梵高的画作变为建筑素描。

稳定扩散潜在空间的连续性使软件能够为其训练数据中没有的概念生成潜在表示,从而生成图像。在Stable Diffusion的训练集中可能没有“以'星夜'风格绘制的埃菲尔铁塔”图像。但是有很多埃菲尔铁塔的图像,另外还有许多“星夜”的图像。稳定扩散从这些图像中学习,然后能够产生反映这两个概念的图像。

Stable Diffusion的训练模式

Stable Diffusion 是如何学会做到这一点的?

新手画家可能会去艺术博物馆,尝试制作名画的精确复制品。前几次尝试不会很好,但每次尝试她都会变得更好一点。如果她坚持足够长的时间,她就会掌握她复制的画作的风格和技巧。

训练像Stable Diffusion这样的图像生成网络的过程是相似的,只是它发生在更大的规模上。训练过程使用一对网络,旨在首先将图像映射到潜在空间,然后仅使用其潜在表示来重现原始图像。

就像新手画家一样,该系统最初做得很糟糕;网络生成的第一个图像看起来像随机噪声。但是在每张图像之后,软件会根据其成功或失败进行评分并调整其参数,以便在下一张图像上做得稍微好一点。

这里的关键词是:每个训练图像应该只对网络的行为产生很小的影响。该网络学习狗、海滩、水彩画等的一般特征。但它不应该学习如何重建任何特定的训练图像。这样做被称为“过拟合”,网络设计师努力避免它。

这很重要,因为版权法保护创造性表达,但不保护世界事实。你可以对狗的特定画作进行版权保护,但你不能对狗有两只眼睛、四条腿、一条尾巴等的事实进行版权保护。因此,避免过度拟合的网络将建立在更安全的法律基础上。

合理使用案例

在 2000 年代中期,谷歌开始扫描图书馆中的书籍以创建图书搜索引擎。作者的回应是起诉谷歌及其图书馆合作伙伴侵犯版权。

谷歌辩称其扫描是合理使用,强调扫描的书籍永远不会向用户显示。在2014年和2015年的两项裁决中,上诉法院支持谷歌及其图书馆合作伙伴。“单词搜索的结果在目的,特征,表达,含义和信息上与绘制它的页面(和书籍)不同,”法院在2014年的裁决中认为。

其他版权裁决也指向了同一个方向。2009年,另一个上诉法院驳回了针对反剽窃服务TurnItIn的版权诉讼。学生们提起诉讼,辩称该公司未经许可保留他们的论文副本侵犯了他们的版权。法院不同意,指出Turnitin从未发表过学生的论文,而且该服务不能替代论文。

简而言之,法律学者马修·萨格(Matthew Sag)所说的对受版权保护作品的非表达性使用提供了很大的回旋余地,即受版权保护的作品只能由计算机程序而不是人类“读取”的用途。

Stability AI尚未对这些诉讼做出回应,但我采访过的专家希望该公司将Stable Diffusion与Google Book Search和TurnItIn等服务进行比较。它可能会指出,训练图像只能由计算机程序“查看”,而不是人类。包括Sag在内的一些专家认为,这应该是稳定性AI的一个成功论据。

我不太确定。正如我们所看到的,“非表达性使用”辩护的一个关键假设是,Stable Diffusion只从其训练图像中学习不受版权保护的事实,而不是创造性表达。这基本上是真的。但这并不完全正确。这些例外可能会使Stability AI的法律辩护大大复杂化。

不仅仅是 Stable Diffusion

Stable Diffusion是一个开源产品,已被整合到其他图像生成工具中,包括Midjourney。Midjourney还被列为针对Stability AI的集体诉讼的被告。

OpenAI和微软也面临着GitHub Copilot的诉讼,GitHub Copilot是一种源自OpenAI的GPT-3的代码完成AI。这些公司因使用受版权保护的文本来训练 ChatGPT 和 GPT-4 而面临诉讼可能只是时间问题。OpenAI的DALL-E,谷歌的Bard和其他生成AI系统也可能容易受到诉讼,如果原告能够证明他们接受过受版权保护的材料的培训。

如果原告赢了——这似乎是一个可能性——这将使这个新兴行业陷入混乱。许多(甚至可能是大多数)提供生成图像和语言模型的公司可能被迫关闭它们。公司将争先恐后地收集公共领域和许可数据集。

像谷歌、微软和Meta这样的大公司在这方面将具有固有的优势。他们不仅有现金与Getty等主要版权所有者签署许可协议,还可能获得使用用户数据来训练模型的许可。

我认为长期结果将是进一步巩固这些大型科技公司。由于在研发方面的大量支出,他们中的一些人已经在这项新兴技术中处于领先地位。但他们面临着来自Stability AI等竞争对手的竞争,Stability AI是一家以约600万美元成功训练Stable Diffusion的初创公司。

但如果公司输掉这些诉讼,训练尖端模型的成本将大幅上升。新公司实际上可能不可能与现有公司竞争来培训新车型。这并不意味着人工智能初创公司的终结——大公司可能会授权他们的模型供小公司使用。但这将代表行业结构的巨大变化。

全部讨论

no data来都来了,坐下聊聊