AIGC困局与Web3破圈之道

2022-11-15 09:00:28来源：互联网

文章导读: 作者 | Wheart Twitter | 文心最近一年，随着 AIGC（AI-Generated Content）技术的发展壮大，越来越多的人感受到了它的恐怖之处。AI 降低了创作门槛，使每个普通人都有机会展现自己的创造力，做出 ...

AIGC困局与Web3破圈之道

作者 | Wheart

Twitter | 文心

最近一年，随着 AIGC（AI-Generated Content）技术的发展壮大，越来越多的人感受到了它的恐怖之处。AI 降低了创作门槛，使每个普通人都有机会展现自己的创造力，做出不输专业水平的作品。但是就在全民 AI 作图的进程中，艺术家好像与其站在了对立面。

以 Stable Diffusion 和 Midjourney 为代表的业内巨头经常受到艺术家们的集体抵制！究其原因无非两点：一是这些模型在未经允许的情况下使用艺术家的作品进行训练，做出的图片与艺术家风格极其类似，涉嫌侵权；二是某些传统艺术家认为，AI 只是对图片进行简单的拼接，不能算是艺术，它的滥用导致艺术市场震荡，出现“劣币驱逐良币”的现象。

综合来看，现在的 AIGC 市场就像一个怀揣着炸弹的巨人，外表看过去非常强大，但是内部有尚未解决的致命威胁，如果这个威胁不解除，行业发展终究受限，本文将详细聊聊出现这种情况的前因后果，并给出可能的解决方案。

最近越来越多的画家发现，Stable Diffusion 等 AIGC 模型使用的数据集里有自己的作品，并且这里不乏作者经过数十年的摸索形成的具有自己独特的风格画作，现在人们可以利用 AI 几秒钟生成相同风格的内容，这对艺术家来说显然是不公平的。

AIGC困局与Web3破圈之道

这引发了艺术家非常严重的担忧：他们自己的艺术正在被用来训练一个有朝一日可能会影响他们生计的计算机程序。更急迫的是，任何使用 Stable Diffusion 或 DALL-E 等系统生成图像的人都拥有对生成图像的版权和所有权（具体条款会有所不同）。一位插画师对此解释道：人们会使用 AI 生成图书封面、文章插图等内容，这将威胁他们的生计，毕竟站在购买者视角，当你可以免费在 1000 张图里挑来挑去时，为什么要付 1000 美元给创作者？况且这些艺术家都是在不知情的情况下进行的。

对于这个问题，Stability AI 创始人兼首席执行官 Emad Mostaque 表示，艺术只是 Stable Diffusion 背后的 LAION 训练数据的一小部分，艺术类图片占数据集的比例远低于 0.1%，并且只有在用户选择调用时才会创建。但是一些搜索工具收集的数据表明，在世艺术家的很多画作都在数据集之中，几千张画作的情况并不少见。

技术是原罪？

这个问题的出现不是偶然，而是必然，也是 AI 发展无法绕开的问题，要想详细了解缘由，我们或许可以通过 AIGC 技术原理与发展路径窥探一二。

AIGC是利用人工智能技术来生成内容。2021 年之前，AIGC生成的主要还是文字（代写文章），而新一代模型可以处理的格式内容包括：文字、声音、图像、视频、动作等等。AIGC 被认为是继专业生产内容（PGC，professional-generated content）、用户生产内容（UGC，User-generated content）之后的新型内容创作方式，可以在创意、表现力、迭代、传播、个性化等方面，充分发挥技术优势。2022 年 AIGC 发展速度惊人，年初还处于技艺生疏阶段，几个月之后就达到专业级别，足以以假乱真。

2014年提出的“对抗生成网络”GAN（Generative Adverserial Network)是前些年大热的深度学习模型，也可以算作AIGC的实用框架（去年年底还是主流的研究内容）。

GAN 的基本原理其实非常简单，这里以生成图片为例进行说明。假设我们有两个网络，G（Generator）和 D（Discriminator）。正如它的名字所暗示的那样，G 是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。D 是一个判别网络，判别一张图片是不是“真实的”。它的输入参数是 x，x 代表一张图片，输出 D(x) 代表x为真实图片的概率，如果为1，就代表100%是真实的图片，而输出为0，就代表不可能是真实的图片。在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络 D。而 D 的目标就是尽量把G生成的图片和真实的图片分别开来。这样，G 和 D 构成了一个动态的“博弈过程”。最后博弈的结果是什么？在最理想的状态下，G 可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定 G 生成的图片究竟是不是真实的，因此 D(G(z)) = 0.5。

这样我们的目的就达成了：我们得到了一个生成式的模型G，它可以用来生成图片。

但是 GAN 有三个不足：一是对输出结果的控制力较弱，容易产生随机图像；二是生成的图像分别率较低；三是由于 GAN 需要用判别器来判断生产的图像是否与其他图像属于同一类别，这就导致生成的图像是对现有作品的模仿，而非创新。因此依托 GAN 模型难以创作出新图像，也不能通过文字提示生成新图像。

AIGC困局与Web3破圈之道

在 2021 年，OpenAI 团队将跨模态深度学习模型 CLIP（Contrastive Language-Image Pre-Training）进行开源。CLIP 模型能够将文字和图像进行关联，首先收集4亿未清洗的图像+文本pair的数据集，进行预训练以完成任务。用对比学习目标进行训练：分别对图像和文本编码（文本是一整句话），然后两两计算cosine相似度，再针对每个图片的一行或文本的一列进行分类，找出匹配的正例。每个图像都有32,768个文本候选，是SimCLR的两倍，负例个数的增多也是效果好的原因之一。在预测时也很简单，找一个图像分类的数据集，把label转为自然语言，比如“狗”可以转为“一张狗的照片”。再用预训练好的编码器对label和图像编码，再去计算相似度即可。

算法的总体过程可以总结为：输入图片，预测在32768个随机采样的文本片段集中，哪一个实际上与数据集配对。因为是文本描述不是具体的类别，所以可以在各种图像分类任务上进行zero-shot，其中Zero-Shot是一种迁移学习，描述一只斑马，可以用“马的轮廓+虎的皮毛+熊猫的黑白”，生成新的类别，普通的有监督分类器都可以将马、老虎、熊猫的图片正确分类，但遇到没有学习过的斑马的照片却无法分类，但是斑马却和已分类的图像有共同点，可以推理出这一新的类别。

所以思路就是：设置类别更细粒度的属性，以建立测试集与训练集之间的联系。比如将马的特征向量转换到语义空间，每一维代表一个类别的描述，【有尾巴1，马的轮廓1，有条纹0，黑白0】，熊猫就是【有尾巴0，马的轮廓0，有条纹1，黑白1】，这样定义一个斑马的向量，通过对比输入图片的向量与斑马向量之间的相似度就可以进行判别。

因此，CLIP 模型具备两个优势：一方面同时进行自然语言理解和计算机视觉分析，实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练，CLIP 模型广泛利用互联网上的图片，这些图片一般都带有各种文本描述，成为CLIP 天然的训练样本。据统计，CLIP 模型搜集了网络上超过 40 亿个“文本-图像”训练数据，这为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。

AIGC困局与Web3破圈之道

随后出现的 Diffusion 扩散模型，则真正让文本生成图像的 AIGC 应用为大众所熟知，也是2022 年下半年 Stable Diffusion 应用的重要技术内核。

扩散模型的灵感来自于非平衡热力学。定义了一个扩散步骤的马尔可夫链（当前状态只与上一时刻的状态有关），慢慢地向真实数据中添加随机噪声（前向过程），然后学习反向扩散过程（逆扩散过程），从噪声中构建所需的数据样本。

AIGC困局与Web3破圈之道

前向过程是不断加噪的过程，加入的噪声随着时间步增加增多，根据马尔可夫定理，加噪后的这一时刻与前一时刻的相关性最高也与要加的噪音有关（是与上一时刻的影响大还是要加的噪音影响大，当前向时刻越往后，噪音影响的权重越来越大了，因为刚开始加一点噪声就有效果，之后要加噪声越来越多）

逆向过程是从一个随机噪声开始，逐步还原成不带噪音的原始图片——去噪并实时生成数据。这里我们需要知道全部的数据集，所以需要学习一个神经网络模型（目前主流是U-net + attention结构）来近似这些条件概率，来运行反向扩散过程。

AIGC困局与Web3破圈之道

Diffusion 模型有两个特点：一方面，给图像增加高斯噪声，通过破坏训练数据来学习，然后找出如何逆转这种噪声过程以恢复原始图像。经过训练，该模型可以从随机输入中合成新的数据。另一方面，Stable Diffusion 把模型的计算空间从像素空间经过数学变换,降维到一个可能性空间的低维空间里，这一转化大幅降低了计算量和计算时间，使得模型训练效率大大提高。这算法模式的创新直接推动了AIGC技术的突破性进展。

AIGC困局与Web3破圈之道