AIGC：我不是元宇宙的附庸品

2022-11-21 15:26:09来源：互联网

文章导读: “ 生产力如已成熟，想象力还会远吗？ ” 作者 | 陈彩娴编辑 | 岑峰 “ 你们是从什么时候开始注意到人类的？” “当第一个原始人开始仰望星空的时候。” AI 的类人猿，早已开始仰望人类 ...

AIGC：我不是元宇宙的附庸品

“生产力如已成熟，想象力还会远吗？”

作者 | 陈彩娴编辑 | 岑峰

AIGC：我不是元宇宙的附庸品

“你们是从什么时候开始注意到人类的？”

“当第一个原始人开始仰望星空的时候。”

AI 的类人猿，早已开始仰望人类。

01来自机器的审视

在过去短短的两年间，算法从业者王超岳有过两次被 AI 震撼住的时刻。

一次是去年 3 月 OpenAI 祭出人工智能绘画产品 DALL·E 时。只需要在计算机上输入一句话，DALL·E 就能够理解这句话、然后自动生成一幅意思相应的图像，且该图像是全网首发、独一无二。

所有跨越“族群”的交流都是一次文明的突变，来自未明机器系统的回应也让人类感到犹遇 UFO 的震惊与好奇。在人与人的距离越来越远的现代社会，机器却好像能够读懂一个人的内心。

“你能明显感觉到它相比 GAN（2014 年出现的一个 AI 生成网络）的进步。DALL·E 的技术是革命性的。”王超岳告诉雷峰网。

第二次是今年 4 月谷歌发布 5400 亿参数大模型 PaLM 的时候。随着参数的变大，PaLM 的文本理解能力与逻辑推理能力大幅提升，甚至可以用文本解释笑话，告诉读者为什么这个笑话好笑。

在这之前，人们嘲讽 AI 最常用的一句话就是：这个 AI 模型的推理能力很弱，像 3 岁小朋友。但大模型发展至今，已经能做算术、能做逻辑推理，心智已经接近甚至在某些角度超过人类。“比方说，”王超岳举例：“有很多笑话我一时不能理解，但它能给我解释，说明在一些语言理解任务上、它比我还懂。”

王超岳是生成式 AI 的资深研究者，从 2014 年 GAN 发布后就开始关注 AIGC 相关研究，当时 GAN 就是深度生成网络的研究热点，但热度也远远不及 AIGC 这两年的重大突破。上述提到的两项技术，也成为点燃今年下半年 AI 圈狂欢的“导火索”：

DALL·E 背后的关键技术 CLIP 让文字与图片两个模态找到能够对话的交界点，成为 DALL·E、DALL·E 2.0、Stable Diffusion 等突破性 AI 成果的基石；而像 PaLM 这样的语言大模型，虽然烧钱，但其对人类语言的理解能力突飞猛进，是 AI 能读懂人的前提。

“这两年的 AI 技术突破真的非常快。”心辰科技（盗梦师团队）创始人蓝振忠也说道。他读论文经常读到很兴奋、很激动：“CLIP 出来一段时间后，MAE（何恺明团队提出的一种AI范式，可以将在语言任务上表现优秀的能力迁移到视觉任务的处理上）又跟着出来，然后又有 Stable Diffusion……”

今年 8 月 Stable Diffusion 推出以来，蓝振忠与团队很快就跟上、只用了不到一个月的时间就上线 AI 作画产品“盗梦师”，并迅速在国内火起来，出图速度短至 1 秒，而且绘画质量非常高，日留存率接近50%（高于 90% 的小程序），不到两个月就接到了 To B 的大订单。

AIGC：我不是元宇宙的附庸品

“盗梦师”生成的图像作品在盗梦师上线的第二天（9 月 1 日），国内第一本《 AIGC 白皮书》在上海世界人工智能大会（WAIC）发布。王超岳参与了这本白皮书的撰写，并主导了 AIGC 技术体系的梳理和展望。AIGC 白皮书的发布引来大批参会同行的关注。不仅是人工智能领域的研究者，还有元宇宙领域的从业者：“当时红杉资本那篇关于生成式 AI 的文章还没有出来，大家都还不知道 AIGC 是什么。这说明数字内容生成的重要性是行业共识。”再紧接着，一切都很快：技术的突破带来应用的繁荣，Midjourney 在海外火起，文生图的热潮又让人们看到更多原先冷门的 AIGC 分支，如文本生成、视频生成、音乐生成，业内人士才惊觉，原来海外像 Jasper.ai 这样的公司已经在商业化落地上有成功的验证。继上一代以识别与检测为主的感知智能之后，用于生成与编辑的“创造智能”成为资本的新宠。更意外的是，这一波 AIGC 的热潮还引起了广大圈外人士的关注，如自媒体 KOL、插画师群体与图文创作者。人们有恐慌，檄文不断；也有欢喜，希望拥抱前沿的技术。但无论人们接受与否，一个不可逆转的趋势已经在发生。
02AIGC 的大航海时代已开启

1519 年，一支探险船队从西班牙驶出，由西而去，人类文明的大航海时代开启。后来，全球化历史学家记载文明，总要提到一个叫麦哲伦的探险家，以及他最初航海的好奇心：地球是方的，还是圆的？——麦哲伦是地圆说的倡导者；如果地球是方的，就证明航海无法成功；而如果地球是圆的，那么他最终会回到原点。1950 年，另一位叫艾伦·图灵的科学探险家也有相似的好奇：机器能否根据人的行为作出有意识的反应？——他提出了一个著名的检测方法，叫“图灵测试”，开启了人工智能的研究时代。如今，AI 领域的研究者，在 AIGC 的技术探索中似乎也获得了相似的探索欲望与热情。他们想知道：机器是否能读懂人的思想与逻辑，从 0 到 1 进行创造？答案是：经过近十年的技术发展，他们认为可以，并且相信当前的 AIGC 探索已经到了工程化的阶段。犹如麦哲伦航海，目的已经明确，航海的地图（理论与框架）也已初具雏形，接下来是要验证技术路线是否可以到达目的地。以文生图为例。虽然 AI 根据文本描述画画的能力还不够完美，例如基于不同的文本提示（prompt）会输出质量不一的图像，对长文本的理解能力不足、会漏读关键词汇导致生成的图像不完成等等，但这些都是一个个具体的研究问题，被解决只是时间问题。为什么说 AIGC 的地图已勾勒完成？这主要归功于三方面：大模型、多模态与可控制。2020 年，OpenAI 推出 1750 亿参数的预训练语言大模型 GPT-3，在国内外掀起千亿参数大模型的研究浪潮。那时开始，AI 的语言表达和理解能力开始突飞猛进。也是从那时起，AI 开始能在很短的时间内写出不错的文章。实际上，那时候海外就出现了一波专做文字生成的商业公司，如 Jasper.ai 与 Copy.ai。这些公司开发了机器自动写作平台，用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文，用于替代写作过程中的大量劳动，并能兑换出商业价值。但由于 OpenAI 不对大陆和香港开放 GPT-3 接口，所以国内的 AI 研究人员很难用起来，文字生成的相关应用也没能在国内火起。这两年，虽然国内也有许多大厂与高校下场研究中文大模型，但在开源上仍进展缓慢，导致大量的 AI 开发者止步于高昂的训练成本，限制了基于中文语言的 AI 应用开发。在这一波 AIGC 中，AI 大模型在理解人类语言的能力上发挥了关键作用。归功于大模型的发展，不仅文本生成的效果不错，基于文本的图像生成也较 GAN 时代有了极大的进步。王超岳就告诉雷峰网，在撰写《 AIGC 白皮书》时，其实他们内部有过纠结：标题是要写成“AIGC”（AI-Generated Content），还是写成“生成式AI”（Generative AI）？最后，王超岳把票投给了AIGC，因为 generative model（生成模型）是一个专有的学术名词，一般是描述模型对一个具体的分布进行拟合，比如 GAN。但 DALL·E 2.0 所做的在某种程度上已经超出了对某一种数据分布的拟合，展现出了通用的图像生成能力。举个例子，GAN 最知名的应用是人脸生成：模型去看海量的人脸照片，知道人脸是一种分布，然后学习到人脸的特征。在 2014 年还没有能够生成高维数据图像的方法时，GAN 是一种很强的生成方法，但局限性也是本质的：首先，它需要一个特定的数据集（比如人脸），泛化能力差。比如，GAN 发布后被用于训练各种各样的人脸特效，但一个 GAN 无法训练出多种人脸特效，换另一种特效就要新训练一个 GAN；其次，GAN 在通过文本描述控制图像生成上做的并不尽如人意，这很大程度限制了它成为一个可控的通用式结构。而 OpenAI 发布的 DALL·E（和之后 DALL·E 2）是使用了通用模型：能够同时处理多项语言任务的语言大模型，加打通文字与图像两种模态的 CLIP 模型，控制图像生成的扩散模型，能够在保证真实性的基础上进一步产生概念与元素的组合，生成更加复杂的场景。一个例子是 AI 能够根据文字的描述对图像进行编辑，在添加或移动图片元素时将阴影、投影与物理表面纹理等因素都考虑进去。比如，人类制定要下图 3 的位置生成火烈鸟，AI 就真的在室外的玻璃边生成两只火烈鸟、并且有影子投映下来：

AIGC：我不是元宇宙的附庸品

当指定在上图 2 的位置（游泳池中间）生成火烈鸟时，AI 会自动生成一个适应泳池环境的形象——火烈鸟游泳圈：

AIGC：我不是元宇宙的附庸品

文字与图像的多模态研究大体可以分为三个阶段：1、图文描述（让计算机描述画中的事情）；2、图文问答（给一张图片，问这个图片里的桌子上都有什么东西。机器人需要理解问题，再了解图片里都是些什么东西）；3、用一句话生成图片（让机器人通过一句话的描述作画）。多模态的一个重要贡献在于数据源：它很好地提供了文本与图像成对的训练数据，这些数据也是帮助 AIGC 模型学习到认知的重要素材。此前阶段一、二的代表应用分别有短视频平台上的 AI 生成电影解说、智能对话机器人，而到第三阶段，机器系统则必须理解人类语言与常识、物理世界运行法则等，否则无法进行由人控制的跨模态创作。但 DALL·E、Midjourney 与盗梦师等产品都已经体现出理解人类与世界的突破。大量的研究实验都表明，当模型足够大，训练的数据足够多，AI 能够逐步理解人类语言的抽象概念（如常识与规则）。王超岳在读博时师从陶大程，他们团队就从深度学习理论出发，不止一次通过模型的容量分析证明，大模型在学习通用知识和理解泛化上有更好的表现。这是之前的生成模型没有体现出来的能力。这也决定了AIGC 不光是生成，而是建立在认知与理解上的模型的应用生态。当 AI 具备基础认知与理解，机器像人一样思考与创作，就不再是海市蜃楼的传说，而是一个正在发生的现实。
03商业化：在沉默中爆发

上一篇：元宇宙干货：在数字世界建构时空秩序 返回首页 返回栏目

下一篇：MetaDaily｜清华大学参与建设国内首个“警务元宇宙联合实验室”，百度元宇宙助力“数字成语”文化出圈

头条资讯

限售股是什么意思？限售股概念解读: 空投内卷史：一场项目方和羊毛党间的“猫鼠游戏” 马斯克将推特 Logo 改为狗狗币表情，意欲何为？ 元宇宙应用场景落地游戏文旅等领域

一文了解国际足联推出的四款Web3足球游戏: 浅谈链改「羊了个羊」应如何设计通证模型？ 演化中的Web3游戏：路在何方 科技巨头收缩元宇宙业务虚拟房产价格暴跌

苹果进军元宇宙可能会撼动一个飞速发展的市场但这不会在一夜: Epic Games CEO：元宇宙必须是开放的，但苹果有可能阻碍这一愿景 “高达元宇宙”将于 2023 年 10 月开始运营半年内有望吸引超 80 家加密企业，All in 的香港会成为全球加密

近期热点

热门文章

日榜周榜

热点资讯