当前位置:主页 > 科技前沿 > 游戏 > AIGC:我不是元宇宙的附庸品

AIGC:我不是元宇宙的附庸品

2022-11-21 15:26:09来源:互联网

文章导读
“ 生产力如已成熟,想象力还会远吗? ” 作者 | 陈彩娴 编辑 | 岑峰 “ 你们是从什么时候开始注意到人类的?” “当第一个原始人开始仰望星空的时候。” AI 的类人猿,早已开始仰望人类 ...

AIGC:我不是元宇宙的附庸品

生产力如已成熟,想象力还会远吗?


作者 | 陈彩娴编辑 | 岑峰

AIGC:我不是元宇宙的附庸品

AIGC:我不是元宇宙的附庸品


你们是从什么时候开始注意到人类的?”

“当第一个原始人开始仰望星空的时候。”

AI 的类人猿,早已开始仰望人类。


01来自机器的审视


在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。

一次是去年 3 月 OpenAI 祭出人工智能绘画产品 DALL·E 时。只需要在计算机上输入一句话,DALL·E 就能够理解这句话、然后自动生成一幅意思相应的图像,且该图像是全网首发、独一无二。

所有跨越“族群”的交流都是一次文明的突变,来自未明机器系统的回应也让人类感到犹遇 UFO 的震惊与好奇。在人与人的距离越来越远的现代社会,机器却好像能够读懂一个人的内心。

“你能明显感觉到它相比 GAN(2014 年出现的一个 AI 生成网络)的进步。DALL·E 的技术是革命性的。”王超岳告诉雷峰网。

第二次是今年 4 月谷歌发布 5400 亿参数大模型 PaLM 的时候。随着参数的变大,PaLM 的文本理解能力与逻辑推理能力大幅提升,甚至可以用文本解释笑话,告诉读者为什么这个笑话好笑。

在这之前,人们嘲讽 AI 最常用的一句话就是:这个 AI 模型的推理能力很弱,像 3 岁小朋友。但大模型发展至今,已经能做算术、能做逻辑推理,心智已经接近甚至在某些角度超过人类。“比方说,”王超岳举例:“有很多笑话我一时不能理解,但它能给我解释,说明在一些语言理解任务上、它比我还懂。”

王超岳是生成式 AI 的资深研究者,从 2014 年 GAN 发布后就开始关注 AIGC 相关研究,当时 GAN 就是深度生成网络的研究热点,但热度也远远不及 AIGC 这两年的重大突破。上述提到的两项技术,也成为点燃今年下半年 AI 圈狂欢的“导火索”:

DALL·E 背后的关键技术 CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL·E、DALL·E 2.0、Stable Diffusion 等突破性 AI 成果的基石;而像 PaLM 这样的语言大模型,虽然烧钱,但其对人类语言的理解能力突飞猛进,是 AI 能读懂人的前提。

“这两年的 AI 技术突破真的非常快。”心辰科技(盗梦师团队)创始人蓝振忠也说道。他读论文经常读到很兴奋、很激动:“CLIP 出来一段时间后,MAE(何恺明团队提出的一种AI范式,可以将在语言任务上表现优秀的能力迁移到视觉任务的处理上)又跟着出来,然后又有 Stable Diffusion……”

今年 8 月 Stable Diffusion 推出以来,蓝振忠与团队很快就跟上、只用了不到一个月的时间就上线 AI 作画产品“盗梦师”,并迅速在国内火起来,出图速度短至 1 秒,而且绘画质量非常高,日留存率接近50%(高于 90% 的小程序),不到两个月就接到了 To B 的大订单。

AIGC:我不是元宇宙的附庸品

“盗梦师”生成的图像作品在盗梦师上线的第二天(9 月 1 日),国内第一本《 AIGC 白皮书》在上海世界人工智能大会(WAIC)发布。王超岳参与了这本白皮书的撰写,并主导了 AIGC 技术体系的梳理和展望。AIGC 白皮书的发布引来大批参会同行的关注。不仅是人工智能领域的研究者,还有元宇宙领域的从业者:“当时红杉资本那篇关于生成式 AI 的文章还没有出来,大家都还不知道 AIGC 是什么。这说明数字内容生成的重要性是行业共识。”再紧接着,一切都很快:技术的突破带来应用的繁荣,Midjourney 在海外火起,文生图的热潮又让人们看到更多原先冷门的 AIGC 分支,如文本生成、视频生成、音乐生成,业内人士才惊觉,原来海外像 Jasper.ai 这样的公司已经在商业化落地上有成功的验证。继上一代以识别与检测为主的感知智能之后,用于生成与编辑的“创造智能”成为资本的新宠。更意外的是,这一波 AIGC 的热潮还引起了广大圈外人士的关注,如自媒体 KOL、插画师群体与图文创作者。人们有恐慌,檄文不断;也有欢喜,希望拥抱前沿的技术。但无论人们接受与否,一个不可逆转的趋势已经在发生。
02AIGC 的大航海时代已开启


1519 年,一支探险船队从西班牙驶出,由西而去,人类文明的大航海时代开启。后来,全球化历史学家记载文明,总要提到一个叫麦哲伦的探险家,以及他最初航海的好奇心:地球是方的,还是圆的?——麦哲伦是地圆说的倡导者;如果地球是方的,就证明航海无法成功;而如果地球是圆的,那么他最终会回到原点。1950 年,另一位叫艾伦·图灵的科学探险家也有相似的好奇:机器能否根据人的行为作出有意识的反应?——他提出了一个著名的检测方法,叫“图灵测试”,开启了人工智能的研究时代。如今,AI 领域的研究者,在 AIGC 的技术探索中似乎也获得了相似的探索欲望与热情。他们想知道:机器是否能读懂人的思想与逻辑,从 0 到 1 进行创造?答案是:经过近十年的技术发展,他们认为可以,并且相信当前的 AIGC 探索已经到了工程化的阶段犹如麦哲伦航海,目的已经明确,航海的地图(理论与框架)也已初具雏形,接下来是要验证技术路线是否可以到达目的地。以文生图为例。虽然 AI 根据文本描述画画的能力还不够完美,例如基于不同的文本提示(prompt)会输出质量不一的图像,对长文本的理解能力不足、会漏读关键词汇导致生成的图像不完成等等,但这些都是一个个具体的研究问题,被解决只是时间问题。为什么说 AIGC 的地图已勾勒完成?这主要归功于三方面:大模型、多模态与可控制2020 年,OpenAI 推出 1750 亿参数的预训练语言大模型 GPT-3,在国内外掀起千亿参数大模型的研究浪潮。那时开始,AI 的语言表达和理解能力开始突飞猛进。也是从那时起,AI 开始能在很短的时间内写出不错的文章。实际上,那时候海外就出现了一波专做文字生成的商业公司,如 Jasper.ai 与 Copy.ai。这些公司开发了机器自动写作平台,用户输入关键字、AI 只需几分钟就能写成一篇逻辑与表达不输人类的长文,用于替代写作过程中的大量劳动,并能兑换出商业价值。但由于 OpenAI 不对大陆和香港开放 GPT-3 接口,所以国内的 AI 研究人员很难用起来,文字生成的相关应用也没能在国内火起。这两年,虽然国内也有许多大厂与高校下场研究中文大模型,但在开源上仍进展缓慢,导致大量的 AI 开发者止步于高昂的训练成本,限制了基于中文语言的 AI 应用开发。在这一波 AIGC 中,AI 大模型在理解人类语言的能力上发挥了关键作用。归功于大模型的发展,不仅文本生成的效果不错,基于文本的图像生成也较 GAN 时代有了极大的进步。王超岳就告诉雷峰网,在撰写《 AIGC 白皮书》时,其实他们内部有过纠结:标题是要写成“AIGC”(AI-Generated Content),还是写成“生成式AI”(Generative AI)?最后,王超岳把票投给了AIGC,因为 generative model(生成模型)是一个专有的学术名词,一般是描述模型对一个具体的分布进行拟合,比如 GAN。但 DALL·E 2.0 所做的在某种程度上已经超出了对某一种数据分布的拟合,展现出了通用的图像生成能力。举个例子,GAN 最知名的应用是人脸生成:模型去看海量的人脸照片,知道人脸是一种分布,然后学习到人脸的特征。在 2014 年还没有能够生成高维数据图像的方法时,GAN 是一种很强的生成方法,但局限性也是本质的:首先,它需要一个特定的数据集(比如人脸),泛化能力差。比如,GAN 发布后被用于训练各种各样的人脸特效,但一个 GAN 无法训练出多种人脸特效,换另一种特效就要新训练一个 GAN;其次,GAN 在通过文本描述控制图像生成上做的并不尽如人意,这很大程度限制了它成为一个可控的通用式结构。而 OpenAI 发布的 DALL·E(和之后 DALL·E 2)是使用了通用模型:能够同时处理多项语言任务的语言大模型,加打通文字与图像两种模态的 CLIP 模型,控制图像生成的扩散模型,能够在保证真实性的基础上进一步产生概念与元素的组合,生成更加复杂的场景。一个例子是 AI 能够根据文字的描述对图像进行编辑,在添加或移动图片元素时将阴影、投影与物理表面纹理等因素都考虑进去。比如,人类制定要下图 3 的位置生成火烈鸟,AI 就真的在室外的玻璃边生成两只火烈鸟、并且有影子投映下来:

AIGC:我不是元宇宙的附庸品

当指定在上图 2 的位置(游泳池中间)生成火烈鸟时,AI 会自动生成一个适应泳池环境的形象——火烈鸟游泳圈:

AIGC:我不是元宇宙的附庸品

文字与图像的多模态研究大体可以分为三个阶段:1、图文描述(让计算机描述画中的事情);2、图文问答(给一张图片,问这个图片里的桌子上都有什么东西。机器人需要理解问题,再了解图片里都是些什么东西);3、用一句话生成图片(让机器人通过一句话的描述作画)。多模态的一个重要贡献在于数据源:它很好地提供了文本与图像成对的训练数据,这些数据也是帮助 AIGC 模型学习到认知的重要素材。此前阶段一、二的代表应用分别有短视频平台上的 AI 生成电影解说、智能对话机器人,而到第三阶段,机器系统则必须理解人类语言与常识、物理世界运行法则等,否则无法进行由人控制的跨模态创作。但 DALL·E、Midjourney 与盗梦师等产品都已经体现出理解人类与世界的突破。大量的研究实验都表明,当模型足够大,训练的数据足够多,AI 能够逐步理解人类语言的抽象概念(如常识与规则)。王超岳在读博时师从陶大程,他们团队就从深度学习理论出发,不止一次通过模型的容量分析证明,大模型在学习通用知识和理解泛化上有更好的表现。这是之前的生成模型没有体现出来的能力。这也决定了AIGC 不光是生成,而是建立在认知与理解上的模型的应用生态。当 AI 具备基础认知与理解,机器像人一样思考与创作,就不再是海市蜃楼的传说,而是一个正在发生的现实。
03商业化:在沉默中爆发
热门文章
日榜 周榜

撤稿申请|

备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有