2022,浪潮凶猛的AIGC元年 。
风口上的 AIGC今年的 AI 领域,可能没什么比 AIGC 更热了。
AIGC 的全称是 Artificial Intelligence Generated Content,人工智能生成内容。不过,AIGC 目前还没有一个规范、统一的定义。
根据中国信通院与京东探索研究院发布的《人工智能生成内容(AIGC)白皮书》中给出的定义,AIGC 既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。
有预测数据显示,到 2030 年,AIGC 的市场规模或将超过万亿人民币。
2022 年,尤其是下半年,AIGC 概念突然升温。有这么几个标志性的事件把 AIGC 推到了风口浪尖之上,其一是文生图模型 Stable Diffusion 的开源,其二是 ChatGPT 的爆火出圈。
AI 绘画神器 Stable Diffusion 横空出世有人将 Stable Diffusion 形容为 AI 界的“神笔马良”,这可能并不夸张。
Stable Diffusion 是一个文本至图像的模型,于今年 8 月 22 日公开发布,它能让数十亿人在几秒钟内创建出令人赞叹的艺术品。用户随意输入自己想要的文字描述,就能得到相应的图像结果。
两个月后,伴随着 Stable Diffusion 的开源,它所具备的潜力瞬间得到了极大释放。开源让 Stable Diffusion 将无过滤图像生成的门槛下放到历史最低,任何具备一点点技术知识的电脑用户都能轻松上手,可以说是一项老少咸宜的 AI 图像生成工具。
尽管此前,艺术创作 AI 已经历了一段时间的发展,但 Stable Diffusion 的出现才真正让这项技术得到了腾飞式的发展。因为它可以免费使用、上手快捷,大大减少了用户生成内容的障碍。
Stable Diffusion 掀起了文生图模型的热潮。今年 10 月,百度发布了首个知识增强的 AI 作画大模型 ERNIE-ViLG 2.0;11 月初,阿里达摩院在魔搭社区 ModelScope 上开放了通义文生图大模型;11 月底,智源研究院大模型研究团队开源最新双语 AltDiffusion 模型,中文世界有了专业级 AI 文图创作工具,其在视效上媲美 Stable Diffusion。
ChatGPT 火爆出圈最近几周,OpenAI 最新的聊天机器人 ChatGPT 火出天际,成为现象级应用。
问答、写小说、写代码、写论文、写区块链智能合约....ChatGPT 的应用也频频出圈。ChatGPT 就像是一个无所不知的虚拟体,它能回答各种问题,而且总能给到让人满意,甚至超过预期的答案,因此引起了极高的关注度。
ChatGPT 展示出的强大的能力和无限可能,让人们看到,通过 ChatGPT 这样的技术方案解决很多任务的潜力。大家感到惊奇的是,在一个模型里面就可以完成各种任务,而且是很难的任务。在过去一些看似比较困难的任务(比如问伦理道德方面),ChatGPT 也能解决得很好。
清华大学教授黄民烈认为,ChatGT 的技术创新性主要在于两个方面:
强大的底座模型:过去几年 GPT-3 的能力得到了快速提升,OpenAI 建立了用户、数据和模型之间的飞轮。显然,开源模型的能力已远远落后平台公司所提供的 API 能力,因为开源模型没有持续的用户数据对模型进行改进。
利用强化学习从人类反馈中学习:在真实调用数据上的精调模型,确保数据的质量和多样性,从人类反馈中学习。从“两两比较的数据”中学习,对强化学习而言意义很大。如果对单个生成结果进行打分,标注者主观性带来的偏差很大,无法给出精确的奖励值。在强化学习里,奖励值差一点,最后训练的策略就差很远。而对于多个结果进行排序和比较,相对就容易做很多。这种比较式的评估方法,在很多语言生成任务的评价上也被广泛采用。
黄民烈认为,ChatGPT 出现对 AI 界来说,有着十分重要的意义:“它宣示着无缝人机交互时代的来临。过去我们讲 conversation as a service (caas)还停留在纸面,但实际上今天,无论是开放域聊天,还是通用任务助理(ChatGPT)都在强烈地表明这一点”。
从信息检索的角度看,ChatGPT 也取得了很大突破。达摩院基础视觉负责人赵德丽在接受 InfoQ 采访时表示,以前谷歌等搜索引擎做搜索和检索,只是找已经存在的信息,ChatGPT 的应用,实现了从信息的搜索到信息的创造这样一个范式的转变,从算法能力上看,它取得了一个质的飞跃。短期来看,ChatGPT 有望成为或者辅助像谷歌这种传统信息检索的强有力的工具;长期来看,它有望发展成为 AI 系统级的服务。
但至于它最终会不会取代搜索引擎。黄民烈认为,ChatGPT 取代谷歌搜索还比较遥远,原因主要有,受限于训练数据,ChatGPT 的信息实效性较弱,缺乏很多新的信息;在信息的可信度上,搜索引擎只“搬”东西,不创造内容。ChatGPT 虽然会创造内容,但创造的东西多大程度上“有用、可信、无害”,还没有统一的定论;再就是成本问题,现在大模型的生成成本还是太高了,需要持续下降。
现阶段的 ChatGPT 并不完美。通俗地说,它还存在“一本正经地胡说八道”的问题,这本质上是对信息可信性的度量和评估。解决这一问题,技术上需要有信息验证的手段;从应用上来说,需要深入结合应用的场景和特点,针对性优化和解决。
但整体而言,ChatGPT 还是让人非常惊喜。黄民烈非常看好 ChatGPT 接下来的发展方向。他认为这是一个正确的方向,现在还比较粗糙,但假以时日,一定会催生很多应用。
赵德丽同样对 ChatGPT 抱有大期待。虽然还有各种瑕疵,但 ChatGPT 短时间内出现了各式各样的不同方向上解决问题的能力,展现了 AI 算法的巨大潜力。从技术发展和解决方案的角度看,它将来可能会成长为一个超级 APP,就像是一个无所不知的虚拟体。“ChatGPT 这种应用的出现,从长远来看的影响力,其实不亚于阿尔法狗曾经在人工智能界带来的影响力,它将会是一个影响非常深远的技术和应用”。
AIGC 为什么突然火了?AIGC 并不是一个新概念。AIGC,通常还有另一种叫法 — AI Creation(人工智能创造),大致从 2016 年—2017 年开始,其应用不断增加,尤其是在自然语言领域,广泛应用在生成文本、作诗句、写对联等方向,近几年,逐渐延伸到作画、作曲等领域。
凭何而火?今年,AIGC 突然在全球蹿红,成为人人口中的流行词。究其原因,主要由多项技术上的关键突破推动,总结来说:
一,算法上:从今年 4 月开始,在文生图视觉方向上,视觉效果生成的效果取得了突破性的进展,文生图的质量得到了很大改善。OpenAI 的文本生成图像模型 DALL·E 2 算法发布后,在算法效果上取得了和以往相比实质性的突破,成为一个现象级的算法,其在文本生成图像生成的效果、真实度表现上,让大家看到了大规模商用的前景。AI 作画任务十分直观,给人的视觉冲击强烈,使得 AIGC 逐渐破圈,快速传播。
二,预训练大模型是 AIGC 的底座,没有大模型学到的丰富知识,就无法实现如此丰富的 AI 内容生成能力。AIGC 最重要的是一种融会贯通的能力,要做领域的泛化,需要学习海量的数据,大模型的规模直接决定了 AIGC 创作力的广度。多模态大模型的应用,使得 AIGC 的质量得到了较为明显的进步。
三,扩散模型的发展。扩散生成的算法取得了突破,这个算法能够对图像做像素级别的建模,学习效率更高。Stable Diffusion 是文本生成图像模型完全开源的第一个算法,它跑起来的效率相当高,其开源也带动了相关生态快速的发展,让人们看到,基于这种生成式基础模型,能够带来无限的创造和想象空间。特别是在一些国外社区里,基于 Stable Diffusion 做的各种创新式的应用发展快速,展现了商业化潜力。
四,算力降低。深度学习计算能力的快速发展。在大算力的基础上,AI 作画能够实现在海量数据上进行大参数模型的训练。相比之前的 AIGC 算法,算力上有了很大降低。要训练一个基础的预训练模型,需要很多算力。一些专注于基础的大模型的机构,将模型训练好后,可以供很多小企业使用,只需用消费级的网卡就可以做微调,也可以直接基于 API 调用。预训练大模型加上微调可以很好地进行文生图生成风格的改变,派生出了大量的二次开发者,屡屡破圈。
从 GAN 到 DiffusionGAN,是生成式 AI 的核心技术之一。2014 年以来,以生成式对抗网络 (Generative Adversarial Network,GAN) 为代表的深度学习算法的提出和迭代更新,让 AIGC 进入了快速发展阶段,带动了 AIGC 的一波热潮。
赵德丽表示,在 Stable Diffusion 这种扩散算法出现之前,从生成的效果上看,在计算机领域,GAN 是效果最好的。发展到现阶段,GAN 生成的人脸图像已经到了真假难辨的程度。以 StyleGAN 为例,其生成的图片可以做到栩栩如生,光线和纹理都清晰可见,非专业人士几乎无法分辨出是由 AI 生成的虚假图。即便是现在的 Diffusion model 目前也做不到现在 GAN 在人脸生成上的结果。
但 GAN 有一个最大的缺点,它对于多类别、语义非常复杂的、一般场景下的图片生成的建模能力较弱。如果只是人脸,只是猫或者只是狗这类场景的数据,GAN 的效果很好。但它在某种复杂数据的规模能力方面,在性能上受限较大,如果把狗、猫、花朵、桌子、椅子、电话等不同种类的数据放在一起,目前的情况下,GAN 得不到一个较好的结果。
而 Diffusion model 在这方面取得了突破性的进展。Diffusion model 解决了 GAN 不能解决的问题,因此大家立刻意识到了它的巨大潜力。今年是 Diffusion model 取得快速发展的第一年。而且,它的发展速度超过当年的 GAN,当年的 GAN 已经足够火热了,但可以感受到, Diffusion model 现在的受关注程度超过当年的 GAN 。
Diffusion 扩散化模型带动新一波 AIGC 的热潮今年这波 AIGC 的热潮,被认为是由生成扩散模型带动起来的。例如,OpenAI 发布了文本生成图像模型 DALL·E 2;谷歌推出了 Imagen;今年 8 月,初创公司 Stability.AI 发布了 Stable Diffusion...
周三(2024年3月6日),A股市场早盘低开,午后开始反弹。上证指数涨上证指数跌0.26%,报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞,电车时代来临,这家车2023年我国汽车产业发展取得突破性进展,全年产销均超3000万辆,创历史新高,汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期,这家企业海外市场界面新闻记者 | 袁颖琪 跟随着我国白电“走出去”的步伐,有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停,三大指数小幅下跌,新质生产力概念3月6日,大盘午后震荡回落,三大指数均小幅下跌。截至收盘,沪指跌0.26%,深成指跌0.22%,创...
5 重大事项停牌前一度大涨17%,“量子通信第一股”国盾量子发生界面新闻记者 | 冯雨晨 一番大涨之后,国盾量子(688027 .SH )宣布筹划重大事项停牌,引起市...
周三(2024年3月6日),A股市场早盘低开,午后开始反弹。上证指数涨上证指数跌0.26%,报3039...
2 金股挖掘| 绑定大众集团实现业务腾飞,电车时代来临,这家车2023年我国汽车产业发展取得突破性进展,全年产销均超3000万辆,创历史新高,汽车出口首次跃...
3 调研早知道| 自有品牌战略进入全面收获期,这家企业海外市场界面新闻记者 | 袁颖琪 跟随着我国白电“走出去”的步伐,有一家企业的优势正日益凸显。这...
4 盘中必读|今日共105股涨停,三大指数小幅下跌,新质生产力概念3月6日,大盘午后震荡回落,三大指数均小幅下跌。截至收盘,沪指跌0.26%,深成指跌0.22%,创...
5 重大事项停牌前一度大涨17%,“量子通信第一股”国盾量子发生界面新闻记者 | 冯雨晨 一番大涨之后,国盾量子(688027 .SH )宣布筹划重大事项停牌,引起市...
撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有