当地时间11月30日,OpenAI发布了一个全新的对话式大规模语言模型ChatGPT。作为GPT-3.5系列的主力模型之一,通过对话的形式,ChatGPT可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。
这一模型在开放测试以后,迅速涌入了大批用户,并在社交媒体上晒出自己与ChatGPT的互动。有人用来给自己的猫写诗,有人用来给代码改BUG,还有人问它关于人类的意义......12月5日,OpenAI首席执行官Sam Altman发推表示,OpenAI 训练的大型语言模型ChatGPT于上周三推出,目前已突破100万用户。
甚至于马斯克也为其称赞“ChatGPT非常好。我们离强大到危险的AI不远了。”
之所以ChatGPT能够引起如此大的反响,是因为这一次算法模型的升级让AI的认知智能更上一层台阶,换句话说,现阶段的AI能够对人类意图的理解更为深刻、准确。
让AI更懂人、更像人,一直是技术不断在攻克的难题,而同样作为生成式AI(AIGC)中一员的AI绘画,也因为Diffusion扩散模型的加入,闯入了更多公众的视野。
只需要输入几个关键词,就能获得一幅由AI生成的绘画。今年以来,AI绘画可谓是在社交媒体上赚足了眼球,从年初Disco Diffusion的流行,再到8月,由AI绘画程序Midjourney生成的《太空歌剧院》获奖,Stable Diffusion扩散模型的使用,让AI绘画在图像细节的处理上更为出色。
如果将ChatGPT和Stable Diffusion模型两者进行“强强联合”,便能够让模型更懂创作者的需求。一方面,利用ChatGPT强大的语言理解能力生成文本描述,另一方面,扩散模型能够最大程度保持图像的细节,既保留了图像中的语义结构,又能够生成高质量的AI绘画作品,“甲方爸爸”看了都直呼满意。
无论是ChatGPT还是Diffusion扩散模型,一个作为多轮对话模型,一个作为辅助多模态生成的模型,都让AI的能力从“机械执行”,进阶到“创造性”,这也意味着AIGC迎来了一个新的发展阶段。
“我不如AI”,在多久后会成为现实?
生成式AI到底有多牛?
“帮我以鲁迅的文笔写一段话,表达一下我现在因为疫情连门都不敢出的惨状,还有想吃火锅的心情”,有网友在ChatGPT中输入一段自己的需求。几秒钟后,ChatGPT就给出了一篇质量颇高的小作文。
除了让它写小作文以外,它还拥有解决数学、逻辑和编程问题的能力,有网友直呼:妈妈以后再也不用担心我的作业不会做了!
与此同时,ChatGPT还能根据用户提出的调整建议不停地对回答内容进行修改,同时也能对不恰当的假设和要求提出挑战和拒绝。
一改AI智障的面孔,能让聊天机器人如此优秀,ChatGPT究竟有哪些创新?
2020年,OpenAI推出自然语言模型GPT-3,这是ChatGPT的上上一代产品,其在总结和简化文本方面表现出强大的能力,甚至还在《卫报》上公开发表过专栏文章,一时间引起了不小的轰动。
两年过去,就在众人对GPT-4翘首以盼的时候,OpenAI在今年年初出其不意地先推出了GPT-3.5,并训练了InstructGPT模型,能够帮助GPT-3输出的结果更为准确。
而ChatGPT则是InstructGPT的兄弟模型,同属于GPT-3.5。虽然ChatGPT目前仍然处于测试阶段,并且还没有真正联网,但已经展现出了足够惊艳的性能。
这次ChatGPT的走红,除了有社交媒体裂变优势的助力以外,很重要的一个原因还是其跟上一代的GPT-3相比,在生成内容的效果上有了两方面的显著提升:一是有记忆功能,可以实现连续对话;二是能够更好的理解和完成人类的指令。
在对于人类指令的理解和执行上,可以发现,ChatGPT生成的结果在尽可能地贴合人类的意图和期望,而GPT-3更像是设定好的套路模版。比如说同一个指令“写一首简短的关于青蛙的诗歌”,右边ChatGPT的可读性明显要更强。
对比下来,GPT-3的局限性在于不擅长逻辑的推理和决策,而在ChatGPT中,结果的反馈也成为了学习过程的一部分,实现了在认知智能层面上的提升。这一次ChatGPT的推出,大概率也是为了能够收集更多的用户数据反馈,以饲养模型,让AI更懂人类。
事实上,对于人类意图的理解一直都是AI难以横跨的一道坎。
就拿同样火热的AI绘画为例,能够出圈的一大原因是因为生成的作品“翻车”太厉害。把宠物识别成人,把人物识别成建筑...画风开始偏离,诸如此类的乌龙开始频繁出现。
图片来源于网络,如有版权问题请联系我们
对于一些简单的人物和环境都无法准确识别、理解,更别提具有复杂意象的诗歌了。在某个AI绘画产品中,光锥智能输入“醉后不知天在水,满船清梦压星河”后,生成的结果也跟诗歌意境相差甚远。
不难发现,在AI绘画爆火背后,大多数软件对于如何保证准确的语义理解和图片生成能力的敏感度并不算高。
现阶段AI绘画的槽点虽然很多,但进步却是毋庸置疑的。据一位二次元画师透露,在今年年初的时候,圈子里的人对于AI绘画的印象还是“生成速度慢”“生成质量差”,但谁也没想到AI能够在短短几个月时间进步神速。特别是今年8月,AI绘画作品《太空歌剧院》的获奖,更是让大家炸开了锅,“从来没感觉到自己离失业那么近。”二次元画师小元(化名)说道。算法的迭代之路
从最早基于手写规则的简单学习,到神经网络的诞生,AI开始像人脑一样学习,开始尝试大量数据。
图片来自真格基金分享
直到2017年,谷歌首次提出了Transform模型,取代了此前的CNN和RNN两种神经网络学习方式,这一模型的核心在于注意力机制,让AI在学习的过程中关注重点而非全部,大大降低了模型训练所需的时间。Transform模型问世以后,很长一段时间里都是机器翻译领域的主流模型。
而将Transform模型拆开来看,可以分成编码器和解码器两个部分,编码器负责把自然语言序列转化成数学表达,而解码器则是负责把数学表达再转化为自然语言序列,即我们日常能够看得懂的语言。
OpenAI的自然语言模型GPT就是属于后者。
图片来自真格基金分享
从2018年推出了GPT-1之后,该自然语言模型系列一共经历了3次迭代。相较于GPT-1,GPT-2并没有太多结构上创新,只是数据更多了,参数从原来1.17亿增加到了15亿。而在GPT-3上,OpenAI再一次加大了对于数据量的投入,训练参数直接达到了1750亿个,上千亿的参数和更类人的智能也让其成为了自然语言模型里程碑式的产物。
到了今天的主角ChatGPT,再一次颠覆了“AI究竟能够多像人类”的认知。
上文提到,ChatGPT现在更能理解人类的指令和意图,根本原因在于ChatGPT和InstructGPT都加入了“从人类反馈中强化学习”的训练方式。
相比于原来训练标注师单纯输入固定的结果模版,这种训练方式加入了人类有可能对于结果的反馈,并将不同的结果进行排序,通过奖励模型让AI不断地在人类的反馈中迭代、调整,这样一来,提前让ChatGPT与有可能的反馈产生交互,使得最后生成更符合人类指令或者意图的答案。
值得一提的是,虽然是兄弟模型,但InstructGPT无法判断人类下达的指令是否是不正当的,仍然存在一些“毒性”,而优化过后的ChatGPT则能够意识到这一点,敢于质疑不正确的前提。
在算法模型的不断迭代下,加上数据量不断提升,“AI越来越聪明,也越来越努力。”
同样,AI绘画能够在今年爆火,也是因为底层技术实现了重大突破。
从识别用户输入的文字语义,再到生成一幅AI绘画作品,这其中的难点之一在于AI需要实现从文字到图像的跨模态生成。
让我们先把时间拨回2014年。彼时,GAN对抗生成网络的提出标志着AI图像生成迈出了关键一步,但遗憾的是,GAN生成的结果可控性差、图像分辨率较低、不能实现文字和图像之间的跨模态生成。
因此,CLIP模型出现了。2021年,OpenAI提出了基于NLP(自然语言理解)和CV(计算机视觉)的多模态预训练算法CLIP,可以将CLIP模型简单地理解为不同模态之间架起的一座桥梁。
不过,真正引爆AI绘画的,还是Diffusion扩散模型的应用。
扩散模型就是一种生成图像的方法,在正扩散过程中,给图像添加噪声,让图像变成了一堆随机的噪声,然后通过逆扩散给图像去噪,学习图像是如何生成的,相当于让AI换了一种学习画画的方式。
伴随着今年Stability AI对扩散模型的改进之后,模型的计算降低了对算力的要求和对内存的消耗,从前动辄半天、一天的生成速度已经快进到秒级别,这也是为什么在Stable Diffusion开源以后,AI绘画能够迅速在C端走红的原因。
目前的AIGC已经能够实现文字、图像、音频以及视频等多领域、跨模态的内容生成。
招商证券认为,得益于深度学习模型的不断完善、开源模式的推动以及数字内容供给需求的不断增长,AIGC将会呈现指数级的发展增速。在技术加持下,一场AIGC的变革正在酝酿。撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有