深度丨AIGC，浪潮凶猛

2022-12-12 02:44:15来源：互联网

文章导读: 21世纪经济报道见习记者李强北京报道 AIGC（用AI技术自动生成内容）的应用竞赛，正在将AI重新带到聚光灯下。 12月1日，美国科技企业OpenAI发布了聊天机器人ChatGPT，开启免费公测。好奇的人 ...

21世纪经济报道见习记者李强北京报道

AIGC（用AI技术自动生成内容）的应用竞赛，正在将AI重新带到聚光灯下。

12月1日，美国科技企业OpenAI发布了聊天机器人ChatGPT，开启免费公测。

好奇的人们提出各种千奇百怪的问题，观察ChatGPT的反应，比如询问学术问题、写请假条/散文/rap、检查和修改代码BUG甚至诱骗ChatGPT规划如何“毁灭”世界。

ChatGPT的表现可以用惊艳来形容。一方面，ChatGPT给出的结果准确性极大提升，在绝大部分知识领域，ChatGPT都能够给出专业性的回答，无效回答很少。比如被问到哥伦布2015年来到美国的情景时，ChatGPT会直接表示哥伦布不属于这一时代，并且ChatGPT的道德约束性也表现良好，能够主动辨别不适合的话题并予以回避，甚至做正向引导。

另一方面，ChatGPT在与用户的交流中展现出很强的理解能力：ChatGPT在写“命题作文”时，用户可以随时打断，并要求ChatGPT按照用户意图进行续写；当用户故意使用缺乏前后文的代码片段“刁难”，让ChatGPT指出为何程序无法正常运行时，ChatGPT会表示，在用户不提供代码具体功能以及更多代码内容的情况下无法回答问题。

前所未有的人机交互体验，让用户们情不自禁地晒出与ChatGPT的对话，分享自己的奇妙体验与震撼感，技术的魅力也让ChatGPT的话题犹如病毒般蔓延。

5天后，OpenAI CEO Sam Altman发文表示，ChatGPT用户达到100万。

在用户端热火朝天的“开发”中，ChatGPT另一面的不足也迅速暴露。比如，ChatGPT“一本正经”的回答中也会存在知识性错误，这些更隐蔽、更具迷惑性的错误，让ChatGPT显得“有趣”又危险。

ChatGPT走红后，程序员版“知乎”Stack Overflow很快宣布暂时禁止用户分享ChatGPT生成的回复，原因是大量用户尝试用ChatGPT回答用户在平台上提出的问题，而这些快速生成的大量内容，很多第一眼看上去正确，但如果具备专业知识，稍加检查就能发现其中存在错误，这对于寻求正确答案的小白来说是致命的。

不过，更多的业内观点认为是瑕不掩瑜，并将ChatGPT视作AIGC发展中的重要里程碑。国盛证券在研报中指出，这些问题来自训练过程和数据集的局限性，随着进一步强化训练，完善模型质量，未来迭代值得期待。

“尽管ChatGPT确实有一些糟糕表现，比如在面对简单计算题时，ChatGPT却给出小作文式的求导过程以及错误的结果，但这不能因此否定ChatGPT，因为这些本来也不是ChatGPT要干的活，ChatGPT的主要任务在于让机器理解人类语言。”古典互联网投资人、内容行业观察者庄明浩对21世纪经济报道记者表示。

七十年前，“人工智能之父”图灵在《电脑能思考吗？》中提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备人一样的智能，这个经典的图灵测试如同北斗星，指引着AI行业的工作者们不断前进。

今天，ChatGPT展现出的极具迷惑性的表达能力，让这个曾经遥不可及的未来似乎正变得模糊可见。

AI需要新叙事

1985年，IBM开始了象棋超级计算机“深蓝”的研发。1997年，深蓝终于战胜国际象棋冠军卡斯帕罗夫，轰动一时，不过深蓝并没有在之后激起更大的涟漪。

原因在于，深蓝的技术思路是通过在系统中整合象棋游戏中的规则和经验，来模拟人类专家从而进行逻辑推理和判断：深蓝输入了一百多年来优秀棋手的两百多万场对局，来战胜卡斯帕罗夫。

深蓝的这种技术思路被称作专家系统，让AI开始能够解决一些“知识处理”等方面的实际问题，不过，这种被称作专家系统的方法弊端很明显，深蓝会下象棋，但也只会下象棋，技术拓展性很差，适用的领域也非常狭窄，更新迭代和维护成本非常高，这让专家系统在短暂点燃市场热情之后又迅速降温。

同时期，另一个思路也被提出来：借鉴生物神经系统，创建人工神经网络，尽管后来被证明是极具潜力的，但在当时的条件下，走这条路线的AI显得既不聪明（算法效果差），也不努力（算力低下），而且连基本的学习资料（大数据）都没有。见不到效果，神经网络的思路也很快被弃用。

于是，上世纪八十年代中期，专家系统与神经网络掀起的第二次AI浪潮很快进入寒冬。

2006年，Google的首席AI科学家杰弗里·辛顿(Geoffrey Hinton)第一次提出深度学习的概念，带领AI行业重新回到神经网络的思路上，同时算法、算力以及大数据不断跟进，逐渐松绑的神经网络开始发挥其威力，由此掀起第三次AI浪潮并延续至今。

CMC资本董事总经理易然对21世纪经济报道记者解释道，机器学习最开始主要完成回归、分类、推荐、排序等以“相似性”为核心的数据类应用，在内容和商品推荐、广告算法等应用效果非常好，从2014年、2015年开始，各种深度学习的框架得到广泛应用，以视觉语音识别、NLP（自然语言处理）等为代表的感知类应用的大发展，并且深入到了广大的科技类公司的业务中。

以计算机视觉为例，这也是AI技术商业化落地进程最快的赛道。2014年，旷视科技成为支付宝“刷脸支付”的技术提供商，云从科技帮海通证券做远程开户的身份认证系统，依图科技凭借“蜻蜓眼系统”帮助公安部门加强安防；2015年，商汤科技利用人脸识别帮助中国移动完成3亿人手机实名制，这一轮技术爆发中的独立创业公司代表“AI四小龙”就此完成起家。

不过，单凭技术的应用，AI行业似乎还缺乏一些声量。

2016年，AI炫技再一次拿棋手祭刀，AlphaGo击败围棋世界冠军李世石，让全世界都去琢磨AI的未来。从这一年开始，各大企业争相布局，初创独角兽涌现，资本热钱迅速流入，掀起这次AI浪潮中的最大浪头。

据《2021年人工智能行业发展蓝皮书》统计，过去9年AI领域IPO前的股权投资行为，共发生2048起，投资金额达4800亿元，投资的高峰期集中在2015年至2018年。

但大多数创业公司的AI应用，迟迟走不出研发环节，业绩亏损、估值虚高的经营状况看不到改善机会，资本开始退潮。蓝皮书显示，2018年全国单笔平均融资投资额为4.1亿元，2019年下降到1.6亿元。

2020年，创新工场创始人李开复在公开场合表示，不否认过去许多AI公司割了投资人的韭菜，但是有三个AI专家就能估值7亿，靠AI概念忽悠投资人的时代已经过去了。

即使作为从独立创业公司中走出来的佼佼者，“AI四小龙”也得不得面对凛然的寒气。

一方面，阿里、腾讯等大厂纷纷自行开发人脸识别技术，海康威视、大华等硬件公司也先后开始布局图像识别领域，主要的应用赛道卷成红海；另一方面，AI落地主要以to B/G的模式为主，AI公司做的更多是定制化外包的工作，投入高却难以复用，整体经营状况不容乐观。

“以‘AI四小龙’做的计算机视觉为代表的这一代AI技术，主要是基于现有数据进行分析和判断，如今这个方向可以说已经做到极致，卷不动了，AI必须得找一些新的方向，就像如今的AIGC，虽然AI的创作方式并没有太大的改变，但确确实实往前迈了一步。”庄明浩对21世纪经济报道记者表示。

用百度CEO李彦宏的话说就是，人工智能正在从理解内容走向生成内容。

大力出奇迹

话题回到ChatGPT，为何它现在能实现如此革命性的变化？

首先应该说明的是，ChatGPT属于AI技术分支中的自然语言处理，同机器视觉并列，机器视觉解决的是让机器看懂图像中内容，自然语言处理负责让机器理解文字。

我们画画的时候，第一步先圈一些线条或与方块，确定哪里画手，哪里画胳膊，然后在这个基础上画出骨骼线条，最后补充画面细节，这一切完了之后，可能还需要进行光影、色彩等方面的调整。

深度神经网络借鉴了同样的思路，“深度”的含义就是逐层递进，从泛化规律到具体要求，在这个过程中，由于大多数的层级和具体任务的关系不大，就意味着大量基础的训练工作可以复用。

也就是说，我们可以先训练一个基于通用逻辑的“半成品”，比如训练出一个掌握所有线条规律的AI，这个过程称作“预训练”，得到的模型被称为“大模型”，然后绘画、修图、设计领域的工作者们再按照自己的具体要求，进行更进一步的训练，得到一个解决具体问题的最终产品。

由于文字特征比图像特征更加抽象，所以我们更早地看到人脸识别、图像识别、文字识别这些机器视觉领域的应用遍地开花。

2017年12月，谷歌在顶级机器学习会议NIPS上发表了论文《Attention is all you need》，至今仍然影响巨大的Transformer问世，Transformer解决的就是的文字特征提取问题，关键的卡壳问题解决，接下来就显得自然而然。

2015年12月，特斯拉CEO马斯克和Sam Altman等人创立OpenAI，2017年，OpenAI发布其首个生成人类文本的语言处理模型——GPT-1，GPT全称是“Generative Pre-Training”，即“生成式预训练”。

2018年，马斯克离开了OpenAI，OpenAI的解释是回避因特斯拉工作而可能造成的利益冲突。2019年，OpenAI拿到了微软的10亿美元投资，对它来说，还有很重要的一点，微软手里有AI所需要的一切：算力与大数据。

之后便是“大力出奇迹”，从GPT-1到GPT-3，模型的参数量从1.17亿增加到1750亿，预训练数据量从5GB增加到45TB，效果也非常显著，GPT-3可以根据简单的命令式写文章，写菜谱，甚至作曲，堪称目前为止最强大的通用语言模型，不过OpenAI并没有选择开源，这也让GPT-3没能享受到太大的破圈效应。

2021年，OpenAI又基于GPT-3发布了文字转图片模型DALL E，可以直接通过文字生成图片，比如输入“一把牛油果造型的扶手椅”，DALL E就能通过图像合成出一系列的目标图像，虽然功能强大，但OpenAI仍然选择不开源。

ChatGPT是在GPT-3的基础上做了微调，通过加强人类反馈的方式，提升记忆能力，使ChatGPT可以储存对话信息，延续上下文，从而实现连续对话，从而优化对话能力，这极大地提升了用户体验。

“我们很早也判断，AI跟人的交互过程，不应该仅仅是完成任务，更重要的是在这个过程中，让AI根据人的反馈去学习，我们今天看到ChatGPT在预训练的基础上让AI根据人的反馈去细化学习也正是如此。”清华大学惠妍讲席教授、IEEE/CAAI Fellow周伯文对21世纪经济报道记者表示，而在实际使用中，虽然ChatGPT有时会给出错误答案，但在用户反馈后，这些错误很快得到了纠正。

如果说每波技术浪潮的兴起，总是需要一些热点性事件做开场，ChatGPT一定榜上有名。

这次的主题，就是AIGC。

AIGC元年

在ChatGPT之前，AI绘画就已经开始崭露头角。

今年8月，美国科罗拉多州举办的新兴数字艺术家竞赛中，一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》，获得了比赛“数字艺术/数字修饰照片”类别一等奖。

“机器才刚刚开始善于创造有意义和美丽的东西。”红杉在今年9月的一篇文章中表示，正如十年前移动互联网被一些杀手级应用打开了市场，如今的AIGC也站在这样的节点，比赛已经开始了。

上一篇：健康码会走入历史吗？存储的数据将何去何从？ 返回首页 返回栏目

下一篇：华为与OPPO、三星签订全球专利交叉许可协议 5G通信专利进入竞合时代