“我听说o2在GPQA上获得了105%。”几天前,山姆·奥特曼在X平台上突然发了这么一句话,但马上又写道,“见鬼!账号错误!”
这位掌控OpenAI公司的CEO,就这样以如此戏剧性的玩笑方式透露了OpenAI o2的进展。GPQA(Graduate-Level Question Answering)是一项研究生水平科学知识问答能力的基准测试,此前,OpenAI o1在这项测试中仅得到78%的成绩。
o2的得分也大概率不会超过100%,但这番“鬼才营销”仍然引起了全网热议。
当国内大模型领域还没有复刻出o1-preview一星半点的时候,OpenAI已经在“有意”透露具备多模态能力的完整版o1了。它能看懂并正确解答复杂数学题,识别人类史上首张黑洞照片,这使得外界对o2的能力更为好奇,也吸引一众国内大模型玩家朝着o1跃跃欲试。
“AGI有救了。” o1发布那天,李江一早就把一篇介绍OpenAI o1的科普文章从头读到尾,一颗心稍微沉下来些。
过去几个月,李江一直处在焦虑之中。GPT-5迟迟没有发布,一种隐隐的压力围绕在和李江一样的大模型从业者周围。外界舆论从最初的追捧,变成猜测“六小虎”中哪家公司会扛不住先关门,或者遭收购。
智谱AI、百川智能、月之暗面、Minimax、零一万物、阶跃星辰这六家中国大模型初创公司,遭业界冠以“六小虎”之称。过去一段时间,他们都拿到了数十亿乃至百亿人民币级别的融资,都在烧钱抢算力、抢人才,希望成为中国的“OpenAI”。
随着大模型从业者们信仰的Scaling Law(规模法则)遇到瓶颈,所有长远宏大的商业故事都要讲不下去了。“Scaling Law”是有关模型性能随着参数量、数据量、计算资源等增加而变化的规律,此前几乎是抵达AGI(通用人工智能)的唯一通路。
这种境况下,模型训练不得不脱离“大力出奇迹”的轨道。据《中国企业家》报道,百川智能CEO王小川近日接受其采访时提及,“去年焦虑买不到卡,今年焦虑有卡不知道该干嘛。”很多团队把重心集中在一些微调(Fine-Tuning)工作上,让模型针对特定任务或领域进行优化。
李江所在的公司也是“六小虎”之一,外界的唱衰声不时传进团队成员的耳朵里。虽然大家还是坚信长远的光明,但现在仿佛都遭乌云笼罩,看不清好的方向在哪里。
最终又是OpenAI将这片“乌云”吹散了大半。9月13日,OpenAI发布o1大模型,它改变技术策略,加入了强化学习和思维链,大幅提升了模型的推理能力,也将训练重点从预训练(pre-train)转向后训练(post-train)。
这遭认为是大语言模型带领人类通往AGI的关键技术范式变革。
一名AI领域的投资人对界面新闻记者表示,大模型需要能够使用知识,而不只是具备知识。使用知识的能力是思维,而思维才是人类工作的核心价值。OpenAI o1所展示的思维能力,是大模型从“快思考”向“慢思考”进化的关键指标。
而摆在国内创业者面前的选择题便是,要不要跟进?
考虑到每家公司的领导者对AGI的理解不同,团队技术实力存在差异,落地场景方向各有侧重,以及可跟注的筹码大小不一,国内大模型战局正在显现分水岭。
让所有人能继续抄作业前段时间,零一万物创始人兼CEO李开复去了一趟硅谷,带回不少OpenAI的“八卦”,还在直播间饶有兴致地讲了起来。
据他所述,外界期待已久的GPT-5训练得不太顺利,问题出在如何搞定一个“十万卡集群”上。风光面世的OpenAI o1只是遭临时祭出的产物,这套方法原本没打算这么早公开。但为了吸引投资人继续投钱,这个动作不得不执行。
另一方面,OpenAI也想借此炫技,让外界意识到,“你们只是看起来快追上我了,等我多露两手再看看。”很快,OpenAI宣布融资66亿美元,估值来到1570亿美元。
“其实我们还有很多好东西,只是没有发布。”OpenAI的内部人员对李开复说,“因为我们一发布你们就会学。”
这名OpenAI人士担心得没错,这正是国内大模型领域的追赶状态,甚至成为一种技术学习的策略。
“我们确定要尽快追赶它,让它有压力。”李开复说,“这样它就把一些好东西丢出来,我们大家就有更多的灵感了。”
o1就是现阶段所有人的灵感。它提出了一个新思路。根据这家公司显示的技术信息,除了加入强化学习和思维链,它的本质变化是将Scaling Up的方法从预训练阶段转移到了推理阶段,让模型在“推理时计算”中获得更高的智能水平,也就是Post-Training Scaling Law(后训练扩展律)在发挥作用。
这套新范式的力量真有这么大吗?在技术上如何理解o1范式可能加速AGI进程?
大模型行业上一个重要技术转变是从Dense Model(稠密模型)到MoE架构(Mixture of Experts,混合专家模型)。这个变化本身带来的是速度提升,而没有太多能力提升,技术曲线从这里开始变缓和。但推理层强化学习可能改变这条曲线,它对应的是投入资源和所能达到智能上限的关系——模型智能水平由此可能实现突破。
大佬们的观点是相近的。在o1发布一周后,阶跃星辰CEO姜大昕公开表示,o1是大模型首次同时具备人类大脑System 1和System 2的能力,这是大模型开始具备归纳世界能力的关键一步。月之暗面创始人兼CEO杨植麟直言,o1的主要意义在于提升了AI的上限,很大程度上证明了这套范式对于下一步Scaling Up初步可行。
换句话说,o1代表的技术范式还不至于是AGI的直通车,但它的确是一列全新的特快车。
界面新闻记者从不同信源处了解到,Minimax已经在推进类o1产品,预计最快明年一季度发布。月之暗面和阶跃星辰目前的主要精力可能仍是年底计划发布的多模态大模型,但o1也都在其各自的技术路线图上。
百川智能在强调医疗方向的落地场景后,暂时还没有透露出要加码o1方向的信号,不过内部一直有强化学习的训练经验。此外,多名受访者认为,智谱AI大概率会跟进o1,而李开复则明确表示,包括零一万物在内,预计五个月后就会有不少类似o1模型的能力出现在各个公司。
“国内大模型公司都是抄OpenAI的路线,既然它蹚出了一条路,你也没有这么多试错成本,为什么不去copy它?”李江认为,这个选择理所当然。
不比GPT-4简单强化学习不是新东西。在此之前,很多大模型团队都在尝试强化学习这条路,只不过更快验证其正确性的依旧是OpenAI。
“但凡是做过机器学习的,这个方法你确定会想得到,只是说愿不愿意投这么多资源去试这条路。”李江说。
事实上,它还是今年诺贝尔化学奖其中两位获得者所在公司DeepMind的拿手好戏。这家公司用深度学习和强化学习的思路在很多垂直领域作出了突破贡献,比如AlphaFold和AlphaGo。
至于o1为何现在才出现,一名大模型技术从业者对此解释道,一方面,模型参数的量级不同,这是决定性差距;另一方面,这当中的关键变量是强化学习和大模型的碰撞。如果以o1为结果,大模型和强化学习是一组由“乘号”连接的齿轮关系,但凡其中一种弱,整体都不会太强。
就技术而言,从业者认为o1比GPT-4更难,因为这当中的知识不会公开,团队必须自己尝试。“post-training(后训练)里面的秘密很多,而且越来越寡头化。”前述受访投资人说,“在这场竞赛里,技术能力和技术vision(视野)的占比变高了。”
也就是说,它需要天才的技术灵感,外加可落地的工程能力。
“最重要的是,首先有人能想得出整体的架构怎么做。”李江表示,做这件事需要的是天才,而不是“搭建一个50人团队”。相当于OpenAI o1现在是“黑盒”,创业公司需要分配更多精力给强化学习,靠研究能力把“黑盒”变成“白盒”。
工程上也还有大量的细节和难点。例如,算力方面,由于推理层的算力需求可能会出现爆发式增长,优化AI Infra(基础架构)以快速降本的意义进一步凸显。数据方面,这套新范式相当于将一个Agent(智能体)内置到模型中,因此,自动化数据训练的pipeline(管道)也需要重新构建。
它同时提升了数据标注的难度和复杂度。生数科技首席科学家朱军在今年的云栖大会上谈论过,从科研的角度看,这当中过程监督的数据变得十分重要。它和直接从结果监督的数据不一样,是要对思考过程的每一步进行标注,这种数据由于需要专业人士投入,因而具备确定获取难度和高价值。
王小川也曾表示,他对o1的好奇有很多,例如拥有多少算力,以及多少领域专家。这大致对应o1训练数据的规模和质量。
Self-Play RL(自我博弈下的强化学习)虽然可以让模型自动生产数据来学习,但仍然需要人工的参与,并且是高质量的参与,其中就包括人工标注数据来告诉它结果好还是不好。
李江形容,数据标注既吃人力又吃学历,是一份看起来蓝领,但又特别要求白领的工作。“如果你没有模型聪明,你就没有价值,所以你要比模型的答案还好,而这份工作又特别枯燥,这样的行业专家不好找。”
o1这条路未来可能遇到的最大瓶颈还是来自通用性,也就是模型的泛化能力。例如,o1的数学、编程类能力尤其突出,但弱逻辑类的能力培养还有待解决。
强化学习中有一个关键环节叫做Reward Model(奖励模型),用于评估Agent的行为表现,并指导其学习过程。在特定垂直领域,奖励机制可以写得清楚明晰,但面对更加泛化和开放的场景,Reward Model将变得难以定义,这也是以o1范式在实现通用性过程中要突破的重要关卡。
“这是一个悬而未决的问题。”李江说,这再次回到了各家科研能力的比拼上。即便是在公司内部,这种“灵感”现在也无法随意讨论,“因为这个事情太新了,‘灵感’要真金白银才能烧出来。”
事实上,大模型未来在提升强化学习模型的泛化性上会遇到什么困难,还不得而知,短期内能够复现某个垂直领域的国产o1就是一种胜利。开始习惯这个领域技术波动的李江就是这样想的,“在这个阶段,做长远的Road Map(路线图)毫无意义。”
好学生的“附加题”云启资本合伙人陈昱每半年就要飞一趟美国,定期看看那边发生了什么,这让他对o1有一个更为冷静和理智的看法。
诚然,o1代表了OpenAI在解决复杂问题上的探索,但它仍然有很大的局限:成本约为GPT-4o的6倍,使用次数的限制,较长的等待时间,以及一些简单问题仍然会出错的状况,目前的形态更像是给学有余力的好学生去做的“附加题”。
11月5日-10日,第七届中国国际进口博览会在 上海 国家会展中心 举办。在前六届进博会上, 与...
11月5日-10日,第七届中国国际进口博览会在 上海 国家会展中心 举办。在前六届进博会上, 与...
2 湖南省通信管理局公开公告10款未按期完成整改APP(2024年,第四湖南省通信管理局公开公告10款未按期完成整改APP(2024年,第四批) 依据《中华人民共和国网...
3 四川省通信管理局关于电信服务质量的通报(2024年第2号)四川省通信管理局关于电信服务质量的通报(2024年第2号) 根据《中华人民共和国电信条例》...
4 广东省通信管理局关于下架1款侵害用户权益APP的公告广东省通信管理局关于下架1款侵害用户权益APP的公告 依据《中华人民共和国个人信息保护法》...
5 关于云南云蚁信息科技有限公司终止经营增值电信业务的公示关于云南云蚁信息科技有限公司终止经营增值电信业务的公示 云南云蚁信息科技有限公司向我...
6 关于拟注销厦门茶殿网电子商务有限公司等两家企业《福建省增关于拟注销厦门茶殿网电子商务有限公司等两家企业《福建省增值电信业务经营许可证》的公...
7 江苏省通信管理局关于注销12家企业增值电信业务经营许可证关于注销12家企业增值电信业务经营许可证的通报 根据《中华人民共和国行政许可法》第七十...
8 天津市通信管理局关于拟注销《中华人民共和国增值电信业务经关于拟注销《中华人民共和国增值电信业务经营许可证》的公示 近期,鸿宇金柯(天津)科技...
9 山西省通信管理局关于注销山西趣牛科技有限公司等4家企业增山西省通信管理局关于注销山西趣牛科技有限公司等4家企业增值电信业务经营许可的通报 根据...
10 山西省通信管理局关于拟注销山西数漫社科技有限公司等2家企山西省通信管理局关于拟注销山西数漫社科技有限公司等2家企业增值电信业务经营许可证的公...
撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有