我们需要怎样的大模型测评

2023-08-28 02:25:02来源：北京商报

文章导读: 国产大模型又多一份测评，这次的状元是讯飞星火。近日，《麻省理工科技评论》从多维度全方位检测，力图评出“最聪明”的国产大模型。最终，讯飞星火认知大模型V2.0荣获“最聪明”的 ...

　　国产大模型又多一份测评，这次的状元是讯飞星火。近日，《麻省理工科技评论》从多维度全方位检测，力图评出“最聪明”的国产大模型。最终，讯飞星火认知大模型V2.0荣获“最聪明”的国产大模型称号。

　　国产大模型竞赛如火如荼，好像每一个大模型都很牛，但具体牛在哪又始终缥缈，由此大模型测评应运而生。但这又可能注定是一件要“烧情怀”的事，它同样面临着“开源”还是“闭源”的两难选择，和刷题与竞价排名的诸多争议。

　　武林大会

　　国内“千模大战”下，谁是最聪明的大模型《麻省理工科技评论》最新发布的大模型评测报告。该报告称从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力，最终，讯飞星火认知大模型V2.0以81.5分的成绩登顶，荣获“最聪明”的国产大模型称号。

　　8月15日，科大讯飞发布“讯飞星火认知大模型V2.0版本”，科大讯飞董事长刘庆峰介绍，从业界参考测试集上的效果对比来看，星火V2.0基于Python和C++进行代码写作能力已高度逼近ChatGPT，差距仅分别为1%和2%。

　　刘庆峰说，到10月24日星火大模型代码能力全面超越ChatGPT，明年上半年将正式对标GPT4。

　　讯飞星火像是一个缩影。过去这段时间，大模型频繁更新让人眼花缭乱，动辄千亿的参数、各种专业术语也让人不明觉厉。但人们似乎很难找到一把统一的尺子，公平、客观、直观地感知大模型真正的效果，而不被纷杂的信息流所蒙蔽。

　　天使投资人、资深人工智能专家郭涛对北京商报记者分析称，“大模型是一个非常复杂的系统，它由大量的数据和算法组成，在训练和推理过程中需要考虑很多因素。对大模型进行测评可以帮助我们更好地了解模型的性能和特点、评估价值和意义、局限性和潜在风险等，从而为大模型的发展和应用提供有力支持”。

　　深度科技研究院院长张孝荣将测评形容为一场“武林大会”，要试试各家身手。他对北京商报记者分析称，大模型涉及到庞大的参数和复杂的算法，对于性能和效果的评估十分重要。通过测评可以大致地了解大模型的性能、稳定性、准确性等内容，为用户选择合适的大模型提供参考。

　　测评开始补位。今年3月，真格基金以投资者的身份入场，设计了一套大模型测试集Z-Bench。高校也是测评的中坚力量，例如清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。

　　有媒体报道，5月以来，10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告，包括新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》、天津大学和信创海河实验室发布的《大模型评测报告》、国际数据公司IDC发布的《AI大模型技术能力评估报告，2023》等。

　　标准难统一

　　当该有测评成为共识，迎面而来的下一个问题就是，我们需要一个怎样的测评。

　　《麻省理工科技评论》提到，评测使用的测试集包含600道题目，覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类，126个二级分类，290个三级标签，并针对问题的丰富性和多样性做了优化。

　　此前IDC则在测评中将大模型分为三层，服务生态、产品技术以及行业应用，对每一层的能力进行测评，主要考察指标为算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等，具体包括36项细颗粒度的评估标准。

　　对于大模型测评的必要性，元语智能联合创始人兼COO、SuperCLUE联合发起人朱雷提到，模型测评基准是通用人工智能的基石，没有测评就意味着没有目标，很难准确地判断究竟哪些做得好哪些做得不好，同时对于AI的安全性也无法把控。从国际视角上看，对于大模型的测评也是没有绝对标准的，因为大模型发展太快了。但在国内要做出一个客观公正的评测基准，也会遇到很多阻力。

　　北京市社会科学院副研究员王鹏对北京商报记者分析，目前大模型尚属新兴事物，国际上还没有一个覆盖面非常广、能够得到大家公允的评估方法或整套指标体系，需要加强国际合作，形成广泛共识。

　　“但这也会面临一定的问题，即大模型本身类型繁多，通用还是专用、垂类还是跨行业、偏技术还是偏应用等区别也会带来一定的阻碍，因此更需要权威机构加强研究，尽快形成共识，促进技术进步和行业发展。”王鹏称。

　　在他看来，一个合格的测评，应该由四个维度组成。首先是技术本身，包括稳定性、效率、效果等；其次是与行业的结合，在行业应用中是否有效果、成本是否可控、是否能够形成商业闭环；再次还要考虑是否安全可控；最后要从社会及行业认知角度，了解其在行业中的关注度，毕竟“酒香也怕巷子深”。

　　张孝荣也提到，由于大模型涉及的领域和应用非常广泛，不同领域、不同应用的大模型需要关注的指标和评估方法不尽相同。因此，针对具体应用领域和需求，不同机构和组织可能会提出不同的评估标准和方法。“尽管没有统一的标准，但测评的意义在于提供了一种评估和比较不同大模型性能和效果的方法，帮助用户选择适合自己需求的大模型。”

　　测评还是营销

　　“测评的意义侧重于营销推广。”张孝荣还提到了一个观点。

　　360智脑产品资深专家葛灿辉在引用SuperCLUE测评结果的时候，提炼出了一句总结：“360智脑”多项能力位列国产大模型第一。《麻省理工科技评论》的测评报告，传播最多的也是“讯飞星火被评为中国‘最聪明’的大模型”。

　　更早些时候，刷屏的是百度。比如IDC的大模型报告中，“百度文心大模型3.5获多项满分”，清华大学新闻与传播学院沈阳团队发布的《大语言模型综合性能评估报告》中，百度文心一言在三大维度20项指标中综合评分国内第一，超越ChatGPT。

　　每每涉及榜单，榜首归谁总是容易成为话题中心，从这个角度上看，测评本身或许就带着些营销的天然属性。但也正是如此，延伸出了一些不容忽视的问题。

　　“SuperCLUE出6月榜单的时候，第一时间就有人指责我们是不是收了360的钱，但事实是，直到这次沙龙，我们与360智脑产品负责人才有了第一次接触。”朱雷如此说道。

　　事实上，大模型测评同样面临着“开源”和“闭源”的两难选择。朱雷称，大模型测评题集也有开源闭源之分，但开源的题目就会面临受试者提前训练进而刷分“打榜”的可能，而闭源的题目就会陷入到是否有暗箱操作乃至竞价排名的争议。

　　朱雷表示，SuperCLUE还是选择了闭源的测评路线，但不是任何机构都可以闭源的，之所以公众较为相信SuperCLUE的测评结果，主要还是基于过去四年CLUE社区对中文语言模型的贡献和公信力。

　　据了解，CLUE开源社区发起于2019年，旨在建立科学、客观、中立的AI评测基准，过去几年CLUE社区分别建立了ZeroCLUE、FewCLUE等知名的语言模型评测基准，又于今年5月发布首个中文通用大模型综合性评测基准SuperCLUE。

　　SuperCLUE分为SuperCLUE-Opt、SuperCLUE-LYB琅琊榜以及SuperCLUE-Open三个不同维度的评测基准，相辅相成。据介绍，SuperCLUE目前也是中文AI领域最完整的综合性测评基准，同时也是罕见的“闭卷”考试。

　　“我们暂时还没有找到折中的方法，所以决定先‘保密’，大模型厂商不知道我出了什么样的问题，自然不好刷分。至于‘保密’带来的黑盒化，目前来看还是一个两者不可兼得的问题，但我们坚信自己的第三方中立性，评测的结论也是十分科学的。”朱雷称。

　　王鹏分析称，任何一项评估或排名，都可能面临一些问题，但这其实相当于一个“否定之否定”的过程。首先评估体系本身并不是完美的，需要不断优化提升，应对大家可能产生的质疑。

　　其次，专业的评测机构、技术机构等，也要注重自己的口碑，建立完善的体系，储备丰富的经验，有较好的技术团队和技术储备，作出更加客观公允、公平公正的评价。“因为一旦出现‘人情分’等问题，不仅会影响自己的声誉，也不利于行业的未来发展。”王鹏称。

上一篇：卖皮肤被指“割韭菜” 《王者荣耀》七年之痒了 返回首页 返回栏目

下一篇：“考公”热的低门槛与高热度

头条资讯

我们需要怎样的大模型测评: 卖皮肤被指“割韭菜” 《王者荣耀》七年之痒了 “一家人看场电影花了400多” 低价电影票为何难觅踪影？狠砸1亿英镑英国恶补AI“功课”

厄瓜多尔提前举行大选: 退役设备循环利用“风光无限” “双跨”平台加速融合创新交通运输部：7月份网约车共收到8.21亿订单环比上升7.6%

“讨人嫌”的共享按摩椅为何越安越多？起底背后生意经: 浪漫经济升温：餐饮零售市场火爆情侣约会有新花样演唱会经济火爆产业链上市公司业绩向好银发经济推动适老化场景发展加大产品创新满足多样化需求

近期热点

热门文章

日榜周榜: 1 我们需要怎样的大模型测评
国产大模型又多一份测评，这次的状元是讯飞星火。近日，《麻省理工科技评论》从多维度全...
2 卖皮肤被指“割韭菜” 《王者荣耀》七年之痒了
上线七年吸金力依旧不减。据Sensor Tower数据，7月，腾讯旗下游戏《王者荣耀》在全球App Store和...
3 “一家人看场电影花了400多” 低价电影票为何难觅踪影？
《消失的她》、《八角笼中》、《长安三万里》、《封神第一部》、《孤注一掷》，随着一部...
4 狠砸1亿英镑英国恶补AI“功课”
今年，英国的科技行业风险融资几乎消失殆尽，企业纷纷裁员勒紧腰带；硅谷银行英国子公司...
5 厄瓜多尔提前举行大选
厄瓜多尔20日举行总统和国民代表大会(议会)选举，选出总统、副总统以及议会137名议员，任期...
6 主产区累计收购小麦超5000万吨旺季收购进度已超八成
国家粮食和物资储备局最新发布，截至8月15日，主产区各类粮食企业累计收购夏粮5547万吨，其...
7 退役设备循环利用“风光无限”
国家发展改革委等部门日前联合印发《关于促进退役风电、光伏设备循环利用的指导意见》，...
8 “双跨”平台加速融合创新
工业互联网作为新型基础设施，其应用模式和产业生态正在驱动经济社会加快数字化转型。工...
9 交通运输部：7月份网约车共收到8.21亿订单环比上升7.6%
据交通运输部微信公众号消息，据网约车监管信息交互系统统计，截至2023年7月31日，全国共有...
10 “讨人嫌”的共享按摩椅为何越安越多？起底背后生意经
如今，出现在商场、影院、医院等公共场所的共享按摩椅越来越多，也因实际体验不佳、安全...; 1 我们需要怎样的大模型测评
国产大模型又多一份测评，这次的状元是讯飞星火。近日，《麻省理工科技评论》从多维度全...
2 卖皮肤被指“割韭菜” 《王者荣耀》七年之痒了
上线七年吸金力依旧不减。据Sensor Tower数据，7月，腾讯旗下游戏《王者荣耀》在全球App Store和...
3 “一家人看场电影花了400多” 低价电影票为何难觅踪影？
《消失的她》、《八角笼中》、《长安三万里》、《封神第一部》、《孤注一掷》，随着一部...
4 狠砸1亿英镑英国恶补AI“功课”
今年，英国的科技行业风险融资几乎消失殆尽，企业纷纷裁员勒紧腰带；硅谷银行英国子公司...
5 厄瓜多尔提前举行大选
厄瓜多尔20日举行总统和国民代表大会(议会)选举，选出总统、副总统以及议会137名议员，任期...
6 主产区累计收购小麦超5000万吨旺季收购进度已超八成
国家粮食和物资储备局最新发布，截至8月15日，主产区各类粮食企业累计收购夏粮5547万吨，其...
7 退役设备循环利用“风光无限”
国家发展改革委等部门日前联合印发《关于促进退役风电、光伏设备循环利用的指导意见》，...
8 “双跨”平台加速融合创新
工业互联网作为新型基础设施，其应用模式和产业生态正在驱动经济社会加快数字化转型。工...
9 交通运输部：7月份网约车共收到8.21亿订单环比上升7.6%
据交通运输部微信公众号消息，据网约车监管信息交互系统统计，截至2023年7月31日，全国共有...
10 “讨人嫌”的共享按摩椅为何越安越多？起底背后生意经
如今，出现在商场、影院、医院等公共场所的共享按摩椅越来越多，也因实际体验不佳、安全...

热点资讯