在技术迸发、智慧涌现的AI时代,中国企业从不会缺席!如果说ChatGPT是生成式AI爆发的“导火索”,那么接连而来的国产大模型就像装满火药的战船,在奋勇冲锋中炸开了一道又一道关口,整体缩短甚至局部超越了与ChatGPT的航距。目前为止,业界比较认可的国产大模型分别有讯飞星火、文心一言、通义千问和360智脑等,而令大家好奇的是,这些国产大模型之间孰强孰弱?近期,老牌知名科技媒体IT之家重磅推出了四款主流大模型的横向测评,其中诸多测试结果令人意想不到。
此次IT之家对国产大模型进行了10个维度的评测,每个维度单项得分10分,累计总分100分。这样的打分机制非常公平,10个维度也依次体现了大模型的场景应用。根据测试结果,讯飞星火以总分93分的成绩一骑绝尘,并且在“终端支持”、“语言理解能力”、“代码编写能力”、“多轮对话能力”“AI助手功能”等单项获满分。百度的文心一言则以84分的总成绩紧随其后,360智脑和通义千问总分与讯飞星火有较大的差距。
具体到测试单项,在终端支持能力上,讯飞星火是目前唯一“五端全覆盖”的国产大模型,五端分别指安卓、iOS、小程序、PC和H5,几乎涵盖了移动端和桌面端的所有设备。用户既可以在上班的时候,将讯飞星火当成AI辅助工具,又可以在移动办公或出差的时候,随时打开讯飞星火寻求“支援”,随时随地获得大模型能力的加持。
在语言理解能力测试上,这向来就是讯飞星火的“主战场”,自AI语音起家,讯飞背靠认知智能全国重点实验室与五大声学实验室,在自然语言理解技术上拥有深厚沉淀。在IT之家的测试中,多次采用“一语双关”或“一语多意”的词汇来检测理解能力,结果讯飞星火都深度理解了语言背后的深层意图,并给出了很有逻辑性且精炼的回答。
在多轮对话能力测试中,IT之家采用唐诗宋词来“考”大模型,结果360智脑把白居易描写草原的诗强行说成描写月亮,犯了“张冠李戴”的错误。而讯飞星火不仅能识别描写月亮的诗词,还自行创作了两首描写月亮的诗,创作水平真不赖。而在代码编写能力上,讯飞星火更展现了极高的“天赋”,生成的代码不仅规范简洁,还直接通过了程序运行工具的检测,可以完美执行。讯飞星火也成为了IT之家在测试中四款大模型中唯一一款生成代码“可用”的大模型,表现突出。
据了解,讯飞星火自5月首发以来,历经6月9日的V1.5迭代,又将要在8月15日迎来新一轮迭代,其官方宣布8月15日将升级代码能力、开放多模态能力,并在知识问答能力等方面持续提升。即便目前讯飞星火在代码能力上已经非常出色,但依然有巨大的向上空间,未来或许人人都可以借助AI之力化身“码农”,这不禁让人们充满了期待。
通过IT之家对四大国产AI模型的横评,几乎可以肯定地说,讯飞星火是目前最好用、最聪明的国产大模型之一,并且未来还有巨大的提升空间,最终要跟ChatGPT“掰一掰”手腕。
如今,国内大模型发展局面已经逐渐明朗,国产大模型梯队也渐渐形成,很高兴看到企业在大模型赛道呈现你追我赶的态势,因为这也成为了实现中国“智慧涌现”的强大引擎。
...
...
2 兴业银行携手腾讯金融科技打造企业支付助手近日,兴业银行深圳分行携手腾讯金融科技联合推出中小企业支付助手,为企业客户提供“审...
3 兴业银行落地市场首批混合型科创票据中国江苏网7月29日常州讯7月26日,兴业银行牵头主承销的湖北省路桥集团有限公司2023年度第二...
4 中国银行山东省分行100亿元贷款支持开发区建设7月28日,由山东省商务厅、中国银行山东省分行共同主办的“智融合,创未来”开发区专题对...
5 农行嘉祥县支行:烈日炎炎显真情 金融服务惠师生大众网见习记者 司展雯 通讯员 张成志 王慧慧 济宁报道 七月以来,嘉祥县某技工学校新一届...
6 涉嫌严重职务违法,浦发银行一干部被查据宝山区监委消息,上海浦东发展银行股份有限公司总行私人银行部原产品管理处产品经理代...
7 新模式新工具落地见效 金融活水灌溉科创沃土“我们作为医药类的科技创新型企业,对资金的需求很大。”北京迈迪顶峰医疗科技股份有限...
8 农行郴州分行与郴州市商务局签署战略合作协议湖南日报·新湖南客户端7月29日讯(通讯员 胡智飞 )7月28日,由湖南省商务厅与中国农业银行...
9 住建部明确重点方向 房地产政策加快调整优化住房和城乡建设部部长倪虹近日表示,大力支持刚性和改善性住房需求,进一步落实好降低购...
10 住建部对楼市最新表态 利好商业银行商业银行再迎一大利好。 近日,住房和城乡建设部部长倪虹表示,要继续巩固房地产市场企稳...
撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有