4月30日,元宇宙之家消息,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,Baichuan 3在国内大模型中排名第一,智谱GLM-4、通义千问2.1、文心一言4.0、Moonshot(Kimi)等大模型位列其后。从全球范围来看,国外同行的GPT-4、Claude3得分更胜一筹。
SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度、多视角、多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。
为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。
测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。
在评测国内外模型通用能力和专项能力的基础上,SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为,Baichuan 3可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外,其还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。
4月28日,中央网信办定点帮扶县佛坪县政府文旅局等相关部门与轻松集团签署战略合作协议。...
4月28日,中央网信办定点帮扶县佛坪县政府文旅局等相关部门与轻松集团签署战略合作协议。...
2 真我GT Neo6 SE体验:靠更亮的屏突围中端市场在真我GT系列的产品序列中,Pro代表旗舰,Neo定位中端,它们均瞄准了2000元价位段。而在4月...
3 百度沾光特斯拉,股价一度涨超6%4月29日, 有消息称特斯拉将使用百度提供的高级辅助驾驶地图用于中国版FSD (完全自动驾驶)...
4 余承东不再担任华为终端BG CEO,原COO何刚接棒华为发布最新一季度业绩之时,其管理层也发生人事变动。 4月30日,据36氪报道,华为内部当...
5 新能源汽车走俏,上海国产功率半导体产线加速扩产上海临港新区,2.5万平的厂房里,数十台载重小车在天花板上的轨道高速滑行。这些遭称为“...
6 苹果启动史上最大规模股票回购,库克称中国是全球竞争最激烈5月3日,苹果公司发布2024年第二财季(截至2024年3月30日的第一季度)营收报告。报告显示,苹...
7 AI明星科学家李飞飞创业,新公司方向是“空间智能”著名华裔人工智能科学家、斯坦福大学教授李飞飞近期创办了一家新的AI公司。这也是她2018年...
8 科技早报|英伟达、AMD或包下台积电两年先进封装产能;微软发英伟达、AMD据悉包下台积电今明两年先进封装产能 5月6日,据《台湾经济日报》报道, AI巨头...
9 从一座城到一家小吃店,年轻人的旅游目标正越来越“小”这个五一小长假大小城市都“火”爆了。 据文化和旅游部数据中心测算,五一期间,全国国内...
10 ChatGPT搜索引擎要来了,但它面临的麻烦还不少新晋 人工智能 霸主 OpenAI 开始 挑战 搜索 市场 格局。 OpenAI很可能推出基于ChatGPT技术的新搜索...
撤稿申请|
备案号:鄂ICP备2022006215号 Copyright © 2002-2022 metaversezj.com.cn 元宇宙之家 版权所有