发布时间:2026-03-31 12:00:11
3月30日消息,中文大模型基准测评SuperCLUE公布了2026年3月的最新测评结果,共有22款国内外主流模型参与此次竞争。
字节跳动旗下的豆包(Doubao-Seed-2.0-pro-260215(high))凭借71.53分的成绩斩获国内第一,成功进入全球第一梯队;小米集团的MiMo-V2系列两款模型也都顺利登上榜单。
本次测评覆盖数学推理、科学推理、代码生成等六大核心任务,全面检验模型综合能力。海外闭源模型依旧占据总分前列,Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)和OpenAI的GPT-5.4(xhigh)分列前三。
豆包则紧随其后,总分仅与GPT-5.4相差0.95分,实现全方位追赶,在智能体任务规划维度更是反超部分海外模型,跻身全球前五。
小米此次有两款模型入选测评榜单,其中MiMo-V2-Pro以60.67分位列闭源模型前列,在数学推理任务中取得84.03分的亮眼成绩;开源版本MiMo-V2-Flash虽以49.97分排名靠后,但在代码生成等细分场景中表现出一定潜力。
测评结果还表明,国产模型整体表现十分出色,在开源领域的表现尤其突出,Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等国产开源模型占据了开源榜单的前三名,其表现显著优于海外的同类模型。
生存33天沙漠之王BOSS打法技巧
发布于 2026-03-31
1
4月1日《王者荣耀》S43赛季将正式上线!
发布于 2026-03-31
2
饼干人联盟辣椒碎片饼干技能效果的详细介绍
发布于 2026-03-31
3
物华弥新沃土织金活动玩法全攻略
发布于 2026-03-30
4
荣耀WIN游戏本4月来袭!与《三角洲》职业联赛合作:冲击高端性能旗舰
发布于 2026-03-30
5
市场热议华为Pura 90系列:超大杯机型或被取消,4月新品发布引发讨论
发布于 2026-03-30
6
官宣!《红色沙漠》将登陆Switch2 性能真的能跟上吗?
发布于 2026-03-30
7
大疆Avata 360新品发布:2788元起售,全景相机市场会因它改变格局吗?
发布于 2026-03-30
8
Win11任务栏迎来Win10风格回归!可调节大小并能改变位置
发布于 2026-03-30
9
《生化危机9:安魂曲》推出重磅更新!玩家能够更细致地欣赏里昂、格蕾丝与丧尸的模样了
发布于 2026-03-30
10
备案号:闽ICP备2025091152号-1
声明:所有信息来自互联网,如有异议请与本站联系,本站为非赢利性网站不接受任何赞助和广告。注意自我保护,谨防受骗上当。
如有侵权,敬请来信告知(xiyou202507@163.com),我们将及时撤销。