​首个Al高考全卷评测结果发布:数学全不及格
创始人
2024-06-20 09:03:52

鞭牛士 6月19日消息,今日,上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。

据悉,司南评测体系首次采用高考全卷测试的形式,选取新课标I卷“语数外”三科题目作为测试集,共选取了7个大模型进行测试。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAl的GPT-4o排名第二,得分296分,上海人工智能实验室的书生浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

测试结果显示,这几个大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分。

司南评测体系分析称,总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。语文平均得分率为67%,英语达到了81%,而数学则是所有大模型的短板,平均得分率仅为36%。

相关内容

热门资讯

英脉智能取得安全带开关控制器胶... 国家知识产权局信息显示,苏州英脉智能设备有限公司取得一项名为“一种安全带开关控制器胶套组装机构”的专...
超全攻略:2025年最新手机号... 办卡关注 微 信 公 众 号 :找卡乐园 这里是专为你打造的流量卡服务站,既能帮你揭开流量卡市场的各...
算力赋能 打造生命科学云上新范... 云端算力驱动生命科学创新,实现百万样本高效分析 某生命科学研究院推出的生命科学数据分析平台,是一款基...
曝联发科天玑9500s对标骁龙... IT之家 1 月 12 日消息,博主 @数码闲聊站 今天在微博透露,联发科天玑 9500s 芯片在配...
字节跳动出手,自变量机器人完成... 1月12日,自变量机器人宣布已于近期完成10亿元A++轮融资。本轮融资由字节跳动、红杉中国、北京信息...