首个Al高考全卷评测结果发布：数学全不及格_科技资讯

创始人

2024-06-20 09:03:52

鞭牛士 6月19日消息，今日，上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。

据悉，司南评测体系首次采用高考全卷测试的形式，选取新课标I卷“语数外”三科题目作为测试集，共选取了7个大模型进行测试。

语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分，OpenAl的GPT-4o排名第二，得分296分，上海人工智能实验室的书生浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

测试结果显示，这几个大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分。

司南评测体系分析称，总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。语文平均得分率为67%，英语达到了81%，而数学则是所有大模型的短板，平均得分率仅为36%。