人工智能大语言模型哪家强
深圳商报
2024-02-28 14:08:12

原标题:人工智能大语言模型哪家强

深圳商报首席记者 吴吉

日前,港大经管学院深圳研究院蒋镇辉教授领导的人工智能大模型评测团队发布了《人工智能通用大语言模型评测报告》。报告显示,中文语境下,文心一言4综合表现最佳;而在英文语境下,GPT4-turbo领先优势明显。

报告从用户视角出发,构建了一个新的人工智能大语言模型综合评价体系,主要包括三大核心能力:通用语言能力、专业学科能力以及安全与责任。

经过对14个不同的大模型的测试与评估,在中文语境下的大语言模型能力测试中,文心一言4、GPT4-Turbo和通义千问2综合表现卓越,位列第一梯队,处于领先者的地位。其次是GPT4、讯飞星火v3.0和商汤日日新,位列第二梯队。

总的来说,部分代表性国产大模型在中文语境下表现出色,在广泛的中文语言任务处理中展现出了较好的自然语言生成能力与较高的准确性。

根据研究团队的测试,在通用语言能力方面,尽管是中文语境下的测试,国产大模型仍落后于GPT4-Turbo和GPT4,尤其是在内容生成类任务中差异较为明显。在中文的专业学科测试中,通义千问2正确率最高,文心一言4也超越了GPT系列模型,展示出优异的性能。

此后,在中文语境工作的基础上,评测团队将研究视野扩展至英文语境。在评测中,项目组构建了全新的英文测试集,并在中文报告涵盖的14个大模型的基础上增加了几款国际主流的通用大模型。

经过对16个不同大模型的测试与评估,GPT 4-turbo凭借领先的自然语言和专业学科能力取得了整体优势,成为唯一综合得分超过80分的大模型,处于领先者地位。

Gemini Pro、Llama2、GPT4、文心一言4、Claude2等五款大模型的综合得分集中于73到78之间,表现较为接近,位列第二梯队。作为Google推出的全新大模型,Gemini Pro综合排名第二,且在各项能力上都排在前三位,表现均衡。国产大模型文心一言4.0以出色的表现位列总榜第五,不仅在国产模型中排名最高,而且在整体排名中超越了Claude2和GPT3.5-turbo这两个已投入商用的英文原生大模型,展现了其优越的综合能力及对英文环境的良好适应性。

相关内容

热门资讯

千兆宽带缩水,上网需要不打折扣... 近日,知名博主罗永浩吐槽网速一事引发热议。他在朋友圈称,自己搬到上海开了电信的独享千兆宽带半年多来,...
追觅科技俞浩荣膺“2025封面... 本报讯 (记者袁传玺)12月19日,追觅科技(苏州)有限公司(以下简称“追觅科技”)创始人兼CEO俞...
记者观察:从首届MDC看摩尔线... 来源:中国经营报 中经记者 李玉洋 北京报道 把GPU事业运行成功的“底层代码”是什么?有人说,是把...
11月微信入境支付交易金额同比... 深圳商报·读创客户端首席记者 袁静娴 12月17日,30位来自欧洲、美洲、南美等地区的IESE商学院...
一个人就是一支队伍!上海首个人... 来源:市场资讯 (来源:文汇报) 这是一个属于“超级个体”的时代。在徐汇区,一种深度融合“超级个体...