——大模型行业应用能力测试报告摘要
■ 国研经济研究院课题组
生成式大模型拥有内容生产、语言理解、知识问答、逻辑推理、数学、编程和多模态等多种能力,是近年来最具颠覆性的产品之一,在各行业的应用日趋广泛。开展大模型行业应用能力评测,是促进人工智能技术和产品与实体经济深度融合发展的重要支撑,有利于充分发挥我国人工智能产业在数据与应用场景等方面的比较优势,为大模型企业迭代优化提供明确方向,为实体行业提供大模型最佳应用方案,并为促进产业健康有序发展提供政策依据,从而推动生产方式变革,加快实现高质量发展。
国研经济研究院开展大模型行业应用能力评测,围绕数字经济与实体经济深度融合面临的成本高、要素支撑不足和数据价值实现难等核心问题与挑战,从当前实体行业面临的三大矛盾,即规模化生产与定制化需求的成本矛盾、企业既有经验与知识繁杂难以向创新转化的矛盾,以及前期投入高、回报周期长与短期效益不彰之间的矛盾出发,基于大模型对实体经济行业降本、提质、增效的关键着力点设计评测体系。
本评测面向装备制造、医疗、教育和法律服务、工业设计、零售行业等关键行业,从知识掌握水平、知识运用能力与行业“痛点”问题解决方案三个维度,全方位评估国内外大模型的行业综合应用能力。在行业知识掌握水平上,星火大模型在医疗行业、法律服务和计算机领域等多个行业中表现较为优秀,GPT4在工业设计、零售行业和装备制造中表现最佳。在行业知识运用能力上,GPT4在在法律服务、教育行业和零售行业等多数行业中表现最好,星火大模型在工业设计和医疗行业的表现优于其他模型,在计算机行业中的表现也较为优异。在相关细分领域的测试中,星火大模型的准确率也较高。
同时,课题组认为,评测大模型的行业应用能力不能仅局限于得分高低和模型排名,而要能够帮助大模型解决行业应用中的实际“痛点”场景。鉴于此,本次测评还选取制造业、教育与医疗三个行业进行了大模型应用案例剖析,详细评测了其能力边界、当前解决的主要问题以及在行业应用中带来的“降本、提质、增效”等表现。
总的来看,本次重点评测的星火大模型3.0版表现国内领先,并在完全国产自主可控的技术平台上,已经取得了与国际一流大模型表现相当的水平,这表明我国在大模型相关技术的基础研发和行业应用方面已经取得了重要进展,并且有可能在未来引领全球人工智能技术的发展。
长期来看,大模型将对所有行业与个人产生深刻影响。政府应秉持“包容审慎、自立自强”的监管原则,建立和完善符合大模型产业发展所需要的数据与算力基础设施;鼓励大模型行业场景应用,建立行业大模型协同创新联合体,降低中小企业采用大模型进行数字化转型的成本。加大对国内大模型企业创新的支持力度,提升适应于大模型应用的人力资本水平,完善适宜的就业创业政策;积极鼓励国产大模型及其应用出海。同时,也要综合运用个人权益、知识产权、竞争性政策等政策体系,定期组织社会组织、科研机构、龙头企业等各界代表评估产业发展和政策风险,在“干中学”中持续提升政府对人工智能领域的治理能力,不断探索兼顾发展与安全的适宜政策体系。
最后仍需要强调,我国尽管已经取得了数字时代“换道超车”优势,在人工智能领域紧追世界前沿,但是较之于世界先进水平,我们尚没有形成技术优势。在人工智能领域的基本政策仍应是支持创新,加快发展。因此,我国仍应稳定政策预期,加强政府与市场主体的沟通、合作,提供优于全球其他国家的产业发展支持环境,不断完善、优化数字经济和人工智能时代新的市场治理体系。
总 监 制丨王 辉
监 制丨李丕光 王彧 刘卫民
主 编丨毛晶慧 编 辑丨邹 朵