AI构建新质生产力,合合信息Embedding模型助力专业知识应用
央广网
2024-03-29 16:34:56

原标题:AI构建新质生产力,合合信息Embedding模型助力专业知识应用

现阶段,大语言模型的飞速发展吸引着社会各界的目光,背后支撑模型应用落地的Embedding模型也成为业内关注的焦点。近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩。相关成果将有助于大模型更快速地在千行百业中产生应用价值。

图1:C-MTEB榜单结果

MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。对应的C-MTEB则是专门针对中文文本向量的评测基准,被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。阿里、腾讯、商汤、百川等多家厂商在此榜单测评发布模型。

Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,捕捉到数据的语义特征和关系,被广泛应用于搜索、推荐、问答、检索增强生成、数据挖掘等领域。互联网时代中,随着信息量急剧膨胀,人们接触信息的渠道不断拓展,大量无关的信息已成为信息检索的干扰项,Embedding模型能够显著提高信息搜索和问答的质量、效率和准确性,让搜索和问答引擎不再只是匹配文字,而是可以真正理解人的意图。

“假设你需要了解如何在家中自制咖啡,可能会在搜索引擎中输入‘家庭咖啡制作方法’,传统的搜索引擎会简单地匹配包含关键词的文章,提供一些关键词相关的内容。”团队成员提到,借助Embedding模型,引擎便能更准确地理解用户意图,从而提供包括但不限于咖啡机选择、咖啡豆磨豆技巧、不同的冲泡方法等更实用的指南。

图2:embedding模型原理示意图

为了更好地发挥大模型在应用过程中的价值,合合信息技术团队打造了acge模型。与目前C-MTEB榜单上排名前五的开源模型相比,合合信息发布的acge模型较小,占用资源少,且模型输入文本长度为1024,满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源。

据团队成员介绍,相比于传统的预训练或微调垂直领域模型,acge模型支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,且应用成本相对较低,可帮助大模型在多个行业中快速创造价值,为构建新质生产力提供强有力的技术支持。

合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。公开资料显示,公司的C端产品覆盖了全球百余个国家和地区的亿级用户,B端服务覆盖了近30个行业的企业客户。《财富》杂志2022年发布的世界500强公司名单中,公司客户已覆盖超过125家。

相关内容

热门资讯

全释硬科技丨致敬2025最闪耀... 转自:央视网 2025年,中国科技创新征程波澜壮阔。全释硬科技,我们今天就用100秒来致敬2025...
备战“内存荒”:消息称厂商直接... IT之家 12 月 27 日消息,在资金并不短缺的情况下,当今的 PC 厂商也越来越难买到足够的内存...
2026年,3D新架构将让国产... (来源:六安新闻网) 转自:六安新闻网 随着芯片产业走向“后摩尔定律”时代,3D集成技术正悄然成为突...
北京市机器人产业协会正式成立 中证报中证网讯(记者 郑萃颖)12月26日,在北京市经济和信息化局的指导与支持下,中国电子信息产业发...
我国在建海拔最高双曲拱坝电站首... 来源:科技日报 科技日报记者 都芃 27日,我国在建海拔最高双曲拱坝电站——华电金上叶巴滩水电站首批...