5月26日,湖北省数据局正式发布第二批湖北省高质量数据集。自今年3月启动征集评选工作以来,共吸引全省54家企事业单位申报70个数据集,数据总量达577TB。经过专家评审筛选,最终25个涵盖交通、制造、科研等领域的数据集脱颖而出,成功入选本次名单,标志着湖北在人工智能基础设施建设上再进一步。
高质量数据,是人工智能发展的“地基”,是算法训练的“教材”,也是未来产业智能化升级的“燃料”。湖北正通过高频次、常态化的数据集发布,夯实AI发展的核心要素,构建数据强省,赋能千行百业数字化转型。
破解AI训练的“数据瓶颈”
人工智能被誉为引领新一轮科技革命和产业变革的核心驱动力,而在AI发展的三大要素——数据、算法与算力中,数据无疑是最基础也最关键的一环。
所谓高质量数据集,是指经过采集、筛选、清洗、加工等环节后,可以直接应用于AI模型训练开发、能够有效提升模型性能的“精品数据”。与普通的“原始数据”相比,高质量数据集更像是AI的“教辅资料”和“专业教材”。
以入选本次目录的“交通基础设施多模态三维构件数据集”为例,该数据集由中交集团打造,覆盖道路、桥梁、隧道等基建场景,包含59308个样本,数据总量约11.8TB。其创新之处在于整合了图片、三维点云、文本等多模态数据,并统一了不同软件平台的数据格式。“过去各系统的数据标准不一,就像各地说着‘方言’,现在我们通过标准化底座让数据‘说普通话’。”中交信科集团负责人形象地比喻。
这一标准化处理使“蓝翼大模型”能够精准解析交通场景,助力武汉东湖高新区实现路口通行效率提升。每天上午10时,民族大道路口进入车流高峰,通过摄像头和传感器采集的数据实时输入模型,计算出最佳的交通灯配时方案,令现实中的交通灯实现智能放行。实践结果显示,车流效率提升了10%,通行速度提升8%,等待时间则下降了5%。
数据显示,中交集团依托“陆、海、空、天、网”全场景布局,已经构建出了158TB多模态数据集,行业知识覆盖率超75%。此类数据集不仅加速了AI模型的迭代效率,更推动数字孪生技术在智慧城市、港口航道等领域的落地。例如,“蓝翼大模型”已从交通管理延伸至市政环保、装备制造等领域,成为跨行业的“超级大脑”。
35个数据集释放产业红利
随着第二批25个数据集的发布,湖北省已累计推出35个高质量数据集,涵盖科学研究、工业制造、农业农村、智慧能源、交通运输等14个重点领域,数据模态包括文本、图像、视频、结构化数据等多种形式。这些数据集不仅具备高适配性与准确性,也展现出强大的行业辐射能力。
湖北省数据局数字科技和基础设施建设处相关负责人介绍,通过常态化征集发布机制,湖北正逐步建立起“数据集项目储备库”,并同步探索高质量数据资产的合规流通和商业转化路径,推进数据资源向生产要素加速转化。
在机制建设方面,湖北省将充分发挥各行业主管部门的统筹作用,建立“省地协同”的工作机制。同时,强化行业“链主”企业的引领地位,鼓励龙头企业牵头建设数据集,联合高校、科研院所、行业协会和开源平台共同参与,推动“产学研用”联动发展。
在生态构建方面,湖北还积极支持数商企业、第三方研究机构开展数据技术创新与前沿场景探索,培育多元市场主体参与“数据开发生态圈”。同时,还将推动高质量数据集“设施化”建设,围绕业务协同需求,探索点对点数据流通交易机制,推进行业数据流通平台建设,实现跨区域、跨行业的数据要素自由流动。湖北将持续支持数据交易机构互联互通,打破区域壁垒,畅通数据流通渠道,为人工智能产业发展提供源源不断的“养料”。