我国7个数据标注基地已建设数据集524个 服务大模型163个 | 中国平煤神马报

日前,国家数据局举办的2025中国国际大数据产业博览会新闻发布会上传出消息,截至今年6月底,我国7个数据标注基地已建设数据集524个,规模超过29PB,服务大模型163个。

国家数据局副局长余英表示,数据,特别是高质量、多模态、精标注的数据对人工智能发展至关重要,在提质赋能中发挥关键作用,是人工智能发展的不竭动力。

余英介绍,高质量数据集是经过采集、加工等数据处理,可以直接用于开发和训练人工智能模型的数据集,能够有效地提升模型性能。我们日常生活中把高质量数据集分为三类:通识类、行业通识类、行业专识类。

去年12月,国家数据局会同国家发展改革委、教育部、财政部等部门印发《关于促进数据产业高质量发展的指导意见》,聚焦数据产业发展现状和市场需求,推动培育多元经营主体,营造竞争有序、繁荣活跃的数据产业生态。

对于数据产业的发展,余英表示,发展数据产业是推进数据要素市场化配置改革、加快构建以数据为关键要素的数字经济的重要举措,也是发展新质生产力、培育新动能新优势的必然要求。

余英介绍,近期,各地立足发展基础,加快谋篇布局,抢抓数据产业发展机遇。上海、河南等地制定出台促进数据产业发展的实施意见或专项政策,山东、山西等地纷纷开展数据企业培育工作,江苏、浙江等地建立了数据产业发展基金。北京海淀区、杭州高新区、广东深圳前海等地探索建立面向数据产业的专业服务平台和载体。在各方积极探索下,一大批创新型数据企业竞相涌现,数据产业高质量发展的画卷正徐徐展开。

接下来,国家数据局将多措并举,进一步优化产业规划布局,推动数据产业从“单点突破”向“全域发展”转变。下半年,还计划布局建设一批数据产业集聚区试点,支持和引导有条件的地区,立足资源禀赋和产业基础,打造协同互补、特色鲜明、优势突出、具有较强竞争力和示范带动性的数据产业集聚区,发挥产业区域集聚和规模效应,探索多元化数据产业培育发展路径。