在全球AI竞赛进入白热化的当下,数据标注产业正从幕后走向台前,成为决定AI发展高度的关键战场。
作为全球数据大国,中国在这场数据争夺战中展现出独特优势:截至今年3月,国家首批7个数据标注基地的数据标注总规模达到17282TB,基地形成335个高质量数据集,覆盖医疗、工业、教育等行业,赋能121个国产AI大模型的训练迭代,带动数据标注行业相关产值超过83亿元。
国家级数据标注基地构建起产业骨架,地方政府也纷纷推出政策“工具箱”,为数据标注产业注入创新动能。
3月24日,河南省发展和改革委员会印发《河南省2025年推进“人工智能+”行动工作要点》,以“数据要素市场化”为主线,通过制度创新打通“数据标注、场景应用、价值转化”链条,在国家数据基础设施互联互通的框架下精准落子——以郑州数据交易中心扩容升级(目标50亿元备案交易规模)为枢纽,联动7个省级数据标注基地开展差异化探索(如医疗影像、工业质检等垂直领域)。
这场自上而下的产业跃迁正穿透政策文本,浸润至数据标注产业的毛细血管末梢。
3月31日,河南平煤神马人力资源公司(下称人力资源公司)数据科技中心吴寨矿职场主楼四楼,宽敞明亮的办公室里,职工杨晓恒眼睛紧盯着电脑屏幕,食指熟练地操纵着鼠标,快速识别出图片中的交通标志后,进行拉框标注。类似的操作,他和同事们每天重复成千上万次。
他们是数据标注员,需要教AI产品认识、识别物品,把图片、语音、文本、视频等原始数据进行分类、注释、标记,进而转化成AI可以理解的结构化语言,为AI训练提供“养料”。2020年2月,作为人工智能训练师的一个工种,数据标注员被正式纳入国家职业分类目录。
当所有行业都在尝试用AI代替人力的时候,数据标注这一行却需要大量的人力去做AI做不了的事情。
也正是基于这一特性,提供专业的数据标注服务的公司近年来在全球各地应运而生。
人力资源公司于2023年年底引入数据标注项目,并不断把项目做大,从最初的20多人发展到现在的近300人。
既然上了桌,不论是集团还是地方政府,都想把数据标注这块蛋糕做得更大,将其培养成数字经济发展中新的增长极,为全国数字经济版图增添一抹亮色。
3月19日,集团与新华区政府、北京鸿联九五信息产业有限公司达成战略合作,携手共建数字标注产业项目,将其打造万人规模的河南省数据标注行业标杆基地、煤炭行业最大的数智产业基地,预计年产值达12亿元。
在技术路线尚未定型、市场规则亟需建立的新兴领域,将300人敏捷型团队裂变为万人级组织生态,挑战重重。
不过,集团手握4张关键底牌。
第一张,丰富的劳动力资源。数据标注产业初期依赖大量人力。集团目前在岗职工10.8万人,随着“万名矿工大转岗”政策不断落地,富余人员可通过共享用工方式转移到数据标注产业项目。人力资源公司获得市政府就业“见习基地”认定,是平顶山职业技术学院、平顶山市财经学校等授牌的实习实训基地,每年可接收见习生和实习生1000多人次。
第二张,优秀的人力资源与管理能力。能否快速组建并管理数百甚至数千人的标注团队(包括全职、兼职和众包模式),直接影响承接大订单的能力。集团建立标准化的标注流程、质量规范及培训机制,确保数据标注员快速上手并保持一致。
第三张,丰富的行业经验与客户资源。2023年以来,集团与百度等多家国内知名企业建立合作案例,积累了丰富的数据标注经验。同时,合作伙伴北京鸿联九五信息产业有限公司还可以提供技术产品、创新服务等方面支持。
第四张,智能化转型催生内部数据标注需求。集团正加速推进煤矿智能化建设,涉及人工智能、物联网、5G等技术整合。不论是生产流程智能化,还是安全监控升级,或是优化供应链,这些场景均依赖高质量标注数据支持模型训练,对数据标注存在极大需求。
尽管手握4张底牌,集团的扩张之路并非坦途。
数据标注行业正面临双重挑战:一方面,下游客户AI企业对标注数据的精度需求指数级提升;另一方面,AI自动标注工具开始渗透简单标注场景,这迫使行业从“人海战术”向“人机协同”模式转型。
集团给出的解题思路颇具行业前瞻性。在数据科技中心,除了数据标注员岗位,还有质检员。在经过专业培训后,质检员对数据标注员的标注任务进行复查,确保标注一次通过率超过98%。集团还积极联系行业领军AI公司,合作探索研发智能标注工具,可实现智能预标注功能,当对复杂图片进行标注时,AI会基于历史数据生成初始轮廓,数据标注员只需微调即可完成工作,可极大提升标注效率。
集团未来战略不止于数据标注产业规模的扩张。
目前,集团正积极构建“数据标注+AI算法+场景应用”的创新生态体系。在该生态中,数据标注作为数据输入的关键节点,为AI算法源源不断地输送优质数据。AI算法依托强大的计算能力与智能分析能力,对标注数据展开深度挖掘。在这一过程中,算法不断进行学习,从数据中提取关键特征和规律,进而生成更加精准、高效的模型,以更好地服务于各种应用场景。
以煤矿行业为例,在这个体系中,集团凭借自身丰富的井下数据资源,正积极探索开发煤炭行业专用标注框架,全力提高井下设备识别、瓦斯浓度预警等专业知识的标注准确率,最终形成行业数据壁垒,不仅可满足自身安全生产需求,还将激活数据资产化价值,开辟行业数据要素流通新路径。
在这场决定AI未来的“数据精炼厂”争夺战中,中国正以扎实的产业根基和创新生态抢占先机。从国家战略到地方实践,从人力优势到技术升级,数据标注产业已成长为数字经济的核心引擎。而就在中国数字经济赛道上,集团的传统产业工人正用双手标注出智能未来,蹚出一条独特的实战路径。
(文/图 融媒体中心记者 白雪 编辑 李佳琪)