广东数智大赛东莞启航 百亿数据标注产业园亮相

12月2日,广东省首届高质量数据集创新大赛启动仪式在东莞举行。大赛以“数聚湾区,智创未来”为主题,采用“揭榜挂帅”机制,推动高质量数据集的场景发掘、建设供给、规范流通、创新应用与成果转化,为粤港澳大湾区数字化转型注入强劲动力。

图片 1.png


首届高质量数据集大赛启动

探索数据价值转化新路径

当前,数据已成为驱动产业变革的核心生产要素,而高质量数据集则是释放数据价值的“源头活水”。作为改革开放的排头兵、先行地、实验区,广东立足实际,全力打造数智化发展新高地,率先举办高质量数据集创新大赛。

图片 2.png

本次高质量数据集创新大赛,在全国属于“从0到1”的探索跨越,以“真实需求、真实数据、真实方案、真实应用”为原则,通过“揭榜挂帅”赛事机制,创新性采用“分期发榜、全年办赛”模式,聚焦工业制造、医疗健康、科技创新、城市治理、交通运输等重点领域发展需求,先找场景、再找数据,以赛事为载体和抓手,探索建设一批高质量、可复用的数据集,为人工智能模型训练和行业应用提供“燃料”。

启动仪式上,来自能源、生物医药、金融、交通、低空、教育等重点领域的首批高质数据集赛题正式“发榜”,中国南方电网有限责任公司、广州(国家)实验室、广东省人民医院、中国平安财产保险公司、佳都科技集团股份有限公司、广州金域医学检验集团、广东泰一高新技术发展有限公司、广东职教桥数据科技有限公司、东莞市人工智能与数字经济有限公司、东莞市奥海科技股份有限公司等单位,发出首批高质量数据集需求“发榜单”。

图片 3.png

接下来,大赛将通过“1套发榜机制+3个竞赛阶段+N场供需对接会”的“1+3+N”组织体系,构建“数据供给—技术研发—场景落地—产业升级”的完整闭环。通过以赛促用、以赛促融、以赛促产,在推动成熟数据应用场景复制推广的同时,更好挖掘低空经济、工业互联网等新兴领域的数智潜力,充分发挥高质量数据集的赋能作用、有效释放数据要素的宝贵价值,为全国一体化数据市场建设、数据产业生态的繁荣发展,积极贡献“广东经验”。

东莞数标园六大平台亮相

强化数据产业生态支撑

作为科创制造强市,东莞规上工业企业数量稳居全国前三,兼具丰富的AI应用场景与海量的工业数据两大优势,是国家人工智能应用中试基地。

“数据就像石油,不能光采不炼。”当前,东莞正以建设“湾区数谷”为抓手,率先布局数据标注等基础环节,着力建设全国首个规模化边端智算网络,实现对工业产线数据的深度挖掘、高效加工。

图片 4.png

东莞市数据标注产业园(下称“东莞数标园”)的规划建设正是其中的重要探索。东莞将通过三年努力,形成100个行业级高质量数据集,打造粤港澳大湾区规模最大、智能化程度最高的数据标注基地。

据了解,东莞数标园位于万江街道,总投资3.3亿元打造,携手中国电信、百度智能云两大龙头企业构建“一园两基地六平台”的产业生态体系。当天上午,东莞数标园正式揭牌并投入运营。

大赛启动仪式现场,东莞数标园及六大赋能平台集中发布,22家企业同步签约入驻。

图片 5.png

六大平台即数据标注展示中心、多模态数据智能标注平台、数据人才实训认证平台、具身智能数据采标实验室、高质量数据集和大模型测评中心、行业级数据可信空间,涵盖技术支撑、人才培训、成果转化等方面,为数据标注产业发展提供全方位的基础设施支持。

同时,深圳数据交易所湾区服务创新中心签约落地南城街道,进一步推动数据要素在政务、安全、交易等领域的创新应用。

图片 6.png

高质量数据集建设路径明晰

多方共议创新实践方案

高质量数据集是决定大模型质量的关键因素,也是数字产业进步的核心基石。在分享环节,三位行业专家分别带来高质量数据集的洞察与实践。

工业和信息化部电子第五研究所人工智能中心副主任李帅介绍,数据预处理、数据标注、数据合成以及数据质量评估是构建高质量数据集过程中环环相扣的核心环节,它们通过系统化的协作,共同确保数据集能够精准支撑大模型的训练与应用。

图片 7.png

李帅提到,电子五所正联合数据标注基地、行业龙头企业及人工智能服务商等多方力量,建设高质量数据集测评服务中心,为高质量数据集提供标准化生产流程和权威质量认证。

百度自动驾驶业务运营负责人沈健则聚焦具身智能领域,分享了数据采标室的解决方案。沈健认为,数据是具身智能行业走向通用智能的巨大瓶颈,而获取高质海量训练数据正是人形机器人破局的关键。

图片 8.png

据了解,百度智能云能够依据客户采集需求,定制化建设各类具身智能的真实采集场景,支持场景运营和管理,开展任务定制、长期稳定、规模化采集作业,并通过采标管训全流程平台支撑模型能力提升。

中电信人工智能科技公司业务发展部副总经理魏文博总结了高质量数据集建设的诸多要点,包括数据安全与合规、一体化平台工具链支撑等。

图片 9.png

魏文博表示,中国电信正在构建“一平台三体系”新范式,通过建设运营一体化平台,支撑数据集建设、质量评估和数据安全三大体系,赋能高质量数据集的可控、高效、合规建设与价值释放,系统化破解数据集建设难题。

随着多方技术力量的持续投入和实践经验的不断累积,高质量数据集建设正从单点突破迈向多点开花,这将为人工智能产业的创新发展提供更加坚实的数据支撑。

(记者 赖晶晶)