从供给到流通,打破AI“孤岛” 上海探索高质量数据集建设可行路径,鼓励更多“外循环”“大循环”

  记者 胡幸阳

  过去几十年,在创新药领域,跨国制药巨头的领先优势始终难以撼动。但在人工智能时代,形势变化的速度远超所有人想象。

  去年进博会期间,罗氏带来一款突破性的产品——Elecsys AD CSF。它能通过脑脊液检测,实现更早且成本、侵入性更低的阿尔茨海默病诊断。这在国内乃至全球市场,几乎是垄断性的领先。

  但才过了一年时间,已有中国医药企业打破了垄断,实现了自主产业化。它所倚仗的,是一个叫Venus的AI大模型。

  Venus的核心能力,是让蛋白质实现功能的“定向进化”。简单理解,就是可以根据功能需求,直接设计改造蛋白质以获得最优方案,把研发周期从几年缩短到几个月。

  今年3月,上海交通大学特聘教授洪亮的团队发布了Venus模型。仅隔7个多月,Venus就帮助20多家企业设计了超过30款蛋白质,其中十几款已经实现产业化。

  Venus的赋能不仅限于生物医药产业。其另一项代表性成果,是一种能降解塑料的酶。在这个领域,GE公司的技术领先全球,但现在Venus推动实现了国产替代。

  支持Venus模型的数据集VenusPod也于近日由上海数据局推荐,获得国家数据局2025年“数据要素×”大赛全国总决赛二等奖。

  中国AI的崛起,正在加速各领域的科技创新,缩小跨国外资公司的技术领先优势。

  高质量数据集,是指经过采集、加工等处理,可直接用于开发和训练AI模型,能有效提升模型性能的数据集合。它是AI大模型训练、推理和验证的基础,决定模型性能优劣。

  以Venus为例,它之所以厉害,很大程度上是因为研发团队构建的VenusPod,是全球规模最大的蛋白质序列数据集,包含150亿条蛋白质序列。更关键的是,VenusPod拥有海量功能标注信息。什么样的蛋白质能耐受130℃的高温,什么样的蛋白质能耐受1000个大气压的强压,什么样的蛋白质能耐受强酸/强碱环境……Venus掌握这些蛋白质的特征,在设计蛋白质功能时,可以有目的地添加相应特征。

  但这些高质量数据来之不易。150亿条蛋白质序列中,有约83亿条来自公共数据库,但其中有功能标注信息的不到100万条。

  剩下67亿条才是VenusPod核心竞争力的来源。这些数据由Venus团队与20多个国内科研单位合作获得,比如其中7亿条序列,来自上海交大肖湘教授领衔的“溟渊计划”,由“奋斗者”号载人深潜器在马里亚纳海沟挑战者深渊及雅浦海沟最深点采集。

  唯有介入科研项目的深度合作,才能获得不同环境包括极端环境下被标注过的独有宝贵数据。用洪亮的话说,没有这样建立起来的“蛋白质矿藏”,AI模型就“无米为炊”。

  显然,不是所有的大模型都能像Venus一样,获取这么多独有的、标注过的数据。当前一个最突出矛盾在于,数据的采集、清洗、分类和标注,都需要耗费大量的资源。

  虽然高质量数据集建设投入周期长,但其能通过提升生产效率、革新生产工艺、创新服务模式找到价值回报路径,实现数据价值的转化。不过,这一转化过程离不开数据集的流通和高效的供需对接。而这是一个全球性难题。

  近年来,各国都在探索让数据流通起来的办法,但效果大多不尽如人意。洪亮也提到,VenusPod的数据不只是他们团队的功劳,还有20多个在深海、盐湖等地采集并处理数据的科研单位的贡献,怎么保障、分配好各自的权益?

  如果因为种种原因,各高质量数据集均不流通,最后成为一个个“孤岛”,将极大降低全局整体效率。

  上海作为人工智能产业高地,正在积极探索破局。“我们肯定不希望数据集都在私域‘内循环’,还是希望能有更多‘外循环’‘大循环’。”上海市数据局表示。

  引导企业、机构探索出数据供给、数据流通的市场化解决方案,是推动高质量数据集建设的关键。市数据局表示,将挖掘更多VenusPod这样的优秀项目推荐至国家数据局,争取进一步的政策和资金倾斜,鼓励市场主体挖掘更多有价值的示范应用场景,打出数据要素价值释放组合拳。

  高质量数据集建设需要大量跨领域、复合型的高端人才,市数据局正与市人社局合作,着手培养包括数据标注人才在内的数据领域人才队伍。

  以库帕思、智元创新等为代表的一批数据资源供给服务商也正涌现。库帕思开展了教育领域的高质量数据集建设,获得国家专项支持;智元创新打造具身智能高质量数据集,受到市场欢迎,并入选国家数据局典型案例。上海正在为这些数据服务商搭建平台、提供机会,帮助他们挖掘和释放数据潜能,为市场输出更多样、更丰富的数据资源。

  从供给到流通,上海正在为我国高质量数据集建设探索可行路径。难题还有很多,但破题的方向已经很清晰了。