从供给到流通，打破AI“孤岛” 上海探索高质量数据集建设可行路径，鼓励更多“外循环”“大循环”

记者胡幸阳

一

过去几十年，在创新药领域，跨国制药巨头的领先优势始终难以撼动。但在人工智能时代，形势变化的速度远超所有人想象。

去年进博会期间，罗氏带来一款突破性的产品——Elecsys AD CSF。它能通过脑脊液检测，实现更早且成本、侵入性更低的阿尔茨海默病诊断。这在国内乃至全球市场，几乎是垄断性的领先。

但才过了一年时间，已有中国医药企业打破了垄断，实现了自主产业化。它所倚仗的，是一个叫Venus的AI大模型。

Venus的核心能力，是让蛋白质实现功能的“定向进化”。简单理解，就是可以根据功能需求，直接设计改造蛋白质以获得最优方案，把研发周期从几年缩短到几个月。

今年3月，上海交通大学特聘教授洪亮的团队发布了Venus模型。仅隔7个多月，Venus就帮助20多家企业设计了超过30款蛋白质，其中十几款已经实现产业化。

Venus的赋能不仅限于生物医药产业。其另一项代表性成果，是一种能降解塑料的酶。在这个领域，GE公司的技术领先全球，但现在Venus推动实现了国产替代。

支持Venus模型的数据集VenusPod也于近日由上海数据局推荐，获得国家数据局2025年“数据要素×”大赛全国总决赛二等奖。

中国AI的崛起，正在加速各领域的科技创新，缩小跨国外资公司的技术领先优势。

二

高质量数据集，是指经过采集、加工等处理，可直接用于开发和训练AI模型，能有效提升模型性能的数据集合。它是AI大模型训练、推理和验证的基础，决定模型性能优劣。

以Venus为例，它之所以厉害，很大程度上是因为研发团队构建的VenusPod，是全球规模最大的蛋白质序列数据集，包含150亿条蛋白质序列。更关键的是，VenusPod拥有海量功能标注信息。什么样的蛋白质能耐受130℃的高温，什么样的蛋白质能耐受1000个大气压的强压，什么样的蛋白质能耐受强酸/强碱环境……Venus掌握这些蛋白质的特征，在设计蛋白质功能时，可以有目的地添加相应特征。

但这些高质量数据来之不易。150亿条蛋白质序列中，有约83亿条来自公共数据库，但其中有功能标注信息的不到100万条。

剩下67亿条才是VenusPod核心竞争力的来源。这些数据由Venus团队与20多个国内科研单位合作获得，比如其中7亿条序列，来自上海交大肖湘教授领衔的“溟渊计划”，由“奋斗者”号载人深潜器在马里亚纳海沟挑战者深渊及雅浦海沟最深点采集。

唯有介入科研项目的深度合作，才能获得不同环境包括极端环境下被标注过的独有宝贵数据。用洪亮的话说，没有这样建立起来的“蛋白质矿藏”，AI模型就“无米为炊”。

三

显然，不是所有的大模型都能像Venus一样，获取这么多独有的、标注过的数据。当前一个最突出矛盾在于，数据的采集、清洗、分类和标注，都需要耗费大量的资源。

虽然高质量数据集建设投入周期长，但其能通过提升生产效率、革新生产工艺、创新服务模式找到价值回报路径，实现数据价值的转化。不过，这一转化过程离不开数据集的流通和高效的供需对接。而这是一个全球性难题。

近年来，各国都在探索让数据流通起来的办法，但效果大多不尽如人意。洪亮也提到，VenusPod的数据不只是他们团队的功劳，还有20多个在深海、盐湖等地采集并处理数据的科研单位的贡献，怎么保障、分配好各自的权益？

如果因为种种原因，各高质量数据集均不流通，最后成为一个个“孤岛”，将极大降低全局整体效率。

上海作为人工智能产业高地，正在积极探索破局。“我们肯定不希望数据集都在私域‘内循环’，还是希望能有更多‘外循环’‘大循环’。”上海市数据局表示。

四

引导企业、机构探索出数据供给、数据流通的市场化解决方案，是推动高质量数据集建设的关键。市数据局表示，将挖掘更多VenusPod这样的优秀项目推荐至国家数据局，争取进一步的政策和资金倾斜，鼓励市场主体挖掘更多有价值的示范应用场景，打出数据要素价值释放组合拳。

高质量数据集建设需要大量跨领域、复合型的高端人才，市数据局正与市人社局合作，着手培养包括数据标注人才在内的数据领域人才队伍。

以库帕思、智元创新等为代表的一批数据资源供给服务商也正涌现。库帕思开展了教育领域的高质量数据集建设，获得国家专项支持；智元创新打造具身智能高质量数据集，受到市场欢迎，并入选国家数据局典型案例。上海正在为这些数据服务商搭建平台、提供机会，帮助他们挖掘和释放数据潜能，为市场输出更多样、更丰富的数据资源。

从供给到流通，上海正在为我国高质量数据集建设探索可行路径。难题还有很多，但破题的方向已经很清晰了。