日前,国家数据局联合17部门共同发布的《“数据要素×”三年行动计划(2024—2026年)》(简称“《行动计划》”)为我国今后一段时期的数据赋能经济社会发展指明了方向。面向科技创新,《行动计划》提出要推动科学数据的有序开放共享,发挥科学数据的聚合价值。科学数据要素的放大、叠加、倍增作用的有效发挥有赖于开放共享机制建设、治理能力水平提升和基础设施规模能级跃升。如何在确保科技、经济与国家安全的前提下促进科学数据开放共享,形成科技创新和治理协同并进的经济社会发展面貌,是推动科学数据要素化和价值化的“必答题”。
2018年国务院发布的《科学数据管理办法》明确了我国科学数据“开放为常态、不开放为例外”的原则,对科学数据的开放共享提出了要求和指导。目前,我国已经建设20余个不同学科、专业的国家科学数据中心,旨在依托国家科学数据中心等平台强化高质量科学数据资源建设和场景应用、促进科学数据的开放共享。但还要看到,相关工作尚处于起步阶段,科学数据开放共享不足,难以发挥《行动计划》提出的科学数据要素乘数效应并促进科技创新生态,主要体现在以下几个方面:
一是科学数据开放共享机制建设亟需完善。高校院所、企业科研机构及研究者团队/个体主动开放共享研究数据的较少,现在汇交至国家科学数据中心的科学数据多来自政府预算资金支持开展的科研项目,属强制汇交的范畴,数据来源单一、匮乏。成果抢发、敏感信息、凯发k8官网的版权许可等障碍因素的存在,和学术认可度等激励因素的缺失,导致科学数据开放共享动力不足,“重复性研究”和“一次性数据”形成强烈反差。
二是海量多源科学数据治理难题有待破解。不同学科、专业领域汇交的科学数据多源异构且规模庞大,导致大规模的跨数据源的数据整合、解析和统一访问愈发困难,应对海量数据存储访问高并发、高吞吐量和快速扩展的需求也对存储系统提出了高要求。与此同时,数据质量、数据模型和数据语义的不一致性进一步增加了数据理解和数据管理的复杂性。
三是科学数据基础设施服务效能仍需提质增效。现有的科学数据开放共享平台仅起到数据仓的功能,未实现跨学科数据的有效利用,在“数据检索、可视化、在线处理、结果记录”等关键功能方面存在明显不足。这些不足限制了平台在支持高效开放科学实践方面的能力。不同建设主体的科学数据基础设施也分别存在用户经济和技术背景、平台服务范围、建设质量等多方面问题。
科学数据开放共享建设是科学数据要素化、价值化的重要前提和锚点,必须在机制、技术、生态和基础设施建设等方面做好设计、加大投入,打造科学数据开放共享的范例并推广相关经验。为此,有以下三个方面需要重点突破,充分发挥科学数据要素的乘数价值:
一是加强科学数据确权溯源,打造科学数据多源共享机制。首先,构建科学数据确权溯源方案,同时利用区块链等技术防止数据的篡改伪造,保障数据的流通透明;其次,建立科学数据的共享机制,通过引入智能合约技术,明确定义科学数据的使用权限,确保数据仅在合法授权的情况下被访问、使用和共享;最后,制定科学数据共享激励机制,将科学数据的引用情况纳入学术评价体系,通过创建元数据(metadata)集、分配doi,以及构建引用网络、通过可视化工具展示数据引用关系等方式,激励各类科研社区更积极参与开放共享的科学数据文化。
二是以国际大科学计划为牵引统一科学数据规范,优化国际国内生态。借助国际大科学计划形成相关标准规范和共识,促使跨学科、跨国别的科学数据格式在一定程度上统一和互联互通,增加数据的可互操作性,使其更易为其他科研团队理解和使用。同时,在国际科学合作平台上建立全球数据互联网络,实现各国和机构的科学数据便捷互联,推动全球范围内的科学研究协同。按照“开放为常态、不开放为例外“原则对数据进行有序开放,并由数据中心不定期地进行安全自查,发现可能涉密的数据及时下线处理。通过这些措施,有效推动科学数据的融合应用和复用率,为全球科研社区提供更为丰富和可靠的科学数据资源。
三是加快推进国家重大科技基础设施、科学数据大科学装置建设,夯实数据创新能力基础。建设集成新型科研机构、科学数据中心、平台以及计算服务平台等为一体的具备先进数据采集、存储、分析和模型构建能力的科学数据大科学装置,使用者无需下载便可在线使用数据集和数据服务。统一由科学数据大科学装置汇交和管理全国科研机构、高校和社会产生的科学数据,提供模型和算力服务,实现科学数据共享的范式转变,使得未来科研人员可以在科学数据大科学装置上实现数据采集、计算模拟、成果公开和科研过程记录的全流程一体化、线上化、平台化。
陈旭 之江实验室数据枢纽与安全研究中心
杨嘉帆 之江实验室标准化与知识产权服务中心