三十年前,大部分人可能想不到今天的高速铁路、高速公路能发展得如此快速,给人们的交通出行带来极大的便捷。地质大数据虽然目前还处于探索阶段,但可能再过20~30年,随着数据的可获取性越来越高,算法、算力的极大增强,数据技术及应用场景的深入研究,地质大数据利用也会像交通一样便捷,甚至为地球科学的发展带来突破性发现。”中国地质调查局地质数据更新与应用服务计划首席科学家高振记在接受《gis时代》采访时畅想了他对于地质大数据发展的展望。
地质大数据是国家重要的资源和财富,其开发利用将对地球科学研究、能源矿产调查评价、生态环境保护、城市发展、防灾减灾等带来深远影响,满足国家需求并服务于经济社会发展。当前我国的地质大数据管理及应用究竟取得了哪些成果,未来要如何发展?高振记研究员为我们做了解答。
中国地质调查局地质数据更新与应用服务计划首席科学家高振记
多源异构、动静结合真正意义上的地质大数据
在地质调查、工程勘察中形成的海量地质数据,可以看作是地质大数据,地质大数据作为国家大数据战略的重要组成部分,具有密集型数据规模的优势,在地学研究和国民经济建设中具有极高的价值。高振记研究员解释了他对地质大数据概念的理解:“传统的地质大数据,是地球物理、地球化学等手段采集的数据,随着调查技术的发展,目前,中国地质调查局按照‘星空地海井’——卫星、航天、地面调查、海洋调查、钻探钻井的数据采集体系,同时包括全国的气象、土壤等生态实时观测,地质灾害监测、地下水监测等手段、方法,将静态数据和动态数据包含在一起,成为真正意义上的地质大数据。地质大数据是极其复杂的,具有多源异构、5v(volume,variety,value,velocity,veracity)、5d(地质体的xyzt4d和δt地质演化5d)、多手段多模态等特性。
如果从广义和狭义两个角度来定义地质大数据,狭义的地质大数据是指地质调查、野外采集的数据,即通过‘星空地海井’等调查体系采集的数据;广义的地质大数据对应于整个地球系统,包括气象、水文、生态等数据,都属于这个范畴。
从哲学的视角看,如何看‘大’和‘小’的关系,地质‘大’数据实际是无数的‘小数据’构成的,‘大’和‘小’是对立统一的。单个个体大的数据,不见得是大数据,无数个小的数据,可以构成大数据,即‘小’就是‘大’,‘大’就是‘小’。比如遥感数据,单个文件可达gb或者tb级,但不见得是大数据。无数小数据中可以发掘一些隐含的信息或者关联关系,成为大数据。所以无数的‘小’就是‘大’,单个的‘大’其实是‘小’,这也是对地质大数据有趣的理解。”
机器学习、知识加持充分发挥地质大数据价值
2016年7月,原国土资源部制定了《关于促进国土资源大数据应用发展的实施意见》(以下简称《意见》)。《意见》指出,当代信息技术与经济社会的交汇融合引发了数据迅猛增长,大数据不仅成为国家基础性战略资源,同时也是促进国家治理体系、治理能力现代化的有效途径。
在《意见》发布实施背景下,中国地质调查局也开始了一系列地质大数据管理及应用建设。高振记研究员介绍道:“比如国内有科学家用地质大数据做地层时代的研究,地层年代划分精度比原来提高10倍甚至100倍;用地质大数据做岩石矿物识别,利用大约上百万的岩石矿物的照片样本,通过机器学习构建的岩石矿物智能识别系统可对一些常用的岩石矿物进行识别,精度达到60-70%;还可以用大数据做地质图智能预填图,利用人工智能、机器学习等算法,将计算机编制地质图和地质专家填的地质图对比分析,不断修正和完善机器学习算法,让计算机填图和地质专家填图逐步趋同,再用成熟的机器填图算法进行新区预填图;利用遥感等数据,基于机器学习算法等提取地质灾害隐患信息也是一个典型的地质大数据应用。总体来说,地质大数据的应用场景很多,现在还处于起步阶段,未来还有更多的方向和内容值得探索。”
在应用中如何更好地发挥地质大数据的价值,高振记研究员认为有两个条件,一是数据本身要做到标准化,符合大数据应用的条件;二是由地质领域的专业人员来使用,数据服务于科研人员的研究工作。只有既懂地质,又懂信息化的复合型人才,才能借助大数据分析方法,解决传统手段解决不了的问题,将地质大数据利用最大化。
多源异构、图文一体实现地质大数据共享及管理一体化
大数据是随着近些年信息技术发展提出的概念,而地质调查的历史更为悠久。在2000年以前,计算机还不算发达的时候,地质调查主要在野外通过纸、笔绘画,形成报告,制图、专家评审、汇交等,所形成的材料被资料部门保存下来,是宝贵的历史数据。但这种偏重于存档模式的数据管理办法,在当今信息化时代,已经不能满足数据实时采集、动态管理和及时服务的要求了。高振记研究员介绍道:“目前,真正结构化的地质空间数据库占地质数据总量不到30%,中国地质调查局及各地方和行业地勘单位现有数据大部分是文件形式存储的,地质大数据的管理与服务仍有很大提升空间。只有标准化采集、实时化入库、流程化分析、一体化服务的地质大数据管理服务全链条全面建立起来,才能形成真正的地质大数据管理与服务能力。”
如果解决了数据采集、管理问题,那么在地质大数据开发利用上,有哪些重点、难点问题呢?高振记研究员总结了两个方面:“一是技术层面的。地质大数据的种类很多,结构化、非结构化、半结构化都有,这些多源异构数据在数据挖掘和开发利用上难度较大,具有很大挑战性;二是管理办法和服务模式的问题。目前地质行业的数据共享开放程度还有待提高,尤其是要拿到可计算、可分析的数据还是比较困难的,这也是一个瓶颈。”
为了解决这些问题,中国地质调查局采取了一系列措施,如制定地质数据共享管理办法,以《地质资料管理条例》为依据,逐步完善地质数据汇交、保护与共享服务的基础保障,包括人员保障、经费保障以及大数据资源整合和共享服务机制;提升地质大数据共享服务的基础性软硬件环境,包括数据共享服务平台的配置与性能、服务系统的功能、网络安全环境以及共享服务标准的研制等;进一步明确共享服务的范围、内容、数量,提高共享服务的便捷性和及时性;建立地质数据汇交与项目管理的联动机制,确保汇交地质数据数量和质量。
同时,创新管理服务模式。扩大地质数据线上共享服务范围和规模,一是从服务内容上,可以通过大数据技术对用户需求和偏好进行统计分析,针对不同行业、不同用户的不同需求,提供个性化服务。在充分尊重原始地质资料的基础上,对地质资料进行二次开发,丰富数据产品类型,从而提高地质大数据的利用率,最大程度发掘其价值;二是将物联网、大数据、云计算、人工智能、区块链等技术引入到地质大数据共享服务工作之中,更新服务设施和终端,实现现实世界和虚拟网络的共享服务。
“针对目前的地质数据管理,我们也有新的技术探索研究方向。”高振记研究员说,“地质大数据一体化管理与服务创新的重点在于使用户不用关心复杂的地质数据在后台如何管理,在用户界面上可以像百度搜索一样,通过文本输入即可找到所有信息,同时增加一个空间查询的地图查询模块,实现一个用户界面下文本和空间数据的统一检索,即构建带统一空间索引的‘地质数据湖’,实现空间数据和文本数据,结构化和非结构化数据的一体化组织与管理。”
新一轮找矿突破行动地质大数据成为重要手段
今年1月,自然资源部宣布,围绕加强重要能源矿产资源国内勘探开发和增储上产,全面启动新一轮战略性矿产国内找矿行动。地质大数据在找矿上,又能发挥什么作用?
高振记研究员认为:“大数据找矿不能替代专家找矿,但会成为找矿的一个重要手段和技术支撑。目前的找矿方式基本上还是通过传统的野外调查,地球物理、地球化学、遥感等手段,提取不同异常信息,专家根据知识判断异常信息,圈定找矿靶区等。这个过程离不了信息技术,但仍以专家为主来提取信息。而大数据找矿的不同点在于,把找矿相关专家知识通过知识形化等方式迁移到计算机中,利用相关算法和知识,自动或半自动中提取找矿异常信息,再利用相关算法和模型进行找矿,即让计算机来发现潜在成矿规律,提取找矿异常信息。无论是alphago还是chatgpt,都是在大量的知识、算法基础上不断优化进步的。如果我们找矿的数据、知识、模型积累的足够多,让计算机具备足够的找矿知识,甚至具备一些推理和思维能力,那么未来利用地质大数据找矿也会成为可能。就像科幻电影中描述的,机器人进行探测,很快的发现异常确定出具体方位,通过计算机中已有的知识及钻孔解译等快速判断前台是什么矿体,迅速提升找矿效率。目前中国地质调查局已经将大数据人工智能找矿列为十四五期间地质调查信息化一个重要工作方向,相信未来会有更多大数据智能找矿方面的进展。”
同时,如果能够通过市场驱动让更多的企业参与到找矿行动中来,可能会更快地推进这项工作。因为企业具备非常强劲的算法能力,且会驱动形成合理的市场模式。如同现在证券行业的量化交易,利用大数据模型分析预测量化交易的时间点,这是市场经营需求所致,驱动变革。找矿工作中,未来也可以做更多市场驱动方面的探索。
服务国民经济建设透明国土和地质大数据扮演重要角色
地质行业作为智慧城市建设的重要一环,也在加大数字化建设,且取得了令人瞩目的成绩。高振记研究员指出:“中国地质调查局正在开展全息数字地球和透明国土建设。地下信息的采集和获取是比较难的,要逐渐实现地质数据、三维地质模型从小比例尺、中比例尺到大比例尺的逐渐透明化。要实现地面调查、野外调查到数据采集、处理分析、服务,全流程的信息化。随着数据调查的程度和精度越来越高,大数据共享的水平越来越高,将会推动地球科学研究逐渐从定性,向半定量、定量迈进。未来,地球将是基于一套多级网格建立起的多尺度、可计算、多要素、多属性的矢栅一体化全息数字地球,推动地质行业的高质量发展和地球科学研究范式变革。”
同时,国家大数据局的成立,将更进一步明确数据的分类管理、开发利用、共享交易等办法,从而进一步推动地质大数据的开发利用。中国地质调查局正在建设地球数据中心,将从技术和机制建设等入手,逐步实现全局地质数据的统一管理。以数字化、标准化方式实现地质调查数据的采集、组织管理和共享服务,实现国家层面地质数据的全面共享,通过全息数字地球和隐私计算等,推动地质数据的可计算、可分析,推动地质数据有偿使用和交易,让数据能够发挥更大的作用,让企业、市场能利用地质数据生产各类产品和服务,推动地质调查行业高质量发展,提升地质调查社会服务范围和服务能力。“让地质数据服务于各行各业,让地质服务进入寻常百姓,让地质调查成果惠及千家万户!”