首页  >  科研进展  >  科研进展详情

院士 | 龚健雅等:基于开放地球引擎的时空信息基础设施构建

2024-06-04   中国测绘学会   阅读量:207

基于开放地球引擎的时空信息基础设施构建

武汉大学

龚健雅 向隆刚 乐鹏

    一 引言

    随着航空航天、物联网、无线通信、计算机等技术的飞速发展,人类得以全面、及时获取大到整个地球,小到一栋建筑的状态及变化信息。借助于大规模空天对地观测、地面物联网接入,以及其他方式的感知,我们正在持续生成带有时空标签,涉及陆地、海洋、大气及人类活动的地球时空大数据(李德仁 等,2017;裴韬 等,2019)。以对地观测为例,2022年初我国在轨遥感卫星已超过220颗,其中,海洋系列卫星6颗、气象系列卫星8颗、陆地观测卫星200余颗,初步构建了全球综合观测体系(张兵,2018;江碧涛,2022)。

    地球时空大数据是揭示地球圈层演化机理、反映城市运行规律、蕴含人类活动模式的核心数据资产,在资源利用、经济发展、国防安全、社会治理等领域发挥着极其重要作用。通过集成大数据管理、分布式计算及人工智能等相关技术,可以形成从获取、存储、管理、分析、挖掘到应用的地球时空大数据全处理链,将为人类了解和认知地球提供前所未有的技术手段(陈述彭,2002;徐冠华 等,2016)。充分利用地球时空大数据资源,更为全面、系统地洞悉自然与社会,提高人流、物流和能量流的利用效率,促进社会生产力的极大发展,已成为世界各国,尤其是发达国家高度关注的战略性新兴产业的重要组成部分(郭华东,2018;廖小罕,2021)。

    为了应对大范围、多尺度、多类型、长时序、高维度的地球时空大数据分析与挖掘所带来的挑战与机遇,国际上推出了一系列与地球时空大数据相关的研究计划(Baumann,2018;Mahecha,2020)。美国启动了“地球立方体”项目,以整体视角审视地球系统,构建管理地球科学知识的基础设施;澳大利亚启动了“地球科学数据立方体”项目,基于超算平台实现对澳大利亚遥感、气象、地面站点数据的统一管理;卫星对地观测委员会提出了“开源数据立方体”项目,旨在提供对地观测大数据的一体化管理开源解决方案。特别需要指出的是,谷歌公司联合卡内基梅隆大学、美国地质调查局,推出了谷歌地球引擎(GEE)(Gorelick et al, 2017),通过提供可伸缩算力、开放丰富多样方法、共享多源海量数据,吸引全世界地球与空间相关科学家与工程师参与其中,已经发展成为地学相关工作者高度依赖的云计算平台。

    我国的空间信息相关产业经过多年发展,在空间数据生产、处理、管理、分析与共享方面取得了长足进步,已经可以完全自主地生产卫星遥感数据及产品、发展地理信息系统软件,以及提供空间信息服务平台。此外,国产计算机硬件、数据库软件与云产品也同步发展起来。在这一趋势下,国内一些单位开始着手发展国产自主的地球时空大数据系统,如中国科学院的地球大数据共享服务平台、航天宏图公司的PIE Engine平台等,已经具备了数字地球引擎的初步能力,但在关键技术与应用规模上与GEE还有较大的差距。

    为此,我们提出以数字地球立方体就绪型服务为目标,研究地球时空大数据一体化表达模型、大规模矢量-栅格-场融合的分布式时空计算、多源时空立方体多维联合分析、全球遥感影像在线智能解译等关键技术,研发算力-数据-算法深度耦合与开放共享的数字地球引擎系统,提供数据就绪、分析就绪、决策就绪的地球时空数据-信息-知识服务体系,构建开放地球引擎(OGE),形成基于时空立方体管理与分析地球时空大数据的新型时空信息基础设施。在此基础上研发了OGE原型系统,通过接入武汉大学及相关单位累积的多类型对地观测数据,开展了涵盖栅格、矢量与专题数据的典型时空分析试验,验证了OGE的地球时空大数据管理与分析能力。

    二 OGE设计与研发

    作为面向地球时空大数据的时空信息基础设施,OGE建设充分借鉴物联网、大数据、人工智能等领域涌现出的创新思想与技术,结合对地观测领域发展出的先进模型与方法,在弹性系统架构、时空立方体模型、高性能处理技术等方面开展创新性研究,拟解决的关键科学与技术问题如下:

    (1)提出面向栅格、场、矢量与专题四类地球时空大数据的统一建模方法,设计多源数据对齐、时空信息融合的立方体表达结构,解决多类型、多尺度地球时空大数据的立方体组织问题。

    (2)突破时空立方体与云环境之间的高效映射技术,设计支持地球时空大数据大规模联合分析的分布式时空立方体对象,解决多源、异构、海量地球时空大数据的一体化管理与分析问题。

    (3)提出时空分析模型的计算强度估算方法,设计资源自适应调度的分布式弹性计算框架,解决复杂时空模型与集群计算资源的动态适配问题。

    (4)面向大幅面、多尺度、高光谱遥感影像,设计智能遥感样本库LuoJiaSET,研究可以嵌入地学特征的专用深度学习框架LuoJiaNET,实现训练样本和推理模型的一体化高效处理。

    (5)构建基于时空立方体的多层次就绪型地球引擎平台,改变以“景”为中心的传统处理模式,提供标准、高效、开放的时空算子体系,支持基于时间、空间、参量等多种维度的定制化时空分析模式。

    (一)弹性系统架构

    在大数据与云计算背景下,时空信息的处理范式正在发生深刻变革,各国均在构建面向数据就绪和分析就绪的时空信息基础设施(高凡 等,2022)。OGE将依托于物联网、互联网等通信网络基础设施,以及国产云的存储与算力设施,动态汇聚与组织多源、海量、异构的地球时空大数据,聚合地球时空分析领域的处理方法、分析算法、人工智能模型和地学知识图谱,形成标准化的数据就绪型、分析就绪型和决策就绪型服务体系,其总体技术架构如图1所示:

    1.数据就绪层

    首先提出全球时空大数据的统一组织和管理方法,为全球范围的遥感影像数据、数字高程模型、地物矢量数据、定量遥感产品、遥感解译样本、卫星虚拟星座数据,以及物联网数据等多源、异构、海量感知数据提供统一时空基准与组织模型,基于多元混合存储技术构建全球时空感知数据库,形成数据就绪的时空信息基础设施,从而为孪生地球提供时空感知的统一数据基底。

    2.分析就绪层

    基于安全可控协议的开源分布式计算框架,提出结合深度特征的时空分析计算强度估计方法,以及计算资源负载均衡模型,采用批处理/流计算、CPU/GPU异构并行和线程/进程混合并行等模式,构建分析就绪基础设施,支持复杂三维建模、大范围空间分析和人工智能解译等复杂地学处理任务的资源自适应调度与高性能分布式计算。

    3.决策就绪层

    考虑到对地观测数据的智能分析需求,针对其像幅尺寸大、数据通道多、尺度变化大等特性,研发地学知识图谱辅助的遥感图像智能解译深度学习框架LuoJiaNet,形成针对遥感影像“场景-目标-像素”多层级任务的遥感应用模型,包括场景检索、目标检测、地物分类、变化检测、三维重建等五大类模型,从而使其能提供应急响应等决策就绪型智能服务。

图1 OGE体系架构

    4. 应用使能层

    针对地球时空大数据的开放式管理与高性能计算需求,构建兼容开放地理空间信息联盟(OGC)标准的时空算子服务体系,提出操作与存储紧耦合的就近过滤与计算模式,设计多层次就绪的开放式云原生技术架构,实现基于主流网络框架的高并发应用前端,支持低代码/无代码的地学分析应用构建。

    (二)时空立方体模型

    地球时空大数据具有多源异构、结构复杂、时空分异、数据量大等特点,如何统一表达、组织与管理一直是地理信息科学领域的痛点问题。并且,多源地球时空观测数据时-空-谱分辨率以及参考坐标系通常不一致,需求大量时间用于预处理和融合方面的工作。此外,地球时空大数据类型多样,而现有时空大数据管理框架往往面向特定类型数据优化设计,无法满足海量异构地球时空大数据的大规模计算和联合分析需求。为此,提出地球时空大数据立方体模型GeoCube,见图2所示,探索基于事实星座建模思想,将多源海量地球观测数据组织在一个统一时空基准的立方体中,对不同传感器、不同分辨率、不同参考系的时空数据进行面向高性能分析的统一表达。

图2 地球时空大数据立方体表达模型GeoCube

    针对矢栅数据的集成管理需求,GeoCube设计了四个立方体维度:时间、空间、产品和波段。时间、空和产品维度是矢量数据和栅格据共有的公维度,波段是栅格数据的独有维度。GeoCube除支持栅格、场和矢量数据外,还扩展支持了表格数据,用以集成带时空属性的专题信息。

    1. 产品维度

    产品维度是时空立方体的一个主题,提供名称、类型、传感器、卫星平台和处理功能等信息。产品名称是数据最基本的信息,由数据源和产品类型组成,如 Landsat 8分析就绪数据、 OpenStreetMap水系数据;数据类型用于区分栅格、矢量和表格;传感器和卫星平台则描述了数据源信息,需要注意的是,矢量和表格数据不具备卫星平台信息。

    2. 空间维度

    空间维度描述了立方体的位置信息,由一系列空间规则网格组成,通过网格编码及其剖分基准进行唯一标识。编码采用空间填充曲线,如Morton码、Z-曲线、Hilbert曲线等;空间基准则描述网格大小、分辨率和参考坐标系等信息,即定义立方体的空间尺度。空间网格大小即网格在x和y方向上的跨度,如 1°经度和1°纬度的网格表示为1°×1°。此外,空间维度可具有层级信息,如从网格到城区、地区再到省份,便于立方体沿着空间维度做联机分析处理(OLAP)操作。

    3. 时间维度

    时间维度描述了数据的获取以及使用标准,其中,时间标准一般使用协调世界时。栅格数据获取时间为传感器拍摄时间,矢量数据获取时间即数据采集时间。针对高级产品数据,获取时间可以是产品处理完后可获得的时间。时间维度的层级关系较为直观,如从日到星期、到月份、季度再到年份,时间维度上的层级设计便于立方体沿着时间维度做 OLAP操作。

    4.波段维度

    波段维度是专门针对栅格数据而设计的,用于描述遥感影像的波段信息,包含波段名、极化方式 光谱范围、高级波段等信息。极化方式是针对合成孔径雷达影像设计的独有属性,光谱范围保留不同数据源的光谱范围信息,即一个波段名可映射到不同的光谱范围区间。高级波段是专门为OLAP操作设计的一个层级属性信息,特指基于一系列原始波段生成的产品级别波段,如归一化差分水体指数波段、归一化差分植被指数波段等。

    5.度量瓦片

    上述四个维度联合指向的则是度量信息。为了更为有效地管理度量单元,GeoCube将时空临近的度量单元进一步聚合为瓦片,从而形成度量瓦片。GeoCube支持三类度量瓦片:栅格度量瓦片、矢量度量瓦片和表格度量瓦片。其中,栅格度量瓦片通过维度拓展,可用于支持高维场数据。栅格度量瓦片包含一个栅格瓦片型空间度量和一个瓦片计算强度度量,前者通过链接地址指向瓦片数据,后者则记录瓦片在不同分析功能中的计算强度,反应地理空间域的异质性,用于支持高效的并行计算;矢量度量瓦片包含一个矢量瓦片型空间度量和一个瓦片计算强度度量,前者由一组指针或地址构成,每一个地址指向一个矢量要素;表格度量瓦片包含一个表格瓦片型专题度量和一个瓦片计算强度度量,前者同样由一系列地址构成,指向一组表格记录。

    (三)高性能处理技术

    地球时空大数据的多源、海量、分异特征,为立方体基础设施下的时空数据处理带来了挑战。为此,OGE设计了基于GeoCube数据模型的高性能计算框架,如图3所示。事实上,在GeoCube的时空立方体模型中,时空临近度量被聚合为事实瓦片,已经为大规模分布式计算打下了数据结构基础,通过结合云计算技术,可以实现快速高效的数据处理。进一步,OGE在存储负载均衡、多元混合组织管理、云环境计算对象映射和计算资源自适应调度等四方面提出了相应的优化解决方案,支持复杂时空分析的高性能求解。

图3 GeoCube高性能计算框架

    1. 存储负载均衡

    大规模时空数据由于空间聚集和时间潮汐将引发严重的存储负载失衡现象,为此,OGE采用自适应剖分格网模型,在理论上推导出一个基于抽样的分裂阈值计算模型,同时设计一个基于空间疏密分布的层级计算模型,从中间层级开始并行执行分裂和合并操作,获得空间均衡的分布式存储方案。在自适应空间划分网格的基础上,基于图结构将多层级空间网格抽象化为无向加权图,并利用图划分算法来分组网格单元。最后结合遗传算法思想,设计面向边界单元的迭代微调方法,即通过微调图划分的网格归属,进一步降低时空数据的在时段粒度上的不均衡度,以期达到时段粒度上的存储负载均衡。

    2.多元混合组织管理

    充分发挥分布式文件与数据库存储,以及关系与非关系存储的各自优势,OGE设计了基于分布式文件系统minIO、非关系数据库HBase与关系-对象数据库PostGreSQL的混合组织方案,将GeoCube元数据存储于关系数据库中,事实瓦片数据存储于非关系数据中,遥感影像存储于分布式文件系统中,三者通过立方体单元的唯一时空编码来进行关联。在单元编码设计上,提出了基于T-S-T的时空一体编码方法;在查询处理方法上,充分利用混合存储模式及其索引结构,提出了基于多级粗过滤的时空范围查询优化算法,进一步引入就近计算思想,将粗过滤步骤下沉到存储端,从而有效降低网络通信量。

    3.云环境计算对象映射

    Apache Spark作为主流的分布式计算框架,采用弹性分布式数据集 RDD作为数据容器,是一种专为大规模数据处理而设计的高效计算引擎(Zaharia et al, 2010)。OGE对Spark RDD进行了扩展,提出了一套分布式立方体对象CubeRDD,实现了GeoCube模型到云计算环境的无缝映射,如图4所示。该映射设计一方面可以继承 Spark RDD 分布式计算能力,另一方面可以兼容立方体多源数据类型。CubeRDD 的设计模式便于用户沿着不同维度进行分布式分析:针对RasterRDD,沿着时间维度TimeKey做聚合,可以实现分布式时间序列分析,沿着波段维度BandKey做聚合,可以实现分布式波段融合分析;针对FeatureRDD,沿着产品维度ProductKey做聚合,可以实现两个产品或图层的空间几何分析。此外,矢栅场与专题数据处于统一时空框架中,可以对RasterRDD 和FeatureRDD做连接操作,实现多源数据的联合分析。

图4 GeoCube-Spark RDD映射

    4.计算资源自适应调度

    GeoCube立方体模型采用全球多级网格对时空数据进行切片,并以瓦片形式进行聚合组织,便于实现分布式并行计算,充分调度计算资源。但是,地球时空大数据,尤其是矢量数据,在空间上存在分布不规律、异质性突出等问题,易造成分布式计算过程中负载失衡问题。为此,OGE从GIS计算的人工智能优化角度出发,通过数据驱动的机器学习方法来刻画数据/算法特征,实现对地理空间域复杂度的合理表征,完成计算强度的自动化预测。比如在矢量空间相交分析中,多边形数量、多边形顶点数量、多边形分布方差等可作为候选特征,据此可以结合多种机器学习特征选择算法和回归模型训练算法,根据精度评价指标从候选特征中选择出最优特征子集,同时得到最优计算强度预测模型。在此基础上,OGE执行引擎通过预测模型感知计算流图中各任务的计算强度,进行计算强度自适应的资源分配,实现任务与资源之间的适配,提升时空分析任务的计算性能。

    三 OGE原型系统

    基于上述系统结构设计与关键技术研究,利用微服务技术,设计实现了涵盖元数据、数据、算子、模型等在内的多类型RESTFUL服务;遵循OGC服务标准,设计实现了丰富的客户端应用程序接口(API);构建了计算流程的数据库可用性组(DAG)表达结构,无缝衔接前端用户代码逻辑与后台计算逻辑。在此基础上,利用主流WEB框架,设计实现了OGE前端,以集成与共享OGE的后端数据资源、算子体系与时空分析能力,如图5所示。

图5 OGE原型系统前端界面

    OGE面向终端用户的多样化操作需求,规划了资源中心、应用中心、开发中心和管理中心。其中,资源中心负责对地观测和人工智能样本等数据资源的浏览与检索,以及时空算子和分析方法等模型资源的浏览与检索,应用中心用于部署基于OGE框架开发的应用,而开发中心支持用户以编程和图形两种方式来构建地学分析应用。编程模式提供Python和JavaScript两种编程语言,允许用户以低代码方式来灵活应用;图形模式则基于“拖-拉-拽”思想,通过拖动算子相应的图形模块来形成工作流,支持用户以无代码方式来构建应用。两者在功能上是等价的,均通过DAG流图交由后端Spark引擎来执行,从而实现算力、算子与数据的耦合。

    目前,依托于自建集群的存储与算力资源,以及数据库等基础软件设施,OGE已接入武汉大学和相关单位累积的全球范围矢量数据、地形数据、影像数据,以及遥感产品、遥感样本、卫星虚拟星座、物联网数据等地球时空观测数据成果,总计上亿条,数据量约20TB;提供了涵盖栅格、矢量、专题数据的分布式时空算子上百个。此外,借助于代理和服务机制,可无缝接入GRASS方法和WPS服务,三者共同组成了OGE的时空算子体系。

    以2016年中国南部某省洪涝灾害为案例,验证OGE的多源数据联合分析能力。背景为2016年台风登陆中国南部,造成大规模降雨,导致诸多城市出现洪涝灾害,大量交通设施遭到破坏,约50万人受到此次灾害影响。该案例涉及的数据包括灾前灾后高分一号数据以及交通设施矢量数据,如桥梁、道路等,OGE通过矢栅联合分析来提取受灾基础设施:基于灾前灾后的高分遥感影像,生成水体提取产品;对灾前灾后水体提取产品做水体变化检测,得到洪涝受灾区域;将洪涝受灾区域产品与矢量数据做叠置分析,最终提取出受灾要素。

    显然,对于矢栅联合分析,用户基于谷歌地图引擎(GEE)将陷入到繁琐的代码编写任务中,而利用OGE GeoCube提供的开发接口,用户仅需简单的几行代码即可实现相同的功能。原因在于,GeoCube是一种多源融合、时空对齐、长时序的对地观测数据模型,它不仅是一种数据表达结构,而且可以蕴含就绪所需的处理流程,即可以是从源数据经过投影、采样等基础操作得到的对齐结构,也可以是融合产品的计算方法。不难看出,GeoCube是一种超越景与对象,更贴近地学应用的一种设计,具有可伸缩、可扩展、可复制性,有助于缩短用户的应用开发周期。

    四 总结与展望

    在大数据与云计算背景下,地球时空大数据的处理范式正在发生深刻变革,各国均在积极构建就绪型时空基础设施。开放地球引擎(OGE)依托于云计算设施,以GeoCube时空立方体模型动态汇聚与管理全球范围的地球观测数据、数字高程模型、定量遥感产品、遥感样本、虚拟星座数据、物联网数据等多源、异构、海量时空数据,通过疏密抽样统计和计算强度估计,实现大规模数据的存储负载均衡和复杂时空分析的计算负载均衡,基于分布式计算框架聚合地学分析领域的处理方法、分析算法与人工智能模型,从而实现了开放的数据集成、一体化的数据管理、高效的数据计算,以及灵活的应用使能,具备标准化的数据就绪型、分析就绪型和决策就绪型时空信息智能服务体系。

    下一步,OGE将在分布式计算引擎优化、时空算子体系丰富、时空数据类型扩展,以及三维动态场数据表达与模拟等方面开展进一步研究,以提升OGE时空分析服务的广度和深度。此外,将积极拓展在地学专业领域(大气、海洋、地质等)的数据管理、算子研发和应用构建能力,以期构建形成泛空间领域的时空信息基础设施。

    参考文献

    陈述彭,2022.航天遥感应用的若干新理念[J].中国航天 (1:3-8.

高凡,乐鹏,姜良存,等,2022.GeoCube:面向大规模分析的多源对地观测时空立方体[J].遥感学报,26(6):1051-1066.

    郭华东,2018.地球大数据科学工程[J].中国科学院院刊,33(8):818-825.

    江碧涛,2022.我国空间对地观测技术的发展与展望[J].测绘学报,51(7):1153-1159.

    李德仁,王密,沈欣,等,2017.从对地观测卫星到对地观测脑[J],武汉大学学报(信息科学版),42(2):143-149.

    廖小罕,2021.中国对地观测20年科技进步和发展[J].遥感学报,25(1):267-275.

    裴韬,刘亚溪,郭思慧,等,2019.地理大数据挖掘的本质[J].地理学报,74(3):586-598.

    徐冠华,柳钦火,陈良富,等,2016.遥感与中国可持续发展:机遇和挑战[J].遥感学报,20(5):679-688.

    张兵,2018.遥感大数据时代与智能信息提取[J].武汉大学学报(信息科学版),43(12):1861-1871.

    Baumann P, Rossi A P, Bell B, Clements O, Evans B, Hoenig H, Hogan P, Kakaletris G, Koltsida P, Mantovani S, Marco Figuera R, Merticariu V, Misev D, Pham H B, Siemen S and Wagemann J., Fostering cross-disciplinary earth science through datacube analytics//Earth Observation Open Science and Innovation, 2018, Switzerland: Spring: 91-119.

    Gorelick N, Hancher M, Dixonb M, et al,2017. Google Earth Engine: Planetary-scale geospatial analysis for everyone, Remote Sensing of Environment, 202: 18-27.

    Mahecha M D, Gans F, Brandt G,2020. Earth system data cubes unravel global multivariate dynamics, Earth System Dynamics, 11(1): 201-234.

    Zaharia M, Chowdhury M, Franklin M J, et al,2010. Spark: cluster computing with working sets[C]//Proceedings of the 2nd USENIX Conference on Hot topics in cloud computing.New York:ACM:10.

龚健雅
中国科学院院士