GIS多源数据集成模式评述
[摘要] 地理信息系统的迅速发展和广泛应用导致了空间数据多源性的产生,为数据综合利用和数据共享带来不便。本文探讨空间数据多源性的产生和表现,指出多数据格式是多源空间数据集成的瓶颈;分析和评价了多源空间数据集成的三种模式,并展望了多源数据集成的发展方向。 [关键词] 地理信息系统 多格式数据源 多源数据集成 一、多数据格式是多源空间数据集成的瓶颈 1、空间数据多源性的产生和表现
空间数据多源性的产生和表现主要可以概括为以下几个层次: (1)多语义性
地理信息指的是地理系统中各种信息,由于地理系统的研究对象的多种类特点决定了地理信息的多语义性。对于同一个地理信息单元(feature),在现实世界中其几何特征是一致的,但是却对应着多种语义,如地理位置、海拔高度、气候、地貌、土壤等自然地理特征;同时也包括经济社会信息,如行政区界限、人口、产量等。一个GIS研究的决不会是一个孤立的地理语义,但不同系统解决问题的侧重点也有所不同,因而会存在语义分异问题。 (2)多时空性和多尺度
GIS数据具有很强的时空特性。一个GIS系统中的数据源既有同一时间不同空间的数据系列;也有同一空间不同时间序列的数据。不仅如此,GIS会根据系统需要而采用不同尺度对地理空间进行表达,不同的观察尺度具有不同的比例尺和不同的精度。GIS数据集成包括不同时空和不同尺度数据源的集成。 (3)获取手段多源性
获取地理空间的数据的方法有多种多样,包括来自现有系统、图表、遥感手段、GPS手段、统计调查、实地勘测等。这些不同手段获得的数据其存储格式及提取和处理手段都各不相同。 (4)存储格式多源性
GIS数据不仅表达空间实体(真实体或者虚拟实体)的位置和几何形状,同时也记录空间实体对应的属性,这就决定了GIS数据源包含有图形数据(又称空间数据)和属性数据两部分。图形数据又可以分为栅格格式和矢量格式两类。传统的GIS一般将属性数据放在关系数据库中,而将图形数据存放在专门的图形文
件中。不同的GIS软件采取不同的文件存储格式。 2、多源空间数据集成的迫切性
随着Internet络的飞速发展和普及,信息共享已经成为一种必然的要求。地理信息也不例外,随着信息技术以及GIS自身的发展,GIS已经从纯粹地学技术系统的圈子跳了出来,正和IT行业完全融合,人们对空间信息的需求也越来越多。GIS要进一步发展,必须完全融入大型MIS(管理信息系统)中。1998年美国副总统戈尔提出数字地球的概念,更是将地理信息技术推到了最前沿。然而地理信息要真正实现共享,必须解决地理信息数据多格式、多数据库集成等瓶颈问题。随着技术发展,GIS已经逐步走向完全以纯关系数据存储和管理空间数据的发展道路,这为GIS完全和MIS无缝集成迈出了重要的一步。但因为GIS处理的数据对象是空间对象,有很强的时空特性,获取数据的手段也复杂多样,这就形成多种格式的原始数据,再加上GIS应用系统很长一段时间处于以具体项目为中心孤立发展状态中,很多GIS软件都有自己的数据格式,这使得GIS的数据共享问题变得尤为突出。
空间数据作为数据类型的一种,同普通数据一样需要走过从分散到统一的过程。在计算机的发展过程中,先是数据去适应系统,每一个系统都为倾向于拥有自己的数据格式;随着数据量的增多,数据库系统应运而生;随着时代的发展,信息共享的需求越来越多,不同数据库之间的数据交换成了瓶颈;SQL(标准结构化查询语言)以及ODBC的出现为这一难题提供了比较满意的解决方案。但是空间数据如何引进这种思想,或者说将空间数据也纳进标准组织和标准协议进行规范和管理,从而使空间数据共享成为现实。
二、 GIS多源数据集成模式比较
由于地理信息系统的图形数据格式各异,给信息共享带来了极大的不便,解决多格式数据源集成一直是近年来GIS应用系统开发中需要解决的重要问题。目前,实现多源数据集成的方式大致有三种,即:数据格式转换模式、数据互操作模式、直接数据访问模式。 1 、数据格式转换模式
格式转换模式是传统GIS 数据集成方法(图1)。在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。这是目前GIS系统数据集成的主要办法。目前得到公认的几种重要的空间数据格式有:ESRI公司的Arc/Info Coverage、ArcShape Files、E00格式;AutoDesk的DXF格式和DWG格式;MapInfo的MIF格式;Intergraph的dgn格式等等。 数据转换模式主要存在的问题是:
(1)由于缺乏对空间对象统一的描述方法,从而使得不同数据格式描述空间对象时采用的数据模型不同,因而转换后不能完全准确表达源数据的信息。 (2)这种模式需要将数据统一起来,违背了数据分布和独立性的原则;如果数据来源是多个代理或单位,这种方法需要所有权的转让等问题。 美国国家空间数据协会(NSDI)制定了统一的空间数据格式规范SDTS(Spatial Data Transformation Standard),包括几何坐标、投影、拓扑关系、属性数据、数据字典,也包括栅格格式和矢量格式等不同的空间数据格式的转换标准。许多软件利用SDTS提供了标准的空间数据交换格式。目前,ESRI在ARC/INFO中提供了SDTSIMPORT以及SDTSEXPORT模块,Intergraph公司在MGE产品系列中也支持SDTS矢量格式。SDTS在一定程度上解决了不同数据格式之间缺乏统一的空间对象描述基础的问题。但SDTS目前还很不完善,还不能完全概括空间对象的不同描述方法,并且还不能统一为各个层次以及从不同应用领域为空间数据转换提供统一的标准;并且SDTS没有为数据的集中和分布式处理提供解决方案,所有的数据仍需要经过格式转换复制到系统中,不能自动同步更新。 2 、数据互操作模式
数据互操作模式是OpenGIS consortium (OGC) 制定的规范。OGC是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非盈利组织。GIS互操作是指在异构数据库和分布计算的情况下,GIS用户在相互理解的基础上,能透明地获取所需的信息。OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能读取任意数据服务器提供的空间数据。OGC规范基于OMG的CORBA、Microsoft的OLE/COM以及SQL等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC规范正得到OMG和ISO的承认,从而逐渐成为一种国际标准,将被越来越多的GIS软件以及研究者所接受和采纳。目前,还没有商业化GIS软件完全支持这一规范。
数据互操作为多源数据集成提供了崭新的思路和规范。它将GIS带入了开放式的时代,从而为空间数据集中式管理和分布存储与共享提供了操作的依据。OGC标准将计算机软件领域的非空间数据处理标准成功地应用到空间数据上。但是OGC标准更多考虑到采用了OpenGIS协议的空间数据服务软件和空间数据客户软件,对于那些历史存在的大量非OpenGIS标准的空间数据格式的处理办法还缺乏标准的规范。而从目前来看,非OpenGIS标准的空间数据格式仍然占据已有数据