Research of Spatio-Temporal Data Mining in Sea Surface Temperature LU Wei DAI Wenjuan HUANG Yaxin ZHANG Feng CHEN Liangyu
1
2
2
2
2
(1. Surveying and Geo-Information School, Tongji University, Shanghai 200092, China;
2. East Sea Information Center, SOA China, Shanghai,200126, China)
基金项目:国家海洋公益性行业科研专项 201105034-6
Abstract: Long sequence-related sea surface temperature (SST) data has timing characteristics and apparent spatial characteristics, and therefore could be typical spatio-temporal data. At present, either time or space method has been frequently used for analysis of SST data. However, coupling of spatio-temporal data, spatio-temporal correlation and characteristics of spatial and temporal heterogeneity could not always be well taken into account by above-mentioned method.
Key words: Sea Surface Temperature (SST); Spatio-Temporal Data Mining; Spatio-Temporal Clustering
1
引言
时空数据挖掘是数据挖掘从单一时间和空间延伸到时空的产物,能够揭示时空数据的发展变
化趋势和规律。按照挖掘任务,时空数据挖掘主要分为以下几类:时空模式挖掘、时空聚类、时空分类、时空异常检测等。其中时空聚类是指基于空间和时间相似度把具有相似行为的时空对象划分到同一组中,使组间差别尽量大,而组内差别尽量小。时空聚类在气候变化、公共安全、交通运输、预报监测等领域有重要的应用价值。因此选择时空聚类分析对东海区表层海水温度数据进行挖掘,以便更好的发现和分析其数据的变化趋势、规律和本质特征
[1][2]
。
2
时空聚类分析的研究方法
根据时空聚类分析的研究目标可将时空聚类分析可以归纳为三个步骤:首先, 需要对时空
数据进行探索性分析,掌握时空数据的特性。其主要包括:(1)空间相关性分析,判断时空数据是否可以进行时空聚类分析;(2) 时间平稳性分析, 分析时空数据的时空异质特征。其次,根据时空数据的具体特点发展专门性的时空聚类方法。最后,需要对时空聚类分析的结果进行分析和评价
[3][4]
。
1
3
表层海水温度数据时空聚类分析实验
3.1数据选择与预处理
本文选择东海区四十五个海洋站2008年1月-2015年1月间的月平均表层海水温度作为研究对象,剔除其每月缺测超过30%的数据月。观测点空间分布如图3-1所示,表层水温平均值存储于数据库表中如表3-1所示。
图3-1东海区表层海水温度观测点空间分布 图 3-2 东海区某月表层海水温度Delaunay三角形 属性名 站名称 时间(月) 经度 纬度 月平均温度
类型 Text Date Time Integer Integer Integer
描述 观测点名称 08年1月-15年1月 WGS84坐标系 WGS84坐标系 表层水温月平均值
表3-1 东海区表层海水温度月平均数据库表结构
3.2数据探索性分析
数据探索性分析作为时空聚类的第一步,主要包含时空相关性分析和时空平稳性分析。本文同月平均表层水温数据的空间相关性分析采用Moran’ I指数分析的方法进行,Moran指数I分为全局和局部两种,根据需求在此选择全局I利用ArcGIS 构建泰森多边形进行计算
[6][7]
,采用相连
海洋观测点连接成 Delaunay三角形(如图3-2),三角形各边垂直平分线围成一个多边形,根据泰森多边形代替站点数据方式直接关联邻接方式确定空间权重矩阵wij,进行空间相关性分析。多边形中气象观测站的气温 I的计算公式如(1)(2)
2
wij??10?其中取值1是i和j的距离 n??wij(xi?x)(xj?x)I?i?1j?1nnnn??w?(x?x)ijii?1j?1i?1n (2) 2 全局I取值在 [-1,1],当I<0时,属性表现空间负相关,属性空间分布表现为离散特性;当I>0时,表示空间正相关,表现为聚集特性。通过计算得到东海海洋表层按月平均温度的Moran’ I指数约为0.6~0.7之间,具有显著的聚集特性。 I指数 1月 2月 3月 4月 5月 6月 7月 0.632 0.610 0.608 0.613 0.621 0.633 0.643 8月 0.667 9月 0.614 10月 0.629 11月 0.630 12月 0.627 表3-2 东海区表层月平均水温按月的I指数 进而分析数据的时间平稳性,从2008年1月-2015年1月中任选冬季的两个月(2012年11月、2014年2月),观察其海水表层水温数值从北到南具有明显逐渐升高的趋势性,并从时间序列上看出有较强的时间平稳性,同一季节时变化趋势基本相同(如图3-3)。 图3-3 海洋观测点月平均值变化趋势 3