地统计分析笔记——探索数据

来自:http://blog.csdn.net/kikitamoon/article/details/49925147markdown

在执行地统计分析以前,浏览、熟悉、检查本身的数据是相当重要的。绘制和检查数据是地统计分析过程当中的必要阶段,咱们能够从这些工做中得到一些先验知识,指导后续的工做。函数

 

Stage 1 绘制数据

经过ArcMap的图层渲染方案绘制数据,咱们能够得到对数据的第一印象。工具

例如,使用单一符号渲染了解采样点的疏密分布,经过分类渲染了解采样点高值低值的分布,等等。.net

这里写图片描述

 

Stage 2 检查数据

绘制数据后,使用 探索性空间数据分析 (Exploratory Spatial Data Analysis,ESDA) 工具来执行数据探索的第二阶段。这些工具提供了一种比绘制数据更加量化的方式来检查数据,有助于咱们更深刻地了解正在研究的现象,有助于咱们对插值模型的构建方式作出更加正确的决策。orm

ESDA 工具包括:blog

这里写图片描述

 

Ⅰ 是否服从正态分布?

Histogram/直方图

这里写图片描述

直方图用于显示感兴趣数据集的频率分布并计算汇总统计数据,如何解读图形和统计信息呢?图片

  • 若是数据服从正态分布,则平均值(mean)与中值(median)相似,偏度(skewness)应接近零,而且峰度(kurtosis)应接近 3。
    • 平均值即为数据的算数平均值。平均值提供分布中心的测量值。 中位数与累积比例 0.5 对应。若是数据以升序排列,50%的值位于中间值之下,50% 的值位于中间值之上。中间值提供了分布中心的另外一个测量值。 第一和第三分位数分别与累积比例 0.25 和 0.75 对应。若是数据以升序排列,则 25% 的值位于第一分位数之下,25% 的值位于第三分位数之上。第一和第三分位数是分位数的特殊状况。
    • 偏度系数是分布对称度的测量值。对于对称的分布,偏度系数为零。若是分布具备较长的大值右尾部,则为正偏分布;若是分布具备较长的小值左尾部,则为负偏分布。对于正偏分布,平均值大于中间值;对负偏分布,平均值小于中间值。
    • 峰度取决于分布尾部的大小,提供分布产生异常值可能性的衡量指标。正态分布的峰度等于三。具备较厚尾部的分布被称为高峰态,其峰度大于三。具备较薄尾部的分布被称为低峰态,其峰度值小于三。
  • 数据的方差,一般对太高值或太低值很敏感。标准差为方差的平方根,它描述了数据在平均值周围的分散程度。方差和标准差越小,测量值聚类相对于平均值就越紧密。

 

Normal QQPlots/正态QQ图

这里写图片描述

正态 QQ 图上的点可指示数据集的单变量分布的正态性。若是数据是正态分布的,点将落在 45 度参考线上。若是数据不是正态分布的,点将会偏离参考线。get

 

General QQPlots/普通QQ图

普通 QQ 图用于评估两个数据集的分布的类似程度。这些图的建立和所述的正态 QQ 图的过程相似,不一样之处在于第二个数据集不必定要服从正态分布,使用任何数据集都可。若是两个数据集具备相同的分布,普通 QQ 图中的点将落在 45 度直线上。数据分析

 

 

### 有关数据变换it

Geostatistical Analyst 中的一些插值方法要求数据呈正态分布。若是数据偏斜(分布不均衡),则可能须要将数据变换为正态分布。

Box-Cox 变换(又称幂变换)
若是在某一部分研究区域中计数值很小,这一区域的变异性就小于计数值更大的另外一区域的变异性。在这种状况下,平方根变换将有助于使整个研究区域内的方差更加恒定,一般还会使数据呈正态分布。平方根变换是 Box-Cox 变换中 λ = ½ 时的特例。

对数变换
对数变换其实是 Box-Cox 变换中 λ = 0 时的特例。对数变换一般用于呈正偏分布的数据。其中有些值很是大,若是这些大值位于研究区域中,对数变换有助于使方差更加恒定和归一化数据。

例如数据以下分布:
这里写图片描述

变换先后对比:
这里写图片描述

反正弦变换
反正弦变换可用于表示比例或百分比的数据。一般在数据为比例形式时,方差在接近 0 和 1 时最小,接近 0.5 时最大。反正弦变换有助于使整个研究区域内的方差更加恒定,一般还会使数据呈正态分布。

 

Ⅱ 是否存在异常值?

全局异常值是相对于数据集中的全部值而言具备很是高值或很是低值的已测量采样点。
局部异常值是一个已测量采样点,其值处于整个数据集的正常值域范围内,但查看周围点时,其值则显得异常高或异常低。

若是异常值是现象中的真实异常状况,那么这多是研究和理解现象的最重要的位置点。若是异常值是由数据输入过程当中的错误所致使的,那么在建立表面以前应该对其进行校订或移除。

Histogram/直方图

若是在直方图的最左侧(极小值)或最右侧(极大值)可以看到一个孤立的条,可能代表这个条所表示的点是异常值。这种条越孤立于直方图的主条组,点是异常值的几率就越大。

 

Voronoi 图

Voronoi 图是由采样点造成的泰森多边形地图。

这里写图片描述

在查看 Voronoi 图时,检查附近是否有面符号色彩差异很大的值。

例如,下图中红色面明显异于周围值。

这里写图片描述

 

Semivariogram/Covariance Cloud / 半变异函数/协方差云

半变异函数/协方差云工具能够用来检查数据集中空间自相关的局部特征以及查找局部异常值。

这里写图片描述

云中的每一个点表示数据集中的一对点,x 轴表示各位置间的距离,y 轴表示这些位置上的值的差值平方。半变异函数中的每一个点都表示一个位置对,而不是地图上的单个位置。所以云中点的数量会随着数据集中点的数量的增长而快速增长。若是数据集中存在 n 个点,则半变异函数/协方差云中将显示 n*(n-1)/2 个点。所以,不建议使用点数超过几千个的数据集。若是数据集包含几千个点,那么应使用子集要素工具来随机选择点,而后在半变异函数/协方差云中使用子集。

“半变异函数/协方差云”工具对检测局部异常值特别有用。它们显示为互相接近的点(x 轴上的低值),但在 y 轴上倒是高值,代表组成点对的两个点的值有很大差别。这与所指望的结果正相反,即互相接近的点有类似的值。

 

Ⅲ 是否存在趋势?

Trend Analyst / 趋势分析

“趋势分析”工具提供数据的三维透视图。采样点的位置绘制在 x,y 平面上,z值表示感兴趣的属性值。趋势分析工具将散点图投影到 x,z 平面和 y,z 平面上,经过多项式曲线对每一个投影进行了拟合。

这里写图片描述

浏览图形垂直墙面上的粗线。这些线表示趋势。一条趋势线沿 x 轴(一般表示纵向趋势),另外一条显示沿 y 轴的趋势(一般表示纬度趋势)。若是通过投影点的曲线是平的,则不存在趋势;若是多项式曲线具备确切的模式(以下图的蓝线和绿线),这代表数据中存在某种趋势。

另外,检查趋势时更改多项式的阶很是有用;检查不一样于标准 N–S 和 E–W 方向的趋势很是有帮助,能够经过旋转趋势轴检查数据。

 

Ⅳ 是否空间自相关?

咱们可经过检查不一样的位置的采样数据对来探索数据的空间自相关,仍然使用前面提到过的ESDA工具半变异函数云。

 

Semivariogram/Covariance Cloud / 半变异函数/协方差云

若是存在空间相关性,则距离较近的点对(在 x 轴的最左侧)应具备较小的差值(在 y 轴上的值较小)。随着各个点之间的距离愈来愈大(点在 x 轴上向右移动),一般,差值的平方也应随之增大(在 y 轴上向上移动)。一般,平方差超过某个距离后就会保持不变。超过这个距离的位置对被视为不相关。

若是半变异函数中的点对构成一条水平的直线,那么数据中可能不存在空间自相关,于是对数据进行插值也就失去了意义。

地统计方法的基本假设是,对于任意两个彼此间的距离和方向都相近的位置,其差值的平方也应相近。这种关系称为平稳性。空间自相关可能仅依赖于两个位置之间的距离,这被称为各向同性。若是事物在某些方向上比在其余方向上更类似,也就是半变异函数和协方差中都存在这种方向性影响,它被称为各向异性

这里写图片描述

 

交叉协方差云

“交叉协方差云”工具可用于研究两个数据集之间的交叉相关。交叉协方差云显示了两个数据集间的全部位置对的经验交叉协方差,而且将其做为两位置间距离的函数对其进行绘制,与上面的工具相似,该工具也提供具备搜索方向功能的协方差表面。

这里写图片描述

 

对数据有了第一印象,而且用 ESDA 工具对数据作了检查,咱们已经对待研究的数据有了一些先验知识,那么下面就能够选择插值方法来建立表面了,下一篇继续。

相关文章
相关标签/搜索