书名:数据挖掘导论(Introduction to Data Mining)
做者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民邮电出版社
译者: 范明 / 范宏建
出版年: 2010-12-10
ISBN: 9787115241009并发
汇总统计(summary statistics)是量化的(如均值和标准差),用单个数或数的小集合表示可能很大的值集的各类特征。机器学习
考虑m个对象,这m个对象具备属性x,x的取值集合为{v1,...,vi,...,vk}。
则vi对应的频率: frequency(vi) = 具备属性vi的对象数/m
分类属性的众数(mode)是具备最高频率的值。学习
对于有序数据,考虑值集的百分位数(percentile)更有意义。具体来讲,给定一个有序的或连续的属性x和0与100之间的数p,属性x的第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。动画
对于连续数据,两个使用最普遍的汇总统计是均值(mean)和中位数(median),它们是值集位置的度量。
考虑m个对象,这m个对象具备属性x,x的取值集合为{v1,...,vi,...,vk},且vi <= v(i+1),则
均值:
\[ mean(x) = \bar{x} = \frac{1}{m}\sum_{i=1}^{m}v_i \tag{3-1}\]
中位数:
\[ median(x) = \left\{ \begin{matrix}v_{r+1},m=2r+1\\ \frac{1}{2}(v_r + v_{r+1}),m=2r\end{matrix} \right. \tag{3-2} \]
归纳地说,若是奇数个值,则中位数是中间值;若是有偶数个值,则中位数是中间两个值的平均值。
因为均值对离群值敏感,因此有时采用截断均值(trimmed mean)。指定0和100之间的百分位数p,丢弃高端和低端的(p/2)%的数据,而后用常规的方法计算均值。中位数就是p=100时的截断均值。spa
度量数据的集中程度。
最简单的度量是极差(range)。给定属性x,它具备m个值{\(x_1\),..,\(x_m\)},则极差:
\[ range(x) = max(x) - min(x) \tag{3-3} \]
更经常使用的度量是方差(variance)和标准差(standard deviation)。方差记做\(s_x^{2}\),标准差是方差的平方根,记做\(s_x\)。标准差和x具备相同的单位。
\[ s_x^{2} = \frac{1}{m-1}\sum_{i=1}^m(x_i - \bar{x})^{2} \tag{3-4} \]
注意,式(3-4)表示的是样本方差,注意与整体方差进行区别。
因为方差对离群值敏感,因此有时会用到如下三种度量。
绝对平均误差(absolute average deviation, AAD):
\[ AAD(x) = \frac{1}{m}\sum_{i=1}^m|x_i - \bar{x}| \tag{3-5} \]
中位数绝对误差(median absolute deviation, MAD):
\[ MAD(x) = median(\{|x_1 - \bar{x}|,...,|x_m - \bar{x}|\}) \tag{3-6} \]
四分位数极差(interquartile range, IQR):
\[ IQR(x) = x_{75\%} - x_{25\%} \tag{3-7} \]对象
包含多个属性的数据的位置度量,能够经过分别计算每一个属性的均值或中位数获得。
对于每一个属性的散布状况,更多的使用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素\(s_{ij}\)是数据的第i个和第j个属性的协方差。这样,若是\(x_i\)和\(x_j\)分别是第i个和第j个属性,则:
\[ s_{ij} = covariance(x_i, x_j) \tag{3-8} \]
而其中,
\[ covariance(x_i, x_j) = \frac{1}{m-1}\sum_{k=1}^m(x_{ki}-\bar{x_i})(x_{kj}-\bar{x_j}) \tag{3-9} \]
其中,\(x_{ki}\)和\(x_{kj}\)分别是第k个对象的第i和第j个属性的值。
协方差的值接近于0,代表两个变量不具备(线性)关系。
数据的相关性,能够用相关矩阵(correlation matrix)来度量。相关矩阵的第ij个元素是数据的第i和第j个属性之间的相关性。若是\(x_i\)和\(x_j\)分别是第i个和第j个属性,则:
\[ r_{ij} = correlation(x_i, x_j) = \frac{covariance(x_i, x_j)}{s_is_j} \tag{3-10} \]
其中\(s_i\)和\(s_j\)分别是\(x_i\)和\(x_j\)的方差。ip
饼图(pie chart)ci
动画get
Chernoff脸(Chernoff face)it
ACCENT原则: