数据集由数据对象
组成。一个数据对象表明一个实体,如:学校数据库中对象能够是学生、老师。
数据对象用属性
来描述。数据库
属性是一个数据字段,表示数据对象的一个特征。
属性能够是标称的
、二元的
、序数的
或数值的
。数据结构
标称属性的值是一些符号
或事物的名称
,这些值没必要具备有意义的序(无序
)。每一个值表明某种类别、编码或状态,所以标称属性又被看作是分类的
。例如:头发颜色:黑色、黄色、棕色和白色。
标称属性不能求出均值和中位数,但能够找出众数
。函数
二元属性是一种标称属性
,只有两个类别或状态:0或1。
例如:假设属性smoker描述患者对象,1表示患者抽烟,0表示不抽烟。
二元属性又称布尔属性
,当两种状态对应于true和false时。
二元属性是对称的
,当它的两种状态具备同等价值
并携带相同权重
,例如:性别属性。
二元属性是非对称的
,当它的状态或结果不是同等重要的,例如:HIV化验的阳性结果和阴性结果。编码
序数属性是一种属性,其可能的值之间具备有意义的序或秩评定
,但相继值之间的差是未知的。例如:小、中、大或成绩:A+、A、A-、B+。
序数属性一般用于等级评定调查
。
序数属性的中心趋势
能够用它的众数
和中位数
表示,但不能定义均值。spa
定性的
,即描述对象特征,但不给出实际大小。数据属性是定量的
,能够是区间标度
的或比率标度
的。code
相等的单位尺度
度量。区间属性的值有序
,能够为正、0、负。所以,除了值的秩评定外,这种属性容许咱们比较和定量评估值之间的差。例如:温度属性。固定零点
(即,能够说一个值是另外一个值的倍数
或比率
)。这些值都是有序的
,例如:开式温度(K)具备绝对零点(0°K = -273.15℃),在该点构成物质的粒子具备零动能。区间标度属性除了中心趋势度量中位数和众数外,还能够计算均值
。对象
离散属性是有有限
或无限可数
个值,能够用或不用整数表示。
若是属性不是离散的,则它是连续的。blog
对于倾斜(非对称)数据,数据中心的更好度量是中位数
。
可使用插值
计算整个数据集的中位数的近似值:
$ median = L_{1} + (\frac{\frac{N}{2} - (\sum freq)_{l}}{freq_{median}})*width $
$L_1$:中位数区间的下界, N:整个数据集中值的个数,$(\sum freq)_l$:低于中位数区间的全部频数和,$freq_{median}$:中位数区间的频数,$width$:中位数区间的宽度排序
一个数据集和能有多个众数,当最高频率对应多个不一样的值,具备一个、两个、三个众数的数据集合分别称为单峰的
、双峰的
和三峰的
,具备两个及以上称为多峰的
。
一个数据集也可能没有众数,好比:每一个元素只出现一次。中列数
是数据集的最大值和最小值的平均值。ip
最大值
与最小值
之差基本上
大小相等的连贯集合。IQR
): $IQR = Q_3 - Q_1$ (其中,$Q_3$是第三个分位数,$Q_1$是第一个分位数)识别离群点的通用规则
:挑选落在第三个四分位数之上或第一个四分位数之下至少$1.5*IQR$处的值。中位数
($Q_2$)、四分位数
$Q_1$和$Q_3$、最小
和最大观测值
组成,按次序是$Minimum,Q_1,Median,Q_3,Maximum$均值
做为中心度量时使用。包括分位数图
、分位数-分位数图(q-q图)
、直方图
和散点图
,前三种图显示一元分布
,散点图显示二元分布
。
经过图形表示清晰有效地表达数据。
类似性和相异性都称邻近性
。
若是两个对象$i$和$j$不类似
,则它们的类似性度量为0
。
数据矩阵(对象-属性
结构):这种数据结构用关系表
的形式或$n*p$($n$个对象 x $p$个属性)矩阵存放几个数据对象:
$$ \left[ \begin{matrix} x_{11} & ... & x_{1f} & ... & x_{1p} \\ ... & ... & ... & ... & ... \\ x_{i1} & ... & x_{if} & ... & x_{ip}\\ ... & ... & ... & ... & ... \\ x_{n1} & ... & x_{nf} & ... & x_{np}\\ \end{matrix} \right] $$
相异性矩阵(对象-对象
结构):存放几个对象两两之间的邻近度
,一般用一个$n*n$矩阵表示:
$$ \left[ \begin{matrix} 0 & & & & \\ d(2,1) & 0 & & & \\ d(3,1) & d(3,2) & 0 & & \\ ... & ... & ... & ... & \\ d(n,1) & d(n,2) & ... & ... & 0 \\ \end{matrix} \right] $$
其中$d(i,j)$是对象$i$和对象$j$之间的相异性。通常$d(i,j)$是非负的
,$d(i,j)=d(j,i)$
类似性度量能够表示成相异性度量的函数:
$sim(i,j) = 1- d(i,j)$, 其中$sim(i,j)$是对象$i$和$j$之间的类似性
数据矩阵常常被称为二模矩阵
,由两种实体组成,即行和列。
相异性矩阵只包含一类实体,所以被称为单模矩阵
。
两个对象$i$和$j$之间的相异性能够根据不匹配率
来计算:
$d(i,j) = \frac{p-m}{p}$
其中,$m$是匹配数目
(即$i$和$j$取值相同状态的属性数),$p$是刻画对象的属性总数
。
类似性计算:$sim(i,j)=\frac{m}{p}$
二元属性列联表
对象$j$ | ||||
---|---|---|---|---|
1 | 0 | sum | ||
对象$j$ | 1 | $q$ | $r$ | $q+r$ |
0 | $s$ | $t$ | $s+t$ | |
sum | $q+s$ | $r+t$ | $p$ |
若是$i$和$j$都用对称
的二元属性刻画,则$i$和$j$的相异性为:
$d(i,j)=\frac{r+s}{q+r+s+t} $非对称
的二元相异性:
$d(i,j)=\frac{r+s}{q+r+s} $
非对称的二元类似性:
$sim(i,j)=\frac{q}{q+r+s} = 1-d(i,j) $ ,这被称为$Jaccard$系数
当对称与非对称的二元属性同时出现时,使用混合属性
方法。
欧几里得距离
(即,直线):
$d(i,j)=\sqrt{(x_{i1}-x_{j1})^2 + (x_{i2}-x_{j2})^2 + ... + (x_{ip}-x_{jp})^2} $曼哈顿(或城市块)距离
:城市两点之间的街区距离
$d(i,j)=\mid x_{i1}-x_{j1}\mid + \mid x_{i2}-x_{j2} \mid +...+ \mid x_{ip}-x_{jp} \mid$
欧几里得距离和曼哈顿距离知足如下性质: |
---|
非负性
:$d(i,j)≥0$同一性
:$d(i,i)=0$对称性
:$d(i,j)=d(j,i)$三角不等式
:$d(i,j)≤d(i,k)+d(k,j)$知足这些条件的测度称做度量
。
闵可夫斯基距离
是欧式距离和曼哈顿距离的推广(又称$L_p$范数):
$d(i,j)=((\mid x_{i1}-x_{j1}\mid)^{h} + (\mid x_{i2}-x_{j2} \mid)^{h} +...+ (\mid x_{ip}-x_{jp} \mid)^{h})^{\frac{1}{h}}$ ,其中$h≥1$.
当$h=1$时,表示曼哈顿距离
($L_1$范数)
当$h=2$时,表示欧式距离
($L_2$范数)上确界距离
(又称$L_{max}$, $L_∞$范数和切比雪夫距离)是$h\rightarrow ∞$时闵氏距离的推广:
$d(i,j)=lim_{h\rightarrow∞} (\sum_{f=1}^p (\mid x_{if}-x_{jf} \mid)^{h})^{\frac{1}{h}} = max_{f}^p \mid x_{if}-x_{jf}\mid$
$L_∞$范数又称一致范数
。
加权欧式距离:
$d(i,j)=\sqrt{w_1*(x_{i1}-x_{j1})^2 + w_2*(x_{i2}-x_{j2})^2 + ... + w_p*(x_{ip}-x_{jp})^2} $
假设$f$是用于描述$n$个对象的一组序数属性之一。
关于$f$的相异性计算以下: |
---|
将不一样的属性组合在单个
相异性矩阵中,把全部有意义的属性转换到共同的区间$[0.0, 1.0]$ 上。
假设数据集包含$p$个混合类型的属性,对象$i$和$j$之间的相异性$d(i,j)$:
$d(i,j)=\frac{\sum_{f=1}^p \sigma_{ij}^{(f)} d_{ij}^{(f)}}{\sum_{f=1}^p \sigma_{ij}^{(f)}}$
其中,指示符$ \sigma_{ij}^{(f)} = 0$,若是$x_{if}$或$x_{jf}$缺失,或者$x_{if}=x_{jf}=0$, 而且$f$是非对称二元属性
;不然,指示符$ \sigma_{ij}^{(f)} = 1$ 。
属性$f$对$i$和$j$之间相异性的贡献$ d_{ij}^{(f)}$根据类型计算:
数值
的:$d_{ij}^{(f)}=\frac{\mid x_{if}-x_{jf}\mid}{max_hx_{hf} - min_hx_{hf}}$ ,其中$h$遍取$f$中全部非缺失值对象。标称或二元
的:若是$x_{if}=x_{jf}$,则$d_{ij}^{(f)}=0$;不然$d_{ij}^{(f)}=1$。序数
的:计算排位$r_{if}$和$z_{if}=\frac{r_{if}-1}{M_f-1}$,并将$z_{if}$做为数值属性
对待。余弦类似性
能够用来比较文档
,或针对给定的查询词向量对文档排序
。
令$x, y$ 是两个待比较的向量,使用余弦度量
做为类似性函数:
$sim(x,y)=\frac{x*y}{\mid\mid x\mid\mid \mid\mid y\mid\mid}$
余弦测量属于非度量测度
。
当属性是二值
属性时,余弦类似性函数能够用共享特征或属性
解释,因而$sim(x,y)$是公共属性相对拥有
的一种度量:$sim(x,y)=\frac{x*y}{x*x+y*y-x*y}$ ,(称为$Tanimoto$系数/距离)