聚类、降维、文本处理阅读记录

时间 2019-11-21

标签文本处理阅读记录繁體版

原文原文链接

聚类正则表达式

数据没有标注。无监督技术。数组

K-均值聚类函数

层次聚类：是一个结构化的聚类方法，最终可获得多层的聚类结果，其中每一个类族可能包含多个子类族。由于每一个子类族与父类族链接，因此也称为树形聚类。文档

离群值：归一化/标准化解决。file

--------------------------------------------方法

降维技术

主成分分析 PCA数据

奇异值分解 SVD文件存储

SVD试图将一个m X n矩阵分解为3个主成分矩阵语言

a、mXm维矩阵U

b、mXm维对角阵S，S中的元素是奇异值

c、mXm维矩阵Vt

X = UxSxVt

事实上，通常计算截断的SVD，只保留前k个奇异值，它们能表明数据的最主要变化，剩余的奇异值被丢弃，

即X ~ UkxSkxVkt

降维技术：基于矩阵分解

wholeTextFiles函数，容许咱们一次操做整个文件访问每一个文件存储的位置，返回键/值对组成的RDD，键是文件位置，值是整个文件内容。

file://是本地文件系统

hdfs://是hdfs

s3n://是Amazon S3文件系统，……

一个彩图可表示成三维的像素数组或矩阵，即x、y坐标，表示每一个像素的位置，第3个维度表示每一个像素的RGB值。灰图可表示为二维，因第三个维度为一个不变值。常常将彩图转换为灰图。

--------------------------------------------

文本数据处理

文本数据处理的复杂性：

文本和语言有隐含的结构信息

有效维度通常都巨大甚至无限

词频-逆文本频率（TF-IDF）：

TF-IDF给文档中每一个词赋予一个权值，这个权值是基于单词在文本中出现的频率（词频）计算获得，同时还要应用逆向文本频率作全局归一化。

tf-idf(t,d) = tf(t,d) x idf(t)

idf(t) = log(N/d)

tf(t,d) : t在d中的频率

idf(t)：t的逆向文本频率

N：文档总数

d：出现过单词t的文档数量

TF-IDF含义是：在一个文档中出现次数不少的词相比出现次数少的词应该在词向量表示中获得更高的权值。而IDF归一化起到了减弱在全部文档中老是出现的词做用，最后的结果就是，稀有的或重要的词被给予了更高的权值，而更加经常使用的单词（被认为比较不重要）则在考虑权重的时候有较小的影响。

特征哈希：一种处理高维数据的技术，并常常应用在文本和分类数据集上。

特征哈希经过使用哈希方程对特征赋予向量下标，这个向量下标是经过特征的值作哈希获得（一般是整数）。但因最经常使用的哈希函数返回整个整数域内的任意值，咱们将使用模操做来限制下标的值到一个特定的大小，远小于整数域大小（根据须要取数千上万直至几百万）。

缺陷：

1）没有建立特征到下标的映射，也就不能作逆向转换把下标转换为特征。

2）产生哈希冲突，但只要咱们选择了一个相对合理的特征向量维度，这种冲突貌似对于模型的效果没有太大的影响。

正则表达式的应用，切分原始文档来移除这些非单词字符。

使用TF-IDF加权或直接过滤指定的停用词。

基于频率去除单词。