简要的谈谈文本数据挖掘的通常步骤

时间 2019-11-16

标签简要谈谈文本数据挖掘通常步骤繁體版

原文原文链接

数据挖掘领域一直都很是的火。如今炒的很是热的大数据，其实也是数据挖掘的一个应用而已，无论工程师用的是Hadoop仍是其余平台，其实都是对一堆的数据进行分析，计算，而后获得咱们但愿获得的结果。因此咱们能够知道，文本数据挖掘的必要性是由于信息技术，特别是网络的频繁使用，自媒体的愈来愈多，从大海中找到同一类，和用户期待的一类信息愈来愈重要，而人工完成几乎不可能，因此，文本挖掘就应运而生。html

数据挖掘中的文本挖掘与咱们的生活息息相关，好比说，百度上的新闻，固然，他少不了编辑人员的做用，可是在众多网络信息中，寻找到热点，离开机器的做用几乎是不可能完成的。还有最近一款很是热的app，<<头条>>。其实也是文本挖掘的应用。固然，其中还有推荐系统(这里咱们不作讨论，若是你们有兴趣，我能够另写一博文普及一下相关知识)。还有，文本挖掘对百度，google等搜索引擎其实也起到很是大的重要。算法

好的，了解到了这些的话，咱们就能够讲讲文本挖掘的一本步骤，这里以网络文本为例。数据挖掘就是作一道菜，通过各类加工，最后成为一道美食。数据库

1、获取文本网络

通常来讲网络文本的获取，主要是网页的形式。咱们要把网络中的文本获取造成一个文本数据库(数据集)。利用一个爬虫(这是另一个知识点),抓取到网络中的信息。爬取的策略有广度和深度爬取；根据用户的需求，爬虫能够有主题爬虫和通用爬虫之分，主题爬取主要是在相关站点爬取或者爬取相关主题的文本，而通用爬虫则通常对此不加限制。爬虫能够本身写，固然如今网络上已经存在不少开源的爬虫系统。固然若是须要定制，本身写仍是能够的。app

2、对文本进行预处理工具

经过上面的步骤，咱们已经得到了作菜的材料了，能够说，有了它，作出一道菜已是顺利成当了。可是，菜好很差吃，可不可口，还须要通过不少步骤的。oop

咱们知道，网页中存在不少没必要要的信息，好比说一些广告，导航栏，html、js代码，注释等等，咱们并不感兴趣的信息,能够delete掉。因此，咱们还须要对文本中的信息进行筛选。这个步骤至关于咱们作菜的洗菜过程，洗掉泥土等，吃起来才会口感好，不然，没有清洗过的菜，就算再牛逼的大厨，我想也很难作出佳肴吧。大数据

3、分词系统搜索引擎

通过上面的步骤，咱们会获得比较干净的素材。咱们知道，文本中起到关键做用的是一些词，甚至主要词就能起到决定文本取向。好比说一篇文章讲的是体育仍是娱乐，确定是对文章中的中心词进行分析获得的结果。那么怎么样才能找到那些可以影响中心意思的词语呢？google

别忘了，在找出中心词以前，咱们首先得在每一个文本中获得全部词吧。这里就会用到一个分词系统或者说分词工具。如今针对中文分词，出现了不少分词的算法，有最大匹配法、最优匹配法、机械匹配法、逆向匹配法、双向匹配法等等(能够参考各种文献)。咱们常常用到的中科院的分词工具ICTCLAS，该算法通过众多科学家的认定是当今中文分词中最好的，而且支持用户自定义词典，加入词典,；对新词，人名，地名等的发现也具备良好的效果。

经过不少分词工具分出来的出会出现一个词，外加该词的词性。好比说啊是语气助词。

好比咱们对:(咱们都是牛逼的中国人。)进行分词，获得的结果是：

咱们/rr 都/d 是/vshi 牛/n 逼/v 的/ude1 中国/ns 人/n 。/wj

4、去除停顿词等

通过上面的步骤，咱们已经把全部的词进行了分类。可是这些全部的词，并不都是咱们所须要的，好比说句号（。）显然，句号对意思的表达没有什么效果。还有"是"、“的”等词，也没有什么效果。由于这些词在全部的文章中都大量存在，并不能反应出文本的意思，能够处理掉。固然针对不一样的应用还有不少其余词性也是能够去掉的，好比形容词等。

5、特征选择

通过上面的步骤，咱们基本可以获得有意义的一些词。可是这些全部的词都有意义吗？显然不是这样的，有些词会在这个文本集中大量出现，有些只是出现少数几回而已。他们每每也不能决定文章的内容。还有一个缘由就是，若是对全部词语都保留，维度会特别高，矩阵将会变得特别特别稀疏，严重影响到挖掘结果。那么对这些相对有意义的词语选取哪一本分比较合理呢？针对特征选择也有不少种不一样的方式，可是改进后的TF*IDF每每起到的效果是最好的。tf-idf 模型的主要思想是：若是词w在一篇文档d中出现的频率高，而且在其余文档中不多出现，则认为词w具备很好的区分能力，适合用来把文章d和其余文章区分开来。

下面是百度对TF、IDF的解释：

在一份给定的文件里，词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字一般会被归一化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而无论该词语重要与否。）

逆向文件频率 (inverse document frequency, IDF) 是一个词语广泛重要性的度量。某一特定词语的IDF，能够由总文件数目除以包含该词语之文件的数目，再将获得的商取对数获得。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，能够产生出高权重的TF-IDF。所以，TF-IDF倾向于保留文档中较为特别的词语，过滤经常使用词。

经过计算，对词进行排序，选取合适的词数当作特征。

6、利用算法进行挖掘

通过上面的步骤以后，咱们就能够把文本集转化成一个矩阵。咱们可以利用各类算法进行挖掘，好比说若是要对文本集进行分类，咱们能够利用KNN算法，贝叶斯算法、决策树算法等等。

以上六个步骤，就是通常文本挖掘的主要步骤，但愿对你们有所帮助。谢谢！

版权全部，欢迎转载，可是转载请注明出处：潇一