文本挖掘是的过程是什么，主要划分为几个步骤？

时间 2021-01-13

原文原文链接

第一步：适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法，最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。第二步：文本是被清洗了的——它从网页上的广告中拆离出来；标准化文本从二进制格式转换而来；表、数字等式都是经过处理的；还有其它的等等。然后，将文本中的词语与对应的词类标记的步骤开始进行。有两种方法标出词语：一个是基于规则方法

>>阅读原文<<