R语言文本分析入门

1. 文本挖掘概述 文本挖掘是指从文本中提取有用的信息。成功应用主要有以下几方面:信息检索、内容管理、市场监测、市场分析等方面。文本挖掘被描述为 “自动化或半自动化处理文本的过程”,包含了文档聚类、文档分类、天然语言处理、文体变化分析及网络挖掘等领域内容。对于文本处理过程首先要拥有分析的语料,好比报告、信函、出版物等。然后根据这些语料创建半结构化的文本库。然后生成包含词频的结构化的词条-文档矩阵。
相关文章
相关标签/搜索