R 文字挖掘基本流程

文字挖掘的基本流程: 需要的工具套件: 内容来源:guternbergr 古腾堡计划,提供很多书籍电子版资料,可以用guternbergr套件以编号直接下载书籍 自己爬取内容:现成的爬虫工具,自己写爬虫 基本文字处理:dplyr、tidytext 包 断词模组: 1. 中文:jiebar包 基本断词 自定义使用者断词词典 自定义停用词 2. 英文:Stanford Cote NLP 词性标注模组:
相关文章
相关标签/搜索