文本挖掘的基本流程

1、获取文本   咱们获取网络文本,主要是获取网页HTML的形式。咱们要把网络中的文本获取文本数据库(数据集)。编写爬虫(Spider)程序,抓取到网络中的信息。能够用广度优先和深度优先;根据用户的需求,爬虫能够有垂直爬虫和通用爬虫之分,垂直爬取主要是在相关站点爬取或者爬取相关主题的文本 ,而通用爬虫则通常对此不加限制。爬虫能够本身写,固然如今网络上已经存在不少开源的爬虫系统(好比python的S
相关文章
相关标签/搜索