爬虫搜索基础篇（一）

时间 2019-12-05

标签爬虫搜索基础栏目网络爬虫繁體版

原文原文链接

一．目的正则表达式

首先，咱们要明确，蜘蛛爬虫的目的是什么？天天网上都会更新大量的咨询，爬虫就是将这些网站、应用的精华部分提取出来。就内容的形式而言，文本结构化和非文本结构化是比较常见的两种形式。chrome

1.非文本结构化编程

1.1 HTML文本浏览器

目前主流的文本信息，大部分都基于此。其实它理应属于结构化文本，可是由于搜索引擎在提取内容的时候须要解析它的内部语言，甚至某些字符串才能获得结果，因此仍是将其归类为非文本结构化信息。编辑器

列举一些常见的解析方式：布局

.CSS网站

这是TX首页财经部分的代码，一目了然，是用CSS来排版的。这也是目前主流的网页布局语言，里面id=finance，为了获取这块代码的内容，咱们将finance标记为“#finance”，就获得了这块的HTML代码。用这种方法也能够得到其余内容。搜索引擎

.XPATH索引

利用chrome浏览器，基于XPATH的路径选择方法，能够快速获得所需内容，如图。开发

.正则表达式

在碰到小片断文本、字符串、或者是包含JS代码，就须要使用到这种方法，经过标准正则解析，用指定的格式匹配相关文本，通常适用于纯文本信息，能够很好的获取到有用的纯文本信息。

.字符串分隔

不建议常常使用，这个方法跟正则表达式差很少，由于比较偷懒。

1.2 一段文本

对于纯文本信息，咱们也是须要提取其中有用的内容，例如一篇文章或者是一段简短的文字，若是是滞后处理，咱们能够先把这些信息存储，若是须要实时提取的，可使用如下方式处理:

.分词

将抓取到的文本信息进行分段分析，获取关键语句后进行分词处理，而后进行分词统计，相似于向量的表达方式。

.NLP

NLP的意思是词义分析，将获取到的文本信息用正负面的结果形式表示出来。

刚学的想上手试试吗？在线编程，码农谷智能开发在线编辑器