爬虫搜索基础篇（二）

时间 2019-12-06

原文原文链接

2.结构化数据html

JSON字符串的数据是最好处理的，由于只须要解析以后就可使用了，结构化数据基本都是这个类型。正则表达式

二．内容chrome

APP手机端的蓬勃兴起，在必定程度上改变了人们获取信息的习惯，以往都是打开电脑，在浏览器上面搜索本身须要的知识。如今只要有手机，有WIFI，搜索变得简单，方便的多了。爬虫除了检索网页上的内容以外，也会涉及到移动端的抓取请求，这里要分为两部分说明。编程

网页浏览器

不少新人都习惯性地认为，咱们在网页上看到的就是所有内容，其实并不单单局限于网页代码里面的包含的信息，新人在这一块可能有碰到不少问题，好比：异步

若是是直接调用本地浏览器、要么就是抓取一些包含了JS代码的引擎，这两种作法在处理大量数据抓取是很是低效的，到底呈如今网页上的内容是如何实现的呢？主要分为如下几点：编辑器

.网页包含的内容htm

网页上的内容有一些是固定不变的，有一些内容是动态的，必须经过模板渲染生成，蜘蛛在获取这类信息的时候，只须要搜索特定的HTML标签便可获得，很是简单。开发

.JS代码的内容字符串

在处理含有js代码的网页时，很容易检索到空内容。这是由于全部的内容不只是html、同时还有js字符串，若是只处理html代码，那是没法获得信息的。这种状况下必须用正则表达式找到包含内容的js代码串，才能获得实质的信息，不能单一的解析html。

.Ajax异步的内容

下图是chrome浏览器，在页面以分页形式展示的时候，亦或是无刷新的状况下，出现如下状况就很正常。那咱们该如何分析呢？这里简要说明：

首先咱们要学会观察数据，在页面刷新的时候，数据在哪一步被加载进来的，若是是没有意义的网页，就不须要理会了。若是一旦找到核心异步请求的时候，直接抓取就好了。

刚学的想上手试试吗？在线编程，码农谷智能开发在线编辑器