Python-Scrapy抓取百度数据并分析

时间 2020-05-13

标签 python scrapy 抓取百度数据分析栏目 Python 繁體版

原文原文链接

抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据。使用scrapy框架结合 selenium爬取百度搜索数据，并进行简要的数据的分析！！php

打开百度搜索页面，并查看网页源代码，问题便出现，没法查看到页面源代码，以下，只是返回一个状态说明，这时能够肯定页面数据是动态生成，常规的爬取行不通。html

在浏览器中进行调试分析，能够发现须要定位使用的html元素，经过这一步至少能够将如下两个元素的XPATH或CSS Selector的表达式求解出来。html5

既然搜索页面的内容是动态生成，常规的http请求后没法获取数据，针对这种问题的解决方法：java

l 经过抓包工具，进行对http请求进行分析，找到实际数据请求的js代码后进行模拟请求获取数据，这种方法耗时耗力，且是没法适应页面更改的状况。python

l 经过浏览器框架请求，并编写程序和浏览器通讯获取数据分析，对于这种方法的选择有不少，如在windows上能够使用IE Browser控件，其余的能够使用其余内核的浏览器，这种方法的缺点是速度较慢。git

l 这里选取的方法是使用 Selenium + Phantomjs的方法，这个结合scrapy也算是较为经典的一种方法。而且 Selenium + Phantomjs 也是做为Web应用程序进行自动化测试的一套方案。github

l Selenium : Selenium 是一个用于Web应用程序测试的工具，能够搭配主流浏览器进行使用，如 IE ，Chrome ，Firefox等web

l Phantomjs: 一个基于webkit内核的无头浏览器，即没有UI界面，即它就是一个浏览器，只是其内的点击、翻页等人为相关操做须要程序设计实现。mongodb

开始实际编写代码前，对爬取步骤的梳理。数据库

自动填写搜索关键字 – 自动触发搜索功能 – 抓取页面搜索数据（不包含广告推广项） – 分页跳转 …..

输入关键字并进行查找，对关键字“IT教育”进行搜索

对第一页右边栏的“相关机构”（以下图）进行抓取（首先须要触发“展开”事件）

在开启爬虫，进行爬取数据的，爬取结果以下：

分析数据通过抓取，共抓取了76页，抓取的数据以下: Json文件 [[图片上传中在SQLServer数据库中。

对抓取数据进行关键字提取，并制做对应的标签云，获得的标签云图为.分析工具为python，经过jieba分词和pycloundtag两个模块进行，获得的分析结果以下：

分析搜索“IT教育”获得结果得出的初步结论，出现次数较多：

n 城市：北京深圳杭州武汉长沙等

n 机构：北大青鸟达内传智播客等

n 语言： java php html5 等