基于Python爬取天眼查网站的企业信息

时间 2019-12-05

标签基于 python 网站企业信息栏目 Python 繁體版

原文原文链接

爬虫简介

这是一个在未登陆的状况下，根据企业名称搜索，爬取企业页面数据的采集程序python

注意: 这是一个比较简单的爬虫，基本上只用到了代理，没有用到其余的反反爬技术，不过因为爬取的数据比较多，适合刷解析技能的熟练度，因此高手勿进mysql

代码已经上传到GitHub上，有用还请给个星git

python版本：python2.7github

编码工具：pycharmsql

数据存储：mysql数据库

爬虫结构：广度爬虫微信

先获取须要采集信息的公司：python2.7
1. 从数据库中获取
2. 获取字段：etid，etname
3. 将获取的数据存储的状态表中
4. 从状态表中获取数据，并更新状态表
拼接初始URL：ide
1. 将etname和初始url进行拼接，得到初始网址
2. 将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另外一个列表中，进行循环获取
请求解析初始一级页面：工具
1. 验证查询的公司是否正确（？？）
2. 获取二级页面url
3. 将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另外一个列表中，进行循环获取
请求解析二级页面：
1. 获取的信息待定
将公司的信息存储到数据库中：
1. 建表
2. 存储信息