爬虫简介

这是一个在未登陆的状况下,根据企业名称搜索,爬取企业页面数据的采集程序python
注意: 这是一个比较简单的爬虫,基本上只用到了代理,没有用到其余的反反爬技术,不过因为爬取的数据比较多,适合刷解析技能的熟练度,因此高手勿进mysql
代码已经上传到GitHub上,有用还请给个星git
python版本:python2.7github
编码工具:pycharmsql
数据存储:mysql数据库
爬虫结构:广度爬虫微信
爬虫思路:

-
先获取须要采集信息的公司:python2.7
- 从数据库中获取
- 获取字段:etid,etname
- 将获取的数据存储的状态表中
- 从状态表中获取数据,并更新状态表
-
拼接初始URL:ide
- 将etname和初始url进行拼接,得到初始网址
- 将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另外一个列表中,进行循环获取
-
请求解析初始一级页面:工具
- 验证查询的公司是否正确(??)
- 获取二级页面url
- 将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另外一个列表中,进行循环获取
-
请求解析二级页面:
- 获取的信息待定
-
将公司的信息存储到数据库中:
- 建表
- 存储信息
所建的表:

- 企业主要信息: et_host_info
- 工商信息: et_busi_info
- 分支机构信息: et_branch_office
- 软件著做权信息: et_container_copyright_info
- 网站备案信息: et_conrainer_icp_info
- 对外投资信息: et_foreign_investment_info
- 融资信息: et_rongzi_info
- 股东信息: et_stareholder_info
- 商标信息: et_trademark_info
- 微信公众号信息:et_wechat_list_info
- 状态表: et_name_status
看一下部分的结果图:



