Python爬虫与一汽项目【综述】

项目来源

这个爬虫项目是 去年实验室去一汽后的第一个项目(基本交工,如今处于更新维护阶段)。内容大概是,获取到全国31个省份政府的关于汽车的招标公告,再用图形界面的方式展现爬虫内容。在完成政府招标采购网以后,提出新的关于国企的招标信息,这些爬虫都是关于这些企业的爬虫代码。php

爬虫编写说明

须要的安装的东西很少,语言就用python3html

数据库:mysql  能够安装正常的mysql,也能够安装wampserver的php服务器(wampserver里面有轻量级的mysql服务器,很方便)前端

数据库安装完成后,再安装一个mysql前端的管理工具,mysql front或者navicat premium(以前用的就是这个)python

******************************************************mysql

安装完成以后,是编写说明sql

爬取网站中 与车相关 的网页列表,要往数据库存 title(标题),href(网页的连接),招标时间,content(网页中的招标内容)数据库

编写风格 能够参照 附件里的爬虫文件,解析工具的话 能够用Beautiful Soup,也能够用Xpath(我习惯于Xpath,所以后续的文件都是用Xpath写的)服务器

附件里爬虫文件的流程:工具

1. 先根据URL (多是get也多是post) 获取到htmlpost

2. 经过解析工具从网页列表中 得到每一个单独网页的 标题 时间 网页连接

3. 判断  标题是否和车相关,时间是否符合设置要求

4. 若是符合条件 ,根据网页连接  来获取网页中的content内容

5. 这个内容 其实就是把 整个网页中的文字,去掉标签,加到一块儿变成一段str

相关文章
相关标签/搜索