Python爬虫与一汽项目【综述】

时间 2019-11-11

原文原文链接

项目来源

这个爬虫项目是去年实验室去一汽后的第一个项目(基本交工，如今处于更新维护阶段)。内容大概是，获取到全国31个省份政府的关于汽车的招标公告，再用图形界面的方式展现爬虫内容。在完成政府招标采购网以后，提出新的关于国企的招标信息，这些爬虫都是关于这些企业的爬虫代码。php

须要的安装的东西很少，语言就用python3html

数据库：mysql 能够安装正常的mysql，也能够安装wampserver的php服务器（wampserver里面有轻量级的mysql服务器，很方便）前端

数据库安装完成后，再安装一个mysql前端的管理工具，mysql front或者navicat premium(以前用的就是这个)python

******************************************************mysql

安装完成以后，是编写说明sql

爬取网站中与车相关的网页列表，要往数据库存 title(标题),href(网页的连接),招标时间，content（网页中的招标内容）数据库

编写风格能够参照附件里的爬虫文件，解析工具的话能够用Beautiful Soup，也能够用Xpath（我习惯于Xpath，所以后续的文件都是用Xpath写的）服务器

附件里爬虫文件的流程：工具

1. 先根据URL （多是get也多是post）获取到htmlpost

2. 经过解析工具从网页列表中得到每一个单独网页的标题时间网页连接

3. 判断标题是否和车相关，时间是否符合设置要求

4. 若是符合条件，根据网页连接来获取网页中的content内容

5. 这个内容其实就是把整个网页中的文字，去掉标签，加到一块儿变成一段str