不少时候特别是交易时,咱们须要想办法监控一些信息,好比股市的公告。若是现有的软件没有办法实现咱们的需求,那么就要靠咱们本身动手,才能丰衣足食。python
json
爬虫抓取的是东方财富上的上市公司公告,上市公司公告有些会在盘中公布。实时监控的原理,其实就是程序代替人工,按期地去刷新网页,而后用刷新先后获得的数据进行比对,若是同样,那么等待下一个周期继续刷新,若是不同,那么就把增量信息提取出来,供咱们查阅。python爬虫
第一步,导入随机请求头和须要的包网站
咱们使用json来解析获取的信息,使用什么方法解析数据取决于咱们请求数据的返回形式,这里使用json最方便,咱们就导入json包。url
第二步,获取初始的公告数据spa
咱们发现,每个公告都有一个独有的文章号码:art_code,所以咱们以这个号码做为新旧比较的基准,若是新页面的头一个公告的art_code和已有的一致,那么就进入下一个刷新周期,若是不一致,那么说明页面已经更新过了,咱们提取最新的报告,同时更新这个art_code,用于下一次比对。code
原始url的获取。获取以后,经过json解析其中的内容,获得art_code,覆盖写入在tmp.txt文件中,用于比对。blog
读取了tmp.txt文件中的art_code,跟页面解析的art_code比对。接口
第三步,获取公告标题和文章连接it
经过json咱们基本上已经可以解析出大部分的数据内容。
经过观察网站的公告连接的特色,咱们发现主要的差异就是在art_code,所以经过网址连接的拼接,咱们就可以获得公告的pdf连接。
第四步,运行咱们的程序
程序运行的结果会打印到窗口当中,每当有新的公告发布,程序上就会出现一串新的信息。
自此,咱们经过程序把咱们要的信息打印到了程序的运行窗口,同时,咱们的程序也能够根据咱们需求进行强化和扩充。首先,这些信息也能够很是方便的经过接口发送到邮箱、钉钉等平台,起到实时提醒的做用,其次,咱们也能够从不一样的地方抓取信息,完成所需信息的自定义整合,这些将在咱们后续的文章中提到。