爬虫学习日记（十二）解析PDF

时间 2019-12-05

标签爬虫学习日记十二解析 pdf 栏目网络爬虫繁體版

原文原文链接

作爬虫ICLD的migration的时候，发现ICLD的官网，显示各类route信息是否是显示在html上，而是一张PDF。
因此问题就转变为，解析PDF为HTML再进行以往的分析操做。
首先经过绕过ssl认证去获取网页上的信息，转成inputStream写进临时文件里面。
在经过PDDocument来获取里面的PDF，用PDFTextStripper进行操做，获取里面的各类text。
而后人为的加入一些HTML标签，让他跟以前爬回来的HTML字段没有什么区别，就能够跟以前同样进行操做了。html