作爬虫ICLD的migration的时候,发现ICLD的官网,显示各类route信息是否是显示在html上,而是一张PDF。
因此问题就转变为,解析PDF为HTML再进行以往的分析操做。
首先经过绕过ssl认证去获取网页上的信息,转成inputStream写进临时文件里面。
在经过PDDocument来获取里面的PDF,用PDFTextStripper进行操做,获取里面的各类text。
而后人为的加入一些HTML标签,让他跟以前爬回来的HTML字段没有什么区别,就能够跟以前同样进行操做了。html