另类爬虫:从PDF文件中爬取表格数据

简介   本文将展示一个稍微不一样点的爬虫。   以往我们的爬虫都是从网络上爬取数据,因为网页一般用HTML,CSS,JavaScript代码写成,因此,有大量成熟的技术来爬取网页中的各种数据。这次,我们需要爬取的文档为PDF文件。本文将展示如何利用Python的camelot模块从PDF文件中爬取表格数据。   在我们的日常生活和工作中,PDF文件无疑是最常用的文件格式之一,小到教材、课件,大到
相关文章
相关标签/搜索