另类爬虫：从PDF文件中爬取表格数据

时间 2021-01-02

原文原文链接

简介本文将展示一个稍微不一样点的爬虫。以往我们的爬虫都是从网络上爬取数据，因为网页一般用HTML,CSS,JavaScript代码写成，因此，有大量成熟的技术来爬取网页中的各种数据。这次，我们需要爬取的文档为PDF文件。本文将展示如何利用Python的camelot模块从PDF文件中爬取表格数据。在我们的日常生活和工作中，PDF文件无疑是最常用的文件格式之一，小到教材、课件，大到

>>阅读原文<<