Spring Boot + Java爬虫 + 部署到Linux (2、Java爬虫)

    这个小项目的主要(惟一)的业务就是一个爬虫。这个爬虫的功能就是爬取一个图片网站的图片。爬虫相对是独立的,若是只想作一个简单的爬虫,也能够参考。html     作爬虫以前,先分析一下要爬的网站的结构。不要一上来就乱爬。因为爬虫的单位最大是一个图集(image set),因此爬虫的入口就设置为图集的地址。若是须要爬取更大的范围,爬图集也能够做为基础的子程序。java     通常图集的首地址
相关文章
相关标签/搜索