爬取李开复博客并导入mongodb数据库

时间 2021-04-21

原文原文链接

1.实验目的 l 掌握使用Scrapy等爬虫工具编写爬虫程序的基本思路； l 掌握抓取列表+详情的静态组合页面的方法 2.实验要求抓取目标。可以选择以下网站作为抓取目标，也可以自行寻找自己感兴趣的抓取目标：爬取网页：“李开复的博客”：http://blog.sina.com.cn/kaifulee 任务要求。 1）分析页面结构，确定待抓取的数据项，至少应抓取文章标题、发表时间、正文内容、文章U

>>阅读原文<<