爬取李开复博客并导入mongodb数据库

1.实验目的 l 掌握使用Scrapy等爬虫工具编写爬虫程序的基本思路; l 掌握抓取列表+详情的静态组合页面的方法 2.实验要求 抓取目标。可以选择以下网站作为抓取目标,也可以自行寻找自己感兴趣的抓取目标: 爬取网页:“李开复的博客”:http://blog.sina.com.cn/kaifulee 任务要求。 1)分析页面结构,确定待抓取的数据项,至少应抓取文章标题、发表时间、正文内容、文章U
相关文章
相关标签/搜索