网络爬虫实战2——BeautifulSoup基础操作

时间 2021-01-10

原文原文链接

一、介绍爬虫的第一步，获取整个网页的HTML信息，我们已经完成（上一篇博文：http://blog.csdn.net/vinsuan1993/article/details/79367192）。接下来就是爬虫的第二步，解析HTML信息，提取我们需要的内容。对于本小节的实战，我们需要提取新闻的标题、URL地址和时间。提取的方法有很多，例如使用正则表达式、Xpath、Beautif

>>阅读原文<<