beautiful soup 4.0(bs4)遍历文档树(2)

一、概述 在使用爬虫程序对爬取的文档进行处理时,常常要作的一个操做就是遍历文档树。文档以树形结构进行组织,因此遍历文档的操做又叫遍历文档树。beautiful soup自己提供了不少遍历文档树的方法,本文主要讨论遍历文档树的方法。html 二、遍历文档树 2.1 准备工做 本文将使用公众号的文章做为遍历的对象,因此首先须要先把整个文档抓取下来,并将多余的元素去除掉,只保留文档的主体部分以保证文档分
相关文章
相关标签/搜索