Python的BeautifulSoup中的HTML结构解析

BS把HTML看做一个树形,以标签和文本为基本类型,一个标签包含其他标签,被解析为一个标签是另一个标签的子树。那么,最终整个HTML文档被解析为一棵树的形式。 BS包括四种基本类型: Soup(树),Tag(标签节点),String(字符节点),Comment(注释节点)。 这四种类型的节点构成树,Soup代表这颗树,String为叶子节点,tag为标签子节点,为其标签包含的所有内容。 剖析 HT
相关文章
相关标签/搜索