HTML 遍历

HTML 遍历

HTML基本格式:

HTML基本格式

1.下行遍历:

属性 说明
contents 子节点的列表,将 全部儿子节点存入列表
children 子节点的迭代类型,与.contents相似,用于循环遍历儿子节点
descendants 子孙节点的迭代类型,包含全部子孙节点,用于循环遍历
##遍历儿子结点
for child in soup.body.children:
    print(child)
##遍历子孙结点
for child in soup.body.descendants:
    print(child)

2.上行遍历:

属性 说明
parent 结点的父亲标签
parents 节点先辈标签的迭代类型,用于循环遍历先辈节点
##遍历父辈结点
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

3. 平行遍历

属性 说明
next_sibling 返回按照HTML文本顺序的下一个平行节点标签
previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
next_siblings 迭代类型,返回按照HTML文本顺序的后续全部平行节点标签
previous_siblings 迭代类型,返回按照HTML文本顺序的前续全部平行节点标签

注: 平行遍历发生在同一个父节点下的各节点间html

##遍历后续结点
for sibling in soup.a.next_siblings:
    print(sibling)
##遍历前续结点
for sibling in soup.a.previous_siblings:
    print(sibling)
相关文章
相关标签/搜索