BeautifulSoup除了能够查找和定位网页内容,还能够修改网页。修改意味着能够增长或删除标签,改变标签名字,变动标签属性,改变文本内容等等。html
每个标签在BeautifulSoup里面都被看成一个标签对象,这个对象能够执行如下任务:python
只须要修改.name参数就能够修改标签名字。app
修改标签的属性如class,id,style等。由于属性以字典形式储存,因此改变标签属性就是简单的处理Python的字典。函数
能够参照以下代码:spa
好比一个标签没有class属性,那么能够参照以下代码增长class属性,.net
使用del操做符,示例以下:xml
BeautifulSoup有new_tag()方法来创造一个新的标签。而后可使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。htm
增长一个新生产者,使用new_tag()而后append()对象
参照前面例子,生产者除了plants和alage外,咱们如今添加一个phytoplankton.首先,须要先创造一个li标签。blog
用new_tag()建立一个新标签
new_tag()方法只能用于BeautifulSoup对象。如今建立一个li对象。
new_tag()对象必须的参数是标签名,其余标签属性参数或其余参数都是可选参数。举例:
使用append()方法添加新标签
append()方法添加新标签于,contents以后,就跟python列表方法append()同样。
li标签是ul标签的子代,添加新标签后的输出结果。
<ul id="producers">
<li class="producerlist">
<div class="name">
plants
</div>
<div class="number">
100000
</div>
</li>
<li class="producerlist">
<div class="name">
algae
</div>
<div class="number">
100000
</div>
</li>s
<li class="producerlist">
</li>
</ul>
使用insert()向li标签中添加新的div标签
append()在.contents以后添加新标签,而insert()却不是如此。咱们须要指定插入的位置。就跟python中的Insert()方法同样。
先是建立两个div标签
而后进行插入,输出效果以下:
<li class_="producerlist">
<div class="name">
</div>
<div class="number">
</div>
</li>
在上面例子中,只是添加了标签,但标签中却没有内容,若是想添加内容的话,BeautifulSoup也能够作到。
好比:
输出以下:
<ul id="producers">
<li class="producerlist">
<div class="name">
plants
</div>
<div class="number">
100000
</div>
</li>
<li class="producerlist">
<div class="name">
algae
</div>
<div class="number">
100000
</div>
</li>
<li class="producerlist">
<div class="name">
phytoplankton
</div>
<div class="number">
</div>
</li>
</ul>
使用append()和insert()的效果就跟用在添加新标签中同样。好比:
输出:
还有一个new_string()方法,
删除标签的方法有decomose()和extract()方法
咱们如今移去class="name"属性的div标签,使用decompose()方法。
输出:
<li class_="producerlist">
<div class_="number">
10000
</div>
</li>
decompose()方法会移去标签及标签的子代。
extract()用于删除一个HTMNL文档中昂的标签或者字符串,另外,它还返回一个被删除掉的标签或字符串的句柄。不一样于decompose(),extract也能够用于字符串。
标签能够有一个NavigableString对象或tag对象做为子代。删除掉这些子代可使用clear()
举例,能够移掉带有plants的div标签和 相应的class=number属性标签。
输出:
<li class="producerlist"></li>
能够看出跟li相关的标签内容被删除干净。
除了咱们以前看到的那些方法,BeautifulSoup还有其余修改内容的方法。
这两个方法用于在标签或字符串以前或以后插入标签或字符串。这个方法须要的参数只有NavigavleString和tag对象。
输出:
<html>
<body>
<div class="ecopyramid">
<ul id="producers">
<li class="producerlist">
<div class="name">
plants
</div>
<div class="number">
100000
</div>
<div class="ecosystem">
soil
</div>
</li>
<li class="producerlist">
<div class="name">
algae
</div>
<div class="number">
100000
</div>
</li>
</ul>
</div>
</body>
</html>
这个方法用于用一个新的标签或字符串替代原有的标签或字符串。这个方法把一个标签对象或字符串对象做为输入。replace_with()会返回一个被替代标签或字符串的句柄。
replace_with()一样也能够用于彻底的替换掉一个标签。
wrap()方法用于在一个标签或字符串外包裹一个标签或字符串。好比能够用一个div标签包裹li标签里的所有内容。
而unwrap()就跟wrap()作的事情相反。unwrap()和replace_with()同样会返回被替代的标签句柄。