爬虫数据清洗之html标签的清洗

    咱们日常爬取数据时,会常常有多余的html便签,下面咱们就来清洗一下这些标签:html 1,只清洗标签,能够用正则,也能够用remove(),remove_tags()函数node 正则清洗: import re html='<p class="txt" node-type="feed_list_content" nick-name="人民日报">\n                  
相关文章
相关标签/搜索