爬虫数据清洗之html标签的清洗

时间 2020-05-13

原文原文链接

咱们日常爬取数据时，会常常有多余的html便签，下面咱们就来清洗一下这些标签：html 1，只清洗标签，能够用正则，也能够用remove（），remove_tags（）函数node 正则清洗： import re html='<p class="txt" node-type="feed_list_content" nick-name="人民日报">\n