正则表达式基础应用
html文本
<html> <body> <h1>新溪大桥早高峰报道:堵成一窝蜂</h1> <h5>是否让白沙大桥帮助每小时前进300米的新溪大桥分流呢</h5> <div> <div class="publish"> <p>发布者:<span class="publisher">今日新闻</span>|发布时间:<span class="pubTime">2020-1-29</span></p> </div> <div class="content"> <p>新溪大桥于 2018 年 6 月正式启用通车……</p> <p>……</p> <p>……</p> <p>……</p> <p>记者:王大力、陈小七(实习)</p> </div> </div> </body> </html>
Pyhton代码匹配标题
import re f = open("1-6.txt", "r", encoding="UTF-8") html = f.read() f.close() title = re.findall("h1>(.*?)<",html) print(title)
结果
注意事项
编码方式,咱们经常使用的gbk,utf8。html