1.时间css
\d{4}-\d{2}-\d{2} -\d{2}:\d{2}:\d{2}spa
2. 路径code
log==> (C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\\\)+([1-9a-zA-Z].*)+\.txt+$blog
3. 数字结尾ip
log==> \d{2}+$ io
4.综合class
\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2} log==> C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\+([A-Za-z1-9].*)+\.txt+$注释
5.去除<>以及其中间的内容di
<([^>]*)>时间
6.去除特殊标签
#去除注释 result = re.sub('(<\!\-\-)[\\s\\S]*?(\-\->)',"",context) #去除js result = re.sub('(<script)[\\s\\S]*?(<\/script>)',"",result) #去除css result = re.sub('(<style)[\\s\\S]*?(<\/style>)',"",result) #去除HTML标签 result = re.sub('<[^>]*>',"",result)