正则留档

1.时间css

\d{4}-\d{2}-\d{2} -\d{2}:\d{2}:\d{2}spa

2. 路径code

log==> (C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\\\)+([1-9a-zA-Z].*)+\.txt+$blog

3. 数字结尾ip

log==> \d{2}+$ io

4.综合class

\d{4}/\d{2}/\d{2} \d{2}:\d{2}:\d{2}  log==> C:\\Users\\sec-h\\AppData\\Roaming\\Temp\\136906\\+([A-Za-z1-9].*)+\.txt+$注释

5.去除<>以及其中间的内容di

<([^>]*)>时间

6.去除特殊标签

#去除注释
result = re.sub('(<\!\-\-)[\\s\\S]*?(\-\->)',"",context)
#去除js
result = re.sub('(<script)[\\s\\S]*?(<\/script>)',"",result)
#去除css
result = re.sub('(<style)[\\s\\S]*?(<\/style>)',"",result)
#去除HTML标签
result = re.sub('<[^>]*>',"",result)
相关文章
相关标签/搜索