一种快捷的解析HTML方案

由于网络太烂,我常常写一些爬虫程序解析一些视频网站的整个专辑或漫画网站的整卷漫画的地址,然后用下载工具离线下载后再统一看。但是,从html源文件中解析出标题和链接来是一件比较麻烦的事情。由于各个网站没有什么共通的特征,并且网站经常改版,导致解析算法基本上没有复用性,必须对每个网站写一个解析算法。 以前我一贯是通过正则表达式写来直接解析文本,本身这种方式并没有什么问题,也非常方便。但是写正则表达式还
相关文章
相关标签/搜索