Python使用xslt提取网页数据

时间 2021-01-12

原文原文链接

前言本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第一部分，实验了用xslt方式一次性提取静态网页内容并转换成xml格式。用lxml库实现网页内容提取 lxml是python的一个库，可以迅速、灵活地处理 XML。它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation