1、从HTML文档中提取连接html
Python语言还有一个很是有用的模块HTMLParser,该模块使咱们可以根据HTML文档中的标签来简洁、高效地解析HTML文档。因此,在处理HTML文档的时候,HTMLParser是最经常使用的模块之一。python
处理HTML文档的时候,咱们经常须要从其中提取出全部的连接。使用HTMLParser模块后,这项任务将变得易如反掌。首先,咱们须要定义 一个新的HTMLParser类,以覆盖handle_starttag()方法,咱们将使用这个方法来显示全部标签的HRef属性值。浏览器
定义好新的HTMLParser类以后,须要建立一个实例来返回HTMLParser对象。而后,就可使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。服务器
为了解析HTML文件的内容并显示包含其中的连接,可使用read()函数将数据传递给HTMLParser对象。HTMLParser对象 的feed函数将接收数据,并经过定义的HTMLParser对象对数据进行相应的解析。须要注意,若是传给HTMLParser的feed()函数的数 据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,须要分段发送给解析器的时候,这个功能就会 有用武之地了。下面是一个具体的例子cookie
lParser.close()app
2、从HTML文档中提取图像 dom
处理HTML文档的时候,咱们经常须要从其中提取出全部的图像。使用HTMLParser模块后,这项任务将变得易如反掌。首先,咱们须要定义 一个新的HTMLParser类,以覆盖handle_starttag()方法,该方法的做用是查找img标签,并保存src属性值所指的文件。函数
定义好新的HTMLParser类以后,须要建立一个实例来返回HTMLParser对象。而后,就可使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。测试
为了解析HTML文件的内容并显示包含其中的图像,可使用feed(data)函数将数据发送至HTMLParser对象。HTMLParser对象的feed函数将接收数据,并经过定义的HTMLParser对象对数据进行相应的解析。下面是一个具体的示例:网站
上述代码的运行结果以下所示:
Saving afnic.fr.png
3、从HTML文档中提取文本
处理HTML文档的时候,咱们经常须要从其中提取出全部的文本。使用HTMLParser模块后,这项任务将变得很是简单了。首先,咱们须要定义一个新的HTMLParser类,以覆盖handle_data()方法,该方法是用来解析并文本数据的。
定义好新的HTMLParser类以后,须要建立一个实例来返回HTMLParser对象。而后,就可使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的文本,咱们可使用feed(data)函数将数据传递给HTMLParser对象。 HTMLParser对象的feed函数将接收数据,并经过定义的HTMLParser对象对数据进行相应的解析。要注意的是,若是传给 HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很 大,须要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的代码示例:
print item
4、从HTML文档中提取Cookies
不少时候,咱们都须要处理Cookie,幸运的是Python语言的cookielib模块为咱们提供了许多自动处理在HTML中的HTTP Cookie的类。当处理要求为客户端设置Cookie的HTML文档的时候,这些类对咱们很是有用。
为了从HTML文档提取cookies,首先得使用cookielib模块的LWPCookieJar()函数建立一个cookie jar的实例。LWPCookieJar()函数将返回一个对象,该对象能够从硬盘加载Cookie,同时还能向硬盘存放Cookie。
接下来,使用urllib2模块的build_opener([handler, . . .])函数建立一个opener对象,当HTML文件打开时该对象将处理cookies。函数build_opener能够接收零个或多个处理程序(这些 程序将按照它们被指定的顺序链接在一块儿)做为参数并返回一个。
注意,若是想让urlopen()使用opener对象来打开HTML文件的话,能够调用install_opener(opener)函数,并将opener对象传给它。不然,请使用opener对象的open(url)函数来打开HTML文件。
一旦已经建立并安装了opener对象,就可使用urllib2模块中的Request(url)函数来建立一个Request对象,而后就能使用urlopen(Request)函数来打开HTML文件了。
打开HTML页面后,该页面的全部Cookie将被存放到LWPCookieJar对象中,以后,您可使用LWPCookieJar对象的save(filename)函数了。
上述代码的运行结果以下所示:
页面的头部页面的Cookies
5、为HTML文档中的属性值添加引号
前面咱们讨论了若是根据HTML解析器中的某种处理程序来解析HTML文件,但是有时候咱们却须要使用全部的处理程序来处理HTML文档。值得庆幸的是,使用HTMLParser模块解析HTML文件的全部要素并不比处理连接或者图像难多少。
这里,咱们将讨论如何使用HTMLParser模块来解析HTML文件,从而为“裸奔”的属性值加上引号。首先,咱们要定义一个新的HTMLParser类,以覆盖下面全部的处理程序来为属性值添加引号。
咱们还须要在parser类中定义一个函数来初始化用于存储解析好的数据的变量,同时还要定义另一个函数来返回解析好的数据。
定义好新的HTMLParser类以后,须要建立一个实例来返回HTMLParser对象。使用咱们建立的init函数初始化该解析器,这样,咱们就可使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并给属性值添加引号,可使用feed(data)函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并经过定义的HTMLParser对象对数据进行相应的解析。下面是一个具体的示例代码:
咱们还须要创建一个测试文件,名为test2.html,该文件内容能够从上述代码的运行结果看到,具体以下所示: