昨天开始了极客学院《XPath与多线程爬虫》课程的学习,主要涉及到XPath和requests的使用,在测试过程当中出现了不少问题,通过不断摸索以及前辈们的帮助,现将经验总结以下:
1. Python3下面文本编码问题
虽然Python3相对于2已经集成了不少编码方式,使咱们不须要过多去关心和指定编码,但有时候在文本读取,写入的时候仍是须要多当心,在测试过程当中屡次出如今写入文件时报告错误“UnicodeEncodeError: 'ascii' codec can't encode character '\u56de' in position 0: ordinal not in range(128)”,这是因为咱们在抓取网页的时候采用的是UTF-8编码,而存储时没有指定编码,在存储到文件的过程当中就会报错。
解决办法为:
在读取文件时加入指定UTF-8编码的选项html
f = open('content.txt','a',encoding='UTF-8')
另外须要注意的是使用requests获取到网页以后一样要指定编码正则表达式
html = requests.get(url) html = re.sub(r'charset=(/w*)', 'charset=UTF-8', html.text)
2. XPath的用法
XPath能够很方便的解析XML文件的节点和属性,使用也很简单,相比于正则表达式来讲,XPath的查询方式更加高效准确,它来自于lxml包内的etree,在使用以前应该声明编程
from lxml import etree
在使用XPath应该遵循“先抓大,再抓小”的原则,现定位到大的节点,获取到全部字节点再一层一层往下寻找,直到获取所须要的信息
例如,咱们想要抓取百度贴吧的网页每个楼层的信息(包括做者,回帖时间,回帖内容等等),经过Chrome-Inspect element能够审查代码,获得某一个楼层的代码楼层最外层都有声明:json
<div class="l_post j_l_post l_post_bright "
使用XPath先获取整个楼层的全部节点(Node)多线程
content_field = selector.xpath('//div[@class="l_post j_l_post l_post_bright "]')
再往下寻找,发现咱们要提取的内容位于app
<div class="d_post_content_main">
这一个节点之内,再继续往下挖掘:编程语言
content =each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()')
这样一步步获得想要的内容ide
3.JSON格式
网页中不少内容使用JSON来传输,咱们要把内容还原出来须要使用json模块函数式编程
import json reply_info = json.loads(each.xpath('@data-field')[0].replace('"',''))
4.Python中的多线程
多线程能够很大幅度提升软件的处理速度,能够充分利用计算机性能,不一样的核处理不一样的任务,并行执行,提升处理速度,使用方法以下:函数
from multiprocessing.dummy import Pool as ThreadPool pool = ThreadPool(8) results = pool.map(spider,page) pool.close() pool.join()
map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它能够经过一个序列实现两个函数之间的映射。上面的这两行代码将 page这一序列中的每一个元素做为参数传递到 spyder 方法中,并将全部结果保存到 results 这一列表中。其结果大体至关于:
results = [] for page in pages: results.append(spyder(page))
上述代码中调用join以前,先调用close函数,不然会出错。执行完close后不会有新的进程加入到pool,join函数等待全部子进程结束。
所有代码:
#-*-coding:utf8-*- from lxml import etree from multiprocessing.dummy import Pool as ThreadPool import requests import json import re import sys '''从新运行以前请删除content.txt,由于文件操做使用追加方式,会致使内容太多。''' def towrite(contentdict): #f=open("content.txt",'wb') f.writelines(u'回帖时间:' + str(contentdict['topic_reply_time']) + '\n') f.writelines(u'回帖内容:' + str(contentdict['topic_reply_content']) + '\n') f.writelines(u'回帖人:' + contentdict['user_name'] + '\n\n') #f.close() def spider(url): html = requests.get(url) #print(html.text) html = re.sub(r'charset=(/w*)', 'charset=UTF-8', html.text) selector = etree.HTML(html) # print(selector) #content_field = selector.xpath('//div[starts-with(@class,"l_post l_post_bright")]')p_content p_content_nameplate #content_field = selector.xpath('//*[@id="j_p_postlist"]') content_field = selector.xpath('//div[@class="l_post j_l_post l_post_bright "]') item = {} for each in content_field: reply_info = json.loads(each.xpath('@data-field')[0].replace('"','')) author = reply_info['author']['user_name'] # content1 = each.xpath('//div[@class="d_post_content_main"]') content = each.xpath('div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content clearfix"]/text()') reply_time = reply_info['content']['date'] print("content:{0}".format(content)) print("Reply_time:{0}".format(reply_time)) print("Author:{0}".format(author)) item['user_name'] = author item['topic_reply_content'] = content item['topic_reply_time'] = reply_time towrite(item) if __name__ == '__main__': pool = ThreadPool(8) f = open('content.txt','a',encoding='UTF-8') # f = open('content.txt','a') page = [] for i in range(1,21): newpage = 'http://tieba.baidu.com/p/3522395718?pn=' + str(i) page.append(newpage) results = pool.map(spider,page) pool.close() pool.join() f.close()
结果以下:
回帖时间:2015-01-11 16:52 回帖内容:[' 6和plus纠结买哪款。还有 买完新机可让他上色吗'] 回帖人:斗已转0 回帖时间:2015-01-11 16:53 回帖内容:[' 我如今是以贴吧高级会员的身份帮你顶贴,请注意你的态度'] 回帖人:暑假干啥 回帖时间:2015-01-11 16:57 回帖内容:[' 我去'] 回帖人:qw518287200 回帖时间:2015-01-11 16:57 回帖内容:[' 能教我怎么看序列号或imei号麽,大神\uf618'] 回帖人:花颜诱朕醉
须要注意的是,极客学院附带资料的源代码是没法使用的,以上说到的几点就是我在调试过程当中淌过的坑,要注意使用Chrome对要抓取的网页进行细心分析,修改xpath参数并不断试验。
+++++++明日计划++++++++++++++++加入计时功能,测试单线程与多线程的性能差异尝试抓取网页中的图片并保存