在这个项目中,咱们使用到的网址是
html
http://product.yesky.com/more/506001_31372_photograph_1.shtml
python
首先是第一个网页源码的爬取,总体代码跟上一个相似,可是为了能让你们更熟悉代码的编写,建议从头开始再本身敲一遍python爬虫
#!/uer/bin/env python # -*- coding: UTF-8 -*- __author__ = '217小月月坑' ''' 获取网页源码 ''' import urllib2 url = 'http://product.yesky.com/more/506001_31372_photograph_1.shtml' user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0' headers = {'User-Agent':user_agent} try: request = urllib2.Request(url,headers=headers) response = urllib2.urlopen(request) print response.read() except urllib2.URLError,e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason
好了,第一步爬取网页的源码就这么简单,咱们来看输出结果函数
等等,怎么回事,输出结果中为何会有乱码?ui
好吧只能上网查资料编码
"源网页编码和爬取下来后的编码转换不一致。如源网页为gbk编码的字节流,而咱们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引发乱码"url
因此解决的方法只能是解码,先找出网页的编码方式,再将爬取下来的网页源码按网页的编码方式进行解码,要实现这个功能,在python中使用decode()方法spa
Python decode()方法 描述 Python decode() 方法以 encoding 指定的编码格式解码字符串。默认编码为字符串编码。 语法 decode()方法语法: str.decode(encoding='UTF-8',errors='strict') 参数 encoding -- 要使用的编码,如"UTF-8"。 errors -- 设置不一样错误的处理方案。默认为 'strict',意为编码错误引发一个UnicodeError。 其余可能得值有 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 以及经过 codecs.register_error() 注册的任何值。 返回值 该方法返回解码后的字符串。 相应的,有解码就会有编码,python中使用 encode()方法进行编码,参数与decode()同样
在python爬虫代码中,要解码其实很简单,将urllib2.urlopen()中返回的内容直接使用decode函数解码便可调试
好比在前面写的源码中,只要将code
contents = response.read()
改为
contents = response.read().decode("gbk")
就能够了
这里说一下,gbk
gbk是极视界网页使用的编码方式,那么怎么知道一个网页所使用的编码方式是什么呢?
1. 按F12调处调试界面,找到Content-Type 这项,后面就是网页源码的编码格式
2. 在网页源码中通常会写有编码格式 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
那么,修改以后的输出是什么样的呢?
OK,乱码的问题已经解决了