初学python 爬虫

在python3中有一个 urllib模块,使用urllib 这个模块来进行简单的爬虫。

from urllib import request     #引用这个模块

import re

 

def  getObject(url): 

 urlObject = request.urlopen(url)     #打开一个url,获得http请求的上下文,也就是 http reponse 对象

return getObject

def getjpglist(data):                #使用正则表达式,匹配图片路径

 list = re.findall(r'src = https.+?.jpg',data)

 return list

 

httpObject = getObject("https://www.csdn.net/")      #得到这个http reponse对象

#httpObject .geturl()    可以得到地址

#httpObject .info()  获得headers

#httpObject .getcode()   获得http的状态

data = httpObject .read().decado('utf-8')   #得到内容,得到内容之后我们就可以用正则筛选自己想要的东西

     jlist = getjpglist(data)

global n    #声明一个全局变量

for jpg in jlist :        #循环得到的图片地址的集合,打印出来

  print(list)

  n = n+1

# 如果想要下载图片可以使用   request.urlretrieve() 方法