python抓取网页之helloWord

 学习python基础有一小段时间了,一直没有用python作实际的应用,心理面感受空空的!因而决定开始用python的优点写一些python的程序,把python学好!第一个python的应用,就从Python的爬虫开始吧!html

一:python打开UR内容python

#urllib2提供了打开一个url,获得该url全部内容等一些实现ide

import urllib2学习

content=urllib2.urlopen('http://developer.51cto.com/col/1005/').read()url

print content.net

注:经过以上方法能获取到该url页面下的全部内容!htm

二:python解析URLit

#urlparse 提供了URL解析的实现class

from urlparse import urlparseimport

url=urlparse('http://www.onepub.net/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html')

print url

注意:经过打印能够得出解析的结果:

ParseResult(scheme='http', netloc='www.onepub.net', path='/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html', params='', query='', fragment='')

根据须要,咱们能够从结果中获取、重组咱们的要的内容!

注:更多python抓取网页内容,将根据学习的深刻进而续写......!

相关文章
相关标签/搜索