python抓取网页之helloWord

时间 2020-01-24

标签 python 抓取网页 helloword 栏目 Python 繁體版

原文原文链接

学习python基础有一小段时间了,一直没有用python作实际的应用,心理面感受空空的！因而决定开始用python的优点写一些python的程序,把python学好！第一个python的应用,就从Python的爬虫开始吧！html

一：python打开UR内容python

#urllib2提供了打开一个url,获得该url全部内容等一些实现ide

import urllib2学习

content=urllib2.urlopen('http://developer.51cto.com/col/1005/').read()url

print content.net

注：经过以上方法能获取到该url页面下的全部内容！htm

二：python解析URLit

#urlparse 提供了URL解析的实现class

from urlparse import urlparseimport

url=urlparse('http://www.onepub.net/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html')

print url

注意：经过打印能够得出解析的结果：

ParseResult(scheme='http', netloc='www.onepub.net', path='/%E4%BD%BF%E7%94%A8urlparse%E5%AE%9E%E7%8E%B0url%E8%A7%A3%E6%9E%90.html', params='', query='', fragment='')

根据须要,咱们能够从结果中获取、重组咱们的要的内容!

注：更多python抓取网页内容,将根据学习的深刻进而续写......!