一、安装环境与小试程序

一、安装python 3

一、从python官网下载 Windows的安装包,注意32 bit和64 bit之分。html

二、双击进入安装界面,将“把python加入到path变量中”的选项勾上,这个相似于装java。java

三、安装的时候自定义安装路径,此处我安装在c:\program file\目录下python

四、其余根据合适进行勾选便可。api

五、安装完成后,打开控制台,输入: python,便可验证是否安装成功。
服务器

二、安装BeautifulSoup插件

    一、在www.crummy.com下载压缩文件,并解压到安装python的文件夹:c:\program files\python中,文件夹为:beautifulSoup
函数

    二、因为安装的是python 3,因此须要将beautifulsoup的代码进行转换。此处使用python自带的工具2to3.py,该工具在~/python/Tools/scripts文件夹下,进入该文件夹,打开控制台,对beautifulSoup进行转换:2to3.py -w c:\program files\python\beautifulsoup(指定beautifulsoup的文件夹便可)工具

    三、改变代码后,安装beautifulsoup。进入beautifulsoup文件夹,打开控制台,输入命令:学习

setup.py build
setup.py install

四、检验安装是否成功:import bs4ui

三、安装pycharm

一、进入官网下载pycharm安装包便可,一路下一步。url

二、打开pycharm后,程序若是没法自动找到python的解释器,须要进行指定。具体网上搜索:pycharm制定python解释器。当指定好解释器后,环境即搭建完成,具体设置因人而异。

四、示例程序

声明:如下程序仅供学习参考,版权归做者全部,如侵犯版权,请及时联系,立刻删除。

示例1:粗糙版网页下载程序

from urllib.request import urlopen
html=urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read()); #urllib doc: docs.python.org/3/library/urllib.html


示例2:使用beautifulsoup访问标签

from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html.read())
print(bsObj.h1)


示例3:对异常和错误进行处理

#两种状况:一、没找到请求页面,或服务器内部错误:HTTPError
#           二、没找到服务器,返回None
#           三、访问不存在页面的标签,触发AttributeError
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import  BeautifulSoup

def getTitle(url): #定义函数
    try:#无请求页面、或服务器内部出错
        html=urlopen(url)
    except HTTPError as e:
        return None
    try:#查看没有的标签
        bsObj=BeautifulSoup(html.read(),"html.parser")
        title=bsObj.body.h1
    except AttributeError as e:
        return None
    return title#以return结束函数
title=getTitle("http://www.pythonscraping.com/pages/page1.html")
if title == None:
    print("Title could not be found")
else:
    print(title)

这个是程序中用到的网页: 

http://pythonscraping.com/pages/page1.html 

相关文章
相关标签/搜索