一、从python官网下载 Windows的安装包,注意32 bit和64 bit之分。html
二、双击进入安装界面,将“把python加入到path变量中”的选项勾上,这个相似于装java。java
三、安装的时候自定义安装路径,此处我安装在c:\program file\目录下python
四、其余根据合适进行勾选便可。api
五、安装完成后,打开控制台,输入: python,便可验证是否安装成功。
服务器
一、在www.crummy.com下载压缩文件,并解压到安装python的文件夹:c:\program files\python中,文件夹为:beautifulSoup
函数
二、因为安装的是python 3,因此须要将beautifulsoup的代码进行转换。此处使用python自带的工具2to3.py,该工具在~/python/Tools/scripts文件夹下,进入该文件夹,打开控制台,对beautifulSoup进行转换:2to3.py -w c:\program files\python\beautifulsoup(指定beautifulsoup的文件夹便可)工具
三、改变代码后,安装beautifulsoup。进入beautifulsoup文件夹,打开控制台,输入命令:学习
setup.py build setup.py install
四、检验安装是否成功:import bs4ui
一、进入官网下载pycharm安装包便可,一路下一步。url
二、打开pycharm后,程序若是没法自动找到python的解释器,须要进行指定。具体网上搜索:pycharm制定python解释器。当指定好解释器后,环境即搭建完成,具体设置因人而异。
声明:如下程序仅供学习参考,版权归做者全部,如侵犯版权,请及时联系,立刻删除。
示例1:粗糙版网页下载程序
from urllib.request import urlopen html=urlopen("http://pythonscraping.com/pages/page1.html") print(html.read()); #urllib doc: docs.python.org/3/library/urllib.html
示例2:使用beautifulsoup访问标签
from urllib.request import urlopen from bs4 import BeautifulSoup html=urlopen("http://www.pythonscraping.com/pages/page1.html") bsObj=BeautifulSoup(html.read()) print(bsObj.h1)
示例3:对异常和错误进行处理
#两种状况:一、没找到请求页面,或服务器内部错误:HTTPError # 二、没找到服务器,返回None # 三、访问不存在页面的标签,触发AttributeError from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup def getTitle(url): #定义函数 try:#无请求页面、或服务器内部出错 html=urlopen(url) except HTTPError as e: return None try:#查看没有的标签 bsObj=BeautifulSoup(html.read(),"html.parser") title=bsObj.body.h1 except AttributeError as e: return None return title#以return结束函数 title=getTitle("http://www.pythonscraping.com/pages/page1.html") if title == None: print("Title could not be found") else: print(title)
这个是程序中用到的网页: