Python3.5 最好使用venvpython
另外须要两个必要的库:git
$ pip install requests $ pip install pyquery
咱们第一个应用实现的功能主要以下:bash
访问一个页面,这里咱们以 糗事百科(http://www.qiushibaike.com/) 为例网络
得到页面的内容优化
进行简单的处理,得到咱们须要的内容spa
import requests from pyquery import PyQuery as pq __author__ = 'BONFY CHEN <foreverbonfy@163.com>' SITE = 'http://www.qiushibaike.com/' r = requests.get(SITE) assert r.status_code == 200 d = pq(r.text) contents = d("div .article") for item in contents: i = pq(item) content = i("div .content").text() print(content)
利用 requests.get 得到页面code
assert 断言,若是网络问题 访问不到就退出图片
contents 利用 pyquery 得到全部文章 后续 读取 div class = "content" 的为文本内容 (这里没有处理图片后续的讲解中会完善)
print 输出
补充模仿浏览器的Headers,详情见 https://github.com/bonfy/xiaolinBot
欢迎关注及一块儿交流
请期待下一篇: 代码优化