xiaolinBot(Twitter笑话集锦爬虫Bot) Step1-最简爬虫

Step1 - 最简爬虫

环境准备

Python3.5 最好使用venvpython

另外须要两个必要的库:git

  • requests : 一个封装了HTTP服务的python库github

  • pyquery : 相似Jquery,使用很是方便浏览器

$ pip install requests
$ pip install pyquery

开始

实现第一个应用

咱们第一个应用实现的功能主要以下:bash

  1. 访问一个页面,这里咱们以 糗事百科(http://www.qiushibaike.com/) 为例网络

  2. 得到页面的内容优化

  3. 进行简单的处理,得到咱们须要的内容spa

import requests
from pyquery import PyQuery as pq

__author__ = 'BONFY CHEN <foreverbonfy@163.com>'


SITE = 'http://www.qiushibaike.com/'
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)

结果

结果

简单分析

  1. 利用 requests.get 得到页面code

  2. assert 断言,若是网络问题 访问不到就退出图片

  3. contents 利用 pyquery 得到全部文章 后续 读取 div class = "content" 的为文本内容 (这里没有处理图片后续的讲解中会完善)

  4. print 输出

完整代码

补充模仿浏览器的Headers,详情见 https://github.com/bonfy/xiaolinBot

欢迎关注及一块儿交流

请期待下一篇: 代码优化

相关文章
相关标签/搜索