一个简单的百度爬虫

0x00python

  以前不知道python怎么爬取百度的内容,由于看到有不少参数,直接复制下来改变wd参数老是会出现各类奇怪的问题url

  昨晚经程师傅指点才知道原来不少参数并非必要的。今天才搜了下百度的各个参数的意义,之前竟然没想到去搜一下百度的参数,感受本身真是太愚钝了spa

  因而,今天写了个小小的百度爬虫orm

0x01blog

  代码:utf-8

#!/usr/bin/python
# -*- coding:utf-8 -*-
# 昏鸦

import requests
import re
import sys

def get_baidu(s,page=5):
	pattern = "data-tools='{\"title\":\"(.*?)\",\"url\":\"(.*?)\""

	for p in xrange(0,page*10+1,10):
		req = "http://www.baidu.com/s?wd={}&pn={}&cl=3".format(s,p)
		res = requests.get(url=req).text
		reg = re.findall(pattern,res)

		for i in xrange(len(reg)):
			title = reg[i][0]
			url = requests.get(url=reg[i][1]).url
			print title+'\n'+url+'\n\n'

if __name__=='__main__':
	get_baidu(sys.argv[1],int(sys.argv[2]))

  

  结果:get

    

0x02requests

  只爬取了百度出来的标题和URL连接,默认爬取前5页it

相关文章
相关标签/搜索