本教程是崔大大的爬虫实战教程的笔记:网易云课堂html
Windows下安装Python: http://www.cnblogs.com/0bug/p/8228378.html正则表达式
Linux以Ubuntu为例,通常是自带的,只需配置一下默认版本:http://www.cnblogs.com/0bug/p/8598273.htmlmongodb
virtualenv的安装:http://www.cnblogs.com/0bug/p/8598458.html数据库
用到的IDE是PyCharm,Windows下到官网下载就行(Professional版本):http://www.jetbrains.com/pycharm/download/浏览器
Linux下以Ubuntu为例:http://www.cnblogs.com/0bug/p/8598673.html服务器
Pycharm须要花钱,建议花钱买正版。网站
Mac我就不写了,由于我没有Mac视频
Windows下安装和配置:http://www.cnblogs.com/0bug/p/8290330.htmlhtm
Linux以Ubuntu为例:sudo apt-get install mongodbblog
Windows&Ubuntu:http://www.cnblogs.com/0bug/p/8892711.html
Windows&Ubuntu:http://www.cnblogs.com/0bug/p/8655363.html
爬虫就是请求网站并提取数据的自动化程序
1.发起请求
2.解析请求
3.获取相应内容
4.保存数据
好比咱们在浏览器中输入一个网址
浏览器就会发送消息给该网址所在的服务器,这个过程就叫作HTTP Request
服务器收到浏览器发送的消息后,可以根据浏览器发送消息的内容,作相应处理,而后把消息回传给浏览器。这个过程叫作HTTP Response
浏览器收到服务器的Response信息后,会对信息进行相应的处理,而后展现。
1.请求方式:
主要有GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等。
HTTP协议中GET和POST方法的区别:http://www.cnblogs.com/0bug/p/8892959.html
2.请求URL
3.请求头如User-Agent、Host、Cookies等
HTTP协议中中常见请求头信息:http://www.cnblogs.com/0bug/p/8893038.html#_label1
4.请求体
1.响应状态
有多种响应状态如200表明成功,301表明跳转,404表明找不到页面,502表明服务器错误
2.响应头
如内容类型,内容长度,服务器消息,设置Cookie等等
3.响应体
主要的部分,包含了请求资源的内容,如网页HTML、图片二进制数据等。
1.网页文本:如HTML文档,Json格式文本等
2.图片:获取的是二进制文件,另存为图片格式
3.视频:同为二进制文件,保持为视频格式便可
4.其余:只有能请求,都能获取
1.直接处理
2.Json解析
3.正则表达式
4.BeautifulSoup
5.PyQuery
6.Xpath
7.其余
1.分析Ajax请求
2.Selenium/WebDriver
3.Splash
4.PyV八、Fhost.py
1.文本:纯文本、Json、Xml等
2.关系型数据库:如MySQL、Oracle、SQL Server等具备结构化表结构形式的存储
3.非关系型数据库:如MongoDB、Redis等Key-Value形式存储
4.二进制文件:如图片、视频、音频等等直接保存成特定格式便可
Ullib的基本使用:http://www.cnblogs.com/0bug/p/8893677.html
reuqests库的基本用法:http://www.cnblogs.com/0bug/p/8899841.html
正则表达式与re模块:http://www.cnblogs.com/0bug/p/8272233.html
Beautiful Soup库基础用法:http://www.cnblogs.com/0bug/p/8260834.html
PyQuery:http://www.cnblogs.com/0bug/p/8276717.html
Selenium基础用法:http://www.cnblogs.com/0bug/p/8270552.html
Requests+正则表达式爬取猫眼电影:http://www.cnblogs.com/0bug/p/8906490.html