爬虫基础知识1

时间 2019-11-13

原文原文链接

1.爬虫概念爬虫是什么？javascript

生活中，爬虫就是爬行的虫子，毛毛虫、蛆、蜘蛛（spider）蜘蛛网：从任何一端均可以到达任何一端，由不少的节点构成互联网爬虫。html

通用爬虫：
百度、搜狗、谷歌、360、必应等搜索引擎
工做：将互联网中全部的数据所有爬取下来，给用户提供检索服务
本身的网站呢？博客，阿里云服务器，放上去了，放到网上了
百度能不能抓取你的网站？
（1）其它网站中设置友情连接
（2）主动提交url，百度开发者
（3）百度会和DNS服务商合做，抓取新的网站
能不能让百度不抓取你的网站？
能够实现，经过robots.txt文件，须要放在网站的根目录，写出来哪些能够抓，哪些不能够抓取。
robots.txt是一个口头协议、君子协议，百度听从这个协议，你本身写的，你要不要听从呢？咱们不听从
网站排名（SEO）
（1）page-rank值排名，本身的实力排名
（2）竞价排名
缺点：
（1）抓取的不少数据都是没用的
（2）不能根据指定的需求获取数据java

聚焦爬虫：
概念：根据特定的需求从互联网上爬取指定的数据
网页的共同特色：
（1）一个网页都有本身惟一的url（统一资源定位符）
（2）网页都是html结构的
（3）网页传输使用的都是http协议、https协议
思路：
（1）给我一个url
（2）向这个url发送请求，获得响应（网页内容）
（3）解析网页，提取指定数据python

环境：
windows、linux、python3.六、编辑器（pycharm）、sublimelinux

总体内容：
（1）如何发送请求
urllib.request urllib.parse requests
（2）解析数据
正则表达式（均可以）、bs4（html）、xpath（html）、jsonpath（json数据）
（3）采集动态html数据
selenium+phantomjs（大招、绝招）
（4）scrapy，scrapy-redis分布式部署
（5）涉及到爬虫、反爬虫、反反爬虫的技术web

核心，理论上：只要浏览器可以访问，那么程序就能访问
实际过程当中，参数搞不定，
反爬手段：UA、代理、验证码、动态数据加载、防盗链、懒加载
很差：爬虫要求高 web < 爬虫 < 数据ajax

二、http协议正则表达式

http协议
由于代码要模拟发送http请求，因此要学习http协议
图解http协议redis

http和https的区别
网景公司 Netscape 倒闭了 javascript
Mozilla基金会火狐浏览器谷歌浏览器
https://www.cnblogs.com/wqhwe/p/5407468.html
HTTPS和HTTP的区别主要以下：
　　一、https协议须要到ca申请证书，通常免费证书较少，于是须要必定费用。钓鱼网站 12306
　　二、http是超文本传输协议，信息是明文传输，https则是具备安全性的ssl加密传输协议。
　　三、http和https使用的是彻底不一样的链接方式，用的端口也不同，前者是80，后者是443。
　　四、http的链接很简单，是无状态的；HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议，比http协议安全。
公钥-私钥
加密，我恨你 md5 base64 秘钥
解密，秘钥
公钥加密的数据，只能私钥解密，私钥加密的数据，只能公钥解密json

http协议
https://www.cnblogs.com/10158wsj/p/6762848.html
请求：请求行、请求头、请求体
get和post的区别？
（1）post能够带的参数比get多，get有限制，post没有限制
（2）get参数显示，post不显示，post稍微安全
（3）get用来获取数据，post用来提交数据
请求头
　　accept:浏览器经过这个头告诉服务器，它所支持的数据类型
　　Accept-Charset: 浏览器经过这个头告诉服务器，它支持哪一种字符集
　　Accept-Encoding：浏览器经过这个头告诉服务器，支持的压缩格式
　　Accept-Language：浏览器经过这个头告诉服务器，它的语言环境
　　Host：浏览器经过这个头告诉服务器，想访问哪台主机
　　If-Modified-Since: 浏览器经过这个头告诉服务器，缓存数据的时间
　　Referer：浏览器经过这个头告诉服务器，客户机是哪一个页面来的防盗链上一级页面，来源

三、抓包工具抓包是什么？为何抓包？

要经过代码模拟发送http请求，因此要抓包看浏览器怎么发的

（1）谷歌浏览器自带抓包 xhr：XMLHttpRequest ajax 局部刷新 query_string: 查询字符串，url后面携带的参数 formdata: 表单数据 preserve log: 能够查看全部的请求

（2）抓包软件fiddler使用使用fiddler （3）青花瓷 charles、wireshark

四、urllib urllib是什么？

是一个库，python自带的一个库，功能：模拟浏览器发送http请求的