javascript
html
通用爬虫:
百度、搜狗、谷歌、360、必应等 搜索引擎
工做:将互联网中全部的数据所有爬取下来,给用户提供检索服务
本身的网站呢?博客,阿里云服务器,放上去了,放到网上了
百度能不能抓取你的网站?
(1)其它网站中设置友情连接
(2)主动提交url,百度开发者
(3)百度会和DNS服务商合做,抓取新的网站
能不能让百度不抓取你的网站?
能够实现,经过robots.txt文件,须要放在网站的根目录,写出来哪些能够抓,哪些不能够抓取。
robots.txt是一个口头协议、君子协议,百度听从这个协议,你本身写的,你要不要听从呢?咱们不听从
网站排名(SEO)
(1)page-rank值排名,本身的实力排名
(2)竞价排名
缺点:
(1)抓取的不少数据都是没用的
(2)不能根据指定的需求获取数据java
聚焦爬虫:
概念:根据特定的需求从互联网上爬取指定的数据
网页的共同特色:
(1)一个网页都有本身惟一的url(统一资源定位符)
(2)网页都是html结构的
(3)网页传输使用的都是http协议、https协议
思路:
(1)给我一个url
(2)向这个url发送请求,获得响应(网页内容)
(3)解析网页,提取指定数据python
环境:
windows、linux、python3.六、编辑器(pycharm)、sublimelinux
总体内容:
(1)如何发送请求
urllib.request urllib.parse requests
(2)解析数据
正则表达式(均可以)、bs4(html)、xpath(html)、jsonpath(json数据)
(3)采集动态html数据
selenium+phantomjs(大招、绝招)
(4)scrapy,scrapy-redis分布式部署
(5)涉及到爬虫、反爬虫、反反爬虫的技术web
核心,理论上:只要浏览器可以访问,那么程序就能访问
实际过程当中,参数搞不定,
反爬手段:UA、代理、验证码、动态数据加载、防盗链、懒加载
很差:爬虫要求高 web < 爬虫 < 数据ajax
正则表达式
http协议
由于代码要模拟发送http请求,因此要学习http协议
图解http协议redis
http和https的区别
网景公司 Netscape 倒闭了 javascript
Mozilla基金会 火狐浏览器 谷歌浏览器
https://www.cnblogs.com/wqhwe/p/5407468.html
HTTPS和HTTP的区别主要以下:
一、https协议须要到ca申请证书,通常免费证书较少,于是须要必定费用。 钓鱼网站 12306
二、http是超文本传输协议,信息是明文传输,https则是具备安全性的ssl加密传输协议。
三、http和https使用的是彻底不一样的链接方式,用的端口也不同,前者是80,后者是443。
四、http的链接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,比http协议安全。
公钥-私钥
加密,我恨你 md5 base64 秘钥
解密,秘钥
公钥加密的数据,只能私钥解密,私钥加密的数据,只能公钥解密json
http协议
https://www.cnblogs.com/10158wsj/p/6762848.html
请求:请求行、请求头、请求体
get和post的区别?
(1)post能够带的参数比get多,get有限制,post没有限制
(2)get参数显示,post不显示,post稍微安全
(3)get用来获取数据,post用来提交数据
请求头
accept:浏览器经过这个头告诉服务器,它所支持的数据类型
Accept-Charset: 浏览器经过这个头告诉服务器,它支持哪一种字符集
Accept-Encoding:浏览器经过这个头告诉服务器,支持的压缩格式
Accept-Language:浏览器经过这个头告诉服务器,它的语言环境
Host:浏览器经过这个头告诉服务器,想访问哪台主机
If-Modified-Since: 浏览器经过这个头告诉服务器,缓存数据的时间
Referer:浏览器经过这个头告诉服务器,客户机是哪一个页面来的 防盗链 上一级页面,来源