统一资源标识符,用来惟一的标识一个资源
css
307 临时重定向 请求的资源临时从其余位置响应。
400 错误请求 服务器没法解析该请求。
401 未受权 请求没有进行身份验证或验证未经过。
403 禁止访问 服务器拒绝此请求。
404 未找到 服务器找不到请求的网页。
405 方法禁用 服务器禁用了请求中指定的方法。
406 不接受 没法使用请求的内容响应请求的网页。
407 须要代理受权 请求者须要使用代理受权。
408 请求超时 服务器请求超时。html
HTML 定义了网页的内容和结构, css 描述了网页的布局, JavaScript 定义了网页的行为 。正则表达式
HTML 定义了网页的结构,可是只有 HTML 页面的布局并不美观,借助CSS,页面会变得更加美观、优雅。数据库
<!DOCTYPE html> # DOCTYPE 定义文档类型 <html> # html标签 <head> # 网页头:一些页面的配置和引用 <meta charset="UTF-8"> # 网页编码:UTF-8 <title>This is a Demo</title> # 定义网页标题 </ head> <body> # 网页体:在网页正文中显示的内容 <div id=”container”> # div标签:定义网页中的区块,它的id是container <div class="rapper”〉 # 它的class是wrapper <h2 class=”title”>Hello World</h2> # h2标签:二级标题 <p class=”text”>Hell口, this i s a paragraph.</p> # p标签:表明一个段落 </div> </div> </ body > </ html>
HTML DOM 将 HTML 文档视做树结构,这种结构被称为节点树浏览器
网页的内容是 HTML 代码编写的,文字、图片等内容均经过写好的 HTML 代码来指定 , 这种页面叫做静态网页安全
HTTP 的无状态是指 HTTP 协议对事务处理是没有记忆能力的,也就是说服务器不知道客户端是什么状态 。服务器
其原本的含义是指善始善终的一系列动做/消息网络
在 Web 中,会话对象用来存储特定用户会话所需的属性及配置信息app
某些网站为了辨别用户身份 、 进行会话跟踪而存储在用户本地终端上的数据布局
Name、Value、Domain、MaxAge、Path、Size字段、HTTP 字段、Secure
会话 Cookie就是把 Cookie放在浏览器内存里,浏览器在关闭以后该 Cookie 即失效 ; 持久 Cookie则会保存到客户端的硬盘中,下次还能够继续使用,用于长久保持用户登陆状态
爬虫爬取速度过快,在爬取过程当中可能遇到同一个 IP访问过于频繁的问题,此时网站就会让咱们输入验证码登陆或者直接封锁IP。
使用代理隐藏真实的 IP,让服务器误觉得是代理服务器在请求向己。
在爬取过程当中经过不断更换代理,就不会被封锁,可 以达到很好的爬取效果。
FTP代理服务器、HTTP 代理服务器、SSL厅LS代理、RTSP 代理、Telnet代理、POP3/SMTP 代理、SOCKS 代理
高度匿名代理、普通匿名代理、透明代理、间谍代理
使用网上的免费代理、使用付费代理服务、ADSL 拨号