1、HTTP协议简介html
超文本传输协议(Hypertext Transfer Protocol,简称HTTP)是应用层协议,自 1990 年起,HTTP 就已经被应用于 WWW 全球信息服务系统。
HTTP 是一种请求/响应式的协议。一个客户机与服务器创建链接后,发送一个请求给服务器;服务器接到请求后,给予相应的响应信息。
HTTP 的初版本 HTTP/0.9是一种简单的用于网络间原始数据传输的协议;
HTTP/1.0由 RFC 1945 定义 ,在原 HTTP/0.9 的基础上,有了进一步的改进,容许消息以类 MIME 信息格式存 在,包括请求/响应范式中的已传输数据和修饰符等方面的信息;
HTTP/1.1(RFC2616) 的要求更加严格以确保服务的可靠性,加强了在HTTP/1.0 没有充分考虑到分层代理服务器、高速缓冲存储器、持久链接需求或虚拟主机等方面的效能;
安全加强版的 HTTP (即S-HTTP或HTTPS),则是HTTP协议与安全套接口层(SSL)的结合,使HTTP的协议数据在传输过程当中更加安全nginx
2、HTTP请求数据库
http请求由三部分组成,分别是:请求行、消息报头、请求正文浏览器
请求行以一个方法符号开头,以空格分开,后面跟着请求的URI和协议的版本,格式以下:缓存
Method Request-URI HTTP-Version CRLF 其中:安全
Method表示请求方法;
Request-URI是一个统一资源标识符;
HTTP-Version表示请求的HTTP协议版本;
CRLF表示回车和换行(除了做为结尾的CRLF外,不容许出现单独的CR或LF字符)。服务器
http请求方法有多种,常见的有以下几个(请求方法名全为大写字母)
POST 在Request-URI所标识的资源后附加新的数据
HEAD 请求获取由Request-URI所标识的资源的响应消息报头
PUT 请求服务器存储一个资源,并用Request-URI做为其标识
DELETE 请求服务器删除Request-URI所标识的资源
TRACE 请求服务器回送收到的请求信息,主要用于测试或诊断
CONNECT 保留未来使用
OPTIONS 请求查询服务器的性能,或者查询与资源相关的选项和需求网络
下面是用于HTTP请求中的经常使用请求头字段:
Accept:用于高速服务器,客户机支持的数据类型
Accept-Charset:用于告诉服务器,客户机采用的编码格式
Accept-Encoding:用于告诉服务器,客户机支持的数据压缩格式
Accept-Language:客户机的语言环境
Host:客户机经过这个头高速服务器,想访问的主机名
If-Modified-Since:客户机经过这个头告诉服务器,资源的缓存时间
Referer:客户机经过这个头告诉服务器,它是从哪一个资源来访问服务器的(防盗链)
User-Agent:客户机经过这个头告诉服务器,客户机的软件环境
Cookie:客户机经过这个头能够向服务器带数据
Connection:处理完此次请求后是否断开链接仍是继续保持链接
Date:当前时间值并发
HTTP响应头:app
Location:这个头配合302状态码使用,用于告诉客户找谁。
Server:服务器经过这个头告诉浏览器服务器的类型。
Content-Encoding:服务器经过这个头告诉浏览器数据的压缩格式。
Content-Length:服务器经过这个头告诉浏览器回送数据的长度
Content-Type:服务器经过这个头告诉浏览器回送数据的类型
Last-Modified:告诉浏览器当前资源的最后缓存时间
Refresh:告诉浏览器隔多久刷新一次
Content-Disposition:告诉浏览器如下载方式打开数据
Transfer-Encoding:告诉浏览器数据的传送格式
ETag:缓存相关的头
后面三种禁止浏览器缓存的头字段:
Expires:告诉浏览器把回送的资源缓存多长时间 -1或0则是不缓存
Cache-Control:no-cache
Pragma:no-cache
服务器经过以上两个头,也就是控制浏览器不要缓存数据
实体内容:表明服务器向客户端回送的数据
下面是HTTP GET 请求的请求头:
1 //请求url:http://down.360safe.com/inst.exe 2 3 /*Request*/ 4 HEAD /inst.exe HTTP/1.1\r\n" 5 "Host: down.360safe.com\r\n" 6 "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13\r\n" 7 "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n" 8 "Accept-Language: zh-cn,zh;q=0.5\r\n" 9 "Accept-Encoding: gzip,deflate\r\n" 10 "Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7\r\n" 11 "Connection: close\r\n" 12 "\r\n 13 14 /*Reponse*/ 15 HTTP/1.1 200 OK 16 Server: nginx 17 Date: Sat, 23 Jul 2016 07:28:11 GMT 18 Content-Type: application/octet-stream 19 Content-Length: 1430256 20 Last-Modified: Fri, 22 Jan 2016 14:49:14 GMT 21 Connection: close 22 Expires: Sat, 23 Jul 2016 15:28:11 GMT 23 Cache-Control: max-age=28800 24 Accept-Ranges: bytes
3、组装HTTP HEAD报文
下面使咱们本身组包HEAD报文从原站取head,下面贴出代码
1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <string.h> 4 #include <stdbool.h> 5 #include <sys/socket.h> 6 #include <sys/types.h> 7 #include <netinet/in.h> 8 #include <unistd.h> 9 #include <net/if.h> 10 #include <netdb.h> //gethostbyname 11 12 #define STATUS_OK 0 13 #define STATUS_NOK 1 14 #define BUFF_MAX_LEN 1024 15 #define HOST_IP_LEN 32 16 17 #define HTTP_HEAD \ 18 "HEAD /%s HTTP/1.1\r\n" \ 19 "Host: %s\r\n" \ 20 "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13\r\n" \ 21 "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8\r\n" \ 22 "Accept-Language: zh-cn,zh;q=0.5\r\n" \ 23 "Accept-Encoding: gzip,deflate\r\n" \ 24 "Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7\r\n" \ 25 "Connection: close\r\n" \ 26 "\r\n" 27 28 int getIPbyDomain(const char* domain, char* ip); 29 int parse_http_url(const char *url, char *domain, char *header); 30 31 /********************************************************** 32 * get host ip by domain 33 **********************************************************/ 34 int getIPbyDomain(const char* domain, char* ip) 35 { 36 struct hostent *answer; 37 38 answer = gethostbyname(domain); 39 if (NULL == answer) 40 { 41 return STATUS_NOK; 42 } 43 if (answer->h_addr_list[0]) 44 inet_ntop(AF_INET, (answer->h_addr_list)[0], ip, 16); 45 else 46 return STATUS_NOK; 47 return STATUS_OK; 48 } 49 50 /********************************************************** 51 * Send a http package to detect network connecting status 52 **********************************************************/ 53 int parse_http_url(const char *url, char *domain, char *header) 54 { 55 char *ptr = NULL; 56 char *host = NULL; 57 char *head = NULL; 58 char buff[BUFF_MAX_LEN] = {0}; 59 60 if (NULL == url || NULL == domain || NULL == header) 61 return STATUS_NOK; 62 63 memset(buff, 0, sizeof(buff)); 64 strcpy(buff, url); 65 66 host = strtok(buff + 7, "/"); 67 head = strtok(NULL, "\0"); 68 69 if (NULL == host) 70 return STATUS_NOK; 71 if (NULL == head) 72 head = "/"; 73 74 strcpy(domain, host); 75 strcpy(header, head); 76 77 return STATUS_OK; 78 } 79 80 int http_head_request(const char *url) 81 { 82 char *p = NULL; 83 unsigned int dport = 80; 84 int fd, oneopt = 1; 85 char buf[BUFF_MAX_LEN] = {0}; 86 char data[BUFF_MAX_LEN * 2] = {0}; 87 char host[BUFF_MAX_LEN] = {0}; 88 char head[BUFF_MAX_LEN] = {0}; 89 char hostip[HOST_IP_LEN] = {0}; 90 struct timeval timeout = {2,0}; 91 struct sockaddr_in client; 92 struct hostent *hptr; 93 struct in_addr addr; 94 95 if (url == NULL) 96 return STATUS_NOK; 97 if ((fd = socket(AF_INET, SOCK_STREAM, IPPROTO_TCP)) < 0) 98 return STATUS_NOK; 99 100 memset(&client, 0, sizeof(client)); 101 if (STATUS_NOK == parse_http_url(url, host, head)) 102 return STATUS_NOK; 103 104 if (getIPbyDomain(host, hostip) != STATUS_OK) 105 { 106 close(fd); 107 return STATUS_NOK; 108 } 109 110 client.sin_family = AF_INET; 111 client.sin_port = htons(dport); 112 client.sin_addr.s_addr = inet_addr(hostip); 113 114 if (setsockopt(fd, SOL_SOCKET, SO_REUSEADDR, &oneopt, sizeof(oneopt)) < 0 || 115 setsockopt(fd, SOL_SOCKET, SO_SNDTIMEO, (char *)&timeout, sizeof(struct timeval)) < 0 || 116 setsockopt(fd, SOL_SOCKET, SO_RCVTIMEO, (char *)&timeout, sizeof(struct timeval)) < 0) 117 { 118 close(fd); 119 return STATUS_NOK; 120 } 121 122 if (connect(fd, (struct sockaddr *)&client, sizeof(struct sockaddr)) < 0) 123 { 124 close(fd); 125 return STATUS_NOK; 126 } 127 128 sprintf(data, HTTP_HEAD, head, host); 129 if (send(fd, (void*)data, strlen(data), 0) < 0) 130 { 131 close(fd); 132 return STATUS_NOK; 133 } 134 printf("-------------Request-----------------\n"); 135 printf("%s\n", data); 136 137 if (recv(fd, buf, sizeof(buf), 0) < 0 ) 138 { 139 close(fd); 140 return STATUS_NOK; 141 } 142 printf("-------------Reponse-----------------\n"); 143 printf("%s\n", buf); 144 145 close(fd); 146 return STATUS_OK; 147 } 148 149 int main(int argc, char **argv) 150 { 151 if (argc < 2) { 152 printf("using %s <url>\n", argv[0]); 153 return -1; 154 } 155 http_head_request(argv[1]); 156 157 return 0; 158 }
运行结果以下:
1 [root@localhost]# ./test http://down.360safe.com/inst.exe 2 3 -------------Request----------------- 4 HEAD /inst.exe HTTP/1.1 5 Host: down.360safe.com 6 User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13 7 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 8 Accept-Language: zh-cn,zh;q=0.5 9 Accept-Encoding: gzip,deflate 10 Accept-Charset: GB2312,utf-8;q=0.7,*;q=0.7 11 Connection: close 12 13 -------------Reponse----------------- 14 HTTP/1.1 200 OK 15 Server: nginx 16 Date: Sat, 23 Jul 2016 07:56:13 GMT 17 Content-Type: application/octet-stream 18 Content-Length: 1430256 19 Last-Modified: Fri, 22 Jan 2016 14:49:16 GMT 20 Connection: close 21 Expires: Sat, 23 Jul 2016 15:56:13 GMT 22 Cache-Control: max-age=28800 23 Accept-Ranges: bytes
GET方法与HEAD相同,只是将method改成GET,其余内容都同样
GET: 请求指定的页面信息,并返回实体主体。
HEAD: 只请求页面的首部。
下面贴几中HTTP 常见的返回状态
常见HTTP状态码
200 OK
301 Moved Permanently
302 Found
304 Not Modified
307 Temporary Redirect
400 Bad Request
401 Unauthorized
403 Forbidden
404 Not Found
410 Gone
500 Internal Server Error
501 Not Implemented
100 Continue
初始的请求已经接受,客户应当继续发送请求的其他部分
101 Switching Protocols
服务器将听从客户的请求转换到另一种协议
200 OK
一切正常,对GET和POST请求的应答文档跟在后面
201 Created
服务器已经建立了文档,Location头给出了它的URL。
202 Accepted
已经接受请求,但处理还没有完成。
203 Non-Authoritative Information
文档已经正常地返回,但一些应答头可能不正确,由于使用的是文档的拷贝
204 No Content
没有新文档,浏览器应该继续显示原来的文档。若是用户按期地刷新页面,而Servlet能够肯定用户文档足够新,这个状态代码是颇有用的
205 Reset Content
没有新的内容,但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容
206 Partial Content
客户发送了一个带有Range头的GET请求,服务器完成了它
300 Multiple Choices
客户请求的文档能够在多个位置找到,这些位置已经在返回的文档内列出。若是服务器要提出优先选择,则应该在Location应答头指明。
301 Moved Permanently
客户请求的文档在其余地方,新的URL在Location头中给出,浏览器应该自动地访问新的URL。
302 Found
相似于301,但新的URL应该被视为临时性的替代,而不是永久性的。
303 See Other
相似于301/302,不一样之处在于,若是原来的请求是POST,Location头指定的重定向目标文档应该经过GET提取
304 Not Modified
客户端有缓冲的文档并发出了一个条件性的请求(通常是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还能够继续使用。
305 Use Proxy
客户请求的文档应该经过Location头所指明的代理服务器提取
307 Temporary Redirect
和302(Found)相同。许多浏览器会错误地响应302应答进行重定向,即便原来的请求是 POST,即便它实际上只能在POST请求的应答是303时才能重定向。因为这个缘由,HTTP 1.1新增了307,以便更加清除地区分几个状态代码: 当出现303应答时,浏览器能够跟随重定向的GET和POST请求;若是是307应答,则浏览器只能跟随对GET请求的重定向。
400 Bad Request
请求出现语法错误。
401 Unauthorized
客户试图未经受权访问受密码保护的页面。应答中会包含一个WWW-Authenticate头,浏览器据此显示用户名字/密码对话框,而后在填写合适的Authorization头后再次发出请求。
403 Forbidden
资源不可用。
404 Not Found
没法找到指定位置的资源
405 Method Not Allowed
请求方法(GET、POST、HEAD、Delete、PUT、TRACE等)对指定的资源不适用。
406 Not Acceptable
指定的资源已经找到,但它的MIME类型和客户在Accpet头中所指定的不兼容
407 Proxy Authentication Required
相似于401,表示客户必须先通过代理服务器的受权。
408 Request Timeout
在服务器许可的等待时间内,客户一直没有发出任何请求。客户能够在之后重复同一请求。
409 Conflict
一般和PUT请求有关。因为请求和资源的当前状态相冲突,所以请求不能成功。
410 Gone
所请求的文档已经再也不可用,并且服务器不知道应该重定向到哪个地址。它和404的不一样在于,返回407表示文档永久地离开了指定的位置,而404表示因为未知的缘由文档不可用。
411 Length Required
服务器不能处理请求,除非客户发送一个Content-Length头。
412 Precondition Failed
请求头中指定的一些前提条件失败
413 Request Entity Too Large
目标文档的大小超过服务器当前愿意处理的大小。若是服务器认为本身可以稍后再处理该请求,则应该提供一个Retry-After头
414 Request URI Too Long
URI太长
416 Requested Range Not Satisfiable
服务器不能知足客户在请求中指定的Range头
500 Internal Server Error
服务器遇到了意料不到的状况,不能完成客户的请求
501 Not Implemented
服务器不支持实现请求所须要的功能。例如,客户发出了一个服务器不支持的PUT请求
502 Bad Gateway
服务器做为网关或者代理时,为了完成请求访问下一个服务器,但该服务器返回了非法的应答
503 Service Unavailable
服务器因为维护或者负载太重未能应答。例如,Servlet可能在数据库链接池已满的状况下返回503。服务器返回503时能够提供一个Retry-After头
504 Gateway Timeout
由做为代理或网关的服务器使用,表示不能及时地从远程服务器得到应答
505 HTTP Version Not Supported
服务器不支持请求中所指明的HTTP版本