网络编程套接字socket

时间 2020-12-21

预备知识

理解源IP地址和目的IP地址

在IP数据包头部中，有两个IP地址，分别叫做源IP地址，和目的IP地址

认识端口号

端口号(port)是传输层协议的内容

端口号是一个2字节16位的整数

端口号用来标识一个进程，告诉操作系统。当前的这个数据要交给哪一个进程来处理

IP地址+端口号能够标识网络上的某一台主机的某一个进程

一个端口号只能被一个进程占用

理解端口号和进程ID

pid表示唯一的一个进程，端口号也是唯一表示一个进程

1.查看系统下所允许的所有端口情况

sudo netstat -antup

在sudo的权限下查看不然会有部门进程看不到

2.用PID查询端口号

sudo netstat -antup | grep PID

3.用进程名查询PID

sudo ps -ef |grep 进程名

理解源端口号和目的端口号

传输层协议（TCP和UDP）的数据段中有两个端口号，分别叫做源端口号和目的端口号，就是在描述“数据是谁发的，要给谁发”

认识TCP协议

传输层协议

有连接

可靠传输

面向字节流

认识UDP协议

传输层协议

无连接

不可靠传输

面向数据报

网络字节序

我们已经知道，内存中的多字节数据相对于内存地址有大端和小端之分，磁盘文件中的多字节数据相对于文件中的偏移地址也有大端小端之分，网络数据流同样有大端小端之分。

发送主机通常将发送缓冲区中的数据按内存地址从低到高的顺序发出

接收主机把网络接到的字节一次保存在接收缓冲区中，也是按内存地址从低到高的顺序保存

因此，网络数据流的地址应这样规定：先发出去的数据是低地址，后发出去的数据是高地址

TCP/IP协议规定，网络数据流应采用大端字节序，即低地址高字节

不管这台主机是大端机还是小端机。都会按照这个TCP/IP规定的网络字节序来发送和接收数据

如果当前发送主机是小端，就需要先将数据转成大端，否则就忽略，直接发送即可

为使网络程序具有可移植性，使同样的C代码在大端和小端计算机上编译后都能正常运行，可以调用以下库函数做网络字节序和主机字节序的转换

。

#include<arpa/inet.h>

uint32_t htonl(uint32_t hostlong);
uint16_t htons(uint16_t hostshort);
uint32_t ntohl(uint32_t netlong);
uint16_t ntohs(uint16_t netshort);

这些函数名很好记，h代表host,n表示network,l表示32位长整数，s表示16位短整数

例如htonl表示将32位的长整数从主机字节序转换为网络字节序，例如将IP地址转换后准备发送

如果主机是小端字节序，这些函数将参数做相应的大小端转换然后返回

如果主机是大端字节序，这些函数不做转换，将参数原封不动地返回。

socket编程接口

socket 常见API

//创建socket问年间描述符（TCP/UDP,客户端+服务器）
int socket(int domain,int type,int protocol);

//绑定端口号（TCP/UDP，服务器）
int bind(int socket,const struct sockaddr *address,socklen_t address_len);

//开始监听socket（TCP,服务器）
int listen(int socket,int backlog);

//接收请求（TCP，服务器）
int accept(int socket,struct sockaddr* address,socklen_t* address_len);

//建立连接（TCP,客户端）
int connect(int sockfd,const struct sockaddr *addr,socklen_t addrlen);

sockaddr结构

socket API是一层抽象的网络编程接口，适用于各种底层网络协议，如IPV4,IPV6，以及UNIX Domain Socket

然而，各种网络协议的地址格式并不相同

IPV4和IPV6的地址格式定义在netinet/in.h中，IPV4地址用sockaddr_in结构体表示，包括16位地址类型，16位端口号和32位IP地址
IPV4和IPV5地址类型分别定义为常数AF_INET、AF_INET6.这样，只要取得某种sockaddr结构体的首地址，不需要知道具体是哪种类型的sockaddr结构体，就可以根据地址类型字段确定结构体中的内容
socket API可以都用struct sockaddr *类型表示，在使用的时候需要强制转换成sockaddr_in;这样的好处是程序的通用性，可以接收IPV4和IPV6，以及UNIX Domain Socket各种类型的sockaddr结构体指针作为参数

sockaddr结构

struct asockaddr
{
    _SOCKADDR_COMMON (sa_);//Common data:address family and length
    char sa_data[14]; //Address data
};

sockaddr_in结构

/* Structure describing an Internet socket address */
struct sockaddr_in
{
    _SOCKADDR_COMMON (sin_);
    in_port sin_port; //Port number
    struct in_addr sin_addr;  //Internet address
    
    /* Pad to size of 'struct sockaddr'. */
    unsigned char sin_zero[sizeof(struct sockaddr) -
        __SOCKADDR_COMMON_SIZE -
        sizeof(in_port_t) -
        sizeof(struct in_addr)];
};

虽然socket api的接口是sockaddr，但是真正我们基于IPV4编程时，使用的数据结构是sockaddr_in;这个结构里主要有三部分信息：地址类型，端口号，IP地址

in_addr结构

/* Internet address. */
typedef uint32_t in_addr_t;
struct in_addr
{
    in_addr_t s_addr;
};

in_addr用来表示一个IPV4的IP地址其实就是一个32位的整数。

地址转换函数

基于IPv4的socket的网络编程，sockaddr_in中的成员struct in_adddr sin_addr表示32位的IP地址，但是我们通常用点分十进制的字符串表示IP地址，以下函数可以在字符串表示和in_addr表示之间转换；

字符串转in_addr函数

#include <arpa/inet.h>

int inet_aton(const char* strptr,struct in_addr *addrptr);
in_addr inet_addr(const char *strptr);
int inet_pton(int family,const char* strptr,void *addrptr);

in_addr转字符串函数

char *inet_ntoa(struct in_addr inaddr);
const char *inet_ntop(int family,const void *addrptr,char *strptr,size_t len);

其中inet_pton和inet_ntop不仅可以转换IPV4的in_addr,还可以转换IPV6的in6_addr,因此函数接口是void *addrptr

代码示例

#include <stdio.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>

int main()
{
    struct sockaddr_in addr;
    inet_aton("127.0.0.1",&addr.sin_addr);
    printf("addr: %x\n",*ptr);
    printf("addr_str: %s\\n",inet_ntoa(addr.sin_addr));
    return 0;
}

关于inet_ntoa

inet_ntoa这个函数返回了一个char*，很显然是这个函数自己在内部为我们盛情了一块内存来保存ip的结果，那么是否需要调用者手动释放呢

man手册上说，inet_ntoa函数，是把这个返回结果放到了静态存储区。这个时候不需要我们手动进行释放

如果我们多次调用这个函数，会有什么样的结果呢

因为inet_ntoa把结果放到了自己内部的一个静态存储区，这样第二次调用时的结果会覆盖掉上一次的结果

如果有多个线程调用 inet_ntoa，是否会出现异常情况

在APUE中，明确提出inet_ntoa不是线程安全的函数

但是在Centos上测试，并没有出现问题，可能是内部实现加了互斥锁

再多线程环境下，推荐使用inet_ntop,这个函数由调用者提供了一个缓冲区保存的结果，可以规避线程安全问题

多线程调用inet_ntoa代码示例如下

#include <stdio.h> 
#include <unistd.h> 
#include <sys/socket.h> 
#include <netinet/in.h>
#include <arpa/inet.h> 
#include <pthread.h>

void* Func1(void* p)
{ 
	struct sockaddr_in* addr = (struct sockaddr_in*)p; 
	while (1) 
	{
		char* ptr = inet_ntoa(addr->sin_addr); 
		printf("addr1: %s\n", ptr);
	}
	return NULL;
}

void* Func2(void* p)
{
	struct sockaddr_in* addr = (struct sockaddr_in*)p; 
	while (1) 
	{
		char* ptr = inet_ntoa(addr->sin_addr);
		printf("addr2: %s\n", ptr);
	}  return NULL;
}

int main() 
{
	pthread_t tid1 = 0;
	struct sockaddr_in addr1;
	struct sockaddr_in addr2;
	addr1.sin_addr.s_addr = 0;
	addr2.sin_addr.s_addr = 0xffffffff;
	pthread_create(&tid1, NULL, Func1, &addr1);
	pthread_t tid2 = 0;  pthread_create(&tid2, NULL, Func2, &addr2);
	pthread_join(tid1, NULL);  pthread_join(tid2, NULL);
	return 0;
}

TCP socket API 详解

下面介绍程序中用到的socket API，这些函数都在sys/socket.h中。

socket():

socket()打开一个网络通讯端口，如果成功的话，就像open()一样返回一个文件描述符；

应用程序可以像读写文件一样用read/write在网络上收发数据

如果socket()调用出错则返回-1；

对于IPV4，family参数指定为AF_INET;

对于TCP协议，type参数指定为SOCK_STREAM,表示面向流的传输协议

protocol参数的介绍从略，指定为0即可

bind():

服务器程序所监听的网络地址和端口号通常是固定不变的，客户端程序得知服务器程序的地址和端口号后就可以向服务器发起连接；服务器需要调用bind绑定一个固定的网络地址和端口号

bind()成功返回0；失败返回-1；

bing()的作用是将参数sockfd和myaddr绑定在一起，使sockfd这个用于网络通讯的文件描述符监听myaddr所描述的地址和端口号

struct sockaddr *是一个通用指针类型，myaddr参数实际上可以接受多种协议的sockaddr结构体，而他们的长度各不相同，所以需要第三个参数addrlen指定结构体的长度

程序中对myaddr参数是这样初始化的：

bzero(&servaddr,sizeof(servaddr));
servaddr.sin_family = AF_INET;
servaddr.sin_addr.s_addr = hontl(INADDR_ANY);
servaddr.sin_port = htons(SERV_PORT);

将整个结构体清0；

设置地址类型为AF_INET;

网络地址为INADDE_ANY,这个宏表示本地的任意IP地址，因为服务器可能有多个网卡，每个网卡也可能绑定多个IP地址，这样设置可以在所有的IP地址上监听，直到与某个客户端建立了连接时才确定下来到底用哪个IP地址

端口号为SERV_PORT,我们定义为9999

listen():

listen()声明sockfd处于监听状态，并且最多允许有backlog个客户端处于连接等待状态，如果接收到更多的连接请求就忽略，这里设置不会太大（一般是5）

listen()成功返回0，失败返回-1

accept():

三次握手完成后，服务器调用accept()接受连接

如果服务器调用accept()时还没有客户端的连接请求，就阻塞等待直到有客户端连接上来

addr是一个传出参数，accept()返回时传出客户端的地址和端口号

如果给addr参数传入NULL，表示不关心客户端的地址

addrlen参数是一个传入传出参数(value-result argument),传入的是调用者提供的，缓冲区addr的长度以避免缓冲区溢出问题，传出的是客户端地址结构体的实际长度(有可能没有占用调用者提供的缓冲区)

我们的服务器程序结构是这样的：

while(1)
{
    cliaddr_len = sizeof(cliaddr);
    connfd = accept(listenfd,(struct sockaddr *)&cliaddr,&cliaddr_len);
    n = read(connfd,buf,MAXLINE);
    ...
    close(connfd);
}

connect()

客户端需要调用connect()连接服务器

connect和bind的参数形式一致，区别在于bind的参数是自己的地址，而connect的参数是对方的地址

connect()成功返回0，出错返回-1