LinuxSocket编程中的⼼跳机制
在TCP⽹络通信中,经常会出现客户端和服务器之间的⾮正常断开,需要实时检测查询链接状态。常⽤的解决⽅法就是在程序中加⼊⼼跳机制。
从⽹络上到,主要有以下⽅法实现TCP异常断开的检测:
SO_KEEPALIVE,SIO_KEEPALIVE_VALS 和Heart-Beat线程。
(1)SO_KEEPALIVE 机制
这是socket库提供的功能,设置接⼝是setsockopt API:
BOOL bSet=TRUE;
setsockopt(hSocket,SOL_SOCKET,SO_KEEPALIVE,(const char*)&bSet,sizeof(BOOL));
根据MSDN的⽂档,如果为socket设置了KEEPALIVE选项,TCP/IP栈在检测到对⽅掉线后,
任何在该socket上进⾏的调⽤(发送/接受调⽤)就会⽴刻返回,错误号是WSAENETRESET ;
同时,此后的任何在该socket句柄的调⽤会⽴刻失败,并返回WSAENOTCONN错误。
该机制的缺点:
⼀、SO_KEEPALIVE⽆法控制,它会每时每刻都发;
⼆、SO_KEEPALIVE设置空闲2⼩时才发送⼀个“保持存活探测分节”,不能保证实时检测。对于判断⽹络断开时间太长,对于需要及时响应的程序不太适应。当然也可以修改时间间隔参数,但是会影响到所有打开此选项的套接⼝!关联了完成端⼝的socket可能会忽略掉该套接字选项。
(2)SIO_KEEPALIVE_VALS 机制
设置接⼝是WSAIoctl API:
DWORD dwError = 0L ;
tcp_keepalive sKA_Settings = {0}, sReturned = {0} ;
ff = 1 ;
sKA_Settings.keepalivetime = 5500 ; // Keep Alive in 5.5 sec.
sKA_Settings.keepaliveinterval = 3000 ; // Resend if No-Reply
if (WSAIoctl(skNewConnection, SIO_KEEPALIVE_VALS, &sKA_Settings,
sizeof(sKA_Settings), &sReturned, sizeof(sReturned), &dwBytes,
NULL, NULL) != 0)
{
dwError = WSAGetLastError() ;
}
实现时需要添加tcp_keepalive and SIO_KEEPALIVE_VALS的定义⽂件MSTCPiP.h
该选项不同于SO_KEEPALIVE 机制的就是它是针对单个连接的,对系统其他的套接
⼝并不影响。
针对完成端⼝的socket,设置了SIO_KEEPALIVE_VALS后,激活包由TCP STACK来负责。
当⽹络连接断开后,TCP STACK并不主动告诉上层的应⽤程序,但是当下⼀次RECV或者SEND操作
进⾏后,马上就会返回错误告诉上层这个连接已经断开了.如果检测到断开的时候,在这个连接
上有正在PENDING的IO操作,则马上会失败返回.
该机制的缺点:
不通⽤。MS的API只能⽤于Windows。
(3)Heart-Beat线程
这个是最常⽤的简单⽅法。在接收和发送数据时个⼈设计⼀个守护进程,定时发送Heart-Beat包,客户端/服务器收到该⼩包后,⽴刻返回相应的包即可检测对⽅是否实时在线。
该⽅法的好处是通⽤,但缺点就是会改变现有的通讯协议!⼤家⼀般都是使⽤业务层⼼跳来处理,主要是灵活可控。
UNIX⽹络编程不推荐使⽤SO_KEEPALIVE来做⼼跳检测,还是在业务层以⼼跳包做检测⽐较好,也⽅便控制,楼上给的代码是UNIX下的,WIN下不适⽤。Windows下此处的”⾮正常断开”指TCP连接不是以优雅的⽅式断开,如⽹线故障等物理链路的原因,还有突然主机断电等原因。
有两种⽅法可以检测:1.TCP连接双⽅定时发握⼿消息 2.利⽤TCP协议栈中的KeepAlive探测
第⼆种⽅法简单可靠,只需对TCP连接两个Socket设定KeepAlive探测。
第⼀种⽅法是⾃⼰给SOCKET设置个timeout,如果超时则认为对⽅客户端断掉,需重新连接.
//处理通信
01. void do_client_work(int client_sock,struct sockaddr_in client)
02. {
03.    unsigned char cmd;
04. int val;
05. char *VideoPtr;
06.    send_client_info(client_sock,"hello",5);
07.    TCP_VIDEO_AGAIN_FLAG = 1;
08.    printf("\nrecv start ...\n");linux在线编程
09. while(1) {
10.        fd_set rds;
11. struct timeval step;
12. int ret;
13.        FD_ZERO(&rds);
14.        FD_SET(client_sock,&rds);
15.        step.tv_sec = 0;
16.        step.tv_usec = 1000;
17.        ret = select(client_sock+1,&rds,NULL,NULL,&step);
18. if(ret < 0) {
19.        perror("select");
20.        exit(-1);
21.        }
22. if(ret == 0) {
23.            ...//执⾏等待超时命令
24.        } else if(FD_ISSET(client_sock,&rds)) {
25.          val = recv_client_info(client_sock,&cmd,1);
26. if(val < 0) {
27. break;
28.          } else {
29.            ...//执⾏读写客户端数据操作
30. if(TcpOutFlag==1) {
31.              TcpOutFlag=0;
32. break;
33.            }
34.          }
35.        }
36.    }
37. }
//TCP接收数据
[cpp]
01. int  recv_client_info(int client_sock,char* info,int length)
02. {
03. int num;
04. struct timeval tv;
05.    tv.tv_sec = 15;
06.    tv.tv_usec = 0;
07. if (setsockopt(client_sock, SOL_SOCKET, SO_RCVTIMEO, &tv, sizeof(tv))>=0) {
08.        num = recv(client_sock,info,length,MSG_NOSIGNAL);
09. if(num < 0) {
10.          perror("recv");
11. return 0;
12.        } else if(num == 0) {
13.          printf("recv over\n");
14. return -2;
15.        } else {
16.          pthread_mutex_lock(&mutex);
17.          TCP_Timeout = 0;
18.          pthread_mutex_unlock(&mutex);
19. return 0;
20.        }
21.    } else {
22.          printf("TCP CONNECT超时...\n");
23. return -1;
24.    }
25. }
第⼆种⽅法在Linux,Window2000下的实现Windows 2000平台下
头⽂件
Linux平台下
01. #include    "/usr/include/linux/tcp.h"
02. #include "/usr/include/linux/socket.h"
03. ////KeepAlive实现,单位秒
04. //下⾯代码要求有ACE,如果没有包含ACE,则请把⽤到的ACE函数改成linux相应的接⼝
05. int keepAlive = 1;//设定KeepAlive
06. int keepIdle = 5;//开始⾸次KeepAlive探测前的TCP空闭时间
07. int keepInterval = 5;//两次KeepAlive探测间的时间间隔
08. int keepCount = 3;//判定断开前的KeepAlive探测次数
09. if(setsockopt(s,SOL_SOCKET,SO_KEEPALIVE,(void*)&keepAlive,sizeof(keepAlive)) == -1)
10. {
11. ACE_DEBUG ((LM_INFO,
12. ACE_TEXT ("(%P|%t) setsockopt SO_KEEPALIVE error!n")));
13. }
14.
15. if(setsockopt(s,SOL_TCP,TCP_KEEPIDLE,(void *)&keepIdle,sizeof(keepIdle)) == -1)
16. {
17. ACE_DEBUG ((LM_INFO,
18. ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPIDLE error!n")));
19. }
20.
21. if(setsockopt(s,SOL_TCP,TCP_KEEPINTVL,(void *)&keepInterval,sizeof(keepInterval)) == -1)
22. {
23. ACE_DEBUG ((LM_INFO,
24. ACE_TEXT ("(%P|%t) setsockopt TCP_KEEPINTVL error!n")));
25. }
26.
27. if(setsockopt(s,SOL_TCP,TCP_KEEPCNT,(void *)&keepCount,sizeof(keepCount)) == -1)
28. {
29. ACE_DEBUG ((LM_INFO,
30. ACE_TEXT ("(%P|%t)setsockopt TCP_KEEPCNT error!n")));
31. }
假设⼀种情况:⼀个socket TCP监听进程监听数据的时候如何接收关闭⽂件的socket连接?
不⽤并发
read/recv函数返回0均表⽰正常结束。此时关闭即可。如果⽤select/poll/epoll管理,该套接字也会读就绪,然后调⽤recv/read返回0。
对于异常关闭如⽹络崩溃、主机宕机等,可通过设置SO_KEEPALIVE设置保活,协议会按照设定间隔⾃动发送探测分节。该选项分为设置⽆数据⾸次探测时间、探测间隔、探测次数控制TCP是否出错。如果你设置⾸次探测在10秒之后、探测间隔3次,探测次数3次,则最多30秒之后将给应⽤层返回⼀个对⽅⾮正常关闭的异常,此时可通过获得errno得到对应错误,read/recv返回为-1。具体代码是:
[cpp]
01. void setKeepAlive( int iSockfd , socklen_t iIdleTime , socklen_t iInterval , socklen_t iCount )
02. {
03.    setsockopt( iSockfd , SOL_SOCKET , SO_KEEPALIVE , (const char*)&iSockAttrOn , sizeof(iSockAttrOn) );
04.    setsockopt( iSockfd , SOL_TCP , TCP_KEEPIDLE , (const char*)&iIdleTime , sizeof(iIdleTime) );
05.    setsockopt( iSockfd , SOL_TCP , TCP_KEEPINTVL , (const char*)&iInterval,sizeof(iInterval) );
06.    setsockopt( iSockfd , SOL_TCP , TCP_KEEPCNT , (const char*)&iCount,sizeof(iCount) );
07. }

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。