최근에 Redis 클러스터의 여러 마스터에 연결할 수 없는 문제가 발생했습니다.

코드 기반의 연결이 시간 초과되었습니다. 우리는 또한 이 기간 동안 SSH를 통해 상자에 연결할 수 없었습니다.

이것은 여러 경우에 발생했으며 매번 CPU가 약 20%이고 메모리 사용량도 약 20%였습니다. tcp 연결 수는 7k에서 12k 사이의 각 이벤트 동안 다양했으며, 이는 우리가 예상할 수 있는 놀라운 수준보다 훨씬 낮습니다.

이미 설정된 연결은 계속해서 정상적으로 작동합니다. 이러한 기존 연결 중에는 메트릭 내보내기가 있었기 때문에 연결/cpu 등에 대한 메트릭을 계속 수집할 수 있었습니다.

네트워크 인/아웃은 기존 연결이 끊어지면서 천천히 거부되지만 새 연결은 서버에서 거부된 것처럼 전혀 연결할 수 없습니다.

SOMAXCONN 및 사용 가능한 파일 설명자와 같은 설정을 검토했지만 발생 전에 검토한 통계에 명확한 이상이 없었기 때문에 새 연결을 만들 수 없는 이유를 아직 확인할 수 없었습니다.

서버는 AWS의 x2gd.medium 인스턴스 유형에서 Amazon Linux 2를 실행하고 있습니다.

대부분의 트래픽이 다른 포트에 있는 동안 SSH를 통해 로그인할 수 없다는 것은 상당히 이상해 보였습니다.

모든 명백한 메트릭이 괜찮아 보이는 동안 연결이 이루어지지 않은 이유에 대한 아이디어가 있는 사람이 있습니까?

no answer