Я запускаю кластер, состоящий из 22 узлов. (22 узла под тем же коммутатором 1 Гбит / с.)
Я заметил, что некоторые узлы в кластере имеют более высокое значение «кадра» в ifconfig, как показано ниже.

some nodes (higher frame):
eth0      Link encap:Ethernet  HWaddr 90:B1:1C:09:D2:F8
          inet addr:192.168.121.20  Bcast:192.168.121.255  Mask:255.255.255.0
          inet6 addr: fe80::92b1:1cff:fe09:d2f8/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:643150667 errors:0 dropped:790 overruns:0 frame:280072
          TX packets:908361364 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:377424658828 (351.5 GiB)  TX bytes:864099883266 (804.7 GiB)
          Interrupt:170 Memory:d91a0000-d91b0000

other nodes (lower frame):
eth0      Link encap:Ethernet  HWaddr 24:B6:FD:F6:DF:34
          inet addr:192.168.121.3  Bcast:192.168.121.255  Mask:255.255.255.0
          inet6 addr: fe80::26b6:fdff:fef6:df34/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:1126524649 errors:0 dropped:118 overruns:0 frame:43775
          TX packets:847071691 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:992080311726 (923.9 GiB)  TX bytes:385366462299 (358.9 GiB)
          Interrupt:170 Memory:d91a0000-d91b0000

Что с этим может быть не так?

Я также запустил ethtool, и «rxbds_empty» соответствует «frame» в ifconfig, а «rx_discards» соответствует «отброшенному» в ifconfig.
что такое rxbds_empty и rx_discards?
Я исследовал их, но информации об этом почти нет.
Они исходят из-за неправильной конфигурации или настроек?

Странно то, что недавно добавленные 6 узлов имеют более высокое значение.
Кроме того, я заметил, что некоторые программы работают медленнее, чем до того, как мы добавили эти 6 узлов.
Программа делает то, что каждый узел параллельно запрашивает огромное количество коротких сообщений другим случайным узлам.
В идеале каждый узел имеет определенное время завершения программы, но добавленные 6 узлов работают медленнее, чем другие.

Может ли кто-нибудь дать мне совет? Любая помощь будет оценена по достоинству.

answer

Ошибки кадра указывают на некоторые сбои CRC, происходящие, когда сетевая карта узла получает данные от коммутатора. Здесь вы должны проверить кулак физического уровня:

  1. Проверьте кабель с помощью (очевидно) кабельного тестера. Он должен как минимум соответствовать стандарту Cat5e.
  2. Проверьте MTU на коммутаторе (можно ли включить Jumbo-кадры?)
  3. Убедитесь, что настройки порта идентичны как на коммутаторе, так и на узле: скорость порта, дуплексный режим и управление потоком.
  4. Проверьте статистику порта на коммутаторе (например show interface Gi0/4)