บันทึก:

โพสต์ต้นฉบับถูกตัดให้สั้นลงเพื่อให้สอดคล้องกับเจตนารมณ์ของโพสต์ StackExchange (คำตอบสำหรับคำถาม) อย่างไรก็ตาม การจดบันทึกที่ฉันทำยังคงมีคุณค่าในขณะที่ฉันอธิบายกระบวนการของฉัน:

ฉันได้เก็บถาวร "Journal State" ของโพสต์นี้ในบล็อกของฉันที่นี่: https://erotemic.wordpress.com/2021/10/01/debugging-unexpected-system-shutdown-initial-archive/และในอนาคต ฉันจะโพสต์ในบล็อกเพื่อให้ข้อมูลอัปเดต และฉันจะแก้ไขคำถาม SuperUser นี้เพื่อให้มีคำถามหลักและคำอธิบายของการทดลองที่แก้ไขได้

ในระหว่างนี้ ฉันได้ลบออกทั้งหมดยกเว้นการอัปเดตล่าสุด ฉันคิดว่าโพสต์ทั้งหมดนี้จะถูกจัดระเบียบใหม่อย่างมาก


อาการ

เครื่องของฉันกำลังประสบปัญหาการปิดระบบอย่างหนักเมื่อเรียกใช้สคริปต์ Pytorch แบบกำหนดเอง

ฉันได้ถ่ายวิดีโอสามรายการที่แสดงปัญหา:

https://www.youtube.com/watch?v=Ue4XHcusqto

https://www.youtube.com/watch?v=LPwaI1SRlXk

https://www.youtube.com/watch?v=yQ7i-8Kp6xg


สรุปขั้นตอนการดีบักและผลลัพธ์

  • กำลังวัตต์ที่วัดได้เมื่อปิดเครื่อง อยู่ในขีดจำกัดพอดี แนวโน้มกำลังวัตต์ลดลงอย่างมาก
  • ความร้อนที่วัดได้เมื่อปิดเครื่อง อยู่ในขีดจำกัดของ CPU / GPU ไม่มีความผิดปกติร้ายแรง โอกาสในการระบายความร้อนลดลงอย่างมาก
  • Ran MemTest86+ ข้ามคืน: การทดสอบทั้งหมดผ่าน โอกาสที่ปัญหาจะเป็น RAM ที่ไม่ดีนั้นถูกตัดออกไปอย่างมีประสิทธิภาพ
  • สลับ PSU 1600W กับ PSU 1000W กับรุ่นเดียวกัน การปิดระบบยังคงเกิดขึ้น โอกาสที่ปัญหาจะเป็น PSU ที่ไม่ดีถูกตัดออกไปอย่างมีประสิทธิภาพ
  • วิ่งด้วย 1080ti เท่านั้นในสล็อต PCIE #1 และ #3 การปิดระบบยังคงเกิดขึ้นในทั้งสองกรณี โอกาสที่ 3090 จะแย่จะลดลงอย่างมาก
  • วิ่งโดยมีเพียง 3090 ที่เชื่อมต่อในสล็อต PCIE #1 การปิดเครื่องยังคงเกิดขึ้น โอกาสที่ 1080ti จะแย่จะลดลงอย่างมาก
  • เรียกใช้สคริปต์ ML ที่แตกต่างกัน การปิดระบบไม่เกิดขึ้น ความน่าจะเป็นของสคริปต์ ML ที่กำหนดเองที่มีปัญหาเพิ่มขึ้น
  • ทำการทดสอบความเครียดขนาดใหญ่บน CPU / GPU ดูเหมือนว่า poweroff จะเกิดขึ้นกับสคริปต์ ML ที่กำหนดเองของฉันเท่านั้น

ผู้ร้ายกำจัดได้อย่างมีประสิทธิภาพ

  • ความร้อน
  • กำลังวัตต์
  • ม.อ
  • GPU
  • แกะ

ผู้ร้ายที่อาจเกิดขึ้นและสิ่งที่ต้องทำ:

  • สคริปต์ ML ที่กำหนดเองแบ่งครึ่งเพื่อค้นหา MWE ที่ทำให้เกิดการปิดระบบ
  • ปัญหาเมนบอร์ด?
  • ปัญหาซีพียู?
  • ปัญหาการจัดเก็บ? (ไม่น่าเป็นไปได้)

ทางออกที่เป็นไปได้!?

ฉันได้อัปเดตบล็อกของฉันด้วยข้อมูลเพิ่มเติม สิ่งสำคัญคือฉันพบการตั้งค่า BIOS ASUS MultiCore Enhancement: Autoและการตั้งค่าเป็นDisabledดูเหมือนว่าจะสามารถแก้ไขปัญหาได้ ฉันทำการทดลองนานกว่า 14 ชั่วโมงโดยไม่ต้องปิดเครื่อง

บางส่วนของโพสต์ต้นฉบับ: จะถูกจัดระเบียบใหม่


ฉันกำลังพยายามดีบักการปิดเครื่องโดยไม่คาดคิดที่เกิดซ้ำ ซึ่งบางครั้งเกิดขึ้นเมื่อเครื่องอยู่ในระหว่างโหลด แต่ฉันไม่สามารถทำให้มันเกิดขึ้นได้อย่างน่าเชื่อถือ สมมติฐานปัจจุบันของฉันคือ:

  • ดึงพลังจากผนังมากเกินไป
  • ปัญหาความร้อน
  • ปัญหาฮาร์ดแวร์ที่ยังไม่ถูกค้นพบ

ฮาร์ดแวร์ + ซอฟต์แวร์ + ปริมาณงาน

รายการฮาร์ดแวร์ในเครื่องของฉันสามารถพบได้ที่นี่: https://pcpartpicker.com/user/erotemic/saved/#view=WKpmD3

บิตที่เกี่ยวข้องคือ:

  • CPU: Intel i9-11900K พร้อม Noctua NH-d15 Air Cooler
  • GPU0: RTX 3090 (ต่อกับจอภาพ)
  • GPU1: GTX 1080ti
  • PSU: EVGA T2 1600 W 80+ ไทเทเนี่ยม

ฉันใช้หุ้น Ubuntu 21.04

มีภาระงานที่แตกต่างกันเล็กน้อยที่ฉันจะเน้นที่เครื่อง

  • ethermine - ซึ่งใช้ GPU ทั้งสองตัว
  • BOINC - พร้อม climateprediction.net และ World Community Grid (ตั้งค่าให้ใช้ CPU 90% ตราบใดที่เครื่องไม่ได้ใช้งาน)
  • เวิร์กโฟลว์การเรียนรู้ของเครื่องแบบกำหนดเองด้วย PyTorch

ฉันไม่ได้ใช้ ethermine เมื่อเร็ว ๆ นี้ ฉันใช้ปริมาณงาน ML ของฉัน

สมมติฐานวัตต์

ฉันได้วัดกำลังวัตต์ของระบบแล้ว และมันกินไฟประมาณ 700-800 วัตต์ตามที่วัดโดย Kill-O-Watt P3 (ซึ่งรวมถึงจอภาพและสิ่งอื่น ๆ ที่เสียบอยู่ในอุปกรณ์ป้องกันไฟกระชาก) ฉันอาศัยอยู่ในอาคารอเมริกันเก่าแก่ที่ถูกดัดแปลงเป็นอพาร์ตเมนต์ ดังนั้น ฉันไม่แน่ใจ 100% เกี่ยวกับความจุของวงจร แต่สมมติว่าทุกอย่างเป็นไปตามรหัส (ซึ่งฉันไม่เชื่อว่าเป็นเช่นนั้น) วงจรน่าจะสามารถรองรับ 1800 วัตต์ได้ อุปกรณ์อิเล็กทรอนิกส์อื่นๆ ในห้อง ได้แก่ หลอดไฟ 10 วัตต์ และไฟ AC 989 วัตต์ ดังนั้นแปรงนี้ถึงขีด จำกัด 1800 วัตต์ ตอนแรกฉันมั่นใจว่าจะต้องเป็นผู้ร้าย แต่คืนหนึ่งเมื่ออากาศเย็นลง ฉันเริ่มภาระงานและถอดปลั๊กไฟออก และในตอนเช้าไฟดับ สมมติฐานนี้จึงไม่ได้อธิบายอาการต่างๆ ได้ดีอีกต่อไป

นอกจากนี้ ฉันคิดว่าอุปกรณ์ป้องกันไฟกระชาก "Quirky Pivot Power" ราคาถูกอาจเป็นปัญหา ดังนั้นฉันจึงสั่งซื้อ Tripp Lite ISOBAR6Ultra ซึ่งหวังว่าจะมีคุณภาพสูงขึ้น แต่ก็ยังมาไม่ถึง และฉันไม่คิดว่าเป็นเช่นนั้น ปัญหา.

สมมติฐานทางความร้อน

ฉันกำลังเอนเอียงไปทางความร้อนที่เป็นปัญหามากขึ้น แต่เมื่อฉันค้นหาบันทึก ฉันไม่เห็นข้อมูลใด ๆ ที่เกี่ยวข้องกับการปิดระบบที่เกี่ยวข้องกับการระบายความร้อน

ฉันใช้เซ็นเซอร์ตรวจจับอุณหภูมิและบันทึกการถ่ายโอนข้อมูลไปยังดิสก์ทุก ๆ 300 วินาที (ดังนั้นอุณหภูมิที่บันทึกไว้อาจไม่รวมอุณหภูมิสูงที่ทำให้เกิดการปิดระบบ)

ฉันได้กราฟอุณหภูมิที่บันทึกไว้ในช่วงการปิดระบบครั้งล่าสุด ซึ่งเกิดขึ้นประมาณปี 2021-08-18 เวลา 03:00 น.:

ใส่คำอธิบายภาพที่นี่

โปรดทราบว่าฉันไม่ได้ตั้งใจใช้ RTX 3090 ที่นี่ในความพยายามที่จะป้องกันปัญหาดังกล่าว แต่ดูเหมือนว่าแม้แต่การวิ่ง 1080ti ก็ยังต้องสะดุดทุกสภาวะที่ทำให้เกิดการปิดระบบนี้

CPU บันทึกอุณหภูมิสูงสุดที่นี่ที่ 93C แต่ฉันเคยเห็นอุณหภูมิบันทึกสูงสุดที่เกือบ 99C และอุณหภูมิวิกฤตที่ "เซ็นเซอร์" ทำซ้ำคือ 100C ดังนั้น เนื่องจากอุณหภูมิของ CPU เพิ่มขึ้นทันทีก่อนการปิดระบบ และช่วงเวลาการบันทึกคือทุกๆ 5 นาที อาจเป็นกรณีที่ระบบถึงอุณหภูมิวิกฤตและการปิดระบบก่อนการบันทึกครั้งต่อไปจะเกิดขึ้น

แต่ฉันยังคงไม่พอใจกับสิ่งนี้ ทำงานครั้งแรกjournalctl -g 'temperature|critical' -b -2ตามที่แนะนำในhttps://unix.stackexchange.com/questions/502226/how-do-you-find-out-if-a-linux-machine-overheated-before-the-previous-boot-and-wไม่ได้บ่งชี้ว่าระบบบันทึกปัญหาอุณหภูมิ

ผลของ journalctl -b -1

Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 84 to 71
Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 84 to 72
Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sdb [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 20 to 19
Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 83 to 74
Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sdc [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 20 to 23
Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 67 to 77
Aug 18 02:46:57 toothbrush smartd[1857]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 27 to 23
Aug 18 02:47:00 toothbrush boinc[3170]: 18-Aug-2021 02:47:00 [---] Suspending computation - CPU is busy
Aug 18 02:47:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r344465819 t8087795, 64bit:1), syncing.
Aug 18 02:47:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r398433847 t7744494, 64bit:1), syncing.
Aug 18 02:47:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r349747452 t8371229, 64bit:1), syncing.
Aug 18 02:48:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r390229100 t7980049, 64bit:1), syncing.
Aug 18 02:48:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r352409333 t7226854, 64bit:1), syncing.
Aug 18 02:48:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r508920330 t10538384, 64bit:1), syncing.
Aug 18 02:48:50 toothbrush boinc[3170]: 18-Aug-2021 02:48:50 [---] Resuming computation
Aug 18 02:49:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r261199946 t4894398, 64bit:1), syncing.
Aug 18 02:49:01 toothbrush boinc[3170]: 18-Aug-2021 02:49:01 [---] Suspending computation - CPU is busy
Aug 18 02:49:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r251680223 t6509690, 64bit:1), syncing.
Aug 18 02:49:21 toothbrush boinc[3170]: 18-Aug-2021 02:49:21 [---] Resuming computation
Aug 18 02:49:31 toothbrush boinc[3170]: 18-Aug-2021 02:49:31 [---] Suspending computation - CPU is busy
Aug 18 02:49:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r346528983 t5840449, 64bit:1), syncing.
Aug 18 02:50:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r560923145 t12173867, 64bit:1), syncing.
Aug 18 02:50:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r567474866 t11497897, 64bit:1), syncing.
Aug 18 02:50:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r519892497 t10585216, 64bit:1), syncing.
Aug 18 02:51:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r553040012 t11503711, 64bit:1), syncing.
Aug 18 02:51:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r489967052 t11999909, 64bit:1), syncing.
Aug 18 02:51:31 toothbrush boinc[3170]: 18-Aug-2021 02:51:31 [---] Resuming computation
Aug 18 02:51:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r279491189 t4690385, 64bit:1), syncing.
Aug 18 02:51:41 toothbrush boinc[3170]: 18-Aug-2021 02:51:41 [---] Suspending computation - CPU is busy
Aug 18 02:52:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r233899151 t4847426, 64bit:1), syncing.
Aug 18 02:52:01 toothbrush boinc[3170]: 18-Aug-2021 02:52:01 [---] Resuming computation
Aug 18 02:52:11 toothbrush boinc[3170]: 18-Aug-2021 02:52:11 [---] Suspending computation - CPU is busy
Aug 18 02:52:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r268957755 t5537306, 64bit:1), syncing.
Aug 18 02:52:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r333913668 t7187733, 64bit:1), syncing.
Aug 18 02:53:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r450294755 t8957939, 64bit:1), syncing.
Aug 18 02:53:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r264028304 t5582071, 64bit:1), syncing.
Aug 18 02:53:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r379501357 t8308167, 64bit:1), syncing.
Aug 18 02:54:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r364408338 t9670592, 64bit:1), syncing.
Aug 18 02:54:12 toothbrush boinc[3170]: 18-Aug-2021 02:54:12 [---] Resuming computation
Aug 18 02:54:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r410359086 t6437227, 64bit:1), syncing.
Aug 18 02:54:22 toothbrush boinc[3170]: 18-Aug-2021 02:54:22 [---] Suspending computation - CPU is busy
Aug 18 02:54:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r266936223 t4903133, 64bit:1), syncing.
Aug 18 02:54:42 toothbrush boinc[3170]: 18-Aug-2021 02:54:42 [---] Resuming computation
Aug 18 02:54:52 toothbrush boinc[3170]: 18-Aug-2021 02:54:52 [---] Suspending computation - CPU is busy
Aug 18 02:55:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r258961514 t5642594, 64bit:1), syncing.
Aug 18 02:55:01 toothbrush CRON[313877]: pam_unix(cron:session): session opened for user root by (uid=0)
Aug 18 02:55:01 toothbrush CRON[313878]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 02:55:01 toothbrush CRON[313877]: pam_unix(cron:session): session closed for user root
Aug 18 02:55:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r485119089 t10059003, 64bit:1), syncing.
Aug 18 02:55:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r482961424 t9750792, 64bit:1), syncing.
Aug 18 02:56:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r334697691 t7035018, 64bit:1), syncing.
Aug 18 02:56:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r449591310 t9490996, 64bit:1), syncing.
Aug 18 02:56:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r415820654 t10568703, 64bit:1), syncing.
Aug 18 02:56:43 toothbrush boinc[3170]: 18-Aug-2021 02:56:43 [---] Resuming computation
Aug 18 02:56:53 toothbrush boinc[3170]: 18-Aug-2021 02:56:53 [---] Suspending computation - CPU is busy
Aug 18 02:57:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r326675026 t4890602, 64bit:1), syncing.
Aug 18 02:57:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r461180383 t10357149, 64bit:1), syncing.
Aug 18 02:57:23 toothbrush boinc[3170]: 18-Aug-2021 02:57:23 [---] Resuming computation
Aug 18 02:57:33 toothbrush boinc[3170]: 18-Aug-2021 02:57:33 [---] Suspending computation - CPU is busy
Aug 18 02:57:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r311496530 t5584467, 64bit:1), syncing.
Aug 18 02:58:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r345401175 t6977056, 64bit:1), syncing.
Aug 18 02:58:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r413257951 t8468887, 64bit:1), syncing.
Aug 18 02:58:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r430901546 t9350168, 64bit:1), syncing.
Aug 18 02:59:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r316409469 t6532987, 64bit:1), syncing.
Aug 18 02:59:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r496502797 t11915940, 64bit:1), syncing.
Aug 18 02:59:24 toothbrush boinc[3170]: 18-Aug-2021 02:59:24 [---] Resuming computation

ผลลัพธ์ของการcat /var/log/syslogใกล้ปิดตัวลงคือ:

Aug 18 02:52:11 toothbrush boinc[3170]: 18-Aug-2021 02:52:11 [---] Suspending computation - CPU is busy
Aug 18 02:52:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r268957755 t5537306, 64bit:1), syncing.
Aug 18 02:52:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r333913668 t7187733, 64bit:1), syncing.
Aug 18 02:53:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r450294755 t8957939, 64bit:1), syncing.
Aug 18 02:53:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r264028304 t5582071, 64bit:1), syncing.
Aug 18 02:53:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r379501357 t8308167, 64bit:1), syncing.
Aug 18 02:54:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r364408338 t9670592, 64bit:1), syncing.
Aug 18 02:54:12 toothbrush boinc[3170]: 18-Aug-2021 02:54:12 [---] Resuming computation
Aug 18 02:54:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r410359086 t6437227, 64bit:1), syncing.
Aug 18 02:54:22 toothbrush boinc[3170]: 18-Aug-2021 02:54:22 [---] Suspending computation - CPU is busy
Aug 18 02:54:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r266936223 t4903133, 64bit:1), syncing.
Aug 18 02:54:42 toothbrush boinc[3170]: 18-Aug-2021 02:54:42 [---] Resuming computation
Aug 18 02:54:52 toothbrush boinc[3170]: 18-Aug-2021 02:54:52 [---] Suspending computation - CPU is busy
Aug 18 02:55:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r258961514 t5642594, 64bit:1), syncing.
Aug 18 02:55:01 toothbrush CRON[313878]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Aug 18 02:55:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r485119089 t10059003, 64bit:1), syncing.
Aug 18 02:55:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r482961424 t9750792, 64bit:1), syncing.
Aug 18 02:56:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r334697691 t7035018, 64bit:1), syncing.
Aug 18 02:56:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r449591310 t9490996, 64bit:1), syncing.
Aug 18 02:56:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r415820654 t10568703, 64bit:1), syncing.
Aug 18 02:56:43 toothbrush boinc[3170]: 18-Aug-2021 02:56:43 [---] Resuming computation
Aug 18 02:56:53 toothbrush boinc[3170]: 18-Aug-2021 02:56:53 [---] Suspending computation - CPU is busy
Aug 18 02:57:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r326675026 t4890602, 64bit:1), syncing.
Aug 18 02:57:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r461180383 t10357149, 64bit:1), syncing.
Aug 18 02:57:23 toothbrush boinc[3170]: 18-Aug-2021 02:57:23 [---] Resuming computation
Aug 18 02:57:33 toothbrush boinc[3170]: 18-Aug-2021 02:57:33 [---] Suspending computation - CPU is busy
Aug 18 02:57:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r311496530 t5584467, 64bit:1), syncing.
Aug 18 02:58:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r345401175 t6977056, 64bit:1), syncing.
Aug 18 02:58:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r413257951 t8468887, 64bit:1), syncing.
Aug 18 02:58:40 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r430901546 t9350168, 64bit:1), syncing.
Aug 18 02:59:00 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r316409469 t6532987, 64bit:1), syncing.
Aug 18 02:59:20 toothbrush vnstatd[1944]: Info: Traffic rate for "tun0" higher than set maximum 10 Mbit (20s->27262976, r496502797 t11915940, 64bit:1), syncing.
Aug 18 02:59:24 toothbrush boinc[3170]: 18-Aug-2021 02:59:24 [---] Resuming computation
Aug 18 09:25:52 toothbrush systemd-modules-load[472]: Inserted module 'lp'
Aug 18 09:25:52 toothbrush systemd-modules-load[472]: Inserted module 'ppdev'
Aug 18 09:25:52 toothbrush systemd-modules-load[472]: Inserted module 'parport_pc'
Aug 18 09:25:52 toothbrush systemd-modules-load[472]: Inserted module 'msr'
Aug 18 09:25:52 toothbrush kernel: [    0.000000] microcode: microcode updated early to revision 0x40, date = 2021-04-11
Aug 18 09:25:52 toothbrush lvm[461]:   2 logical volume(s) in volume group "vgubuntu" monitored
Aug 18 09:25:52 toothbrush kernel: [    0.000000] Linux version 5.11.0-25-generic ([email protected]) (gcc (Ubuntu 10.3.0-1ubuntu1) 10.3.0, GNU ld (GNU Binutils for Ubuntu) 2.36.1) #27-Ubuntu SMP Fri Jul 9 23:06:29 UTC 2021 (Ubuntu 5.11.0-25.27-generic 5.11.22)
Aug 18 09:25:52 toothbrush kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-5.11.0-25-generic root=/dev/mapper/vgubuntu-root ro quiet splash vt.handoff=7
Aug 18 09:25:52 toothbrush kernel: [    0.000000] KERNEL supported cpus:
Aug 18 09:25:52 toothbrush systemd[1]: Starting Flush Journal to Persistent Storage...
Aug 18 09:25:52 toothbrush kernel: [    0.000000]   Intel GenuineIntel
Aug 18 09:25:52 toothbrush kernel: [    0.000000]   AMD AuthenticAMD
Aug 18 09:25:52 toothbrush kernel: [    0.000000]   Hygon HygonGenuine
Aug 18 09:25:52 toothbrush kernel: [    0.000000]   Centaur CentaurHauls
Aug 18 09:25:52 toothbrush kernel: [    0.000000]   zhaoxin   Shanghai  
Aug 18 09:25:52 toothbrush systemd[1]: Finished Load Kernel Modules.

สิ่งที่น่าสนใจในที่นี้คือ บันทึกล่าสุดก่อนการปิดระบบ คือAug 18 02:59:24 toothbrush boinc[3170]: 18-Aug-2021 02:59:24 [---] Resuming computationบ่งชี้ว่า BOINC กำลังจะเริ่มต้นใช้งานกระบวนการที่ใช้ CPU เข้มข้น

การวิ่ง cat /var/log/kern.logและดูเวลาใกล้เคียงให้ข้อมูลน้อยลง:

Aug 17 23:47:21 toothbrush kernel: [100858.782842] pcieport 0000:00:01.0: AER: Corrected error received: 0000:00:01.0
Aug 17 23:47:21 toothbrush kernel: [100858.782850] pcieport 0000:00:01.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
Aug 17 23:47:21 toothbrush kernel: [100858.782851] pcieport 0000:00:01.0:   device [8086:4c01] error status/mask=00000001/00002000
Aug 17 23:47:21 toothbrush kernel: [100858.782852] pcieport 0000:00:01.0:    [ 0] RxErr                  (First)
Aug 18 00:00:01 toothbrush kernel: [101618.605604] audit: type=1400 audit(1629259201.304:83): apparmor="DENIED" operation="capable" profile="/usr/sbin/cupsd" pid=3302495 comm="cupsd" capability=12  capname="net_admin"
Aug 18 00:00:05 toothbrush kernel: [101622.407042] audit: type=1400 audit(1629259205.104:84): apparmor="DENIED" operation="capable" profile="/usr/sbin/cups-browsed" pid=3302502 comm="cups-browsed" capability=23  capname="sys_nice"
Aug 18 09:25:52 toothbrush kernel: [    0.000000] microcode: microcode updated early to revision 0x40, date = 2021-04-11
Aug 18 09:25:52 toothbrush kernel: [    0.000000] Linux version 5.11.0-25-generic ([email protected]) (gcc (Ubuntu 10.3.0-1ubuntu1) 10.3.0, GNU ld (GNU Binutils for Ubuntu) 2.36.1) #27-Ubuntu SMP Fri Jul 9 23:06:29 UTC 2021 (Ubuntu 5.11.0-25.27-generic 5.11.22)
Aug 18 09:25:52 toothbrush kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-5.11.0-25-generic root=/dev/mapper/vgubuntu-root ro quiet splash vt.handoff=7
Aug 18 09:25:52 toothbrush kernel: [    0.000000] KERNEL supported cpus:

วิ่ง: last -x | head | tac

joncrall :0           :0               Mon Aug 16 19:46 - crash (1+13:38)
runlevel (to lvl 5)   5.11.0-25-generi Mon Aug 16 19:47 - 09:26 (1+13:39)
joncrall pts/3        tmux(11727).%0   Mon Aug 16 20:41 - 21:49  (01:07)
joncrall pts/23       tmux(3215922).%0 Tue Aug 17 23:46 - crash  (09:39)
reboot   system boot  5.11.0-25-generi Wed Aug 18 09:25   still running
joncrall :0           :0               Wed Aug 18 09:25   still logged in
runlevel (to lvl 5)   5.11.0-25-generi Wed Aug 18 09:26   still running

ฉันลืมไปหมดแล้วว่าคอลัมน์ "ขัดข้อง" กับ "ยังคงทำงานอยู่" หมายถึงlast rebootอะไร ดังนั้นฉันจึงไม่แน่ใจว่าจะตีความสิ่งนี้อย่างไร หรือมีข้อมูลการวินิจฉัยที่นี่หรือไม่

ดังนั้น ถ้ามันเป็นเทอร์มอล ฉันไม่คิดว่าระบบจะบันทึกมัน

คำถามของฉัน + สรุป:

ดังนั้น เครื่องของฉันกำลังดับ และฉันไม่แน่ใจว่าเครื่องทำความร้อน กำลังไฟ หรืออย่างอื่น เพื่อลดปัญหาด้านความร้อน ฉันได้ติดตั้งพัดลมเพิ่มอีก 4 ตัวในกรณีของฉัน ซึ่งมีพัดลมดูดอากาศ 2 ตัวที่ด้านหน้าด้านล่าง 1 ไอดีที่ด้านหน้าด้านล่าง 2 ทางออกที่ด้านหลังด้านบน และ 1 ทางออกที่ด้านหลัง NH-d15 มีพัดลมทั้งสองติดตั้งอยู่ (ฉันตรวจสอบทิศทางสองครั้งแล้ว)

  • มีบันทึกอื่นๆ ที่ฉันสามารถตรวจสอบเพื่อแก้ปัญหาด้านความร้อนได้หรือไม่

  • ฉันเป็นคนโง่ที่ใช้ระบบระบายความร้อนด้วยอากาศหรือไม่ นี่เป็นเพียงความผันผวนของอุณหภูมิที่ระบายความร้อนด้วยน้ำ AOI CPU ได้หรือไม่

  • มีสมมติฐานอื่น ๆ ที่ฉันไม่ได้พิจารณาหรือไม่?

อัปเดต 2021-10-01

สวัสดีเดือนตุลาคม เครื่องของฉันยังคงทำให้ฉันบ้า แต่อย่างน้อย ฉันก็ยังมีบางมุมที่สามารถผ่าครึ่งเพื่อพยายามแปลปัญหาได้

ฉันกำหนดค่าฮาร์ดแวร์ใหม่เพื่อพยายามตรวจสอบว่า 3090 เป็นส่วนหนึ่งของปัญหาหรือไม่ และฉันคิดว่าไม่ใช่

ฉันถอด 3090 ออกจนหมด ดังนั้น 1080ti จึงเป็นการ์ดกราฟิกเพียงตัวเดียวในนั้น ฉันไม่ได้เปลี่ยนสล็อต PCIE ที่ 1080ti เชื่อมต่ออยู่ ก่อนหน้านี้ 3090 อยู่ที่สล็อต 1/3 (สล็อตที่ใกล้กับ CPU ที่สุด) และ 1080 ti อยู่ที่สล็อต 3/3 (สล็อตที่ไกลที่สุด) ฉันเพิ่งถอด 3090 ออกและเก็บ 1080ti ไว้ที่ช่อง 3 ฉันเชื่อมต่อสาย DVI บูตเครื่อง และรันโค้ดการฝึก pytorch ฉันเริ่มฝึกเมื่อเวลา 22:18 น. ในวันที่ 2564-09-30 และมันยังคงทำงานอยู่เมื่อฉันเข้านอน แต่ฉันตื่นมาเพราะเครื่องดับ เมื่อดูบันทึก ดูเหมือนว่าจะปิดเครื่องเมื่อเวลา 02:14 น. ของวันที่ 2021-10-01 ดังนั้นจึงสามารถหยุดได้เกือบ 4 ชั่วโมงก่อนที่จะเกิดปัญหา

ดังนั้นแม้จะไม่มี 3090 ปัญหาก็ยังมีอยู่ (ใช่ว่า GPU ที่เกินราคาไม่ใช่ปัญหา) แม้ว่าการใช้ 3090 ดูเหมือนจะทำให้เกิดปัญหาเร็วขึ้นแต่ก็ไม่ใช่สาเหตุที่แท้จริง

ฉันสงสัยว่าฉันอาจค้นพบช่องโหว่เกี่ยวกับฮาร์ดแวร์ของฉันและประเภทของการฝึกอบรมที่ฉันทำอยู่หรือไม่ หวังว่าฉันจะสามารถหา MWE ได้ ดังนั้นฉันสามารถชี้ไปที่คำสั่งเฉพาะที่ทำให้เกิดสิ่งนี้ (เรียกคืนการรันการฝึกอบรม ConvNet มาตรฐานด้วยสคริปต์หุ้นของคบเพลิง / เทนเซอร์โฟลว์ไม่ทำให้เกิดปัญหา รหัสที่ฉันใช้อยู่ตอนนี้คือการฝึกอบรมเครือข่ายหม้อแปลงด้วย pytorch -ฟ้าผ่า).

ก่อนที่ฉันจะทำสิ่งนี้ ฉันจะลองกำหนดค่าฮาร์ดแวร์เพิ่มเติมอีกสองสามรายการในขณะที่เปิดเครื่องอยู่

ต่อมา: เกิดข้อผิดพลาดซ้ำกับ 1080ti ในช่องเสียบ 0 ฉันคิดว่าการทดสอบครั้งต่อไปคือลองเปลี่ยนแหล่งจ่ายไฟ มันจะทำให้การจัดการสายเคเบิลของฉันแย่ลง แต่มันควรจะตัด PSU ออกหรือปรับแต่งมัน

ต่อมา: ไม่ใช่ PSU ฉันเปลี่ยนมันด้วย PSU 1000W แล้วทำการทดสอบเมื่อเวลา 7:43 น. ปิดเครื่องเมื่อ 07:57 น. ดังนั้นการใช้ประโยชน์จากไฟฉาย, CPU, MOBO, อื่น ๆ ? บิลด์แรกมี ram ที่ไม่ดี แต่ได้เปลี่ยนแล้ว ฉันจะรันอีกครั้ง

answer

วิธีแก้ปัญหาที่เป็นไปได้ที่ฉันพบใน 2021-10-03 ได้แก้ปัญหาแล้ว! ผมวิ่งมา 17 วันแล้ว ไม่มีปัญหาอะไรเลย

ปัญหาคือการตั้งค่าโอเวอร์คล็อก BIOS ในเมนบอร์ด Asus ROG STRIX Z590-E GAMING WIFI ATX LGA1200 ของฉัน

ใส่คำอธิบายภาพที่นี่

การตั้งค่า BIOS: ASUS MultiCore Enhancement: เดิมถูกตั้งค่าเป็น "อัตโนมัติ" และการตั้งค่าเป็น "ปิดใช้งาน" ได้แก้ไขปัญหาของฉันแล้ว

ฉันเดาว่า Ai Tweaker ได้รับการปรับให้เหมาะสมสำหรับเกมและไม่ใช่ภาระงานทางวิทยาศาสตร์