На самом деле предыдстория еще более интересная)
Все началось на этом хосте со следующего
1. на нем работали несколько нагруженных машин (MS SQL, сервер 1с и еще несколько машин). было 2 массива 1 raid 10 из 4 ССД дисков, и еще один массив 10 из 4 сата дисков.
2. Версия ESXi была 6.5 , билд точно не помню, но вроде последний update. прошивки контроллера были уже старенькие, но все работало несколько лет.
3. в одну прекрасную ночь вылетел один из дисков raid массива 10 из 4 сата дисков. Остановили хост, переткнули диски физически. запустили хост, система загрузилась, машины поднялись и тоже загрузились. Оперативно были сделаны текущие резервные копии всего и перенесены на другой хост. Но также было замечено, что файловые системы некоторых машин были испорчены, и при загрузке шло исправление файловой системы, но ничего не дало. машины не загружались.
4. Данный сервер был остановлен, диски все извлечены и были проверены каждый диск по смарту и тесты поверхности. один диск точно была плохая поверхность, но смарт был в норме. Также обнаружили другой диск, у него поверхность была в норме, но в смарте были релокации кластеров.
5. было принято решение в данном хосте обновить до последнего релиза прошивку контроллера LSI 9341-8i, также был переделан raid массив вместо 4 ссд дисков, установили еще 4 сата диска, то есть всего 8 сата дисков по 2 Тб. но была ошибка сделана. один диск, который был с плохой поверхностью заменен, а другой с хорошей поверхностью но с плохим смартом оставлен (не было чем заменить).
6. установлен ESXi 6.7.0 Update 3 (Build 15160138) на флэшку. установлены последние драйвера на контроллер с сайта vmware. перенесли несколько не критичных машин на этот хост для теста.
7. все работало нормально, в контроллере настроили проверку consistency раз в неделю, и после данной проверки один диск был отключен контроллером.
контроллер выдал следующую ошибку
Controller ID: 0 Consistency Check started on an inconsistent VD: VD 0
Controller ID: 0 Consistency Check inconsistency logging disabled, too many inconsistencies on VD: 0
Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Command timeout; Additional Sense Info: No additional sense information. CDB: 0x2f 0x00 0x61 0xca 0x10 0x00 0x00 0x10 0x00 0x00
Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Reset. Type: 3, Path: 0x4433221107000000
вот такие warning ошибки вылезли на контроллере после проверки consistency
потом прошло пару дней и запустилась проверка patrol
и выдала такую ошибку
Controller ID: 0 VD is now DEGRADED VD 0
Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Patrol Read aborted
Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : Diagnostics failed
Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : State change - Previous: Shield Configured; Current: Failed
потом ввели в online диск этот опять
Controller ID: 0 PD - Port 4 - 7 x1:1:5 (EnclosureId: 62; DeviceId: 7) : State change - Previous: Failed; Current: Online
Controller ID: 0 State change on VD: 0 Previous: Degraded; Current: Optimal;
ну наверное до следующей проверки патрол и констистенси.
vmkernel log такой 5 января
2021-01-05T22:31:17.333Z cpu7:2097455)WARNING: lsi_mr3: mfi_TaskMgmt:719: Abort not supported on C2:T0:L0 for SMID 7
2021-01-05T22:31:17.814Z cpu4:2097778)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600605b00aaf2e48277b7fb9067ad82b" state in doubt; requested fast path state update...
2021-01-05T22:31:19.430Z cpu10:2097778)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600605b00aaf2e48277b7fb9067ad82b" state in doubt; requested fast path state update...
а вот эти ошибки пошли похоже когда в онлайн диск опять ввели
2021-01-13T09:24:44.556Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T09:24:44.559Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T09:24:44.569Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T09:24:44.574Z cpu5:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.944Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.947Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.957Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-13T17:40:19.965Z cpu10:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.437Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.458Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.485Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T02:00:00.505Z cpu2:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T06:03:20.299Z cpu4:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2386 microseconds to 77524 microseconds.
2021-01-14T06:04:56.419Z cpu10:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2389 microseconds to 73901 microseconds.
2021-01-14T08:31:28.385Z cpu6:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2403 microseconds to 158010 microseconds.
2021-01-14T08:31:28.419Z cpu6:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2403 microseconds to 398103 microseconds.
2021-01-14T08:32:32.953Z cpu0:2097778)WARNING: ScsiDeviceIO: 1564: Device naa.600605b00aaf2e48277b7fb9067ad82b performance has deteriorated. I/O latency increased from average value of 2405 microseconds to 75761 microseconds.
2021-01-14T15:00:17.671Z cpu10:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.
2021-01-14T16:39:59.825Z cpu0:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.
2021-01-14T23:10:24.229Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.232Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.241Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.247Z cpu8:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-14T23:10:24.267Z cpu8:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.
2021-01-15T05:04:43.285Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.300Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 11 (cluster 6) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.316Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 1 (cluster 52) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.320Z cpu9:2097516)WARNING: Res3: 4384: [type 2] resource 7 (cluster 35) on volume labeled 'HDD_7TB_RAID10' already freed by another host: This may be a non-issue
2021-01-15T05:04:43.340Z cpu9:2097516)ALERT: DC: 783: Duplicate name 'hostd-probe.0.gz' entry in cache.