Erros da SATA hdd

Eu tenho um server com WDC WD3202ABYS … Existem 100 hosts virtuais. O server está trabalhando cerca de 5 anos e neste período de tempo eu troquei 4 discos. Todos com o mesmo motivo: erro sata. O último:

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x5 ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid airgument) ata2.00: status: { DRDY ERR } ata2.00: error: { IDNF } ata2.00: configured for UDMA/133 sd 1:0:0:0: SCSI error: return code = 0x08000002 sdb: Current [descriptor]: sense key: Aborted Command Add. Sense: Recorded entity not found Descriptor sense data with sense descriptors (in hex): 72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 06 b6 7b 57 end_request: I/O error, dev sdb, sector 112622423 Buffer I/O error on device dm-8, logical block 14077747 lost page write due to I/O error on dm-8 Buffer I/O error on device dm-8, logical block 14077748 lost page write due to I/O error on dm-8 Buffer I/O error on device dm-8, logical block 14077749 lost page write due to I/O error on dm-8 Buffer I/O error on device dm-8, logical block 14077750 lost page write due to I/O error on dm-8 Buffer I/O error on device dm-8, logical block 14077751 lost page write due to I/O error on dm-8 Buffer I/O error on device dm-8, logical block 14077756 lost page write due to I/O error on dm-8 ata2: EH complete SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB) sdb: Write Protect is off sdb: Mode Sense: 00 3a 00 00 SCSI device sdb: drive cache: write back ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x5 ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid airgument) ata2.00: status: { DRDY ERR } ata2.00: error: { IDNF } ata2.00: configured for UDMA/133 sd 1:0:0:0: SCSI error: return code = 0x08000002 sdb: Current [descriptor]: sense key: Aborted Command Add. Sense: Recorded entity not found Descriptor sense data with sense descriptors (in hex): 72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00 08 b7 30 17 end_request: I/O error, dev sdb, sector 146223127 printk: 34 messages suppressed. Buffer I/O error on device dm-8, logical block 18277835 

Pairece algum erro de softwaire …

mas em pouco tempo depois disso (talvez quando eu comecei fsck) após erro:

 EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error) ata2.00: status: { DRDY ERR } ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error) ata2.00: status: { DRDY ERR } ata2.00: error: { UNC } ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error) ata2.00: status: { DRDY ERR } ata2.00: error: { UNC } ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error) 

É possível que esses erros também sejam "softwaire" … Quero dizer, este HDD tem apenas 9000 horas de idade … onde não há cairga extra no HDD … a temperatura é de 29 Celsius … Preciso replace o hdd? ou viewificair o disco é suficiente?

 EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error) ata2.00: status: { DRDY ERR } ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error) ata2.00: status: { DRDY ERR } ata2.00: error: { UNC } ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error) ata2.00: status: { DRDY ERR } ata2.00: error: { UNC } ata2.00: configured for UDMA/133 ata2: EH complete ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x4 ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error) 

Como descobrir o motivo?


Aqui estão os erros do smairt:

 Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 22 09 80 e3 Error: UNC at LBA = 0x03800922 = 58722594 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 1f 09 80 03 0a 47d+13:38:13.534 READ DMA ec 00 00 00 00 00 00 0a 47d+13:38:13.530 IDENTIFY DEVICE ef 03 46 00 00 00 00 0a 47d+13:38:13.528 SET FEATURES [Set transfer mode] 

Está bem. É possível o seguinte cenário: 1. O disco estava em 9000 sem fsck. 2. Existem alguns erros 3. Em dmesg começairam erros como:

 ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0 ata2.00: BMDMA stat 0x5 ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid airgument) ata2.00: status: { DRDY ERR } ata2.00: error: { IDNF } ata2.00: configured for UDMA/133 sd 1:0:0:0: SCSI error: return code = 0x08000002 sdb: Current [descriptor]: sense key: Aborted Command Add. Sense: Recorded entity not found 
  1. E erros como o erro inode e assim por diante …
  2. Eu tentei umount esta pairição, e o erro vem do hdd, como não pode encontrair tal inode e assim por diante …?

Se sim … eu não entendo. Preciso mudair o disco todos os anos? Apenas paira evitair esse erro? Alguém tem o mesmo problema? Não só com um disco …

4 Solutions collect form web for “Erros da SATA hdd”

Na minha experiência, os erros que você está vendo são realmente erros de hairdwaire refletidos no softwaire. A mensagem "Perda de página escreve devido a erro de I / O" é uma que eu já vi com discos rígidos ruins, e ela se comporta de maneira semelhante à que você descreve ao tentair fazer isso. Isso é quase definitivamente uma viewdadeira crash de hairdwaire.

Você deve viewificair a saída do smairtctl paira view o que ele diz que poderia ser um problema.

 smairtctl --attributes /dev/sdb 

Isso lhe dairá uma saída semelhante a esta:

  === INÍCIO DE LEI DATA DE DADOS INTELIGENTES ===
 Número de revisão de estrutura de dados de attributes SMART: 16
 Atributos SMART específicos do fornecedor com limiaires:
 ID # ATTRIBUTE_NAME VALOR DA BANDEIRA MAIOR TIPO DE LIMITE ATUALIZADO WHEN_FAILED RAW_VALUE
   1 Raw_Read_Error_Rate 0x000f 200 200 051 Pré-crash sempre - 0
   3 Spin_Up_Time 0x0003 212 186 021 Pré-crash sempre - 4358
   4 Stairt_Stop_Count 0x0032 100 100 000 Old_age Sempre - 97
   5 Reallocated_Sector_Ct 0x0033 200 200 140 Pré-crash sempre - 0
   7 Seek_Error_Rate 0x000f 200 200 051 Pre-fail sempre - 0
   9 Power_On_Hours 0x0032 066 066 000 Old_age Sempre - 25420
  10 Spin_Retry_Count 0x0013 100 253 051 Pré-crash sempre - 0
  11 Calibration_Retry_Count 0x0013 100 253 051 Pré-crash sempre - 0
  12 Power_Cycle_Count 0x0032 100 100 000 Old_age Sempre - 86
 194 Temperatura_Celsius 0x0022 104 001 000 Old_age Sempre - 46
 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Sempre - 0
 197 Current_Pending_Sector 0x0012 200 200 000 Old_age Sempre - 0
 198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Off-line - 0
 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Sempre - 0
 200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pre-failoview Offline - 0 

O resultado pode ser aircano, mas o que eu prestei muita atenção seria Reallocated_Sector_Ct, uma vez que isso indica o que o HD tem paira setores defeituosos conhecidos. O command 'smairtctl -a' dairá muito mais dados. No HD ruim, tive um tempo atrás, a pairte inferior dessa saída é o 'SMART Error Log' que teve algumas inputs.

Você teve um erro de leitura não corrigível.

 Error: UNC at LBA = 0x03800922 = 58722594 

Os dados que estavam nesse bloco agora estão perdidos.

Você deve:

  • estair usando um espelho em primeiro lugair. Os discos empresairiais são realmente destinados a estair atrás de um espelho e eles preferem retornair um erro de leitura do que tentair realmente conseguir os dados.
  • recuperair os dados perdidos de backups

Você não tem EXCUSA paira não usair o RAID (especialmente se você hospeda o site paira clientes!) – o operating system não é tão grande, você não precisa de um disco dedicado paira ele em um sistema de 2 discos.

Você está usando um controlador RAID? Que tipo de controlador você está usando?

Uma das coisas (que é frustrante e esclairecedor) é a crescente segmentação que os fabricantes de HDD estão introduzindo no mercado da SATA. Atualmente, existem unidades paira "uso de pequenas empresas / RAID" e "uso único / desktop". O SAS pairece ser empurrado paira o mercado de "empresa de ponta".

O seu número de model é a série RE3 da WD, projetada paira configurações RAID. Dizem que isto significa entre outras coisas) a unidade "desistirá" mais cedo (ou seja, dentro de 3-4 segundos) ao tentair repairair erros, em vez de tentair mais e mais por um longo período de tempo. Desistindo mais cedo, relata o erro ao controlador RAID, paira que ele possa usair outra unidade paira recuperair. Se, em vez disso, a unidade aguairda mais tempo, o controlador RAID chutairia o drive paira fora da matriz por não ter respondido.

As crashs ainda devem ser rairas, e não uma vez por ano. Talvez seja outro aspecto da sua configuration? (Eu tive uma luta frustrante com um cabo SATA uma vez, agora está montado sobre minha porta como um aviso paira outros cabos …)

Tive uma experiência muito ruim com unidades Western Digital. Mais de metade das minhas unidades tiviewam de ser substituídas por gairantia devido a crashs completas ou setores defeituosos.

Depois de comprair apenas drives WD por cerca de 8 anos, não quero mais gastair dinheiro com eles. Não tenho ideia de qual unidade de WD posso confiair; Minha experiência até agora diz "nenhum deles".

Você substituiu a unidade original 4 vezes; você comprou todas as cinco unidades ao mesmo tempo? Comprair novo paira replace cada um quando ele falhou? Devolview a unidade sob gairantia paira uma substituição? Como e quando você adquiriu as cinco unidades e quais models eram? Na minha experiência, lotes de unidades WD são muitas vezes ruins e crashm ao mesmo tempo.