Ces erreurs SATA sont-elles dangereuses?

36

Je reçois ces erreurs régulièrement, et je ne sais pas si c'est normal ou non.

[39441.061856] ata3.00: failed to read SCR 1 (Emask=0x40)
[39441.061866] ata3.01: failed to read SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
[39441.061897] ata3.15: irq_stat 0x08000000, interface fatal error
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 frozen
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 frozen
[39441.061923] ata3.01: failed command: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: status: { DRDY }
[39441.061944] ata3.01: failed command: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: status: { DRDY }
[39441.061963] ata3.01: failed command: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: status: { DRDY }
[39441.061987] ata3.15: hard resetting link
[39441.608302] ata3.15: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: hard resetting link
[39441.929246] ata3.00: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: hard resetting link
[39442.249184] ata3.01: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configured for UDMA/133
[39442.277570] ata3.01: configured for UDMA/133
[39442.277725] ata3: EH complete

Je colle également smartctl -apour sda , sdb et sdc .

Merci d'avance pour votre aide.

Marcos Junior
la source

Réponses:

16

Bien que je sois essentiellement d’accord avec la réponse de Geppettvs D'Constanzo , je suggérerais que certaines des premières choses que vous pourriez aussi essayer sont:

  1. Vérifiez que votre câble SATA est correctement connecté et branché dans les prises de la carte mère et du disque dur.

  2. Remplacement de votre câble SATA. Les câbles SATA sont (relativement) peu coûteux et vous en obtenez parfois un « mauvais ». Souvent, le simple remplacement du câble est le moyen le plus simple de diagnostiquer et de résoudre un problème de ce type.

(Bien qu'il soit quelque peu inattendu que deux câbles soient défectueux en même temps. Néanmoins, c'est une chose facile à vérifier, donc, à mon avis, cela vaut probablement la peine d'être fait.)

Je viens de voir vos corbeilles contenant les données SMART pour vos lecteurs. Notez le nombre inattendu d'erreurs CRC pour les lecteurs sdbet sdc. Je vous suggère de commencer par vérifier les câbles et les connexions pour ces lecteurs.

junior@mediacenter:/$ sudo  smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo  smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo  smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

D'ACCORD. Donc, pas un latpop alors. ;-)
Bien sûr, si cela se produit sur un ordinateur portable, aucune des solutions ci-dessus ne s'applique et je ne suis pas sûr du conseil à offrir. Peut-être supprimer et réinstaller le disque dur? Peut-être a-t-il simplement besoin d'être réassis dans sa prise pour améliorer la connexion?


sbdet sdcsont connectés sur le même câble e-sata externe (Dock HDD Thermaltake). Je vais remplacer mon câble e-sata.

Cela peut être dû à un câble défectueux ou de mauvaise qualité. Il se peut également que le câble soit déplacé, heurté ou autrement bouleversé pendant l'utilisation du lecteur.

John irrationnel
la source
1
sbdet sdcsont tous deux connectés au même câble e-sata externe (Dock HDD Thermaltake). Je vais remplacer mon câble e-sata.
Marcos Junior
9

Il semble que vous ayez un câble d'alimentation / données SATA endommagé ou de mauvaise qualité. Ce qui peut être à l'origine du mauvais CRC. Ils ne sont pas du tout nuisibles et vous pouvez vivre avec eux, mais vous allez bientôt perdre beaucoup de données.

Le rapport SMART de vos lecteurs de disque dur semble sain. Je suis donc prêt à résoudre les problèmes d’alimentation en fonction de mon expérience de la configuration de 5 lecteurs de disque dur dans le même boîtier / source d’alimentation. J'ai fini d'utiliser une source d'alimentation externe (475W) pour 2 lecteurs et les 600W du boîtier pour tous les cas, y compris les processeurs graphiques, les lecteurs optiques et les disques durs.

Quoi qu'il en soit, je vous suggère de faire une sauvegarde complète avant de faire autre chose. Si possible, clonez votre lecteur de disque dur, après quoi vous devriez vérifier vos câbles et les tensions d'alimentation.

Geppettvs D'Constanzo
la source
Par curiosité, ce GPU était-il un gros GPU assoiffé de pouvoir?
John irrationnel
1
NVIDIA Quadro 4000, pas vraiment faim.
Geppettvs D'Constanzo
1
Intéressant. J'ai un PSU Antec (Neo-Eco) 400w, 5 disques durs, 2 disques optiques et un NVIDIA GeForce 9500 GT et je ne pense pas avoir eu de problèmes liés à l'alimentation. J'ai des erreurs de lecteur CRC , mais je pense que ce sont des erreurs d'utilisateur stupides que j'ai commises il y a un certain temps. (J'ai heurté un câble, etc.) Je n'ai remarqué aucun journal d'avertissement dans les messages de mon noyau . Néanmoins, je suppose que je devrais surveiller de plus près, juste pour être en sécurité.
irrationnel John
1
1xIDE DVD-RW, 1xSATA DVD-RW et 1xSATA Blu-Ray ROM Lecteurs optiques de ce côté. 4 disques durs SATA et 1 disque dur IDE, le processeur graphique a une consommation de 142 Watts. Je ne peux pas dire que je suis absolument sûr qu'il s'agisse de problèmes de source d'alimentation, mais lorsque j'ai ajouté la nouvelle source d'alimentation, les problèmes ont disparu. BTW, mes lecteurs semblent être en bonne santé. Mais merci de me faire voir ça. Votre avis est vraiment apprécié de ce côté. Merci!
Geppettvs D'Constanzo
1
Euh, 142 watts pour un GPU, c'est ... quelque chose. Tout mon système (généralement) utilise moins que cela. Au fur et à mesure que je tape ceci, mon ordinateur de bureau tire ~ 117 watts. (Selon le Kill-A-Watt, j'avais oublié que je l'avais toujours branché. ;-)
John irrationnel
4

Il semble y avoir un problème entre certaines versions du noyau et certains contrôleurs SATA.

J'ai récemment commencé à souffrir d'un problème très similaire (je ne sais pas si c'est la même chose) sur un serveur Web exécutant Scientific Linux.

L'information la plus précise et complète que j'ai trouvée sur un tel problème est ce bogue du tableau de bord .

En bref: Désactiver NCQ semble être la meilleure solution de contournement pour les utilisateurs ayant ce problème.

jap1968
la source
3
La désactivation de NCQ est une solution de contournement courante pour les matériels défectueux. Il ne semble pas y avoir de bogue dans le noyau.
psusi
Saint $ #! + Cela a fonctionné! Tous mes messages d'erreur sont partis et mon système a cessé de tomber en panne! Je suis entièrement en désaccord avec pas un bogue du noyau, car je peux utiliser une version antérieure du noyau (jusqu’à la série 2.6 au moins) sans aucun plantage. Je ne peux pas croire que je n'ai pas trouvé cela plus tôt!
Reukiodo
1

C’est presque toujours un mauvais disque. Nous utilisons des milliers de lecteurs et bien que ces erreurs ne l’entraînent jamais en panne, ils ont endommagé le système de fichiers. Je pense que cela a vraiment à voir avec un problème avec la carte contrôleur sur le lecteur.

J'ai tout essayé pour résoudre ce problème, la solution consiste à remplacer le lecteur et les choses fonctionnent sur les mêmes câbles et contrôleurs.

Bonne chance

utilisateur209235
la source
Après plus de 30 ans de dépannage de ces problèmes, je peux vous assurer que, selon mon expérience, il s'agit presque toujours d'un câble louche. Et comme ils sont bon marché, essayez-le en premier.
Elder Geek le
0

Je sais que ce fil est ancien, mais j'ai récemment rencontré le même problème sur une machine récemment achetée avec 6 emplacements SATA. J'ai installé le cdrom et le disque dur sur deux emplacements sata proches l'un de l'autre, puis j'ai procédé à l'installation d'ubuntu sans erreurs jusqu'à ce que je redémarre puis j'ai vu l'erreur de liaison ata8: hard reset reset. La machine s'arrête jusqu'à ce point n'a jamais récupéré. J'ai essayé de redémarrer plusieurs fois et cela n'a pas fonctionné. Et puis j'ai essayé de remplacer le disque dur sur l'un des 4 emplacements disponibles et cela a fonctionné sans problème.

ultrajohn
la source
Vous voulez dire que vous avez changé le port SATA auquel le disque dur était branché, n'est-ce pas? Ou voulez-vous dire remplacé le disque dur entier par un autre? Je pense que c'est l'ancien, mais juste une double vérification
Xen2050
C'est l'ancien.
ultrajohn
0

J'ai eu le même problème - dans mon cas, cela était dû au fait que l'adaptateur d'alimentation SATA à 4 broches n'était pas branché correctement.

Andrei Pokrovsky
la source
0

J'ai eu le même problème. J'avais tout essayé, mais uniquement sur le port j-micron de mon asus p5k, je n'avais pas d'erreur.

Mais lorsque je mets le lecteur sur une autre source d’alimentation, cela fonctionne et les erreurs ont disparu. Ensuite, j'ai remis le lecteur à son alimentation d'origine, mais un nouveau connecteur d'alimentation et cela a fonctionné aussi.

Martin Van Der Meulen
la source
0

Je sais que ce fil est vieux, mais vient de rencontrer le même problème, est venu ici de Google.

  • obtenir ata3.01: failed command: READ FPDMA QUEUEDle démarrage du Kubuntu 16.04 LiveCD.
  • WINDOWS 7 se comportera de manière erratique, fonctionnera correctement pendant un certain temps, mais se fige après avoir regardé youtube.

Changer le câble SATA n'a rien fait.
Remplacé le PSU et le problème a disparu.

marco_roboto
la source
0

Il est peu probable que cette erreur endommage votre disque dur, mais également votre système de fichiers. Commencez par déterminer quel lecteur génère les erreurs. Cela peut généralement être facilement déterminé par un certain nombre d'approches telles que:

1) Émettre la commande dmesg | grep ata3et rechercher la marque et le modèle du disque dur. (car ata3 est le port qui génère l'erreur dans votre situation. Ajustez en conséquence) cela produira un résultat similaire à celui-ci:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA detected: current 1953523055, native 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 sectors, multi 16: LBA48 NCQ (depth 32), AA
[    5.084057] ata3.00: configured for UDMA/133

Un rapide coup d’œil indique que le lecteur connecté à ata3 est le SAMSUNG HD103SJ

2) Émettez la commande ci-dessous:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

Ceci fournira les noms de ports et de périphériques mis en surbrillance sur la même ligne, comme indiqué ci-dessous:

sortie

Il est facile de voir que le périphérique connecté à ata3 a reçu le nom de périphérique sdb

3) installez lsscsi avec sudo apt install lsscsiet lancez la commandelsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

Notez que la première entrée sur chaque ligne ci-dessus est scsi_host, channel, target_number et LUN. Il est placé entre parenthèses et chaque élément est séparé par deux points. Lorsqu'il y a plusieurs périphériques SCSI, leurs entrées sont triées par ordre croissant.

En ajoutant simplement 1 au premier nombre dans chaque ligne de sortie, vous obtenez le port ATA. Vous pouvez trouver plus de détails lsscsi ici et ici.

Étant donné que dans votre cas, des erreurs sont générées sur les versions 3.00 et 3.01, plusieurs lecteurs sont connectés au même port ATA. Vous souhaitez vérifier soigneusement la connectivité des périphériques ata3.00 et ata3.01. Il s’agit peut-être d’un boîtier d’entités à plusieurs baies connecté au même câble. Étant donné que les deux lecteurs génèrent des erreurs, le remplacement du câble de la baie multi-lecteurs susmentionnée devrait éliminer le problème pour les deux lecteurs. Ces périphériques disposent généralement d’une source d’alimentation externe qui peut également être la cause et doit être remplacée, mais le câble (qui est le maillon le plus faible) est de loin la cause la plus probable du problème.

Sources:

Expérience

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translating-to-a-device-name/868943#868943

Elder Geek
la source