Remarque: cette question a été précédemment fermée comme hors sujet. Vous pouvez lire la discussion . Mes raisons de le demander ici sont:
- Ce lecteur se trouve dans un serveur de cache de contenu hors ligne pour les écoles de la Zambie rurale.
- Les serveurs sont créés à partir d'images de disque et tout le contenu est remplaçable.
- Cela doit être bon marché parce que les écoles zambiennes ont un budget limité et il y en aura beaucoup.
- Il doit également être fiable car il pourrait être de 8 heures dans chaque sens sur de mauvaises routes à remplacer.
- Je ne suis pas autorisé à demander ici quels disques ne sont pas des "merdes ultra-bon marché".
- Nous effectuons donc nos propres recherches et expérimentations sur des disques répondant à ces critères.
- Mon incapacité à réparer les secteurs défectueux en les écrasant (réallocation automatique) a défié mes hypothèses et je voulais savoir pourquoi.
- Je pensais que peut-être un EFFACEMENT DE SÉCURITÉ pourrait réparer les mauvais secteurs, mais je voulais l'avis des autres avant de jeter le disque.
- J'ai pensé que j'avais peut-être manqué quelque chose dans les données SMART qui aurait pu prédire l'échec.
Il s'agit d'un disque SSD Kingston de 240 Go qui fonctionnait bien sur site depuis environ 3 mois et qui a soudainement développé de mauvais secteurs:
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.20-net6501-121115-1cw] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: KINGSTON SVP200S3240G
Serial Number: 50026B7228010E5C
LU WWN Device Id: 5 0026b7 228010e5c
Firmware Version: 502ABBF0
User Capacity: 240,057,409,536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: ACS-2 revision 3
Local Time is: Tue Mar 5 17:10:24 2013 CAT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 48) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x0021) SCT Status supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 084 084 050 Pre-fail Always - 10965286670575
5 Reallocated_Sector_Ct 0x0033 100 100 003 Pre-fail Always - 16
9 Power_On_Hours 0x0032 000 000 000 Old_age Always - 46823733462185
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 127
171 Unknown_Attribute 0x0032 000 000 000 Old_age Always - 0
172 Unknown_Attribute 0x0032 000 000 000 Old_age Always - 0
174 Unknown_Attribute 0x0030 000 000 000 Old_age Offline - 131
177 Wear_Leveling_Count 0x0000 000 000 000 Old_age Offline - 1
181 Program_Fail_Cnt_Total 0x0032 000 000 000 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 000 000 000 Old_age Always - 0
187 Reported_Uncorrect 0x0032 000 000 000 Old_age Always - 49900
194 Temperature_Celsius 0x0022 033 078 000 Old_age Always - 33 (Min/Max 21/78)
195 Hardware_ECC_Recovered 0x001c 120 120 000 Old_age Offline - 235163887
196 Reallocated_Event_Count 0x0033 100 100 003 Pre-fail Always - 16
201 Soft_Read_Error_Rate 0x001c 120 120 000 Old_age Offline - 235163887
204 Soft_ECC_Correction 0x001c 120 120 000 Old_age Offline - 235163887
230 Head_Amplitude 0x0013 100 100 000 Pre-fail Always - 100
231 Temperature_Celsius 0x0013 100 100 010 Pre-fail Always - 0
233 Media_Wearout_Indicator 0x0000 000 000 000 Old_age Offline - 363
234 Unknown_Attribute 0x0032 000 000 000 Old_age Always - 208
241 Total_LBAs_Written 0x0032 000 000 000 Old_age Always - 208
242 Total_LBAs_Read 0x0032 000 000 000 Old_age Always - 1001
SMART Error Log not supported
SMART Self-test Log not supported
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Maintenant, j'obtiens de mauvais blocs à certains endroits du disque:
root@iPad2:~# badblocks /dev/sda -v
Checking blocks 0 to 234431063
Checking for bad blocks (read-only test): 8394752 done, 1:15 elapsed
8394756 done, 1:21 elapsed
8394757 done, 1:23 elapsed
8394758 done, 1:24 elapsed
8394759 done, 1:27 elapsed
...
190882871one, 29:49 elapsed
190882888one, 29:53 elapsed
190882889one, 29:54 elapsed
190882890one, 29:56 elapsed
190882891one, 29:58 elapsed
done
Pass completed, 80 bad blocks found.
Ils semblent être reproductibles et la réallocation automatique échoue, ils ne peuvent donc pas être corrigés en leur écrivant:
root@iPad2:~# badblocks /dev/sda -wvf 8394756 8394756
/dev/sda is apparently in use by the system; badblocks forced anyway.
Checking for bad blocks in read-write mode
From block 8394756 to 8394756
Testing with pattern 0xaa: 8394756
done
Reading and comparing: done
Testing with pattern 0x55: done
Reading and comparing: done
Testing with pattern 0xff: done
Reading and comparing: done
Testing with pattern 0x00: done
Reading and comparing: done
Pass completed, 1 bad blocks found.
Et je reçois des erreurs comme celle-ci dans les journaux système:
ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000000
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/08:00:08:30:00/00:00:01:00:00/40 tag 0 ncq 4096 in
res 51/40:08:08:30:00/00:00:01:00:00/40 Emask 0x409 (media error) <F>
ata1.00: status: { DRDY ERR }
ata1.00: error: { UNC }
ata1.00: configured for UDMA/133
sd 0:0:0:0: [sda] Unhandled sense code
sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 0:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
01 00 30 08
sd 0:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
sd 0:0:0:0: [sda] CDB: Read(10): 28 00 01 00 30 08 00 00 08 00
end_request: I/O error, dev sda, sector 16789512
Buffer I/O error on device sda, logical block 2098689
ata1: EH complete
Maintenant, je ne comprends pas pourquoi la réallocation automatique échoue sur ce disque. La smartctl
sortie me semble très bien. Seuls 16 secteurs ont été réaffectés, ce n'est pas beaucoup du tout. Je ne vois aucune raison légitime pour laquelle ce lecteur refuse de réaffecter des secteurs. Ce modèle de SSD est-il juste cassé ou mal conçu?
Remarques:
- l'attribut 174 est "une perte de puissance inattendue" selon les documents de Kingston.
- 131 pertes de puissance inattendues sont assez graves.
- l'attribut 187 (Reported_Uncorrect) est 49900 sur un maximum possible de 65535
- la température la plus élevée jamais atteinte est assez élevée à 78 ° C
Les compteurs SMART les plus intéressants sont cachés par Kingston sur ce lecteur. Mais nous pouvons déduire le nombre de secteurs de secours à partir de l'attribut 196. Reallocated_Event_Count, qui a la formule suivante pour la valeur normalisée:
100 -(100* RBC / MRC)
RBC = Retired Block Count (Grown)
MRE = Maximum reallocation count
Étant donné que la valeur normalisée est 100, cela implique que RBC << MRE, nous sommes donc loin d'avoir épuisé tous les secteurs disponibles pour la réaffectation.
la source
Réponses:
Les SSD bon marché semblent avoir de sérieux problèmes de qualité. Vous trouverez de nombreux utilisateurs qui ont des problèmes avec votre lecteur particulier. Cependant, je pense que les vendeurs vendent également différents disques (par exemple avec d'autres puces / contrôleurs NAND) sous la même étiquette. Ainsi, chaque lecteur peut se comporter différemment.
Les valeurs SMART ne donnent aucune indication que le disque tomberait en panne bientôt. D'après mon expérience, c'est la même chose: des erreurs de lecteur se produisent soudainement, puis le disque tombe en panne.
Quelles sont vos raisons pour lesquelles vous utilisez des SSD? Je vois les avantages des SSD car il n'y a pas de pièces mécaniques et comme ils sont étanches à la poussière et produisent moins de chaleur. Mais je vois aussi beaucoup d'inconvénients.
Par exemple, le nombre d'écritures dans une seule cellule de mémoire qui, même avec un niveau d'usure, peut être atteint rapidement sur un volume occupé, par exemple lorsque vous utilisez un système de fichiers avec journalisation.
Et l'électronique est également affectée par une humidité élevée ou des températures élevées - les mêmes que pour les disques durs conventionnels.
Pourquoi ne pas utiliser des disques durs conventionnels moins chers à la place et (si le raid n'est pas requis) expédier le serveur avec des disques de rechange qui ne sont pas connectés jusqu'à ce qu'ils soient nécessaires en remplacement (déjà présents dans le boîtier du serveur ou montés dans une cage remplaçable à chaud de sorte que le disque peut être utilisé sur différents serveurs). Ensuite, ils pourraient se préparer par un script sur le terrain ou à distance (si possible).
Tant que les disques durs conventionnels ne sont pas sous tension, le transport vers leur destination peut être difficile ...
S'il existe plusieurs serveurs scolaires / clients permanents et un réseau fiable / redondant, peut-être qu'un système de fichiers distribué pourrait également aider à créer un serveur de cache à sécurité intégrée (par exemple en utilisant glusterfs).
la source