Le lecteur ReFS / espaces de stockage est tombé sous une charge élevée

8

J'ai un poste de travail Windows 10 utilisé dans mon entreprise pour des choses comme le traitement d'image (Photoshop) et le développement de logiciels (Eclipse). Il s'agit d'un ordinateur basé sur i7-2600K, d'une carte mère Gigabyte GA-B75M-D3H B75, de 16 Go de RAM. Le système d'exploitation est sur le Samsung 850 pro SSD, il y a un autre 850 pro pour les données, WD Black pour les données, plus deux disques HGST de 4 Go chacun sur les ports SATA 3, formatés ReFS, dans un miroir d'espaces de stockage. La baie a 1,63 Go utilisé, 1,99 Go libre.

Récemment, les disques ReFS dans le miroir des espaces de stockage ont commencé à tomber - jusqu'à présent trois fois en un mois. Cela se produit généralement sous une charge modérée à lourde, après une période prolongée. Pour autant que je sache, aucun des autres disques ne tombe sous charge, je suppose donc que c'est ReFS, des espaces de stockage ou un problème avec un disque sous-jacent. Un redémarrage met le disque en ligne.

Je peux voir des erreurs dans l'Observateur d'événements comme celles ci-dessous. Ce ne sont pas tous au même endroit, et bien qu'il existe des zones de journal NTFS et des espaces de stockage sous "Journal des applications et des services -> Microsoft -> Windows", il ne semble pas y en avoir un pour ReFS.

J'apprécierais de vous aider à trouver la cause de ces problèmes et à les résoudre, donc mon système reste en place.

16:27.05 (under event viewer -> application and services log -> microsoft -> windows -> storagespaces-driver-operationsl
Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} requires a data integrity scan.                                    
Data on the disk is out-of-sync and a data integrity scan is required.                  To start the scan, run the following command:                  

Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask                  

Once you have resolved the condition listed above, you can online the disk by using the following commands in PowerShell:                  

Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsReadOnly $false                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsOffline  $false

16:27.05 (windows system event log): The file system was unable to write metadata to the media backing volume R:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.
16:27.06 (windows system event log): The file system detected a checksum error and was not able to correct it. The name of the file or folder is "<unable to determine file name>".
18:35.50 (windows system event log): Failed to connect to the driver: (-2147024894) The system cannot find the file specified. 
18:35.50 (Kernel PNP) The driver \Driver\WudfRd failed to load for the device SWD\WPDBUSENUM\_??_USBSTOR#Disk&Ven_Generic&Prod_STORAGE_DEVICE&Rev_9451#7&2a9fd895&0#{53f56307-b6bf-11d0-94f2-00a0c91efb8b}.

18:35.58: Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} could not be repaired because there is not enough free space in the storage pool.                  
Replace any failed or disconnected physical disks. The virtual disk will then be repaired automatically or you can repair it by running this command in PowerShell:                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Repair-VirtualDisk

MISE À JOUR car yagmoth souligne que cette erreur inclut quelque chose sur l'USB. Les scénarios où je me souviens que cette erreur s'est produite sont a) lors de la sauvegarde sur un disque USB externe b) lors de l'exécution de sauvegardes CrashPlan sur un autre disque SATA interne

Tim
la source
1
antivirus supprimé en cas de problème de compatibilité avec Windows 10? comme si mcafee a eu des problèmes avec la mise à niveau anniversaire
yagmoth555
@ yagmoth555 Je pourrais essayer, je suppose, mais cela ne me semble pas très probable. Je suis assez intéressé par la façon de résoudre le problème lui-même, plutôt que de deviner et de vérifier.
Tim
Malheureusement, sans plus de journal, je soupçonne un problème matériel sous-jacent. Comme l'idée AV était le test facile, comme si votre miroir ne pouvait pas gérer les E / S, le pilote AV à l'accès / à l'écriture n'aide pas (car il ralentit votre E / S en installant un pilote entre les deux). Si vous voulez enquêter sans test / erreur, vous pourrait d'abord essayer un moniteur de processus pour tout enregistrer. Si tout échoue, j'essaierais de supprimer la mise en miroir pour tester à nouveau après (mais ce test est toujours malheureusement un test / test d'erreur). Tenez-nous au
courant du
Puis-je demander si votre miroir est fait avec un disque USB? comme l'erreur du noyau indique un pilote usb
yagmoth555
Les deux disques sont sur SATA 3Gbps. Bon repérage de l'erreur USB. Question mise à jour. Je ne suis pas à la machine pendant environ une semaine, mais je vais essayer de le déclencher à nouveau et voir si les journaux sont différents. ProcessMonitor semble générer des masses de journaux, mais je lui donnerai un coup de main quelquefois merci.
Tim

Réponses:

2

Les espaces de stockage semblent très sensibles à la latence d'écriture: s'il y a trop de pics, le volume peut être baissé.

Cela semble être un problème connu lors de l'utilisation de SSD grand public, comme vous pouvez le trouver ici

shodanshok
la source
Merci pour cette information. Mes disques ReFS / Storage Space sont des disques durs HGST de 4 To, pas des SSD. Mes SSD exécutent NTFS. La chose de latence d'écriture est intéressante cependant.
Tim
1

Tout d'abord, vous devriez vraiment vérifier le HCL. Je parierais un assez bon dîner, rien de ce que vous avez mentionné sur Storage Spaces HCL. Comme vSAN, Windows et les espaces de stockage ont des HCL complètement différents. Je peux dire sans même chercher vos disques, qu'aucun d'entre eux ne sera sur le HCL, car aucun d'entre eux n'est de qualité professionnelle.

Si vous voulez une solution stable, procurez-vous une carte SAS LSI (non RAID), procurez-vous des disques durs SATA d'entreprise et procurez-vous un SSD Intel dc series. Est-ce cher? Oui. Sera-ce fiable? Autant que Windows peut l'être en matière de stockage (ce qui n'est pas génial).

Moi, j'ai vidé des espaces de stockage et suis revenu sur une carte RAID LSI. Je suis passé de la corruption de données chaque semaine à un stockage solide pendant plus de deux ans sur le même matériel. Et j'avais TOUS les kits de qualité entreprise qui étaient sur le HCL.

Vous pouvez trouver la liste de compatibilité matérielle (HCL) ici https://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1642&cpID=0&avc=10&ava=0&avq=0&OR=1&PGS=25&ready=0

Eric C. Singer
la source
1
Merci pour tes pensées Eric. Peut-être pourriez-vous modifier votre article pour développer "HCL" car je ne sais pas ce que cela signifie, et les autres non plus ne liront pas cet article. Je pensais que l'intérêt du RAID logiciel, comme les espaces de stockage, était d'éviter la nécessité de solutions d'entreprise coûteuses. Je ne suis pas sûr que votre réponse "jetez-le et achetez autre chose" réponde vraiment à ma question.
Tim
Voir mes commentaires, HCL = matériel certifié pour fonctionner en termes simples. SW RAID n'est pas égal ou signifie que vous pouvez lésiner sur un matériel de qualité professionnelle, cela signifie que vous avez la flexibilité d'une solution basée sur SW.
Eric C. Singer
... et arrêtez d'utiliser ReFS, revenez à NTFS. c'est infiniment plus mature que ReFS. ReFS a beaucoup de promesses, mais il a aussi une tonne de maturation à faire.
Eric C. Singer
J'ai écrit un article de blog sur Storage Spaces BTW, commencé une série mais j'ai abandonné parce que IMO, c'est un POS. Comme la plupart des solutions MS, il est à moitié cuit. ericcsinger.com/backup-storage-part-5-realization-of-a-failure Nous sommes revenus sur des cartes RAID et n'avons eu aucun problème depuis. Puisque vous utilisez la mise en miroir, vous feriez presque mieux de configurer un script de robocopy pour copier des données d'un disque à un autre. Plus facile à dépanner et probablement plus fiable, et il vous permettrait de conserver vos disques de qualité grand public.
Eric C. Singer,
1
Cela dit, puisque vous mettez en miroir vos disques, vous pouvez expulser un disque, le formater avec NTFS et y copier vos données. Je déconseille fortement les espaces de stockage, car le problème que vous voyez n'est pas autant un problème ReFS qu'un problème d'espace de stockage. Tout ce qui a trait à l'expulsion ou à l'échec des disques est lié aux espaces de stockage. Si vous essayez simplement de garder vos disques synchronisés afin d'avoir une réplique locale, robocopy est le moyen le plus simple de le faire, c'est juste pas en temps réel est tout.
Eric C. Singer