Pourquoi 5 iMac différents ont-ils développé des partitions OS X corrompues lorsque les disques physiques fonctionnent correctement?

9

Je suis technicien pour mon district scolaire local et nous rencontrons des problèmes avec notre laboratoire multimédia iMac. Au cours des neuf derniers mois, 5 des 22 iMac ont subi une corruption du système de fichiers. Le seul recours pour ces machines a été d'effacer complètement la partition OS X et de recommencer à zéro (avec une restauration appropriée à partir de Time Machine).

Voici la liste des raisons pour lesquelles je sais que c'est une corruption du système de fichiers:

  • L'iMac ne démarre pas OS X. Je l'ai vu s'arrêter au "throbber", à la barre de progression ou simplement au logo Apple.

  • Le montage du disque iMac via le mode disque cible (j'adore cette fonctionnalité) réussit, mais uniquement pour la partition Bootcamp. La partition OS X ne parvient pas à se monter.

  • Une vérification du disque révèle que la partition OS X doit être réparée (j'ai vu des entrées de frères non valides, des enfants orphelins, etc.). La tentative de réparation du disque échoue. Cette dernière tentative (hier) a indiqué que les arbres du catalogue B ne pouvaient pas être reconstruits. J'aurais dû prendre des notes plus complètes sur ce qui a été dit à chaque fois, mais à chaque fois jusqu'à ce dernier, j'ai supposé que c'était un événement étrange d'un million. Un coup de chance

  • La tentative de réparation ou de reconstruction des disques avec Drive Genius 3 échoue également Jusqu'à présent, 98% des fichiers de l'utilisateur ont été récupérables via Data Rescue 3 ", le lecteur n'apparaît pas et disparaît dans l'Utilitaire de disque, le Finder reste réactif, etc.)

  • Normalement, je le décrirais jusqu'à une série de mauvais disques. Il se trouve que c'est le gars malchanceux qui a acheté une mauvaise série d'iMac, non? Voici où les choses commencent à devenir intéressantes. Je vous soumets la liste des bizarreries:

  • Les lecteurs vérifient aussi bien via SMART

  • La RAM vérifie
  • Après avoir supprimé et recréé la partition (et réinstallé OS X), tous les problèmes disparaissent.
  • La corruption n'est pas arrivée deux fois sur le même Mac
  • Bootcamp est installé sur le même lecteur et fonctionne avant, après et pendant la corruption du côté Mac.
  • La partition Bootcamp n'a rencontré ce problème sur AUCUN des iMacs

Aussi, pour exclure l'évidence:

  • Il n'y a pas eu de baisses de tension ou de surtensions

  • Nous doutons sérieusement d'un virus, car les dysfonctionnements apparaissent n'importe où simultanément (deux machines sont tombées en panne en même temps il y a environ un mois) à des mois d'intervalle. De plus, les documents de l'utilisateur sont restaurés après le reformatage, donc on pourrait supposer que s'il s'agissait d'un programme malveillant, le Mac continuerait à échouer encore et encore.

  • Les machines se trouvent dans une zone à température contrôlée

  • Ce n'est pas le même utilisateur affecté

  • Parfois, le problème survient après un arrêt forcé inévitable (qui ne se produit que rarement. Ces machines ne sont pas excessivement mises hors tension de manière incorrecte. Seulement ce que vous attendez d'un Mac Lab exécutant du multimédia cinq jours par semaine), d'autres fois, il est complètement hors de -le bleu

Les logiciels fréquemment utilisés incluent:

  • iPhoto
  • iDVD
  • iMovie
  • Safari

Les machines sont également chargées avec Parallels 5, qui charge la partition Bootcamp dans une VM. Parallels a été configuré via l'assistant standard, pas de configuration bizarre ou de hacks.

Et enfin et surtout, les spécifications:

  • iMac 10,1 (21,5 pouces)
  • Lecteurs de stock
  • OS X Snow Leopard (dernières mises à jour)
  • Mémoire de stock
  • Joint à notre infrastructure Active Directory
  • Système de fichiers HFS + (ne respecte pas la casse, la valeur par défaut pour OS X Snow Leopard)
  • Pas de maintenance de lecteur hors du commun. programmes. Drive Genius a été chargé hier après-midi (après avoir récupéré de la dernière panne) pour exécuter une vérification sur tous les iMac, mais n'a pas été installé auparavant. Tous les Mac, à la fois ceux qui ont échoué dans le passé et ceux qui n'ont jamais échoué, sont passés avec brio.

TL; DR: la partition OS X est corrompue sur cinq iMac différents, mais les disques physiques fonctionnent bien. POURQUOI!?!?!

EightQuarterBit
la source
Hors sujet: 8¼b: vous pouvez utiliser Maj + Entrée pour entrer des sauts de ligne dans les zones de commentaires. J'ai également entendu dire qu'il existe des plugins de navigateur (scripts utilisateur?) Qui inversent le rôle de enter & shift-enter, donc enter insérera un saut de ligne, et shift-enter soumettra le commentaire.
Jason Salaz
+1 question bien documentée. Avez-vous déjà pensé que cela pourrait être un acte d'étudiants?
Comment l'iMac 10,1 est-il mappé à l'iMac {early | mid | late} 20YX pour faciliter l'examen du côté matériel? Si vous remplacez les #desktopcomputers par l'un des numéros de série, support.apple.com/manuals/#desktopcomputers obtiendra le nom descriptif de vos iMacs.
bmike

Réponses:

6

HFS Plus (HFS +) est un système de fichiers fragile et un peu dépassé. Si vous le recherchez sur Google, vous trouverez de nombreux rapports de corruption du système de fichiers.

Le redémarrage sans démonter le système de fichiers est le meilleur moyen de le corrompre. Cela se produit lorsque le mac se bloque pour une raison quelconque (dans mon cas, c'est la carte vidéo nvidia) ou des pannes de courant.

Voici quelques conseils, à mon humble avis, devrait réduire le risque de corruption du système de fichiers:

  1. Lorsque le système se bloque, essayez de redémarrer à partir de ssh. Lorsque le sous-système graphique de mon Mac est libre, il est toujours accessible via SSH - essayez d'ouvrir la connexion ssh à partir de votre réseau et redémarrez-la. Vous pouvez utiliser Apple Remote Desktop (62 €) pour cette tâche. Vous devez d'abord activer l'accès ssh.

  2. Faites diskutil verifyVolume /périodiquement. Oui, même si HFS + est un système de fichiers journalisé, une corruption est possible. Vous pouvez utiliser Apple Remote Desktop pour exécuter cela sur tous les ordinateurs de la classe à la fois.

  3. Utilisez plusieurs volumes. L'utilisation de plusieurs volumes devrait réduire les risques de corruption. La séparation /de /Users/devrait faciliter la restauration (soit / ou / Les utilisateurs seront corrompus). Notez que cela pourrait probablement compliquer les choses avec Bootcamp.

  4. Montez des partitions avec des options, ce qui réduit l'écriture. Le montage de partitions avec noatimeoption devrait réduire l'écriture dessus. Par défaut, chaque fois qu'un fichier est accédé, son horodatage d'accès est "touché".

  5. Assurez-vous qu'il n'y a aucune tentative de monter la partition HFS + à partir d'autres systèmes d'exploitation. Est-il possible que quelqu'un démarre une distribution Linux à partir d'un port USB / DVD et le monte /en mode RW ou joue avec les paramètres du journal?

J'espère que ma réponse sera utile.

PS: la corruption est généralement progressive et non soudaine. Il est possible que quelque chose de spécifique soit à l'origine de cela, d'un logiciel ou d'un flux de travail. Mon esprit est à Parallels 5, mais cela devrait corrompre le volume du bootcamp, pas celui de MacOS. La recherche dans leur base de connaissances ne révèle rien d'utile.

PPS: il est fragile car il n'a pas de système réel pour corriger la corruption dans un fichier. Un journal enregistre les transferts et tente de recopier les données afin de remettre le système de fichiers dans un état cohérent, mais si le fichier perdu est vital (comme les données de la structure réelle du système de fichiers), il n'y a aucun recours. En fait, parce que le fichier de catalogue (qui répertorie toutes les informations de données logiques) est stocké sous forme de fichier, s'il est corrompu à certains endroits, votre système de fichiers entier devient des données inutiles ou des déchets partiellement entretenus dans le cas où il est corrompu et la relecture d'un journal se produit, ce qui oblige à restructurer le système de fichiers d'une manière qui n'est pas cohérente avec les données (par exemple, les fichiers a et b sont respectivement de 1 Mo et 2 Mo mais la relecture les change en 2 Mo et 1 Mo, ce qui entraîne la moitié du contenu de B étant à l'intérieur de A).

mspasov
la source
2
Tout système de fichiers aura des problèmes compte tenu des circonstances. Mais "Fragile" et "Un peu dépassé"? Vraiment? Un peu dépassé dans mon esprit n'est pas de journalisation. Et ce n'est pas le cas pour HFS +.
Jason Salaz
Si le système de fichiers était fragile, tous les Mac n'auraient-ils pas de problèmes? Les installations avec des centaines de macs qui vérifient les coupures brusques de l'alimentation et un calendrier continu de démarrages sûrs, les réparations du système de fichiers vont étouffer ce genre de chose dans l'œuf.
bmike
+1 pour HFS Plus (HFS +) est un système de fichiers fragile. J'ai connu ce scénario exact avec deux disques durs. Windows n'est pas affecté, hfs + ne peut pas être réparé. Recréer la partition et réinstaller os x fonctionne bien
Clint Good
2

Des choses qui pourraient le faire du haut de ma tête ...

vous avez dit que vous n'aviez pas eu de surtensions ni de baisses de tension. Comment le confirmez-vous? Nous avions une salle de classe où les alimentations pour PC soufflaient apparemment au hasard. Nous avons dû demander au personnel de maintenance de connecter un compteur de surveillance au circuit et nous avons découvert que la prise présente d'énormes pics de tension.

La mémoire n'est pas installée correctement et altère les données.

Câbles d'entraînement desserrés.

disques durs marginaux qui ont un mauvais ensemble de secteurs mais pas assez mauvais pour déclencher des alertes ou des analyses pour les mauvais secteurs.

Quelque chose dans le côté Windows via bootcamp modifie le lecteur d'une manière qu'il n'aime pas. Protection contre la copie? Utilitaires de conduite?

Vous avez dit que c'était dans un laboratoire. Que courent les élèves? Surveillez-vous ou verrouillez-vous ce qui peut être exécuté?

Vous avez dit que cela semble être aléatoire, il n'y a pas deux machines qui se produisent dans une rangée. Cela me conduirait à soupçonner qu'un étudiant ou un groupe d'étudiants sont à l'origine de cela ou qu'il y a un problème d'alimentation aléatoire dans le laboratoire à l'origine de cela. Existe-t-il un moyen de suivre qui a utilisé les machines pour la dernière fois pour voir si ce problème semble suivre magiquement l'un de vos utilisateurs?

Bart Silverstrim
la source
Nous n'avons utilisé aucun équipement de surveillance de l'alimentation, non. Aller simplement sur le rapport des enseignants du lycée à ce sujet. modifier GAH! Note à soi-même: la touche Entrée ne crée pas de nouvelle ligne en mode commentaire.
EightQuarterBit
Je pourrais vouloir essayer ça. Il n'y avait pas non plus d'indication d'un tel problème dans la salle de classe, mais le directeur informatique était majeur en génie électrique à l'université et les a fait vérifier. Il a fait le calcul et a constaté qu'ils avaient des pointes périodiques de milliers de volts ...
Bart Silverstrim
Nous avons fait un test de RAM sur chaque machine qui a eu ce problème, ils ont tous réussi. On pourrait penser que si les câbles du lecteur étaient lâches, le problème se serait manifesté plusieurs fois sur la même machine sur le même iMac, plutôt que sur plusieurs iMac. De plus, s'il s'agissait d'un câble de lecteur lâche, il est étrange qu'il ne soit pas arrivé aux partitions Bootcamp.
EightQuarterBit
Il est possible que les disques soient en effet marginaux, mais j'ai du mal à acheter celui-ci. J'ai vérifié, revérifié et vérifié trois fois ces disques. J'ai utilisé l'utilitaire de disque d'Apple ainsi que Drive Genius 3 pour analyser la morve des disques. De plus, je n'ai jamais vu de lecteur marginal sans avoir au moins quelques indicateurs dans SMART. J'ai vu de «mauvais» disques durs qui ont réussi SMART, mais ils avaient toujours un nombre élevé de secteurs déplacés et ainsi de suite lors de l'utilisation d'un utilitaire SMART. Ces lecteurs? Nada.
EightQuarterBit
J'ai pensé à Windows visser avec la partition Mac, et je ne l'ai toujours pas exclu. Cependant, le fait que le pilote de bootcamp d'Apple montera UNIQUEMENT des partitions HFS + en lecture seule semble empêcher cela. Nous n'utilisons aucun outil de disque ou utilitaire de type "Deep Freeze" du côté Windows.
EightQuarterBit
1

Avez-vous envisagé un contrôle périodique des machines? Vous pouvez facilement planifier des passes de vérification hebdomadaires fsck (jusqu'à ce que vous compreniez pourquoi la corruption se produit), puis mensuellement pour garder un œil sur les choses.

Avec un système de fichiers journalisé, il faut un mauvais traitement répété pour que les macs se dégradent au point de ne pas démarrer. Même les mauvais logiciels n'écrivent pas du côté système du démarrage, donc je soupçonne que quelque chose ne va pas du tout. Sur les Mac qui s'arrêtent proprement et attirent l'attention chaque fois que des erreurs mineures du système de fichiers sont réparées (chaque fois qu'un Mac redémarre et que fsck ne fonctionne pas en mode preen est un signe de problème à l'horizon).

Avec un déploiement de 25 macs, vous pouvez facilement passer du temps à être proactif sur les vérifications du système de fichiers et à voir celles qui ne s'éteignent pas proprement en configurant un serveur syslog ou un autre système d'audit centralisé.

bmike
la source
0

Je considérerais l'activité d'étudiant. Si vous utilisez bootcamp et OS X, je parie que les étudiants plantent le côté Mac pour exécuter le camp d'entraînement, car ils ne sont pas patients. Cela peut également être le cas si un casier d'écran est présent.

Je suggère:

  1. Retirez le camp d'entraînement. Exécutez plutôt une machine virtuelle sous Parallels ou Virtual Box. (J'ai trouvé que Windows XP sous VirtualBox fonctionne assez bien.) Configurez-le de sorte que la machine virtuelle soit immuable, stockée localement sur l'ancienne partition de bootcamp. Cela empêchera les enfants de déconner avec l'installation des fenêtres. Redirigez leur répertoire personnel pour lire leur répertoire personnel Mac sur votre serveur. (Il s'agit d'un PITA à configurer la première fois, car il englobe environ un million de regedits)

  2. Établissez une certaine forme de surveillance des connexions afin de savoir quels étudiants ont utilisé quelles machines. Cela a l'avantage que vous pouvez repérer le même enfant qui se connecte sur plusieurs machines, ce qui est généralement une faveur pour quelqu'un qui est interdit. J'ai configuré que lorsque la même connexion était sur deux machines, les deux machines ont été redémarrées.

Sherwood
la source