Mauvais disques dans l'ancien serveur

12

J'ai un serveur Netware 3.12 datant de 1998 qui gère tout sur notre campus: grand livre, achats, paie, informations sur les étudiants, notes, vous l'appelez. Le serveur dispose d'un contrôleur RAID Adaptec à deux volumes:

  1. RAID 1, 2 disques scsi de 17 Go, Seagate ST318417W
  2. RAID 5, 3 disques scsi de 4 Go, 2 Seagate ST34573W et 1 ST34572W.

Nous sommes actuellement aux premiers stades d'un projet de remplacement de ce système, mais vous ne vous contentez pas de sauter dans un nouveau système comme celui-ci et j'ai donc besoin de garder ce serveur en marche jusqu'au moins novembre 2011.

Cette semaine, nous n'avons pas eu un mais deux disques durs tombent en panne. Heureusement, ils proviennent de volumes différents et nous pouvons continuer à fonctionner pour le moment, mais étant donné la nature proche de ces échecs, j'ai de sérieux doutes que je serai en mesure d'éviter une défaillance catastrophique de ce serveur via la cible de novembre comme sans. restaurer la redondance RAID - cela ne prendra qu'une seule panne de disque de plus n'importe où et je suis complètement irrité.

Nous avons la chance d'avoir des pièces de rechange de correspondance exacte qui traînent pour les deux disques, mais les pièces de rechange sont dans un état inconnu. J'ai essayé de les échanger uniquement, mais le contrôleur RAID n'est pas assez intelligent pour gérer cela et il rend le système impossible à démarrer.

En ce qui concerne le contrôleur RAID lui-même, il existe un utilitaire dans lequel je peux accéder pendant le POST via un raccourci Ctrl-A, mais je ne peux pas faire grand-chose à partir de là. Pour gérer réellement les volumes, je dois d'abord démarrer sur Netware, auquel point je peux utiliser CI/O Array Management Software Version 2.0pour regarder les informations de volume. Je soupçonne que la façon normale de gérer les choses est de démarrer à partir d'une disquette spéciale avec le logiciel du contrôleur, mais cette disquette a disparu depuis longtemps.

En parcourant les options du logiciel RAID, je pense que la seule façon prise en charge pour remplacer un disque dans un volume RAID existant est d'ajouter physiquement le disque, de le démarrer et de le configurer comme "pièce de rechange" pour un volume, de forcer le volume à utiliser le disque de secours pour remplacer un disque en panne existant (et à ce stade, je ne fais que deviner) afin que le disque en panne devienne le disque de rechange, réparer le volume, retirer le disque de secours du volume, puis arrêter et retirer le disque. Puis recommencez pour l'autre disque défaillant. Tout cela représente beaucoup de temps d'arrêt, en supposant que je puisse même le faire fonctionner et que mes pièces de rechange sont bonnes.

En ce qui concerne la recherche de pièces de rechange fiables, je n'ai aucune idée où commencer à chercher un nouveau lecteur scsi de 4 Go, ni même quel système scsi exact je recherche, car il a traversé plusieurs itérations différentes au fil du temps.

Une autre option consiste à migrer cela vers une machine virtuelle (hyper-v), mais toutes les tentatives précédentes que nous avons faites dans ce domaine n'ont pas réussi à aller très loin. Lorsque cette machine a été installée, je venais tout juste de terminer mes études secondaires, et cela nécessite donc une connaissance de niveau inférieur des réseaux et des dos que je n'ai jamais développé, ou si je l'ai depuis oublié (je ne suis pas exactement un néophyte non plus).

Une partie de mon problème est qu'il s'agit d'un serveur à haute utilisation, et le démonter pendant quelques jours pour comprendre les choses ne va pas très bien voler.

En ce qui concerne la question, je recherche tout ce qui pourrait être utile dans cette situation: une recommandation sur un endroit pour trouver de bonnes pièces de rechange de cette époque, une expérience personnelle de réparation de volumes RAID à l'aide d'un contrôleur similaire ou de construction d'un Hyper-V VM à partir d'un ancien serveur netware, une ligne sur une disquette avec un meilleur logiciel pour le contrôleur RAID, recommandation sur un bon consultant Novell dans le Nebraska qui serait en mesure de corriger les choses, une toute autre option que je n'ai pas encore envisagée, etc.

Mise à jour:
Pour les sauvegardes, nous avons de bonnes sauvegardes (récemment vérifiées via la restauration) des données uniquement - rien pour le logiciel qui exécute réellement les choses.

Mise à jour 2:
juste un rapport d'étape indiquant que j'ai actuellement une installation de Netware 3.12 fonctionnelle dans VMWare Virtual Server 2.0, grâce en grande partie au guide que j'ai trouvé ici:
http://cerbulescubogdan.blogspot.com/2010/11/novell-netware-312 -on-vmware.html

Les étapes suivantes consistent à préparer des volumes netware vides pour correspondre aux volumes supplémentaires sur mon serveur existant, à effectuer un vidage de tout sur le lecteur C: \ et des volumes netware sur mon serveur existant, et à déterminer à partir de ces informations quels modules doivent être ajoutés à netware, installer mes licences (nous avons toujours ce disque, s'il est bon) et déplacer les données.

J'ai l'autorisation d'arrêter le serveur pendant une semaine après le premier de l'année (malheureusement pas avant), donc, à part la création de volumes vides, le reste du travail devra attendre jusque-là.

Dernière mise à jour (5 janvier 2011):
cette semaine, j'ai pu faire fonctionner des pièces de rechange dans les deux baies RAID sans perte de données. Les deux sont désormais répertoriés par le contrôleur comme "FAULT TOLLERANT" (yay!). J'ai également pu m'appuyer sur les progrès de ma dernière mise à jour et j'ai maintenant un serveur "de rechange" fonctionnel dans VMWare Server 2.0. Le disque de rechange peut fonctionner et utiliser notre logiciel erp, mais je ne peux pas le mettre en production car je ne peux pas (encore) imprimer à partir de cette boîte (et je ne sais pas pourquoi). Même ainsi, cette machine virtuelle fera l'affaire si je n'ai pas d'autre choix, et entre elle et les matrices RAID réparées, je suis à l'aise avec la situation jusqu'à ce que je puisse jeter la machine en novembre.

Epilogue (16 janvier 2012):
Le projet de remplacement de ce serveur par un tout nouveau système s'est déroulé comme prévu. Vive le netware! Salutez Sql Server! Le roi est mort. Longue vie au roi!

Nous prévoyons toujours de maintenir l'ancien serveur en service pendant un certain temps, jusqu'à ce que notre audit post-exercice se termine en août. Mais si un échec se produit d'ici là, personne ne se plaindrait trop.

Joel Coel
la source
1
Quelle est la question?
andyhky
Voir le dernier paragraphe
Joel Coel
2
Comme d'autres, j'ai perdu tout intérêt bien avant d'atteindre le paragraphe de question. Vous pouvez envisager de reformater le tout pour poser la question i plus tôt ou de le condenser.
John Gardeniers
2
Je veux mettre cela en perspective (que vous connaissez peut-être déjà): votre fonctionnement ENTIER repose sur une machine de 12 ans que vous ne pouvez pas remplacer pendant une année complète. Vous avez un problème.
Jeff Ferland
2
Merci pour la mise à jour de votre projet. Je suis heureux d'apprendre que votre migration a réussi.
Starfish

Réponses:

12

Obtenez (et continuez d'obtenir, quotidiennement ou plus fréquemment) de bonnes sauvegardes des données des fichiers partagés maintenant . Si vous perdez la machine, vous ne pourrez probablement pas trouver les disquettes nécessaires (yep) pour la restaurer. Obtenez une copie de la partition DOS à partir de laquelle Netware démarre, si possible, aussi.

Cela ressemble à une carte RAID Adaptec AAA-131 (ou quelque chose de cette époque). Si j'ai raison, vous ne trouverez pas de logiciel de gestion bien meilleur car il n'en existe pas (voir http://www.adaptec.com/en-us/downloads/novell_netware/novell_netware/productid=aaa-131&dn=aaa-131 .html pour les dernières versions disponibles). J'ai utilisé beaucoup de ces cartes "à l'époque" et elles fonctionnaient bien.

S'il s'agit d'un AAA-131, soyez extrêmement prudent lorsque vous jouez avec sa configuration . Il n'y a aucun moyen de configurer un ensemble RAID sans effacer les disques de ces cartes. Cela signifie, par exemple, si vous retirez la boîte et attachez des disques de test et, par exemple, effacez la configuration et créez un ensemble RAID dessus, lorsque vous rebranchez les disques de «production», il n'y aura aucun moyen de les utiliser sans que la carte ne les formate en premier. Ouais. C'est si mauvais.

Novell Netware s'exécutera dans les hyperviseurs VMware. Je recommanderais de passer un contrat avec quelqu'un qui a une expérience décente de Novell Netware (il y a des gens ici - je vous regarde, Sysadmin1138 - qui l'ont) pour vous aider à transférer le contenu du serveur dans un environnement virtuel où au moins, vous pouvez continuer.

Si les ordinateurs de vos clients sont modernes et qu’un client de mise en réseau Microsoft est installé, vous constaterez peut-être que la migration vers une machine Windows Server serait en fait rapide et facile. Apportez la machine Windows Server avec le même nom que le serveur Netware, exposez une structure de répertoires partagés avec la même convention de dénomination UNC que la machine Netware, copiez tous les fichiers et dupliquez les autorisations sur la machine de destination (à la main). Ce n'est peut-être pas si difficile à faire et vous pouvez "planifier" la migration dans un laboratoire de test à l'avance et tester certains clients avec lui pour décider ce qui doit être changé du point de vue de l'environnement script / utilisateur.

Vous pouvez probablement obtenir du matériel de rechange sur eBay. Tout ce que vous achetez de ce millésime va également avoir des problèmes de fiabilité.

Si j'étais vous, je trouverais quelqu'un de bien avec Windows Server pour vous aider à organiser une migration hors de cette boîte MAINTENANT . L'affaire peut probablement être présentée à la direction pour dépenser de l'argent, car vous pourriez perdre la totalité du contenu de la boîte Netware à tout moment. La boîte de remplacement n'aurait pas besoin d'une puissance énorme (compte tenu de ce que vous remplacez), les licences et la sauvegarde de logiciels seraient donc vos coûts les plus importants. Les problèmes de migration liés au client pourraient être minimisés en utilisant un consultant qui est bon avec les scripts et peut planifier les détails de la modification des paramètres liés au client via les scripts de connexion et de démarrage.

Evan Anderson
la source
Le logiciel de gestion de campus que nous exécutons sur cette machine nécessite le répertoire Novell pour sa configuration de sécurité, sinon je ne ferais qu'AD en un clin d'œil. Je garderai à l'esprit de ne pas trop jouer avec le contrôleur RAID.
Joel Coel
4
@ Joel Coel: Yeeouch. Ça craint. Faites-le virtualiser le plus rapidement possible. Cet ancien contrôleur RAID fournira un BIOS Int 13 qui permettra aux outils d'imagerie de disque DOS (comme le vieux GHOST pour DOS) de fonctionner correctement. J'obtiendrais une image secteur par secteur de toutes les partitions Netware, puis je demanderais à quelqu'un de vous aider à les migrer vers des disques virtuels pour l'hyperviseur de votre choix.
Evan Anderson
Je travaille sur une réponse maintenant.
sysadmin1138
10

Je sais, parce que je l'ai fait (Salut Evan), que VMWare a un support NetWare décent. Même pour les trucs vraiment anciens (ce que vous exécutez). NetWare de ce vintage NOOPs le CPU lorsqu'il est inactif au lieu de le HALTing, donc quel que soit le CPU qui lui est donné dans une VM sera rattaché. C'est à cela que servent les outils VMWare, ils ne font pas cela. VMWare existe depuis les années 90 (et a même eu un stand à BrainShare pendant plusieurs années) et a dû le faire, c'est pourquoi ils ont du soutien. La virtualisation de Microsoft est suffisamment nouvelle pour qu'ils n'aient jamais eu à virtualiser NetWare, donc cela ne fonctionne pas là-bas.

Si ce serveur est aussi critique que vous le dites, la création de certaines licences VMWare devrait être facile à vendre. Au minimum, choisissez une licence VMWare Workstation, qui permettra au moins de placer ce serveur dans un environnement virtuel. VMWare Server est gratuit (je crois) si vous en avez vraiment besoin. Une fois ce travail terminé, vous pouvez envisager de le déplacer vers quelque chose comme ESXi jusqu'à ce qu'il puisse être officiellement remplacé.

Il existe d'autres options, selon vos compétences Linux. Novell a passé un certain temps à obtenir Xen (pas KVM, Xen, bien que les deux utilisent qemu) pour prendre en charge NetWare. Cela fonctionnera probablement avec NW3.12, mais vous devrez vous assurer que vous utilisez le mode de virtualisation complet , pas la paravirtualisation.

Ce serveur est suffisamment nouveau et devrait contenir un lecteur de CD-ROM, ce qui sera probablement votre avantage. Une fois que vous avez terminé votre sauvegarde, démarrez-la sur un ISO-Linux si vous le souhaitez. Il ne pourra pas accéder aux données, mais il devrait voir le disque dur. À ce stade, effectuez une ddcopie complète des deux volumes vers un autre emplacement de votre réseau. Ces images de lecteur peuvent être utilisées directement par qemu comme lecteurs virtuels.

Il existe des moyens de convertir des images générées par DD en VMware VMDK, mais je ne les ai pas utilisées moi-même. Google eux, ils sont là-bas.

sysadmin1138
la source
Certaines anciennes cartes RAID Adaptec ne sont pas prises en charge par Linux. L'OP peut être bloqué à l'aide d'un utilitaire de création d'image DOS (afin de tirer parti du BIOS Int13 de la carte). Un bon utilitaire dd-to-vmdk que j'ai utilisé est: sourceforge.net/projects/raw2vmdk
Evan Anderson
Il a un lecteur de CD, mais il s'avère que le lecteur n'a pas fonctionné :(
Joel Coel
5

Ce n'est pas vraiment utile en termes de votre question (franchement, vous avez déjà des pièces de rechange, et la seule suggestion utile que j'ai à faire pour acheter des disques vintage serait " Envoyer les numéros de modèle de lecteur à Google Shopping "), mais avant de toucher à autre chose vous devriez vraiment VOUS ASSURER QUE VOUS AVEZ UNE BONNE SAUVEGARDE ET QUE VOUS POUVEZ LE RESTAURER AVEC SUCCÈS SUR UNE NOUVELLE MACHINE DANS UN ÉTAT UTILISABLE .

Si cette machine est aussi critique que cela puisse paraître d'après votre description, cela devrait être votre priorité zéro en ce moment. Si vous n'avez pas effectué de test de restauration réussi sur vos sauvegardes depuis un moment, vous devez supposer qu'elles ne valent rien, et vous devez vous assurer que vous pouvez réellement récupérer si cette machine siffle la dernière et meurt sur vous.
Si un autre disque tombe sur vous et que vous n'avez pas de sauvegardes utilisables, c'est à peu près le jeu de balle. Vous passerez immédiatement à votre nouveau système, que vous soyez prêt ou non.

Juste mes 3,50 $.

voretaq7
la source
D'accord. Testez votre capacité de restauration. # 1 Première chose. Sans moyen de restauration, vous pourriez tout aussi bien ne pas avoir de sauvegardes. (
J'y suis allé
2

D'autres ont déjà traité des sauvegardes, etc., donc je ne répéterai rien de tout cela. Il y a deux ou trois choses que vous pouvez faire pour améliorer vos chances que le système continue de fonctionner.

Commencez par investir dans un filtre de ligne de très bonne qualité et placez-le entre l'onduleur et le serveur. Ces vieux disques seront désormais assez sensibles aux surtensions, aux pointes et même aux fluctuations assez faibles de l'offre.

Je constate de votre mise à jour que vous avez déjà installé les disques de rechange, mais voici ce que j'aurais recommandé: avant d'essayer les disques de rechange sur le serveur, placez-les dans une autre machine et mettez-les à l'abri avec un logiciel de gravure ou, si vous ne pouvez pas obtenir cela, des cycles de test continus en utilisant un logiciel de test de conduite ordinaire. Gardez cela pendant au moins quelques jours avant de déclarer les lecteurs dignes de confiance. Les anciens disques qui ont été stockés sont notoirement peu fiables et peuvent tomber en panne en un rien de temps.

John Gardeniers
la source
1

Excellentes suggestions au-dessus. Essayez également - sur du matériel moderne de rechange, essayez de faire une récupération de l'ensemble du système à partir de votre dernière sauvegarde complète. Assurez-vous que la machine de secours n'est pas sur le réseau.

Qu'est-ce que c'est, je crains que vous ne disiez? Vous n'avez pas de sauvegardes et / ou de procédure de restauration? Eh bien, maintenant vous savez sur quoi vous travaillez pour la semaine prochaine?

mfinni
la source
1

En ne répondant qu'à une double / triple / quadruple recommandation de faire une sauvegarde tous les jours jusqu'à ce que vous trouviez une solution. Si vous ne pouvez pas facilement remplacer les disques morts, votre seule solution est de migrer vers de nouveaux disques. Que cela signifie la construction d'un nouveau serveur ou la migration lente de votre serveur existant pour utiliser de nouveaux disques sur votre serveur existant, c'est la seule option.

Nous avons eu 2 disques durs sur 3 en panne en une seule nuit dans une matrice RAID 5 de 7 ans. Nos sauvegardes étaient largement obsolètes. 8 jours et 17 000 $ plus tard, une entreprise de récupération de données a pu récupérer l'intégralité de notre serveur Exchange, mais personne n'était satisfait. (Sauf moi, parce que je devais faire des sauvegardes tous les jours. Sur le matériel que j'ai demandé mais que personne n'achèterait pour moi, mais ce fait a été perdu pour tout le monde ...)

La seule bonne chose qui en résulte est que le client a immédiatement approuvé ma demande d'achat de 6 mois pour du matériel de remplacement. Mais, putain de merde, ce fut 8 jours extrêmement stressants. Rendez-vous service, faites une sauvegarde maintenant et commencez à travailler sur un plan de sauvegarde d'urgence "soyez opérationnel sur tout le matériel que vous pouvez trouver dans votre bureau" maintenant.

minamhere
la source