Je passais en revue les procédures de reprise après sinistre de notre entreprise et lorsque j'ai cherché en ligne des solutions à un quorum perdant Always On Cluster, à comparer. J'avais trois pages dans les résultats de Google avant de trouver le premier post SE sur le sujet Clustering vs réplication transactionnelle vs groupes de disponibilité qui ne touche que légèrement le sujet du quorum perdu.
Bien que tout le monde convienne que le quorum perdant est mauvais et qu'il existe des suggestions pour réduire le potentiel, cela peut toujours se produire. Je recherche une bonne réponse évaluée par les pairs pour le meilleur chemin de récupération après une perte de quorum de cluster Always On.
sql-server
availability-groups
disaster-recovery
James Jenkins
la source
la source
Réponses:
Les AG sont basés sur le clustering Windows. Les procédures WSFC pour la perte de quorum s'appliquent.
Une fois le WSFC en cours d'exécution, vous pouvez alors forcer AG, si nécessaire. Effectuer un basculement manuel forcé d'un groupe de disponibilité :
la source
J'ai été dans cette situation en particulier avec le clustering multi-sous-réseaux couvrant différents pays (NY-LD-HK).
Comment éviter la perte de quorum dans un cluster multi-sous-réseau?
CrossSubnetDelay
ou laCrossSubnetThreshold
propriété de ce correctif .Les choses changent dans Windows Server 2016 avec l'introduction de clusters sensibles au site et de témoins cloud .
Que faire lorsque le quorum est perdu?
Comme toujours, pour effectuer une analyse des causes profondes (RCA), rassemblez vos journaux de cluster Windows, pour AlwaysON RCA - utilisez les journaux de diagnostic du cluster de basculement SQL Server . Ces fichiers dans le répertoire Log SQL Server ont le format suivant:
<HOSTNAME>_<INSTANCENAME>_SQLDIAG_X_XXXXXXXXX.xel
.la source
Une fois que j'ai été impliqué dans une panne où nos serveurs en miroir ont perdu la connectivité. L'une des choses dont vous devez vous soucier est de vous assurer que vos applications sont dirigées vers une seule instance. Lors d'une panne de réseau, vous pouvez avoir tous les nœuds d'un cluster Always On activés mais incapables de communiquer entre eux. Vous forcez un basculement vers un secondaire, puis tant qu'il y a une panne, vous pouvez avoir deux nœuds principaux car le primaire d'origine ne connaîtra pas le basculement forcé.
Selon l'emplacement de vos serveurs d'applications, leur configuration et leur capacité à atteindre un serveur SQL, en théorie, vous pouvez avoir deux nœuds croyant qu'ils sont principaux et que les données sont modifiées en même temps. Une fois que vous avez résolu vos problèmes de réseau et que les nœuds reprennent la connectivité, toutes les données modifiées sur le serveur principal d'origine seront écrasées à partir du nœud où le basculement a été forcé. Cela peut entraîner la perte de données critiques.
J'ai déjà vu cette situation avec SQL 2005 et la mise en miroir. Et nous avons décidé de ne pas forcer le basculement et de le laisser inaccessible. La raison étant que dans le pire des cas, si nous devions sauvegarder et restaurer pour redémarrer la mise en miroir, ce serait un processus de 2 jours pour nous avec des risques de saturation du journal des transactions et de ne pas pouvoir étendre le disque sur lequel il se trouvait.
la source