L'espérance de vie de la page SQL Server 2012 est réinitialisée à 0 après environ 50 jours

12

J'ai remarqué un comportement étrange sur un cluster HA à 2 serveurs et j'espérais que quelqu'un pourrait confirmer mes soupçons, ou peut-être offrir une autre explication ... Voici ma configuration:

  • Une installation SQL 2012 SP1 sur 2 serveurs
  • SQL AlwaysOn HA a été activé pour quelques bases de données
  • Les processeurs sont 2,4 GHz, 4 cœurs
  • La RAM est de 34 Go (il s'agit d'une instance AWS, d'où le nombre impair)
  • L'utilisation des ressources est relativement faible - chaque serveur dispose de plus de 14 Go de mémoire libre, et SQL n'est pas limité sur la quantité de mémoire à utiliser
  • Le temps d'accès au disque est correct - dépassant rarement 15 ms / lecture ou écriture
  • Les bases de données ne sont pas grandes - 1 Go, 1,5 Go, 7,5 Go
  • Le processus du serveur SQL utilise 16 Go d'octets privés, 15 Go de jeu de travail

Dans l'ensemble, aucun problème de ressources n'est noté. Maintenant pour la partie étrange. SQL n'est pas redémarré (le processus fonctionne depuis près de 6 mois) mais il semble que tous les ~ 50 jours, le compteur de l'espérance de vie de la page tombe à (presque) 0. Jusqu'à ce point, il grimpe régulièrement, aucune baisse. Voici un graphique de performances:

entrez la description de l'image ici

Lorsque je regarde les données du compteur (je n'ai pas le nombre exact, juste une agrégation horaire), il semble que la valeur du compteur PLE atteigne environ 4295000 s (environ 50 jours) à chaque fois (au moins chaque fois que j'ai des données pour).

Ma théorie folle est que le nombre PLE est détenu en millisecondes comme un entier long non signé (qui a une limite de 4 294 967 295) et à 49,71 jours, il se réinitialise, soit par conception, soit à cause d'un bogue. Cela expliquerait le comportement des deux serveurs et le modèle identique qu'ils ont. Ou cela pourrait être quelque chose de totalement différent et je n'ai aucun sens. :)

Quelqu'un a-t-il vu quelque chose comme ça, ou peut-il expliquer ce comportement?

PS J'ai vu ce post, mais mon cas semble légèrement différent.

PPS Ceci est une rediffusion - je l'avais initialement publiée ici , mais on m'a informé que le public ici était plus approprié.

Merci!

CRCerr0r
la source
Les commentaires ne sont pas pour une discussion approfondie; cette conversation a été déplacée vers le chat .
Paul White 9

Réponses:

3

J'ai vu ce comportement sur un site client exécutant SQL2012 SP1. Les spécificités ici étaient NUMA et PLE démontrant un modèle en «dents de scie» mais sur un cycle horaire.

Quelques discussions sur SQLServerCentral ont discuté de ceci:

http://www.sqlservercentral.com/Forums/Topic1415833-2799-1.aspx http://www.sqlservercentral.com/Forums/Topic1424826-2799-1.aspx

le résultat final étant que l'application de SP1 CU4 semblait résoudre le problème.

CU4 contient le correctif d'aspect innocent Une mise à jour est disponible pour la gestion de la mémoire SQL Server 2012 KB2845380

Ça vaut le coup d'essayer?

Kev Riley
la source
Merci d'avoir posté ceci (désolé pour la réponse retardée, pour une raison quelconque, je n'ai jamais reçu de notification de votre message). J'ai jeté un coup d'œil aux liens - ils se ressemblent quelque peu, donc j'essaierai de dupliquer la configuration dans QA, d'appliquer CU4 (ou probablement même d'aller directement au SP2), puis de vérifier à nouveau. Avec le rythme que je vois cela (tous les 50 jours), je mettrai un certain temps à confirmer, mais je reviendrai quand j'aurai des résultats. BTW, mes schémas tiennent toujours - montée régulière pendant ~ 50 jours, puis forte baisse à ~ 0, et montée à nouveau - total de 4 depuis le début du service en décembre.
CRCerr0r
Mise à jour ... J'ai confirmé cela dans notre environnement QA. Les statistiques que j'ai obtenues sont les suivantes: Nombre total de jours entre les réinitialisations - 49,71 (+/- 1 minute); La valeur PLE maximale a atteint - 4 294 961 (à des échantillons d'une minute, elle aurait donc pu être légèrement plus élevée). Cela confirme à peu près les observations de production. Je vais appliquer CU4 et faire rapport dans ~ 50 jours ... :)
CRCerr0r
1
des nouvelles à ce sujet?
Michael Green