Degrés de liberté de dans le test de Hosmer-Lemeshow

33

La statistique de test du test de Hosmer-Lemeshow (HLT) pour la qualité de l'ajustement (GOF) d'un modèle de régression logistique est définie comme suit:

L'échantillon est ensuite divisé en déciles, , on calcule les quantités suivantes par décile:D 1 , D 2 , , D dd=10D1,D2,,Dd

  • d dO1d=iDdyi , c'est-à-dire le nombre observé de cas positifs dans le décile ;Dd
  • D dO0d=iDd(1yi) , c'est-à-dire le nombre observé de cas négatifs dans le décile ;Dd
  • D dE1d=iDdπ^i , c'est-à-dire le nombre estimé de cas positifs dans le décile ;Dd
  • D dE0d=iDd(1π^i) , c'est-à-dire le nombre estimé de cas négatifs dans le décile ;Dd

où est le résultat binaire observé pour l' observation -th et la probabilité estimée pour cette observation. i π iyiiπ^i

La statistique de test est ensuite définie comme suit:

X2=h=01g=1d((OhgEhg)2Ehg)=g=1d(O1gngπ^gng(1π^g)π^g)2,

où est la probabilité estimée moyenne dans le décile et le nombre de sociétés dans le décile.gngπ^ggng

Selon Hosmer-Lemeshow (voir ce lien ) cette statistique a (sous certaines hypothèses) un la distribution avec degrés de liberté . ( d - 2 )χ2(d2)

D'autre part , si je définirais un tableau de contingence avec lignes (correspondant aux déciles) et 2 colonnes (correspondant au résultat binaire vrai / faux), alors la statistique de test pour le pour ce tableau de contingence serait identique au défini ci-dessus, cependant, dans le cas du tableau de contingence, cette statistique de test est avec degrés de liberté . Donc, un degré de liberté de plus !χ 2 X 2 χ 2 ( d - 1 ) ( 2 - 1 ) = d - 1dχ2X2χ2(d1)(21)=d1

Comment expliquer cette différence dans le nombre de degrés de liberté?

EDIT: ajouts après lecture des commentaires:

@ Whuber

Ils disent (voir Hosmer DW, Lemeshow S. (1980), Un test d'adéquation du modèle de régression logistique multiple. Communications in Statistics, A10, 1043-1069 ) qu'il existe un théorème démontré par Moore et Spruill à partir duquel il s'ensuit que si (1) les paramètres sont estimés à l'aide de fonctions de vraisemblance pour des données non groupées et (2) que les fréquences du tableau 2xg dépendent des paramètres estimés, à savoir que les cellules sont aléatoires et non fixes, que dans des conditions de régularité appropriées, La statistique de qualité d'ajustement sous (1) et (2) est celle d'un chi-carré central avec la réduction habituelle des degrés de liberté due aux paramètres estimés plus une somme de variables de chi-carré pondérées.

Ensuite, si je comprends bien leur papier, ils essaient de trouver une approximation pour ce «terme de correction» qui, si je le comprends bien, est cette somme pondérée de variables aléatoires du khi-deux, et ils le font en faisant des simulations, mais je Je dois avouer que je ne comprends pas tout à fait ce qu’ils disent là, d’où ma question; pourquoi ces cellules sont aléatoires, comment cela influence-t-il les degrés de liberté? Est-ce que ce serait différent si je fixais les limites des cellules, puis que je classais les observations dans des cellules fixes en fonction du score estimé, dans ce cas, les cellules ne sont pas aléatoires, bien que le «contenu» de la cellule le soit?

@ Frank Harell: est-il possible que les «lacunes» du test de Hosmer-Lemeshow que vous mentionnez dans vos commentaires ci-dessous ne soient qu'une conséquence de l'approximation de la somme pondérée des chi-carrés ?


la source
9
Le livre contient une description détaillée de ce test et ses bases. Vous trouverez une réponse complète à votre question aux pages 145 et 149. Déterminer les degrés de liberté dans les tests est une chose subtile, car la plupart de ces tests sont des approximations (en premier lieu) et ces approximations ne sont bonnes que lorsque des conditions techniques apparemment mineures s'appliquent. Pour en savoir plus sur tout cela, voir stats.stackexchange.com/a/17148 . H & L a suivi une voie purement pratique: ils ont fondé leur recommandation de DF sur "un ensemble complet de simulations". j - 2χ2d2
whuber
4
Ce test est maintenant considéré comme obsolète en raison (1) du manque de puissance, (2) du regroupement des probabilités continues et (3) de l'arbitraire dans le choix du regroupement et du choix de la définition des déciles. Le test Hosmer - le Cessie 1 df ou le test Spiegelhalter sont recommandés. Voir par exemple le rmspackage residuals.lrmet les val.probfonctions R.
Frank Harrell
2
@ Frank Harell: (a) même si le test de Hosmer-Lemeshow est obsolète, je pense qu'il est toujours intéressant de comprendre la différence avec et (b) avez-vous une référence qui montre que le test de Spiegelhalter a plus de puissance que le test Hosmer-Lemeshow? χ2
2
Ces problèmes sont IMHO très petite par rapport à la question initiale.
Frank Harrell
3
Je pense que les détails apparaissent ailleurs sur ce site. En bref, (1) Hosmer a montré que le test est arbitraire - il est très sensible à la façon dont les déciles sont calculés; (2) ça manque de puissance. Vous pouvez voir qu'il est basé sur des quantités imprécises en traçant la courbe d'étalonnage regroupée (par opposition à une courbe d'étalonnage lisse) et en notant les sauts. En outre, il ne pénalise pas correctement pour surajustement extrême.
Frank Harrell,

Réponses:

2

Hosmer DW, Lemeshow S. (1980), Un test d'adéquation du modèle de régression logistique multiple. Communications in Statistics, A10, 1043-1069 montrent que:

Si le modèle est un modèle de régression logistique et que les paramètres sont estimés par maximum de vraisemblance et que les groupes sont définis sur les probabilités estimées, il est alors établi que est asymptotiquement (Hosmer, Lemeshow, 1980, p.1052, théorème 2).G X 2 χ 2 ( G - p - 1 ) + Σ p + 1 i = 1 λ i χ 2 i ( 1 )pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(Remarque: les conditions nécessaires ne figurent pas explicitement dans le théorème 2 à la page 1052, mais si on lit attentivement le papier et l'épreuve, ils apparaissent.)

Le deuxième terme résulte du fait que le regroupement est basé sur des quantités estimées - c'est-à-dire aléatoires (Hosmer, Lemeshow, 1980, p. 1). 1051)i=1p+1λiχi2(1)

En utilisant des simulations, ils ont montré que le second terme peut être (dans les cas utilisés dans la simulation) approximé par un (Hosmer, Lemeshow, 1980, p.1060)χ2(p1)

La combinaison de ces deux faits se traduit par une somme de deux variables, l' une avec degrés de liberté et un second avec degrés de liberté ou G - p - 1 p - 1 X 2 ~ χ 2 ( G - p - 1 + p - 1 = G - 2 )χ2Gp1p1X2χ2(Gp1+p1=G2)

La réponse à la question réside donc dans l'occurrence du «terme khi-carré pondéré» ou dans le fait que les groupes sont définis à l'aide de probabilités estimées qui sont elles-mêmes des variables aléatoires.

Voir aussi Hosmer Lemeshow (1980) Papier - Théorème 2


la source
"La réponse à la question réside donc dans l'occurrence du" terme pondéré du khi-deux " et dans le fait que les groupes sont définis à l'aide de probabilités estimées qui sont elles-mêmes des variables aléatoires." A ) Les probabilités estimées font que vous obtenez une réduction supplémentaire de p + 1, ce qui fait la différence principale par rapport au cas du tableau de contingence (dans lequel seuls les termes g sont estimés). B ) Le terme de khi-deux pondéré apparaît comme une correction car l'estimation n'est pas une estimation de probabilité ou une efficacité égale, ce qui a pour effet que l'effet de la réduction est moins important que (p + 1).
Sextus Empiricus
@ Martijn Weterings: Ai-je raison si je conclus que ce que vous dites dans ce commentaire n'est pas exactement la même explication (pour ne pas dire complètement différente) que ce que vous dites dans votre réponse? Votre commentaire mène-t-il à la conclusion que les df sont un ? G2
Ma réponse explique l'intuition de la différence de degrés de liberté par rapport au raisonnement basé sur "la statistique de test pour le pour ce tableau de contingence", il explique pourquoi ils sont différents (estimation de cas de cellules fixes). Il se concentre sur la "réduction habituelle" à partir de laquelle vous concluriez que le df serait le G-3. Cependant, certaines conditions pour la "réduction habituelle" ne sont pas remplies. Pour cette raison (cellules aléatoires), vous obtenez les termes les plus compliqués avec le terme de khi-deux pondéré comme correction et vous vous retrouvez effectivement avec G-2. C'est loin d'être complètement différent. χ2
Sextus Empiricus
@ Martijn Weterings, désolé mais je ne peux pas passer au vote parce que je ne vois aucune notion comme des "cellules aléatoires" dans votre réponse, voulez-vous dire que toutes vos belles images (et je dis bien ceci, elles sont très belles) expliquent quelque chose à propos de 'cellules aléatoires' ou avez-vous eu cette idée après avoir lu ma réponse?
Ne sois pas désolé. Je conviens que ma réponse n'est pas une réponse exacte pour montrer exactement les degrés de liberté dans le test HL. Je suis désolé pour ça. Ce que vous avez est la statistique de Chernoff Lehman (avec également des cellules aléatoires) qui suit un distribution. À l’heure actuelle, la partie qui vous préoccupe n’est pas claire. J'espère que vous pourrez être plus constructif à cet égard. Si vous voulez tout expliquer, vous avez déjà les articles pour cela. Ma réponse vient de traiter le expliquant la principale différence par rapport au test de la table de contingence. Σ k - s - 1 i = 1 χ 2 ( 1 )i=1ks1χ2(1)+i=ksk1λiχi2(1)i=1ks1χ2(1)
Sextus Empiricus
2

Le théorème auquel vous faites référence (partie habituelle de réduction "réduction habituelle des degrés de liberté en raison de paramètres estimés") a été principalement préconisé par RA Fisher. Dans 'Sur l'interprétation du chi carré à partir des tables de contingence et du calcul de P' (1922), il a plaidé en faveur de l'utilisation de la règle et dans 'Le bien-fondé de l'ajustement des formules de régression' ( 1922), il propose de réduire les degrés de liberté du nombre de paramètres utilisés dans la régression pour obtenir les valeurs attendues à partir des données. (Il est intéressant de noter que les gens ont mal utilisé le test du khi-deux, avec de faux degrés de liberté, pendant plus de vingt ans depuis son introduction en 1900)(R1)(C1)

Votre cas est du second type (régression) et non du premier (table de contingence), bien que les deux soient liés en ce sens qu’il s’agit de restrictions linéaires sur les paramètres.

Étant donné que vous modélisez les valeurs attendues, en fonction de vos valeurs observées, avec un modèle à deux paramètres, la réduction «habituelle» des degrés de liberté est de deux plus un (une supplémentaire car le O_i doit résumer un total, qui est une autre restriction linéaire, et vous vous retrouvez effectivement avec une réduction de deux, au lieu de trois, en raison du «inefficience» des valeurs attendues modélisées).


Le test du chi carré utilise un comme mesure de distance pour exprimer la proximité d'un résultat avec les données attendues. Dans les nombreuses versions des tests du chi-carré, la distribution de cette «distance» est liée à la somme des déviations dans les variables distribuées normales (ce qui n'est vrai que dans la limite et qui est approximatif si vous traitez avec des données distribuées non normales) .χ2

Pour la distribution normale multivariée, la fonction de densité est liée à la parχ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

avec le déterminant de la matrice de covariance de|Σ|x

et est le mahalanobis distance qui réduit à la distance euclidienne si .χ2=(xμ)TΣ1(xμ)Σ=I

Dans son article de 1900, Pearson affirmait que les niveaux de étaient des sphéroïdes et qu'il pouvait se transformer en coordonnées sphériques afin d'intégrer une valeur telle que . Ce qui devient une intégrale unique.χ2P(χ2>a)


C’est cette représentation géométrique, tant que distance et également en terme de fonction de densité, qui peut aider à comprendre la réduction des degrés de liberté lorsque des restrictions linéaires sont présentes.χ2

D'abord le cas d'un tableau de contingence 2x2 . Vous remarquerez que les quatre valeurs ne sont pas quatre variables distribuées normales indépendantes. Ils sont plutôt liés les uns aux autres et se résument à une seule variable.OiEiEi

Permet d'utiliser la table

Oij=o11o12o21o22

alors si les valeurs attendues

Eij=e11e12e21e22

où fixe alors sera distribué comme une distribution chi-carré avec quatre degrés de liberté , mais souvent , nous estimons la sur la base et la variation ne ressemble pas à quatre variables indépendantes. Au lieu de cela, nous obtenons que toutes les différences entre et sont identiquesoijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

et ils sont effectivement une seule variable plutôt que quatre. Géométriquement, vous pouvez voir ceci comme la valeur non intégrée sur une sphère à quatre dimensions mais sur une seule ligne.χ2

Notez que ce test de table de contingence n'est pas le cas pour la table de contingence dans le test de Hosmer-Lemeshow (il utilise une hypothèse nulle différente!). Voir aussi la section 2.1 'Le cas où et sont connus' dans l'article de Hosmer et Lemshow. Dans leur cas, vous obtenez 2g-1 degrés de liberté et non pas g-1 comme dans la règle (R-1) (C-1). Cette règle (R-1) (C-1) est précisément le cas de l'hypothèse nulle selon laquelle les variables de ligne et de colonne sont indépendantes (ce qui crée des contraintes R + C-1 sur les valeurs ). Le test de Hosmer-Lemeshow repose sur l'hypothèse selon laquelle les cellules sont remplies en fonction des probabilités d'un modèle de régression logistique fondé sur critères.β0β_oieifourparamètres dans le cas de l'hypothèse de distribution A et paramètres dans le cas de l'hypothèse de distribution B.p+1

Deuxièmement, le cas d'une régression. Une régression fait quelque chose de similaire à la différence comme le tableau de contingence et réduit la dimensionnalité de la variation. Il existe une belle représentation géométrique à cela car la valeur peut être représentée comme la somme d'un terme de modèle et d'un terme résiduel (et non d'erreur) . Ces termes de modèle et termes résiduels représentent chacun un espace dimensionnel perpendiculaire. Cela signifie que les termes résiduels ne peuvent prendre aucune valeur possible! À savoir, elles sont réduites par la partie projetée sur le modèle, et plus particulièrement par une dimension pour chaque paramètre du modèle.oeyiβxiϵiϵi


Peut-être que les images suivantes peuvent aider un peu

Vous trouverez ci-dessous 400 fois trois variables (non corrélées) de la distribution binomiale . Ils concernent des variables distribuées normales . Dans la même image, nous dessinons l'iso-surface pour . En intégrant sur cet espace en utilisant les coordonnées sphériques telles que nous n’avons besoin que d’une intégration unique (car changer l’angle ne change pas la densité), résultat dans lequel cette partie représente l'aire de la sphère à dimension d. Si nous limiterions les variablesB(n=60,p=1/6,2/6,3/6)N(μ=np,σ2=np(1p))χ2=1,2,6χ0ae12χ2χd1dχχd1χ en quelque sorte que l'intégration ne serait pas sur une sphère d-dimensionnelle mais quelque chose de dimension inférieure.

représentation graphique de chi ^ 2

L'image ci-dessous peut être utilisée pour avoir une idée de la réduction dimensionnelle des termes résiduels. Il explique la méthode d’ajustement des moindres carrés en terme géométrique.

En bleu, vous avez des mesures. En rouge, vous avez ce que le modèle permet. La mesure n’est souvent pas exactement égale au modèle et présente quelques écarts. Vous pouvez considérer cela géométriquement comme la distance entre le point mesuré et la surface rouge.

Les flèches rouges et ont les valeurs et et peuvent être associées à un modèle linéaire tel que x = a + b * z + erreur oumu1mu2(1,1,1)(0,1,2)

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

de sorte que la plage de ces deux vecteurs et (le plan rouge) correspond aux valeurs possibles pour dans le modèle de régression et est un vecteur représentant la différence entre la valeur observée et la valeur de régression / modélisée. Dans la méthode des moindres carrés, ce vecteur est perpendiculaire (la moindre distance est la somme des carrés) à la surface rouge (et la valeur modélisée est la projection de la valeur observée sur la surface rouge).( 0 , 1 , 2 ) x ϵ(1,1,1)(0,1,2)xϵ

Cette différence entre les valeurs observées et (modélisées) attendues est donc la somme des vecteurs perpendiculaires au vecteur du modèle (et cet espace a la dimension de l’espace total moins le nombre de vecteurs du modèle).

Dans notre exemple d'exemple simple. La dimension totale est de 3. Le modèle a 2 dimensions. Et l'erreur a la dimension 1 (ainsi, peu importe lequel de ces points bleus, les flèches vertes ne montrent qu'un seul exemple, les termes d'erreur ont toujours le même rapport, suivent un seul vecteur).

représentation graphique de la réduction de la dimension de régression


J'espère que cette explication aide. Ce n’est en aucun cas une preuve rigoureuse et certaines astuces algébriques spéciales doivent être résolues dans ces représentations géométriques. Mais bon, j'aime bien ces deux représentations géométriques. L’une pour l’astuce de Pearson d’intégrer le en utilisant les coordonnées sphériques, et l’autre pour visualiser la méthode de la somme des moindres carrés sous forme de projection sur un plan (ou un intervalle plus grand).χ2

Je suis toujours étonné de la façon dont on aboutit à , à mon avis, ce n’est pas anodin, car l’approximation normale d’un binôme n’est pas une déviation de mais de et Dans le cas des tables de contingence, vous pouvez le résoudre facilement, mais dans le cas de la régression ou d'autres restrictions linéaires, cela ne fonctionne pas aussi facilement, alors que la littérature est souvent très facile en affirmant que «cela fonctionne de la même manière pour d'autres restrictions linéaires». . (Un exemple intéressant du problème. Si vous effectuez plusieurs fois le test suivant, jetez 2 fois 10 fois une pièce et n’enregistrez que les cas dans lesquels la somme est 10 ', vous n’obtenez pas la distribution chi-carré typique pour cela " "simple" restriction linéaire) enp(1-p)oeeenp(1p)

Sextus Empiricus
la source
2
À mon avis, cette réponse contient de très beaux chiffres et arguments relatifs au , mais elle n’a pas tellement à voir avec la question qui concerne le test de Hosmer-Lemeshow pour une régression logistique. Vous discutez avec une régression où 1 paramètre est estimé, mais le test de Hosmer-Lemeshow concerne une régression logistique dans laquelle paramètres sont estimés. Voir aussi stats.stackexchange.com/questions/296312/… p > 1χ2p>1
... et, comme vous le dites, vous vous retrouvez avec un au dénominateur et non avec un , ce qui ne répond pas à cette question. Par conséquent, je dois faire un downvote, désolé (mais les graphiques sont très beaux :-)). n p ( 1 - p )enp(1p)
Vous demandiez dans un commentaire "de comprendre la formule ou au moins l'explication" intuitive "". C'est ce que vous obtenez avec ces interprétations géométriques. Calculer exactement comment ces s'annulent si vous ajoutez les deux cas, positif et négatif, est loin d'être intuitif et ne vous aide pas à comprendre les dimensions. np(1p)
Sextus Empiricus
Dans ma réponse, j'ai utilisé les degrés de liberté typiques et supposé que la régression était effectuée avec un paramètre (p = 1), ce qui était une erreur. Les paramètres dans vos références sont deux, un et . Ces deux paramètres auraient réduit la dimensionnalité à d-3 si seules les conditions appropriées (estimation efficace) avaient été remplies (voir, par exemple, un nouvel article de Fisher 'Les conditions dans lesquelles le khi carré mesure l'écart entre l'observation et l'hypothèse ') ....β 0 β(d1p)β0β
Sextus Empiricus
.... quoi qu'il en soit, j'ai expliqué pourquoi nous n'obtenions pas la dimension d-1 (et devrions plutôt nous attendre à quelque chose comme d-3, si vous mettez deux paramètres dans la régression) et comment imaginer la réduction dimensionnelle par une estimation efficace . C'est l'article de Moore-Spruill qui définit les termes supplémentaires (augmentant potentiellement les degrés de liberté effectifs) en raison de cette inefficacité et c'est la simulation de Hosmer-Lemeshow qui montre que d-2 fonctionne le mieux. Ce travail théorique est loin d’être intuitif et la simulation est loin d’être exacte. Ma réponse est simplement l'explication demandée pour la différence avec d-1.
Sextus Empiricus