La statistique de test du test de Hosmer-Lemeshow (HLT) pour la qualité de l'ajustement (GOF) d'un modèle de régression logistique est définie comme suit:
L'échantillon est ensuite divisé en déciles, , on calcule les quantités suivantes par décile:D 1 , D 2 , … , D d
- d d , c'est-à-dire le nombre observé de cas positifs dans le décile ;
- D d , c'est-à-dire le nombre observé de cas négatifs dans le décile ;
- D d , c'est-à-dire le nombre estimé de cas positifs dans le décile ;
- D d , c'est-à-dire le nombre estimé de cas négatifs dans le décile ;
où est le résultat binaire observé pour l' observation -th et la probabilité estimée pour cette observation. i π i
La statistique de test est ensuite définie comme suit:
où est la probabilité estimée moyenne dans le décile et le nombre de sociétés dans le décile.gng
Selon Hosmer-Lemeshow (voir ce lien ) cette statistique a (sous certaines hypothèses) un la distribution avec degrés de liberté . ( d - 2 )
D'autre part , si je définirais un tableau de contingence avec lignes (correspondant aux déciles) et 2 colonnes (correspondant au résultat binaire vrai / faux), alors la statistique de test pour le pour ce tableau de contingence serait identique au défini ci-dessus, cependant, dans le cas du tableau de contingence, cette statistique de test est avec degrés de liberté . Donc, un degré de liberté de plus !χ 2 X 2 χ 2 ( d - 1 ) ( 2 - 1 ) = d - 1
Comment expliquer cette différence dans le nombre de degrés de liberté?
EDIT: ajouts après lecture des commentaires:
@ Whuber
Ils disent (voir Hosmer DW, Lemeshow S. (1980), Un test d'adéquation du modèle de régression logistique multiple. Communications in Statistics, A10, 1043-1069 ) qu'il existe un théorème démontré par Moore et Spruill à partir duquel il s'ensuit que si (1) les paramètres sont estimés à l'aide de fonctions de vraisemblance pour des données non groupées et (2) que les fréquences du tableau 2xg dépendent des paramètres estimés, à savoir que les cellules sont aléatoires et non fixes, que dans des conditions de régularité appropriées, La statistique de qualité d'ajustement sous (1) et (2) est celle d'un chi-carré central avec la réduction habituelle des degrés de liberté due aux paramètres estimés plus une somme de variables de chi-carré pondérées.
Ensuite, si je comprends bien leur papier, ils essaient de trouver une approximation pour ce «terme de correction» qui, si je le comprends bien, est cette somme pondérée de variables aléatoires du khi-deux, et ils le font en faisant des simulations, mais je Je dois avouer que je ne comprends pas tout à fait ce qu’ils disent là, d’où ma question; pourquoi ces cellules sont aléatoires, comment cela influence-t-il les degrés de liberté? Est-ce que ce serait différent si je fixais les limites des cellules, puis que je classais les observations dans des cellules fixes en fonction du score estimé, dans ce cas, les cellules ne sont pas aléatoires, bien que le «contenu» de la cellule le soit?
@ Frank Harell: est-il possible que les «lacunes» du test de Hosmer-Lemeshow que vous mentionnez dans vos commentaires ci-dessous ne soient qu'une conséquence de l'approximation de la somme pondérée des chi-carrés ?
rms
packageresiduals.lrm
et lesval.prob
fonctions R.Réponses:
Hosmer DW, Lemeshow S. (1980), Un test d'adéquation du modèle de régression logistique multiple. Communications in Statistics, A10, 1043-1069 montrent que:
(Remarque: les conditions nécessaires ne figurent pas explicitement dans le théorème 2 à la page 1052, mais si on lit attentivement le papier et l'épreuve, ils apparaissent.)
Le deuxième terme résulte du fait que le regroupement est basé sur des quantités estimées - c'est-à-dire aléatoires (Hosmer, Lemeshow, 1980, p. 1). 1051)∑p+1i=1λiχ2i(1)
En utilisant des simulations, ils ont montré que le second terme peut être (dans les cas utilisés dans la simulation) approximé par un (Hosmer, Lemeshow, 1980, p.1060)χ2(p−1)
Voir aussi Hosmer Lemeshow (1980) Papier - Théorème 2
la source
Le théorème auquel vous faites référence (partie habituelle de réduction "réduction habituelle des degrés de liberté en raison de paramètres estimés") a été principalement préconisé par RA Fisher. Dans 'Sur l'interprétation du chi carré à partir des tables de contingence et du calcul de P' (1922), il a plaidé en faveur de l'utilisation de la règle et dans 'Le bien-fondé de l'ajustement des formules de régression' ( 1922), il propose de réduire les degrés de liberté du nombre de paramètres utilisés dans la régression pour obtenir les valeurs attendues à partir des données. (Il est intéressant de noter que les gens ont mal utilisé le test du khi-deux, avec de faux degrés de liberté, pendant plus de vingt ans depuis son introduction en 1900)(R−1)∗(C−1)
Votre cas est du second type (régression) et non du premier (table de contingence), bien que les deux soient liés en ce sens qu’il s’agit de restrictions linéaires sur les paramètres.
Étant donné que vous modélisez les valeurs attendues, en fonction de vos valeurs observées, avec un modèle à deux paramètres, la réduction «habituelle» des degrés de liberté est de deux plus un (une supplémentaire car le O_i doit résumer un total, qui est une autre restriction linéaire, et vous vous retrouvez effectivement avec une réduction de deux, au lieu de trois, en raison du «inefficience» des valeurs attendues modélisées).
Le test du chi carré utilise un comme mesure de distance pour exprimer la proximité d'un résultat avec les données attendues. Dans les nombreuses versions des tests du chi-carré, la distribution de cette «distance» est liée à la somme des déviations dans les variables distribuées normales (ce qui n'est vrai que dans la limite et qui est approximatif si vous traitez avec des données distribuées non normales) .χ2
Pour la distribution normale multivariée, la fonction de densité est liée à la parχ2
avec le déterminant de la matrice de covariance de|Σ| x
et est le mahalanobis distance qui réduit à la distance euclidienne si .χ2=(x−μ)TΣ−1(x−μ) Σ=I
Dans son article de 1900, Pearson affirmait que les niveaux de étaient des sphéroïdes et qu'il pouvait se transformer en coordonnées sphériques afin d'intégrer une valeur telle que . Ce qui devient une intégrale unique.χ2 P(χ2>a)
C’est cette représentation géométrique, tant que distance et également en terme de fonction de densité, qui peut aider à comprendre la réduction des degrés de liberté lorsque des restrictions linéaires sont présentes.χ2
D'abord le cas d'un tableau de contingence 2x2 . Vous remarquerez que les quatre valeurs ne sont pas quatre variables distribuées normales indépendantes. Ils sont plutôt liés les uns aux autres et se résument à une seule variable.Oi−EiEi
Permet d'utiliser la table
alors si les valeurs attendues
où fixe alors sera distribué comme une distribution chi-carré avec quatre degrés de liberté , mais souvent , nous estimons la sur la base et la variation ne ressemble pas à quatre variables indépendantes. Au lieu de cela, nous obtenons que toutes les différences entre et sont identiques∑oij−eijeij eij oij o e
et ils sont effectivement une seule variable plutôt que quatre. Géométriquement, vous pouvez voir ceci comme la valeur non intégrée sur une sphère à quatre dimensions mais sur une seule ligne.χ2
Notez que ce test de table de contingence n'est pas le cas pour la table de contingence dans le test de Hosmer-Lemeshow (il utilise une hypothèse nulle différente!). Voir aussi la section 2.1 'Le cas où et sont connus' dans l'article de Hosmer et Lemshow. Dans leur cas, vous obtenez 2g-1 degrés de liberté et non pas g-1 comme dans la règle (R-1) (C-1). Cette règle (R-1) (C-1) est précisément le cas de l'hypothèse nulle selon laquelle les variables de ligne et de colonne sont indépendantes (ce qui crée des contraintes R + C-1 sur les valeurs ). Le test de Hosmer-Lemeshow repose sur l'hypothèse selon laquelle les cellules sont remplies en fonction des probabilités d'un modèle de régression logistique fondé sur critères.β0 β–– oi−ei four paramètres dans le cas de l'hypothèse de distribution A et paramètres dans le cas de l'hypothèse de distribution B.p+1
Deuxièmement, le cas d'une régression. Une régression fait quelque chose de similaire à la différence comme le tableau de contingence et réduit la dimensionnalité de la variation. Il existe une belle représentation géométrique à cela car la valeur peut être représentée comme la somme d'un terme de modèle et d'un terme résiduel (et non d'erreur) . Ces termes de modèle et termes résiduels représentent chacun un espace dimensionnel perpendiculaire. Cela signifie que les termes résiduels ne peuvent prendre aucune valeur possible! À savoir, elles sont réduites par la partie projetée sur le modèle, et plus particulièrement par une dimension pour chaque paramètre du modèle.o−e yi βxi ϵi ϵi
Peut-être que les images suivantes peuvent aider un peu
Vous trouverez ci-dessous 400 fois trois variables (non corrélées) de la distribution binomiale . Ils concernent des variables distribuées normales . Dans la même image, nous dessinons l'iso-surface pour . En intégrant sur cet espace en utilisant les coordonnées sphériques telles que nous n’avons besoin que d’une intégration unique (car changer l’angle ne change pas la densité), résultat dans lequel cette partie représente l'aire de la sphère à dimension d. Si nous limiterions les variablesB(n=60,p=1/6,2/6,3/6) N(μ=n∗p,σ2=n∗p∗(1−p)) χ2=1,2,6 χ ∫a0e−12χ2χd−1dχ χd−1 χ en quelque sorte que l'intégration ne serait pas sur une sphère d-dimensionnelle mais quelque chose de dimension inférieure.
L'image ci-dessous peut être utilisée pour avoir une idée de la réduction dimensionnelle des termes résiduels. Il explique la méthode d’ajustement des moindres carrés en terme géométrique.
En bleu, vous avez des mesures. En rouge, vous avez ce que le modèle permet. La mesure n’est souvent pas exactement égale au modèle et présente quelques écarts. Vous pouvez considérer cela géométriquement comme la distance entre le point mesuré et la surface rouge.
Les flèches rouges et ont les valeurs et et peuvent être associées à un modèle linéaire tel que x = a + b * z + erreur oumu1 mu2 (1,1,1) (0,1,2)
de sorte que la plage de ces deux vecteurs et (le plan rouge) correspond aux valeurs possibles pour dans le modèle de régression et est un vecteur représentant la différence entre la valeur observée et la valeur de régression / modélisée. Dans la méthode des moindres carrés, ce vecteur est perpendiculaire (la moindre distance est la somme des carrés) à la surface rouge (et la valeur modélisée est la projection de la valeur observée sur la surface rouge).( 0 , 1 , 2 ) x ϵ(1,1,1) (0,1,2) x ϵ
Cette différence entre les valeurs observées et (modélisées) attendues est donc la somme des vecteurs perpendiculaires au vecteur du modèle (et cet espace a la dimension de l’espace total moins le nombre de vecteurs du modèle).
Dans notre exemple d'exemple simple. La dimension totale est de 3. Le modèle a 2 dimensions. Et l'erreur a la dimension 1 (ainsi, peu importe lequel de ces points bleus, les flèches vertes ne montrent qu'un seul exemple, les termes d'erreur ont toujours le même rapport, suivent un seul vecteur).
J'espère que cette explication aide. Ce n’est en aucun cas une preuve rigoureuse et certaines astuces algébriques spéciales doivent être résolues dans ces représentations géométriques. Mais bon, j'aime bien ces deux représentations géométriques. L’une pour l’astuce de Pearson d’intégrer le en utilisant les coordonnées sphériques, et l’autre pour visualiser la méthode de la somme des moindres carrés sous forme de projection sur un plan (ou un intervalle plus grand).χ2
Je suis toujours étonné de la façon dont on aboutit à , à mon avis, ce n’est pas anodin, car l’approximation normale d’un binôme n’est pas une déviation de mais de et Dans le cas des tables de contingence, vous pouvez le résoudre facilement, mais dans le cas de la régression ou d'autres restrictions linéaires, cela ne fonctionne pas aussi facilement, alors que la littérature est souvent très facile en affirmant que «cela fonctionne de la même manière pour d'autres restrictions linéaires». . (Un exemple intéressant du problème. Si vous effectuez plusieurs fois le test suivant, jetez 2 fois 10 fois une pièce et n’enregistrez que les cas dans lesquels la somme est 10 ', vous n’obtenez pas la distribution chi-carré typique pour cela " "simple" restriction linéaire) enp(1-p)o−ee e np(1−p)
la source