Hosmer-Lemeshow vs AIC pour la régression logistique

12

Si le Hosmer-Lemeshow indique un manque d'ajustement mais l'AIC est le plus bas de tous les modèles .... devriez-vous toujours utiliser le modèle?

Si je supprime une variable, la statistique Hosmer-Lemeshow n'est pas significative (ce qui signifie qu'il n'y a pas de manque brutal d'ajustement). Mais l'AIC augmente.

Edit : Je pense qu'en général, si les AIC de différents modèles sont proches (c'est-à-dire ) les uns des autres, alors ils sont fondamentalement les mêmes. Mais les AIC sont très différents. Cela semble indiquer que celui avec l'AIC le plus bas est celui que je devrais utiliser même si le test Hosmer-Lemeshow indique le contraire.<2

Peut-être que le test HL ne s'applique qu'aux grands échantillons? Il a une faible puissance pour les petits échantillons (ma taille d'échantillon est ~ 300). Mais si j'obtiens un résultat significatif ... Cela signifie que même avec une faible puissance, j'obtiens un rejet.

Cela ferait-il une différence si j'utilisais l'AICc contre l'AIC? Comment obtenez-vous les AICc dans SAS? Je sais qu'il pourrait y avoir des problèmes de multiplicité. Mais a priori, je fais l'hypothèse que les variables ont un effet sur le résultat.

Des commentaires?

Edit2 : Je pense que je devrais utiliser le modèle avec une variable de moins et l'AIC supérieur avec HL non significatif. La raison en est que deux des variables sont corrélées entre elles. Il est donc logique de s'en débarrasser.

Thomas
la source
Tenez compte du fait que tous vos modèles peuvent être indésirables.
@mbq: Comment cela aide-t-il?
Thomas
2
Eh bien, même dans un groupe de modèles non significatifs, il y en a un avec le meilleur AIC. Quoi qu'il en soit, veuillez ne pas utiliser de réponses pour étendre votre question.

Réponses:

12

Le test de Hosmer-Lemeshow est dans une certaine mesure obsolète car il nécessite un regroupement arbitraire des probabilités prédites et ne possède pas une excellente puissance pour détecter le manque d'étalonnage. Il ne pénalise pas non plus entièrement le sur-ajustement extrême du modèle. De meilleures méthodes sont disponibles telles que Hosmer, DW; Hosmer, T .; le Cessie, S. & Lemeshow, S. Une comparaison des tests d'ajustement pour le modèle de régression logistique. Statistiques en médecine , 1997, 16 , 965-980. Leur nouvelle mesure est mise en œuvre dans le Rrmspaquet. Plus important encore, ce type d'évaluation ne porte que sur l'étalonnage global du modèle (accord entre prévu et observé) et ne traite pas du manque d'ajustement tel que la transformation incorrecte d'un prédicteur. D'ailleurs, AIC non plus, sauf si vous utilisez AIC pour comparer deux modèles où l'un est plus flexible que l'autre testé. Je pense que vous vous intéressez à la discrimination prédictive, pour laquelle une mesure généralisée de , complétée par l' index (zone ROC) peut être plus appropriée. cR2c

Frank Harrell
la source
Est-ce que l'utilisation du test du rapport de vraisemblance serait meilleure pour évaluer la qualité de l'ajustement du modèle avec l'AIC le plus bas? Parce que ce test montre qu'il ne manque pas d'ajustement.
Thomas
L'examen des AIC de plus de 2 modèles entraînera un certain biais / sur-ajustement de sélection. L'AIC n'évalue pas explicitement la qualité de l'ajustement, sauf dans le contexte que j'ai donné ci-dessus. La meilleure façon d'évaluer l'ajustement est de démontrer un bon étalonnage à l'aide d'un tracé d'étalonnage non paramétrique continu et lisse, et de montrer peu de preuves de composants plus complexes qui auraient pu faire mieux prédire le modèle.
Frank Harrell
En supposant que je n'ai accès à aucun de ces outils. Le modèle A qui a un test HL non significatif a également une variable de moins que le modèle B qui a un test HL significatif. Je compare uniquement ces deux modèles. Le modèle A a l'AIC le plus bas et le modèle B a un AIC beaucoup plus élevé.
Thomas
Je voulais dire que le modèle B a le plus faible AIC et le modèle A a un AIC beaucoup plus élevé.
Thomas
2
Je ne suis pas sûr que vous ayez étudié tout ce qui précède. Généralement, nous choisissons un modèle qui a une discrimination prédictive compétitive, puis nous validons que l'indice de discrimination n'est pas bon uniquement en raison d'un sur-ajustement, puis nous validons l'étalonnage du modèle. La dernière étape est mieux effectuée en utilisant une courbe d'étalonnage non paramétrique lisse à haute résolution. Toutes ces choses sont implémentées dans le rmspackage R. Et évitez de comparer l'AIC de nombreux modèles, ce qui n'est qu'une autre façon d'utiliser les valeurs pour sélectionner des variables. Si vous comparez seulement 2 modèles prédéfinis, vous êtes d'accord. P
Frank Harrell