Si le Hosmer-Lemeshow indique un manque d'ajustement mais l'AIC est le plus bas de tous les modèles .... devriez-vous toujours utiliser le modèle?
Si je supprime une variable, la statistique Hosmer-Lemeshow n'est pas significative (ce qui signifie qu'il n'y a pas de manque brutal d'ajustement). Mais l'AIC augmente.
Edit : Je pense qu'en général, si les AIC de différents modèles sont proches (c'est-à-dire ) les uns des autres, alors ils sont fondamentalement les mêmes. Mais les AIC sont très différents. Cela semble indiquer que celui avec l'AIC le plus bas est celui que je devrais utiliser même si le test Hosmer-Lemeshow indique le contraire.
Peut-être que le test HL ne s'applique qu'aux grands échantillons? Il a une faible puissance pour les petits échantillons (ma taille d'échantillon est ~ 300). Mais si j'obtiens un résultat significatif ... Cela signifie que même avec une faible puissance, j'obtiens un rejet.
Cela ferait-il une différence si j'utilisais l'AICc contre l'AIC? Comment obtenez-vous les AICc dans SAS? Je sais qu'il pourrait y avoir des problèmes de multiplicité. Mais a priori, je fais l'hypothèse que les variables ont un effet sur le résultat.
Des commentaires?
Edit2 : Je pense que je devrais utiliser le modèle avec une variable de moins et l'AIC supérieur avec HL non significatif. La raison en est que deux des variables sont corrélées entre elles. Il est donc logique de s'en débarrasser.
Réponses:
Le test de Hosmer-Lemeshow est dans une certaine mesure obsolète car il nécessite un regroupement arbitraire des probabilités prédites et ne possède pas une excellente puissance pour détecter le manque d'étalonnage. Il ne pénalise pas non plus entièrement le sur-ajustement extrême du modèle. De meilleures méthodes sont disponibles telles que Hosmer, DW; Hosmer, T .; le Cessie, S. & Lemeshow, S. Une comparaison des tests d'ajustement pour le modèle de régression logistique. Statistiques en médecine , 1997, 16 , 965-980. Leur nouvelle mesure est mise en œuvre dans le RR2 c
rms
paquet. Plus important encore, ce type d'évaluation ne porte que sur l'étalonnage global du modèle (accord entre prévu et observé) et ne traite pas du manque d'ajustement tel que la transformation incorrecte d'un prédicteur. D'ailleurs, AIC non plus, sauf si vous utilisez AIC pour comparer deux modèles où l'un est plus flexible que l'autre testé. Je pense que vous vous intéressez à la discrimination prédictive, pour laquelle une mesure généralisée de , complétée par l' index (zone ROC) peut être plus appropriée. cla source
rms
package R. Et évitez de comparer l'AIC de nombreux modèles, ce qui n'est qu'une autre façon d'utiliser les valeurs pour sélectionner des variables. Si vous comparez seulement 2 modèles prédéfinis, vous êtes d'accord.