Je fais référence à la question et à ses réponses: comment comparer la capacité prédictive (probabilité) des modèles développés à partir de la régression logistique? par @Clark Chong et réponses / commentaires par @Frank Harrell. et à la question Degrés de liberté de dans le test de Hosmer-Lemeshow et les commentaires.
J'ai lu l'article DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, «A comparaison of goodness-of-fit tests for the Logistic regression model», Statistics in Medicine, Vol. 16, 965-980 (1997) .
Après avoir lu, j'étais confus parce que la question à laquelle je faisais référence demandait explicitement une "capacité prédictive (de probabilité)", ce qui, à mon avis, n'est pas le même que ce que les tests de qualité d'ajustement dans le document précité visent à:
Comme la plupart d'entre nous le savent, la régression logistique suppose un lien en forme de S entre les variables explicatives et la probabilité de succès, la forme fonctionnelle de la forme en S est
Sans prétendre qu'il n'y a pas de lacunes dans le test de Hosmer-Lemeshow, je pense que nous devons faire la distinction entre les tests pour (a) «la capacité prédictive (probabilité) » et (b) la « qualité de l'ajustement ».
L'objectif du premier est de tester si les probabilités sont bien prédites, tandis que les tests de qualité d'ajustement testent si la fonction en S ci-dessus est la «bonne» fonction. Plus formellement:
- les tests des «tests de capacité prédictive des probabilités» ont un indiquant que les probabilités de réussite sont bien prédites par le modèle;
Première remarque
Première question
Deuxième question
En outre, je tiens à souligner les conclusions de Hosmer et. Al; (Je cite le résumé):
'' Un examen des performances des tests lorsque le modèle correct a un terme quadratique mais qu'un modèle contenant uniquement le terme linéaire a été ajusté montre que le chi carré Pearson, la somme des carrés non pondérée, le décile Hosmer-Lemeshow du risque, la somme des carrés résiduels lissés et le test de score de Stukel, ont une puissance supérieure à 50% pour détecter des écarts modérés de linéarité lorsque la taille de l'échantillon est de 100 et ont une puissance supérieure à 90% pour ces mêmes alternatives pour les échantillons de taille 500 Tous les tests n'avaient aucun pouvoir lorsque le modèle correct avait une interaction entre une covariable dichotomique et continue, mais seul le modèle de covariable continu était adapté. Le pouvoir de détecter une liaison incorrectement spécifiée était faible pour les échantillons de taille 100. Pour les échantillons de taille 500 Stukel ' Le test de score de s avait la meilleure puissance mais il ne dépassait que 50% pour détecter une fonction de liaison asymétrique. La puissance du test de somme des carrés non pondéré pour détecter une fonction de liaison incorrectement spécifiée était légèrement inférieure au test de score de Stukel ''
Puis-je en conclure quel test a plus de puissance ou que Hosmer – Lemeshow a moins de puissance (pour détecter ces anomalies spécifiques)?
Deuxième remarque
la source