Pour mieux poser ma question, j'ai fourni quelques - unes des sorties à la fois un 16 modèle variable ( fit
) et un 17 modèle variable ( fit2
) ci - dessous (toutes les variables prédictives dans ces modèles sont continus, où la seule différence entre ces modèles est que fit
ne le fait pas contient la variable 17 (var17)):
fit Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703
0 69833 d.f. 17 g 1.150 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
fit2 Model Likelihood Discrimination Rank Discrim.
Ratio Test Indexes Indexes
Obs 102849 LR chi2 13639.70 R2 0.174 C 0.703
0 69833 d.f. 18 g 1.154 Dxy 0.407
1 33016 Pr(> chi2) <0.0001 gr 3.170 gamma 0.412
max |deriv| 3e-05 gp 0.180 tau-a 0.177
Brier 0.190
J'ai utilisé le rms
package de Frank Harrell pour construire ces lrm
modèles. Comme vous pouvez le voir, ces modèles ne semblent pas beaucoup varier, voire pas du tout, entre les indices de discrimination et le classement par discrimination. Index ; cependant, en utilisant lrtest(fit,fit2)
, j'ai obtenu les résultats suivants:
L.R. Chisq d.f. P
3.685374e+01 1.000000e+00 1.273315e-09
En tant que tel, nous rejetterions l'hypothèse nulle de ce test du rapport de vraisemblance; cependant, je suppose que cela est probablement dû à la grande taille de l'échantillon ( n = 102849), car ces modèles semblent fonctionner de manière similaire. De plus, je suis intéressé à trouver une meilleure façon de comparer formellement les modèles de régression logistique binaire imbriqués lorsque n est grand.
J'apprécie grandement tous les commentaires, scripts R ou documentation qui peuvent m'orienter dans la bonne direction en termes de comparaison de ces types de modèles imbriqués! Merci!
la source
fit2
c'est un modèle à 17 variables, mais c'est aussi le modèle qui ometV17
. Vous voudrez peut-être modifier cela.fit2
pourfit
dans l'exemple ci-dessus selon votre correction. Merci!Réponses:
(1) Il existe une littérature abondante sur les raisons pour lesquelles on devrait préférer les modèles complets aux modèles restreints / parcimonieux. Ma compréhension est peu de raisons de préférer le modèle parcimonieux. Cependant, des modèles plus grands peuvent ne pas être réalisables pour de nombreuses applications cliniques.
(2) Pour autant que je sache, les indices de discrimination / discrimination ne sont pas (? Ne devraient pas être) utilisés comme paramètre de sélection de modèle / variable. Ils ne sont pas destinés à cet usage et, par conséquent, il peut ne pas y avoir beaucoup de littérature sur pourquoi ils ne devraient pas être utilisés pour la construction de modèles.
(3) Les modèles parcimonieux peuvent avoir des limites qui ne sont pas facilement apparentes. Ils peuvent être moins bien calibrés que les modèles plus grands, la validité externe / interne peut être réduite.
(4) La statistique c peut ne pas être optimale pour évaluer les modèles qui prédisent le risque futur ou stratifient les individus en catégories de risque. Dans ce contexte, l'étalonnage est tout aussi important pour une évaluation précise du risque. Par exemple, un biomarqueur avec un rapport de cotes de 3 peut avoir peu d'effet sur les statistiques, mais un niveau accru pourrait faire passer le risque cardiovasculaire estimé à 10 ans pour un patient individuel de 8% à 24%.
Cook NR; Utilisation et mauvaise utilisation de la courbe ROC dans la littérature médicale. Circulation. 115 2007: 928-935.
(5) L'ASC / statistique c / discrimination est connue pour être insensible aux variables prédictives significatives. Ceci est discuté dans la référence Cook ci-dessus, et la force motrice derrière le développement de l'indice de reclassement net. Également discuté dans Cook ci-dessus.
(6) Les grands ensembles de données peuvent toujours conduire à des modèles plus grands que souhaité si des méthodes de sélection de variables standard sont utilisées. Dans les procédures de sélection par étapes, un seuil de valeur p de 0,05 est souvent utilisé. Mais il n'y a rien d'intrinsèque dans cette valeur qui signifie que vous devez choisir cette valeur. Avec des ensembles de données plus petits, une valeur p plus grande (0,2) peut être plus appropriée, dans des ensembles de données plus grands une valeur p plus petite peut être appropriée (0,01 a été utilisé pour l'ensemble de données GUSTO I pour cette raison).
(7) Alors que l'AIC est souvent utilisé pour la sélection de modèles et est mieux soutenu par la littérature, le BIC peut être une alternative valable dans des ensembles de données plus importants. Pour la sélection du modèle BIC, le chi carré doit dépasser log (n), donc il en résultera des modèles plus petits dans des ensembles de données plus grands. (La mauve peut avoir des caractéristiques similaires)
(8) Mais si vous voulez juste un maximum de 10 ou 12 variables, la solution la plus simple est quelque chose comme
bestglm
ou desleaps
packages si vous venez de définir le nombre maximum de variables que vous souhaitez considérer.(9) si vous voulez juste un test qui rendra les deux modèles identiques et ne vous inquiétez pas trop des détails, vous pouvez probablement comparer l'ASC des deux modèles. Certains packages vous donneront même une valeur de p pour la comparaison. Ne semble pas conseillé.
Ambler G (2002) Simplifier un modèle pronostique: une étude de simulation basée sur les données cliniques
Cook NR; Utilisation et mauvaise utilisation de la courbe ROC dans la littérature médicale. Circulation. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sur les critères d'évaluation des modèles de risque absolu. Biostat. 6 2005: 227-239.
(10) Une fois le modèle construit, les indices c-statistiques / décimation peuvent ne pas être la meilleure approche pour comparer les modèles et présentent des limites bien documentées. Les comparaisons devraient également au minimum inclure l'étalonnage et l'indice de reclassement.
Steyerber (2010) Évaluer la performance des modèles de prédiction: un cadre pour certaines mesures traditionnelles et nouvelles
(11) Il peut être judicieux d'aller plus loin et d'utiliser des mesures analytiques de décision.
Vickers AJ, Elkin EB. Analyse de la courbe de décision: une nouvelle méthode pour évaluer les modèles de prédiction. Fabrication Med Decis. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Utilisation de courbes d'utilité relative pour évaluer la prédiction des risques. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Évaluation des marqueurs et des modèles de prévision des risques: aperçu des relations entre le NRI et les mesures décisionnelles. Fabrication Med Decis. 2013; 33: 490-501
--- Mise à jour --- Je trouve l'article Vickers le plus intéressant. Mais cela n'a toujours pas été largement accepté malgré de nombreux éditoriaux. Donc, peut ne pas être d'une grande utilité pratique. Les articles Cook et Steyerberg sont beaucoup plus pratiques.
Personne n'aime la sélection par étapes. Je ne vais certainement pas en plaider la cause. Je pourrais souligner que la plupart des critiques à l'égard de l'étape par étape supposent une VPE <50 et un choix entre un modèle complet ou prédéfini et un modèle réduit. Si EPV> 50 et qu'il existe un engagement à réduire le modèle, l'analyse coûts-avantages peut être différente.
La faible pensée derrière la comparaison des statistiques c est qu'elles peuvent ne pas être différentes et je semble me souvenir que ce test est considérablement sous-alimenté. Mais maintenant, je ne peux pas trouver la référence, donc peut-être bien loin de là-dessus.
la source
bestglm
et lesleaps
packages sont très coûteux en calcul et prennent des jours à fonctionner avec des ensembles de données comme ceux avec lesquels je travaille, mais merci pour les idées potentielles.Une option consiste à utiliser des pseudo-mesures au carré R pour les deux modèles. Une forte différence de pseudo-carré suggérerait que l'ajustement du modèle diminue fortement en omettant V17.
Il existe différents types de pseudo carrés R disponibles. Un aperçu peut être trouvé ici, par exemple:
http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm
Une mesure populaire est le carré R de Nagelkerke. Il varie entre 0 et 1 et, avec prudence, peut être interprété comme R au carré à partir d'un modèle de régression linéaire simple. Il est basé sur un rapport transformé des probabilités estimées du modèle complet au modèle d'interception uniquement.
Vous pouvez l'estimer pour
fit
etfit2
, respectivement, et comparer la taille relative pour obtenir une indication sur votre problème. Un carré R de Nagelkerke sensiblement plus élevéfit
suggérerait quefit2
perd beaucoup de pouvoir prédictif par omission de V17.Dans
lrm
lastats
valeur fournit Nagelkerke R-carré. Donc, donnerfit$stats
devrait vous fournir une estimation. Voir aussi?lrm
.la source
fit
"? Dans l'exemple ci-dessus, il y a une différence de 0,001 car nous avons le carré R de Nagelkerke de 0,173 et 0,174 pourfit
etfit2
, respectivement. Avez-vous des références à ce qu'est "un Nagelkerke R-Square sensiblement plus élevé"? Merci!Je viens de lire à ce sujet. La bonne façon de le faire est d'utiliser la sortie du modèle final de R glm et de rechercher la "déviance résiduelle:" et de dériver le delta entre les deux modèles et d'utiliser cette valeur dans un test du chi carré en utilisant df égal au nombre de termes prédictifs supprimés. Et c'est votre valeur p.
Modélisation de régression appliquée Iaian Pardoe 2e édition 2012 pg 270
la source