Comparaison des modèles de régression logistique binaire imbriquée lorsque

10

Pour mieux poser ma question, j'ai fourni quelques - unes des sorties à la fois un 16 modèle variable ( fit) et un 17 modèle variable ( fit2) ci - dessous (toutes les variables prédictives dans ces modèles sont continus, où la seule différence entre ces modèles est que fitne le fait pas contient la variable 17 (var17)):

fit                    Model Likelihood     Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13602.84    R2       0.173    C       0.703    
  0          69833    d.f.            17    g        1.150    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.160    gamma   0.416    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190       


fit2                 Model Likelihood       Discrimination    Rank Discrim.    
                         Ratio Test            Indexes          Indexes       
 Obs        102849    LR chi2   13639.70    R2       0.174    C       0.703    
  0          69833    d.f.            18    g        1.154    Dxy     0.407    
  1          33016    Pr(> chi2) <0.0001    gr       3.170    gamma   0.412    
 max |deriv| 3e-05                          gp       0.180    tau-a   0.177    
                                            Brier    0.190          

J'ai utilisé le rmspackage de Frank Harrell pour construire ces lrmmodèles. Comme vous pouvez le voir, ces modèles ne semblent pas beaucoup varier, voire pas du tout, entre les indices de discrimination et le classement par discrimination. Index ; cependant, en utilisant lrtest(fit,fit2), j'ai obtenu les résultats suivants:

 L.R. Chisq         d.f.            P 
3.685374e+01     1.000000e+00    1.273315e-09 

En tant que tel, nous rejetterions l'hypothèse nulle de ce test du rapport de vraisemblance; cependant, je suppose que cela est probablement dû à la grande taille de l'échantillon ( n = 102849), car ces modèles semblent fonctionner de manière similaire. De plus, je suis intéressé à trouver une meilleure façon de comparer formellement les modèles de régression logistique binaire imbriqués lorsque n est grand.

J'apprécie grandement tous les commentaires, scripts R ou documentation qui peuvent m'orienter dans la bonne direction en termes de comparaison de ces types de modèles imbriqués! Merci!

Matt Reichenbach
la source
Quel est le but de la suppression de la variable 17?
Michael M
Ceci est un exemple de jouet; cependant, on me demande généralement de construire des modèles avec 8-12 variables, et la suppression des variables qui ne contribuent pas à un modèle est un intérêt principal pour moi. La variable 17 semble ne signifier que très peu pour le modèle dans son ensemble (en termes de prévisibilité), mais le test du rapport de vraisemblance nous indique qu'il existe une différence significative entre les deux modèles (probablement en raison d'un grand n plutôt que d'une différence réelle dans ces derniers). deux modèles). En tant que tel, j'espère trouver un moyen de comparer ces deux modèles (trouver une méthode qui n'indique pas de différence entre ces deux modèles)
Matt Reichenbach
(1) Je ne suis pas sûr de bien comprendre ce que vous recherchez. Mais en médecine, le problème de l'utilisation de la discrimination comme la statistique c est bien établi, la statistique c peut être inchangée même avec l'ajout d'une variable significative, et a conduit au développement d'indices de reclassement ( circ.ahajournals.org/content/121/15/ 1768 complet ) (2) les AIC / BIC sont-ils similaires? un certain nombre de critères variables de gain d'informations peuvent être plus utiles que les critères de discrimination.
charles
1
Je pense qu'il y a une faute de frappe dans votre 1er paragraphe. On dit que fit2c'est un modèle à 17 variables, mais c'est aussi le modèle qui omet V17. Vous voudrez peut-être modifier cela.
tomka
1
@tomka, j'ai changé fit2pour fitdans l'exemple ci-dessus selon votre correction. Merci!
Matt Reichenbach

Réponses:

6

(1) Il existe une littérature abondante sur les raisons pour lesquelles on devrait préférer les modèles complets aux modèles restreints / parcimonieux. Ma compréhension est peu de raisons de préférer le modèle parcimonieux. Cependant, des modèles plus grands peuvent ne pas être réalisables pour de nombreuses applications cliniques.

(2) Pour autant que je sache, les indices de discrimination / discrimination ne sont pas (? Ne devraient pas être) utilisés comme paramètre de sélection de modèle / variable. Ils ne sont pas destinés à cet usage et, par conséquent, il peut ne pas y avoir beaucoup de littérature sur pourquoi ils ne devraient pas être utilisés pour la construction de modèles.

(3) Les modèles parcimonieux peuvent avoir des limites qui ne sont pas facilement apparentes. Ils peuvent être moins bien calibrés que les modèles plus grands, la validité externe / interne peut être réduite.

(4) La statistique c peut ne pas être optimale pour évaluer les modèles qui prédisent le risque futur ou stratifient les individus en catégories de risque. Dans ce contexte, l'étalonnage est tout aussi important pour une évaluation précise du risque. Par exemple, un biomarqueur avec un rapport de cotes de 3 peut avoir peu d'effet sur les statistiques, mais un niveau accru pourrait faire passer le risque cardiovasculaire estimé à 10 ans pour un patient individuel de 8% à 24%.

Cook NR; Utilisation et mauvaise utilisation de la courbe ROC dans la littérature médicale. Circulation. 115 2007: 928-935.

(5) L'ASC / statistique c / discrimination est connue pour être insensible aux variables prédictives significatives. Ceci est discuté dans la référence Cook ci-dessus, et la force motrice derrière le développement de l'indice de reclassement net. Également discuté dans Cook ci-dessus.

(6) Les grands ensembles de données peuvent toujours conduire à des modèles plus grands que souhaité si des méthodes de sélection de variables standard sont utilisées. Dans les procédures de sélection par étapes, un seuil de valeur p de 0,05 est souvent utilisé. Mais il n'y a rien d'intrinsèque dans cette valeur qui signifie que vous devez choisir cette valeur. Avec des ensembles de données plus petits, une valeur p plus grande (0,2) peut être plus appropriée, dans des ensembles de données plus grands une valeur p plus petite peut être appropriée (0,01 a été utilisé pour l'ensemble de données GUSTO I pour cette raison).

(7) Alors que l'AIC est souvent utilisé pour la sélection de modèles et est mieux soutenu par la littérature, le BIC peut être une alternative valable dans des ensembles de données plus importants. Pour la sélection du modèle BIC, le chi carré doit dépasser log (n), donc il en résultera des modèles plus petits dans des ensembles de données plus grands. (La mauve peut avoir des caractéristiques similaires)

(8) Mais si vous voulez juste un maximum de 10 ou 12 variables, la solution la plus simple est quelque chose comme bestglmou des leapspackages si vous venez de définir le nombre maximum de variables que vous souhaitez considérer.

(9) si vous voulez juste un test qui rendra les deux modèles identiques et ne vous inquiétez pas trop des détails, vous pouvez probablement comparer l'ASC des deux modèles. Certains packages vous donneront même une valeur de p pour la comparaison. Ne semble pas conseillé.

Ambler G (2002) Simplifier un modèle pronostique: une étude de simulation basée sur les données cliniques
Cook NR; Utilisation et mauvaise utilisation de la courbe ROC dans la littérature médicale. Circulation. 115 2007: 928-935.
Gail MH, Pfeiffer RM; Sur les critères d'évaluation des modèles de risque absolu. Biostat. 6 2005: 227-239.

(10) Une fois le modèle construit, les indices c-statistiques / décimation peuvent ne pas être la meilleure approche pour comparer les modèles et présentent des limites bien documentées. Les comparaisons devraient également au minimum inclure l'étalonnage et l'indice de reclassement.

Steyerber (2010) Évaluer la performance des modèles de prédiction: un cadre pour certaines mesures traditionnelles et nouvelles

(11) Il peut être judicieux d'aller plus loin et d'utiliser des mesures analytiques de décision.

Vickers AJ, Elkin EB. Analyse de la courbe de décision: une nouvelle méthode pour évaluer les modèles de prédiction. Fabrication Med Decis. 2006; 26: 565-74.
Baker SG, Cook NR, Vickers A, Kramer BS. Utilisation de courbes d'utilité relative pour évaluer la prédiction des risques. JR Stat Soc A. 2009; 172: 729-48.
Van Calster B, Vickers AJ, Pencina MJ, Baker SG, Timmerman D, Steyerberg EW. Évaluation des marqueurs et des modèles de prévision des risques: aperçu des relations entre le NRI et les mesures décisionnelles. Fabrication Med Decis. 2013; 33: 490-501

--- Mise à jour --- Je trouve l'article Vickers le plus intéressant. Mais cela n'a toujours pas été largement accepté malgré de nombreux éditoriaux. Donc, peut ne pas être d'une grande utilité pratique. Les articles Cook et Steyerberg sont beaucoup plus pratiques.

Personne n'aime la sélection par étapes. Je ne vais certainement pas en plaider la cause. Je pourrais souligner que la plupart des critiques à l'égard de l'étape par étape supposent une VPE <50 et un choix entre un modèle complet ou prédéfini et un modèle réduit. Si EPV> 50 et qu'il existe un engagement à réduire le modèle, l'analyse coûts-avantages peut être différente.

La faible pensée derrière la comparaison des statistiques c est qu'elles peuvent ne pas être différentes et je semble me souvenir que ce test est considérablement sous-alimenté. Mais maintenant, je ne peux pas trouver la référence, donc peut-être bien loin de là-dessus.

Charles
la source
(1) Je suis conscient que les modèles complets sont préférés, mais j'ai plus de 1 000 vars parmi lesquels choisir et je dois construire ces modèles plus petits en raison des exigences spécifiques à l'industrie. (2) Cela a du sens! (3) D'accord! (4) Vrai (5) Intéressant
Matt Reichenbach
(6) D'accord; cependant, les procédures par étapes sont très discutables telles quelles , et plus la valeur seuil p est faible, plus ces types de modèles sont biaisés, quelle que soit la taille de l'échantillon. (7) «Pour la sélection du modèle BIC, le chi carré doit dépasser log (n)», cela semble très utile. Merci! (8) bestglmet les leapspackages sont très coûteux en calcul et prennent des jours à fonctionner avec des ensembles de données comme ceux avec lesquels je travaille, mais merci pour les idées potentielles.
Matt Reichenbach
(9) Ces valeurs p seraient significatives même si les modèles étaient presque exactement les mêmes en raison de la seule grande taille de l'échantillon. (10) J'ai besoin de rechercher plus d'indice d'étalonnage et de reclassement, merci! (11) Je suis très intéressé par la lecture de ces articles, recommanderiez-vous de commencer par Vickers? Merci!
Matt Reichenbach
5

Une option consiste à utiliser des pseudo-mesures au carré R pour les deux modèles. Une forte différence de pseudo-carré suggérerait que l'ajustement du modèle diminue fortement en omettant V17.

Il existe différents types de pseudo carrés R disponibles. Un aperçu peut être trouvé ici, par exemple:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Une mesure populaire est le carré R de Nagelkerke. Il varie entre 0 et 1 et, avec prudence, peut être interprété comme R au carré à partir d'un modèle de régression linéaire simple. Il est basé sur un rapport transformé des probabilités estimées du modèle complet au modèle d'interception uniquement.

Vous pouvez l'estimer pour fitet fit2, respectivement, et comparer la taille relative pour obtenir une indication sur votre problème. Un carré R de Nagelkerke sensiblement plus élevé fitsuggérerait que fit2perd beaucoup de pouvoir prédictif par omission de V17.

Dans lrmla statsvaleur fournit Nagelkerke R-carré. Donc, donner fit$statsdevrait vous fournir une estimation. Voir aussi ?lrm.

tomka
la source
Je connais le carré R de Nagelkerke; cependant, ma question réside dans ce qu'est "un Nagelkerke R-Square sensiblement plus élevé pour fit"? Dans l'exemple ci-dessus, il y a une différence de 0,001 car nous avons le carré R de Nagelkerke de 0,173 et 0,174 pour fitet fit2, respectivement. Avez-vous des références à ce qu'est "un Nagelkerke R-Square sensiblement plus élevé"? Merci!
Matt Reichenbach
@Matt: Je pense qu'il n'y a pas de directives générales sur l'interprétation du R² de Nagelkerke ou d'autres pseudo-mesures R². Cependant, notez qu'il s'agit d'une mesure transformée de la «réduction de vraisemblance» par l'inclusion de covariables dans le modèle d'interception uniquement, ce qui le rend similaire à la «variance expliquée» indiquée par la norme R² dans la régression linéaire. En ce sens, j'interpréterais la différence de .173 / .174 comme très petite. Une différence plus importante serait qch. ponts déciles. Cependant, je suggère d'estimer d'autres mesures pseudo R², par exemple McFadden ou Cox / Snell pour vérifier la robustesse de cette conclusion.
tomka
Je suis d'accord que cette différence est très petite, mais j'aimerais pouvoir trouver une référence qui indique ce qu'est une "petite" différence ... J'apprécie vos pensées. Merci encore!
Matt Reichenbach
1
aucun problème! désolé de ne pas vous avoir voté plus tôt! Je posterai à nouveau, si je trouve une réponse quant à ce qu'est une "petite" différence en termes de pseduo R-squared! Merci!
Matt Reichenbach
-1

Je viens de lire à ce sujet. La bonne façon de le faire est d'utiliser la sortie du modèle final de R glm et de rechercher la "déviance résiduelle:" et de dériver le delta entre les deux modèles et d'utiliser cette valeur dans un test du chi carré en utilisant df égal au nombre de termes prédictifs supprimés. Et c'est votre valeur p.

Modélisation de régression appliquée Iaian Pardoe 2e édition 2012 pg 270

chardon
la source