Construction et sélection de modèles à l'aide de Hosmer et al. 2013. Régression logistique appliquée dans R

17

Ceci est mon premier article sur StackExchange, mais je l'utilise comme ressource depuis un bon moment, je ferai de mon mieux pour utiliser le format approprié et apporter les modifications appropriées. C'est également une question en plusieurs parties. Je ne savais pas si je devais diviser la question en plusieurs messages différents ou un seul. Étant donné que les questions proviennent toutes d'une section du même texte, j'ai pensé qu'il serait plus pertinent de poster en une seule question.

Je recherche l'utilisation de l'habitat d'une grande espèce de mammifère pour une thèse de maîtrise. Le but de ce projet est de fournir aux gestionnaires forestiers (qui ne sont probablement pas des statisticiens) un cadre pratique pour évaluer la qualité de l'habitat sur les terres qu'ils gèrent à l'égard de cette espèce. Cet animal est relativement insaisissable, spécialiste de l'habitat et généralement situé dans des régions éloignées. Relativement peu d'études ont été menées concernant la répartition de l'espèce, en particulier de façon saisonnière. Plusieurs animaux ont été équipés de colliers GPS pendant une période d'un an. Cent emplacements (50 été et 50 hiver) ont été sélectionnés au hasard à partir des données de collier GPS de chaque animal. De plus, 50 points ont été générés au hasard dans le domaine vital de chaque animal pour servir de lieux "disponibles" ou "pseudo-absents".

Pour chaque emplacement, plusieurs variables de l'habitat ont été échantillonnées sur le terrain (diamètres des arbres, couverture horizontale, débris ligneux grossiers, etc.) et plusieurs ont été échantillonnées à distance via le SIG (élévation, distance à la route, robustesse, etc.). Les variables sont pour la plupart continues, à l'exception d'une variable catégorielle à 7 niveaux.

Mon objectif est d'utiliser la modélisation de régression pour créer des fonctions de sélection des ressources (RSF) afin de modéliser la probabilité relative d'utilisation des unités de ressources. Je voudrais construire un RSF saisonnier (hiver et été) pour la population d'animaux (type de conception I) ainsi que pour chaque animal individuel (type de conception III).

J'utilise R pour effectuer l'analyse statistique.

Le texte principal que j'utilise est ...

  • "Hosmer, DW, Lemeshow, S., et Sturdivant, RX 2013. Régression logistique appliquée. Wiley, Chicester".

La majorité des exemples dans Hosmer et al. utilisation STATA, j'ai également utilisé les 2 textes suivants pour référence avec R .

  • "Crawley, MJ 2005. Statistics: an introduction using RJ Wiley, Chichester, West Sussex, England."
  • "Plant, RE 2012. Analyse des données spatiales en écologie et en agriculture à l'aide de R. CRC Press, Londres, GBR."

Je suis actuellement en train de suivre les étapes du chapitre 4 de Hosmer et al. pour la "Sélection délibérée des covariables" et avez quelques questions sur le processus. J'ai décrit les premières étapes dans le texte ci-dessous pour répondre à mes questions.

  1. Étape 1: Une analyse univariable de chaque variable indépendante (j'ai utilisé une régression logistique univariable). Toute variable dont le test univariable a une valeur de p inférieure à 0,25 doit être incluse dans le premier modèle multivariable.
  2. Étape 2: Ajustez un modèle multivariable contenant toutes les covariables identifiées pour inclusion à l'étape 1 et pour évaluer l'importance de chaque covariable en utilisant la valeur de p de sa statistique de Wald. Les variables qui ne contribuent pas aux niveaux de signification traditionnels devraient être éliminées et un nouveau modèle adapté. Le nouveau modèle plus petit doit être comparé à l'ancien modèle plus grand en utilisant le test du rapport de vraisemblance partiel.
  3. Étape 3: Comparez les valeurs des coefficients estimés dans le petit modèle à leurs valeurs respectives dans le grand modèle. Toute variable dont le coefficient a considérablement changé en ampleur doit être rajoutée dans le modèle car elle est importante dans le sens de fournir un ajustement nécessaire de l'effet des variables qui restent dans le modèle. Parcourez les étapes 2 et 3 jusqu'à ce qu'il apparaisse que toutes les variables importantes sont incluses dans le modèle et que celles qui sont exclues sont cliniquement et / ou statistiquement sans importance. Hosmer et al. utiliser le " delta-beta-hat-percent " comme mesure du changement de magnitude des coefficients. Ils suggèrent un changement significatif en tant que pourcentage delta-bêta-chapeau de> 20%. Hosmer et al. définir le delta-beta-hat-percent comme . Oùθ1est le coefficient du modèle plus petit etβ1est le coefficient du modèle plus grand.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. Étape 4: Ajoutez chaque variable non sélectionnée à l'étape 1 au modèle obtenu à la fin de l'étape 3, une par une, et vérifiez sa signification soit par la valeur p de la statistique de Wald soit par le test du rapport de vraisemblance partielle s'il s'agit d'un critère catégorique variable avec plus de 2 niveaux. Cette étape est essentielle pour identifier les variables qui, en elles-mêmes, ne sont pas significativement liées au résultat mais apportent une contribution importante en présence d'autres variables. Nous désignons le modèle à la fin de l'étape 4 comme le modèle préliminaire des effets principaux .
  5. Étapes 5-7: Je n'ai pas progressé jusqu'à ce point, je vais donc laisser ces étapes pour le moment ou les enregistrer pour une autre question.

Mes questions:

  1. À l'étape 2, quel serait le niveau de signification traditionnel, une valeur de p <0,05 quelque chose de plus grand comme <0,25?
  2. À l'étape 2, je veux m'assurer que le code R que j'ai utilisé pour le test de vraisemblance partielle est correct et je veux m'assurer d'interpréter correctement les résultats. Voici ce que j'ai fait… anova(smallmodel,largemodel,test='Chisq')Si la valeur de p est significative (<0,05) j'ajoute la variable au modèle, si elle est insignifiante je procède à la suppression?
  3. Δβ^%Δβ^%
  4. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

GNG
la source
par curiosité quelle est l'espèce que vous étudiez?
prévisionniste

Réponses:

23

Pβ

Frank Harrell
la source
3
Oui, la connaissance du domaine + une bonne dose d'incrédulité dans la simplicité, par exemple, ne supposez pas que les variables continues agissent de manière linéaire, sauf si vous avez des données antérieures démontrant la linéarité.
Frank Harrell
6
Le PO cite un texte grand public dans sa troisième édition avec des auteurs qui ont apporté une grande contribution au domaine. D'autres points soulevés dans la question sont discutés dans d'autres textes influents (Agresti, Gelman). Je soulève cette question non pas parce que je suis d'accord avec cette stratégie, mais plutôt pour noter que ces stratégies sont conseillées dans des textes récents et courants par des statisticiens respectés. En résumé: bien qu'il y ait beaucoup de littérature déconseillant cela, cela ne semble pas être rejeté par la communauté statistique.
juillet 2014
2
C'est tout à fait erroné à mon humble avis. Les stratégies poussées si fort dans certains textes n'ont jamais été validées. Les auteurs qui ne croient pas à la simulation s'exposent à un risque de préconiser l'utilisation de méthodes qui ne fonctionnent pas comme annoncé.
Frank Harrell
2
Oui je sais. Je me réfère souvent à votre texte et à vos articles, et c'est l'une des sources que j'ai utilisées pour arriver à ma conclusion en désaccord avec la stratégie ci-dessus. Je transmets simplement le dilemme de l'utilisateur appliqué. Nous ne pouvons pas tout tester. Nous comptons sur des experts comme vous.
juillet 2014
3
@GNG: FH fait référence à la simulation comme un moyen de montrer que cette approche de la sélection de modèle fait ce qu'elle est censée faire (probablement pour améliorer la précision des prédictions de votre modèle) dans des applications typiques. Vos questions (astucieuses) mettent en évidence son inclusion plutôt arbitraire, ad hoc, basée sur la nature sur un nombre indéterminé de tests de signification aux niveaux «traditionnels» ne peut pas être démontré par la théorie pour garantir l'optimisation de quoi que ce soit.
Scortchi - Réintégrer Monica
5

Les méthodes spécifiées pour la sélection des variables à l'aide de statistiques telles que P, la régression pas à pas dans le texte classique Hosmer et al doivent à tout prix être évitées.

Récemment, je suis tombé sur un article publié dans la revue internationale de prévision intitulé " Illusions de prévisibilité " et sur un commentaire de cet article de Keith ord . Je recommanderais fortement ces deux articles car ils montrent clairement que l'utilisation de statistiques de régression est souvent trompeuse. Follwoing est une capture d'écran de l'article de Keith Ord qui montre par simulation pourquoi la régression par étapes (utilise la statistique p) pour la sélection des variables est mauvaise.

entrez la description de l'image ici

Un autre merveilleux article de Scott Armstrong paru dans le même numéro de la revue montre pourquoi il faut être très prudent en utilisant l'analyse de régression sur des données non expérimentales avec des études de cas. Depuis que j'ai lu ces articles, j'évite d'utiliser l'analyse de régression pour tirer des inférences causales sur des données non expérimentales. En tant que pratiquant, j'aurais aimé avoir lu des articles comme celui-ci pendant de nombreuses années qui m'auraient évité de prendre de mauvaises décisions et d'éviter des erreurs coûteuses.

Sur votre problème spécifique, je ne pense pas que des expériences randomisées soient possibles dans votre cas, donc je vous recommande d'utiliser la validation croisée pour sélectionner les variables. Un bel exemple élaboré est disponible dans ce livre en ligne gratuit sur la façon dont vous utiliseriez la précision prédictive pour sélectionner des variables. Il a également de nombreuses autres méthodes de sélection variables, mais je me limiterais à la validation croisée.

Personnellement, j'aime la citation d'Armstrong "Quelque part, j'ai rencontré l'idée que les statistiques étaient censées faciliter la communication. Des méthodes de régression complexes et un troupeau de statistiques de diagnostic nous ont emmenés dans l'autre sens"

Voici ma propre opinion. Je ne suis pas statisticien.

  • En tant que biologiste, je pense que vous apprécieriez ce point. La nature est très complexe, en supposant une fonction logistique et aucune interaction entre les variables ne se produit dans la nature. De plus, la régression logistique repose sur les hypothèses suivantes :

  • Les vrais probabilités conditionnelles sont une fonction logistique des variables indépendantes.

  • Aucune variable importante n'est omise. Aucune variable étrangère n'est incluse.

  • Les variables indépendantes sont mesurées sans erreur.
  • Les observations sont indépendantes.
  • Les variables indépendantes ne sont pas des combinaisons linéaires les unes des autres.

Je recommanderais l'arbre de classification et de régression (CART (r)) comme alternative à la régression logistique pour ce type d'analyse, car il ne contient aucune hypothèse:

  1. Non paramétrique / basé sur les données / aucune hypothèse selon laquelle vos probabilités de sortie suivent la fonction logistique.
  2. Non linéaire
  3. permet une interaction variable complexe.
  4. Fournit des arbres visuels hautement interprétables qu'un gestionnaire non forestier comme les gestionnaires forestiers apprécierait.
  5. Gère facilement les valeurs manquantes.
  6. Nul besoin d'être statisticien pour utiliser CART !!
  7. sélectionne automatiquement les variables à l'aide de la validation croisée.

CART est une marque déposée de Salford Systems. Voir cette vidéo pour l'introduction et l'histoire de CART. Il existe également d'autres vidéos telles que les hybrides cart - logistique regrssion sur le même site. Je voulais le vérifier. une impentation open source dans R est appelée Tree , et il existe de nombreux autres packages tels que rattle disponibles dans R. Si je trouve le temps, je posterai le premier exemple dans le texte de Homser en utilisant CART. Si vous insistez pour utiliser la régression logistique, j'utiliserais au moins des méthodes comme CART pour sélectionner les variables, puis appliquer la régression logistique.

Personnellement, je préfère CART à la régression logistique en raison des avantages susmentionnés. Mais quand même, j'essaierais à la fois la régression logistique et CART ou CART-Logistc Regression Hybrid, et je verrais ce qui donne une meilleure précision prédictive et surtout une meilleure interprétabilité et je choisirais celle qui, selon vous, "communiquerait" les données plus clairement.

De plus, FYI CART a été rejeté par les principales revues statistiques et finalement les inventeurs de CART ont sorti une monographie. CART a ouvert la voie à des algorithmes d'apprentissage automatique modernes et très performants comme Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines. Randomforest et GBM sont plus précis que CART mais moins interprétables (comme une boîte noire) que CART.

J'espère que cela vous sera utile. Faites-moi savoir si vous trouvez cet article utile?

prévisionniste
la source
8
Oui
3
Cette réponse passe des commentaires généraux, dont beaucoup me semblent sans controverse au moins, à une approbation très spécifique et plutôt personnelle du CART comme méthode de choix. Vous avez droit à vos opinions, car d'autres auront droit à leurs objections. Je suggère que vous signaliez plus clairement la double saveur de votre réponse.
Nick Cox
2
La régression logistique est un modèle linéaire généralisé, mais sinon, il est défendable car, en fait, bien motivé comme un modèle naturellement non linéaire (dans le sens où il s'adapte aux courbes ou équivalent, pas aux lignes ou équivalent, dans l'espace habituel) qui est bien adapté à réponses binaires. L'appel à la biologie est ici à double tranchant; Historiquement, les modèles logistiques pour les réponses binaires ont été inspirés par les modèles de croissance logistique (par exemple des populations) en biologie!
Nick Cox
Le Soyer et al. papier, le papier Armstrong et les commentaires sont tous très bons. Je les ai lus ce week-end. Merci de les avoir suggérées. N'étant pas statisticien, je ne peux pas commenter l'utilisation de CART sur la régression logistique. Cependant, votre réponse est très bien écrite, utile et a reçu des commentaires perspicaces. J'ai lu sur les méthodes d'apprentissage automatique telles que CART, MaxEnt et les arbres de régression boostés et je prévois d'en discuter avec mon comité pour obtenir leur point de vue. Quand j'ai du temps libre, la vidéo CART devrait aussi être intéressante.
GNG
3
Avec un sourire, je pense que nous pouvons inverser vos commentaires sur les modèles linéaires et insister sur le fait que, loin d'être sans hypothèse, ou même sans hypothèse, CART suppose que la réalité est comme un arbre (quoi d'autre?). Si vous pensez que la nature est un continuum variant en douceur, vous devez courir dans la direction opposée.
Nick Cox
3

Je pense que vous essayez de prédire la présence de l'espèce avec une approche présence / arrière-plan, qui est bien documentée dans des revues telles que Méthodes en écologie et évolution, Ecographie, etc. Peut-être que la dismo du package R est utile pour votre problème. Il comprend une jolie vignette. L'utilisation de dismo ou d'un autre package similaire implique de changer votre approche du problème, mais je pense qu'il vaut la peine d'y jeter un œil.

Hugo
la source
2
Qu'est-ce qui vous empêche de simplement spécifier un modèle? Pourquoi la grande incertitude sur ce que devrait être le modèle? Pourquoi la nécessité de sélectionner un modèle avec GLM?
Frank Harrell
1
J'ai bien peur que vous mélangiez certains concepts. (1) en fait maxent est une donnée de présence / de fond, ou une donnée de présence / pseudo-absence. Ainsi, maxent utilise les données de présence uniquement et ajoute quelques points du paysage, c'est-à-dire l'arrière-plan / pseudo-absences. Ainsi, il peut être utilisé dans votre cas. (2) Le GLM a été conçu pour être utilisé avec de «vraies» absences. Cependant, GLM a été adapté pour les données de présence / pseudo-absence. (3) Le package dismo propose des arbres de régression boostés mais pas seulement. Vous pouvez également adapter GLM, il suffit de suivre l'une des vignettes du package (il y en a 2).
Hugo
1
Si votre question porte sur les variables que vous devez inclure comme prédicteurs, jetez un œil à ces articles: Sheppard 2013. Comment la sélection des variables climatiques affecte-t-elle les prédictions de la répartition des espèces? Une étude de cas de trois nouvelles mauvaises herbes en Nouvelle-Zélande. Recherche sur les mauvaises herbes; Harris et coll. 2013. Être ou ne pas être? Une sélection variable peut changer le sort prévu d'une espèce menacée sous le climat futur. Ecol. Manag. Restaurer.
Hugo
2
L'idée que les techniques de sélection variable réduisent en quelque sorte le sur-ajustement est étrange. L'économie apparente des variables grâce à la réduction du modèle est complètement illusoire lorsque la réduction provient des données elles-mêmes.
Frank Harrell du
1
@GNG: « Mon incertitude de laisser toutes les variables du modèle vient de tout ce que j'ai appris sur colinéarité et surajustement » - Est -ce que votre modèle contient des prédicteurs très colinéaires? Est -ce votre modèle sur- apprentissage ?
Scortchi - Réintégrer Monica