Ceci est mon premier article sur StackExchange, mais je l'utilise comme ressource depuis un bon moment, je ferai de mon mieux pour utiliser le format approprié et apporter les modifications appropriées. C'est également une question en plusieurs parties. Je ne savais pas si je devais diviser la question en plusieurs messages différents ou un seul. Étant donné que les questions proviennent toutes d'une section du même texte, j'ai pensé qu'il serait plus pertinent de poster en une seule question.
Je recherche l'utilisation de l'habitat d'une grande espèce de mammifère pour une thèse de maîtrise. Le but de ce projet est de fournir aux gestionnaires forestiers (qui ne sont probablement pas des statisticiens) un cadre pratique pour évaluer la qualité de l'habitat sur les terres qu'ils gèrent à l'égard de cette espèce. Cet animal est relativement insaisissable, spécialiste de l'habitat et généralement situé dans des régions éloignées. Relativement peu d'études ont été menées concernant la répartition de l'espèce, en particulier de façon saisonnière. Plusieurs animaux ont été équipés de colliers GPS pendant une période d'un an. Cent emplacements (50 été et 50 hiver) ont été sélectionnés au hasard à partir des données de collier GPS de chaque animal. De plus, 50 points ont été générés au hasard dans le domaine vital de chaque animal pour servir de lieux "disponibles" ou "pseudo-absents".
Pour chaque emplacement, plusieurs variables de l'habitat ont été échantillonnées sur le terrain (diamètres des arbres, couverture horizontale, débris ligneux grossiers, etc.) et plusieurs ont été échantillonnées à distance via le SIG (élévation, distance à la route, robustesse, etc.). Les variables sont pour la plupart continues, à l'exception d'une variable catégorielle à 7 niveaux.
Mon objectif est d'utiliser la modélisation de régression pour créer des fonctions de sélection des ressources (RSF) afin de modéliser la probabilité relative d'utilisation des unités de ressources. Je voudrais construire un RSF saisonnier (hiver et été) pour la population d'animaux (type de conception I) ainsi que pour chaque animal individuel (type de conception III).
J'utilise R pour effectuer l'analyse statistique.
Le texte principal que j'utilise est ...
- "Hosmer, DW, Lemeshow, S., et Sturdivant, RX 2013. Régression logistique appliquée. Wiley, Chicester".
La majorité des exemples dans Hosmer et al. utilisation STATA, j'ai également utilisé les 2 textes suivants pour référence avec R .
- "Crawley, MJ 2005. Statistics: an introduction using RJ Wiley, Chichester, West Sussex, England."
- "Plant, RE 2012. Analyse des données spatiales en écologie et en agriculture à l'aide de R. CRC Press, Londres, GBR."
Je suis actuellement en train de suivre les étapes du chapitre 4 de Hosmer et al. pour la "Sélection délibérée des covariables" et avez quelques questions sur le processus. J'ai décrit les premières étapes dans le texte ci-dessous pour répondre à mes questions.
- Étape 1: Une analyse univariable de chaque variable indépendante (j'ai utilisé une régression logistique univariable). Toute variable dont le test univariable a une valeur de p inférieure à 0,25 doit être incluse dans le premier modèle multivariable.
- Étape 2: Ajustez un modèle multivariable contenant toutes les covariables identifiées pour inclusion à l'étape 1 et pour évaluer l'importance de chaque covariable en utilisant la valeur de p de sa statistique de Wald. Les variables qui ne contribuent pas aux niveaux de signification traditionnels devraient être éliminées et un nouveau modèle adapté. Le nouveau modèle plus petit doit être comparé à l'ancien modèle plus grand en utilisant le test du rapport de vraisemblance partiel.
- Étape 3: Comparez les valeurs des coefficients estimés dans le petit modèle à leurs valeurs respectives dans le grand modèle. Toute variable dont le coefficient a considérablement changé en ampleur doit être rajoutée dans le modèle car elle est importante dans le sens de fournir un ajustement nécessaire de l'effet des variables qui restent dans le modèle. Parcourez les étapes 2 et 3 jusqu'à ce qu'il apparaisse que toutes les variables importantes sont incluses dans le modèle et que celles qui sont exclues sont cliniquement et / ou statistiquement sans importance. Hosmer et al. utiliser le " delta-beta-hat-percent " comme mesure du changement de magnitude des coefficients. Ils suggèrent un changement significatif en tant que pourcentage delta-bêta-chapeau de> 20%. Hosmer et al. définir le delta-beta-hat-percent comme . Oùθ1est le coefficient du modèle plus petit etβ1est le coefficient du modèle plus grand.
- Étape 4: Ajoutez chaque variable non sélectionnée à l'étape 1 au modèle obtenu à la fin de l'étape 3, une par une, et vérifiez sa signification soit par la valeur p de la statistique de Wald soit par le test du rapport de vraisemblance partielle s'il s'agit d'un critère catégorique variable avec plus de 2 niveaux. Cette étape est essentielle pour identifier les variables qui, en elles-mêmes, ne sont pas significativement liées au résultat mais apportent une contribution importante en présence d'autres variables. Nous désignons le modèle à la fin de l'étape 4 comme le modèle préliminaire des effets principaux .
- Étapes 5-7: Je n'ai pas progressé jusqu'à ce point, je vais donc laisser ces étapes pour le moment ou les enregistrer pour une autre question.
Mes questions:
- À l'étape 2, quel serait le niveau de signification traditionnel, une valeur de p <0,05 quelque chose de plus grand comme <0,25?
- À l'étape 2, je veux m'assurer que le code R que j'ai utilisé pour le test de vraisemblance partielle est correct et je veux m'assurer d'interpréter correctement les résultats. Voici ce que j'ai fait…
anova(smallmodel,largemodel,test='Chisq')
Si la valeur de p est significative (<0,05) j'ajoute la variable au modèle, si elle est insignifiante je procède à la suppression? 100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
Réponses:
la source
Les méthodes spécifiées pour la sélection des variables à l'aide de statistiques telles que P, la régression pas à pas dans le texte classique Hosmer et al doivent à tout prix être évitées.
Récemment, je suis tombé sur un article publié dans la revue internationale de prévision intitulé " Illusions de prévisibilité " et sur un commentaire de cet article de Keith ord . Je recommanderais fortement ces deux articles car ils montrent clairement que l'utilisation de statistiques de régression est souvent trompeuse. Follwoing est une capture d'écran de l'article de Keith Ord qui montre par simulation pourquoi la régression par étapes (utilise la statistique p) pour la sélection des variables est mauvaise.
Un autre merveilleux article de Scott Armstrong paru dans le même numéro de la revue montre pourquoi il faut être très prudent en utilisant l'analyse de régression sur des données non expérimentales avec des études de cas. Depuis que j'ai lu ces articles, j'évite d'utiliser l'analyse de régression pour tirer des inférences causales sur des données non expérimentales. En tant que pratiquant, j'aurais aimé avoir lu des articles comme celui-ci pendant de nombreuses années qui m'auraient évité de prendre de mauvaises décisions et d'éviter des erreurs coûteuses.
Sur votre problème spécifique, je ne pense pas que des expériences randomisées soient possibles dans votre cas, donc je vous recommande d'utiliser la validation croisée pour sélectionner les variables. Un bel exemple élaboré est disponible dans ce livre en ligne gratuit sur la façon dont vous utiliseriez la précision prédictive pour sélectionner des variables. Il a également de nombreuses autres méthodes de sélection variables, mais je me limiterais à la validation croisée.
Personnellement, j'aime la citation d'Armstrong "Quelque part, j'ai rencontré l'idée que les statistiques étaient censées faciliter la communication. Des méthodes de régression complexes et un troupeau de statistiques de diagnostic nous ont emmenés dans l'autre sens"
Voici ma propre opinion. Je ne suis pas statisticien.
En tant que biologiste, je pense que vous apprécieriez ce point. La nature est très complexe, en supposant une fonction logistique et aucune interaction entre les variables ne se produit dans la nature. De plus, la régression logistique repose sur les hypothèses suivantes :
Les vrais probabilités conditionnelles sont une fonction logistique des variables indépendantes.
Aucune variable importante n'est omise. Aucune variable étrangère n'est incluse.
Je recommanderais l'arbre de classification et de régression (CART (r)) comme alternative à la régression logistique pour ce type d'analyse, car il ne contient aucune hypothèse:
CART est une marque déposée de Salford Systems. Voir cette vidéo pour l'introduction et l'histoire de CART. Il existe également d'autres vidéos telles que les hybrides cart - logistique regrssion sur le même site. Je voulais le vérifier. une impentation open source dans R est appelée Tree , et il existe de nombreux autres packages tels que rattle disponibles dans R. Si je trouve le temps, je posterai le premier exemple dans le texte de Homser en utilisant CART. Si vous insistez pour utiliser la régression logistique, j'utiliserais au moins des méthodes comme CART pour sélectionner les variables, puis appliquer la régression logistique.
Personnellement, je préfère CART à la régression logistique en raison des avantages susmentionnés. Mais quand même, j'essaierais à la fois la régression logistique et CART ou CART-Logistc Regression Hybrid, et je verrais ce qui donne une meilleure précision prédictive et surtout une meilleure interprétabilité et je choisirais celle qui, selon vous, "communiquerait" les données plus clairement.
De plus, FYI CART a été rejeté par les principales revues statistiques et finalement les inventeurs de CART ont sorti une monographie. CART a ouvert la voie à des algorithmes d'apprentissage automatique modernes et très performants comme Random Forest (r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines. Randomforest et GBM sont plus précis que CART mais moins interprétables (comme une boîte noire) que CART.
J'espère que cela vous sera utile. Faites-moi savoir si vous trouvez cet article utile?
la source
Je pense que vous essayez de prédire la présence de l'espèce avec une approche présence / arrière-plan, qui est bien documentée dans des revues telles que Méthodes en écologie et évolution, Ecographie, etc. Peut-être que la dismo du package R est utile pour votre problème. Il comprend une jolie vignette. L'utilisation de dismo ou d'un autre package similaire implique de changer votre approche du problème, mais je pense qu'il vaut la peine d'y jeter un œil.
la source