Supposons que nous ayons covariables x 1 , … , x n et une variable de résultat binaire y . Certaines de ces covariables sont catégorielles avec plusieurs niveaux. D'autres sont continus. Comment choisiriez-vous le "meilleur" modèle? En d'autres termes, comment choisissez-vous les covariables à inclure dans le modèle?
Souhaitez-vous modéliser avec chacune des covariables individuellement en utilisant une régression logistique simple et choisir celles qui ont une association significative?
Réponses:
Ce n'est probablement pas une bonne chose à faire. Examiner d'abord toutes les covariables individuelles, puis construire un modèle avec celles qui sont significatives équivaut logiquement à une procédure de recherche automatique. Bien que cette approche soit intuitive, les déductions faites à partir de cette procédure ne sont pas valides (par exemple, les vraies valeurs de p sont différentes de celles rapportées par le logiciel). Le problème est amplifié plus la taille de l'ensemble initial de covariables est grande. Si vous le faites de toute façon (et, malheureusement, beaucoup de gens le font), vous ne pouvez pas prendre le modèle résultant au sérieux. Au lieu de cela, vous devez exécuter une étude entièrement nouvelle, rassemblant un échantillon indépendant et ajustant le modèle précédent, pour le tester. Cependant, cela nécessite beaucoup de ressources, et de plus, puisque le processus est défectueux et que le modèle précédent est probablement mauvais,gaspiller beaucoup de ressources.
Une meilleure façon consiste à évaluer les modèles qui vous intéressent sur le fond. Utilisez ensuite un critère d'information qui pénalise la flexibilité des modèles (comme l'AIC) pour juger ces modèles. Pour la régression logistique, l'AIC est:
où est le nombre de covariables incluses dans ce modèle. Vous voulez le modèle avec la plus petite valeur pour l'AIC, toutes choses étant égales par ailleurs. Cependant, ce n'est pas toujours aussi simple; méfiez-vous lorsque plusieurs modèles ont des valeurs similaires pour l'AIC, même si l'un peut être le plus bas.k
J'inclus ici la formule complète de l'AIC, car différents logiciels génèrent des informations différentes. Vous devrez peut-être le calculer à partir de la probabilité, ou vous pouvez obtenir l'AIC final, ou quoi que ce soit entre les deux.
la source
Il existe de nombreuses façons de choisir les variables qui vont dans un modèle de régression, certaines décentes, certaines mauvaises et certaines terribles. On peut simplement parcourir les publications de Sander Greenland, dont beaucoup concernent la sélection des variables.
D'une manière générale cependant, j'ai quelques "règles" communes:
la source
Comment choisiriez-vous le "meilleur" modèle?
Il n'y a pas suffisamment d'informations fournies pour répondre à cette question; si vous voulez obtenir des effets de causalité sur y, vous devrez implémenter des régressions qui reflètent ce que l'on sait de la confusion. Si vous voulez faire des prévisions, l'AIC serait une approche raisonnable.
Ces approches ne sont pas les mêmes; le contexte déterminera laquelle des (nombreuses) façons de choisir les variables sera plus / moins appropriée.
la source