Sélection du modèle: régression logistique

13

Supposons que nous ayons covariables et une variable de résultat binaire . Certaines de ces covariables sont catégorielles avec plusieurs niveaux. D'autres sont continus. Comment choisiriez-vous le "meilleur" modèle? En d'autres termes, comment choisissez-vous les covariables à inclure dans le modèle? $n$ $x_1, \dots, x_n$ $y$

Souhaitez-vous modéliser avec chacune des covariables individuellement en utilisant une régression logistique simple et choisir celles qui ont une association significative? $y$

logistic regression-strategies Thomas
la source

1

En plus de ma réponse ci-dessous (ou d'autres, si elles émergent), ce qui suit a une bonne discussion sur la sélection des modèles (bien que ne se concentrant pas sur la régression logistique en soi) stats.stackexchange.com/questions/18214/…

gung -

2

Je citerai @jthetzel d'un commentaire récent sur ce site: "Une bonne question, mais celle que la plupart ici ont étudié dans des cours universitaires d'un semestre, et certains ont passé des carrières à étudier." C'est un peu comme s'asseoir avec une personne et dire: "Pouvez-vous m'apprendre le swahili cet après-midi?" Non pas que Gung ne fasse pas de bons arguments dans sa réponse. C'est juste un vaste territoire.

rolando2

2

C'est également un fil qui, bien que pour une question très spécifique, contient généralement quelques conseils de ma part: stats.stackexchange.com/questions/17068/… Je vais également donner mon avis ci-dessous.

Fomite

D'accord, donc je pense que je vais utiliser l'AIC comme critère. Le modèle complet a le plus faible AIC. Les AIC sont également assez différents les uns des autres.

Thomas

10

Ce n'est probablement pas une bonne chose à faire. Examiner d'abord toutes les covariables individuelles, puis construire un modèle avec celles qui sont significatives équivaut logiquement à une procédure de recherche automatique. Bien que cette approche soit intuitive, les déductions faites à partir de cette procédure ne sont pas valides (par exemple, les vraies valeurs de p sont différentes de celles rapportées par le logiciel). Le problème est amplifié plus la taille de l'ensemble initial de covariables est grande. Si vous le faites de toute façon (et, malheureusement, beaucoup de gens le font), vous ne pouvez pas prendre le modèle résultant au sérieux. Au lieu de cela, vous devez exécuter une étude entièrement nouvelle, rassemblant un échantillon indépendant et ajustant le modèle précédent, pour le tester. Cependant, cela nécessite beaucoup de ressources, et de plus, puisque le processus est défectueux et que le modèle précédent est probablement mauvais,gaspiller beaucoup de ressources.

Une meilleure façon consiste à évaluer les modèles qui vous intéressent sur le fond. Utilisez ensuite un critère d'information qui pénalise la flexibilité des modèles (comme l'AIC) pour juger ces modèles. Pour la régression logistique, l'AIC est:

A I C = - 2 \times \ln (likelihood) + 2 k

$AIC = -2\times\ln(\text{likelihood}) + 2k$

où est le nombre de covariables incluses dans ce modèle. Vous voulez le modèle avec la plus petite valeur pour l'AIC, toutes choses étant égales par ailleurs. Cependant, ce n'est pas toujours aussi simple; méfiez-vous lorsque plusieurs modèles ont des valeurs similaires pour l'AIC, même si l'un peut être le plus bas. $k$

J'inclus ici la formule complète de l'AIC, car différents logiciels génèrent des informations différentes. Vous devrez peut-être le calculer à partir de la probabilité, ou vous pouvez obtenir l'AIC final, ou quoi que ce soit entre les deux.

gung - Réintégrer Monica
la source

6

J'aime l'AIC, mais sachez que le calcul de l'AIC sur plus de 2 modèles prédéfinis entraîne un problème de multiplicité.

Frank Harrell

1

@FrankHarrell nice tip!

gung - Rétablir Monica

9

Il existe de nombreuses façons de choisir les variables qui vont dans un modèle de régression, certaines décentes, certaines mauvaises et certaines terribles. On peut simplement parcourir les publications de Sander Greenland, dont beaucoup concernent la sélection des variables.

D'une manière générale cependant, j'ai quelques "règles" communes:

Les algorithmes automatisés, comme ceux fournis dans les progiciels, sont probablement une mauvaise idée.
L'utilisation de techniques de diagnostic de modèle, comme le suggère Gung, sont un bon moyen d'évaluer vos choix de sélection de variables
Vous devriez également utiliser une combinaison d'expertise en la matière, de chercheurs de littérature, de graphiques acycliques dirigés, etc. pour éclairer vos choix de sélection de variables.

Fomite
la source

3

Bien mis, en particulier les points 1 et 3. Les techniques de diagnostic du modèle peuvent entraîner une incapacité à conserver l'erreur de type I.

Frank Harrell

3

Bien mis @Epigrad. J'ajouterais cependant un point. Les algorithmes automatisés deviennent très attractifs lorsque votre problème devient important. Ils peuvent être le seul moyen possible de faire la sélection de modèles dans certains cas. Les gens analysent maintenant d'énormes ensembles de données avec des milliers de variables potentielles et des millions d'observations. Quelle est l'expertise du sujet en matière d'intuition à 1000 dimensions? Et ce que vous trouverez, c'est que même si vous le faites manuellement (c'est-à-dire avec un analyste), ils finiront probablement par créer des règles de raccourci pour le choix des variables. La partie difficile est vraiment de coder ces choix.

probabilités

1

@probabilityislogic Je serais d'accord avec cela. Honnêtement, je pense que les techniques traditionnelles sont mal adaptées à de très grands ensembles de données, mais la tendance à se rabattre sur des techniques plus adaptées me fait peur. Si un algorithme automatisé peut biaiser un ensemble de données avec 10 variables, il n'y a aucune raison qu'il ne puisse pas biaiser un avec 10 000. L'accent mis actuellement sur l' acquisition de mégadonnées sur son analyse dans certaines parties me rend quelque peu nerveux.

Fomite

2

@probabilityislogic Dans une tournure profondément ironique, je me retrouve maintenant à travailler avec un ensemble de données avec bien plus de 10s de 1000s de variables potentielles>. <

Fomite

2

Comment choisiriez-vous le "meilleur" modèle?

Il n'y a pas suffisamment d'informations fournies pour répondre à cette question; si vous voulez obtenir des effets de causalité sur y, vous devrez implémenter des régressions qui reflètent ce que l'on sait de la confusion. Si vous voulez faire des prévisions, l'AIC serait une approche raisonnable.

Ces approches ne sont pas les mêmes; le contexte déterminera laquelle des (nombreuses) façons de choisir les variables sera plus / moins appropriée.

client
la source

Sélection du modèle: régression logistique

Réponses: