Sélection variable vs sélection de modèle

12

Je comprends donc que la sélection des variables fait partie de la sélection du modèle. Mais en quoi consiste exactement la sélection du modèle? Est-ce plus que ce qui suit:

1) choisissez une distribution pour votre modèle

2) choisir des variables explicatives,?

Je pose cette question parce que je lis un article Burnham & Anderson: AIC vs BIC où ils parlent d'AIC et de BIC dans la sélection des modèles. En lisant cet article, je me rends compte que j'ai pensé à la «sélection de modèle» comme à la «sélection de variables» (réf. Commentaires Est-ce que BIC essaie de trouver un vrai modèle? )

Un extrait de l'article où ils parlent de 12 modèles avec des degrés croissants de «généralité» et ces modèles montrent des «effets de tapering» (figure 1) lorsque KL-Information est tracée par rapport aux 12 modèles:

DIFFÉRENTES PHILOSOPHIES ET MODÈLES CIBLES ... Bien que la cible de BIC soit un modèle plus général que le modèle cible pour AIC, le modèle le plus souvent sélectionné ici par BIC sera moins général que le modèle 7 à moins que n ne soit très grand. Il peut s'agir du modèle 5 ou 6. Il est connu (à partir de nombreux articles et simulations dans la littérature) que dans le contexte des effets de tapering (figure 1), l'AIC fonctionne mieux que le BIC. Si tel est le contexte de l'analyse des données réelles, l'AIC doit être utilisé.

Comment BIC peut-il jamais choisir un modèle plus complexe que AIC dans la sélection des modèles? Je ne comprends pas! Qu'est-ce que la "sélection de modèle" et quand précisément BIC choisit-elle un modèle plus "général" qu'AIC?

Si nous parlons de sélection de variables, alors BIC doit sûrement toujours choisir le modèle avec le moins de variables, n'est-ce pas? Le terme dans BIC pénalisera toujours plus les variables ajoutées que le terme dans AIC. Mais n'est-ce pas déraisonnable lorsque « l'objectif du BIC est un modèle plus général que le modèle cible de l'AIC »?2ln(N)k2k

MODIFIER :

D'après une discussion dans les commentaires dans Y a-t-il une raison de préférer l'AIC ou le BIC à l'autre? nous voyons une petite discussion entre @Michael Chernick et @ user13273 dans les commentaires, me faisant croire que c'est quelque chose qui n'est pas si trivial:

Je pense qu'il est plus approprié d'appeler cette discussion une sélection "caractéristique" ou une sélection "covariable". Pour moi, la sélection de modèles est beaucoup plus large et implique la spécification de la distribution des erreurs, de la forme de la fonction de lien et de la forme des covariables. Lorsque nous parlons d'AIC / BIC, nous sommes généralement dans la situation où tous les aspects de la construction de modèles sont fixes, à l'exception de la sélection des covariables. - user13273 13 août 12 à 21:17

Décider des covariables spécifiques à inclure dans un modèle passe généralement par le terme sélection de modèle et il existe un certain nombre de livres avec la sélection de modèle dans le titre qui décident principalement des covariables / paramètres du modèle à inclure dans le modèle. - Michael Chernick 24 août 12 à 14:44

Erosennin
la source
3
Bonne question! Au moins une partie de la résolution consiste à faire la distinction entre la «cible» du BIC dans la terminologie de cet article - le vrai modèle, qu'il choisira avec un échantillon de très grande taille - et le modèle qu'il choisit avec un échantillon particulier Taille. Il n'y a donc pas de contradiction lorsque l'on considère une séquence imbriquée de modèles avec un non croissant. paramètres, en disant que la cible du BIC est le modèle à 9 paramètres, même si à une taille d'échantillon modérée le BIC choisit le modèle avec 4 paramètres, et l'AIC celui avec 6.
Scortchi - Reinstate Monica
1
@Scortchi: Bon exemple, mais le concept de modèle cible n'est-il pas totalement redondant quand on parle de modèles imbriqués? Si le contexte est un ensemble de modèles imbriqués (alors nous parlons de sélection de variables): BIC peut avoir un modèle cible plus complexe , mais ne choisira jamais un modèle plus complexe que AIC. Dans tout autre contexte (nous parlons de sélection de modèle) (avec un échantillon de grande taille), le papier prétend que BIC choisira un modèle cible plus complexe ("général") que AIC. Comment cela se produit spécifiquement, n'est toujours pas clair pour moi.
Erosennin
@Erosennin avez-vous déjà réussi à trouver une réponse à votre question générale?
zipzapboing

Réponses:

3

Parfois, les modélisateurs séparent la sélection des variables en une étape distincte dans le développement du modèle. Par exemple, ils effectueraient d'abord une analyse exploratoire, rechercheraient la littérature universitaire et les pratiques de l'industrie, puis établiraient une liste de variables candidates. Ils appellent cette sélection de variable d' étape .

Ensuite, ils exécuteraient un tas de spécifications différentes avec de nombreuses combinaisons de variables différentes telles que le modèle OLS: où désigne la variable dans un modèle . Ils avaient choisir le meilleur sur le modèle de tous les modèles manuellement ou dans une routine automatique. Ainsi, ces personnes appelleraient la sélection du modèle de la dernière étape .

yi=jmXijmβjm+εi,
jmjmm

Cela ressemble à la façon dont, dans l'apprentissage automatique, les gens parlent d' ingénierie des fonctionnalités lorsqu'ils proposent des variables. Vous branchez les fonctionnalités dans LASSO ou des cadres similaires dans lesquels vous créez un modèle à l'aide de ces fonctionnalités (variables). Dans ce contexte, il est judicieux de séparer la sélection des variables en une étape distincte, car vous laissez l'algorithme choisir les bons coefficients pour les variables et n'éliminez aucune variable. Votre jugement (en ce qui concerne la variable qui entre dans un modèle) est isolé dans l'étape de sélection des variables, puis le reste dépend de l'algorithme d'ajustement.

Dans le contexte du document que vous avez cité, tout cela n'est pas pertinent. Le papier utilise BIC ou AIC pour choisir entre différentes spécifications de modèle. Peu importe que vous ayez sélectionné la variable comme étape distincte dans ce cas. Tout ce qui importe, c'est de savoir quelles variables se trouvent dans une spécification de modèle particulière , puis vous regardez leur BIC / AIC pour choisir la meilleure. Ils tiennent compte de la taille des échantillons et du nombre de variables.m

Aksakal
la source