Dans quel cadre vous attendriez-vous à ce que le modèle trouvé par LARS diffère le plus du modèle trouvé par recherche exhaustive?

9

Un peu plus d'informations; supposer que

  1. vous savez à l'avance combien de variables sélectionner et que vous définissez la pénalité de complexité dans la procédure LARS de manière à avoir exactement autant de variables avec des coefficients non 0,
  2. les coûts de calcul ne sont pas un problème (le nombre total de variables est petit, disons 50),
  3. que toutes les variables (y, x) sont continues.

Dans quel cadre le modèle LARS (c'est-à-dire l'ajustement OLS de ces variables ayant des coefficients non nuls dans l'ajustement LARS) serait-il le plus différent d'un modèle avec le même nombre de coefficients mais trouvé par une recherche exhaustive (à la regsubsets ())?

Edit: j'utilise 50 variables et 250 observations avec les coefficients réels tirés d'un gaussien standard à l'exception de 10 des variables ayant des coefficients `` réels '' de 0 (et toutes les caractéristiques étant fortement corrélées entre elles). Ces paramètres ne sont évidemment pas bons car les différences entre les deux ensembles de variables sélectionnées sont infimes. C'est vraiment une question sur le type de configuration de données à simuler pour obtenir le plus de différences.

user603
la source

Réponses:

1

Voici la description de l'algorithme LARS: http://www-stat.stanford.edu/~tibs/lasso/simple.html Il ignore en quelque sorte la corrélation entre les régresseurs, donc je me risquerais à deviner qu'il pourrait passer à côté l'ajustement en cas de multicollinéarité.

Alex
la source
c'est ce qui motive ma question en fait. J'ai simulé des paramètres avec 50 variables où la plus grande valeur du vif est supérieure à 30 et je vois encore très peu de différences (par exemple en termes de R ^ 2 des modèles sélectionnés) entre les deux approches.
user603
1
J'ai moi-même trouvé différentes réponses avec stepAIC et lars et j'imagine que mon problème doit être traité avec le groupe LASSO - il ne s'agit pas du VIF de la matrice entière, mais d'un certain nombre de grappes de variables corrélées.
Alex
Intéressant ... comment générer de telles données? (c'est-à-dire avec des grappes de variables corrélées)
user603
Empilez un certain nombre de groupes indépendants avec une corrélation à l'intérieur d'eux. J'ai moi-même un tas de mêmes questions posées sur un certain nombre de marques - les gens ont tendance à aimer la marque de leur choix et à ne pas aimer les autres.
Alex
3

Plus vous avez de fonctionnalités par rapport au nombre d'échantillons, plus vous obtiendrez de sur-ajustement avec la méthode de recherche exaustive qu'avec LARS. Le terme de pénalité utilisé dans LARS impose une structure imbriquée de modèles de plus en plus complexes, indexés par un seul paramètre de régularisation, de sorte que les «degrés de liberté» de sélection des caractéristiques avec LARS sont assez faibles. Pour la recherche exaustive, il y a effectivement un degré de liberté (binaire) par entité, ce qui signifie que la recherche exaustive est mieux à même d'exploiter la variabilité aléatoire du critère de sélection des entités en raison de l'échantillonnage aléatoire des données. En conséquence, le modèle de recherche exaustif est susceptible d'être sévèrement adapté au critère de sélection des caractéristiques, car la "classe d'hypothèses" est plus grande.

Dikran Marsupial
la source
Votre réponse ne semble pas liée à ma question. Pour être clair: je suis vraiment intéressé à générer des situations où le sous-ensemble de variables sélectionnées comme actives par LARS serait le plus différent de celles sélectionnées par recherche exhaustive, avec cela mesuré par, disons, la différence de R ^ 2 entre le modèle LARS et le modèle de recherche exhaustif avec le même nombre de variables actives . Pouvez-vous penser à un cas d'adversaire où cette différence serait importante? Pouvez-vous reformuler votre réponse en ces termes?
user603
3
Ma réponse est directement liée à votre question. Le degré de sur-ajustement n'est pas contrôlé uniquement par le nombre d'entités, mais par les valeurs des poids. Ainsi, il est possible de sur-ajuster sans utiliser plus de fonctionnalités. LARS impose une pénalité sur la magnitude des poids, il ne choisit donc pas des fonctionnalités qui ne réduisent la perte au carré qu'au détriment des poids de grande magnitude, c'est pourquoi il est moins sujet au sur-ajustement. Les méthodes de recherche exaustives sont essentiellement une recette de sur-ajustement, vous obtiendrez donc des solutions très différentes dans les situations où un sur-ajustement est susceptible de se produire.
Dikran Marsupial
Ok, je comprends votre argument: cela vient de quelque chose que j'ai passé sous silence dans ma question d'origine (et, espérons-le, clarifié maintenant). Je compare vraiment la pomme aux pommes ici (c.-à-d. Les modèles sélectionnés), ou en d'autres termes, l'ajustement (R ^ 2 des) OLS en utilisant les variables sélectionnées par LARS et l'ajustement (R ^ 2 des) OLS en utilisant ceux variables sélectionnées par recherche exhaustive. Je n'utilise pas directement les coefficients LARS ....
user603
3
Ce n'est pas orthogonal, il est peu probable qu'un modèle soit meilleur qu'un autre sans être différent. Dans les situations où le sur-ajustement est probable, un modèle basé sur la recherche exaustive est susceptible d'être instable, c'est-à-dire que si vous collectez 500 échantillons différents, vous obtiendrez probablement un ensemble différent de fonctionnalités. LARS, quant à lui, devrait également être plus stable. Le fait que 50 entités et 500 échantillons soient susceptibles d'entraîner un sur-ajustement dépend de la nature de l'ensemble de données, mais c'est certainement possible. Une recherche exhaustive est susceptible de sélectionner des caractéristiques qui expliquent la variabilité propre à cet échantillon; LARS moins.
Dikran Marsupial
2
Il pourrait être utile d'expliquer pourquoi vous souhaitez le faire. Je soupçonne que la chose dont vous avez besoin de regarder est l'ampleur des poids du vrai modèle ainsi que celle de la distribution des données. Les modèles de régression pénalisés (LASSO, LARS, Elaris net, régression de crête) ont un prior sur la distribution attendue des poids, donc si vous avez un ensemble de données où cela n'est pas valide, cela pourrait être un bon point de départ.
Dikran Marsupial