Un peu plus d'informations; supposer que
- vous savez à l'avance combien de variables sélectionner et que vous définissez la pénalité de complexité dans la procédure LARS de manière à avoir exactement autant de variables avec des coefficients non 0,
- les coûts de calcul ne sont pas un problème (le nombre total de variables est petit, disons 50),
- que toutes les variables (y, x) sont continues.
Dans quel cadre le modèle LARS (c'est-à-dire l'ajustement OLS de ces variables ayant des coefficients non nuls dans l'ajustement LARS) serait-il le plus différent d'un modèle avec le même nombre de coefficients mais trouvé par une recherche exhaustive (à la regsubsets ())?
Edit: j'utilise 50 variables et 250 observations avec les coefficients réels tirés d'un gaussien standard à l'exception de 10 des variables ayant des coefficients `` réels '' de 0 (et toutes les caractéristiques étant fortement corrélées entre elles). Ces paramètres ne sont évidemment pas bons car les différences entre les deux ensembles de variables sélectionnées sont infimes. C'est vraiment une question sur le type de configuration de données à simuler pour obtenir le plus de différences.
la source
Plus vous avez de fonctionnalités par rapport au nombre d'échantillons, plus vous obtiendrez de sur-ajustement avec la méthode de recherche exaustive qu'avec LARS. Le terme de pénalité utilisé dans LARS impose une structure imbriquée de modèles de plus en plus complexes, indexés par un seul paramètre de régularisation, de sorte que les «degrés de liberté» de sélection des caractéristiques avec LARS sont assez faibles. Pour la recherche exaustive, il y a effectivement un degré de liberté (binaire) par entité, ce qui signifie que la recherche exaustive est mieux à même d'exploiter la variabilité aléatoire du critère de sélection des entités en raison de l'échantillonnage aléatoire des données. En conséquence, le modèle de recherche exaustif est susceptible d'être sévèrement adapté au critère de sélection des caractéristiques, car la "classe d'hypothèses" est plus grande.
la source