J'ai lu que le lasso de groupe est utilisé pour la sélection des variables et la rareté dans un groupe de variables. Je veux connaître l'intuition derrière cette affirmation.
- Pourquoi le lasso de groupe est-il préféré au lasso?
- Pourquoi le chemin de la solution de lasso de groupe n'est-il pas linéaire par morceaux?
regression
feature-selection
lasso
regularization
Vengeance
la source
la source
Réponses:
Intuitivement parlant, le lasso de groupe peut être préféré au lasso car il nous permet d'incorporer (un certain type de) des informations supplémentaires dans notre estimation du vrai coefficient . En tant que scénario extrême, compte tenu des éléments suivants:β∗
En pratique, nous ne sélectionnons pas aussi bien les groupes. Cependant, les groupes, bien qu'ils soient plus fins que le scénario extrême ci-dessus, nous aideront toujours: le choix serait toujours fait entre un groupe de vraies covariables et un groupe de fausses covariables. Nous empruntons toujours de la force.
Ceci est formalisé ici . Ils montrent, dans certaines conditions, que la borne supérieure de l'erreur de prédiction du lasso de groupe est inférieure à une borne inférieure de l'erreur de prédiction du lasso simple. Autrement dit, ils ont prouvé que le regroupement rend notre estimation meilleure.
Pour votre deuxième question: la pénalité (simple) du lasso est linéaire par morceaux, ce qui donne lieu au chemin de solution linéaire par morceaux. Intuitivement, dans le cas du lasso de groupe, la pénalité n'est plus linéaire par morceaux, nous n'avons donc plus cette propriété. Une grande référence sur la linéarité par morceaux des chemins de solution est ici . Voir leur proposition 1. Soit et . Ils montrent que le chemin de solution du groupe lasso est linéaire si et seulement si est constant par morceaux. Bien sûr, ce n'est pas puisque notre pénalité a une courbure globale.L(β)=∥y−Xβ∥22 J(β)=∑g∈G|g|1/2∥βg∥2
la source
La réponse de Ben est le résultat le plus général. Mais la réponse intuitive à l'OP est motivée par le cas des prédicteurs catégoriels, qui sont généralement codés comme de multiples variables muettes: une pour chaque catégorie. Il est logique dans de nombreuses analyses de considérer ces variables fictives (représentant un prédicteur catégorique) ensemble plutôt que séparément.
Si vous avez une variable catégorielle avec, disons, cinq niveaux, un lasso droit peut laisser deux entrées et trois sorties. Comment gérez-vous cela de manière raisonnée? Décidez de voter? Utiliser littéralement les variables fictives au lieu des catégories plus significatives? Comment votre codage factice affecte-t-il vos choix?
Comme ils le disent dans l'introduction du Lasso de groupe pour la régression logistique , il mentionne:
Comme le souligne Ben, il existe également des liens plus subtils entre les prédicteurs qui pourraient indiquer qu'ils devraient être entrés ou sortis ensemble. Mais les variables catégorielles sont l'enfant de l'affiche pour le lasso de groupe.
la source