Dans la détection compressée, il existe un théorème garantissant que a une solution clairsemée unique c (voir l'annexe pour plus de détails).
Existe-t-il un théorème similaire pour le lasso? S'il existe un tel théorème, non seulement il garantira la stabilité du lasso, mais il fournira également au lasso une interprétation plus significative:
lasso peut découvrir le vecteur de coefficient de régression clairsemé qui est utilisé pour générer la réponse par .
Il y a deux raisons pour lesquelles je pose cette question:
Je pense que `` le lasso favorise une solution clairsemée '' n'est pas une réponse à la raison pour laquelle utiliser le lasso pour la sélection des fonctionnalités, car nous ne pouvons même pas dire quel est l'avantage des fonctionnalités que nous sélectionnons.
J'ai appris que le lasso est connu pour être instable pour la sélection des fonctionnalités. En pratique, nous devons exécuter des échantillons de bootstrap pour évaluer sa stabilité. Quelle est la raison la plus cruciale à l'origine de cette instabilité?
Appendice:
Étant donné . est un vecteur -parsé ( ). Le processus génère la réponse . Si a la NSP (propriété d'espace nul) d'ordre et que la matrice de covariance de n'a pas de valeur propre proche de zéro, il y aura une solution unique à
Ce que dit également ce théorème, c'est aussi que si n'a pas le NSP d'ordre , il est tout simplement inutile de résoudre .
ÉDITER:
Après avoir reçu ces excellentes réponses, j'ai réalisé que j'étais confus lorsque je posais cette question.
Pourquoi cette question prête à confusion:
J'ai lu un document de recherche dans lequel nous devons décider combien d'entités (colonnes) la matrice de conception va avoir (les entités auxiliaires sont créées à partir des entités principales). Puisqu'il s'agit d'un problème typique , devrait être bien construit de sorte que la solution au lasso puisse être une bonne approximation de la vraie solution creuse.
Le raisonnement est basé sur le théorème que j'ai mentionné en annexe: Si nous cherchons à trouver une solution -parse , a mieux d'avoir le NSP d'ordre .
Pour une matrice générale , si est violé, alors
aucune récupération stable et robuste de partir de et n'est possible
correspond à , correspond à
... comme attendu de la relation , la sélection du descripteur devient plus instable, c'est-à-dire que pour différents ensembles d'apprentissage, le descripteur sélectionné diffère souvent ...
La deuxième citation est la partie qui m'embrouille. Il me semble que lorsque l'inégalité est violée, ce n'est pas seulement la solution peut-être non unique (non mentionnée), mais le descripteur deviendra également plus instable.
la source
Réponses:
MISE À JOUR
Voir ce deuxième article pour les commentaires de McDonald sur ma réponse où la notion de cohérence des risques est liée à la stabilité.
1) Unicité vs stabilité
Il est difficile de répondre à votre question car elle mentionne deux sujets très différents: l' unicité et la stabilité .
Intuitivement, une solution est unique si on lui donne un ensemble de données fixe, l'algorithme produit toujours les mêmes résultats. La réponse de Martin couvre ce point en détail.
La stabilité , d'autre part, peut être comprise intuitivement comme une stabilité pour laquelle la prédiction ne change pas beaucoup lorsque les données d'entraînement sont légèrement modifiées.
La stabilité s'applique à votre question car la sélection des fonctionnalités Lasso est (souvent) effectuée via la validation croisée, donc l'algorithme Lasso est exécuté sur différents plis de données et peut donner des résultats différents à chaque fois.
La stabilité et le théorème du déjeuner gratuit
En utilisant la définition d' ici si nous définissons la stabilité uniforme comme:
alors le "No Free Lunch Theorem, Xu et Caramis (2012)" déclare que
Par exemple, la régression régularisée est stable et n'identifie pas les entités redondantes, tandis que la régression régularisée (Lasso) est instable.L2 L1
Une tentative de répondre à votre question
Aller plus loin
Cela ne veut pas dire que la combinaison de la validation croisée et du lasso ne fonctionne pas ... en fait, il a été démontré expérimentalement (et avec beaucoup de théorie à l'appui) qu'il fonctionne très bien dans diverses conditions. Les principaux mots clés ici sont la cohérence , le risque, les inégalités oracle, etc.
Les diapositives et le papier suivants de McDonald et Homrighausen (2013) décrivent certaines conditions dans lesquelles la sélection des caractéristiques du lasso fonctionne bien: diapositives et papier: "Le lasso, la persistance et la validation croisée, McDonald et Homrighausen (2013)" . Tibshirani lui-même a également publié un grand ensemble de notes sur la rareté , la régression linéaire
Les différentes conditions de cohérence et leur impact sur le Lasso est un sujet de recherche actif et n'est certainement pas une question banale. Je peux vous orienter vers des articles de recherche pertinents:
la source
Commentaires de Daniel J. McDonald
Professeur adjoint à l'Université d'Indiana Bloomington, auteur des deux articles mentionnés dans la réponse originale de Xavier Bourret Sicotte .
la source
Le Lasso, contrairement à la régression Ridge (voir par exemple Hoerl et Kennard, 1970; Hastie et al., 2009) n'a pas toujours une solution unique, bien qu'elle l'ait généralement. Cela dépend du nombre de paramètres dans le modèle, du fait que les variables soient continues ou discrètes et du rang de votre matrice de conception. Les conditions d'unicité peuvent être trouvées dans Tibshirani (2013).
Les références:
Hastie, T., Tibshirani, R. et Friedman, J. (2009). Les éléments de l'apprentissage statistique . Série Springer en statistiques. Springer, New York, 11e impression, 2e édition.
Hoerl, AE et Kennard, RW (1970). Régression de crête: estimation biaisée pour les problèmes non orthogonaux. Technometrics , 12 (1), 55-67.
Tibshirani, RJ (2013). Le problème du lasso et l'unicité. Electronic Journal of Statistics , 7, 1456-1490.
la source
Ce qui cause la non-unicité.
Pour les vecteurs (où est un signe indiquant si le changement de va augmenter ou diminuer ), chaque fois qu'ils sont affinement dépendants:sixi si ci ∥c∥1
alors il existe un nombre infini de combinaisons qui ne changent pas la solution et la norme .ci+γαi Xc ∥c∥1
Par exemple:
a pour les solutions:∥c∥1=1
avec0≤γ≤12
Nous pouvons en quelque sorte remplacer le vecteur en utilisantx2 x2=0.5x1+0.5x3
Situations sans cette condition
Dans l'article de Tibshirani (de la réponse de Phil), trois conditions suffisantes sont décrites pour que le lasso ait une solution unique.
Affinement indépendant Lorsque les colonnes sont en position générale.Xs
Autrement dit, aucune colonne ne représente des points dans un plan dimensionnel . Un plan dimensionnel k-2 peut être paramétré par n'importe quel point comme avec . Avec un -ième point dans ce même plan, vous auriez les conditions aveck k−2 k−1 ∑αisixi ∑αi=1 k sjxj ∑αisixi ∑αi=0
Notez que dans l'exemple, les colonnes , et sont sur une seule ligne. (C'est cependant un peu gênant ici car les signes peuvent être négatifs, par exemple la matrice vient de ainsi aucune solution unique)x1 x2 x3 [[21][11][−0−1]]
Lorsque les colonnes proviennent d'une distribution continue, il est peu probable (probabilité presque nulle) que vous ayez des colonnes de pas en position générale.X X
Contrairement à cela, si les colonnes sont une variable catégorielle, cette probabilité n'est pas nécessairement presque nulle. La probabilité qu'une variable continue soit égale à un ensemble de nombres (c'est-à-dire les plans correspondant à la plage affine des autres vecteurs) est «presque» nulle. Mais ce n'est pas le cas pour les variables discrètes.X
la source