Seuils doux contre pénalisation Lasso

11

J'essaie de résumer ce que j'ai compris jusqu'à présent dans l'analyse multivariée pénalisée avec des ensembles de données de grande dimension, et j'ai toujours du mal à obtenir une définition correcte du seuillage progressif par rapport à la pénalisation Lasso (ou ).L1

Plus précisément, j'ai utilisé une régression PLS clairsemée pour analyser la structure de données à 2 blocs, y compris les données génomiques ( polymorphismes mononucléotidiques , où nous considérons la fréquence de l'allèle mineur dans la plage {0,1,2}, considérée comme une variable numérique) et phénotypes continus (scores quantifiant les traits de personnalité ou l'asymétrie cérébrale, également traités comme des variables continues). L'idée était d'isoler les prédicteurs les plus influents (ici, les variations génétiques sur la séquence d'ADN) pour expliquer les variations phénotypiques interindividuelles.

J'ai d'abord utilisé le package mixOmics R (anciennement integrOmics) qui propose une régression PLS pénalisée et un CCA régularisé . En examinant le code R, nous avons constaté que la "rareté" dans les prédicteurs est simplement induite en sélectionnant les variables les plus élevées avec les charges les plus élevées (en valeur absolue) sur la ème composante, (l'algorithme est itératif et calcule les chargements de variables sur composants, dégonflant le bloc des prédicteurs à chaque itération, voir Sparse PLS: Sélection de variable lors de l'intégration des données Omics pour un aperçu). Au contraire, le package spls co-écrit par S. Keleş (voiri i = 1 , , k k L 1kii=1,,kkLa régression des moindres carrés partiels clairsemés pour la réduction de dimension simultanée et la sélection des variables , pour une description plus formelle de l'approche entreprise par ces auteurs) met en œuvre la pénalisation pour la pénalisation variable.L1

Il n'est pas évident pour moi qu'il y ait une "bijection" stricte, pour ainsi dire, entre la sélection itérative de fonctionnalités basée sur le seuillage progressif et la régularisation . Ma question est donc la suivante: existe-t-il un lien mathématique entre les deux?L1

Références

  1. Chun, H. et Kele ̧s, S. (2010), Moindres carrés partiels clairsemés pour une réduction simultanée des dimensions et une sélection variable . Journal de la Royal Statistical Society: série B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C., et Besse, P. (2008), A Sparse PLS for Variable Selection when Integrating Omics Data . Applications statistiques en génétique et biologie moléculaire , 7 , article 35.
chl
la source

Réponses:

2

Ce que je dirai vaut pour la régression, mais devrait être vrai pour PLS également. Ce n'est donc pas une bijection, car en fonction de combien vous imposez la contrainte dans le , vous aurez une variété de 'réponses' tandis que la deuxième solution n'admet que réponses possibles (où est le nombre de variables) <-> il y a plus de solutions dans la formulation que dans la formulation «troncature».p p l 1l1ppl1

user603
la source
@kwak Ok, l'algorithme LARS semble largement plus sophistiqué que le simple seuillage sur l'importance des variables, mais le fait est que je ne vois pas de relation claire entre le paramètre de pénalité et le nombre de variables qui doivent être conservées dans le modèle; il me semble que nous ne pouvons pas nécessairement trouver un paramètre de pénalité qui produirait exactement un nombre fixe de variables.
chl
@chl:> S-PLS vous voulez dire? (vous avez écrit LARS, ce qui est différent des deux algorithmes dont vous discutez). En effet, il existe une relation monotone entre le paramètre de pénalité et le nombre de composants, mais ce n'est pas une relation linéaire et cette relation varie au cas par cas (dépend de l'ensemble de données / du problème).
user603
@kwak L1-penalty peut être obtenu en utilisant LARS, sauf si je suis trompeur. Votre deuxième point est ce que j'ai à l'esprit en fait; avez-vous une référence à ce sujet?
chl
@chl:> * La pénalité L1 peut être obtenue en utilisant LARS, sauf si je suis trompeur * je ne le savais pas (et en doute). Pouvez-vous fournir une référence? Merci. pour votre deuxième question: regardez sur les «degrés de liberté» du lasso Hui Zou, Trevor Hastie et Robert Tibshirani Source: Ann. Statist. Volume 35, numéro 5 (2007), 2173-2192. (il existe de nombreuses versions non fermées).
user603
1
@kwak Consultez la page Web de Tibshirani, www-stat.stanford.edu/~tibs/lasso.html et le larspackage R; d'autres méthodes incluent la descente de coordonnées (voir JSS 2010 33 (1), bit.ly/bDNUFo ), et le scikit.learnpackage Python propose les deux approches, bit.ly/bfhnZz .
chl
6

L 1L1 pénalisation fait partie d'un problème d'optimisation. Le seuillage progressif fait partie d'un algorithme. Parfois, la pénalisation conduit à un seuillage progressif.L1

Pour la régression, moindres carrés pénalisés (Lasso) entraîne un seuillage progressif lorsque les colonnes de la matrice sont orthogonales (en supposant que les lignes correspondent à différents échantillons). Il est vraiment simple de dériver lorsque vous considérez le cas particulier de l'estimation moyenne, où la matrice compose d'un seul dans chaque ligne et de zéros partout ailleurs. X X 1L1XX1

Pour la matrice générale , le calcul de la solution de Lasso par descente de coordonnées cycliques entraîne un seuillage progressif essentiellement itératif. Voir http://projecteuclid.org/euclid.aoas/1196438020 .X

vqv
la source
(+1) Merci pour cela, en particulier le document de Friedman.
chl