Comment Lasso s'adapte-t-il à la taille de la matrice de conception?

10

Si j'ai une matrice de conception , où est le nombre d'observations de dimension , quelle est la complexité de la résolution de avec LASSO, wrt et ? Je pense que la réponse devrait se référer à la façon dont une itération LASSO évolue avec ces paramètres, plutôt qu'à la façon dont le nombre d'itérations (convergence) est mis à l'échelle, sauf indication contraire. n D β = argmin β 1XRn×nnβ^=argminβ12n||Xβ-y||2+λ||β||1n

J'ai lu cette précédente question sur la complexité de LASSO , mais elle semble en contradiction avec la discussion sur glmnet ici et ici . Je suis conscient qu'il existe de nombreux algorithmes, y compris l'approche GLM de glmnet, mais j'écris un article sur le remplacement d'un composant LASSO par un algorithme parent et j'aimerais inclure une discussion sur la complexité de LASSO en général, en particulier avec et . Je voudrais également connaître la complexité de glmnet dans le cas de base non clairsemé, mais le document référencé est un peu déroutant car toute la complexité de l'algorithme n'est pas explicite.n

rnoodle
la source
3
On ne sait pas pourquoi cette réponse stats.stackexchange.com/a/190717/28666 (dans le fil auquel vous avez lié) ne répond pas à votre question. Peux-tu élaborer? Qu'est-ce qui ne va pas avec quoi?
amibe
La page 6 en [pdf] [1], déclare "Ainsi, un cycle complet à travers toutes les variables d coûte ". Cependant, la question que vous liez aux états . Suis-je absent d'une boucle ici pour obtenir la complexité ? [1]: jstatsoft.org/article/view/v033i01O(n)O(2n)2
rnoodle
@amoeba Le lien que vous fournissez concerne l'algorithme LARS - je veux en savoir plus sur l'approche GLM.
rnoodle
Les références, pour la régression au moindre angle et pour la descente de coordonnées, sont correctes. La différence est que (1) LARS trouve une solution exacte dans (et ce faisant en parcourant tout le chemin du possible avec une complexité égale au problème OLS à l'ensemble du problème, qui a également est mis à l'échelle comme ), tandis que la descente de coordonnées (2) ne fait "qu'une" seule étape d'approximation dans , convergeant / "descendant" plus près du minimum de la Problème LASSO. LARS utilise étapes. Avec une descente coordonnée ... personne ne sait. O ( d n ) O ( d 2 n ) λ O ( d 2 n ) O ( d n ) dO(2n)O(n)O(2n)λO(2n)O(n)
Sextus Empiricus

Réponses:

3

Les réponses des références,

  • pour la régression au moindre angleO(2n)
  • pour la descente coordonnéeO(n)

, sont corrects.


La différence est que

Les équations LARS sont écrites sous forme fermée et trouvent une solution exacte

O(2n)

tandis que

O(n)


O((-k)n+k2)-kk

2n>>100=100


La mise à l'échelle de LARS est un problème impliquant une complexité de calcul. La descente à l'échelle des coordonnées est un problème impliquant la complexité et la convergence des calculs .

Sextus Empiricus
la source