Que veulent dire les statisticiens quand ils disent que nous ne comprenons pas vraiment comment fonctionne le LASSO (régularisation)?

J'ai récemment assisté à quelques discussions sur les statistiques du Lasso (régularisation) et un point qui revient sans cesse est que nous ne comprenons pas vraiment pourquoi le Lasso fonctionne ou pourquoi il fonctionne si bien. Je me demande à quoi se réfère cette déclaration. Évidemment, je comprends pourquoi le Lasso fonctionne techniquement, en prévenant le surapprentissage par le rétrécissement des paramètres, mais je me demande s'il y a un sens plus profond derrière une telle déclaration. Quelqu'un a-t-il une idée? Merci!

machine-learning lasso regularization user321627
la source

Définissez les «œuvres». Fonctionne pour faire quoi, exactement? Fonctionne pour augmenter la rareté? Fonctionne pour empêcher le sur-ajustement? Fonctionne pour produire des tests statistiques raisonnables? - Ou, pour le dire autrement, que signifierait "ne pas fonctionner" dans ce contexte? - Comme vous pouvez le voir dans les commentaires sur la réponse actuelle, il y a une certaine confusion quant à ce que vous recherchez.

@RM, vous reformulez simplement l'OP, à mon humble avis. L'OP est probablement après le même inconnu que celui que vous avez du mal à identifier.

Richard Hardy

@RichardHardy Je vois comment cela pourrait être le cas, mais si c'est le cas, j'espère que le PO pourrait au moins développer le contexte dans ces discussions statistiques dans lesquelles le point a été soulevé, pour nous aider, espérons-le, à nous concentrer sur ce que ces orateurs pourraient ont réfléchi.

@RM, bon alors.

Richard Hardy

Réponses:

Il y a parfois un manque de communication entre les statisticiens qui travaillent et la communauté de la théorie de l'apprentissage qui étudie les fondements de méthodes comme le lasso. Les propriétés théoriques du lasso sont en fait très bien comprises.

Ce document a un résumé dans la section 4 de nombreuses propriétés dont il jouit. Les résultats sont assez techniques, mais essentiellement:

Il récupère le véritable support (ensemble d'entrées non nulles) d'un vecteur de poids clairsemé sous certaines hypothèses douces, pour des ensembles de données suffisamment grands, avec une forte probabilité.
Il converge vers le vecteur de poids correct au taux optimal à mesure que la taille de l'échantillon augmente, tant que les colonnes de ne sont pas trop corrélées. $X$

AaronDefazio
la source

Si en comprenant pourquoi Lasso fonctionne, vous voulez dire pourquoi il effectue la sélection d'entités (c.-à-d. En définissant des poids pour certaines entités exactement à 0), nous comprenons cela très bien:

rincer
la source

Merci pour une belle illustration, mais je soupçonne que ce n'est pas la partie qui intéresse le PO. Bien sûr, c'est au PO de clarifier cela.

Richard Hardy

Je ne comprends pas le (s) point (s) de votre diagramme.

Michael R. Chernick

J'ai rétrogradé parce que ce diagramme existe depuis au moins le papier lasso original de Tibshirani et n'aide pas la question. Nous comprenons très bien pourquoi une pénalité entraîne une raréfaction dans le lasso standard, mais le lasso est bien plus que cela. Il y a des questions de distributions de coefficients et de tests d'hypothèses, modifiant la pénalité pour forcer certains schémas zéro, des résultats asymptotiques comme l'irreprésentabilité, les performances lorsque nous branchons choisi via CV, et bien plus encore

L_{1}

$L_1$

\hat{λ}

$\hat \lambda$

2017 à 14h

@Chaconne, vos points constituent une excellente base de réponse!

Richard Hardy

@Chaconne, il ne semble susciter un débat utile si en identifiant ce que nous ne comprenons Lasso!

rinspy

Il y a le problème de la récupération des signes de la cohérence de la sélection du modèle (auquel les statisticiens ont répondu ), et

il y a le problème de l'inférence (construire de bons intervalles de confiance pour les estimations), qui est jusqu'à un sujet de recherche.

La plupart du travail est effectué par des statisticiens plutôt que par "la communauté de la théorie de l'apprentissage".

Gao Zheng
la source

Comment cela ajoute-t-il à ce qui a déjà été donné?

Michael R. Chernick

Personne n'a mentionné le problème de l'inférence ici, qui, je crois, est la raison pour laquelle la demande ("elle n'est pas bien comprise") a été faite en premier lieu.

Gao Zheng