Analyse élastique / crête / lasso, alors quoi?

19

Je suis vraiment intéressé par la procédure du filet élastique pour la rétraction / sélection des prédicteurs. Cela semble très puissant.

Mais du point de vue scientifique, je ne sais pas quoi faire une fois que j'ai obtenu les coefficients. À quelle question réponds-je? Ce sont les variables qui influencent le plus ce résultat et ce sont les coefficients qui donnent le meilleur rapport variance / biais lors de la validation?

Il s'agit bien sûr d'une approche très descriptive / prédictive par rapport à l'approche classique des valeurs de p / intervalles de confiance. L'estimation inférentielle est actuellement étudiée par Tibshirani & Co. mais est encore expérimentale.

Certaines personnes utilisent les variables choisies par le filet élastique pour effectuer une analyse inférentielle classique, mais cela éliminerait la limitation de variance apportée par la technique.

Un autre problème est que les paramètres lambda et alpha du filet élastique étant choisis par validation croisée, ils sont sujets à une variabilité aléatoire. Ainsi, chaque fois que vous exécutez (par exemple.) Cv.glmnet (), vous sélectionnez un sous-ensemble légèrement différent de prédicteurs avec des coefficients toujours différents.

J'ai pensé à résoudre ce problème en considérant les bons lambda et alpha comme variables aléatoires et relancer l'étape de validation croisée n fois pour obtenir une distribution de ces paramètres. De cette façon, pour chaque prédicteur, j'aurais le nombre d'occurrences et pour chaque coefficients, j'aurais la distribution des résultats. Cela devrait me donner des résultats plus généralisables avec des statistiques de plages (comme sd des coefficients). Il serait également intéressant de voir si le lambda et l'alpha choisis de cette façon se rapprochent asymptotiquement d'une distribution, car cela ouvrirait la voie à un test d'inférence (mais je ne suis pas un statisticien donc je ne devrais pas parler des choses que je ne donne pas ne comprends pas bien).

Alors finalement ma question est: Une fois que vous obtenez les prédicteurs et les coefficients d'un filet élastique avec validation croisée basée sur alpha et lambda, quels et comment devez-vous présenter ces résultats? Comment devriez-vous en discuter? qu'avons-nous appris? Quelle hypothèse / généralisation sommes-nous en train de réfuter?

Bakaburg
la source
Je pense que c'est trop large / peu clair pour répondre de manière appropriée. Dans certains cas, je trouve que vos déclarations ne sont pas claires (par exemple, que voulez-vous dire par " mais cela éliminerait la limitation de la variance apportée par la technique. ") Et sur certains autres cas induits en erreur (par exemple " chaque fois que vous exécutez (par exemple.) cv.glmnet () vous sélectionnerez un sous-ensemble légèrement différent de prédicteurs avec des coefficients toujours différents "- ce n'est pas le cas à chaque fois et même quand cela se produit généralement ce n'est pas catastrophique étant donné que le CV a été fait correctement.)
usεr11852 dit Reinstate Monic
une motivation que j'ai vue du filet élastique le reliait au regroupement variable (à travers la section 2.3 du zou, papier hastie élastique), qui est développé plus en détail (à travers une méthode quelque peu différente) ici: ncbi.nlm.nih .gov / pmc / articles / PMC4011669
user795305

Réponses:

8

Ces méthodes - le lasso et le filet élastique - sont nées des problèmes de sélection et de prédiction des traits. C'est à travers ces deux lentilles que je pense qu'une explication peut être trouvée.

Matthew Gunn explique gentiment dans sa réponse que ces deux objectifs sont distincts et souvent repris par des personnes différentes. Cependant, heureusement pour nous, les méthodes qui nous intéressent peuvent bien fonctionner dans les deux arènes.

Sélection de fonctionnalité

Tout d'abord, parlons de la sélection des fonctionnalités. Nous devons d'abord motiver le filet élastique du point de vue du lasso. C'est-à-dire, pour citer Hastie et Zou , "S'il y a un groupe de variables parmi lesquelles les corrélations par paires sont très élevées, alors le lasso a tendance à sélectionner une seule variable dans le groupe et ne se soucie pas laquelle est sélectionnée." C'est un problème, par exemple, car cela signifie que nous ne sommes pas susceptibles de trouver un élément du véritable support en utilisant le lasso - juste un très corrélé avec lui. (Le document mentionne que cela est prouvé dans le document LARS, que je n'ai pas encore lu.) La difficulté de la récupération du support en présence de corrélation est également soulignée par Wainwright ,0.5 lorsqu'il y a une forte corrélation entre le vrai support et son complément.

Maintenant, la pénalité l2 dans le filet élastique encourage les caractéristiques qui ont des coefficients traités comme ne pouvant être distingués par la perte et la pénalité l1 à avoir un coefficient estimé égal. Nous pouvons voir cela vaguement en remarquant que satisfait. Pour cette raison, le filet élastique fait en sorte que nous sommes moins susceptibles de faire disparaître «accidentellement» une estimation de coefficient qui est dans le vrai support. Autrement dit, le véritable soutien est plus susceptible d'être contenu dans le soutien estimé. C'est bon! Cela signifie qu'il y a plus de fausses découvertes, mais c'est un prix que la plupart des gens sont prêts à payer.| a | = | b |(a,b)=argmina,b:c=|a|+|b|(a)2+(b)2|a|=|b|

Soit dit en passant, il convient de souligner que le fait que les caractéristiques hautement corrélées auront tendance à avoir des estimations de coefficient très similaires permet de détecter des regroupements de caractéristiques au sein du support estimé qui influencent la réponse de manière similaire.

Prédiction

Maintenant, nous passons à la prédiction. Comme le souligne Matthew Gunn, le choix des paramètres de réglage par validation croisée crée un objectif de choisir un modèle avec une erreur de prédiction minimale. Étant donné que tout modèle sélectionné par le lasso peut être sélectionné par le filet élastique (en prenant ), il est logique que le filet élastique soit capable de trouver un modèle qui prédit mieux que le lasso.α=1

Lederer, Yu et Gaynanova montrent, sans aucune hypothèse sur les caractéristiques, que le lasso et le filet élastique peuvent tous deux avoir leur erreur de prédiction l2 limitée par la même quantité. Ce n'est pas nécessairement vrai que leur limite est étroite, mais cela pourrait être intéressant à noter car les inégalités oracle semblent être un moyen standard dans la littérature statistique pour quantifier la performance prédictive des estimateurs - peut-être parce que les distributions sont si compliquées! Il convient également de noter que Lederer (1) (2) a des articles sur les prédictions du lasso en présence de caractéristiques corrélées.

Sommaire

En résumé, les problèmes d'intérêt sont le véritable support se trouvant dans le support et la prévision estimés. Pour la récupération du support, il existe des garanties rigoureusement prouvées (via Wainwright) que le lasso sélectionne les fonctionnalités correctes pour être dans le modèle sous des hypothèses de faible corrélation entre le vrai support et son complément. Cependant, en présence de corrélation, on peut se rabattre sur le filet élastique pour être plus susceptible de sélectionner les caractéristiques du vrai support pour être parmi tout ce qu'il sélectionne. (Notez que nous devons sélectionner soigneusement les paramètres de réglage ici.) Et, pour la prédiction lorsque nous choisissons le paramètre de réglage par validation croisée, il est intuitivement logique que le filet élastique devrait mieux fonctionner que le lasso - en particulier en présence de corrélation .

Mis à part la prédiction et certaines formalités, qu'avons-nous appris? Nous avons appris le véritable soutien.

Intervalles de confiance

Il convient de souligner que beaucoup de choses ont changé au cours des 2 dernières années en ce qui concerne l'inférence valide pour le lasso. En particulier, les travaux de Lee, Sun, Sun et Taylor fournissent une inférence exacte pour les coefficients du lasso conditionnels à la sélection du modèle donné. (Les résultats sur l'inférence au lasso pour les vrais coefficients étaient connus au moment de la publication de OP, et ils sont bien résumés dans le document lié.)

user795305
la source
Serait-il exact de supposer que les estimations des covariables régularisées sont probablement plus similaires à celles que nous pourrions trouver en répétant une étude? Autrement dit, comme la régularisation aide à minimiser l'erreur de prédiction hors échantillon, cela pourrait aider à minimiser la différence entre l'estimation dans l'échantillon et hors échantillon
Bakaburg
1
@Bakaburg, oui, c'est logique de dire. La régularisation crée des estimateurs avec une variance plus faible.
user795305
9

Ce que vous faites avec un élastique, une arête ou un lasso, en utilisant la validation croisée pour choisir les paramètres de régularisation, ajuste une forme linéaire pour optimiser la prédiction . Pourquoi ces paramètres de régularisation particuliers? Parce qu'ils fonctionnent mieux pour la prédiction de nouvelles données. Le rétrécissement des estimations des coefficients vers zéro, introduisant un biais (comme c'est le cas pour Ridge ou Lasso) peut réduire le sur-ajustement et la variance de rétrécissement . L'idée est que vos paramètres de pénalité trouvent le bon équilibre afin d'optimiser la prédiction sur les nouvelles données.

Imaginez que le processus de génération de données est:

yi=f(xi,β)+ϵi

Soit notre estimation des paramètres , et notre prévision pour l'observation la ß y jjβ^βy^jj

Comment devez-vous présenter vos résultats? Cela dépend de votre question de recherche sous-jacente! Vous pouvez pas en arrière et réfléchir profondément à ce que la question que vous essayez de répondre. De quoi votre public se soucie-t-il? Qu'essayez-vous de faire?

  • Prédiction?
  • Estimer les coefficients?
  • Sélection variable?

Il est important de distinguer deux types de questions de recherche:

  1. Questions où vous vous souciez principalement de la prédiction, c'est-à-dire que vous vous souciez dey^j
  2. Questions où vous vous souciez principalement des estimations de paramètres .β^

Les techniques d'apprentissage automatique standard peuvent être extrêmement puissantes pour les anciens problèmes de prédiction . Comme vous semblez le reconnaître, les techniques standard d'apprentissage automatique standard peuvent être extrêmement problématiques pour , problèmes d'estimation des paramètres: βy^β^

  • Dans un cadre dimensionnel élevé, de nombreux paramétrages différents vous donneront les mêmes prédictions . Si le nombre de paramètres est élevé par rapport au nombre d'observations , il se peut que vous ne puissiez pas estimer correctement un paramètre individuel. kny^kn
  • Les algorithmes formés sur différents plis peuvent avoir des estimations de paramètres significativement différentes.
  • Dans l'apprentissage automatique, l'accent est mis sur la prédiction, et non sur une estimation cohérente des effets causaux. (Cela contraste avec l'économétrie où, généralement, le principal problème est d'estimer systématiquement les effets causaux). La prévision, l'estimation d'une forme fonctionnelle, est différente de l'estimation de la causalité. Les niveaux de police peuvent être un bon prédicteur des niveaux de criminalité, et cela ne signifie pas que la police cause le crime.

Et comme vous le reconnaissez, il peut y avoir des problèmes dans l' interprétation pourquoi certains travaux de paramétrage d'apprentissage de la machine. Votre public est-il à l'aise avec une boîte noire de prédiction? Ou comment la prédiction fonctionne-t-elle au cœur de votre question?

Lasso et Ridge: raisons classiques de les utiliser

  • Vous pouvez utiliser un filet élastique pour l'apprentissage automatique classique, les problèmes de prédiction, les situations où votre principale préoccupation est . Dans un certain sens, la régularisation vous permet d'inclure plus de prédicteurs tout en gardant le sur-ajustement sous contrôle.y^

  • Vous pouvez utiliser la régularisation pour éviter le sur-ajustement. Par exemple. la régression de crête dans le contexte de l'ajustement de courbe polynomiale peut très bien fonctionner.

  • Comme le souligne @Benjamin dans sa réponse, Lasso peut également être utilisé pour la sélection de variables. Dans certaines conditions de régularité, Lasso sélectionnera systématiquement le modèle approprié: les coefficients non pertinents seront mis à zéro.

Les pénalités et , respectivement de Lasso et Ridge, biaisent les estimations de coefficient vers zéro. Si le biais est important, cela pourrait être un problème grave si vous essayez d'interpréter des estimations de coefficient. Et pour obtenir des estimations d'erreur standard, vous devez faire quelque chose comme le bootstrap; il n'y a pas de solutions simples sous forme fermée (à ma connaissance). La crête, le lasso et le filet élastique ont des similitudes avec la régression OLS régulière, mais la régularisation et la sélection des variables rendent l'inférence assez différente ...L 2L1L2

Ce que je reviens toujours, c'est qu'il est assez difficile d'interpréter les résultats de la régression de crête, du lasso ou du filet élastique sans un peu plus de contexte de ce que vous essayez de comprendre!


Le professeur Sendhil Mullainathan a donné une conférence sur l'apprentissage automatique lors de la réunion AFA de janvier 2017 qui a motivé certaines parties de ce post.

Matthew Gunn
la source
3
Ce genre de pensée est défectueux à mon avis. Il est basé sur l'hypothèse que le phénomène sous-jacent est suffisamment simple pour être compris par un être humain. Les modèles de grande dimension sont la plupart du temps trop complexes pour être compris par l'homme, mais ils sont très adaptés à l'intelligence artificielle à grande échelle. En réalité, le meilleur prédicteur est la meilleure interprétation du phénomène, que vous le compreniez ou non.
Cagdas Ozgenc
2
@CagdasOzgenc Je pense que c'est un point valable que certaines fonctions sont horriblement complexes, difficiles à décrire aux humains mais compréhensibles et apprenables par les machines (par exemple, l'évaluation de l'échiquier). Dans ces situations, il peut être préférable de lever les mains, sans même essayer d'interpréter ce que la machine a appris. D'un autre côté, il y a des situations comme les essais de médicaments où il y a un effet causal, une efficacité moyenne que vous essayez d'estimer en présence d'une multitude de facteurs de confusion, des effets de sélection, etc. Ce sont en quelque sorte des problèmes et des besoins différents différentes techniques.
Matthew Gunn
1
@Benjamin Un problème sous-jacent est que ce que le PO demande le plus directement, une interprétation compréhensible des biais vers les coefficients zéro du filet élastique, peut ne pas exister. Imaginez que vous ayez 10 000 prédicteurs et 5 000 observations. Conjointement, vos coefficients peuvent faire un excellent travail de prédiction, mais individuellement, chaque coefficient peut être mal calculé. Je pense qu'il vaut la peine de prendre du recul et de se demander quelle est la question de recherche sous-jacente? Quel est l'objectif? Est-ce qu'il trouve des prédictions ou estime un certain coefficient? Ou peut-être autre chose? y^
Matthew Gunn