Je suis vraiment intéressé par la procédure du filet élastique pour la rétraction / sélection des prédicteurs. Cela semble très puissant.
Mais du point de vue scientifique, je ne sais pas quoi faire une fois que j'ai obtenu les coefficients. À quelle question réponds-je? Ce sont les variables qui influencent le plus ce résultat et ce sont les coefficients qui donnent le meilleur rapport variance / biais lors de la validation?
Il s'agit bien sûr d'une approche très descriptive / prédictive par rapport à l'approche classique des valeurs de p / intervalles de confiance. L'estimation inférentielle est actuellement étudiée par Tibshirani & Co. mais est encore expérimentale.
Certaines personnes utilisent les variables choisies par le filet élastique pour effectuer une analyse inférentielle classique, mais cela éliminerait la limitation de variance apportée par la technique.
Un autre problème est que les paramètres lambda et alpha du filet élastique étant choisis par validation croisée, ils sont sujets à une variabilité aléatoire. Ainsi, chaque fois que vous exécutez (par exemple.) Cv.glmnet (), vous sélectionnez un sous-ensemble légèrement différent de prédicteurs avec des coefficients toujours différents.
J'ai pensé à résoudre ce problème en considérant les bons lambda et alpha comme variables aléatoires et relancer l'étape de validation croisée n fois pour obtenir une distribution de ces paramètres. De cette façon, pour chaque prédicteur, j'aurais le nombre d'occurrences et pour chaque coefficients, j'aurais la distribution des résultats. Cela devrait me donner des résultats plus généralisables avec des statistiques de plages (comme sd des coefficients). Il serait également intéressant de voir si le lambda et l'alpha choisis de cette façon se rapprochent asymptotiquement d'une distribution, car cela ouvrirait la voie à un test d'inférence (mais je ne suis pas un statisticien donc je ne devrais pas parler des choses que je ne donne pas ne comprends pas bien).
Alors finalement ma question est: Une fois que vous obtenez les prédicteurs et les coefficients d'un filet élastique avec validation croisée basée sur alpha et lambda, quels et comment devez-vous présenter ces résultats? Comment devriez-vous en discuter? qu'avons-nous appris? Quelle hypothèse / généralisation sommes-nous en train de réfuter?
Réponses:
Ces méthodes - le lasso et le filet élastique - sont nées des problèmes de sélection et de prédiction des traits. C'est à travers ces deux lentilles que je pense qu'une explication peut être trouvée.
Matthew Gunn explique gentiment dans sa réponse que ces deux objectifs sont distincts et souvent repris par des personnes différentes. Cependant, heureusement pour nous, les méthodes qui nous intéressent peuvent bien fonctionner dans les deux arènes.
Sélection de fonctionnalité
Tout d'abord, parlons de la sélection des fonctionnalités. Nous devons d'abord motiver le filet élastique du point de vue du lasso. C'est-à-dire, pour citer Hastie et Zou , "S'il y a un groupe de variables parmi lesquelles les corrélations par paires sont très élevées, alors le lasso a tendance à sélectionner une seule variable dans le groupe et ne se soucie pas laquelle est sélectionnée." C'est un problème, par exemple, car cela signifie que nous ne sommes pas susceptibles de trouver un élément du véritable support en utilisant le lasso - juste un très corrélé avec lui. (Le document mentionne que cela est prouvé dans le document LARS, que je n'ai pas encore lu.) La difficulté de la récupération du support en présence de corrélation est également soulignée par Wainwright ,0,5 lorsqu'il y a une forte corrélation entre le vrai support et son complément.
Maintenant, la pénalité l2 dans le filet élastique encourage les caractéristiques qui ont des coefficients traités comme ne pouvant être distingués par la perte et la pénalité l1 à avoir un coefficient estimé égal. Nous pouvons voir cela vaguement en remarquant que satisfait. Pour cette raison, le filet élastique fait en sorte que nous sommes moins susceptibles de faire disparaître «accidentellement» une estimation de coefficient qui est dans le vrai support. Autrement dit, le véritable soutien est plus susceptible d'être contenu dans le soutien estimé. C'est bon! Cela signifie qu'il y a plus de fausses découvertes, mais c'est un prix que la plupart des gens sont prêts à payer.| a | = | b |(a,b)=argmina′,b′:c=|a′|+|b′|(a′)2+(b′)2 |a|=|b|
Soit dit en passant, il convient de souligner que le fait que les caractéristiques hautement corrélées auront tendance à avoir des estimations de coefficient très similaires permet de détecter des regroupements de caractéristiques au sein du support estimé qui influencent la réponse de manière similaire.
Prédiction
Maintenant, nous passons à la prédiction. Comme le souligne Matthew Gunn, le choix des paramètres de réglage par validation croisée crée un objectif de choisir un modèle avec une erreur de prédiction minimale. Étant donné que tout modèle sélectionné par le lasso peut être sélectionné par le filet élastique (en prenant ), il est logique que le filet élastique soit capable de trouver un modèle qui prédit mieux que le lasso.α=1
Lederer, Yu et Gaynanova montrent, sans aucune hypothèse sur les caractéristiques, que le lasso et le filet élastique peuvent tous deux avoir leur erreur de prédiction l2 limitée par la même quantité. Ce n'est pas nécessairement vrai que leur limite est étroite, mais cela pourrait être intéressant à noter car les inégalités oracle semblent être un moyen standard dans la littérature statistique pour quantifier la performance prédictive des estimateurs - peut-être parce que les distributions sont si compliquées! Il convient également de noter que Lederer (1) (2) a des articles sur les prédictions du lasso en présence de caractéristiques corrélées.
Sommaire
En résumé, les problèmes d'intérêt sont le véritable support se trouvant dans le support et la prévision estimés. Pour la récupération du support, il existe des garanties rigoureusement prouvées (via Wainwright) que le lasso sélectionne les fonctionnalités correctes pour être dans le modèle sous des hypothèses de faible corrélation entre le vrai support et son complément. Cependant, en présence de corrélation, on peut se rabattre sur le filet élastique pour être plus susceptible de sélectionner les caractéristiques du vrai support pour être parmi tout ce qu'il sélectionne. (Notez que nous devons sélectionner soigneusement les paramètres de réglage ici.) Et, pour la prédiction lorsque nous choisissons le paramètre de réglage par validation croisée, il est intuitivement logique que le filet élastique devrait mieux fonctionner que le lasso - en particulier en présence de corrélation .
Mis à part la prédiction et certaines formalités, qu'avons-nous appris? Nous avons appris le véritable soutien.
Intervalles de confiance
Il convient de souligner que beaucoup de choses ont changé au cours des 2 dernières années en ce qui concerne l'inférence valide pour le lasso. En particulier, les travaux de Lee, Sun, Sun et Taylor fournissent une inférence exacte pour les coefficients du lasso conditionnels à la sélection du modèle donné. (Les résultats sur l'inférence au lasso pour les vrais coefficients étaient connus au moment de la publication de OP, et ils sont bien résumés dans le document lié.)
la source
Ce que vous faites avec un élastique, une arête ou un lasso, en utilisant la validation croisée pour choisir les paramètres de régularisation, ajuste une forme linéaire pour optimiser la prédiction . Pourquoi ces paramètres de régularisation particuliers? Parce qu'ils fonctionnent mieux pour la prédiction de nouvelles données. Le rétrécissement des estimations des coefficients vers zéro, introduisant un biais (comme c'est le cas pour Ridge ou Lasso) peut réduire le sur-ajustement et la variance de rétrécissement . L'idée est que vos paramètres de pénalité trouvent le bon équilibre afin d'optimiser la prédiction sur les nouvelles données.
Imaginez que le processus de génération de données est:
Soit notre estimation des paramètres , et notre prévision pour l'observation la ß y jjβ^ β y^j j
Comment devez-vous présenter vos résultats? Cela dépend de votre question de recherche sous-jacente! Vous pouvez pas en arrière et réfléchir profondément à ce que la question que vous essayez de répondre. De quoi votre public se soucie-t-il? Qu'essayez-vous de faire?
Il est important de distinguer deux types de questions de recherche:
Les techniques d'apprentissage automatique standard peuvent être extrêmement puissantes pour les anciens problèmes de prédiction . Comme vous semblez le reconnaître, les techniques standard d'apprentissage automatique standard peuvent être extrêmement problématiques pour , problèmes d'estimation des paramètres: βy^ β^
Et comme vous le reconnaissez, il peut y avoir des problèmes dans l' interprétation pourquoi certains travaux de paramétrage d'apprentissage de la machine. Votre public est-il à l'aise avec une boîte noire de prédiction? Ou comment la prédiction fonctionne-t-elle au cœur de votre question?
Lasso et Ridge: raisons classiques de les utiliser
Vous pouvez utiliser un filet élastique pour l'apprentissage automatique classique, les problèmes de prédiction, les situations où votre principale préoccupation est . Dans un certain sens, la régularisation vous permet d'inclure plus de prédicteurs tout en gardant le sur-ajustement sous contrôle.y^
Vous pouvez utiliser la régularisation pour éviter le sur-ajustement. Par exemple. la régression de crête dans le contexte de l'ajustement de courbe polynomiale peut très bien fonctionner.
Comme le souligne @Benjamin dans sa réponse, Lasso peut également être utilisé pour la sélection de variables. Dans certaines conditions de régularité, Lasso sélectionnera systématiquement le modèle approprié: les coefficients non pertinents seront mis à zéro.
Les pénalités et , respectivement de Lasso et Ridge, biaisent les estimations de coefficient vers zéro. Si le biais est important, cela pourrait être un problème grave si vous essayez d'interpréter des estimations de coefficient. Et pour obtenir des estimations d'erreur standard, vous devez faire quelque chose comme le bootstrap; il n'y a pas de solutions simples sous forme fermée (à ma connaissance). La crête, le lasso et le filet élastique ont des similitudes avec la régression OLS régulière, mais la régularisation et la sélection des variables rendent l'inférence assez différente ...L 2L1 L2
Ce que je reviens toujours, c'est qu'il est assez difficile d'interpréter les résultats de la régression de crête, du lasso ou du filet élastique sans un peu plus de contexte de ce que vous essayez de comprendre!
Le professeur Sendhil Mullainathan a donné une conférence sur l'apprentissage automatique lors de la réunion AFA de janvier 2017 qui a motivé certaines parties de ce post.
la source