Utiliser la régularisation lors de l'inférence statistique

18

Je connais les avantages de la régularisation lors de la construction de modèles prédictifs (biais vs variance, prévention du sur-ajustement). Mais, je me demande si c'est une bonne idée de faire aussi de la régularisation (lasso, crête, filet élastique) lorsque le but principal du modèle de régression est l'inférence sur les coefficients (voir quels prédicteurs sont statistiquement significatifs). J'adorerais entendre les pensées des gens ainsi que des liens vers des revues académiques ou des articles non académiques traitant de cela.

user162381
la source
4
La régularisation peut être vue avec des yeux bayésiens, le lasso, par exemple, correspond à un double a priori exponentiel (avec une échelle choisie par validation croisée). Donc, une possibilité est d'aller à plein bayes.
kjetil b halvorsen
1
déterminer quels prédicteurs sont différents de zéro est ce qu'est le lasso! Si vous voulez déterminer lesquelles sont statistiquement significativement distinctes de zéro, il est extrêmement utile d'envisager des méthodes comme le lasso
user795305

Réponses:

8

Le terme "régularisation" recouvre une très grande variété de méthodes. Aux fins de cette réponse, je vais restreindre pour signifier "optimisation pénalisée", c'est-à-dire ajouter une pénalité ou L 2 à votre problème d'optimisation.L1L2

Si tel est le cas, alors la réponse est un "oui! Bien un peu".

La raison en est que l'ajout d'une pénalité ou L 2 à la fonction de vraisemblance conduit exactement à la même fonction mathématique que l'ajout d'un Laplace ou d'un Gaussien a avant une probabilité d'obtenir la distribution postérieure (pas d'ascenseur: la distribution antérieure décrit l'incertitude des paramètres avant de voir les données, la distribution postérieure décrit l'incertitude des paramètres après avoir vu les données), ce qui conduit à des statistiques bayésiennes 101. Les statistiques bayésiennes sont très populaires et effectuées tout le temps dans le but d'inférer des effets estimés.L1L2

C'était le "Oui!" partie. Le "bien" est que l' optimisation de votre distribution postérieure est effectuée et s'appelle l'estimation "Maximum A Posterior" (MAP). Mais la plupart des bayésiens n'utilisent pas d'estimation MAP, ils échantillonnent à partir de la distribution postérieure en utilisant des algorithmes MCMC! Cela présente plusieurs avantages, l'un étant qu'il tend à avoir moins de biais vers le bas dans les composantes de la variance.

Par souci de concision, j'ai essayé de ne pas entrer dans les détails des statistiques bayésiennes, mais si cela vous intéresse, c'est le point de départ.

Cliff AB
la source
2
(+1) Mais si j'ai utilisé ces priors uniquement parce qu'ils donnent de bonnes prédictions - en fait, je les ai peut-être ajustées à cet effet - alors que dois-je faire des estimations MAP ou des distributions postérieures? (Bien sûr, si j'ai suscité les priors pour représenter la connaissance des paramètres avant de voir les données, je sais exactement quoi en faire.)
Scortchi - Reinstate Monica
1
@Scortchi: c'est un très bon point: utiliser la validation croisée pour choisir les pénalités vous sort bien du cadre bayésien classique (pour autant que je sache). La construction d'un modèle avec CV pour choisir les paramètres de régularisation ne coïnciderait pas avec cette réponse, mais l'utilisation de la régularisation avec des pénalités fixes, choisies sur la base d'informations d'experts le serait.
Cliff AB
2
Un mot d'avertissement: l'approche antérieure + MCMC ne donnera des résultats valides que si les postérieurs de tous les coefficients potentiels sont examinés et rapportés. Sinon, nous sommes dans un cadre d'inférence sélective et la plupart des méthodologies d'inférence naïves seront invalides.
user3903581
1
(+1) Bonne réponse! Cependant, je pense qu'il peut être utile de clarifier la phrase "Mais la plupart des bayésiens n'utilisent pas d'estimation MAP, ils échantillonnent à partir de la distribution postérieure en utilisant des algorithmes MCMC!" Il semble que vous essayiez de dire que la plupart des Bayésiens utilisent le postérieur complet pour choisir leur estimateur. Pour voir le problème, notez qu'une estimation du MAP peut être faite à partir de l'échantillon pour la distribution postérieure.
user795305
8

Il y a une différence majeure entre effectuer une estimation en utilisant des pénalités de type crête et des pénalités de type lasso. Les estimateurs de type crête tendent à rétrécir tous les coefficients de régression vers zéro et sont biaisés, mais ont une distribution asymptotique facile à déduire car ils ne réduisent aucune variable à exactement zéro. Le biais dans les estimations de la crête peut être problématique lors des tests d'hypothèse ultérieurs, mais je ne suis pas un expert en la matière. D'un autre côté, les pénalités de type Lasso / filet élastique réduisent de nombreux coefficients de régression à zéro et peuvent donc être considérées comme des techniques de sélection de modèle. Le problème de l'inférence sur des modèles qui ont été sélectionnés sur la base de données est généralement appelé problème d'inférence sélective ou inférence post-sélection. Ce domaine a connu de nombreux développements ces dernières années.

yN(μ,1)μμ|y|>c>0cycy

De même, le Lasso (ou filet élastique) contraint l'espace d'échantillonnage de manière à garantir que le modèle sélectionné a été sélectionné. Cette troncature est plus compliquée, mais peut être décrite analytiquement.

Sur la base de ces informations, on peut effectuer une inférence basée sur la distribution tronquée des données pour obtenir des statistiques de test valides. Pour les intervalles de confiance et les statistiques de test, voir les travaux de Lee et al.: Http://projecteuclid.org/euclid.aos/1460381681

Leurs méthodes sont implémentées dans le package R selectiveInference .

L'estimation optimale (et le test) après la sélection du modèle est discutée dans (pour le lasso): https://arxiv.org/abs/1705.09417

et leur progiciel (beaucoup moins complet) est disponible sur: https://github.com/ammeir2/selectiveMLE

user3903581
la source
4

Je recommanderais particulièrement LASSO si vous essayez d'utiliser la régression pour l'inférence basée sur "quels prédicteurs sont statistiquement significatifs" - mais pas pour la raison à laquelle vous pourriez vous attendre.

En pratique, les prédicteurs d'un modèle ont tendance à être corrélés. Même s'il n'y a pas de multicolinéarité substantielle, le choix par la régression de prédicteurs «significatifs» parmi l'ensemble des prédicteurs corrélés peut varier considérablement d'un échantillon à l'autre.

Alors oui, allez-y et faites LASSO pour votre régression. Ensuite, répétez le processus complet de construction du modèle (y compris la validation croisée pour choisir la pénalité LASSO) sur plusieurs échantillons de bootstrap (quelques centaines ou plus) à partir des données d'origine. Découvrez à quel point l'ensemble des prédicteurs "significatifs" sélectionnés de cette manière peut être variable.

À moins que vos prédicteurs soient très orthogonaux les uns aux autres, ce processus devrait vous faire réfléchir à deux fois sur l'interprétation des valeurs de p dans une régression en fonction desquelles les prédicteurs individuels sont "significativement" importants.

EdM
la source
1
+1 Je suis d'accord avec tout ce qui est écrit, réponse très pragmatique mais pourquoi ne pas utiliser un filet élastique au lieu de LASSO? (étant donné que l'OP le mentionne également) La régularisation de la crête contrôlerait les corrélations entre les prédicteurs un peu plus en évidence.
usεr11852 dit Réintégrer Monic le
Il est en fait possible de calculer des valeurs p valides, des estimations et des intervalles de confiance dans des modèles qui ont été sélectionnés via le lasso OU le filet élastique, il suffit de le faire correctement.
user3903581
@ user3903581 Je ne conteste pas que l'on puisse obtenir des valeurs p fréquentes LASSO valides, dans le sens où une vraie hypothèse nulle entraînerait un coefficient si grand inférieur à, disons, 5% des échantillons répliqués. Le problème réside dans les tentatives trop fréquentes d'attribuer des inférences causales uniquement aux prédicteurs ainsi jugés "significatifs" sans tenir compte des problèmes soulevés par les prédicteurs corrélés.
EdM