Je connais les avantages de la régularisation lors de la construction de modèles prédictifs (biais vs variance, prévention du sur-ajustement). Mais, je me demande si c'est une bonne idée de faire aussi de la régularisation (lasso, crête, filet élastique) lorsque le but principal du modèle de régression est l'inférence sur les coefficients (voir quels prédicteurs sont statistiquement significatifs). J'adorerais entendre les pensées des gens ainsi que des liens vers des revues académiques ou des articles non académiques traitant de cela.
18
Réponses:
Le terme "régularisation" recouvre une très grande variété de méthodes. Aux fins de cette réponse, je vais restreindre pour signifier "optimisation pénalisée", c'est-à-dire ajouter une pénalité ou L 2 à votre problème d'optimisation.L1 L2
Si tel est le cas, alors la réponse est un "oui! Bien un peu".
La raison en est que l'ajout d'une pénalité ou L 2 à la fonction de vraisemblance conduit exactement à la même fonction mathématique que l'ajout d'un Laplace ou d'un Gaussien a avant une probabilité d'obtenir la distribution postérieure (pas d'ascenseur: la distribution antérieure décrit l'incertitude des paramètres avant de voir les données, la distribution postérieure décrit l'incertitude des paramètres après avoir vu les données), ce qui conduit à des statistiques bayésiennes 101. Les statistiques bayésiennes sont très populaires et effectuées tout le temps dans le but d'inférer des effets estimés.L1 L2
C'était le "Oui!" partie. Le "bien" est que l' optimisation de votre distribution postérieure est effectuée et s'appelle l'estimation "Maximum A Posterior" (MAP). Mais la plupart des bayésiens n'utilisent pas d'estimation MAP, ils échantillonnent à partir de la distribution postérieure en utilisant des algorithmes MCMC! Cela présente plusieurs avantages, l'un étant qu'il tend à avoir moins de biais vers le bas dans les composantes de la variance.
Par souci de concision, j'ai essayé de ne pas entrer dans les détails des statistiques bayésiennes, mais si cela vous intéresse, c'est le point de départ.
la source
Il y a une différence majeure entre effectuer une estimation en utilisant des pénalités de type crête et des pénalités de type lasso. Les estimateurs de type crête tendent à rétrécir tous les coefficients de régression vers zéro et sont biaisés, mais ont une distribution asymptotique facile à déduire car ils ne réduisent aucune variable à exactement zéro. Le biais dans les estimations de la crête peut être problématique lors des tests d'hypothèse ultérieurs, mais je ne suis pas un expert en la matière. D'un autre côté, les pénalités de type Lasso / filet élastique réduisent de nombreux coefficients de régression à zéro et peuvent donc être considérées comme des techniques de sélection de modèle. Le problème de l'inférence sur des modèles qui ont été sélectionnés sur la base de données est généralement appelé problème d'inférence sélective ou inférence post-sélection. Ce domaine a connu de nombreux développements ces dernières années.
De même, le Lasso (ou filet élastique) contraint l'espace d'échantillonnage de manière à garantir que le modèle sélectionné a été sélectionné. Cette troncature est plus compliquée, mais peut être décrite analytiquement.
Sur la base de ces informations, on peut effectuer une inférence basée sur la distribution tronquée des données pour obtenir des statistiques de test valides. Pour les intervalles de confiance et les statistiques de test, voir les travaux de Lee et al.: Http://projecteuclid.org/euclid.aos/1460381681
Leurs méthodes sont implémentées dans le package R selectiveInference .
L'estimation optimale (et le test) après la sélection du modèle est discutée dans (pour le lasso): https://arxiv.org/abs/1705.09417
et leur progiciel (beaucoup moins complet) est disponible sur: https://github.com/ammeir2/selectiveMLE
la source
Je recommanderais particulièrement LASSO si vous essayez d'utiliser la régression pour l'inférence basée sur "quels prédicteurs sont statistiquement significatifs" - mais pas pour la raison à laquelle vous pourriez vous attendre.
En pratique, les prédicteurs d'un modèle ont tendance à être corrélés. Même s'il n'y a pas de multicolinéarité substantielle, le choix par la régression de prédicteurs «significatifs» parmi l'ensemble des prédicteurs corrélés peut varier considérablement d'un échantillon à l'autre.
Alors oui, allez-y et faites LASSO pour votre régression. Ensuite, répétez le processus complet de construction du modèle (y compris la validation croisée pour choisir la pénalité LASSO) sur plusieurs échantillons de bootstrap (quelques centaines ou plus) à partir des données d'origine. Découvrez à quel point l'ensemble des prédicteurs "significatifs" sélectionnés de cette manière peut être variable.
À moins que vos prédicteurs soient très orthogonaux les uns aux autres, ce processus devrait vous faire réfléchir à deux fois sur l'interprétation des valeurs de p dans une régression en fonction desquelles les prédicteurs individuels sont "significativement" importants.
la source