J'utilise Lasso pour la sélection d'entités dans un cadre dimensionnel relativement bas (n >> p). Après avoir ajusté un modèle Lasso, je veux utiliser les covariables avec des coefficients non nuls pour ajuster un modèle sans pénalité. Je fais cela parce que je veux des estimations impartiales que Lasso ne peut pas me donner. Je voudrais également des valeurs de p et des intervalles de confiance pour l'estimation non biaisée.
J'ai du mal à trouver de la littérature sur ce sujet. La plupart de la littérature que je trouve concerne l'imposition d'intervalles de confiance aux estimations de Lasso, et non un modèle réajusté.
D'après ce que j'ai lu, le simple réaménagement d'un modèle à l'aide de l'ensemble de données conduit à des valeurs p / valeurs std irréalistes. À l'heure actuelle, le fractionnement des échantillons (dans le style de Wasserman et Roeder (2014) ou Meinshausen et al. (2009)) semble être une bonne ligne de conduite, mais je cherche plus de suggestions.
Quelqu'un a-t-il rencontré ce problème? Si oui, pourriez-vous s'il vous plaît fournir quelques suggestions.
Réponses:
Pour compléter les réponses précédentes. Vous devriez certainement consulter les travaux récents de Tibshirani et ses collègues. Ils ont développé un cadre rigoureux pour déduire les valeurs de p corrigées de la sélection et les intervalles de confiance pour les méthodes de type lasso et fournissent également un package R.
Voir:
Lee, Jason D. et al. "Inférence post-sélection exacte, avec application au lasso." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )
Taylor, Jonathan et Robert J. Tibshirani. "Apprentissage statistique et inférence sélective." Actes de l'Académie nationale des sciences 112.25 (2015): 7629-7634.
Paquet R:
https://cran.r-project.org/web/packages/selectiveInference/index.html
la source
En règle générale, le réajustement sans pénalité après avoir effectué la sélection de variables via le Lasso est considéré comme de la «tricherie» car vous avez déjà examiné les données et les valeurs de p et les intervalles de confiance qui en résultent ne sont pas valides au sens habituel.
Ainsi, jeter un œil aux données deux fois n'est pas un problème. Vous devrez voir si, pour votre problème, les conditions énoncées dans la réserve de papier ou non.
(Il y a aussi beaucoup de références utiles dans le document)
Référence:
Zhao, S., Shojaie, A., et Witten, D. (2017). Pour défendre l'indéfendable: une approche très naïve de l'inférence à haute dimension. Extrait de: https://arxiv.org/pdf/1705.05543.pdf
la source
Je voulais ajouter quelques articles de la littérature orthogonale / double apprentissage automatique qui devient populaire dans la littérature d'économétrie appliquée.
Belloni, Alexandre, Victor Chernozhukov et Christian Hansen. "Inférence sur les effets du traitement après sélection parmi des contrôles de grande dimension." The Review of Economic Studies 81.2 (2014): 608-650.
Cet article traite des propriétés théoriques d'une estimation OLS de l'effet d'une variable après avoir sélectionné les «autres» contrôles à l'aide de LASSO.
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double / debiated machine learning for treatment and structural parameters, The Econometrics Journal, Volume 21, Issue 1, 1 février 2018, Pages C1 – C68 , https://doi.org/10.1111/ectj.12097
Cela développe la théorie complète de l'utilisation d'un certain nombre de méthodes non paramétriques (algorithmes ML) pour contrôler de manière non linéaire un paramètre de nuisance de grande dimension (facteurs de confusion), puis étudier l'impact d'une covariable spécifique sur le résultat. Ils traitent de cadres partiellement linéaires et de cadres complètement paramétriques. Ils considèrent également les situations où la variable d'intérêt est confondue.
la source