couverture des intervalles de confiance avec des estimations régularisées

21

Supposons que j'essaie d'estimer un grand nombre de paramètres à partir de données de grande dimension, en utilisant une sorte d'estimations régularisées. Le régularisateur introduit un certain biais dans les estimations, mais il peut toujours être un bon compromis car la réduction de la variance devrait plus que compenser.

Le problème survient lorsque je veux estimer les intervalles de confiance (par exemple en utilisant l'approximation de Laplace ou le bootstrap). Plus précisément, le biais dans mes estimations entraîne une mauvaise couverture dans mes intervalles de confiance, ce qui rend difficile la détermination des propriétés fréquentistes de mon estimateur.

J'ai trouvé quelques articles discutant de ce problème (par exemple "Intervalles de confiance asymptotiques dans la régression de crête basée sur l'expansion d'Edgeworth" ), mais les calculs sont surtout au-dessus de ma tête. Dans le document lié, les équations 92-93 semblent fournir un facteur de correction pour les estimations qui ont été régularisées par régression de crête, mais je me demandais s'il y avait de bonnes procédures qui fonctionneraient avec une gamme de régularisateurs différents.

Même une correction de premier ordre serait extrêmement utile.

David J. Harris
la source
4
+1 question opportune et importante - même si je ne suis pas sûr que quiconque puisse actuellement répondre à cette question par l'affirmative (je suppose que nous ne savons tout simplement pas comment le faire correctement et si je le savais, j'aurais quelques annales de Documents statistiques alignés). Question connexe: stats.stackexchange.com/questions/91462/… Nous savons que l'amorçage fonctionne uniquement dans de telles situations, mais cela n'aidera pas.
Momo
Merci pour le lien. Pourriez-vous clarifier ce que vous vouliez dire concernant l'amorçage?
David J. Harris
De plus, je garde l'espoir que quelqu'un puisse avoir des méthodes qui fonctionnent bien pour les régularisateurs non clairsemés. J'imagine que la pénalité L1 rend les choses particulièrement difficiles à cause de toutes les estimations accumulées à zéro. Merci encore.
David J. Harris
1
c
1
L'article de Ruben Dezeure, Peter Bühlmann, Lukas Meier et Nicolai Meinshausen est, à ma connaissance, le compte rendu le plus récent et le plus complet sur l'inférence dans un cadre de grande dimension.
NRH

Réponses:

4

Il existe un article récent qui répond précisément à votre question (si vous souhaitez effectuer une régression sur vos données, si je comprends bien) et, heureusement, fournit des expressions faciles à calculer (intervalles de confiance et test d'hypothèse pour la régression à haute dimension).

En outre, vous pouvez être intéressé par les travaux récents de Peter Bühlmann sur ce même sujet. Mais je crois que le premier article vous fournit ce que vous cherchez, et le contenu est plus facile à digérer (je ne suis pas non plus un statisticien).

jpmuc
la source
+1 Papier intéressant. Il semble donc qu'il y ait au moins trois idées concurrentes sur la façon d'aborder ces problèmes et d'après ce que je peux voir, ils ne sont pas étroitement liés. Ensuite, il y a aussi le théorème d'impossibilité de journals.cambridge.org/action/…. Il sera intéressant de voir comment cela se passe et ce qui émerge comme canonique.
Momo
Merci. Ce n'est peut-être pas quelque chose que je suis en mesure de mettre en œuvre, mais il semble que les calculs fonctionnent pour une variété d'estimations régularisées.
David J. Harris
1

http://cran.r-project.org/web/packages/hdi/index.html

C'est ce que vous cherchez?

Description
Computes confidence intervals for the l1-norm of groups of regression parameters in a hierarchical
clustering tree.
Tagar
la source
J'espérais quelque chose qui fonctionnerait pour une variété de régularisateurs (pour la plupart non clairsemés). Merci quand même.
David J. Harris