Conséquences de l'inégalité de corrélation gaussienne pour le calcul des intervalles de confiance conjoints

Selon cet article très intéressant du magazine Quanta: "Une preuve longuement recherchée, trouvée et presque perdue" , - il a été prouvé que, étant donné un vecteur ayant une variable multiple Distribution gaussienne, et compte tenu des intervalles centrés autour des moyennes des composantes correspondantes de , puis $\mathbf{x}=(x_1,\dots,x_n)$ $I_1,\dots,I_n$ $\mathbf{x}$

p (x_{1} \in I_{1}, \dots, x_{n} \in I_{n}) \geq \prod_{i = 1}^{n} p (x_{i} \in I_{i})

$p(x_1\in I_1, \dots, x_n\in I_n)\geq \prod_{i=1}^n p(x_i\in I_i)$

(Inégalité de corrélation gaussienne ou GCI; voir https://arxiv.org/pdf/1512.08776.pdf pour la formulation plus générale).

Cela semble vraiment agréable et simple, et l'article dit que cela a des conséquences sur les intervalles de confiance communs. Cependant, cela me semble tout à fait inutile à cet égard. Supposons que nous estimons les paramètres , et nous avons trouvé des estimateurs qui sont (peut-être asymptotiquement) conjointement normaux (par exemple, l'estimateur MLE) . Ensuite, si je calcule des intervalles de confiance à 95% pour chaque paramètre, le GCI garantit que l'hypercube est une région de confiance conjointe avec une couverture non inférieure à ... ce qui est une couverture assez faible même pour modéré . $\theta_1,\dots,\theta_n$ $\hat{\theta_1},\dots,\hat{\theta_n}$ $I_1\times\dots I_n$ $(0.95)^n$ $n$

Ainsi, il ne semble pas être un moyen intelligent de trouver des régions de confiance conjointes: la région de confiance habituelle pour un gaussien multivarié, c'est-à-dire un hyperellipsoïde, n'est pas difficile à trouver si la matrice de covariance est connue et plus nette. Peut-être qu'il pourrait être utile de trouver des régions de confiance lorsque la matrice de covariance est inconnue? Pouvez-vous me montrer un exemple de la pertinence de GCI pour le calcul des régions de confiance conjointes?

normal-distribution confidence-interval multivariate-normal DeltaIV
la source

Vous avez la bonne idée. Les intervalles de confiance individuels doivent être bien supérieurs à 95% pour que la région articulaire atteigne 95%. Chacun doit être au moins 0,95 élevé à la 1 / nième puissance.

Michael R. Chernick

Une petite mais importante correction: les intervalles doivent tous être centrés autour de zéro, ie .

I_{k}

$I_k$

I_{k} = {x : | x | \leq x_{k}}

$I_k=\{x: |x|\leq x_k\}$

Alex R.

@amoeba Je ne suis pas préoccupé par la difficulté de la preuve, mais par sa pertinence pour les statistiques appliquées. Si la prise en compte d'un hyperrectangle permet de montrer plus facilement une telle pertinence, tant mieux. Si au contraire vous pensez que cette inégalité ne devient utile en pratique que lorsqu'un polygone arbitraire est considéré, c'est assez juste. J'accepterai une réponse qui dit "si vous ne considérez que les hyperrectangles, GCI n'est pas un outil très utile pour un statisticien appliqué, parce que ... Mais si vous considérez les polygones arbitraires, alors cela devient pertinent, parce que ..."

DeltaIV

Je voulais éditer et j'ai regardé dans les papiers avec les épreuves mais maintenant je ne suis plus sûr à 100% si l'hyperrectangle est un cas spécial / facile ou une formulation équivalente. Je vais le laisser pour l'instant et peut-être revenir ici plus tard.

amibe dit Réintégrer Monica le

les hyperrectangles centrés à l'origine (où avec centré à l'origine, je veux dire que chacun des intervalles 1D, dont le produit cartésien définit l'hyperrectangle, est symétrique par rapport à l'origine) sont certainement au moins un cas spécial (je n'ai aucune idée s'ils sont un cas équivalent). Selon l'article d'arXiv, l'inégalité est valable pour tous les ensembles convexes symétriques. Un hyperrectangle est un ensemble convexe, et s'il est centré à l'origine dans le sens défini ci-dessus, alors il est symétrique, c'est-à-dire .

H

$H$

x = (x_{1}, \dots, x_{n}) \in H ⟺ - x \in H

$\mathbf{x}=(x_1,\dots,x_n)\in H \iff -\mathbf{x} \in H$

DeltaIV

Je pense que la question est plus pertinente. Dans un certain sens, vous examinez les tests d'hypothèses multiples et vous les comparez à l'exécution de tests d'hypothèses multiples.

Oui, en effet, il existe une borne inférieure qui est le produit des valeurs de p des tests en supposant l'indépendance. C'est la base des ajustements des valeurs de p dans les tests multi-hypothèses tels que les ajustements de Bonferroni ou Holm. Mais les ajustements de Bonferroni et Holm (en supposant l'indépendance) sont des tests de puissance particulièrement faibles.

On peut faire beaucoup mieux dans la pratique (et cela se fait via Bootstrap, voir par exemple, Bootstrap Reality Check de H White, les articles de Romano-Wolf et l'ensemble plus récent d'articles sur les ensembles de confiance de modèle). Chacun d'eux est une tentative de test d'hypothèse de puissance plus élevée (par exemple, en utilisant la corrélation estimée pour faire mieux que de simplement utiliser cette borne inférieure) et, par conséquent, beaucoup plus pertinent.

NBF
la source

Conséquences de l'inégalité de corrélation gaussienne pour le calcul des intervalles de confiance conjoints

Réponses: