Valeurs p bootstrap non paramétriques vs intervalles de confiance

11

Le contexte

C'est un peu similaire à cette question , mais je ne pense pas que ce soit un doublon exact.

Lorsque vous recherchez des instructions sur la façon d'effectuer un test d'hypothèse de bootstrap, il est généralement indiqué qu'il est correct d'utiliser la distribution empirique pour les intervalles de confiance, mais que vous devez démarrer correctement la distribution sous l'hypothèse nulle pour obtenir un p- valeur. À titre d'exemple, voir la réponse acceptée à cette question . Une recherche générale sur Internet semble surtout donner des réponses similaires.

La raison de ne pas utiliser une valeur de p basée sur la distribution empirique est que la plupart du temps nous n'avons pas d'invariance de translation.

Exemple

Permettez-moi de donner un court exemple. Nous avons une pièce et nous voulons faire un test unilatéral pour voir si la fréquence des têtes est supérieure à 0,5

Nous effectuons n=20 essais et obtenons k=14 têtes. La vraie valeur de p pour ce test serait p=0,058 .

D'un autre côté, si nous bootstrapons nos 14 têtes sur 20, nous échantillonnons efficacement à partir de la distribution binomiale avec n=20 et p=1420=0,7. En déplaçant cette distribution en soustrayant 0,2, nous obtiendrons un résultat à peine significatif lors du test de notre valeur observée de 0,7 par rapport à la distribution empirique obtenue.

Dans ce cas, l'écart est très faible, mais il s'agrandit lorsque le taux de réussite contre lequel nous testons est proche de 1.

Question

Maintenant, permettez-moi d'en venir au vrai point de ma question: le même défaut vaut également pour les intervalles de confiance. En fait, si un intervalle de confiance a le niveau de confiance déclaré α alors l'intervalle de confiance ne contenant pas le paramètre sous l'hypothèse nulle équivaut à rejeter l'hypothèse nulle à un niveau de signification de 1-α .

Pourquoi les intervalles de confiance basés sur la distribution empirique sont-ils largement acceptés et la valeur de p non?

Y a-t-il une raison plus profonde ou les gens ne sont-ils pas aussi conservateurs avec des intervalles de confiance?

Dans cette réponse, Peter Dalgaard donne une réponse qui semble être en accord avec mon argument. Il dit:

Il n'y a rien de particulièrement faux dans cette ligne de raisonnement, ou du moins pas (bien) pire que le calcul de CI.

D'où vient (beaucoup)? Cela implique que la génération de valeurs p de cette façon est légèrement pire, mais ne précise pas le point.

Dernières pensées

Toujours dans An Introduction to the Bootstrap par Efron et Tibshirani, ils consacrent beaucoup d'espace aux intervalles de confiance mais pas aux valeurs de p à moins qu'elles ne soient générées sous une distribution d'hypothèse nulle appropriée, à l'exception d'une ligne jetable sur l'équivalence générale de intervalles de confiance et valeurs de p dans le chapitre sur les tests de permutation.

Revenons également à la première question que j'ai liée. Je suis d'accord avec la réponse de Michael Chernick, mais encore une fois, il soutient également que les intervalles de confiance et les valeurs de p basés sur la distribution empirique du bootstrap ne sont pas non plus fiables dans certains scénarios. Cela n'explique pas pourquoi vous trouvez beaucoup de gens vous disant que les intervalles sont corrects, mais les valeurs p ne le sont pas.

Erik
la source
Je commence une prime sur cette question car je suis très intéressé à clarifier comment et quand les CI d'amorçage peuvent être utilisés pour accepter / rejeter une hypothèse. Peut-être pourriez-vous reformuler / reformater votre question pour la rendre plus concise et attrayante? Merci !
Xavier Bourret Sicotte
Je pense que la plupart des gens conviendront que lorsque les hypothèses suivantes s'appliquent, alors l'utilisation du CI pour le test d'hypothèse est OK: distribution symétrique de la statistique de test, statistique de test pivot, application du CLT, pas ou peu de paramètres de nuisance, etc. mais que se passe-t-il lorsque la statistique est bizarre ou ne s'est pas avéré essentiel. Voici un exemple réel sur lequel je travaille: par exemple deux différences d'échantillon entre le 75e centile d'une statistique de ratio (ratio de deux sommes)
Xavier Bourret Sicotte
La réponse simple n'est-elle pas simplement qu'il est clair comment échantillonner sous l'hypothèse nulle, il existe donc une méthode alternative qui est clairement meilleure? L'échantillonnage sous le bootstrap se produit généralement sous la distribution empirique, donc le véritable mécanisme de génération de données, de sorte qu'il ne devrait clairement pas être utilisé au lieu de simplement échantillonner sous le zéro. Le CI amorcé est trouvé en inversant la distribution d'échantillonnage sous le véritable mécanisme de génération de données. Il est vrai que ce CI peut ne pas bien fonctionner, mais comme l'a dit Dalgaard, il n'est pas nécessairement évident de savoir comment le réparer.
jsk
Je dois préciser que la distribution empirique n'est qu'une approximation du véritable mécanisme de génération de données. La mesure dans laquelle elle n'est pas représentative de la vérité aura un impact négatif sur l'IC amorcé dans des directions inconnues conduisant à une couverture inférieure à 95%.
jsk
1
L'échantillonnage sous le zéro est clair lorsque le test est une différence de moyennes, mais dans de nombreux cas, il n'est pas évident de savoir comment reproduire le null ... par exemple, le null est que le 75e centile de deux rapports est le même ... comment puis-je déplacer les numérateurs et les dénominateurs des ratios dans chaque échantillon pour obtenir cela? De plus, comment puis-je être sûr que le déplacement des composants du rapport reproduit réellement le zéro?
Xavier Bourret Sicotte

Réponses:

3

Comme @MichaelChernick l'a dit en réponse à un commentaire sur sa réponse à une question liée :

Il existe une correspondance 1-1 en général entre les intervalles de confiance et les tests d'hypothèse. Par exemple, un intervalle de confiance à 95% pour un paramètre du modèle représente la région de non-rejet pour le test d'hypothèse de niveau correspondant à 5% concernant la valeur de ce paramètre. Il n'y a aucune exigence concernant la forme de la répartition de la population. Évidemment, si elle s'applique aux intervalles de confiance en général, elle s'appliquera aux intervalles de confiance bootstrap.

Cette réponse abordera donc deux problèmes associés: (1) pourquoi les présentations des résultats du bootstrap semblent-elles plus fréquemment pour spécifier des intervalles de confiance (IC) plutôt que des valeurs p , comme suggéré dans la question, et (2) quand les deux valeurs p pourraient-elles être et l'IC déterminé par bootstrap peut être suspecté d'être peu fiable, ce qui nécessite une approche alternative.

Je ne connais pas de données qui soutiennent spécifiquement l'allégation dans cette question sur le premier problème. Peut-être que dans la pratique, de nombreuses estimations ponctuelles dérivées du bootstrap sont (ou du moins semblent être) si éloignées des limites de décision de test qu'il y a peu d'intérêt pour la valeur p de l'hypothèse nulle correspondante, avec un intérêt principal pour l'estimation ponctuelle elle-même et pour une mesure raisonnable de l'ampleur de sa variabilité probable.

En ce qui concerne le deuxième problème, de nombreuses applications pratiques impliquent "la distribution symétrique de la statistique de test, la statistique pivot de test, l'application de CLT, pas ou peu de paramètres de nuisance, etc." (comme dans un commentaire de @XavierBourretSicotte ci-dessus), pour laquelle il n'y a pas de difficulté. La question devient alors de savoir comment détecter les écarts potentiels par rapport à ces conditions et comment y faire face lorsqu'elles surviennent.

Ces écarts potentiels par rapport au comportement idéal sont appréciés depuis des décennies, avec plusieurs approches de bootstrap CI développées très tôt pour y faire face. Le bootstrap Studentized permet de fournir une statistique pivot , et la méthode BCa traite à la fois du biais et de l'asymétrie en termes d'obtention d'un IC plus fiable à partir des bootstraps. La transformation des données de stabilisation de la variance avant de déterminer l'IC amorcé, suivie d'une rétrotransformation à l'échelle d'origine, peut également aider.

L'exemple de cette question sur l'échantillonnage de 14 têtes sur 20 lancers à partir d'une pièce équitable est bien géré en utilisant CI de la méthode BCa; en R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Les autres estimations de l'IC posent le problème noté d'être très près ou à la limite de la valeur de la population de 10 têtes pour 20 lancers. L'IC BCa tient compte de l'asymétrie (telle qu'introduite par l'échantillonnage binomial loin des probabilités paires), de sorte qu'elles incluent bien la valeur de la population de 10.

Mais vous devez rechercher ces écarts par rapport au comportement idéal avant de pouvoir profiter de ces solutions. Comme dans la plupart des pratiques statistiques, il peut être essentiel de regarder les données plutôt que de simplement se connecter à un algorithme. Par exemple, cette question sur l'IC pour un résultat de bootstrap biaisé montre les résultats pour les 3 premiers IC montrés dans le code ci-dessus, mais exclut l'IC BCa. Lorsque j'ai essayé de reproduire l'analyse présentée dans cette question pour inclure BCa CI, j'ai obtenu le résultat:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

où «w» est impliqué dans la correction du biais. La statistique examinée a une valeur maximale fixe et l'estimation du plug-in qui a été amorcée était également intrinsèquement biaisée. Obtenir un résultat comme celui-ci devrait indiquer que les hypothèses habituelles sous-jacentes au CI amorcé sont violées.

L'analyse d'une quantité pivot évite de tels problèmes; même si une distribution empirique ne peut pas avoir de statistiques strictement pivots utiles, se rapprocher le plus possible est un objectif important. Les derniers paragraphes de cette réponse fournissent des liens vers d'autres aides, comme les graphiques de pivot pour estimer via bootstrap si une statistique (potentiellement après une certaine transformation de données) est proche de pivot, et le double bootstrap coûteux en calcul mais potentiellement décisif.

EdM
la source
Merci edm! S'il y a une différence de 1 à 1 entre l'IC et le test d'hypothèse, alors pourquoi les tests d'amorçage impliquent-ils généralement de déplacer les ensembles de données pour reproduire la valeur nulle? En faisant cela, n'obtenons-nous pas des résultats différents de ceux que nous obtiendrions en calculant l'IC de la distribution de la différence par exemple?
Xavier Bourret Sicotte
@XavierBourretSicotte Je ne pense pas qu'il soit tout à fait correct que "les tests de bootstrap impliquent généralement de déplacer les jeux de données pour reproduire le null". Chaque échantillon bootstrap est une tentative de reproduire l'échantillonnage / l'expérience d'origine, en utilisant l'échantillon à portée de main pour représenter la population sous-jacente. Si la statistique en question n'est pas cruciale, cependant, l'IC développé sur les échantillons bootstrap ne représentera pas l'IC développé sur la population sous-jacente. Vous devez donc corriger la distribution de la statistique vers ce qu'elle aurait été sous le zéro, avec BCa ou d'autres approches.
EdM