Le contexte
C'est un peu similaire à cette question , mais je ne pense pas que ce soit un doublon exact.
Lorsque vous recherchez des instructions sur la façon d'effectuer un test d'hypothèse de bootstrap, il est généralement indiqué qu'il est correct d'utiliser la distribution empirique pour les intervalles de confiance, mais que vous devez démarrer correctement la distribution sous l'hypothèse nulle pour obtenir un p- valeur. À titre d'exemple, voir la réponse acceptée à cette question . Une recherche générale sur Internet semble surtout donner des réponses similaires.
La raison de ne pas utiliser une valeur de p basée sur la distribution empirique est que la plupart du temps nous n'avons pas d'invariance de translation.
Exemple
Permettez-moi de donner un court exemple. Nous avons une pièce et nous voulons faire un test unilatéral pour voir si la fréquence des têtes est supérieure à 0,5
Nous effectuons essais et obtenons têtes. La vraie valeur de p pour ce test serait .
D'un autre côté, si nous bootstrapons nos 14 têtes sur 20, nous échantillonnons efficacement à partir de la distribution binomiale avec et . En déplaçant cette distribution en soustrayant 0,2, nous obtiendrons un résultat à peine significatif lors du test de notre valeur observée de 0,7 par rapport à la distribution empirique obtenue.
Dans ce cas, l'écart est très faible, mais il s'agrandit lorsque le taux de réussite contre lequel nous testons est proche de 1.
Question
Maintenant, permettez-moi d'en venir au vrai point de ma question: le même défaut vaut également pour les intervalles de confiance. En fait, si un intervalle de confiance a le niveau de confiance déclaré alors l'intervalle de confiance ne contenant pas le paramètre sous l'hypothèse nulle équivaut à rejeter l'hypothèse nulle à un niveau de signification de .
Pourquoi les intervalles de confiance basés sur la distribution empirique sont-ils largement acceptés et la valeur de p non?
Y a-t-il une raison plus profonde ou les gens ne sont-ils pas aussi conservateurs avec des intervalles de confiance?
Dans cette réponse, Peter Dalgaard donne une réponse qui semble être en accord avec mon argument. Il dit:
Il n'y a rien de particulièrement faux dans cette ligne de raisonnement, ou du moins pas (bien) pire que le calcul de CI.
D'où vient (beaucoup)? Cela implique que la génération de valeurs p de cette façon est légèrement pire, mais ne précise pas le point.
Dernières pensées
Toujours dans An Introduction to the Bootstrap par Efron et Tibshirani, ils consacrent beaucoup d'espace aux intervalles de confiance mais pas aux valeurs de p à moins qu'elles ne soient générées sous une distribution d'hypothèse nulle appropriée, à l'exception d'une ligne jetable sur l'équivalence générale de intervalles de confiance et valeurs de p dans le chapitre sur les tests de permutation.
Revenons également à la première question que j'ai liée. Je suis d'accord avec la réponse de Michael Chernick, mais encore une fois, il soutient également que les intervalles de confiance et les valeurs de p basés sur la distribution empirique du bootstrap ne sont pas non plus fiables dans certains scénarios. Cela n'explique pas pourquoi vous trouvez beaucoup de gens vous disant que les intervalles sont corrects, mais les valeurs p ne le sont pas.
Réponses:
Comme @MichaelChernick l'a dit en réponse à un commentaire sur sa réponse à une question liée :
Cette réponse abordera donc deux problèmes associés: (1) pourquoi les présentations des résultats du bootstrap semblent-elles plus fréquemment pour spécifier des intervalles de confiance (IC) plutôt que des valeurs p , comme suggéré dans la question, et (2) quand les deux valeurs p pourraient-elles être et l'IC déterminé par bootstrap peut être suspecté d'être peu fiable, ce qui nécessite une approche alternative.
Je ne connais pas de données qui soutiennent spécifiquement l'allégation dans cette question sur le premier problème. Peut-être que dans la pratique, de nombreuses estimations ponctuelles dérivées du bootstrap sont (ou du moins semblent être) si éloignées des limites de décision de test qu'il y a peu d'intérêt pour la valeur p de l'hypothèse nulle correspondante, avec un intérêt principal pour l'estimation ponctuelle elle-même et pour une mesure raisonnable de l'ampleur de sa variabilité probable.
En ce qui concerne le deuxième problème, de nombreuses applications pratiques impliquent "la distribution symétrique de la statistique de test, la statistique pivot de test, l'application de CLT, pas ou peu de paramètres de nuisance, etc." (comme dans un commentaire de @XavierBourretSicotte ci-dessus), pour laquelle il n'y a pas de difficulté. La question devient alors de savoir comment détecter les écarts potentiels par rapport à ces conditions et comment y faire face lorsqu'elles surviennent.
Ces écarts potentiels par rapport au comportement idéal sont appréciés depuis des décennies, avec plusieurs approches de bootstrap CI développées très tôt pour y faire face. Le bootstrap Studentized permet de fournir une statistique pivot , et la méthode BCa traite à la fois du biais et de l'asymétrie en termes d'obtention d'un IC plus fiable à partir des bootstraps. La transformation des données de stabilisation de la variance avant de déterminer l'IC amorcé, suivie d'une rétrotransformation à l'échelle d'origine, peut également aider.
L'exemple de cette question sur l'échantillonnage de 14 têtes sur 20 lancers à partir d'une pièce équitable est bien géré en utilisant CI de la méthode BCa; en R:
Les autres estimations de l'IC posent le problème noté d'être très près ou à la limite de la valeur de la population de 10 têtes pour 20 lancers. L'IC BCa tient compte de l'asymétrie (telle qu'introduite par l'échantillonnage binomial loin des probabilités paires), de sorte qu'elles incluent bien la valeur de la population de 10.
Mais vous devez rechercher ces écarts par rapport au comportement idéal avant de pouvoir profiter de ces solutions. Comme dans la plupart des pratiques statistiques, il peut être essentiel de regarder les données plutôt que de simplement se connecter à un algorithme. Par exemple, cette question sur l'IC pour un résultat de bootstrap biaisé montre les résultats pour les 3 premiers IC montrés dans le code ci-dessus, mais exclut l'IC BCa. Lorsque j'ai essayé de reproduire l'analyse présentée dans cette question pour inclure BCa CI, j'ai obtenu le résultat:
où «w» est impliqué dans la correction du biais. La statistique examinée a une valeur maximale fixe et l'estimation du plug-in qui a été amorcée était également intrinsèquement biaisée. Obtenir un résultat comme celui-ci devrait indiquer que les hypothèses habituelles sous-jacentes au CI amorcé sont violées.
L'analyse d'une quantité pivot évite de tels problèmes; même si une distribution empirique ne peut pas avoir de statistiques strictement pivots utiles, se rapprocher le plus possible est un objectif important. Les derniers paragraphes de cette réponse fournissent des liens vers d'autres aides, comme les graphiques de pivot pour estimer via bootstrap si une statistique (potentiellement après une certaine transformation de données) est proche de pivot, et le double bootstrap coûteux en calcul mais potentiellement décisif.
la source