En utilisant le bootstrap, je calcule les valeurs de p des tests de signification en utilisant deux méthodes:
- rééchantillonnage sous l'hypothèse nulle et comptage des résultats au moins aussi extrêmes que le résultat provenant des données originales
- rééchantillonnage sous l'hypothèse alternative et comptage des résultats au moins aussi éloignés du résultat d'origine que la valeur correspondant à l'hypothèse nulle
Je crois que le 1 er approche est tout à fait correcte car il suit la définition de la valeur ap. Je suis moins sûr de la seconde, mais cela donne généralement des résultats très similaires et me rappelle un test de Wald.
Ai-je raison? Les deux méthodes sont-elles correctes? Sont-ils identiques (pour les grands échantillons)?
Exemples pour les deux méthodes (modifications après les questions de DWin et la réponse d'Erik):
Exemple 1. Construisons un test d'amorçage similaire aux deux exemples de test T. La méthode 1 rééchantillonnera à partir d'un échantillon (obtenu en regroupant les deux originaux). La méthode 2 rééchantillonnera indépendamment des deux échantillons.Exemple 2. Construisons un test bootstrap de corrélation entre x₁… xₐ et y₁… yₐ. La méthode 1 ne supposera aucune corrélation et rééchantillonnera en tenant compte des paires (xₑ, yₔ) où e ≠ ə. La méthode 2 compilera un échantillon d'amorçage des paires originales (x, y).
Exemple 3. Construisons un test de bootstrap pour vérifier si une pièce est juste. La méthode 1 créera des échantillons aléatoires en réglant Pr (tête) = Pr (queue) = ½. La méthode 2 permettra de rééchantillonner l'échantillon de valeurs expérimentales tête / queue et de comparer les proportions à ½.
Réponses:
La première approche est classique et fiable mais ne peut pas toujours être utilisée. Pour obtenir des échantillons de bootstrap en supposant l'hypothèse nulle, vous devez soit être prêt à supposer une distribution théorique à tenir ( c'est votre première option ), soit à supposer que votre statistique d'intérêt a la même forme distributionnelle lorsqu'elle est déplacée vers l'hypothèse nulle ( votre deuxième option ). Par exemple, dans l'hypothèse habituelle, la distribution t a la même forme lorsqu'elle est déplacée vers une autre moyenne. Cependant, lorsque vous modifiez la fréquence nulle de 0,5 d'une distribution binomiale à 0,025, la forme change également.
D'après mon expérience, sinon dans le cas où vous êtes prêt à faire ces hypothèses, vous avez souvent aussi d'autres options. Dans votre exemple 1) où vous semblez supposer que les deux échantillons auraient pu provenir de la même population de base, un test de permutation serait mieux à mon avis.
Il existe une autre option (que vous semblez être votre 2e choix) qui est basée sur les intervalles de confiance du bootstrap. Fondamentalement, cela suppose que si votre couverture déclarée maintient que la signification à un niveau de équivaut à l'hypothèse nulle non incluse dans l' intervalle de confiance . Voir par exemple cette question: Quelle est la différence entre les intervalles de confiance et les tests d'hypothèse?α (1−α)
Il s'agit d'une méthode très flexible et applicable à de nombreux tests. Cependant, il est très important de construire de bons intervalles de confiance bootstrap et pas simplement d'utiliser des approximations de Wald ou la méthode des centiles. Quelques informations sont ici: intervalle de confiance basé sur Bootstrap
la source