Calculer la valeur p dans le bootstrap apparié

8

Je suis tombé sur un nouvel article du groupe Berkeley NLP sur les tests statistiques, An Empirical Investigation of Statistical Significance in NLP .

Il existe un pseudocode pour calculer une valeur de p dans le papier, en gros, l'idée est que l'ensemble d'échantillons de x1,x2,...,xN sont échantillonnés avec remplacement à partir des données x. alors

p-value=count(δ(xi)>2δ(x))/N, où δ(xi) est un gain métrique.

Je pouvais comprendre la formule de calcul de la valeur de p dans le document de Koehn, Tests de signification statistique pour l'évaluation de la traduction automatique , dans lequel:

p-value=count(δa(xi)<δb(xi))/N, où δa et δb sont le gain métrique pour le système a et b respectivement.

Y a-t-il une explication ou une référence pour la formule p-value=count(δ(xi)>2δ(x))/N. Les auteurs ont également noté que si la moyenne deδ(xi) est δ(x) et δ(xi) est symétrique, alors les deux formules ci-dessus sont équivalentes.

Ke Tran
la source

Réponses:

1

D'après ce que je comprends de la section 2, les auteurs semblent expliquer leur justification pour le test de bootstrap comme suit:

"le xi ont été échantillonnés à partir x, et donc leur moyenne δ(xi)ne sera pas nul comme l'exige l'hypothèse nulle; la moyenne sera plutôt de l'ordre deδ(x)... La solution est un recentrage de la moyenne - nous voulons savoir à quelle fréquence A fait plus que δ(x)mieux que prévu. Nous nous attendons à ce qu'il batB par δ(x). Par conséquent, nous comptons combien dexi avoir A battement B d'au moins δ(x). "

Les auteurs veulent tester si le gain est non nul, ils écrivent donc la valeur de p comme δ(xi)<2δ(x) , qui pourrait être réécrit 0<2δ(x)δ(xi); parce queE[δ(xi)]=δ(x) l'ERS de l'inégalité devient alors δ(x), qui est le H0 ils cherchaient à rejeter.

Sameer
la source