Calculer la valeur p dans le bootstrap apparié

Je suis tombé sur un nouvel article du groupe Berkeley NLP sur les tests statistiques, An Empirical Investigation of Statistical Significance in NLP .

Il existe un pseudocode pour calculer une valeur de p dans le papier, en gros, l'idée est que l'ensemble d'échantillons de $x_1,x_2,...,x_N$ sont échantillonnés avec remplacement à partir des données $x$ . alors

$\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ , où $\delta(x_i)$ est un gain métrique.

Je pouvais comprendre la formule de calcul de la valeur de p dans le document de Koehn, Tests de signification statistique pour l'évaluation de la traduction automatique , dans lequel:

$\text{p-value} = \text{count}(\delta_a(x_i) < \delta_b(x_i))/N$ , où $\delta_a$ et $\delta_b$ sont le gain métrique pour le système $a$ et $b$ respectivement.

Y a-t-il une explication ou une référence pour la formule $\text{p-value} = \text{count}(\delta(x_i) > 2\delta(x))/N$ . Les auteurs ont également noté que si la moyenne de $\delta(x_i)$ est $\delta(x)$ et $\delta(x_i)$ est symétrique, alors les deux formules ci-dessus sont équivalentes.

hypothesis-testing bootstrap p-value Ke Tran
la source

Réponses:

D'après ce que je comprends de la section 2, les auteurs semblent expliquer leur justification pour le test de bootstrap comme suit:

"le $x_i$ ont été échantillonnés à partir $x$ , et donc leur moyenne $\delta(x_i)$ ne sera pas nul comme l'exige l'hypothèse nulle; la moyenne sera plutôt de l'ordre de $\delta(x)$ ... La solution est un recentrage de la moyenne - nous voulons savoir à quelle fréquence $A$ fait plus que $\delta(x)$ mieux que prévu. Nous nous attendons à ce qu'il bat $B$ par $\delta(x)$ . Par conséquent, nous comptons combien de $x_i$ avoir $A$ battement $B$ d'au moins $\delta(x)$ . "

Les auteurs veulent tester si le gain est non nul, ils écrivent donc la valeur de p comme $\delta(x_i) < 2\delta(x)$ , qui pourrait être réécrit $0 < 2\delta(x) - \delta(x_i)$ ; parce que $E[\delta(x_i)]=\delta(x)$ l'ERS de l'inégalité devient alors $\delta(x)$ , qui est le $H_0$ ils cherchaient à rejeter.

Sameer
la source