Comment un fréquentiste calcule-t-il les chances que le groupe A bat le groupe B en ce qui concerne la réponse binaire

... (facultatif) dans le contexte de Google Web Optimizer.

Supposons que vous ayez deux groupes et une variable de réponse binaire. Vous obtenez maintenant le résultat suivant:

Original : 401 essais, 125 essais réussis
Combinaison16 : 441 essais, 141 essais réussis

La différence n'est pas statistiquement significative, mais on peut calculer une probabilité que Combination16 batte Original.

Pour calculer "Chance to beat Original", j'ai utilisé une approche bayésienne, c'est-à-dire effectuer une intégration bidimensionnelle de Monte Carlo sur les intervalles de confiance de style bayésien (distribution bêta, (0,0) avant). Voici le code:

trials <- 10000
resDat<-data.frame("orig"=rbeta(trials,125+1,401-125+1),
                    "opt"=rbeta(trials,144+1,441-144+1))
length(which(resDat$opt>resDat$orig))/trials

Il en résulte 0,6764.

Quelle technique un fréquentiste utiliserait-il pour calculer "Chance de battre ..."? Peut-être la fonction de puissance du test exact de Fisher?

Facultatif: contexte de Google Web Optimizer

Google Web Optimizer est un outil pour contrôler les tests multivariés ou les tests A / B. Ce n'est qu'une introduction, car cela ne devrait pas avoir d'importance pour la question elle-même.

L'exemple présenté ci-dessus est tiré de la page d'explication de Google Web Optimizer (GWO), que vous pouvez trouver ici (veuillez faire défiler la page jusqu'à la section " Estimation des taux de conversion "), en particulier de la figure 2.

Ici, GWO offre 67,8% pour "Chance to beat Original", ce qui diffère légèrement de mon résultat. Je suppose que Google utilise une approche plus fréquentiste et je me suis demandé: qu'est-ce que cela pourrait être?

EDIT: Cette question étant sur le point de disparaître (je suppose en raison de sa nature trop spécifique), je l'ai reformulée pour qu'elle soit d'intérêt général.

bayesian ab-test steffen
la source

Du point de vue fréquentiste, Original bat soit Combination, soit il ne le fait pas. Il n'y a aucune «chance» ou probabilité impliquée.

charles.y.zheng

@ charles.y.zheng hm ... vous pouvez calculer la puissance d'un test, c'est-à-dire la probabilité que l'hypothèse nulle soit rejetée en supposant les vrais paramètres. Comment appelleriez-vous cela?

steffen

@steffen: c'est ce qu'on appelle le niveau de signification, ou

α

$\alpha$ . La puissance d'un test est la fréquence à laquelle il rejette l'hypothèse nulle lorsque l'alternative est vraie.

charles.y.zheng

@ charles.y.zheng Je le savais;). Si vous pensez qu'une telle probabilité ne peut pas être calculée par les habitués, pourquoi ne pas la soumettre comme réponse. Si la communauté est d'accord, je suis heureuse de l'accepter :).

steffen

@steffen: Le niveau de signification d'un test est facile à obtenir par calcul ou simulation. Le niveau de puissance d'un test n'est défini que par rapport à une alternative spécifique. C'est pourquoi il n'est pas possible de calculer une "puissance" générale d'un test; une telle notion ne peut être définie.

charles.y.zheng

Réponses:

Je vais saisir cette occasion pour expliquer certaines questions fondamentales concernant la différence entre les statistiques fréquentistes et bayésiennes, en interprétant les pratiques fréquentistes d'un point de vue bayésien.

Dans cet exemple, nous avons observé des données $D_1$ pour l'original et les données $D_2$ pour le boîtier combiné. On suppose que ceux-ci sont générés par des variables aléatoires de Bernoulli avec des paramètres $p_1$ et $p_2$ , respectivement, et que ces paramètres proviennent des prieurs, $f_i(p_i)$ (avec cdfs $F_i(p_i)$ ). La probabilite $p_1 > p_2$ peut être calculé, comme vous l'avez souligné. C'est:

P [p_{1} > p_{2}; f_{1}, f_{2}] = \frac{\int_{0}^{1} \int_{0}^{1} I (p_{1} > p_{2}) P [D_{1} | p_{1}] P [D_{2} | p_{1}] d F_{1} (p_{1}) d F_{2} (p_{2})}{\int_{0}^{1} \int_{0}^{1} P [D_{1} | p_{1}] P [D_{2} | p_{1}] d F_{1} (p_{1}) d F_{2} (p_{2})}

$P[p_1 > p_2;f_1,f_2] = \frac{\int_0^1 \int_0^1 I(p_1 > p_2) P[D_1|p_1] P[D_2|p_1] dF_1(p_1) dF_2(p_2)}{\int_0 ^1 \int_0^1 P[D_1|p_1] P[D_2|p_1] dF_1(p_1) dF_2(p_2) }$

Ici, le bayésien choisit ses prieurs $f_1(p_1)$ et $f_2(p_2)$ (et choisira généralement le même avant pour les deux, en raison de l'interchangeabilité) et procède à l'inférence.

Le fréquentiste adopte une approche "conservatrice" lorsqu'il choisit un prieur. Les valeurs possibles de $\theta$ sont supposés connus, mais le fréquentiste a si peu confiance en sa capacité à attribuer un a priori significatif, de sorte qu'il examine efficacement tous les prieurs possibles et ne fait ensuite une déclaration inférentielle que lorsque cette déclaration inférentielle est vraie pour tous les prieurs possibles . Lorsqu'aucune inférence n'est valable sous tous les prieurs possibles, le fréquentiste reste silencieux.

Telle est la situation dans ce cas. Quand on considère les prieurs $g_{\theta_i}(p_i)$ donné par:

g_{θ_{i}} (p_{i}) = δ (θ_{i})

$g_{\theta_i}(p_i) = \delta (\theta_i)$

c'est-à-dire la masse ponctuelle concentrée à $\theta_i$ , alors on peut facilement voir que la probabilité souhaitée est

P [p_{1} > p_{2}; g_{θ_{1}}, g_{θ_{2}}] = δ_{θ_{1}, θ_{2}}

$P[p_1 > p_2;g_{\theta_1},g_{\theta_2}] = \delta_{\theta_1, \theta_2}$

c'est-à-dire, 1 lorsque $\theta_1 = \theta_2$ et 0 sinon.

Ainsi, le fréquentateur reste silencieux. (Ou, alternativement, fait la déclaration triviale: "La probabilité est comprise entre 0 et 1 ...")

charles.y.zheng
la source

Désolé je me suis trompé. J'ai finalement appris (entre autres ici ), que les fréquentistes ne sont même pas autorisés à calculer des intervalles de confiance sur des données empiriques. Par conséquent, mes idées de suivi (que je n'ai pas révélées) sur la façon dont un fréquentateur répondrait à ma question étaient également toutes fausses. Je ne suis pas sûr, cependant, depuis la question a obtenu 4, mais votre réponse pas un seul vote positif :(.

steffen

Maintenant, je ne suis pas à l'aise avec le mélange des idées bayésiennes et fréquentistes (par exemple, lorsque vous dites comment les fréquentistes traitent avec les prieurs (ce qu'ils ne font pas, n'est-ce pas?)). Peut-être que la réponse est simplement comme vous l'avez dit dans les commentaires: Un fréquentateur ne peut pas répondre à la question, car il a tort dans sa vision du monde (comme l'écrit Dikran ici ) Désolé encore de ne pas vous croire plus tôt.

steffen

Peut-être que mon interprétation n'était pas aussi courante que je le pensais, mais il n'y a rien de intrinsèquement mauvais à mettre les méthodes fréquentistes et bayésiennes sur le même pied. Voir La théorie de l'estimation ponctuelle de Lehmann et Casella, dans laquelle les méthodes fréquentistes et bayésiennes sont comparées via la théorie de la décision statistique.

charles.y.zheng