... (facultatif) dans le contexte de Google Web Optimizer.
Supposons que vous ayez deux groupes et une variable de réponse binaire. Vous obtenez maintenant le résultat suivant:
- Original : 401 essais, 125 essais réussis
- Combinaison16 : 441 essais, 141 essais réussis
La différence n'est pas statistiquement significative, mais on peut calculer une probabilité que Combination16 batte Original.
Pour calculer "Chance to beat Original", j'ai utilisé une approche bayésienne, c'est-à-dire effectuer une intégration bidimensionnelle de Monte Carlo sur les intervalles de confiance de style bayésien (distribution bêta, (0,0) avant). Voici le code:
trials <- 10000
resDat<-data.frame("orig"=rbeta(trials,125+1,401-125+1),
"opt"=rbeta(trials,144+1,441-144+1))
length(which(resDat$opt>resDat$orig))/trials
Il en résulte 0,6764.
Quelle technique un fréquentiste utiliserait-il pour calculer "Chance de battre ..."? Peut-être la fonction de puissance du test exact de Fisher?
Facultatif: contexte de Google Web Optimizer
Google Web Optimizer est un outil pour contrôler les tests multivariés ou les tests A / B. Ce n'est qu'une introduction, car cela ne devrait pas avoir d'importance pour la question elle-même.
L'exemple présenté ci-dessus est tiré de la page d'explication de Google Web Optimizer (GWO), que vous pouvez trouver ici (veuillez faire défiler la page jusqu'à la section " Estimation des taux de conversion "), en particulier de la figure 2.
Ici, GWO offre 67,8% pour "Chance to beat Original", ce qui diffère légèrement de mon résultat. Je suppose que Google utilise une approche plus fréquentiste et je me suis demandé: qu'est-ce que cela pourrait être?
EDIT: Cette question étant sur le point de disparaître (je suppose en raison de sa nature trop spécifique), je l'ai reformulée pour qu'elle soit d'intérêt général.
Réponses:
Je vais saisir cette occasion pour expliquer certaines questions fondamentales concernant la différence entre les statistiques fréquentistes et bayésiennes, en interprétant les pratiques fréquentistes d'un point de vue bayésien.
Dans cet exemple, nous avons observé des donnéesD1 pour l'original et les données D2 pour le boîtier combiné. On suppose que ceux-ci sont générés par des variables aléatoires de Bernoulli avec des paramètresp1 et p2 , respectivement, et que ces paramètres proviennent des prieurs, fi(pi) (avec cdfs Fi(pi) ). La probabilitep1>p2 peut être calculé, comme vous l'avez souligné. C'est:
Ici, le bayésien choisit ses prieursf1(p1) et f2(p2) (et choisira généralement le même avant pour les deux, en raison de l'interchangeabilité) et procède à l'inférence.
Le fréquentiste adopte une approche "conservatrice" lorsqu'il choisit un prieur. Les valeurs possibles deθ sont supposés connus, mais le fréquentiste a si peu confiance en sa capacité à attribuer un a priori significatif, de sorte qu'il examine efficacement tous les prieurs possibles et ne fait ensuite une déclaration inférentielle que lorsque cette déclaration inférentielle est vraie pour tous les prieurs possibles . Lorsqu'aucune inférence n'est valable sous tous les prieurs possibles, le fréquentiste reste silencieux.
Telle est la situation dans ce cas. Quand on considère les prieursgθi(pi) donné par:
c'est-à-dire la masse ponctuelle concentrée àθi , alors on peut facilement voir que la probabilité souhaitée est
c'est-à-dire, 1 lorsqueθ1=θ2 et 0 sinon.
Ainsi, le fréquentateur reste silencieux. (Ou, alternativement, fait la déclaration triviale: "La probabilité est comprise entre 0 et 1 ...")
la source