Détermination de la taille de l'échantillon en toute sécurité pour les tests A / B

Je suis un ingénieur logiciel qui cherche à construire un outil de test A / B. Je n'ai pas une solide expérience en statistiques, mais j'ai fait pas mal de lecture au cours des derniers jours.

Je suis la méthodologie décrite ici et résumerai les points pertinents ci-dessous.

L'outil permettra aux concepteurs et aux experts de domaine de configurer un site Web pour répartir le trafic reçu à une URL spécifique entre deux ou plusieurs URL. Par exemple, le trafic arrivant sur http://example.com/hello1 peut être réparti entre http://example.com/hello1 et http://example.com/hello2 . Le trafic serait réparti également entre les URL cibles et les performances des processus marketing à chacune des URL cibles seront comparées.

Dans cette expérience, la taille de l'échantillon Ncorrespondra aux visiteurs. Le test mesurera les «conversions», un terme décrivant quand un visiteur s'engage dans une action spécifique dans un processus de marketing. Les conversions sont exprimées en pourcentages et un taux de conversion plus élevé est souhaitable. Cela fait du test une comparaison de proportions indépendantes. L'outil doit pouvoir être facilement utilisé pour produire des tests avec des résultats sûrs. Il Nest important de sélectionner une valeur appropriée pour .

Dans l'article lié ci-dessus, une analyse de puissance de deux proportions indépendantes est utilisée pour trouver N. Cette méthode nécessite de connaître à l'avance le taux de conversion du contrôle et de spécifier l'amélioration de conversion souhaitée. Il spécifie également un niveau de signification de 95% et une puissance statistique de 80%.

Des questions:

Est-ce cette méthode de détermination du Nson? Dans l'affirmative, quelle est la manière la plus sûre de déterminer le taux de conversion du contrôle avant de commencer le test?
Existe-t-il des moyens solides de déterminer Nqui n'exigent pas que l'on connaisse à l'avance les taux de conversion du contrôle?
La méthodologie de l' article lié est-elle solide? Sinon, existe-t-il des méthodes accessibles et facilement digestibles auxquelles vous pourriez me lier?

hypothesis-testing statistical-significance proportion ab-test jkndrkn
la source

Réponses:

La méthode la plus courante pour effectuer ce type de test consiste à utiliser des intervalles de confiance de proportion binomiale (voir http://bit.ly/fa2K7B )

Vous ne pourrez jamais connaître le "vrai" taux de conversion des deux chemins, mais cela vous donnera la possibilité de dire quelque chose à l'effet "Avec une confiance de 99%, A est plus efficace à convertir que B".

Par exemple: Supposons que vous avez effectué 1000 essais sur le chemin A. Sur ces 1000 essais, 121 ont été des conversions réussies (taux de conversion de 0,121) et nous aimerions un intervalle de confiance de 99% autour de ce résultat 0,121. Le score z pour les intervalles de confiance à 99% est de 2,576 (il suffit de le rechercher dans un tableau), donc selon la formule: Donc, avec une confiance de 99%, nous pouvons dire que , où est le "vrai" taux de conversion du processus A.

\begin{aligned} \hat{p} & \pm 2,576 (\sqrt{\frac{0,121 * (1 - 0,121)}{1000}}) \\ \hat{p} & \pm 0,027 \end{aligned}

$\begin{aligned} \hat p &\pm 2.576\left(\sqrt{\frac{0.121 * (1 - 0.121)}{1000}}\right) \\ \hat p &\pm 0.027 \end{aligned}$

0.094 \leq \hat{p} \leq 0.148

$0.094 \le \hat p \le 0.148$

\hat{p}

$\hat p$

Si nous construisons un intervalle similaire pour le processus B, nous pouvons comparer les intervalles. Si les intervalles ne se chevauchent pas, nous pouvons dire avec une confiance de 98% que l'un est meilleur que l'autre. (N'oubliez pas que nous ne sommes sûrs qu'à 99% de chaque intervalle, donc notre confiance globale à propos de la comparaison est de 0,99 * 0,99)

Si les intervalles se chevauchent, nous devons exécuter plus d'essais, ou décider qu'ils sont trop similaires dans les performances pour les distinguer, ce qui nous amène à la partie délicate - déterminer , le nombre d'essais. Je ne connais pas d'autres méthodes, mais avec cette méthode, vous ne pourrez pas déterminer à l'avance à moins d'avoir une estimation précise des performances de A et B à l'avance. Sinon, vous devrez simplement effectuer des essais jusqu'à ce que vous obteniez des échantillons afin que les intervalles se séparent. $N$ $N$

Bonne chance à vous. (Je suis enraciné pour le processus B, soit dit en passant).

ronny
la source

L A T E X

$\LaTeX$

\hat{p}

$\hat p$

ronny, vous avez raison en général (pas seulement pour cette procédure): les intervalles de confiance et, par conséquent, la taille de l'échantillon requise sont extrêmement sensibles aux vraies proportions pour A et B.Suivi peut-être plus précisément du commentaire de @ gung: que vous (et par conséquent dans votre édition) utilisez à la fois pour la vraie proportion (dans ) et pour l'estimation ponctuelle de l'observation. J'aurais écrit les deux supérieur (calculé à partir de l'observation), mais les deux inférieurs sans chapeau (pour la vraie proportion).

\hat{p}

$\hat p$

0.094 \leq \hat{p} \leq 0.148

$0.094 \leq \hat p \leq 0.148$

\frac{s u c e s s e s}{t r i a l s}

$\frac{sucesses}{trials}$

\hat{p}

$\hat p$

p

$p$

cbeleites prend en charge Monica

Cette réponse est incorrecte. Plus précisément: "Si les intervalles ne se chevauchent pas, alors nous pouvons dire avec une confiance de 98% que l'un est meilleur que l'autre" est faux. Étant donné deux intervalles de confiance de 99% non superposés, la confiance que la différence exclut 0 au moins 99%. Si les intervalles sont de la même taille, la différence est significative autour du niveau de 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf

Bscan

@Bscan Votre commentaire vaut-il pour d'autres valeurs? Par exemple, est-il exact de dire (selon votre recommandation) que la différence des moyennes est d'au moins 30% si nous avons deux intervalles de confiance de 30% sans chevauchement de la même taille?

Felipe Almeida

@Felipe, oui, le commentaire est valable pour toutes les valeurs et les intervalles de confiance non chevauchants à 30% impliquent que la différence que la différence exclut 0 est d'au moins 30%. Cela ne signifie cependant pas qu'il existe une différence de 30% dans les moyens. Les vrais moyens peuvent être très similaires; nous essayons simplement de prouver qu'ils ne sont pas exactement les mêmes.

Bscan

À mon humble avis, dans la mesure où il va, le poste va dans la bonne direction. Toutefois:

La méthode proposée fait implicitement deux hypothèses: le taux de conversion de référence et la quantité attendue de changement. La taille de l'échantillon dépend beaucoup de la qualité avec laquelle vous répondez à ces hypothèses. Je vous recommande de calculer les tailles d'échantillon requises pour plusieurs combinaisons de p1 et p2 que vous jugez réalistes. Cela vous donnera une idée de la fiabilité réelle du calcul de la taille de l'échantillon.
```
> power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)

     Two-sample comparison of proportions power calculation 

              n = 14750.79
             p1 = 0.1
             p2 = 0.11
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 NOTE: n is number in *each* group 

> power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)

     Two-sample comparison of proportions power calculation 

              n = 16582.2
             p1 = 0.09
             p2 = 0.099
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 NOTE: n is number in *each* group 
```
Donc, si le taux de conversion réel est de 9% au lieu de 10%, vous avez besoin de 2000 autres cas pour chaque scénario pour détecter le taux de conversion de 10% plus que de référence du nouveau formulaire.

Une fois le test terminé, vous pouvez calculer les intervalles de confiance pour les proportions en fonction de vos observations réelles.

$n$
$n$ sig.level

cbeleites soutient Monica
la source

Salut, merci beaucoup d'avoir pris le temps de critiquer ces méthodes. Dans le calcul (1 - α) ² ≈ 10%, à quoi se réfère "α"? Étant donné que la capture des données de test prend beaucoup de temps, comment proposez-vous que l'on devrait construire cette expérience si l'on veut tester trois proportions? Existe-t-il un moyen sûr de le faire qui n'implique pas d'exécuter plusieurs tests? Avec trois alternatives, trois tests ne sont pas terriblement lourds, mais avec quatre alternatives, le nombre de combinaisons peut atteindre six.

jkndrkn

@jkndrkn: α est la probabilité de s'écarter faussement de la forme originale, alias erreur α ou erreur de type I. Voir la réponse mise à jour.

cbeleites prend en charge Monica

@jkndrkn: Tests multiples: je consulterais Fleiss et.al .: Méthodes statistiques pour les taux et les proportions sur les procédures de ces tests. Cependant, le point clé de ces tests multiples est toujours d'utiliser des connaissances d'experts pour réduire autant que possible le nombre d'alternatives avant de définir le test car les tailles d'échantillon requises explosent avec le nombre d'alternatives (comme vous l'avez déjà réalisé).

cbeleites prend en charge Monica

-1

Au lieu de calculer des intervalles qui se chevauchent, vous calculez le score Z. Ceci est algorithmiquement plus facile à implémenter et vous obtiendrez des bibliothèques statistiques pour vous aider.

Jetez un œil: https://onlinecourses.science.psu.edu/stat200/node/53

Shambhu
la source