J'essaie de comprendre le raisonnement en choisissant une approche de test spécifique lorsqu'il s'agit d'un test A / B simple (c'est-à-dire deux variantes / groupes avec une réponse binaire (convertie ou non). À titre d'exemple, j'utiliserai les données ci-dessous.
Version Visits Conversions
A 2069 188
B 1826 220
La réponse de haut ici est grand et parle de certaines des hypothèses sous - jacentes pour z, t et des tests chi carré. Mais ce que je trouve déroutant, c’est que différentes ressources en ligne citent des approches différentes, et vous pensez que les hypothèses pour un test A / B de base devraient être sensiblement les mêmes?
- Par exemple, cet article utilise z-score :
- Cet article utilise la formule suivante (dont je ne suis pas sûr s'il est différent du calcul zscore?):
- Ce document fait référence au test t (p 152):
Alors, quels arguments peuvent être avancés en faveur de ces différentes approches? Pourquoi aurait-on une préférence?
Pour ajouter un candidat supplémentaire, le tableau ci-dessus peut être réécrit en tant que tableau de contingence 2x2, où le test exact de Fisher (p5) peut être utilisé.
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Mais selon ce test, le test exact de Fisher ne devrait être utilisé qu'avec des échantillons plus petits (quelle est la différence?)
Et puis il y a une paire de tests t et z, un test f (et une régression logistique, mais je veux laisser cela de côté pour l'instant) ... Je me sens comme si je me noyais dans différentes approches de test, et je veux juste pouvoir argumenter les différentes méthodes dans ce cas simple de test A / B.
En utilisant les données d'exemple, je reçois les p-valeurs suivantes
https://vwo.com/ab-split-test-significance-calculator/ donne une valeur p de 0,001 (score z)
http://www.evanmiller.org/ab-testing/chi-squared.html (en utilisant le test du chi carré) donne une valeur p de 0,00259
Et dans R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
donne une valeur de p de 0,002785305
Je suppose que tous sont assez proches ...
Quoi qu'il en soit - espérons seulement une discussion saine sur les approches à utiliser pour les tests en ligne, où la taille des échantillons est généralement de plusieurs milliers, et les taux de réponse sont souvent de 10% ou moins. Mon instinct me dit d'utiliser le chi-carré, mais je veux être en mesure de dire exactement pourquoi je le choisis plutôt que parmi une multitude de façons de le faire.
Réponses:
Nous utilisons ces tests pour différentes raisons et dans différentes circonstances.
test z . Untest z suppose que nos observations sont indépendamment tirées d'une distribution normale avec unevariancemoyenne et inconnue inconnue. Untest z est utilisé principalement lorsque nous disposons de données quantitatives. (c.-à-d. poids des rongeurs, âge des individus, pression artérielle systolique, etc.) Cependant, lestests z peuvent également être utilisés pour déterminer les proportions. (c.-à-d. la proportion de personnes qui dorment au moins huit heures, etc.)z z z z
test. Untest t suppose que nos observations sont indépendamment tirées d'une distribution normale avecune variancemoyenne etinconnue inconnue. Notez qu'avec untest t , nous ne connaissons pas la variance de la population. Ceci est beaucoup plus courant que de connaître la variance de la population, donc untest t est généralement plus approprié qu'untest z , mais pratiquement, il y aura peu de différence entre les deux si la taille de l'échantillon est grande.t t t t z
Je discute sans cesse de la taille des échantillons - différentes références vous donneront différentes mesures pour déterminer si vos échantillons sont suffisamment gros. Je voudrais juste trouver une source digne de confiance, regarder leur règle et appliquer leur règle pour trouver le test que vous voulez. Je ne voudrais pas "magasiner", pour ainsi dire, jusqu'à ce que vous trouviez une règle que vous "aimez".
Est-ce que ça a du sens? J'espère que cela t'aides!
la source
Pour un test à 3 voies, vous utilisez généralement une ANOVA plutôt que 3 tests séparés. Veuillez également vérifier la correction de Bonferroni avant de procéder à plusieurs tests. Utilisez ce lien https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817
la source