Tests A / B: test z vs test t vs test khi carré vs test exact de Fisher

38

J'essaie de comprendre le raisonnement en choisissant une approche de test spécifique lorsqu'il s'agit d'un test A / B simple (c'est-à-dire deux variantes / groupes avec une réponse binaire (convertie ou non). À titre d'exemple, j'utiliserai les données ci-dessous.

Version  Visits  Conversions
A        2069     188
B        1826     220

La réponse de haut ici est grand et parle de certaines des hypothèses sous - jacentes pour z, t et des tests chi carré. Mais ce que je trouve déroutant, c’est que différentes ressources en ligne citent des approches différentes, et vous pensez que les hypothèses pour un test A / B de base devraient être sensiblement les mêmes?

  1. Par exemple, cet article utilise z-score :entrez la description de l'image ici
  2. Cet article utilise la formule suivante (dont je ne suis pas sûr s'il est différent du calcul zscore?):

entrez la description de l'image ici

  1. Ce document fait référence au test t (p 152):

entrez la description de l'image ici

Alors, quels arguments peuvent être avancés en faveur de ces différentes approches? Pourquoi aurait-on une préférence?

Pour ajouter un candidat supplémentaire, le tableau ci-dessus peut être réécrit en tant que tableau de contingence 2x2, où le test exact de Fisher (p5) peut être utilisé.

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Mais selon ce test, le test exact de Fisher ne devrait être utilisé qu'avec des échantillons plus petits (quelle est la différence?)

Et puis il y a une paire de tests t et z, un test f (et une régression logistique, mais je veux laisser cela de côté pour l'instant) ... Je me sens comme si je me noyais dans différentes approches de test, et je veux juste pouvoir argumenter les différentes méthodes dans ce cas simple de test A / B.

En utilisant les données d'exemple, je reçois les p-valeurs suivantes

  1. https://vwo.com/ab-split-test-significance-calculator/ donne une valeur p de 0,001 (score z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (en utilisant le test du chi carré) donne une valeur p de 0,00259

  3. Et dans R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valuedonne une valeur de p de 0,002785305

Je suppose que tous sont assez proches ...

Quoi qu'il en soit - espérons seulement une discussion saine sur les approches à utiliser pour les tests en ligne, où la taille des échantillons est généralement de plusieurs milliers, et les taux de réponse sont souvent de 10% ou moins. Mon instinct me dit d'utiliser le chi-carré, mais je veux être en mesure de dire exactement pourquoi je le choisis plutôt que parmi une multitude de façons de le faire.

L Xandor
la source
En ce qui concerne les tests et t, votre question a déjà reçu une réponse ici: stats.stackexchange.com/questions/85804/…zt
Tim
J'ai trouvé cette démonstration très utile. Ce qui montre que le test z pour les proportions est essentiellement équivalent au test du khi-deux d'homogénéité sur le tableau de contingence 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html
lundi

Réponses:

24

Nous utilisons ces tests pour différentes raisons et dans différentes circonstances.

  1. test z . Untest z suppose que nos observations sont indépendamment tirées d'une distribution normale avec unevariancemoyenne et inconnue inconnue. Untest z est utilisé principalement lorsque nous disposons de données quantitatives. (c.-à-d. poids des rongeurs, âge des individus, pression artérielle systolique, etc.) Cependant, lestests z peuvent également être utilisés pour déterminer les proportions. (c.-à-d. la proportion de personnes qui dorment au moins huit heures, etc.)zzzz

  2. test. Untest t suppose que nos observations sont indépendamment tirées d'une distribution normale avecune variancemoyenne etinconnue inconnue. Notez qu'avec untest t , nous ne connaissons pas la variance de la population. Ceci est beaucoup plus courant que de connaître la variance de la population, donc untest t est généralement plus approprié qu'untest z , mais pratiquement, il y aura peu de différence entre les deux si la taille de l'échantillon est grande.ttttz

zt

  1. ztz

  2. ppp

Je discute sans cesse de la taille des échantillons - différentes références vous donneront différentes mesures pour déterminer si vos échantillons sont suffisamment gros. Je voudrais juste trouver une source digne de confiance, regarder leur règle et appliquer leur règle pour trouver le test que vous voulez. Je ne voudrais pas "magasiner", pour ainsi dire, jusqu'à ce que vous trouviez une règle que vous "aimez".

zt

Est-ce que ça a du sens? J'espère que cela t'aides!

Matt Brems
la source
Merci pour la réponse détaillée! Je vais le parcourir en détail - je suis sûr que j'aurai quelques questions!
L Xandor
Pourriez-vous expliquer comment le test du chi-carré et le test exact de Fisher n'indiquent pas la direction d'un effet? Si tous les tests de statistiques inférentielles fournissent un niveau de confiance quant au fait que deux ensembles d’échantillons soient issus de populations différentes ou de la même population, qu’en est-il de la théorie mathématique qui ne vous laissera pas affirmer que la différence de direction entre les valeurs moyennes tient a un score plus élevé)?
Chris F
Pour plus de clarté, le test du khi carré et le test exact de Fisher font la même chose, mais la valeur p est calculée légèrement différemment. (C'est une approximation sous chi-carré et un calcul exact sous le calcul exact de Fisher.) Je vais aborder le chi-carré et le résultat sera généralisé à Fisher. La question ici est la prémisse. "Si tous les tests de statistiques inférentielles fournissent un niveau de confiance quant à la provenance de deux échantillons ..." - ce n'est pas le cas du test du khi-carré. L'hypothèse nulle pour le test du chi carré est qu'il n'y a pas d'association et l'hypothèse alternative ...
Matt Brems
... est-ce qu'il y a une association entre les deux variables catégoriques. Vous testez simplement l'existence d'une association et ne spécifiez pas au préalable une certaine direction. (Il existe certaines statistiques moins connues qui spécifient une certaine relation, ce qui est possible; ce n'est toutefois pas le but du test du khi-deux.) Pour déduire par la suite qu'il existe une relation directionnelle particulière basée sur une valeur p calculée à partir d'un ensemble d'hypothèses différent conçu pour vérifier l'existence d'une association serait une erreur.
Matt Brems
H0:μ=0HUNE:μ0tpμμH0:μ0HUNE:μ>0pα=0,05μ