Je suis en charge de présenter les résultats des tests A / B (exécutés sur les variantes du site) dans mon entreprise. Nous exécutons le test pendant un mois, puis vérifions les valeurs de p à intervalles réguliers jusqu'à ce que nous atteignions la signification (ou abandonnons si la signification n'est pas atteinte après avoir exécuté le test pendant une longue période), ce que je découvre maintenant est une pratique erronée .
Je veux arrêter cette pratique maintenant, mais pour ce faire, je veux comprendre POURQUOI c'est faux. Je comprends que la taille de l'effet, la taille de l'échantillon (N), le critère de signification alpha (α) et la puissance statistique, ou le bêta choisi ou implicite (β) sont mathématiquement liés. Mais qu'est-ce qui change exactement lorsque nous arrêtons notre test avant d'atteindre la taille d'échantillon requise?
J'ai lu quelques articles ici (à savoir ceci , ceci et cela ), et ils me disent que mes estimations seraient biaisées et que le taux de mon erreur de type 1 augmente considérablement. Mais comment cela se produit-il? Je cherche une explication mathématique , quelque chose qui montrerait clairement les effets de la taille de l'échantillon sur les résultats. Je suppose que cela a quelque chose à voir avec les relations entre les facteurs que j'ai mentionnés ci-dessus, mais je n'ai pas été en mesure de trouver les formules exactes et de les élaborer moi-même.
Par exemple, l'arrêt prématuré du test augmente le taux d'erreur de type 1. Bien. Mais pourquoi? Que se passe-t-il pour augmenter le taux d'erreur de type 1? Je manque l'intuition ici.
Aidez-moi, s'il vous plaît.
Réponses:
Les tests A / B qui testent simplement à plusieurs reprises sur les mêmes données avec un niveau d' erreur de type 1 fixe ( ) sont fondamentalement défectueux. Il y a au moins deux raisons pour lesquelles il en est ainsi. Premièrement, les tests répétés sont corrélés mais les tests sont menés indépendamment. Deuxièmement, le α fixe ne tient pas compte des tests conduits en multiples conduisant à une inflation d'erreur de type 1.α α
Pour voir la première, supposez qu'à chaque nouvelle observation, vous effectuez un nouveau test. Il est clair que deux valeurs p subséquentes seront corrélées car cas n'ont pas changé entre les deux tests. Par conséquent, nous voyons une tendance dans le graphique de @ Bernhard démontrant cette corrélation des valeurs de p.n - 1
Pour voir le second, nous notons que même lorsque les tests sont indépendants, la probabilité d'avoir une valeur de p inférieure à augmente avec le nombre de tests t P ( A ) = 1 - ( 1 - α ) t , où A est l'événement de une hypothèse nulle faussement rejetée. Ainsi, la probabilité d'avoir au moins un résultat de test positif va à l'encontre de 1α t
Étant donné que dans cette situation, la corrélation et les tests multiples se maintiennent en même temps, la valeur de p du test dépend de la valeur de p de t . Donc, si vous atteignez enfin un p < α , vous resterez probablement dans cette région pendant un certain temps. Vous pouvez également le voir dans l'intrigue de @ Bernhard dans la région de 2500 à 3500 et de 4000 à 5000.t + 1 t p < α
Les tests multiples en soi sont légitimes, mais les tests par rapport à un fixe ne le sont pas. Il existe de nombreuses procédures qui traitent à la fois de la procédure de test multiple et des tests corrélés. Une famille de corrections de test est appelée le contrôle du taux d'erreur par famille . Ce qu'ils font, c'est d'assurer P ( A ) ≤ α .α
Comme nous pouvons le voir, l'ajustement est très efficace et démontre à quel point nous devons changer la valeur de p pour contrôler le taux d'erreur au niveau de la famille. Plus précisément, nous ne trouvons plus de test significatif, comme il se doit, car l'hypothèse nulle de @ Berhard est vraie.
Voici le code:
la source
Si l'hypothèse nulle est vraie, les gens s'attendent souvent à ce que la valeur p soit très élevée. Ce n'est pas vrai. Si l'hypothèse nulle est vraie, alors p est une variable aléatoire uniformément distribuée. Cela signifie que, de temps en temps, il sera inférieur à 0,05 au hasard. Si vous regardez de nombreux sous-échantillons différents, la valeur p sera parfois inférieure à 0,05.
Pour faciliter la compréhension, voici une petite simulation dans
R
:Cela lancera une pièce 10 000 fois et nous savons que c'est une pièce équitable:
À partir du 5ème lancer, cela effectuera un test binomial d'équité après chaque lancer et enregistrera les valeurs de p:
Et cela tracera les valeurs de p l'une après l'autre:
Comme vous pouvez le voir, la valeur de p descend sous 0,05 à quelques reprises juste pour récupérer et finalement finir bien au-dessus de p = 0,05. Si nous arrêtions le procès chaque fois que p était "significatif", nous arriverions à la mauvaise conclusion. On pourrait dire: «Nous avons un échantillon d'environ plus de 4000 essais iid et p était inférieur à 0,05. Nous pouvons rapidement arrêter l'échantillonnage plus loin». Plus vous vérifiez fréquemment la valeur de p, plus vous êtes susceptible de vérifier à un creux aléatoire. Dans ce cas, nous avons généré les données sous leH0 H0
(Juste pour être parfaitement ouvert, j'ai essayé plus d'une graine pour le générateur de nombres avant qu'il ne soit aussi clair que cet exemple, mais c'est juste à des fins éducatives. Si vous avez
R
installé et exécuté, vous pouvez facilement jouer avec les nombres .)la source