Valider les tests web a / b en réexécutant une expérience - est-ce valable?

11

Un webinaire organisé l'autre jour par une société de test a / b a demandé à son "Data Scientist" résident d'expliquer que vous devriez valider vos résultats en réexécutant l'expérience. La prémisse était que, si vous sélectionnez une confiance de 95%, il y a 5% (1/20) de risque de faux positif. Si vous réexécutez votre expérience avec les mêmes contraintes, il y a maintenant un 1/400 (je suppose qu'ils l'ont déterminé comme 0,05 ^ 2 = 1/400)

Est-ce une déclaration valide? (c.-à-d. «exécuter deux fois, deux gains de signification statistique = probabilité de faux positif de 1/400»)? Cela aurait-il été une meilleure approche pour augmenter votre niveau de signification?

D'un point de vue commercial, la préoccupation que j'ai est de relancer l'expérience, vous exposez plus d'utilisateurs à une page inférieure (traitement) et perdez ainsi des ventes potentielles.

John
la source
2
Salut John, bienvenue sur Stats.SE! Si vous êtes satisfait de l'une ou l'autre des réponses, vous devez en accepter une ou fournir des questions plus claires sur ce que vous recherchez.
Christopher Aden
John, je soupçonne que le vrai problème concerne le contexte. Il est rare que les gens consacrent des ressources à l'apprentissage d'une seule chose à la fois: ils veulent tirer le meilleur parti de leurs données, pour une bonne raison. Cela signifie que chaque ensemble de données sera utilisé pour plusieurs tests. De plus, les tests sont parfois post-hoc : ils s'inspirent des schémas observés dans les données. Dans de tels cas, les tests n'ont pas réellement la confiance souhaitée à 95% (ou autre) et la réplication est essentielle. Alors: qu'entendez-vous précisément par "expérience"? La réponse dépend de ce petit détail!
whuber
À propos des répétitions d'expérience et des valeurs de signification, consultez cette bande dessinée XKCD: xkcd.com/882 Après avoir lu cela, vérifiez le commentaire ci-dessus.
Lucas Gallindo
whuber: désolé pour le manque de détails, je fais référence à l'optimisation du site Web, donc un exemple d'expérience serait de tester deux versions de ma page d'accueil, avec un partage d'utilisateurs 50/50 pour chacune.
John

Réponses:

3

Ignorant les probabilités d'un faux positif pour le moment, je le regarderais comme ceci:

  1. Si vous exécutez l'expérience deux fois et obtenez le même résultat, vous ne savez pas s'il y a eu deux vrais résultats positifs ou deux faux résultats consécutifs.
  2. Si vous exécutez l'expérience deux fois et obtenez deux résultats différents, vous ne savez pas quel est le vrai positif et quel était le faux positif.

Dans les deux cas, vous devez ensuite exécuter une troisième expérience, juste pour être certain. Cela peut convenir aux expériences qui sont relativement peu coûteuses, mais lorsque le coût est potentiellement élevé (comme la perte de clients), vous devez vraiment prendre en compte les avantages.

En regardant les probabilités, la première fois que vous exécutez l'expérience, il y a 1/20 chance de faux positif. La deuxième fois que vous exécutez l'expérience, il y a encore 1/20 chance de faux positif (pensez-y comme lancer un dé où chaque jet a 1/6 de chance d'obtenir un certain nombre). Il n'y a qu'une chance sur 400 d'avoir deux faux positifs d'affilée.

Le vrai problème est d'avoir une hypothèse bien définie avec des procédures strictes, et d'avoir une taille d'échantillon, un niveau d'erreur et un intervalle de confiance avec lesquels vous pouvez vivre ou vous permettre. La répétition de l'expérience doit être laissée à l'exploration

  1. clients au fil du temps
  2. modifications apportées par l'organisation
  3. modifications apportées par le concours

plutôt que de deviner les résultats. Bien que l'expliquer aux gestionnaires soit plus facile à dire qu'à faire.

mjc
la source
mjc, merci beaucoup pour le commentaire - c'est exactement ce que je cherchais.
John
2

Oui, cette affirmation est correcte, en supposant que votre expérience est idéale. Mais obtenir une expérience idéale est beaucoup plus difficile que ce sentiment ne le donne à croire. Les données du «monde réel» sont en désordre, compliquées et difficiles à interpréter en premier lieu. Il y a énormément de place pour une analyse défectueuse, des variables cachées (il y a très rarement "les mêmes contraintes"), ou des erreurs de communication entre un data scientist qui fait son travail et un responsable du marquage qui fait le leur.

D'un point de vue commercial, assurez une bonne méthodologie et ne soyez pas trop confiant dans les résultats; un défi plus délicat que vous ne le pensez. Une fois que vous les avez réduites, travaillez sur ces 5%.

eric chiang
la source
Merci, cela répond à la première question. Qu'en est-il de la deuxième question: "Aurait-il été une meilleure approche pour augmenter votre niveau de signification?" Juste en faisant une simulation rapide en R (en gardant la même taille d'effet et la même puissance, en changeant seulement la valeur de signification), je pouvais collecter ~ 4,8% de données en moins en choisissant simplement 97,5% de signification, plutôt que d'exécuter des expériences 2X à 95% de signification. Je devrais clarifier - quand je demande "Cela aurait-il été mieux .." Je veux dire, pourrais-je atteindre le même résultat final en collectant moins de données.
John