Un webinaire organisé l'autre jour par une société de test a / b a demandé à son "Data Scientist" résident d'expliquer que vous devriez valider vos résultats en réexécutant l'expérience. La prémisse était que, si vous sélectionnez une confiance de 95%, il y a 5% (1/20) de risque de faux positif. Si vous réexécutez votre expérience avec les mêmes contraintes, il y a maintenant un 1/400 (je suppose qu'ils l'ont déterminé comme 0,05 ^ 2 = 1/400)
Est-ce une déclaration valide? (c.-à-d. «exécuter deux fois, deux gains de signification statistique = probabilité de faux positif de 1/400»)? Cela aurait-il été une meilleure approche pour augmenter votre niveau de signification?
D'un point de vue commercial, la préoccupation que j'ai est de relancer l'expérience, vous exposez plus d'utilisateurs à une page inférieure (traitement) et perdez ainsi des ventes potentielles.
Réponses:
Ignorant les probabilités d'un faux positif pour le moment, je le regarderais comme ceci:
Dans les deux cas, vous devez ensuite exécuter une troisième expérience, juste pour être certain. Cela peut convenir aux expériences qui sont relativement peu coûteuses, mais lorsque le coût est potentiellement élevé (comme la perte de clients), vous devez vraiment prendre en compte les avantages.
En regardant les probabilités, la première fois que vous exécutez l'expérience, il y a 1/20 chance de faux positif. La deuxième fois que vous exécutez l'expérience, il y a encore 1/20 chance de faux positif (pensez-y comme lancer un dé où chaque jet a 1/6 de chance d'obtenir un certain nombre). Il n'y a qu'une chance sur 400 d'avoir deux faux positifs d'affilée.
Le vrai problème est d'avoir une hypothèse bien définie avec des procédures strictes, et d'avoir une taille d'échantillon, un niveau d'erreur et un intervalle de confiance avec lesquels vous pouvez vivre ou vous permettre. La répétition de l'expérience doit être laissée à l'exploration
plutôt que de deviner les résultats. Bien que l'expliquer aux gestionnaires soit plus facile à dire qu'à faire.
la source
Oui, cette affirmation est correcte, en supposant que votre expérience est idéale. Mais obtenir une expérience idéale est beaucoup plus difficile que ce sentiment ne le donne à croire. Les données du «monde réel» sont en désordre, compliquées et difficiles à interpréter en premier lieu. Il y a énormément de place pour une analyse défectueuse, des variables cachées (il y a très rarement "les mêmes contraintes"), ou des erreurs de communication entre un data scientist qui fait son travail et un responsable du marquage qui fait le leur.
D'un point de vue commercial, assurez une bonne méthodologie et ne soyez pas trop confiant dans les résultats; un défi plus délicat que vous ne le pensez. Une fois que vous les avez réduites, travaillez sur ces 5%.
la source