Disons que j'ai un ami (appelons-le "George") qui dit qu'il peut contrôler le lancer de dés en utilisant son esprit (c'est-à-dire, rendre les dés plus susceptibles de tomber sur un nombre spécifique auquel il pense).
Comment puis-je concevoir un test scientifiquement rigoureux pour déterminer s'il peut réellement le faire? (Je ne pense pas vraiment qu'il puisse le faire, bien sûr, mais je veux qu'il accepte les détails d'un test, de style Randi incroyable, avant le début du test.) Je veux réduire les excuses (très probablement) post-test qu'il va trouver.
Voici ce que j'ai jusqu'à présent:
Déterminer la technique physique de lancer des dés (quels dés, tasse de shaker, surface d'atterrissage, etc.)
Définissez une "session de test", composée de X lancers de dés. Cela doit être assez petit pour faire en une seule séance, mais assez grand pour déterminer (après analyse) avec une confiance de 95% à 99% si les dés sont tombés correctement ou ont favorisé un côté
Exécutez des sessions Y sur les dés choisis (sans influence de George), en tant que «contrôle» pour vous assurer que les dés affichent d'eux-mêmes des résultats «équitables»
Exécutez des sessions Z avec George. Avant chacun, lancez un dé séparé pour déterminer sur quel nombre George "se concentrera" pendant toute cette session.
Compilez et analysez les résultats.
George invente quelques excuses pour sa triste performance.
Alors mes questions pour vous:
Des défauts ou des problèmes avec ma méthodologie globale? Quelque chose auquel George s'opposerait probablement?
Dois-je utiliser un D6? Ou un D20? Est-ce que ça importe? Un dé avec plus de faces nécessiterait-il plus de rouleaux pour produire des résultats tout aussi confiants? Ou le contraire? Je préfère moins de rouleaux que plus, pour des raisons pratiques :)
Quelles sont les valeurs raisonnables pour X , Y et Z ? Ils ne sont pas entièrement indépendants l'un de l'autre; si ma valeur choisie de X ne permet que 95% de confiance pour une seule session, alors 1 session sur 20 pourrait «échouer», même sans l'influence de George
Comment définir "succès" ou "échec" pour une session individuelle? (J'ai trouvé cette question qui passe par les détails d'un test du chi carré, donc je pense que c'est ma méthodologie d'évaluation, mais quels sont les seuils de confiance raisonnables?)
Comment définir «succès» ou «échec» pour le test global? George pourrait "gagner" une seule session par pur hasard, mais combien de sessions Z devrait-il passer pour réussir le test?
Je vais probablement analyser ces résultats dans une feuille de calcul MS Excel, si cela fait une différence.
Réponses:
Je recommanderais d'analyser cela de la manière suivante:
Comptez chaque rôle dans lequel George prédit avec succès le résultat comme un succès, et tous les autres comme un échec. Ensuite, vous calculez facilement une probabilité de succès pour George et un intervalle de confiance de 95% ou 99%. Affirme-t-il qu'il peut prédire le résultat "deux fois plus" qu'en lançant au hasard les dés? Puis:
H0: p> = 1/3
H1: p <1/3
(en supposant un dé à 6 faces).
À partir de là, il est assez simple de faire le test d'hypothèse. De plus, vous pouvez calculer la puissance a priori assez facilement (même dans quelque chose comme Excel). Choisissez un certain nombre de rouleaux (comme 10), puis faites un tableau avec les succès possibles sous forme de lignes (0-10). Ensuite, pour chaque succès, calculez la probabilité qu'il obtienne autant de succès (s'il ne faisait que deviner, ce que nous supposons qu'il fait). En outre, pour chaque valeur, déterminez si cela entraînerait un rejet ou une acceptation du null. Ensuite, pour trouver le pouvoir, vous pouvez simplement additionner toutes les probabilités où le nul serait rejeté.
la source
Un D20 nécessitera plus de rouleaux pour le même niveau de signification pour George réussissant à coup sûr si vous devez exécuter le test du chi carré. Je ne pense pas que vous ayez besoin d'exécuter le test complet du chis carré. Il vous suffit de vérifier si les dés lancent le nombre "choisi" plus souvent que par hasard. J'utiliserais simplement le cdf du binôme pour calculer la valeur de p en roulant le nombre choisi plus souvent que par hasard avec comme paramètre binomial pour D6. Je pense qu'il est facile de déterminer le nombre fonction de la valeur de p dont vous avez besoin pour réussir George. Je ne suis même pas sûr que vous ayez besoin de sessions Z. Pourquoi ne pas exécuter une seule session de chaque côté du dé. La randomisation du côté choisi importe-t-elle même pour les hypothèses qui vous intéressent? Xθ = 16 X
la source