Expliquer les tests bilatéraux

C'est une excellente question et j'ai hâte de voir la version de tout le monde d'expliquer la valeur de p et le test bilatéral vs unilatéral. J'ai enseigné des statistiques à des collègues chirurgiens orthopédistes et j'ai donc essayé de les garder aussi basiques que possible car la plupart d'entre eux n'ont pas fait de mathématiques avancées depuis 10-30 ans.

Ma façon d'expliquer le calcul des valeurs de p et les queues

Je commence par expliquer que si nous croyons que nous avons une bonne monnaie, nous savons qu'elle devrait finir en moyenne 50% des flips ( ). Maintenant, si vous vous demandez quelle est la probabilité d'obtenir seulement 2 queues sur 10 flips avec cette pièce équitable, vous pouvez calculer cette probabilité comme je l'ai fait dans le graphique à barres. Sur le graphique, vous pouvez voir que la probabilité d'obtenir 8 flips sur 10 avec une pièce équitable est d'environ . $=H_0$ $\approx 4.4\%$

Puisque nous remettons en question l'équité de la pièce si nous obtenons 9 ou 10 queues, nous devons inclure ces possibilités, la queue du test. En ajoutant les valeurs, nous obtenons que la probabilité est maintenant un peu plus de d'obtenir 2 queues ou moins. $\approx 5.5\%$

Maintenant, si nous n'obtenions que 2 têtes, soit 8 têtes (l'autre queue), nous serions probablement tout aussi disposés à remettre en question l'équité de la pièce. Cela signifie que vous vous retrouvez avec une probabilité de pour un test bilatéral . $5.4...\%+5.4...\% \approx 10.9\%$

Puisque nous, en médecine, sommes généralement intéressés à étudier les échecs, nous devons inclure le côté opposé de la probabilité même si notre intention est de faire le bien et d'introduire un traitement bénéfique.

Mon graphique de pièces retournées

Réflexions légèrement hors sujet

Cet exemple simple montre également à quel point nous dépendons de l'hypothèse nulle pour calculer la valeur de p. J'aime également souligner la ressemblance entre la courbe binomiale et la courbe en cloche. Lorsque vous passez à 200 flips, vous obtenez un moyen naturel d'expliquer pourquoi la probabilité d'obtenir exactement 100 flips commence à manquer de pertinence. La définition des intervalles d'intérêt est une transition naturelle vers les fonctions de densité de probabilité / fonction de masse et leurs équivalents cumulatifs.

Dans ma classe, je leur recommande les vidéos statistiques de l'académie Khan et j'utilise également certaines de ses explications pour certains concepts. Ils peuvent également lancer des pièces de monnaie où nous examinons le caractère aléatoire du retournement de pièces - la chose que j'essaie de montrer est que le caractère aléatoire est plus aléatoire que ce que nous croyons habituellement inspiré par cet épisode de Radiolab .

Le code

J'ai généralement un graphique / diapositive, le code R que j'ai utilisé pour créer le graphique:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

Max Gordon
la source

Grande réponse Max - et merci d'avoir reconnu la non-trivialité de ma question :)

Tal Galili

+1 belle réponse, très approfondie. Pardonnez-moi, mais je vais tergiverser sur deux choses. 1) la valeur de p est comprise comme la probabilité que les données soient aussi extrêmes ou plus extrêmes que la vôtre sous le zéro, donc votre réponse est juste. Cependant, lorsque vous utilisez des données discrètes comme vos pièces de monnaie, cela n'est pas prudent. Il est préférable d'utiliser ce que l'on appelle la "valeur p moyenne", c'est-à-dire la moitié de la probabilité de données aussi extrêmes que la vôtre + la probabilité que les données soient plus extrêmes. Une discussion facile de ces questions peut être trouvée dans Agresti (2007) 2.6.3. (suite)

gung - Réintégrer Monica

2) Vous déclarez que le caractère aléatoire est plus aléatoire que nous le pensons. Je peux deviner ce que vous pourriez dire par là (je n'ai pas eu la chance d'écouter l'épisode Radiolab que vous liez, mais je le ferai). Curieusement, j'ai toujours dit aux élèves que le caractère aléatoire est moins aléatoire que vous ne le pensez. Je fais référence ici à la perception des stries (par exemple, dans le jeu). Les gens croient que les événements aléatoires devraient alterner beaucoup plus que les événements aléatoires et pensent donc qu'ils voient des stries. Voir Falk (1997) Comprendre l' aléatoire Psych Rev 104,2. Encore une fois, vous ne vous trompez pas - juste matière à réflexion.

gung - Rétablir Monica

Merci @gung pour votre contribution. En fait, je n'ai pas entendu parler de la valeur moyenne - cela a du sens cependant. Je ne sais pas si c'est quelque chose que je mentionnerais lors de l'enseignement des statistiques de base, car cela peut donner l'impression de perdre le sentiment pratique que j'essaie de donner. En ce qui concerne le caractère aléatoire, nous voulons dire exactement la même chose - lorsque nous voyons un nombre vraiment aléatoire, nous sommes dupes de penser qu'il y a un modèle. Je pense avoir entendu sur le podcast Freakonomics la folie de la prédiction que ...

Max Gordon

... l'esprit humain a appris au fil des ans que ne pas détecter un prédateur est plus coûteux que de penser que ce n'est probablement rien. J'aime cette analogie et j'essaie de dire à mes collègues que l'une des principales raisons d'utiliser les statistiques est de nous aider avec ce défaut avec lequel nous sommes tous nés.

Max Gordon

Supposons que vous vouliez tester l'hypothèse selon laquelle la taille moyenne des hommes est de "5 pieds 7 pouces". Vous sélectionnez un échantillon aléatoire d'hommes, mesurez leur taille et calculez la moyenne de l'échantillon. Votre hypothèse est alors:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

Dans la situation ci-dessus, vous effectuez un test bilatéral, car vous rejetteriez votre valeur nulle si la moyenne de l'échantillon est trop faible ou trop élevée.

Dans ce cas, la valeur p représente la probabilité de réaliser une moyenne d'échantillon au moins aussi extrême que celle que nous avons réellement obtenue en supposant que le zéro est en fait vrai. Ainsi, si la moyenne de l'échantillon est de "5 pi 8 pouces", la valeur p représentera la probabilité que nous observions des hauteurs supérieures à "5 pi 8 pouces" ou des hauteurs inférieures à "5 pi 6 pouces" à condition que la valeur nulle est vrai.

Si, en revanche, votre alternative était conçue comme suit:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

Dans la situation ci-dessus, vous feriez un test unilatéral sur le côté droit. La raison en est que vous préféreriez rejeter le nul en faveur de l'alternative uniquement si la moyenne de l'échantillon est extrêmement élevée.

L'interprétation de la valeur de p reste la même avec la légère nuance dont nous parlons maintenant de la probabilité de réaliser une moyenne d'échantillon supérieure à celle que nous avons réellement obtenue. Ainsi, si l'on observe que la moyenne de l'échantillon est de "5 pieds 8 pouces", la valeur p représentera la probabilité que nous observions des hauteurs supérieures à "5 pieds 8 pouces" à condition que le zéro soit vrai.

varty
la source

Autrefois, pour votre deuxième

H_{A}

$H_A$ le nul devrait lire

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$ , ne pas

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$ . Voir l'un des commentaires de @ whuber à cette question: les hypothèses nulles et alternatives doivent-elles être exhaustives ou non? .

chl

@chl je suis d'accord. Cependant, pour une personne qui vient tout juste d'être initiée à des idées statistiques, réécrire le zéro pour un test unilatéral peut être une distraction lorsque l'accent est mis sur la façon dont les choses changent par rapport à l'interprétation de la valeur p et pourquoi.

varty

C'est suffisant. Cela vaut cependant la peine d'être mentionné, même à des fins d'enseignement.

chl

Expliquer les tests bilatéraux

Réponses:

Ma façon d'expliquer le calcul des valeurs de p et les queues

Réflexions légèrement hors sujet

Le code