Je lis les diapositives "Faire une analyse des données bayésiennes" de John Kruschke , mais j'ai en fait une question sur son interprétation des tests t et / ou de l'ensemble du cadre de test de signification d'hypothèse nulle. Il soutient que les valeurs de p sont mal définies car elles dépendent des intentions de l'enquêteur.
En particulier, il donne un exemple (pages 3-6) de deux laboratoires qui collectent des ensembles de données identiques comparant deux traitements. Un laboratoire s'engage à collecter des données auprès de 12 sujets (6 par condition), tandis que l'autre collecte des données pour une durée fixe, ce qui donne également 12 sujets. Selon les diapositives, la valeur critique pour p < 0,05 diffère entre ces deux schémas de collecte de données: t crit = 2,33 pour le premier, mais t crit = 2,45 pour le second!
Un article de blog - que je ne trouve pas maintenant - a suggéré que le scénario à durée fixe a plus de degrés de liberté car ils auraient pu collecter des données sur 11, 13 ou tout autre nombre de sujets, tandis que le scénario à N fixe, par définition, a .
Quelqu'un pourrait-il m'expliquer:
Pourquoi la valeur critique différerait-elle entre ces conditions?
(En supposant que c'est un problème) Comment procéder pour corriger / comparer les effets des différents critères d'arrêt?
Je sais que la définition des critères d'arrêt en fonction de la signification (par exemple, un échantillon jusqu'à ) peut augmenter les chances d'une erreur de type I, mais cela ne semble pas se produire ici, car aucune règle d'arrêt ne dépend du résultat de l'analyse.
la source
J'ai finalement retrouvé l'article associé aux diapositives: Kruschke (2010) , également disponible directement auprès de l'auteur (via CiteSeerX) ici , car la revue n'est pas largement diffusée. L'explication est un peu prosaïque, mais je ne suis toujours pas sûr de l'acheter.
Dans le cas de N fixe, la valeur critique est calculée comme suit: 2 N échantillons sont tirés au hasard dans la (même) population et une valeur t est calculée. Ce processus est répété plusieurs fois pour créer une distribution nulle. Enfin, t c r i t devrait être le 95e centile de cette distribution.t 2 N t tc r i t
Pour le cas à durée fixe, il suppose que les sujets arrivent à un taux moyen . La distribution nulle est construite en répétant deux étapes. Dans la première étape, le nombre de sujets pour chaque condition N 1 et N 2 est tiré d'une distribution de possessions avec le paramètre λ . Ensuite, N 1 et N 2 tirages aléatoires de la population sont utilisés pour calculer une valeur t . Cette opération est répétée plusieurs fois et t c r i t devrait être le 95e centile de cette distribution.λ N1 N2 λ N1 N2 t tc r i t
Cela me semble un peu ... effronté ... Si je comprends bien, il n'y a pas une seule distribution ; il s'agit plutôt d'une famille de distributions, dont la forme est en partie déterminée par le paramètre des degrés de liberté. Pour la condition N fixe , il y a N sujets par groupe et la valeur t appropriée pour un test t non apparié est celle avec 2 N - 2 degrés de liberté, ce qui est vraisemblablement ce que sa simulation reproduit.t N N t 2 N- 2
Dans l'autre condition, il semble que la distribution de type " " soit en fait une combinaison d'échantillons provenant de nombreuses distributions de t différentes , selon les tirages spécifiques. En fixant λ = N , on pourrait obtenir des degrés de liberté moyens égaux à 2 N - N , mais ce n'est pas tout à fait suffisant. Par exemple, la moyenne des distributions t pour ν = 1 et ν = 5 ne semble pas être la distribution t avec 3 degrés de liberté.t t λ = N 2 N- N t ν= 1 ν= 5 t
En résumé:
la source