Je me demandais exactement pourquoi la collecte de données jusqu'à l' obtention d' un résultat significatif (par exemple, ) (par exemple, p-piratage) augmente le taux d'erreur de type I?
J'apprécierais aussi beaucoup une R
démonstration de ce phénomène.
Réponses:
Le problème est que vous vous donnez trop de chances de réussir le test. C'est juste une version sophistiquée de cette boîte de dialogue:
Pour mieux comprendre cela, considérons un modèle simplifié - mais réaliste - de cette procédure séquentielle . Supposons que vous commenciez par un "essai" d'un certain nombre d'observations, mais que vous souhaitiez continuer à expérimenter plus longtemps afin d'obtenir une valeur p inférieure à . L'hypothèse nulle est que chaque observation provient (indépendamment) d'une distribution normale standard. L’alternative est que les proviennent indépendamment d’une distribution normale à variance unitaire avec une moyenne non nulle. La statistique de test sera la moyenne de toutes les observations, , divisée par leur erreur standard, . Pour un test bilatéral, les valeurs critiques sont les0.05 Xi Xi n X¯ 1/n−−√ 0.025 et point de pourcentage de la distribution normale standard, environ.0.975 Zα=±1.96
C'est un bon test - pour une seule expérience avec une taille d'échantillon fixe . Il a exactement chances de rejeter l'hypothèse nulle, quel que soit .n 5% n
Convertissons-le algébriquement en un test équivalent basé sur la somme de toutes les valeurs,n
Ainsi, les données sont "significatives" lorsque
C'est,
Si nous sommes intelligents, nous réduirons nos pertes et abandonnerons dès que grandira très fort et les données ne sont toujours pas entrées dans la région critique.n
Ceci décrit une marche aléatoire . La formule revient à ériger une "barrière" parabolique incurvée autour du tracé de la marche aléatoire : le résultat est "significatif" si un point quelconque de la marche aléatoire heurte la clôture.Sn (1) (n,Sn)
C’est une propriété des promenades aléatoires que si nous attendons assez longtemps, il est très probable qu’à un moment donné, le résultat paraisse important.
Voici 20 simulations indépendantes jusqu’à une limite de échantillons. Ils commencent tous à tester échantillons. Nous vérifions ensuite si chaque point se situe en dehors des barrières tracées selon la formule . À partir du moment où le test statistique est «significatif», les données simulées sont colorées en rouge.n=5000 n=30 (1)
Vous pouvez voir ce qui se passe: la marche aléatoire monte et descend de plus en plus à mesure que augmente. Les barrières se dispersent à peu près au même rythme - mais pas assez vite pour éviter toujours la marche au hasard.n
Dans 20% de ces simulations, une différence «significative» a été observée - généralement assez tôt - même si l'hypothèse nulle est absolument correcte dans chacune d'entre elles! Effectuer plus de simulations de ce type indique que la taille réelle du test est proche de plutôt que la valeur souhaitée de : c'est-à-dire votre volonté de continuer à rechercher une "importance" jusqu'à une taille de vous donne chances de rejeter la valeur null, même si celle-ci est vraie.25% α=5% 5000 25%
Notez que dans les quatre cas « importants », comme poursuite des essais, les données ont arrêté la recherche importante sur certains points. Dans la vie réelle, un expérimentateur qui s’arrête de bonne heure perd la chance d’observer de tels «renversements». Cette sélectivité par arrêt optionnel biaise les résultats.
Dans les tests séquentiels honnêtes, les barrières sont des lignes. Ils se propagent plus rapidement que les barrières courbes montrées ici.
la source
Les personnes qui débutent dans le test d'hypothèses ont tendance à penser qu'une fois qu'une valeur ap descend en dessous de 0,05, l'ajout de participants ne fera que réduire davantage la valeur p. Mais ce n'est pas vrai. Sous l'hypothèse nulle, la valeur ap est uniformément répartie entre 0 et 1 et peut rebondir assez fort dans cette plage.
J'ai simulé des données dans R (mes compétences en R sont assez basiques). Dans cette simulation, je collecte 5 points de données - chacun avec une appartenance à un groupe sélectionné au hasard (0 ou 1) et chacun avec une mesure de résultat sélectionnée au hasard ~ N (0,1). À partir du participant 6, je réalise un test t à chaque itération.
Les valeurs p sont dans cette figure. Notez que je trouve des résultats significatifs lorsque la taille de l'échantillon se situe autour de 70-75. Si je m'arrête là, je finirai par croire que mes découvertes sont significatives parce que j'aurai oublié le fait que mes valeurs de p ont remonté avec un échantillon plus grand (cela m'est arrivé en réalité une fois avec des données réelles). Comme je sais que les deux populations ont une moyenne de 0, cela doit être un faux positif. C'est le problème avec l'ajout de données jusqu'à ce que p <0,05. Si vous ajoutez suffisamment de tests, p finira par dépasser le seuil de 0,05 et vous pourrez trouver un effet significatif sur tout jeu de données.
la source
R
code ne fonctionne pas du tout.df
abord créer (de préférence à sa taille finale). Depuis le début de l' écriture de code à la ligne 6 l'implication ( ce qui correspond avec le texte de la réponse) est que df existe déjà avec 5 lignes déjà remplies Peut - être quelque chose comme cela était prévu.n150<-vector("numeric",150); df<-data.frame(gp=n150,val=n150,pval=n150); init<-1:5; df[init,1]<-c(0,1,0,1,0); df[init,2]<-rnorm(5)
(Puis exécutez le code ci - dessus) alors peut - être:plot(df$pv[6:150])
Cette réponse ne concerne que la probabilité d'obtenir finalement un résultat "significatif" et la distribution du temps écoulé avant cet événement selon le modèle de @ whuber.
Comme dans le modèle de @whuber, supposons que désigne la valeur de la statistique de test après que observations aient été collectées et supposons que les observations sont iid standard normal . Alors tels que se comporte comme un mouvement brownien standard à temps continu, si on ignore pour le moment le fait que nous ayons un processus à temps discret (graphique de gauche ci-dessous).S(t)=X1+X2+⋯+Xt t X1,X2,…
Soit le premier temps de passage de entre les barrières dépendantes du temps (nombre d'observations nécessaires avant que le test ne devienne significatif).T S(t) ±zα/2t√
Considérons le processus transformé obtenu en mettant à l'échelle par son écart type au temps et en laissant la nouvelle échelle de temps telle que Il résulte de (1) et (2) que est normalement distribué avec etY(τ) S(t) t τ=lnt
Pour le modèle transformé, les barrières deviennent des constantes indépendantes du temps égales à . On sait alors ( Nobile et al., 1985 ; Ricciardi et Sato, 1988 ) que le premier temps de passage du processus OU OU travers ces barrières est distribué de façon approximativement exponentielle avec un paramètre (en fonction des barrières à ) (estimé à pour ci-dessous). Il existe également une masse de points supplémentaire de taille dans . "Rejet" de±zα/2 T Y(τ) λ ±zα/2 λ^=0.125 α=0.05 α τ=0 H0 se produit finalement avec la probabilité 1. Par conséquent, (nombre d'observations à collecter avant d'obtenir un résultat "significatif") suit approximativement une distribution log exponentielle avec la valeur attendue
Ainsi, n’a une espérance finie que si (suffisamment niveaux importants de signification ).T=eT
Ce qui précède ignore le fait que pour le modèle réel est discret et que le processus réel est discret plutôt que continu. Par conséquent, le modèle ci-dessus surestime la probabilité que la barrière soit franchie (et sous-estime ) car le trajet d'échantillonnage en temps continu ne peut franchir la barrière que temporairement entre deux points temporels discrets adjacents et . Mais de tels événements devraient avoir une probabilité négligeable pour les grands .T ET t t+1 t
La figure suivante montre une estimation de Kaplan-Meier de à l'échelle log-log ainsi que la courbe de survie pour l'approximation à temps continu exponentielle (ligne rouge).P(T>t)
Code R:
la source
Il faut dire que la discussion ci-dessus est pour une vision du monde fréquentiste pour laquelle la multiplicité provient des chances que vous donnez des données d'être plus extrêmes, pas des chances que vous donnez un effet à exister. La cause fondamentale du problème est que les valeurs p et les erreurs de type I utilisent le conditionnement du flux d'informations en amont et en arrière, ce qui rend important "comment vous êtes arrivé ici" et ce qui aurait pu se produire à la place. D'autre part, le paradigme bayésien code le scepticisme quant à un effet sur le paramètre lui-même, pas sur les données. Cela fait que chaque probabilité postérieure soit interprétée de la même manière, que vous calculiez une autre probabilité postérieure d'effet il y a 5 minutes ou non. Plus de détails et une simulation simple peuvent être trouvés à http://www.fharrell.com/2017/10/continuous-learning-from-data-no.
la source
Nous considérons un chercheur rassemblant un échantillon de taille , , pour tester une hypothèse . Il rejette si une statistique de test appropriée dépasse son niveau- valeur critique . Si ce n'est pas le cas, il collecte un autre échantillon de taille , , et le rejette si le test échoue pour l'échantillon combiné . S'il n'obtient toujours aucun rejet, il procède de la sorte, jusqu'à fois au total.n x1 θ=θ0 t α c n x2 (x1,x2) K
P. Armitage, CK McPherson et BC Rowe (1969), Journal de la Royal Statistical Society, ont déjà abordé ce problème . Série A (132), 2, 235-244: "Essais de répétition sur des données accumulées" .
Le point de vue bayésien sur cette question, également discuté ici, est d'ailleurs discuté dans Berger et Wolpert (1988), "Le principe de vraisemblance" , section 4.2.
Voici une réplication partielle des résultats d'Armitage et al. (Code ci-dessous), qui montre comment les niveaux d'importance grossissent lorsque , ainsi que les facteurs de correction possibles pour restaurer les valeurs critiques de niveau . Notez que la recherche dans la grille prend un certain temps - la mise en œuvre peut être plutôt inefficace.K>1 α
Taille de la règle de rejet standard en fonction du nombre de tentativesK
Taille en fonction de l'augmentation des valeurs critiques pour différentsK
Valeurs critiques ajustées pour restaurer 5% des tests en fonction deK
la source