Lorsque vous combinez des valeurs p, pourquoi ne pas simplement calculer la moyenne?

44

J'ai récemment appris la méthode de Fisher pour combiner les valeurs p. Ceci est basé sur le fait que p-value sous le null suit une distribution uniforme, et que qui, à mon avis, est un génie. Mais ma question est pourquoi aller de cette manière alambiquée? et pourquoi pas (qu'est-ce qui ne va pas) en utilisant simplement la moyenne des p-valeurs et en utilisant le théorème de la limite centrale? ou médiane? J'essaie de comprendre le génie de RA Fisher derrière ce grand projet.

2i=1nlogXiχ2(2n), given XUnif(0,1)
Alby
la source
24
Cela revient à un axiome de base des probabilités: les valeurs p sont des probabilités et les probabilités pour les résultats d’expériences indépendantes n’ajoutent pas, elles se multiplient. En ce qui concerne la multiplication, les logarithmes simplifient un produit en une somme: c’est d’où . (Le fait qu’elle ait une distribution chi-carré est alors une conséquence mathématique inéluctable.) Loin de commencer «alambiqué», c’est peut-être la procédure la plus simple et la plus naturelle (légitime) imaginable. log(Xi)
whuber
5
Disons que j'ai 2 échantillons indépendants de la même population (disons que nous avons un test t à un échantillon). Imaginez la moyenne de l'échantillon et les écarts-types sont à peu près les mêmes. La valeur p pour le premier échantillon est donc 0,0666 et pour le deuxième échantillon, 0,0668. Quelle devrait être la valeur p globale? Eh bien, devrait-il être 0,0667? En fait, il est évident que ce doit être plus petit. Dans ce cas, la "bonne" chose à faire est de combiner les échantillons, si nous en avons. Nous aurions à peu près la même moyenne et l'écart type, mais deux fois la taille de l'échantillon . Le std. l'erreur de la moyenne est plus petite et la valeur p doit être plus petite.
Glen_b
3
Bien sûr, il existe d'autres moyens de combiner les valeurs p, bien que le produit soit le moyen le plus naturel de le faire. On pourrait ajouter les valeurs p par exemple; sous le joint nul, la somme d'entre eux devrait avoir une distribution triangulaire. Vous pouvez également convertir les valeurs p en valeurs z et les ajouter (et si vous combiniez des résultats provenant d'échantillons de taille similaire, pas trop petits, issus d'une population normale, cela aurait beaucoup de sens). Mais le produit est le moyen évident de procéder; c'est logique chaque fois.
Glen_b
1
Notez que la méthode de Fisher est basée sur le produit, ce que je décris comme naturel - parce que vous multipliez les probabilités indépendantes pour trouver leur probabilité conjointe. Considérant que GM n’est pas vraiment différent du produit, il existe une étape supplémentaire dans la détermination de la valeur p combinée correspondante, car après avoir élaboré le GM (par , en prenant le produit), vous devez alors examiner obtient la valeur p combinée. Cela revient à dire que vous devez reconvertir le produit GM en produit avant de prendre des journaux pour trouver la valeur p combinée. g2nlogg=2log(gn)
Glen_b
1
Je demanderais à chacun de lire l'article de Duncan Murdoch "Les valeurs P sont des variables aléatoires" dans "The American Statistician". Je trouve une copie en ligne sur: hypergeometric.files.wordpress.com/2013/09/…
DWin

Réponses:

35

Vous pouvez parfaitement utiliser la valeur moyenne .p

La méthode de Fisher définit un seuil sur , de sorte que si l'hypothèse nulle : toutes les valeurs sont vérifiées, alors dépasse avec probabilité . est rejeté lorsque cela se produit.sα2i=1nlogpiH0pU(0,1)2ilogpisααH0

Généralement on prend et est donné par un quantile de . De manière équivalente, on peut travailler sur le produit qui est inférieur à avec la probabilité . Voici, pour , un graphique montrant la zone de rejet (en rouge) (nous utilisons ici . La zone de rejet a une aire = 0,05.α=0.05sαχ2(2n)ipiesα/2αn=2sα=9.49

Pêcheur

Vous pouvez maintenant choisir de travailler sur place ou de manière équivalente sur . Vous avez juste besoin de trouver un seuil tel que soit inférieur à avec probabilité ; calcul exact est fastidieux - pour assez grand , vous pouvez compter sur le théorème central limite; pour , . Le graphique suivant montre la zone de rejet (aire = 0,05 à nouveau).1ni=1npiipitαpitααtαnn=2tα=(2α)12

somme des valeurs p

Comme vous pouvez l’imaginer, de nombreuses autres formes pour la zone de rejet sont possibles et ont été proposées. Il n’est pas clair à priori ce qui est meilleur - c’est-à-dire qui a le plus grand pouvoir.

Supposons que , proviennent d'un test bilatéral avec le paramètre de non-centralité 1:p 2 zp1p2z

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

Regardons le diagramme de dispersion avec en rouge les points pour lesquels l'hypothèse nulle est rejetée.

Nuage de points

La puissance de la méthode des produits de Fisher est d’environ

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

La puissance de la méthode basée sur la somme des valeurs est d’environp

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

Donc, la méthode de Fisher gagne - du moins dans ce cas.

Elvis
la source
2
Merci, bonnes modifications (+1). Pour la distribution nulle est une distribution triangulaire, donc . Pour la distribution nulle est déjà assez impliquée (sa densité est de trois parties) mais heureusement pour elle peut déjà être très bien approchée par une distribution normale avec une moyenne de et une variance . t α = n=2 n=3n>30,5*nn/12tα=2αn=3n>30.5nn/12
Momo
1
+1 Notez que l'ajout de valeurs s'appelle la méthode d'Edgington , voir ma réponse ci-dessous pour une bibliographie. p
amibe dit de réintégrer Monica
26

Quel est le problème avec la synthèse de toutes les valeurs individuelles ?p

Comme @whuber et @Glen_b avancent dans les commentaires, la méthode de Fisher consiste essentiellement à multiplier toutes les valeurs individuelles , et multiplier les probabilités est une chose plus naturelle que de les ajouter.p

On peut encore les additionner. En fait, cela a été suggéré par Edgington (1972), une méthode additive permettant de combiner les valeurs de probabilité d'expériences indépendantes (sous le mur de paiement), et est parfois appelée méthode d'Edgington. Le document de 1972 conclut en affirmant que

La méthode additive s’avère plus puissante que la méthode multiplicative, ayant une plus grande probabilité que la méthode multiplicative de donner des résultats significatifs lorsqu’il ya réellement des effets de traitement.

mais étant donné que la méthode reste relativement inconnue, je soupçonne que c'était au moins une simplification excessive. Par exemple, un aperçu récent de Cousins ​​(2008). La bibliographie annotée de certains articles sur la combinaison des significations ou des valeurs p ne fait aucune mention de la méthode d'Edgington et il semble que ce terme n'ait jamais été mentionné dans CrossValidated.

Il est facile de trouver différentes façons de combiner les valeurs (j’en ai déjà une moi-même et demandé pourquoi elle n’est jamais utilisée: méthode de Z-score de Stouffer's: et si on additionne au lieu de ? ), et quelle est la meilleure méthode est en grande partie une question empirique. Veuillez consulter la réponse de @ whuber pour une comparaison empirique de la puissance statistique de deux méthodes différentes dans une situation spécifique; il y a un gagnant clair.z 2 zpz2z

La réponse à la question générale sur les raisons pour lesquelles on utilise une méthode "alambiquée" est qu’on peut gagner du pouvoir.

Zaykin et al. (2002) La méthode du produit tronqué pour la combinaison des valeurs p effectue certaines simulations et inclut la méthode d'Edgington dans la comparaison, mais je ne suis pas sûr des conclusions.

Une façon de visualiser toutes ces méthodes consiste à dessiner des régions de rejet pour , comme l'a fait @Elvis dans sa belle réponse (+1). Voici une autre figure qui inclut explicitement la méthode d'Edgington tirée de ce qui semble être une affiche. Combinaison non paramétrique (2013) pour l'analyse de l'imagerie multimodale :n=2

Combinaison de valeurs p

Cela dit, je pense qu’il reste encore à savoir pourquoi la méthode d’Edgington serait (souvent?) Sous-optimale, de sorte qu’elle est obscure.

Une des raisons de l’obscurité est peut-être qu’elle ne correspond pas très bien à notre intuition: pour , si (ou supérieur), quelle que soit la valeur de , la valeur null combinée ne sera pas rejetée à , c'est-à-dire même si, par exemple, .p 1 = 0,4 p 2 α = 0,05 p 2 = 0,00000001n=2p1=0.4p2α=0.05p2=0.00000001

Plus généralement, la somme des valeurs ne distingue guère de très petits nombres tels que de , mais la différence entre ces probabilités est en réalité énorme.p = 0,001 p = 0,00000001pp=0.001p=0.00000001


Mise à jour. Voici ce que Hedges et Olkin écrivent à propos de la méthode d'Edgintgon (après avoir passé en revue d'autres méthodes pour combiner des valeurs ) dans leurs méthodes statistiques de méta-analyse (1985), soulignent les suivantes:p

Edgington (1972a, b) a proposé une procédure d'essais combinés très différente. Edgington a proposé de combiner -values en prenant la somme et a donné une méthode fastidieuse mais simple pour obtenir des niveaux de signification pour . Edgington (1972b) donne une large approximation des niveaux de signification deBien qu’il s’agisse d’une procédure monotone et donc admissible, la méthode d’Edgington est généralement considérée comme une procédure médiocre puisqu’une grande valeur peut écraser beaucoup de petites valeurs qui composent la statistique. Cependant, il n’ya pratiquement pas eu d’enquêtes numériques sur cette procédure.S = p 1 + + p k , S S pp

S=p1++pk,
SSp
l'amibe dit de réintégrer Monica
la source
1
Merci, @Glen_b! Je suis heureux que ce fil ait eu une visibilité supplémentaire et bien méritée. En passant, je ne savais pas que cette procédure s'appelait "la méthode d'Edgington" jusqu'à ce que je commence à rechercher cette réponse.
Amibe dit de réintégrer Monica
9

Donc, si vous avez fait trois études de tailles similaires et que vous avez obtenu une valeur p de 0,05 aux trois occasions, vous pensez que la "valeur réelle" devrait être de 0,05? Mon intuition est différente. Plusieurs résultats similaires semblent rendre la signification plus élevée (et donc les p-valeurs qui sont des probabilités devraient être plus faibles). Les valeurs-p ne sont pas vraiment des probabilités. Ce sont des déclarations sur la distribution de l'échantillon des valeurs observées sous une hypothèse particulière. Je pense que cela a peut-être conforté l'idée que l'on peut en abuser en tant que tel. Je regrette d'avoir fait cette affirmation.

En tout état de cause, sous l'hypothèse nulle d'absence de différence, les chances d'obtenir plusieurs valeurs p extrêmes seraient beaucoup moins probables. À chaque fois que je vois l'affirmation selon laquelle la valeur p est uniformément distribuée de 0 à 1 sous l'hypothèse nulle, je me sens obligé de la tester avec une simulation, et jusqu'à présent, l'affirmation semble tenir. Apparemment, je ne pense pas consciemment à une échelle logarithmique, même si au moins une partie de mon réseau neuronal cérébral doit le faire.

Si vous souhaitez quantifier cette intuition, la formule que vous avez proposée (avec de légères révisions) apparaît dans la page Wikipedia: http://en.wikipedia.org/wiki/Fisher%27s_method , et le graphique associé vous permet de quantifier visuellement et semi-automatiquement. quantitativement l'impact de l'obtention de deux petites valeurs p sur la signification globale. Par exemple, en lisant le graphique codé par couleur, 2 valeurs p simultanées de 0,05 donneraient une valeur p synthétique autour de 0,02. Vous pouvez également étudier l'impact sur les statistiques t de doubler la taille de votre échantillon. La taille de l'échantillon entre dans la statistique t de l'échantillon sous la forme 1 / sqrt (n-1) afin que vous puissiez examiner l'impact de ce facteur résultant du passage de 50 à 100. (en R :)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

Ces deux approches donnent des résultats quantitatifs différents, puisque le rapport entre les valeurs 1 / sqrt (n) pour 50 et 100 n’est pas le même que le rapport entre 0,05 et 0,02. Les deux approches soutiennent mon intuition, mais à des degrés différents. Peut-être que quelqu'un d'autre peut résoudre cet écart. Une troisième approche consisterait à considérer la probabilité d’obtenir deux tirages au sort «VRAI» lorsque la probabilité binomiale de chaque tirage était de 0,05. (un dés extrêmement injuste) Cet événement conjoint devrait avoir une probabilité de 0,05 * 0,05 = 0,002, résultat qui pourrait être pris en compte de "l'autre côté" de l'estimation de Fisher. Je viens de lancer une simulation de 50 000 tests simultanés. Si vous tracez les résultats, cela ressemble beaucoup aux cartes du champ de rayonnement de fond cosmique ... c'est-à-dire. principalement aléatoire.

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851
DWin
la source
Merci pour votre réponse. L'intuition que vous avez mentionnée a du sens. Je considérerais les cas que vous avez mentionnés comme plus significatifs. Mais existe-t-il un moyen d'exprimer cette idée de manière plus mathématique et rigoureuse?
Alby
Cette réponse (première phrase) suppose que lors de la moyenne des valeurs, le seuil de signification resterait identique, mais ce n’est pas vrai. La moyenne peut fonctionner très bien. Voir la réponse de @Elvis. a l p h apalpha
amibe dit de réintégrer Monica
Je l'ai vu. N'était pas convaincu.
Din
1
Vous ne semblez pas remarquer qu'avec la "méthode de moyennage" et deux expériences avec et , l'hypothèse nulle est rejetée (voir le deuxième dessin de ma réponse ci-dessus). p 2 = 0,05p1=0.05p2=0.05
Elvis
La méthode de calcul de la moyenne "met l'accent" ou pondère l'hypothèse composée selon laquelle les deux hypothèses individuelles doivent être rejetées ensemble. Cela semble être une contrainte tacite.
DWin