Une méta-analyse d'études qui ne sont pas toutes «statistiquement significatives» peut-elle conduire à une conclusion «significative»?

29

Une méta-analyse comprend un tas d'études, qui ont toutes rapporté une valeur P supérieure à 0,05. Est-il possible que la méta-analyse globale rapporte une valeur P inférieure à 0,05? Dans quelles circonstances?

(Je suis presque sûr que la réponse est oui, mais j'aimerais une référence ou une explication.)

Harvey Motulsky
la source
1
Je ne connais pas grand-chose à la méta-analyse, mais j'avais l'impression qu'elle n'implique aucun test d'hypothèse, juste une estimation de l'effet sur la population, auquel cas il n'y a aucune notion de signification à proprement parler.
Kodiologist
1
Eh bien, une méta-analyse - à la fin de la journée - n'est qu'une moyenne pondérée. Et vous pouvez certainement mettre en place un test d'hypothèse pour cette moyenne pondérée. Voir, par exemple, Borenstein, Michael et al. "Une introduction de base aux modèles à effets fixes et à effets aléatoires pour la méta-analyse." Research Synthesis Methods 1.2 (2010): 97-111.
boscovich
1
Les autres réponses sont également bonnes, mais un cas simple: deux études sont significatives à p = 0,9 mais pas p = 0,95. La probabilité que deux études indépendantes montrent toutes les deux p> = 0,9 n'est que de 0,01, donc votre méta-analyse pourrait montrer une signification à p = 0,99
barrycarter
2
Prenez la limite: aucune mesure ne peut fournir suffisamment de preuves pour / contre une hypothèse (non triviale) pour avoir une petite valeur p , mais une collection de mesures suffisamment grande le peut.
Eric Towers
Les valeurs de p n'indiquent pas d'effet "statistiquement significatif" ou insignifiant. Que pourrions-nous comprendre d'une conclusion significative? Est-ce une conclusion méta-analytique?
Subhash C. Davar

Réponses:

31

En théorie, oui ...

Les résultats des études individuelles peuvent être insignifiants mais considérés ensemble, les résultats peuvent être significatifs.

En théorie, vous pouvez procéder en traitant les résultats yi de l'étude i comme toute autre variable aléatoire.

Soit une variable aléatoire (par exemple, l'estimation de l'étude i ). Alors si y i sont indépendants et E [ y i ] = μyiiyiE[yi]=μ , vous pouvez constamment estimer la moyenne avec:

μ^=1niyi

En ajoutant plus d'hypothèses, soit la variance de l'estimation y i . Ensuite, vous pouvez estimer efficacement μσi2yiμ avec une pondération de variance inverse:

μ^=iwiyiwi=1/σi2j1/σj2

Dans ces deux peut être statistiquement significative à un certain niveau de confiance , même si les estimations individuelles ne sont pas.μ^

MAIS il peut y avoir de gros problèmes, des problèmes à prendre en compte ...

  1. Si la méta-analyse peut ne pas converger vers μ (c.- à-d. Que la moyenne de la méta-analyse est un estimateur incohérent).E[yi]μμ

    Par exemple, s'il existe un biais contre la publication de résultats négatifs, cette simple méta-analyse peut être horriblement incohérente et biaisée! Ce serait comme estimer la probabilité qu'un lancer de pièce tombe en tête en observant uniquement les tours où il n'a pas atterri la queue!

  2. et y j peuvent ne pas être indépendants. Par exemple, si deux études i et j étaient basées sur les mêmes données, alors traiter y i et y jyiyjijyiyj comme indépendants dans la méta-analyse peut largement sous-estimer les erreurs standard et surestimer la signification statistique. Vos estimations seraient toujours cohérentes, mais les erreurs-types doivent raisonnablement tenir compte de la corrélation croisée dans les études.

  3. La combinaison de (1) et (2) peut être particulièrement mauvaise.

    Par exemple, la méta-analyse de la moyenne des sondages ensemble a tendance à être plus précise que tout sondage individuel. Mais la moyenne des sondages ensemble est toujours vulnérable aux erreurs corrélées. Quelque chose qui est apparu lors des dernières élections est que les jeunes travailleurs des bureaux de vote peuvent avoir tendance à interroger d'autres jeunes plutôt que des personnes âgées. Si tous les sondages de sortie font la même erreur, alors vous avez une mauvaise estimation qui peut être considérée comme une bonne estimation (les sondages de sortie sont corrélés car ils utilisent la même approche pour effectuer des sondages de sortie et cette approche génère la même erreur).

Sans aucun doute, les personnes plus familières avec la méta-analyse peuvent trouver de meilleurs exemples, des problèmes plus nuancés, des techniques d'estimation plus sophistiquées, etc., mais cela touche à certaines des théories les plus élémentaires et à certains des plus gros problèmes. Si les différentes études font une erreur aléatoire indépendante, la méta-analyse peut être incroyablement puissante. Si l'erreur est systématique dans toutes les études (par exemple, tout le monde sous-estime les électeurs plus âgés, etc.), alors la moyenne des études sera également erronée. Si vous sous-estimez la corrélation des études ou la corrélation des erreurs, vous surestimez effectivement la taille globale de votre échantillon et sous-estimez vos erreurs standard.

Il y a aussi toutes sortes de problèmes pratiques de définitions cohérentes, etc.

Matthew Gunn
la source
1
Je critique une méta-analyse pour ignorer les dépendances entre les tailles d'effet (c'est-à-dire que de nombreuses tailles d'effet étaient basées sur les mêmes participants, mais traitées comme indépendantes). Les auteurs disent non biggie, nous sommes de toute façon intéressés par les modérateurs. Je fais valoir ce que vous avez dit ici: les traiter «comme indépendants dans la méta-analyse peut largement sous-estimer les erreurs standard et surestimer la signification statistique». Existe-t-il une étude de preuve / simulation montrant pourquoi c'est le cas? J'ai beaucoup de références disant que les erreurs corrélées signifient une SE sous-estimée ... mais je ne sais pas pourquoi?
Mark White
1
@MarkWhite L'idée de base n'est pas plus compliquée que . Si pour toutinous avonsVar(Xi)=σ2etCov(Xi,Xj)=0pourijalorsVar(1Var(1niXi)=1n2(iVar(Xi)+ijCov(Xi,Xj))iVar(Xi)=σ2Cov(Xi,Xj)=0ij et votre erreur standard estσVar(1niXi)=σ2n . D'un autre côté, si les termes de covariance sont positifs et importants, l'erreur standard sera plus grande. σn
Matthew Gunn
@MarkWhite Je ne suis pas un expert méta-analyse, et honnêtement , je ne sais pas ce qui est une grande source de la façon dont on devrait faire moderne, une méta-analyse. Sur le plan conceptuel, la réplication de l'analyse sur les mêmes données est certainement utile (tout comme l'étude intensive de certains sujets), mais ce n'est pas la même chose que la reproduction d'une découverte sur de nouveaux sujets indépendants.
Matthew Gunn
1
Ah, donc en mots: la variance totale d'une taille d'effet vient de (a) sa variance et (b) de sa covariance avec d'autres tailles d'effet. Si la covariance est 0, l'estimation d'erreur standard est correcte; mais si elle coïncide avec d'autres tailles d'effet, nous devons tenir compte de cette variance, et l'ignorer signifie que nous sous-estimons la variance. C'est comme si la variance est composée de deux parties A et B, et ignorer les dépendances suppose que la partie B est 0 alors qu'elle ne l'est pas?
Mark White
1
En outre, cela semble être une bonne source (voir en particulier l'encadré 2): nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf
Mark White
29

Oui. Supposons que vous ayez valeurs p issues de N études indépendantes.NN

Test de Fisher

(EDIT - en réponse au commentaire utile de @ mdewey ci-dessous, il est pertinent de faire la distinction entre différents méta-tests. J'expose le cas d'un autre méta-test mentionné par mdewey ci-dessous)

Le méta-test classique de Fisher (voir Fisher (1932), "Méthodes statistiques pour les chercheurs" ) statistique a une distribution nulle χ 2 2 N , comme - 2 ln ( U ) χ 2 2 pour un rv U uniforme .

F=2i=1Nln(pi)
χ2N22ln(U)χ22U

Soit le quantile ( 1 - α ) de la distribution nulle.χ2N2(1α)(1α)

Supposons que toutes les valeurs de p soient égales à , où, éventuellement, c > α . Alors, F = - 2 N ln ( c ) et F > χ 2 2 N ( 1 - α ) lorsque c < exp ( - χ 2 2 N ( 1 - α )cc>αF=2Nln(c)F>χ2N2(1α) Par exemple, pourα=0,05etN=20, lesvaleurspindividuellesdoivent seulement être inférieures à

c<exp(χ2N2(1α)2N)
α=0.05N=20p
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Bien sûr, ce que la méta-statistique teste est "seulement" le null "agrégé" que tous les nulls individuels sont vrais, ce qui doit être rejeté dès qu'un seul des nulls est faux.N

MODIFIER:

Voici un tracé des valeurs de p "admissibles" par rapport à , ce qui confirme que c croît dans N , bien qu'il semble se stabiliser à c 0,36 .NcNc0.36

entrez la description de l'image ici

Je trouve une limite supérieure pour les quantiles de la de distribution χ 2 2 N ( 1 - α ) 2 N + 2 log ( 1 / α ) + 2 χ2ici, suggérant queχ 2 2 N (1-α)=O(N) desorte que exp ( - χ 2 2 N ( 1 - α )

χ2N2(1α)2N+2log(1/α)+22Nlog(1/α),
χ2N2(1α)=O(N)est borné par le haut parexp(-1)commeN. Commeexp(-1)0,3667, cette limite semble raisonnablement nette.exp(χ2N2(1α)2N)exp(1)Nexp(1)0.3679

Test normal inverse (Stouffer et al., 1949)

La statistique de test est donnée par

Z=1Ni=1NΦ1(pi)
Φ1Z<1.645α=0.05pi=cZ=NΦ1(c)c<0.5Φ1(c)<0ZpNc0.5ZNN

Z<1.645c<Φ(1.645/N)Φ(0)=0.5N

Christoph Hanck
la source
2
1/e
Merci :-). Je ne m'y attendais pas non plus avant d'avoir vu l'intrigue ...
Christoph Hanck
5
Fait intéressant, la méthode due à Fisher est la seule des méthodes couramment utilisées qui possède cette propriété. Pour la plupart des autres, ce que vous appelez F augmente avec N si $ c> 0,5) et diminue sinon. Cela s'applique à la méthode de Stouffer et à la méthode d'Edgington ainsi qu'aux méthodes basées sur des logits et sur la moyenne de p. Les différentes méthodes qui sont des cas particuliers de la méthode de Wilkinson (p minimum, p maximum, etc.) ont à nouveau des propriétés différentes.
mdewey
1
1/e
p=0.9p
4

p

pα

p[1]p[2]p[k]
k
p[1]<1(1α)1k

It is easy to see the since the kth root of a number less than unity is closer to unity the last term is greater than α and hence the overall result will be non-significant unless p[1] is already less than α.

It is possible to work out the critical value and for example if we have ten primary studies each with a p-values of 00.05 so as close to significant as can be then the overall critical value is 0.40. The method can be seen as a special case of Wilkinson's method which uses p[r] for 1rk and in fact for the particular set of primary studies even r=2 is not significant (p=0.09)

L H C Tippett's method is described in a book The methods of statistics. 1931 (1st ed) and Wilkinson's method is here in an article "A statistical consideration in psychological research"

mdewey
la source
1
Thanks. But note that most meta-analysis methods combine effect sizes (accounting for any difference in sample size), and do not combine P values.
Harvey Motulsky
@HarveyMotulsky agreed, combining p-values is a last resort but the OP did tag his question with the combining-p-values tag so I responded in that spirit
mdewey
I think that your answer is correct.
Subhash C. Davar