Pourquoi la méthode de Stouffer fonctionne-t-elle?

9

Cela semble être une question assez simple, mais quand j'y pense vraiment, la méthode de Stouffer n'a pas de sens pour moi. C'est pourquoi:

Supposons une hypothèse bilatérale. Vous calculez d'abord partir des valeurs de . Prenons donc un exemple assez simple. Prenons deux valeurs de de . Cela signifie que et sont tous deux . Selon la méthode de Stouffer, et sont combinés de telle sorte que: zjepp0,05z1z21,96z1z2

Z=je=1kZjek=1,96+1,962=2,77

Cette -Score obtient ensuite converti en un une fois de plus -valeur, résultant en un -valeur de , alors que les -values de chaque est individuellement environ .zpp0,005pzje0,05

En ce sens, il semble que le test de Stouffer modifie artificiellement la valeur résultante en une valeur différente des valeurs de chaque , ce qui pour moi n'a pas de sens.ppzje

Suis-je mal compris ce test ou quelqu'un peut-il m'aider à comprendre comment / pourquoi il fonctionne?

volonté
la source
5
(+1) Mais veuillez noter que la méthode de Stouffer sous cette forme n'est pas appropriée pour les alternatives bilatérales. Le problème est qu'il néglige la possibilité qu'une étude ait pu trouver un effet dans une direction et l'autre, un effet dans la direction opposée. Il faut vérifier que cela ne s'est pas produit. Pour en revenir à votre question: en quel sens est-ce "artificiel"? Gardez à l'esprit que le but est de combiner les preuves pour soutenir la prise de décision. N'est-il pas logique que deux résultats significatifs devraient constituer un soutien plus fort à une décision que l'un ou l'autre seul?
whuber
Quand j'ai écrit que cela semble "artificiel", je voulais dire que dans le cas où il y a deux échantillons (N = 2), il y aura toujours une inflation du score Z, ce qui entraînera des valeurs de p toujours plus faibles que prévu z-score ( ). Bien qu'il soit logique que deux résultats significatifs se traduisent par un soutien plus solide à une décision que l'un ou l'autre seul, il n'est pas logique que deux valeurs de p soient implémentées dans la méthode de Stouffer et le résultat soit complètement différent de l'un ou l'autre p- valeur. zje
le
2
@will, je ne comprends pas la dernière phrase de votre premier (long) commentaire ici. Oui, il est logique que deux résultats significatifs donnent un soutien plus fort lorsqu'ils sont combinés. Ce qui signifie que la valeur p combinée peut être bien inférieure à l'une ou l'autre. Donc quel est le problème?
amoeba
2
Je pensais qu'une façon de développer votre intuition serait d'inverser cette procédure: prendre une seule étude et la diviser en deux parties aléatoires, puis analyser chaque partie séparément. À titre d'exemple très simple, considérons une enquête postélectorale dans laquelle 1000 personnes ont été interrogées et 535 ont déclaré avoir voté pour la titulaire et 465 pour son adversaire. Une répartition aléatoire pourrait aller 265-235 dans une moitié et 270-230 dans l'autre moitié. Quelles sont les valeurs de p pour le test d'égalité des proportions dans les deux moitiés et quelle est la valeur de p en général? (In R, calcul utilisant prop.test(535,1000), etc.)
whuber
2
Vous semblez confondre l'estimation de l'échantillon de la proportion avec la valeur de p du test !! La valeur de p globale est de 0,03 tandis que les valeurs de p des deux moitiés sont de 0,08 et 0,19.
whuber

Réponses:

8

La taille globale de l'échantillon plus élevée conduit à une puissance plus élevée et donc à une valeur p plus petite (au moins si l'hypothèse de travail est étayée par les données).

C'est généralement le point principal de toute méta-analyse: plusieurs preuves faibles soutenant une hypothèse sont combinées à des preuves solides.

Michael M
la source
Étant donné que le terme statistique "puissance" dans ce contexte a une signification très différente de la valeur p, je crains que cette explication ne crée une certaine confusion parmi eux.
whuber
Cela signifie-t-il que dans le cas où la taille de l'échantillon est de 2, la puissance de la méthode de Stouffer sera toujours réduite et que la valeur de p sera toujours plus petite? Comment obtenir une réponse plus précise lorsque la taille de l'échantillon est de deux?
le
La taille du "méta-échantillon" est de deux, c'est-à-dire qu'il y a eu deux expériences qui ont p=0,05. La taille de l'échantillon combinéN est N=N1+N2, donc généralement beaucoup plus grand que 2. Comme cette méta-analyse ne prend en compte que les valeurs de p, les informations disponibles sont bien inférieures à celles des données brutes du N1+N2événements.
quazgar
2

Pour plus de simplicité, pensez en termes de test des moyens. Supposons que sous H0, l'effet de traitement soit nul, de sorte que chaque valeur z est une estimation pondérée de l'effet de traitement θi. La méthode de Stouffer donne une moyenne non pondérée de ces effets de traitement et donnera donc une estimation plus précise (et donc une valeur p plus petite) que chaque valeur z distincte. Cette estimation non pondérée de l'effet du traitement est biaisée, mais une méthode de Stouffer pondérée est possible, et si les poids sont proportionnels à 1 / erreur standard (θi), l'estimation de l'effet du traitement est non biaisée. Cela n'a cependant de sens que si les valeurs z distinctes sont des mesures de la même quantité. Un avantage des méthodes de Stouffer's et Fisher est qu'elles peuvent également être appliquées à des méta-analyses où différentes variables de réponse ont été choisies - afin qu'elles puissent ''

Paul Silcocks
la source
0

Pensez-y du point de vue de la méta-analyse: s'il n'y a pas eu d'effet (H0), p les valeurs seraient également réparties entre 0 et 1. Donc, si vous obtenez p<0,1 dans plus de 10% de toutes les analyses individuelles (potentiellement un grand nombre d'entre elles), cela peut aboutir à la conclusion que H0 devrait probablement être rejeté.

Je ne vois même pas de problème pour les tests bilatéraux: Dans ce cas, le résultat doit être interprété comme: Il est peu probable que la vraie moyenne soit 0 (dans l'exemple d'un gaussien autour de 0), mais je ne peux pas le dire (à partir de le précédent ou le combiné p si la vraie moyenne est au-dessus ou en dessous.

quazgar
la source
-2

Je pense que ce serait bien de combiner des résultats bilatéraux parce que cela signifie que le résultat serait nul (s'il existe des preuves que le traitement améliore [la queue droite] la maladie d'un patient, mais aussi des preuves qu'elle s'aggrave [gauche -tail], le résultat net n'est pas une preuve d'une hypothèse particulière car ils s'annulent et plus d'observations sont nécessaires.

gah
la source
1
Je ne pense pas que cela règle la question. De plus, le commentaire de whuber indique que cette méthode particulière ne fonctionne pas pour les tests bilatéraux.
mkt