J'effectue tests statistiques indépendants avec la même hypothèse nulle et je voudrais combiner les résultats en une seule valeur . Il semble qu'il existe deux méthodes "acceptées": la méthode de Fisher et la méthode de Stouffer .
Ma question concerne la méthode de Stouffer. Pour chaque test séparé, j'obtiens un z-score . Sous l'hypothèse nulle, chacun d'entre eux est distribué avec une distribution normale, de sorte que la somme suit une distribution normale avec une variance . Par conséquent, la méthode de Stouffer suggère de calculer , qui devrait normalement être distribué avec une variance d'unité, puis l'utiliser comme un score z conjoint.
C'est raisonnable, mais voici une autre approche que j'ai trouvée et qui me semble également raisonnable. Comme chacun de provient d'une distribution normale standard, la somme des carrés doit provenir d'une distribution chi carré avec degrés de liberté. On peut donc calculer et le convertir en une valeur utilisant la fonction de distribution cumulative du chi carré avec degrés de liberté ( , où est le CDF). S = Σ z 2 i N S p N p = 1 - X N ( S ) X N
Cependant, je ne trouve nulle part cette approche mentionnée. Est-il jamais utilisé? At-il un nom? Quels seraient les avantages / inconvénients par rapport à la méthode de Stouffer? Ou y a-t-il une faille dans mon raisonnement?
la source
Réponses:
Un défaut qui saute aux yeux est que la méthode de Stouffer peut détecter des changements systématiques dans le , ce qui devrait normalement se produire lorsqu'une alternative est toujours vraie, alors que la méthode du chi carré semble avoir moins de pouvoir pour le faire. Une simulation rapide montre que c'est le cas; la méthode du chi carré est moins puissante pour détecter une alternative unilatérale. Voici des histogrammes des valeurs de p par les deux méthodes (rouge = Stouffer, bleu = chi carré) pour 10 5 itérations indépendantes avec N = 10 et divers effets normalisés unilatéraux μ allant de aucun ( μ = 0 ) à 0,6 SD ( μ =zje dix5 N= 10 μ μ = 0 0,6 ).μ = 0,6
La meilleure procédure aura plus de surface proche de zéro. Pour toutes les valeurs positives de indiquées, cette procédure est la procédure de Stouffer.μ
Code R
Cela inclut la méthode de Fisher (commentée) pour comparaison.
la source
R
simulation pour tester cela. Ce serait un bon moyen de vous présenter à cette plateforme de calcul statistique. :-)Une façon générale de mieux comprendre les statistiques de test est de dériver les hypothèses sous-jacentes (généralement implicites) qui conduiraient cette statistique de test à être la plus puissante. Pour ce cas particulier, un étudiant et moi l'avons fait récemment: http://arxiv.org/abs/1111.1210v2 (une version révisée doit apparaître dans Annals of Applied Statistics).
Pour résumer très brièvement (et cohérent avec les résultats de la simulation dans une autre réponse), la méthode de Stouffer sera plus puissante lorsque les "vrais" effets sous-jacents sont tous égaux; la somme de Z ^ 2 sera plus puissante lorsque les effets sous-jacents sont normalement distribués autour de 0. Il s'agit d'une légère simplification qui omet les détails: voir la section 2.5 dans la préimpression arxiv liée ci-dessus pour plus de détails.
la source
Légèrement o / t: l'un des problèmes avec ces deux approches est la perte de puissance due aux degrés de liberté (N pour stouffer's; 2N pour Fisher's). Il y a eu de meilleures approches méta-analytiques développées pour cela, que vous voudrez peut-être considérer (méta-analyse pondérée en variance inverse, par exemple).
Si vous recherchez des preuves de certains tests alternatifs au sein d'un groupe, vous voudrez peut-être consulter la statistique de critique plus élevée de Donoho et Jin: https://projecteuclid.org/euclid.aos/1085408492
la source
Pour répondre à la question et pour tout autre lecteur: est-il jamais utilisé?, Il existe un article exhaustif de Cousins (2008) sur arXiv, qui énumère et passe en revue quelques approches alternatives. Celui proposé ne semble pas apparaître.
la source