Méthode du score Z de Stouffer: et si on additionne

22

J'effectue tests statistiques indépendants avec la même hypothèse nulle et je voudrais combiner les résultats en une seule valeur . Il semble qu'il existe deux méthodes "acceptées": la méthode de Fisher et la méthode de Stouffer .Np

Ma question concerne la méthode de Stouffer. Pour chaque test séparé, j'obtiens un z-score . Sous l'hypothèse nulle, chacun d'entre eux est distribué avec une distribution normale, de sorte que la somme suit une distribution normale avec une variance . Par conséquent, la méthode de Stouffer suggère de calculer , qui devrait normalement être distribué avec une variance d'unité, puis l'utiliser comme un score z conjoint.ziΣziNΣzi/N

C'est raisonnable, mais voici une autre approche que j'ai trouvée et qui me semble également raisonnable. Comme chacun de provient d'une distribution normale standard, la somme des carrés doit provenir d'une distribution chi carré avec degrés de liberté. On peut donc calculer et le convertir en une valeur utilisant la fonction de distribution cumulative du chi carré avec degrés de liberté ( , où est le CDF). S = Σ z 2 i N S p N p = 1 - X N ( S ) X NziS=Σzi2NSpNp=1XN(S)XN

Cependant, je ne trouve nulle part cette approche mentionnée. Est-il jamais utilisé? At-il un nom? Quels seraient les avantages / inconvénients par rapport à la méthode de Stouffer? Ou y a-t-il une faille dans mon raisonnement?

amibe dit réintégrer Monica
la source
Un défaut saillant qui saute aux yeux est que la méthode de Stouffer peut détecter des changements systématiques dans le , ce qui devrait normalement se produire lorsqu'une alternative est toujours vraie, tandis que la méthode du chi carré semble avoir moins de pouvoir pour le faire. Une simulation rapide ( N = 100 , 10 4 itérations) montre que c'est le cas; la méthode du chi carré est beaucoup moins puissante pour détecter une alternative unilatérale. ziN=100dix4
whuber
2
Merci, whuber! Pourriez-vous décrire votre simulation plus en détail, je suis curieux. Par contre, si a des signes différents mais de grandes valeurs absolues, alors la méthode de Stouffer peut se retrouver avec z 0 global , alors que ma méthode rapporterait un p TRÈS significatif . Je suppose que dans certains cas, cela peut être beaucoup plus logique (et je soupçonne que dans mon cas, mais je ne suis pas sûr). zjez0p
amibe dit Réintégrer Monica
1
Vous avez raison, c'est pourquoi je n'ai pas posté mon commentaire comme réponse. Mais quels types de situations existe-t-il où les alternatives varient si radicalement du zéro dans les deux sens, sauf en raison du hasard?
whuber
La situation à laquelle je pensais ressemble à celle du test du chi carré de Pearson, où l'on cherche à savoir si une distribution empirique diffère de la valeur nulle; puis les écarts dans les deux sens importent. Mais après y avoir réfléchi, je suppose que votre intuition est correcte et dans mon cas, les écarts suspects sont tous dans une direction. Si vous postez votre commentaire comme réponse et fournissez des détails sur votre simulation rapide (je suis très curieux de savoir pourquoi la méthode du chi carré s'avère moins puissante!), Je serai heureux de l'accepter.
amibe dit Réintégrer Monica
La somme de n scores Z a une distribution avec une variance de n? Pourquoi la variance n'est-elle pas le carré de l'erreur-type de la moyenne? La somme de impliquée dans le titre a une variance de N. Peut-être que je manque quelque chose d'évident? Z2
russellpierce

Réponses:

17

Un défaut qui saute aux yeux est que la méthode de Stouffer peut détecter des changements systématiques dans le , ce qui devrait normalement se produire lorsqu'une alternative est toujours vraie, alors que la méthode du chi carré semble avoir moins de pouvoir pour le faire. Une simulation rapide montre que c'est le cas; la méthode du chi carré est moins puissante pour détecter une alternative unilatérale. Voici des histogrammes des valeurs de p par les deux méthodes (rouge = Stouffer, bleu = chi carré) pour 10 5 itérations indépendantes avec N = 10 et divers effets normalisés unilatéraux μ allant de aucun ( μ = 0 ) à 0,6 SD ( μ =zjedix5N=dixμμ=00,6 ).μ=0,6

Figure

La meilleure procédure aura plus de surface proche de zéro. Pour toutes les valeurs positives de indiquées, cette procédure est la procédure de Stouffer.μ


Code R

Cela inclut la méthode de Fisher (commentée) pour comparaison.

n <- 10
n.iter <- 10^5
z <- matrix(rnorm(n*n.iter), ncol=n)

sim <- function(mu) {
  stouffer.sim <- apply(z + mu, 1, 
                    function(y) {q <- pnorm(sum(y)/sqrt(length(y))); 2*min(q, 1-q)})
  chisq.sim <- apply(z + mu, 1, 
                    function(y) 1 - pchisq(sum(y^2), length(y)))
  #fisher.sim <- apply(z + mu, 1,
  #                  function(y) {q <- pnorm(y); 
  #                     1 - pchisq(-2 * sum(log(2*pmin(q, 1-q))), 2*length(y))})
  return(list(stouffer=stouffer.sim, chisq=chisq.sim, fisher=fisher.sim))
}

par(mfrow=c(2, 3))
breaks=seq(0, 1, .05)
tmp <- sapply(c(0, .1, .2, .3, .4, .6), 
              function(mu) {
                x <- sim(mu); 
                hist(x[[1]], breaks=breaks, xlab="p", col="#ff606060",
                     main=paste("Mu =", mu)); 
                hist(x[[2]], breaks=breaks, xlab="p", col="#6060ff60", add=TRUE)
                #hist(x[[3]], breaks=breaks, xlab="p", col="#60ff6060", add=TRUE)
                })
whuber
la source
Merci encore, c'est très sympa. Et que se passe-t-il si vous commentez la méthode de Fisher? Je suppose que vous l'avez déjà essayé. Stouffer gagne-t-il régulièrement? (Désolé de ne pas l'avoir essayé moi-même, mais je n'ai aucune expérience avec R et je ne l'ai pas à portée de main.)
Amoeba dit Reinstate Monica
μNN
1
Vous pouvez facilement modifier la Rsimulation pour tester cela. Ce serait un bon moyen de vous présenter à cette plateforme de calcul statistique. :-)
whuber
2
zjezje
Grande discussion et QA! Une question rapide: que se passe-t-il si l'on forme ce problème en tant que détection de valeurs aberrantes / d'anomalies en calculant la distance de Mahalanobis et en suivant quelque chose comme ça ?
NULL
10

Une façon générale de mieux comprendre les statistiques de test est de dériver les hypothèses sous-jacentes (généralement implicites) qui conduiraient cette statistique de test à être la plus puissante. Pour ce cas particulier, un étudiant et moi l'avons fait récemment: http://arxiv.org/abs/1111.1210v2 (une version révisée doit apparaître dans Annals of Applied Statistics).

Pour résumer très brièvement (et cohérent avec les résultats de la simulation dans une autre réponse), la méthode de Stouffer sera plus puissante lorsque les "vrais" effets sous-jacents sont tous égaux; la somme de Z ^ 2 sera plus puissante lorsque les effets sous-jacents sont normalement distribués autour de 0. Il s'agit d'une légère simplification qui omet les détails: voir la section 2.5 dans la préimpression arxiv liée ci-dessus pour plus de détails.

mstephens
la source
2
(+1) D'une certaine manière, je pensais l'avoir écrit il y a longtemps, mais il semble que non: merci beaucoup de vous être inscrit ici spécifiquement pour répondre à ma question! Je vous en suis reconnaissant. La section 2.5 de votre document est en effet très pertinente.
amibe dit Réintégrer Monica
3

Légèrement o / t: l'un des problèmes avec ces deux approches est la perte de puissance due aux degrés de liberté (N pour stouffer's; 2N pour Fisher's). Il y a eu de meilleures approches méta-analytiques développées pour cela, que vous voudrez peut-être considérer (méta-analyse pondérée en variance inverse, par exemple).

Si vous recherchez des preuves de certains tests alternatifs au sein d'un groupe, vous voudrez peut-être consulter la statistique de critique plus élevée de Donoho et Jin: https://projecteuclid.org/euclid.aos/1085408492

cotsapas
la source
1

Pour répondre à la question et pour tout autre lecteur: est-il jamais utilisé?, Il existe un article exhaustif de Cousins ​​(2008) sur arXiv, qui énumère et passe en revue quelques approches alternatives. Celui proposé ne semble pas apparaître.

victor_v
la source