Je fais des études d'association GWAS SNP sur les maladies en utilisant un logiciel appelé plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).
Avec les résultats d'association, j'obtiens des valeurs de p pour tous les SNP qui ont été analysés. Maintenant, j'utilise un tracé QQ de ces valeurs de p pour montrer si une valeur de p très faible diffère de la distribution attendue des valeurs de p (une distribution uniforme). Si une valeur de p s'écarte de la distribution attendue, on "peut" appeler cette valeur de p pour la statistique significative.
Comme vous pouvez le voir dans l'intrigue QQ, à l'extrémité supérieure, les 4 derniers points sont quelque peu difficiles à interpréter. Deux des derniers points dans le gris suggèrent que ces valeurs p sont dans la distribution attendue des valeurs p, tandis que les deux autres ne le sont pas.
Maintenant, comment interpréter cela, les deux derniers points ont des valeurs de p plus faibles mais ne sont pas "significatifs" selon le tracé QQ, tandis que les deux autres points avec des valeurs de p plus élevées sont "significatifs"? Comment cela peut-il être vrai?
Réponses:
Une bonne référence sur l'analyse des graphiques de valeur p est [1].
Le résultat que vous voyez peut être dû au fait que le signal / les effets n'existent que dans certains sous-ensembles de tests. Ceux-ci sont conduits au-dessus des bandes d'acceptation. Rejeter uniquement la valeur de p en dehors des bandes peut en effet être justifié, mais peut-être plus important encore, vous devez décider quel est le critère d'erreur que vous souhaitez contrôler lors de la sélection de votre procédure de sélection (FWER, FDR). Vous pouvez consulter [2] pour ce choix et les références qu'il contient pour choisir la procédure de test multiple appropriée.
[1] Schweder, T. et E. Spjotvoll. «Tracés de valeurs P pour évaluer plusieurs tests simultanément.» Biometrika 69, no. 3 (décembre 1982): 493–502. doi: 10.2307 / 2335984.
[2] Rosenblatt, Jonathan. «Guide du praticien sur les taux d'erreur de tests multiples». ArXiv e-print. Université de Tel Aviv, 17 avril 2013. http://arxiv.org/abs/1304.4920 .
la source
C'est une question plus ancienne, mais je l'ai trouvée utile lorsque j'essayais d'interpréter QQPlots pour la première fois. Je pensais ajouter à ces réponses au cas où plus de gens tomberaient sur cela à l'avenir.
Ce que j'ai trouvé un peu difficile à comprendre, c'est quels sont ces points exactement? J'ai trouvé qu'aller au code le rendait facile à comprendre.
Voici un code R que j'ai adapté
GWASTools::qqPlot
qui implémente un QQPlot en 3 lignes:Voici un exemple. Vous avez 5 valeurs de p. simpleQQPlot générera 5 valeurs p correspondantes à partir d'une distribution uniforme entre 0 et 1. Ce seront: .2 .4 .6 .8 et 1. Donc simpleQQPlot s'attend à ce que votre valeur p la plus basse soit autour de .2, et votre plus élevée autour. 1. simpleQQPlot triera vos valeurs p et les appairera chacune à la valeur générée correspondante. Ainsi, .2 sera associé à votre valeur p la plus basse, 1 à votre valeur la plus élevée, etc. Ensuite, ces valeurs appariées sont tracées (après avoir pris les journaux négatifs), avec X étant la valeur p générée et Y étant la valeur observée appariée. Si vos valeurs observées ont également été tirées d'une distribution normale, les points doivent se situer approximativement sur la ligne droite. En raison du tri, les points augmenteront toujours de façon monotone. Ainsi, chaque point suivant aura un X supérieur et un Y supérieur ou égal.
Ainsi, dans l'exemple original ci-dessus, la 9 997e valeur de p triée était d'environ 5,2 mais devait être d'environ 4,1 si elle suivait une distribution normale. (Remarque: je ne sais pas vraiment combien de valeurs p ont été tracées ci-dessus - je viens de deviner 10k).
la source