Dans The Economist, j’ai lu un article sur un article apparemment dévastateur [1] qui mettait en doute «quelque chose comme 40 000 études [IRMf] publiées». L'erreur, disent-ils, est due à des "hypothèses statistiques erronées". J'ai lu le journal et je vois que c'est en partie un problème avec les corrections de comparaisons multiples, mais je ne suis pas un expert en IRMf et j'ai du mal à suivre.
Quelles sont les hypothèses erronées dont parlent les auteurs ? Pourquoi ces hypothèses sont faites? Quels sont les moyens de faire ces hypothèses?
Un calcul au dos de l’enveloppe indique que 40 000 papiers IRMf représentent un financement de plus d’un milliard de dollars (salaire des étudiants diplômés, coûts de fonctionnement, etc.).
[1] Eklund et al., Échec de cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs, PNAS 2016
Réponses:
Sur la figure 40000
Les nouvelles sont vraiment sensationnalistes, mais le journal est vraiment bien fondé. Les discussions ont duré des jours dans mon laboratoire, somme toute une critique vraiment nécessaire qui fait que les chercheurs introspectent leurs travaux. Je recommande la lecture du commentaire suivant de Thomas Nichols , l'un des auteurs du document "Échec de grappe: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs" (désolé pour la longue citation).
Il inclut également ce tableau à la fin:
Fondamentalement, SPM (Statistical Parametric Mapping, une boîte à outils pour Matlab) est l’outil le plus largement utilisé pour les études de neuroscience IRMf. Si vous vérifiez le papier, vous constaterez que l'utilisation d'un CDT de P = 0.001 (standard) pour les clusters dans SPM donne presque le taux d'erreur attendu par famille.
Les auteurs ont même rempli un errata en raison de la formulation de l'article:
Sur le soi-disant Bug
Certaines nouvelles ont également mentionné un bug comme étant la cause de l'invalidité des études. En effet, l' un des outils AFNI corrigeait les inférences , ce qui a été résolu après la publication de la pré-impression dans arXiv .
Inférence statistique utilisée en neuroimagerie fonctionnelle
En utilisant un modèle linéaire généralisé (GLM), vous identifiez les séries temporelles de signaux voxels corrélées au design du paradigme de votre expérience (généralement une série temporelle booléenne compliquée par une fonction de réponse hémodynamique canonique, mais des variations existent).
Donc, ce GLM vous a donné à quel point chaque série chronologique de voxels ressemble à la tâche. Maintenant, supposons que vous ayez deux groupes d'individus: les patients et les contrôles habituellement. La comparaison des scores GLM entre les groupes pourrait être utilisée pour montrer comment la condition des groupes module leur schéma "d'activation" cérébrale.
Il est possible de comparer les groupes entre eux, mais en raison de la fonction de répartition par points inhérente à l'équipement et d'une étape de pré-traitement de lissage, il n'est pas raisonnable de s'attendre à ce que les voxels contiennent individuellement toutes les informations. La différence de voxels entre les groupes devrait en fait être répartie sur les voxels voisins.
Ainsi, une comparaison par groupe est effectuée, c'est-à-dire que seules les différences entre les groupes qui forment des groupes sont prises en compte. Ce seuillage est la technique de correction par comparaison multiple la plus populaire dans les études IRMf. Le problème réside ici.
Au moins dans SPM, vous devez définir un taux nominal FWE ainsi qu'un seuil de définition de cluster (CDT). Fondamentalement, SPM trouve les voxels fortement corrélés à la tâche et, après seuillage avec le CDT, les voisins sont agrégés en clusters. Ces tailles de grappes sont comparées à l'étendue de grappes attendue à partir de la théorie des champs aléatoires (RFT) étant donné l'ensemble FWER [ 1 ].
Les auteurs ont montré dans [ 1 ] que les tailles de cluster attendues de RFT sont vraiment petites si on les compare aux seuils d’extension de cluster obtenus à partir de tests de permutation aléatoire (RPT).
@amoeba a soulevé ces deux questions très pertinentes dans les commentaires:
(1) Bonne question. En fait, j’ai passé en revue mes références, voyons si je peux le rendre plus clair maintenant. L'inférence par grappe est basée sur l'étendue des grappes qui se forment après l'application d'un seuil primaire (le CDT, qui est arbitraire ). Dans l' analyse secondaire, un seuil sur le nombre de voxels par cluster est appliqué. Ce seuil est basé sur la distribution attendue des étendues de grappes nulles, qui peuvent être estimées à partir de la théorie (par exemple, RFT), et définit un FWER nominal. Une bonne référence est [ 2 ].
(2) Merci pour cette référence, je ne l'ai pas vue auparavant. Flandin & Friston soutiennent Eklund et al. inférence RFT corroborée car ils ont essentiellement montré que, si l'on respecte ses hypothèses (CDT et lissage), les résultats sont sans biais. Dans cette optique, les nouveaux résultats montrent que différentes pratiques dans la littérature tendent à biaiser l’inférence car elle brise les hypothèses de la RFT.
Sur les comparaisons multiples
Il est également bien connu que de nombreuses études en neuroscience ne permettent pas de nombreuses comparaisons, des estimations allant de 10% à 40% de la littérature. Mais ils ne sont pas pris en compte dans cette affirmation, tout le monde sait que ces papiers ont une validité fragile, voire d’énormes taux de faux positifs.
Sur le dessus de 70%
Les auteurs ont également signalé une procédure produisant une FWER supérieure à 70%. Cette procédure "folk" consiste à appliquer la CDT pour ne conserver que des grappes hautement significatives, puis à appliquer un autre seuil (défini par le nombre de voxels) de grappes choisi arbitrairement. Ceci, parfois appelé "set-inference", a des bases statistiques faibles et peut éventuellement générer les résultats les moins fiables.
Rapports précédents
Les mêmes auteurs avaient déjà signalé des problèmes avec la validité de SPM [ 1 ] sur des analyses individuelles. Il existe également d'autres travaux cités dans ce domaine.
Curieusement, plusieurs rapports d’analyses au niveau des groupes et des individus sur la base de données simulées ont conclu que le seuil de RFT était, en fait, conservateur. Avec les récents progrès de la puissance de traitement, RPT peut être exécuté beaucoup plus facilement sur des données réelles, ce qui montre de grandes différences par rapport à la RFT.
MISE À JOUR: 18 octobre 2017
Un commentaire sur "Cluster Failure" est apparu en juin dernier [ 3 ]. Il Mueller et al. soutiennent que les résultats présentés dans Eklund et al. pourraient être dus à une technique de prétraitement d’imagerie spécifique utilisée dans leur étude. Ils ont ré-échantillonné les images fonctionnelles avec une résolution plus élevée avant le lissage (bien que ce ne soit probablement pas le cas de tous les chercheurs, il s'agit d'une procédure de routine dans la plupart des logiciels d'analyse IRMf). Ils notent également que Flandin & Friston ne l'ont pas fait. J'ai eu la chance de voir Eklund parler le même mois lors de la réunion annuelle de l'Organisation pour la cartographie du cerveau humain (OHBM) à Vancouver, mais je ne me souviens d'aucun commentaire sur cette question, pourtant cela semble crucial pour la question.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. et Knutsson, H. (2012). L'analyse IRMf paramétrique avec SPM donne-t-elle des résultats valables? —Etude empirique de 1484 bases de données sur le repos. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. et Wager, TD (2014). Le seuillage basé sur l'étendue des grappes dans les analyses IRMf: pièges et recommandations. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE et Lohmann, G. (2017). Commentaire: Échec du cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs. Frontiers in Neuroscience Human, 11.
la source