40 000 articles sur les neurosciences pourraient se tromper

67

Dans The Economist, j’ai lu un article sur un article apparemment dévastateur [1] qui mettait en doute «quelque chose comme 40 000 études [IRMf] publiées». L'erreur, disent-ils, est due à des "hypothèses statistiques erronées". J'ai lu le journal et je vois que c'est en partie un problème avec les corrections de comparaisons multiples, mais je ne suis pas un expert en IRMf et j'ai du mal à suivre.

Quelles sont les hypothèses erronées dont parlent les auteurs ? Pourquoi ces hypothèses sont faites? Quels sont les moyens de faire ces hypothèses?

Un calcul au dos de l’enveloppe indique que 40 000 papiers IRMf représentent un financement de plus d’un milliard de dollars (salaire des étudiants diplômés, coûts de fonctionnement, etc.).


[1] Eklund et al., Échec de cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs, PNAS 2016

R Greg Stacey
la source
17
Voir également l'article sur l'IRMf du saumon mort. wired.com/2009/09/fmrisalmon
Monica le
1
C'est une ligne très fine, spécialement dans l'étude des neuropathologies, parce que vous pouvez totalement limiter autant que vous le souhaitez les faux positifs, mais dans le compromis, vous vous retrouvez avec une énorme incidence de faux négatifs.
Firebug
10
Il y a une petite différence entre les deux: le papier de saumon est une jolie petite parabole sur l'importance de la correction des comparaisons multiples, ce que tout le monde aurait déjà dû faire. En revanche, le problème du PNAS interpelle les personnes qui essayaient de faire "la bonne chose", mais la correction elle-même était un peu maladroite.
Matt Krause
4
Je pense que c’est une excellente question à poser car elle touche au cœur des corrections, comparaisons multiples et hypothèses clés pour la réalisation de ce type d’analyses dans le contexte d’une recherche commune. Cependant, la seule question dans le texte est "Est-ce que quelqu'un qui a plus de connaissances que lui veut commenter?" ce qui est un peu large et non spécifique. Si cela pouvait être axé sur une question statistique particulière relevant du centre d’aide, il conviendrait mieux à ce forum.
Réintégrer Monica le
2
Merci. J'ai édité la question pour la rendre plus précise. Faites-moi savoir si je devrais l'éditer plus.
R Greg Stacey

Réponses:

69

Sur la figure 40000

Les nouvelles sont vraiment sensationnalistes, mais le journal est vraiment bien fondé. Les discussions ont duré des jours dans mon laboratoire, somme toute une critique vraiment nécessaire qui fait que les chercheurs introspectent leurs travaux. Je recommande la lecture du commentaire suivant de Thomas Nichols , l'un des auteurs du document "Échec de grappe: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs" (désolé pour la longue citation).

Cependant, je regrette un chiffre: 40 000. En essayant de faire référence à l'importance de la discipline IRMf, nous avons utilisé une estimation de l'ensemble de la littérature en IRMf comme nombre d'études affectées par nos résultats. Dans notre défense, nous avons constaté des problèmes d'inférence de taille de grappe en général (sévère pour P = 0,01 CDT, biaisé pour P = 0,001), la méthode de l'inférence dominante, suggérant que la majorité de la littérature était affectée. Le chiffre indiqué dans la déclaration d’impact a toutefois été repris par la presse populaire et alimenté par un petit orage. Par conséquent, j'estime qu'il est de mon devoir de faire au moins une estimation approximative de «Combien d'articles notre travail affecte-t-il?». Je ne suis pas un bibliométricien, et c'est vraiment un exercice difficile, mais cela donne, espérons-le, une idée de l'ordre de grandeur du problème.

Le code d'analyse (dans Matlab) est présenté ci-dessous, mais voici le maigre: Sur la base de calculs probabilistes raisonnables, mais peut-être fragiles, de la littérature, j'estime qu'environ 15 000 articles utilisent l'inférence de taille de grappe avec correction pour des tests multiples; sur ce nombre, environ 3 500 utilisent un TDC de P = 0,01. 3 500 représente environ 9% de l'ensemble de la littérature, ou peut-être plus utilement 11% des articles contenant des données originales. (Bien sûr, certaines de ces 15 000 ou 3 500 personnes pourraient utiliser une inférence non paramétrique, mais c'est malheureusement rare pour l'IRMf. En revanche, il s'agit de l'outil d'inférence par défaut pour les analyses VBM / DTI structurelles en FLS).

Franchement, je pensais que ce nombre serait plus élevé, mais je ne réalisais pas la grande proportion d’études n’ayant jamais utilisé de correction de plusieurs tests. (Vous ne pouvez pas avoir gonflé les significations corrigées si vous ne corrigez pas!) . Ces calculs suggèrent que 13 000 articles n’ont utilisé aucune correction pour plusieurs tests. Bien sûr, certaines d’entre elles utilisent peut-être des régions d’intérêt ou des analyses de sous-volumes, mais il n’ya que très peu de résultats (c’est-à-dire de résultats d’essais cliniques) qui n’ont absolument aucune multiplicité. Notre article ne concerne pas directement ce groupe, mais pour les publications utilisant la correction de test multiple traditionnelle, P <0,001 & k> 10, notre article indique que cette approche présente des taux d'erreur familiaux bien supérieurs à 50%.

Alors, est-ce que nous disons que 3 500 papiers sont «faux»? Ça dépend. Nos résultats suggèrent que les résultats de la CDT P = 0,01 ont gonflé les valeurs de p, mais chaque étude doit être examinée… si les effets sont vraiment forts, peu importe si les valeurs de p sont biaisées et l'inférence scientifique restera inchangée. Mais si les effets sont vraiment faibles, les résultats pourraient en effet être compatibles avec le bruit . Et que dire de ces 13 000 articles sans correction, particulièrement répandus dans la littérature antérieure? Non, ils ne devraient pas non plus être jetés de côté, mais un œil particulièrement blasé est nécessaire pour ces travaux, en particulier lorsque vous les comparez à de nouvelles références avec des normes méthodologiques améliorées.

Il inclut également ce tableau à la fin:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

Fondamentalement, SPM (Statistical Parametric Mapping, une boîte à outils pour Matlab) est l’outil le plus largement utilisé pour les études de neuroscience IRMf. Si vous vérifiez le papier, vous constaterez que l'utilisation d'un CDT de P = 0.001 (standard) pour les clusters dans SPM donne presque le taux d'erreur attendu par famille.

Les auteurs ont même rempli un errata en raison de la formulation de l'article:

Compte tenu de la mauvaise interprétation répandue de notre article, Eklund et al., Cluster Failure: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs, nous avons déposé un errata auprès du bureau de la rédaction de PNAS:

Errata pour Eklund et al., Échec de cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

Deux phrases étaient mal formulées et pourraient facilement être interprétées comme une surestimation de nos résultats.

La dernière phrase de l'énoncé d'importance devrait se lire comme suit: «Ces résultats mettent en doute la validité d'un certain nombre d'études IRMf et pourraient avoir un impact important sur l'interprétation des résultats de neuroimagerie faiblement significatifs.»

La première phrase après le titre «L’avenir de l’IRMf» aurait dû se lire: «En raison des pratiques déplorables d’archivage et de partage des données, il est peu probable que des analyses problématiques puissent être refaites».

Celles-ci remplacent les deux phrases qui impliquaient à tort que nos travaux affectaient les 40 000 publications (voir la section Bibliométrie de Cluster Inference pour obtenir un aperçu de la quantité de documentation pouvant être affectée).

Après avoir initialement refusé l'errata, au motif qu'il corrigeait l'interprétation et non les faits, PNAS a accepté de le publier tel que nous l'avons présenté ci-dessus.


Sur le soi-disant Bug

Certaines nouvelles ont également mentionné un bug comme étant la cause de l'invalidité des études. En effet, l' un des outils AFNI corrigeait les inférences , ce qui a été résolu après la publication de la pré-impression dans arXiv .


Inférence statistique utilisée en neuroimagerie fonctionnelle

5%

En utilisant un modèle linéaire généralisé (GLM), vous identifiez les séries temporelles de signaux voxels corrélées au design du paradigme de votre expérience (généralement une série temporelle booléenne compliquée par une fonction de réponse hémodynamique canonique, mais des variations existent).

Donc, ce GLM vous a donné à quel point chaque série chronologique de voxels ressemble à la tâche. Maintenant, supposons que vous ayez deux groupes d'individus: les patients et les contrôles habituellement. La comparaison des scores GLM entre les groupes pourrait être utilisée pour montrer comment la condition des groupes module leur schéma "d'activation" cérébrale.

Il est possible de comparer les groupes entre eux, mais en raison de la fonction de répartition par points inhérente à l'équipement et d'une étape de pré-traitement de lissage, il n'est pas raisonnable de s'attendre à ce que les voxels contiennent individuellement toutes les informations. La différence de voxels entre les groupes devrait en fait être répartie sur les voxels voisins.

Ainsi, une comparaison par groupe est effectuée, c'est-à-dire que seules les différences entre les groupes qui forment des groupes sont prises en compte. Ce seuillage est la technique de correction par comparaison multiple la plus populaire dans les études IRMf. Le problème réside ici.

SPM et FSL dépendent de la théorie des champs aléatoires (RFT) gaussienne pour l'inférence VWE corrigée Fox / cluster par FWE. Cependant, l'inférence RFT par cluster dépend de deux hypothèses supplémentaires. La première hypothèse est que la régularité spatiale du signal IRMf est constante sur le cerveau et la seconde hypothèse est que la fonction d'autocorrélation spatiale a une forme spécifique (une exponentielle au carré) (30).

Au moins dans SPM, vous devez définir un taux nominal FWE ainsi qu'un seuil de définition de cluster (CDT). Fondamentalement, SPM trouve les voxels fortement corrélés à la tâche et, après seuillage avec le CDT, les voisins sont agrégés en clusters. Ces tailles de grappes sont comparées à l'étendue de grappes attendue à partir de la théorie des champs aléatoires (RFT) étant donné l'ensemble FWER [ 1 ].

La théorie des champs aléatoires exige que la carte d'activité soit lisse, soit une bonne approximation de réseau par rapport aux champs aléatoires. Cela est lié à la quantité de lissage appliquée aux volumes. Le lissage affecte également l'hypothèse selon laquelle les résidus sont normalement distribués, car le lissage, selon le théorème de la limite centrale, rendra les données plus gaussiennes.

Les auteurs ont montré dans [ 1 ] que les tailles de cluster attendues de RFT sont vraiment petites si on les compare aux seuils d’extension de cluster obtenus à partir de tests de permutation aléatoire (RPT).

α=0,05


@amoeba a soulevé ces deux questions très pertinentes dans les commentaires:

(1) Le Eklund et al. Le papier de PNAS parle du "niveau nominal de 5%" de tous les tests (voir par exemple une ligne noire horizontale sur la figure 1). Cependant, la CDT dans la même figure varie et peut être par exemple 0,01 et 0,001. Quel est le rapport entre le seuil CDT et le taux d'erreur nominal de type I? Je suis confus par cela. (2) Avez-vous vu la réponse de Karl Friston http://arxiv.org/abs/1606.08199 ? Je l'ai lu, mais je ne suis pas tout à fait sûr de ce qu'ils disent: est-ce que je vois correctement qu'ils sont d'accord avec Eklund et al. mais disons qu'il s'agit d'un problème "bien connu"?

(1) Bonne question. En fait, j’ai passé en revue mes références, voyons si je peux le rendre plus clair maintenant. L'inférence par grappe est basée sur l'étendue des grappes qui se forment après l'application d'un seuil primaire (le CDT, qui est arbitraire ). Dans l' analyse secondaire, un seuil sur le nombre de voxels par cluster est appliqué. Ce seuil est basé sur la distribution attendue des étendues de grappes nulles, qui peuvent être estimées à partir de la théorie (par exemple, RFT), et définit un FWER nominal. Une bonne référence est [ 2 ].

(2) Merci pour cette référence, je ne l'ai pas vue auparavant. Flandin & Friston soutiennent Eklund et al. inférence RFT corroborée car ils ont essentiellement montré que, si l'on respecte ses hypothèses (CDT et lissage), les résultats sont sans biais. Dans cette optique, les nouveaux résultats montrent que différentes pratiques dans la littérature tendent à biaiser l’inférence car elle brise les hypothèses de la RFT.


Sur les comparaisons multiples

Il est également bien connu que de nombreuses études en neuroscience ne permettent pas de nombreuses comparaisons, des estimations allant de 10% à 40% de la littérature. Mais ils ne sont pas pris en compte dans cette affirmation, tout le monde sait que ces papiers ont une validité fragile, voire d’énormes taux de faux positifs.


Sur le dessus de 70%

Les auteurs ont également signalé une procédure produisant une FWER supérieure à 70%. Cette procédure "folk" consiste à appliquer la CDT pour ne conserver que des grappes hautement significatives, puis à appliquer un autre seuil (défini par le nombre de voxels) de grappes choisi arbitrairement. Ceci, parfois appelé "set-inference", a des bases statistiques faibles et peut éventuellement générer les résultats les moins fiables.


Rapports précédents

Les mêmes auteurs avaient déjà signalé des problèmes avec la validité de SPM [ 1 ] sur des analyses individuelles. Il existe également d'autres travaux cités dans ce domaine.

Curieusement, plusieurs rapports d’analyses au niveau des groupes et des individus sur la base de données simulées ont conclu que le seuil de RFT était, en fait, conservateur. Avec les récents progrès de la puissance de traitement, RPT peut être exécuté beaucoup plus facilement sur des données réelles, ce qui montre de grandes différences par rapport à la RFT.


MISE À JOUR: 18 octobre 2017

Un commentaire sur "Cluster Failure" est apparu en juin dernier [ 3 ]. Il Mueller et al. soutiennent que les résultats présentés dans Eklund et al. pourraient être dus à une technique de prétraitement d’imagerie spécifique utilisée dans leur étude. Ils ont ré-échantillonné les images fonctionnelles avec une résolution plus élevée avant le lissage (bien que ce ne soit probablement pas le cas de tous les chercheurs, il s'agit d'une procédure de routine dans la plupart des logiciels d'analyse IRMf). Ils notent également que Flandin & Friston ne l'ont pas fait. J'ai eu la chance de voir Eklund parler le même mois lors de la réunion annuelle de l'Organisation pour la cartographie du cerveau humain (OHBM) à Vancouver, mais je ne me souviens d'aucun commentaire sur cette question, pourtant cela semble crucial pour la question.


[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. et Knutsson, H. (2012). L'analyse IRMf paramétrique avec SPM donne-t-elle des résultats valables? —Etude empirique de 1484 bases de données sur le repos. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A. et Wager, TD (2014). Le seuillage basé sur l'étendue des grappes dans les analyses IRMf: pièges et recommandations. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE et Lohmann, G. (2017). Commentaire: Échec du cluster: Pourquoi les inférences IRMf pour l'étendue spatiale ont gonflé les taux de faux positifs. Frontiers in Neuroscience Human, 11.

Pyromane
la source
1
@Qroid Oui pour la première partie, l'hypothèse n'est pas vérifiée (et c'est probablement ce qui explique la bonne performance du test de permutation non paramétrique). Les grappes sont des grappes de voxels, c'est-à-dire des voxels voisins présentant le même effet. Il existe une valeur p pour définir un cluster (le seuil de définition du cluster).
Firebug
7
Cette réponse se concentre principalement sur le fait qu'il s'agisse de 40000 ou d'un autre chiffre, mais je pense qu'il serait plus intéressant pour beaucoup de personnes ici si vous pouviez résumer le débat principal (quels sont les clusters? Quel est le problème des corrélations spatiales pour les tests d'hypothèses? Personne n'a-t-il Pensez-y vraiment avant? etc.)
Amibe dit Rétablir Monica
1
Merci encore. Après avoir brièvement examiné Woo et al. En 2014, je suis maintenant certain de savoir pourquoi Eklund et al. en a fait un PNAS et a par conséquent produit un tel événement dans la presse populaire et autour des blogs. N'étaient pas Woo et al. dire plus ou moins la même chose? La voici dans leur blob "faits saillants": "Un autre piège est l'augmentation des faux positifs lorsqu'un seuil primaire libéral est utilisé".
amibe dit de réintégrer Monica le
1
Je vois. Donc, à ce que je comprends, scientifiquement, rien n’est vraiment arrivé à présent: la question des TCC libéraux est connue depuis des années, a fait l’objet de multiples articles et a été illustrée par diverses simulations par divers chercheurs. (Mais néanmoins, certains chercheurs ont continué à utiliser des CDT aussi libéraux que dangereux.) Eklund et al. 2016 a eu la chance d'être publié dans un journal "haut de gamme" et boo! - Tout le monde en parle maintenant comme s'il s'agissait d'une révélation.
amibe dit de réintégrer Monica le
7
@ amoeba La communauté des neurosciences a besoin d'une répression statistique, un peu comme ce qui s'est passé en psychologie appliquée (peut-être moins sévère que d'interdire les p-values). De nombreux articles revendiquant une signification statistique n’ont pas de rigueur statistique, les utilisateurs utilisent les outils et les paramètres permettant de faire apparaître les "résultats".
Firebug