Je lisais cet article dans Nature dans lequel certaines erreurs sont expliquées dans le contexte de l'analyse des données. J'ai remarqué que l'erreur du tireur d'élite au Texas était particulièrement difficile à éviter:
Un piège cognitif qui attend pendant l'analyse des données est illustré par la fable du tireur d'élite du Texas: un tireur inepte qui tire un motif aléatoire de balles sur le côté d'une grange, dessine une cible autour du plus gros amas de balles et pointe fièrement son succès.
Son oeil de boeuf est évidemment risible - mais le sophisme n'est pas si évident pour les joueurs qui croient en une `` main chaude '' lorsqu'ils ont une séquence de victoires, ou pour les personnes qui voient une signification surnaturelle lorsqu'un tirage au sort apparaît comme tous les nombres impairs.
Ce n'est pas toujours évident pour les chercheurs. "Vous obtenez simplement des encouragements à partir des données, puis pensez, eh bien, c'est la voie à suivre", explique Pashler. «Vous ne réalisez pas que vous aviez 27 options différentes et vous avez choisi celle qui vous a donné les résultats les plus agréables ou les plus intéressants, et maintenant vous êtes engagé dans quelque chose qui n'est pas du tout une représentation impartiale des données. "
Je pense que ce type de travail d'exploration est courant et souvent, des hypothèses sont construites à partir de cette partie de l'analyse. Il existe toute une approche ( EDA ) dédiée à ce processus:
L'analyse exploratoire des données a été promue par John Tukey pour encourager les statisticiens à explorer les données et à formuler éventuellement des hypothèses qui pourraient conduire à de nouvelles collectes de données et à de nouvelles expériences.
Il semble que tout processus exploratoire effectué sans hypothèse préalable soit susceptible de générer de fausses hypothèses.
Notez que la description d'EDA ci-dessus parle réellement new data collection and experiments
. Je comprends qu'après la collecte de nouvelles données, une analyse de données de confirmation (CDA) est appropriée. Cependant, je ne pense pas que cette distinction soit faite très clairement, et bien qu'une séparation de l'EDA et de l'ADC soit idéale, il y a sûrement des circonstances dans lesquelles cela n'est pas possible. J'irais jusqu'à dire que suivre strictement cette séparation est rare et la plupart des pratiquants ne souscrivent pas du tout au paradigme de l'EDA.
Ma question est donc la suivante: l'EDA (ou tout autre processus informel d'exploration de données) rend-il plus susceptible de tomber dans l'erreur du tireur d'élite du Texas?
Réponses:
Si l'on considère le rôle de l'EDA strictement comme générant des hypothèses, alors l'erreur de tireur d'élite ne s'applique pas. Cependant, il est très important que les essais de confirmation ultérieurs soient en effet indépendants. De nombreux chercheurs tentent de «réconcilier les différences» avec des choses comme les analyses groupées, les méta-analyses et les méthodes bayésiennes. Cela signifie qu'au moins certaines des preuves présentées dans une telle analyse incluent "le cercle autour des trous de balles aléatoires".
la source
Cela donne une vision très négative de l'analyse exploratoire des données. Bien que l'argument ne soit pas faux, il dit vraiment "qu'est-ce qui peut mal tourner quand j'utilise un outil très important de la mauvaise manière?"
L'acceptation de valeurs de p non ajustées à partir des méthodes EDA entraînera des taux d'erreur de type I considérablement gonflés. Mais je pense que Tukey ne serait pas content que quelqu'un fasse ça. Le but de l'EDA n'est pas de tirer des conclusions définitives sur les relations dans les données, mais plutôt de rechercher de nouvelles relations potentielles dans les données à suivre.
Oublier cette étape dans le processus scientifique plus large est essentiellement un obstacle à la science pour ne jamais être en mesure de trouver de nouveaux aspects intéressants de nos données, en dehors de la déduction logique pure. Avez-vous déjà essayé de déduire logiquement comment la surexpression d'un ensemble de gènes affecterait la survie d'une cellule? Astuce: ce n'est pas très facile (l'une de nos blagues préférées parmi le personnel de bioinformatique à mon travail était quand un physicien a demandé "Pourquoi ne simulez-vous pas simplement les propriétés physiques de différentes interactions géniques? C'est un espace de paramètres finis.")
Personnellement, je pense que la confusion à ce sujet peut entraîner un grand ralentissement des progrès scientifiques. Je connais trop de chercheurs non statistiques qui diront qu'ils ne veulent pas faire de procédures d'EDA sur des données préliminaires , car ils "savent que l'EDA peut être mauvaise".
En conclusion, il est absolument vrai que l'utilisation de méthodes EDA et leur traitement comme des méthodes d'analyse de données de confirmation conduiront à des résultats invalides. Cependant, le manque d'utilisation appropriée de l'EDA peut conduire à presque aucun résultat.
la source
Je tempérerais cette affirmation et l'exprimerais un peu différemment: le choix d'une hypothèse à tester sur la base des données sape le test si l'on n'utilise pas l'hypothèse nulle correcte. L'idée maîtresse de l'article Nature est, essentiellement, qu'il est facile pour les analystes de se leurrer en ignorant toutes les comparaisons multiples qu'ils font implicitement pendant l'exploration.
La nature cite Andrew Gelman, mais ne mentionne pas son article avec Eric Loken sur ce sujet. Un extrait:
Un autre:
En résumé:
Et encore une fois, je souligne:
Bref, ce n'est pas que l'EDA mène à une "fausse hypothèse"; c'est que tester une hypothèse avec le même ensemble de données qui a provoqué l'hypothèse peut conduire à de fausses conclusions.
Si vous êtes intéressé à vaincre cet obstacle, Gelman a un autre article faisant valoir que bon nombre de ces problèmes disparaissent dans un cadre bayésien, et l'article avec Loken fait référence à la "réplication avant publication" comme décrit de manière anecdotique dans la première section de cet article .
la source
Presque par définition, oui, bien sûr, l'EDA sans CDA attire les tireurs d'élite du Texas.
la source
Juste pour ajouter aux réponses déjà excellentes: Il existe un juste milieu entre un CDA complet et l'acceptation de vos résultats EDA à leur valeur nominale. Une fois que vous avez trouvé une caractéristique d'intérêt (ou hypothèse) possible, vous pouvez avoir une idée de sa robustesse en effectuant des simulations de validation croisée (CV) ou de bootstrap. Si vos résultats ne dépendent que de quelques observations clés, CV ou Bootstrap montreront que de nombreux échantillons de replis (CV) ou boostrap ne reproduisent pas la caractéristique observée.
Ce n'est pas une méthode infaillible, mais c'est une bonne vérification intermédiaire avant d'aller chercher un CDA complet (ou de tenir délibérément un "ensemble de validation" de votre pool de données initial).
la source
Le critère le plus rigoureux pour la sélection du modèle de données est le degré auquel se rapproche la complexité de Kolmogorov des données - c'est-à-dire le degré auquel elles compressent sans perte les données. Cela peut, en théorie, résulter de la seule analyse exploratoire des données.
Voir " Déconvolution causale par des modèles génératifs algorithmiques "
la source