L'analyse exploratoire des données (EDA) conduit souvent à explorer d'autres «pistes» qui n'appartiennent pas nécessairement à l'ensemble initial d'hypothèses. Je suis confronté à une telle situation dans le cas d'études avec une taille d'échantillon limitée et beaucoup de données collectées à travers différents questionnaires (données socio-démographiques, échelles neuropsychologiques ou médicales - par exemple, fonctionnement mental ou physique, niveau de dépression / anxiété, liste de contrôle des symptômes) ). Il arrive que l'EDA aide à mettre en évidence certaines relations inattendues («inattendues» signifiant qu'elles n'étaient pas incluses dans le plan d'analyse initial) qui se traduisent par des questions / hypothèses supplémentaires.
Comme c'est le cas pour le surapprentissage, le dragage ou l' espionnage des données conduit à des résultats qui ne se généralisent pas. Cependant, lorsque de nombreuses données sont disponibles, il est assez difficile (pour le chercheur ou le médecin) de postuler un ensemble limité d'hypothèses.
J'aimerais savoir s'il existe des méthodes, des recommandations ou des règles empiriques bien reconnues qui peuvent aider à délimiter l'EDA dans le cas d'études sur de petits échantillons.
Réponses:
Je pense que l'essentiel est d'être honnête lors de la communication de tels résultats qu'ils étaient des résultats inattendus de l'EDA et ne faisaient pas partie du plan d'analyse initial basé sur une hypothèse a priori . Certaines personnes aiment qualifier ces résultats de «générateurs d'hypothèses»: par exemple, le premier résultat d'une recherche de cette phrase sur Google Scholar inclut les éléments suivants dans la section de conclusion de son résumé:
Comme il s'agissait d'une analyse "exploratoire", cet effet doit être considéré comme générateur d'hypothèses et évalué de manière prospective dans d'autres essais ...
Veuillez noter que bien qu'il s'agisse d'une analyse de sous-groupe post-hoc, elle provenait d'un essai témoin randomisé, et non d'une étude observationnelle, dans laquelle le problème s'aggrave. Philip Cole a méprisé l'idée que les études observationnelles («épidémiologiques») peuvent générer des hypothèses dans un commentaire délibérément provocateur mais divertissant:
P Cole. La machine à générer des hypothèses. Epidemiology 1993; 4 : 271-273.
la source
Je laisse juste quelques références sur le dragage de données et les études cliniques pour le lecteur intéressé. Ceci est destiné à étendre la bonne réponse de @onestop . J'ai essayé d'éviter les articles se concentrant uniquement sur des comparaisons multiples ou des problèmes de conception, bien que des études avec plusieurs critères d'évaluation continuent de présenter des discussions difficiles et controversées (longtemps après les affirmations de Rothman sur les ajustements inutiles , Epidemiology 1990, 1: 43-46; ou voir la revue de Feise dans BMC Méthodologie de la recherche médicale 2002, 2: 8).
Je crois comprendre que, bien que j'aie parlé d' analyse exploratoire des données , ma question concerne plus généralement l'utilisation de l'exploration de données, avec ses pièges potentiels, en parallèle avec les tests basés sur des hypothèses.
la source