Comment faire face à l'analyse des données exploratoires et au dragage des données dans les études en petits échantillons?

25

L'analyse exploratoire des données (EDA) conduit souvent à explorer d'autres «pistes» qui n'appartiennent pas nécessairement à l'ensemble initial d'hypothèses. Je suis confronté à une telle situation dans le cas d'études avec une taille d'échantillon limitée et beaucoup de données collectées à travers différents questionnaires (données socio-démographiques, échelles neuropsychologiques ou médicales - par exemple, fonctionnement mental ou physique, niveau de dépression / anxiété, liste de contrôle des symptômes) ). Il arrive que l'EDA aide à mettre en évidence certaines relations inattendues («inattendues» signifiant qu'elles n'étaient pas incluses dans le plan d'analyse initial) qui se traduisent par des questions / hypothèses supplémentaires.

Comme c'est le cas pour le surapprentissage, le dragage ou l' espionnage des données conduit à des résultats qui ne se généralisent pas. Cependant, lorsque de nombreuses données sont disponibles, il est assez difficile (pour le chercheur ou le médecin) de postuler un ensemble limité d'hypothèses.

J'aimerais savoir s'il existe des méthodes, des recommandations ou des règles empiriques bien reconnues qui peuvent aider à délimiter l'EDA dans le cas d'études sur de petits échantillons.

chl
la source
Je ne sais pas trop pourquoi la taille de votre échantillon est importante. Pouvez-vous proposer un raisonnement plus spécifique expliquant pourquoi vous pensez que c'est différent pour le petit n que pour le grand n?
Andy W
2
@Andy Parce qu'alors il devient très difficile d'envisager un déséquilibre d'échantillon et / ou de classe avec une taille d'échantillon très limitée ( ) produit généralement un taux d'erreur de classification plus élevé lors de l'application de CV; certains individus peuvent être considérés comme des valeurs aberrantes lors de l'étude des distributions bivariées; et les mesures recueillies sur des instruments avec leur propre erreur de mesure sont moins fiables (petit n , grand σ ). Dans un certain sens, il est parfois difficile de démêler une relation inattendue d'un artefact. 13<n<25nσ
chl
Je pense que je peux comprendre ce sentiment si ce qui vous intéresse est uniquement la classification. Je pense que pour l'inférence causale, les problèmes avec l'espionnage des données sont les mêmes (c'est-à-dire que les problèmes ne sont pas résolus par un pouvoir accru pour identifier les relations). Je vais essayer de formuler cette opinion en réponse. Entre-temps, je peux poser une question sur le forum principal au sujet de l'utilisation de la validation croisée pour l'inférence causale, car je n'ai trouvé aucun travail dans mon domaine qui le fasse.
Andy W
1
@Andy Merci. J'espère que votre question recevra de nombreuses réponses intéressantes.
chl

Réponses:

10

Je pense que l'essentiel est d'être honnête lors de la communication de tels résultats qu'ils étaient des résultats inattendus de l'EDA et ne faisaient pas partie du plan d'analyse initial basé sur une hypothèse a priori . Certaines personnes aiment qualifier ces résultats de «générateurs d'hypothèses»: par exemple, le premier résultat d'une recherche de cette phrase sur Google Scholar inclut les éléments suivants dans la section de conclusion de son résumé:

Comme il s'agissait d'une analyse "exploratoire", cet effet doit être considéré comme générateur d'hypothèses et évalué de manière prospective dans d'autres essais ...

Veuillez noter que bien qu'il s'agisse d'une analyse de sous-groupe post-hoc, elle provenait d'un essai témoin randomisé, et non d'une étude observationnelle, dans laquelle le problème s'aggrave. Philip Cole a méprisé l'idée que les études observationnelles («épidémiologiques») peuvent générer des hypothèses dans un commentaire délibérément provocateur mais divertissant:

P Cole. La machine à générer des hypothèses. Epidemiology 1993; 4 : 271-273.

un arrêt
la source
+1 Merci pour le lien (et la nouvelle étiquette). Je vais regarder dans cette direction.
chl
13

Je laisse juste quelques références sur le dragage de données et les études cliniques pour le lecteur intéressé. Ceci est destiné à étendre la bonne réponse de @onestop . J'ai essayé d'éviter les articles se concentrant uniquement sur des comparaisons multiples ou des problèmes de conception, bien que des études avec plusieurs critères d'évaluation continuent de présenter des discussions difficiles et controversées (longtemps après les affirmations de Rothman sur les ajustements inutiles , Epidemiology 1990, 1: 43-46; ou voir la revue de Feise dans BMC Méthodologie de la recherche médicale 2002, 2: 8).

Je crois comprendre que, bien que j'aie parlé d' analyse exploratoire des données , ma question concerne plus généralement l'utilisation de l'exploration de données, avec ses pièges potentiels, en parallèle avec les tests basés sur des hypothèses.

  1. Koh, HC et Tan, G (2005). Applications d'exploration de données dans les soins de santé . Journal of Healthcare Information Management , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Pourquoi la plupart des résultats de recherche publiés sont faux . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH et Burnham, KP (2001). Suggestions pour présenter les résultats de l'analyse des données . The Journal of Wildlife Management , 65 (3), 373-378. - cela fait écho au commentaire de @ onestop sur le fait que nous devons reconnaître l'exploration / modélisation basée sur les données au-delà de l'ensemble initial d'hypothèses
  4. Michels, KB et Rosner, BA (1996). Chalutage de données: pour pêcher ou ne pas pêcher . Lancet , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ et Keech, AC (2004). Analyses multiples dans les essais cliniques: science solide ou dragage de données? . The Medical Journal of Australia , 181 (8), 452-454.
  6. Smith, GD et Ebrahim, S (2002). Dragage, biais ou confusion des données . BMJ , 325, 1437-1438.
  7. Afshartous, D et Wolf, M (2007). Éviter «l'espionnage des données» dans les modèles d'effets multiniveaux et mixtes . Journal de la Royal Statistical Society A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR et Cherry, S (2001). Préoccupations quant à la recherche d'effets qui sont en fait faux . Bulletin de la société Widlife , 29 (1), 311-316.
chl
la source
Ce n'est qu'un récapitulatif de ce que j'ai lu jusqu'à présent. De toute évidence, je n'accepterai pas ma propre réponse . Toute autre réflexion serait très appréciée.
chl
Merci d'avoir accepté ma réponse chi, bien que votre propre liste de références soit bien meilleure et plus récente. J'aurais vraiment dû penser à deux d'entre eux moi-même car je les ai sur mon disque dur, et j'en ai peut-être même lu des parties ...
onestop