Est-il possible de modifier une hypothèse pour correspondre aux données observées (expédition de pêche) et éviter une augmentation des erreurs de type I?

32

Il est bien connu que les chercheurs devraient passer du temps à observer et à explorer les données et recherches existantes avant de formuler une hypothèse, puis à collecter des données permettant de vérifier cette hypothèse (en faisant référence au test de signification par hypothèse nulle). De nombreux ouvrages statistiques de base préviennent que des hypothèses doivent être formées à priori et ne peuvent pas être modifiées après la collecte de données, sinon la méthodologie devient invalide.

Je comprends que le fait de modifier une hypothèse pour qu’elle corresponde aux données observées soit problématique, c’est en raison du risque accru de commettre une erreur de type I en raison de données erronées, mais ma question est la suivante: est-ce la seule raison ou existe-t-il d’autres problèmes fondamentaux en expédition de pêche?

En prime, y a-t-il moyen de partir en expédition de pêche sans s'exposer aux pièges potentiels? Par exemple, si vous avez suffisamment de données, pourriez-vous générer des hypothèses à partir de la moitié des données et utiliser ensuite l’autre moitié pour les tester?

mise à jour

J'apprécie l'intérêt que suscite ma question, mais les réponses et les commentaires visent principalement ce que je pensais avoir établi comme information de base. Je voudrais savoir s’il existe d’ autres raisons pour lesquelles c’est plus grave que la possibilité plus grande de résultats erronés et s’il existe des moyens, tels que le fractionnement préalable des données, de modifier une hypothèse post-hoc tout en évitant l’augmentation des erreurs de type I.

J'ai mis à jour le titre pour refléter, espérons-le, le sens de ma question.

Merci et désolé pour la confusion!

post-hoc
la source
1
Reprenons un autre point de vue sur ce qui a déjà été dit: l’essence de la méthode scientifique est de faire des hypothèses puis d’ essayer de les falsifier pour qu’elles deviennent des théories (si la falsification échoue). Partir en expédition de pêche est un moyen valable de rechercher des hypothèses valables dans une expérience ultérieure, mais vous ne pouvez jamais essayer de falsifier une hypothèse en une fois. En particulier, si vous êtes prêt à ajuster votre hypothèse, vous n'essayez plus de la falsifier. Au lieu de cela, lorsque vous vous ajustez, vous falsifiez votre hypothèse non ajustée et formez une nouvelle hypothèse.
Wrzlprmft
@ Jona, c'est un excellent papier. J'ai déjà lu des articles d'Ioannidis et de Schooler, mais Simmons et al. Illustrent à merveille le problème.
post-hoc
1
Je me demande si vous trouverez également ce document pertinent pour votre question: stat.columbia.edu/~gelman/research/published/multiple2f.pdf . Ce n'est pas exactement sur le même sujet, mais cela en aborde un aspect.
a11msp
1
Les données peuvent vous amener à modifier votre hypothèse ... mais dans ce cas, vous devez commencer à collecter de nouvelles données à partir de zéro pour confirmer la nouvelle hypothèse.
Keshlam

Réponses:

54

Vous pouvez certainement participer à des expéditions de pêche, à condition d' admettre qu'il s'agit d'une expédition de pêche et de la traiter comme telle. "Analyse exploratoire des données" est un nom plus approprié.

Une meilleure analogie pourrait être de tirer sur une cible:

Vous pouvez tirer sur une cible et célébrer si vous frappez le mille.

Vous pouvez tirer sans cible afin de tester les propriétés de votre arme.

Mais il est trompeur de tirer sur un mur, puis de peindre une cible autour du trou de balle.

Une façon d’éviter certains des problèmes est de procéder à l’exploration dans un jeu de données d’apprentissage, puis de la tester sur un jeu de données «test» séparé.

Peter Flom - Rétablir Monica
la source
13
Il est difficile d'améliorer la réponse de Peter. Le problème malheureux rencontré avec une grande partie du dragage de données est le manque d'admission par les auteurs du fait que les hypothèses n'étaient pas complètement pré-spécifiées, c'est-à-dire qu'elles n'utilisaient pas le terme «exploratoire». Beaucoup, beaucoup de chercheurs draguent des données pour obtenir un papier publiable et ne poursuivent aucune tentative de validation (ce qui les décevrait souvent).
Frank Harrell
2
Prenant le commentaire de Frank Harrell un peu plus loin: il est légitime d'explorer certaines données et de publier une découverte intrigante ... en tant que découverte exploratoire intrigante sujette à être reproduite / validée. L'inconvénient est que si une autre personne confirme vos conclusions, elle risque de remporter la gloire et si d'autres ne vous confirment pas vos résultats, vous avez été trompé par une corrélation fallacieuse. Mauvais si vous avez un gros ego. Sans compter que vous auriez besoin de rendre vos données et vos procédures accessibles au public, ce que de nombreux praticiens dans de nombreux domaines ne feront pas. Et vous devriez faire un suivi avec de nouvelles données plutôt que de continuer.
Wayne
11
+1But it's cheating to shoot at a wall and then paint a target around the bullet hole.
WernerCD
3
@ post-hoc bien, ça ne devrait pas lever les sourcils, mais ça le pourrait. Cela dépend des yeux sous les sourcils!
Peter Flom - Rétablir Monica
2
Texas Sharpshooter Fallacy ..
smci
25

Le problème des expéditions de pêche est le suivant: si vous testez suffisamment d’hypothèses, l’une d’elles sera confirmée avec une valeur p faible. Laissez-moi vous donner un exemple concret.

Imaginez que vous meniez une étude épidémiologique. Vous avez trouvé 1000 patients atteints d'une maladie rare. Vous voulez savoir ce qu'ils ont en commun. Donc, vous commencez à tester - vous voulez voir si une caractéristique particulière est surreprésentée dans cet exemple. Au début, vous testez le sexe, la race, certains antécédents familiaux pertinents (le père est décédé d'une maladie cardiaque avant l'âge de 50 ans,…), mais finalement, comme vous avez du mal à trouver quoi que ce soit qui "colle", vous commencez à ajouter toutes sortes d'autres facteurs pourrait se rapporter à la maladie:

  • est végétarien
  • a voyagé au Canada
  • collège terminé
  • est marié
  • a des enfants
  • a des chats
  • a des chiens
  • boit au moins 5 verres de vin rouge par semaine

Maintenant, voici la chose. Si je sélectionne suffisamment d'hypothèses "aléatoires", il est probable que l'une d'elles au moins aboutira à une valeur p inférieure à 0,05 - car l'essence même de la valeur de p est "la probabilité d'avoir tort de rejeter l'hypothèse nulle lorsque est sans effet ". En d'autres termes, en moyenne, pour 20 hypothèses fictives que vous testez, l'une d'elles vous donnera un ap de <0,05 .

C’est SO très bien résumé dans le dessin animé XKCD http://xkcd.com/882/ :

entrez la description de l'image ici

La tragédie est que même si un auteur individuel ne réalise pas 20 tests d’hypothèses différents sur un échantillon afin de rechercher une signification, 19 autres auteurs pourraient faire la même chose; et celui qui "trouve" une corrélation a maintenant un article intéressant à écrire, et qui est susceptible d'être accepté pour publication ...

Cela conduit à une tendance malheureuse à des résultats irréproductibles. Le meilleur moyen de se prémunir contre cela en tant qu'auteur est de placer la barre plus haut. Au lieu de tester le facteur individuel, demandez-vous "si je teste N hypothèses, quelle est la probabilité d'obtenir au moins un faux positif". Lorsque vous testez réellement des "hypothèses de pêche", vous pouvez envisager une correction de Bonferroni pour vous protéger contre cela - mais les gens ne le font pas souvent.

Le Dr Ioannides a publié des articles intéressants - présentés dans le Atlantic Monthly, spécifiquement sur ce sujet.

Voir aussi cette question précédente avec plusieurs réponses perspicaces.

mettre à jour pour mieux répondre à tous les aspects de votre question:

Si vous avez peur de "pêcher", mais que vous ne savez vraiment pas quelle hypothèse formuler, vous pouvez certainement scinder vos données en sections "exploration", "réplication" et "confirmation". En principe, cela devrait limiter votre exposition aux risques décrits précédemment: si vous avez une valeur ap de 0,05 dans les données d'exploration et que vous obtenez une valeur similaire dans les données de réplication et de confirmation, vous risquez de vous tromper. Un bel exemple de "bien faire les choses" a été présenté dans le British Medical Journal (une publication très respectée avec un facteur d'impact de 17 ans et plus)

Exploration et confirmation des facteurs associés à une grossesse sans complication chez les femmes nullipares: étude de cohorte prospective, Chappell et al.

Voici le paragraphe pertinent:

Nous avons divisé l’ensemble de données de 5628 femmes en trois parties: un ensemble de données d’exploration comprenant les deux tiers des femmes d’Australie et de Nouvelle-Zélande, choisies au hasard (n = 2129); un jeu de données de réplication local du tiers restant des femmes d'Australie et de Nouvelle-Zélande (n = 1067); et un ensemble de données de confirmation externe et géographiquement distinct de 2432 femmes européennes du Royaume-Uni et de la République d'Irlande.

En revenant un peu en arrière dans la littérature, il existe un bon article de Altman et al. Intitulé «Recherche pronostique et pronostique: valider un modèle pronostique», qui va beaucoup plus en profondeur et suggère des moyens de ne pas tomber cette erreur. Les "points principaux" de l'article:

Les modèles non validés ne doivent pas être utilisés en pratique clinique Lors de la validation d'un modèle pronostique, il convient d'évaluer l'étalonnage et la discrimination. La validation doit être effectuée sur une donnée différente de celle utilisée pour développer le modèle, de préférence chez des patients d'autres centres. Les modèles peuvent ne pas fonctionner correctement en raison de lacunes dans les méthodes de développement ou parce que le nouvel échantillon est trop différent de l’original

Notez en particulier la suggestion de valider (je paraphrase) avec des données provenant d’autres sources - c’est-à-dire qu’il ne suffit pas de scinder arbitrairement vos données en sous-ensembles, mais vous devez faire tout ce qui est en votre pouvoir pour prouver que «l’apprentissage» se déroule à partir d’un ensemble. d’expériences peuvent être appliquées à des données provenant d’un ensemble d’expériences différent. C'est une barre plus haute, mais cela réduit davantage le risque qu'un biais systématique dans votre configuration crée des "résultats" qui ne peuvent pas être vérifiés indépendamment.

C'est un sujet très important - merci d'avoir posé la question!

Floris
la source
7
Cela me rappelle: xkcd.com/882
Jens
2
@ jens - c'est une explication beaucoup plus éloquente que celle que j'ai donnée ... Merci pour ce lien. Comme d' habitude - faire passer votre souris sur le dessin animé pour un peu Zinger.
Floris
Ioannides et l'article de Lehrer ont été le chemin qui m'a amené ici. Votre exemple est similaire à celui de Simmons et al mentionné par @jona. C'est un très bon moyen d'expliquer la probabilité accrue d'erreurs de type I, mais y a-t-il d' autres raisons pour lesquelles c'est mauvais?
post-hoc
1
Le problème avec le dragage des données en général est que vous risquez de confondre "corrélation" avec "causalité". En venant avec une hypothèse raisonnable d' abord , puis confirmer qu'il aide à expliquer les observations, vous limitez le risque de confusion entre les deux. Les "données volumineuses" vont souvent dans l'autre sens: leur mode de fonctionnement est le suivant: "si j'analyse suffisamment de données, je vois des modèles qui sont restés vrais dans le passé et qui continueront à rester dans le futur". Parfois cela fonctionne, parfois non. Les statistiques ne devraient jamais devenir un substitut à la réflexion et à la compréhension, mais seulement une confirmation .
Floris
6
Je ne pense pas que le problème principal soit la corrélation par rapport à la causalité. Il est facile de faire de mauvaises analyses corrélationnelles pour constater que les associations ne se répliquent pas.
Frank Harrell
5

La question demande s'il existe d' autres problèmes que l'inflation d'erreur de type I qui accompagnent les expéditions de pêche.

0

gung - Rétablir Monica
la source