Il est bien connu que les chercheurs devraient passer du temps à observer et à explorer les données et recherches existantes avant de formuler une hypothèse, puis à collecter des données permettant de vérifier cette hypothèse (en faisant référence au test de signification par hypothèse nulle). De nombreux ouvrages statistiques de base préviennent que des hypothèses doivent être formées à priori et ne peuvent pas être modifiées après la collecte de données, sinon la méthodologie devient invalide.
Je comprends que le fait de modifier une hypothèse pour qu’elle corresponde aux données observées soit problématique, c’est en raison du risque accru de commettre une erreur de type I en raison de données erronées, mais ma question est la suivante: est-ce la seule raison ou existe-t-il d’autres problèmes fondamentaux en expédition de pêche?
En prime, y a-t-il moyen de partir en expédition de pêche sans s'exposer aux pièges potentiels? Par exemple, si vous avez suffisamment de données, pourriez-vous générer des hypothèses à partir de la moitié des données et utiliser ensuite l’autre moitié pour les tester?
mise à jour
J'apprécie l'intérêt que suscite ma question, mais les réponses et les commentaires visent principalement ce que je pensais avoir établi comme information de base. Je voudrais savoir s’il existe d’ autres raisons pour lesquelles c’est plus grave que la possibilité plus grande de résultats erronés et s’il existe des moyens, tels que le fractionnement préalable des données, de modifier une hypothèse post-hoc tout en évitant l’augmentation des erreurs de type I.
J'ai mis à jour le titre pour refléter, espérons-le, le sens de ma question.
Merci et désolé pour la confusion!
la source
Réponses:
Vous pouvez certainement participer à des expéditions de pêche, à condition d' admettre qu'il s'agit d'une expédition de pêche et de la traiter comme telle. "Analyse exploratoire des données" est un nom plus approprié.
Une meilleure analogie pourrait être de tirer sur une cible:
Vous pouvez tirer sur une cible et célébrer si vous frappez le mille.
Vous pouvez tirer sans cible afin de tester les propriétés de votre arme.
Mais il est trompeur de tirer sur un mur, puis de peindre une cible autour du trou de balle.
Une façon d’éviter certains des problèmes est de procéder à l’exploration dans un jeu de données d’apprentissage, puis de la tester sur un jeu de données «test» séparé.
la source
But it's cheating to shoot at a wall and then paint a target around the bullet hole.
Le problème des expéditions de pêche est le suivant: si vous testez suffisamment d’hypothèses, l’une d’elles sera confirmée avec une valeur p faible. Laissez-moi vous donner un exemple concret.
Imaginez que vous meniez une étude épidémiologique. Vous avez trouvé 1000 patients atteints d'une maladie rare. Vous voulez savoir ce qu'ils ont en commun. Donc, vous commencez à tester - vous voulez voir si une caractéristique particulière est surreprésentée dans cet exemple. Au début, vous testez le sexe, la race, certains antécédents familiaux pertinents (le père est décédé d'une maladie cardiaque avant l'âge de 50 ans,…), mais finalement, comme vous avez du mal à trouver quoi que ce soit qui "colle", vous commencez à ajouter toutes sortes d'autres facteurs pourrait se rapporter à la maladie:
…
Maintenant, voici la chose. Si je sélectionne suffisamment d'hypothèses "aléatoires", il est probable que l'une d'elles au moins aboutira à une valeur p inférieure à 0,05 - car l'essence même de la valeur de p est "la probabilité d'avoir tort de rejeter l'hypothèse nulle lorsque est sans effet ". En d'autres termes, en moyenne, pour 20 hypothèses fictives que vous testez, l'une d'elles vous donnera un ap de <0,05 .
C’est SO très bien résumé dans le dessin animé XKCD http://xkcd.com/882/ :
La tragédie est que même si un auteur individuel ne réalise pas 20 tests d’hypothèses différents sur un échantillon afin de rechercher une signification, 19 autres auteurs pourraient faire la même chose; et celui qui "trouve" une corrélation a maintenant un article intéressant à écrire, et qui est susceptible d'être accepté pour publication ...
Cela conduit à une tendance malheureuse à des résultats irréproductibles. Le meilleur moyen de se prémunir contre cela en tant qu'auteur est de placer la barre plus haut. Au lieu de tester le facteur individuel, demandez-vous "si je teste N hypothèses, quelle est la probabilité d'obtenir au moins un faux positif". Lorsque vous testez réellement des "hypothèses de pêche", vous pouvez envisager une correction de Bonferroni pour vous protéger contre cela - mais les gens ne le font pas souvent.
Le Dr Ioannides a publié des articles intéressants - présentés dans le Atlantic Monthly, spécifiquement sur ce sujet.
Voir aussi cette question précédente avec plusieurs réponses perspicaces.
mettre à jour pour mieux répondre à tous les aspects de votre question:
Si vous avez peur de "pêcher", mais que vous ne savez vraiment pas quelle hypothèse formuler, vous pouvez certainement scinder vos données en sections "exploration", "réplication" et "confirmation". En principe, cela devrait limiter votre exposition aux risques décrits précédemment: si vous avez une valeur ap de 0,05 dans les données d'exploration et que vous obtenez une valeur similaire dans les données de réplication et de confirmation, vous risquez de vous tromper. Un bel exemple de "bien faire les choses" a été présenté dans le British Medical Journal (une publication très respectée avec un facteur d'impact de 17 ans et plus)
Exploration et confirmation des facteurs associés à une grossesse sans complication chez les femmes nullipares: étude de cohorte prospective, Chappell et al.
Voici le paragraphe pertinent:
En revenant un peu en arrière dans la littérature, il existe un bon article de Altman et al. Intitulé «Recherche pronostique et pronostique: valider un modèle pronostique», qui va beaucoup plus en profondeur et suggère des moyens de ne pas tomber cette erreur. Les "points principaux" de l'article:
Notez en particulier la suggestion de valider (je paraphrase) avec des données provenant d’autres sources - c’est-à-dire qu’il ne suffit pas de scinder arbitrairement vos données en sous-ensembles, mais vous devez faire tout ce qui est en votre pouvoir pour prouver que «l’apprentissage» se déroule à partir d’un ensemble. d’expériences peuvent être appliquées à des données provenant d’un ensemble d’expériences différent. C'est une barre plus haute, mais cela réduit davantage le risque qu'un biais systématique dans votre configuration crée des "résultats" qui ne peuvent pas être vérifiés indépendamment.
C'est un sujet très important - merci d'avoir posé la question!
la source
La question demande s'il existe d' autres problèmes que l'inflation d'erreur de type I qui accompagnent les expéditions de pêche.
la source