Plusieurs fois, j'ai rencontré des avertissements informels contre "l'espionnage des données" (voici un exemple amusant ), et je pense avoir une idée intuitive de ce que cela signifie, et pourquoi cela peut être un problème.
D'un autre côté, l '"analyse exploratoire des données" semble être une procédure parfaitement respectable en statistique, du moins à en juger par le fait qu'un livre avec ce titre est toujours révérencieusement cité comme un classique.
Dans mon domaine de travail, je tombe souvent sur ce qui me semble être un "espionnage des données" rampant, ou peut-être serait-il mieux décrit comme une " torture des données ", bien que ceux qui le font semblent voir la même activité comme une exploration tout à fait raisonnable et sans problème " ".
Voici le scénario typique: une expérience coûteuse est réalisée (sans beaucoup de réflexion sur l'analyse subséquente), les chercheurs originaux ne peuvent pas facilement discerner une "histoire" dans les données recueillies, quelqu'un est amené à appliquer une certaine "sorcellerie statistique", et qui , après avoir découpé et découpé les données dans tous les sens, parvient finalement à en extraire une "histoire" publiable.
Bien sûr, il y a généralement une certaine "validation" dans le rapport / document final pour montrer que l'analyse statistique est à la hausse, mais l'attitude flagrante de publication à tout prix derrière tout cela me laisse douteux.
Malheureusement, ma compréhension limitée des choses à faire et à ne pas faire de l'analyse des données m'empêche d'aller au-delà de ces doutes vagues, donc ma réponse conservatrice est de ne pas tenir compte de ces résultats.
J'espère que non seulement une meilleure compréhension de la distinction entre l'exploration et l'espionnage / la torture, mais aussi et surtout une meilleure compréhension des principes et des techniques pour détecter quand cette ligne a été franchie, me permettra d'évaluer de telles découvertes dans une manière qui peut raisonnablement expliquer une procédure analytique moins qu'optimale, et donc pouvoir aller au-delà de ma réponse actuelle plutôt simple d'esprit incrédule.
EDIT: Merci à tous pour les commentaires et réponses très intéressants. À en juger par leur contenu, je pense que je n'ai peut-être pas suffisamment expliqué ma question. J'espère que cette mise à jour clarifiera les choses.
Ma question ici ne concerne pas tant ce que je dois faire pour éviter de torturer mes données (bien que ce soit une question qui m'intéresse également), mais plutôt: comment dois-je considérer (ou évaluer) les résultats que je connais de fait ont été obtenus une telle «torture des données».
La situation devient plus intéressante dans les cas (beaucoup plus rares) dans lesquels, en outre, je suis en mesure d'exprimer une opinion sur ces "conclusions" avant qu'elles ne soient soumises pour publication.
À ce stade, le plus que je puisse faire est de dire quelque chose comme «Je ne sais pas combien de crédit je peux donner à ces résultats, compte tenu de ce que je sais des hypothèses et des procédures qui ont permis de les obtenir». C'est trop vague pour valoir la peine d'être dit. Vouloir aller au-delà d'un tel flou était la motivation de mon poste.
Pour être juste, mes doutes ici reposent sur des méthodes statistiques plus que douteuses. En fait, je vois ce dernier plus comme la conséquence du problème plus profond: une combinaison d'une attitude cavalière envers la conception expérimentale couplée à un engagement catégorique à publier les résultats tels quels (c'est-à-dire sans autres expériences). Bien sûr, des projets de suivi sont toujours envisagés, mais il est tout simplement hors de question qu'aucun papier ne sorte, disons, "d'un réfrigérateur rempli de 100 000 échantillons".
Les statistiques n'entrent en jeu que comme un moyen d'atteindre cet objectif suprême. La seule justification de l'accrochage aux statistiques (secondaires comme elles le sont dans l'ensemble du scénario) est qu'un défi frontal à l'hypothèse de «publication à tout prix» est tout simplement inutile.
En fait, je ne peux penser qu'à une seule réponse efficace dans de telles situations: proposer un test statistique (ne nécessitant pas d'expérimentation supplémentaire) qui teste vraiment la qualité de l'analyse. Mais je n'ai tout simplement pas les statistiques nécessaires. Mon espoir (naïf rétrospectivement) était de découvrir ce que je pouvais étudier qui pourrait me permettre de proposer de tels tests ...
Au moment où j'écris ceci, je me rends compte que, s'il n'existe pas déjà, le monde pourrait utiliser une nouvelle sous-branche de la statistique, consacrée aux techniques de détection et de dénonciation de la "torture des données". (Bien sûr, je ne veux pas me laisser emporter par la métaphore de la "torture": le problème n'est pas en soi la "torture des données", mais les "conclusions" fallacieuses auxquelles il peut conduire.)
Réponses:
Il existe une distinction qui n'attire parfois pas suffisamment l'attention, à savoir la génération d'hypothèses par rapport aux tests d'hypothèse , ou l'analyse exploratoire par rapport aux tests d'hypothèse. Vous avez le droit à tous les sales trucs du monde de proposer votre idée / hypothèse. Mais lorsque vous le testerez plus tard, vous devrez tuer impitoyablement vos chéris.
Je suis un biologiste qui travaille tout le temps avec des données à haut débit, et oui, je fais ce "découpage et découpage" assez souvent. La plupart des cas que l'expérience a réalisés n'ont pas été soigneusement conçus; ou peut-être que ceux qui l'ont planifié n'ont pas expliqué tous les résultats possibles. Ou l'attitude générale lors de la planification était "voyons ce qu'il y a là-dedans". Nous nous retrouvons avec des ensembles de données chers, précieux et en eux-mêmes intéressants que je retourne ensuite pour proposer une histoire.
Mais alors, ce n'est qu'une histoire (coucher possible). Après avoir sélectionné quelques angles intéressants - et voici le point crucial - vous devez le tester non seulement avec des ensembles de données indépendants ou des échantillons indépendants, mais de préférence avec une approche indépendante , un système expérimental indépendant.
L'importance de cette dernière chose - une configuration expérimentale indépendante, pas seulement un ensemble indépendant de mesures ou d'échantillons - est souvent sous-estimée. Cependant, lorsque nous testons 30 000 variables pour une différence significative, il arrive souvent que, même si des échantillons similaires (mais différents) de la même cohorte et analysés avec la même méthode ne rejetteront pas l'hypothèse que nous avons basée sur l'ensemble précédent. Mais ensuite, nous nous tournons vers un autre type d'expérience et une autre cohorte, et nos résultats s'avèrent être le résultat d'un biais méthodologique ou sont limités dans leur applicabilité.
C'est pourquoi nous avons souvent besoin de plusieurs articles de plusieurs chercheurs indépendants pour vraiment accepter une hypothèse ou un modèle.
Je pense donc que de telles tortures de données sont très bien, tant que vous gardez cette distinction à l'esprit et que vous vous souvenez de ce que vous faites, à quelle étape du processus scientifique vous vous trouvez. Vous pouvez utiliser les phases de lune ou redéfinir 2 + 2 tant que vous disposez d'une validation indépendante des données. Pour le mettre sur une photo:
Malheureusement, il y a ceux qui commandent un microréseau pour rassembler un document après plusieurs expériences et aucune histoire n'a émergé, dans l'espoir que l'analyse à haut débit montre quelque chose. Ou ils sont confus à propos de l'ensemble du test d'hypothèse par rapport à la génération.
la source
Herman Friedman, mon professeur préféré au lycée, disait que
L'évitement strict de quoi que ce soit, à l'exception des tests les plus rigoureux d'hypothèses définies a priori, limite considérablement votre capacité à être surpris.
Je pense que l'élément clé est que nous sommes honnêtes dans ce que nous faisons. Si nous sommes dans un mode hautement exploratoire, nous devons le dire. À l'opposé, un professeur que je connais a dit à son élève de changer ses hypothèses, car les premières n'étaient pas significatives.
la source
Permettez-moi d'ajouter quelques points:
tout d'abord, la génération d'hypothèses est un élément important de la science. Et des résultats non prédictifs (exploratoires / descriptifs) peuvent être publiés.
À mon humble avis, le problème n'est pas en soi que l'exploration des données est utilisée sur un ensemble de données et seules des parties de ces résultats sont publiées. Les problèmes sont
La science et le développement de méthodes sont des processus itératifs d'une manière beaucoup plus générale que la simple génération d'hypothèses - tests - génération de nouvelles hypothèses - tests ... au dessous de).
Ce que je fais:
Lorsque j'ai une chance, je montre également aux gens à quel point la différence fait (faisable principalement avec un niveau inférieur du même problème, par exemple comparer les données validées indépendamment du patient avec les performances internes des estimations de routines d'optimisation d'hyper-paramètres, telles que la recherche dans la grille pour les paraters SVM, des "modèles combinés" tels que PCA-LDA, et ainsi de suite. Pas vraiment faisable pour le dragage de données réelles, car jusqu'à présent, personne ne m'a donné l'argent pour gagner une vraie réplique d'une étude de taille raisonnable ...)
manuscrit accepté sur arXiv: 1211.1323
Voici une étude qui trouve que cet essai aveugle est également souvent futile, par exemple
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: rompre avec les tendances du prétraitement ?, TrAC Trends in Analytical Chemistry, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(ils ont essayé un grand nombre de combinaisons d'étapes de prétraitement et ont constaté que très peu conduisaient à de meilleurs modèles que pas de prétraitement du tout)
Soulignez que je ne torture pas mes données plus que nécessaire:
exemple :
Un article de suivi utilisant les mêmes données que l'exemple pour le développement (différent) de la théorie se lit
Car en attendant, on m'a explicitement demandé (lors d'une conférence par un éditeur de la revue CILS) de comparer les modèles avec le prétraitement PLS.
Prenez un point de vue pratique: par exemple, dans l'étude des astrocytomes liée ci-dessus, j'ai bien sûr décidé certains points après avoir examiné les données (comme quel seuil d'intensité correspond aux mesures prises de l'extérieur de l'échantillon - qui ont ensuite été rejetées). D'autres décisions que je sais être non critiques (ligne de base linéaire ou quadratique: mon expérience avec ce type de données suggère que cela ne change pas grand-chose - ce qui est également en parfait accord avec ce que Jasper Engel a trouvé sur différentes données de type similaire, donc Je ne m'attendrais pas à ce qu'un biais important découle du choix du type de référence en examinant les données (le document explique pourquoi cela est raisonnable).
Sur la base de notre étude, nous pouvons maintenant dire ce qui devrait être abordé ensuite et ce qui devrait être changé. Et parce que nous sommes encore à un stade relativement précoce de développement de la méthode (en examinant des échantillons ex-vivo ), cela ne vaut pas la peine de parcourir tous les "devoirs" qui seront finalement nécessaires avant que la méthode puisse être utilisée in vivo . Par exemple, au stade actuel du classement des astrocytomes, la validation du rééchantillonnage est un choix plus judicieux que l'ensemble de test externe. J'insiste encore sur le fait qu'une étude de validation véritablement externe sera nécessaire à un moment donné, car certaines caractéristiques de performance ne peuvent être mesurées que de cette façon (par exemple, les effets de la dérive de l'instrument / prouvant que nous pouvons les corriger). Mais en ce moment, alors que nous jouons toujours avec ex-vivoéchantillons et résolvent d'autres parties du grand problème (dans les articles liés: comment traiter les cas limites), le gain en connaissances utiles d'une étude de validation ex vivo appropriée est trop faible pour valoir la peine (IMHO: sauf si qui ont été effectuées afin de mesurer le biais dû au dragage des données).
J'ai lu une fois un argument sur les normes statistiques et de rapport, et si elles devaient être jugées nécessaires pour une revue (je ne me souviens pas laquelle) qui m'a convaincu: l'idée exprimée était que les rédacteurs n'avaient pas besoin d'essayer convenir et appliquer une norme (ce qui provoquera beaucoup de discussions futiles) parce que:
la source
Parfois, les choses que vous voyez comme une «torture des données» ne le sont pas vraiment. Il n'est pas toujours clair au préalable exactement ce que vous allez faire des données pour donner ce que vous pensez être les résultats réels de l'expérience jusqu'à ce que vous le voyiez.
Par exemple, avec les données de temps de réaction pour une tâche de décision, vous voulez souvent rejeter les temps qui ne concernent pas la décision (c.-à-d., Quand ils vont si vite, ils ne font que deviner et ne prennent pas de décision). Vous pouvez tracer la précision de la décision par rapport à RT pour voir où la supposition se produit généralement. Mais tant que vous n'avez pas testé ce paradigme particulier, vous n'avez aucun moyen de savoir où se trouvent les seuils (dans le temps, pas la précision). Pour certains observateurs, une telle procédure ressemble à torturer les données, mais tant qu'elle n'a rien à voir directement avec les tests d'hypothèse (vous ne l'ajustez pas en fonction des tests), elle ne torture pas les données.
L'espionnage des données pendant une expérience est correct tant qu'il est fait de la bonne façon. Il est probablement contraire à l'éthique de coller votre expérience dans une boîte noire et de faire l'analyse uniquement lorsque le nombre prévu de sujets a été exécuté. Parfois, il est difficile de dire qu'il y a des problèmes avec l'expérience tant que vous n'avez pas consulté les données et que vous devez les consulter le plus tôt possible. L'aperçu des données est fortement décrié, car cela équivaut à voir si p <0,05 et à décider de continuer. Mais il existe de nombreux critères selon lesquels vous pouvez décider de continuer à collecter qui ne font rien de préjudiciable à vos taux d'erreur.
Supposons que vous souhaitiez vous assurer que votre estimation de la variance se situe dans une fourchette probable connue. Les petits échantillons peuvent avoir des estimations de variance assez éloignées, donc vous collectez des données supplémentaires jusqu'à ce que vous sachiez que l'échantillon est plus représentatif. Dans la simulation suivante, je m'attends à ce que la variance dans chaque condition soit 1. Je vais faire quelque chose de vraiment fou et échantillonner chaque groupe indépendamment pour 10 échantillons, puis ajouter des sujets jusqu'à ce que la variance soit proche de 1.
Donc, je viens de devenir fou avec l'échantillonnage et de rendre mes variances proches des attentes et je n'affecte toujours pas beaucoup l'alpha (c'est un peu moins de 0,05). Quelques contraintes supplémentaires comme les N doivent être égales dans chaque groupe et ne peuvent pas dépasser 30 et alpha est à peu près juste sur 0,05. Mais qu'en est-il de SE? Et si j'essayais plutôt de faire du SE une valeur donnée? C'est en fait une idée vraiment intéressante car je règle à mon tour la largeur de CI à l'avance (mais pas l'emplacement).
Encore une fois, l'alpha a changé un peu, même si j'ai autorisé les N à parcourir jusqu'à 46 par rapport aux 10 d'origine en fonction de l'espionnage des données. Plus important encore, les SE se situent tous dans une plage étroite dans chacune des expériences. Il est facile de faire un petit ajustement alpha pour résoudre ce problème s'il s'agit d'un problème. Le fait est que certaines recherches de données ne nuisent pas ou peu et peuvent même apporter des avantages.
(BTW, ce que je montre n'est pas une solution miracle. En fait, vous ne réduisez pas le nombre de sujets à long terme parce que la puissance pour la simulation des N variables est à peu près la même que pour une simulation des N moyens. )
Rien de ce qui précède ne contredit la littérature récente sur l'ajout de sujets après le début d'une expérience. Dans ces études, ils ont examiné des simulations dans lesquelles vous avez ajouté des sujets après avoir fait un test d'hypothèse afin d'obtenir une valeur de p inférieure. C'est encore mauvais et peut gonfler extraordinairement l'alpha. De plus, j'aime beaucoup les réponses de janvier et de Peter Flom. Je voulais juste souligner que regarder des données pendant que vous les collectez, et même changer un N planifié pendant la collecte, ne sont pas nécessairement de mauvaises choses.
la source
p
règle d'arrêt basée. Toutes les critiques de la modification de N concernent le fait après un test d'hypothèse (il devrait également y avoir d'autres choses incluses). Il y a le potentiel que cela provoque la tentation ... mais je l'ignore.Il s'agit vraiment d'un problème culturel de pensée déséquilibrée, où le biais de publication conduit à favoriser des résultats positifs et notre nature concurrentielle exige que les éditeurs et les chercheurs produisent des résultats d'intérêt qui sont nouveaux ou litigieux, par exemple, dans le sens de réfuter les résultats de quelqu'un d'autre. Dans le domaine de la recherche médicale, des progrès considérables ont été accomplis pour remédier à ce problème par l'enregistrement obligatoire des essais et la publication des résultats avec les enregistrements des essais abandonnés qui doivent également être rendus publics. Je comprends que la publication dans des revues pour des recherches infructueuses pouvant ne pas être réalisable, il est prévu de conserver une base de données publiquement disponible. Les résultats inhabituels qui ne peuvent pas être reproduits ne sont pas nécessairement le résultat d'un délit, comme peut-être avec 50,
L'utilisation de méthodes différentes n'est pas non plus nécessairement une solution. Par exemple, quel chimiste mélangerait les réactifs de différentes manières dans différentes conditions et s'attendrait naturellement aux mêmes résultats?
la source