Effectuer un test statistique après avoir visualisé des données - dragage de données?

31

Je proposerai cette question au moyen d'un exemple.

Supposons que j'ai un ensemble de données, comme l'ensemble de données sur les prix des logements de Boston, dans lequel j'ai des variables continues et catégoriques. Ici, nous avons une variable "qualité", de 1 à 10, et le prix de vente. Je peux séparer les données en maisons de qualité "basse", "moyenne" et "haute" en créant (arbitrairement) des seuils de qualité. Ensuite, en utilisant ces regroupements, je peux tracer des histogrammes du prix de vente les uns par rapport aux autres. Ainsi:

qualité du logement et prix de vente

Ici, "faible" est , et "élevé" est sur le score de "qualité". Nous avons maintenant une distribution des prix de vente pour chacun des trois groupes. Il est clair qu'il existe une différence de centre de localisation pour les maisons de qualité moyenne et haute. Maintenant, après avoir fait tout cela, je pense "Hm. Il semble y avoir une différence dans le centre de localisation! Pourquoi ne fais-je pas un test t sur les moyens?". Ensuite, j'obtiens une valeur de p qui semble rejeter correctement l'hypothèse nulle qu'il n'y a pas de différence de moyenne.3>7

Supposons maintenant que je n'avais rien en tête pour tester cette hypothèse jusqu'à ce que je trace les données.

S'agit-il d'un dragage de données?

Est-ce encore du dragage de données si je pensais: "Hm, je parie que les maisons de meilleure qualité coûtent plus cher, car je suis un humain qui a déjà vécu dans une maison. Je vais tracer les données. Ah ha! Ça a l'air différent! Le temps au test t! "

Naturellement, il ne s'agit pas de dragage de données si l'ensemble de données a été collecté dans le but de tester cette hypothèse dès le départ. Mais souvent, on doit travailler avec des ensembles de données qui nous sont fournis et on nous dit de "rechercher des modèles". Comment éviter le dragage de données avec cette vague tâche à l'esprit? Créer des ensembles de blocage pour tester les données? Est-ce que la visualisation "compte" comme espionner pour avoir l'occasion de tester une hypothèse suggérée par les données?

Marcel
la source

Réponses:

27

En désaccord / donner un contrepoint à la réponse de @ ingolifs: oui, visualiser vos données est essentiel. Mais visualiser avant de décider de l'analyse vous mène dans le jardin de chemins de bifurcation de Gelman et Loken . Ce n'est pas la même chose que le dragage de données ou le piratage informatique, en partie par intention (le GoFP est généralement bien intentionné) et en partie parce que vous ne pouvez pas exécuter plus d'une analyse. Mais il est une forme de fouiner: parce que votre analyse est dépendant des données, il peut vous conduire à des conclusions erronées ou trop confiants.

Vous devez en quelque sorte déterminer quelle est votre analyse prévue (par exemple, "les maisons de haute qualité devraient être plus chères") et les noter (ou même les pré-enregistrer officiellement) avant de regarder vos données (il est normal de regarder vos variables prédictives dans avancer, tout simplement pas la ou les variables de réponse, mais si vous n'avez vraiment aucune idée a priori , vous ne savez même pas quelles variables pourraient être des prédicteurs et lesquelles pourraient être des réponses); si vos données suggèrent des analyses différentes ou supplémentaires, votre article peut indiquer à la fois ce que vous vouliez faire initialement et ce que vous avez fini par faire (et pourquoi).

Si vous faites vraiment de l'exploration pure (c'est-à-dire que vous n'avez pas d' hypothèses a priori , vous voulez juste voir ce qu'il y a dans les données):

  • vos réflexions sur la présentation d'un échantillon pour confirmation sont bonnes.
    • Dans mon monde (je ne travaille pas avec d'énormes ensembles de données), la perte de résolution due à une taille d'échantillon inférieure serait angoissante
    • vous devez être un peu prudent dans la sélection de votre échantillon d'exclusion si vos données sont structurées de quelque manière (géographiquement, séries chronologiques, etc., etc.). Le sous-échantillonnage comme si les données sont iid conduit à une confiance excessive (voir Méthodes Wenger et Olden dans Ecology and Evolution 2012), donc vous voudrez peut-être choisir des unités géographiques à tenir (voir DJ Harris Methods in Ecology and Evolution 2015 pour un exemple)
  • vous pouvez admettre que vous êtes purement exploratoire. Idéalement, vous éviteriez complètement les valeurs p dans ce cas, mais au moins en disant à votre public que vous vous promenez dans le GoFP, faites-lui savoir qu'il peut prendre les valeurs p avec d'énormes grains de sel.

Ma référence préférée pour les «pratiques statistiques sûres» est Harrell's Regression Modeling Strategies (Springer); il expose les meilleures pratiques pour l'inférence, la prédiction et l'exploration, d'une manière rigoureuse mais pratique.

Ben Bolker
la source
4
Très bien mis! Je compte renvoyer les gens à cette réponse à l'avenir.
Great38
Exactement le genre de réponse que je cherchais, merci. J'ai crédité cette réponse comme réponse. Connaissez-vous des ressources qui enseignent des pratiques statistiques sûres? Peut-être un peu plus large que les (excellents) articles que vous avez publiés
Marcel
Excellente réponse (+1), mais je ne suis pas d'accord pour dire que cela diffère du dragage de données; l'intention n'est pas pertinente - l'effet est le même.
Rétablir Monica le
En fait, je pense qu'il vaut la peine de maintenir la distinction entre les différentes formes d'espionnage. Le dragage est sans doute plus sévère car il implique (1) plusieurs tests explicites plutôt que plusieurs tests implicites et (2) tests conditionnels / continus jusqu'à ce que p <0,05 (ou autre) soit atteint. L'effet qualitatif est certainement le même.
Ben Bolker
11

La visualisation des données est une partie indispensable de l'analyse et l'une des premières choses que vous devriez faire avec un ensemble de données inconnu. Un globe oculaire rapide des données peut informer les étapes à suivre. En effet, il devrait être assez évident en regardant le graphique que les moyens sont différents, et je ne sais pas pourquoi un test T était nécessaire pour confirmer cela - les moyens sont suffisamment séparés pour que le graphique lui-même soit toute la preuve que je voudrais exiger.

Le dragage des données, pour autant que je puisse en juger par un rapide wikipedia, est un processus délibéré de fouiner avec les données pour forcer certains niveaux d'ajustement. Par exemple: comparer un ensemble de données à des nombres aléatoires, mais régénérer les nombres aléatoires jusqu'à obtenir un ensemble de nombres favorables ou essayer un grand nombre de formes de régression différentes et choisir celui avec le meilleur que ce soit les hypothèses sont appropriées. Le dragage de données ne semble pas être quelque chose que vous pouvez facilement faire par accident.R2

Je pense cependant qu'il y a une question plus profonde ici. Comment conservez-vous une neutralité zen et évitez les biais lorsque vous traitez les données de manière scientifique? La réponse est non. Ou plutôt, vous n'êtes pas obligé. Formuler des intuitions et des hypothèses et construire un récit mental de la signification des données est tout à fait naturel et acceptable, à condition que vous soyez conscient de ce que vous faites et que vous soyez mentalement prêt à reconsidérer toutes ces hypothèses lorsque vous êtes confronté à des données contradictoires.

Ingolifs
la source
7
La visualisation des données avant l'exécution des tests peut être inoffensive dans ce cas spécifique. Cependant, on pourrait ensuite visualiser une autre dimension ... et une autre ... et regarder des diagrammes de dispersion ... et bientôt, on trouvera quelque chose qui semble "assez évident" pour qu'un test formel et un récit viennent naturellement. Oh oui, le dragage de données est certainement quelque chose que vous pouvez facilement faire par accident. Voir le "Jardin des sentiers béants" de Gelman .
S.Kolassa - Rétablir Monica le