Ok, juste avertissement - c'est une question philosophique qui n'implique aucun chiffre. J'ai beaucoup réfléchi à la façon dont les erreurs se glissent dans les ensembles de données au fil du temps et à la façon dont les analystes devraient les traiter - ou si cela devrait vraiment avoir une importance?
Pour le contexte, je fais l'analyse sur une étude à long terme qui implique de nombreux ensembles de données collectées par probablement 25 personnes sur 7 à 8 ans - personne n'a jamais rassemblé toutes les données dans une structure cohérente (c'est mon travail). J'ai fait beaucoup de saisie de données (transcription à partir de photocopies de vieux cahiers de laboratoire) et je continue de trouver de petites erreurs de transcription que d'autres personnes ont faites, et aussi de trouver des entrées de données difficiles ou impossibles à lire - principalement parce que l'encre a disparu avec le temps. J'utilise le contexte pour faire de `` meilleures suppositions '' sur ce que les données disent et je laisse les données en évidence si je ne suis pas assez certain. Mais je continue de penser au fait que chaque fois que des données sont copiées, la fréquence des erreurs augmentera inévitablement jusqu'à ce que les données d'origine soient complètement perdues.
Donc, cela m'amène à une réflexion: en plus des erreurs d'instrument / mesure et des erreurs d'enregistrement, il y a une composante fondamentale `` erreur de gestion des données '' qui augmentera avec le temps et avec plus de traitement des données (note latérale: c'est probablement juste une autre façon d'énoncer la 2ème loi de la thermodynamique, non? L'entropie des données augmentera toujours). Par conséquent, je me demande s'il devrait y avoir une sorte de «correction» introduite pour tenir compte du cycle de vie des ensembles de données (quelque chose qui ressemble à une correction de Bonferroni)? En d'autres termes, devrions-nous supposer que les ensembles de données plus anciens ou plus copiés sont moins précis et, dans l'affirmative, devrions-nous ajuster les résultats en conséquence?
Mais alors, mon autre pensée est que les erreurs font partie intégrante de la collecte et du traitement des données, et puisque tous les tests statistiques ont été développés avec des données du monde réel, peut-être que ces sources d'erreur sont déjà `` intégrées '' à l'analyse?
En outre, un autre point qui mérite d'être mentionné est que, puisque les erreurs de données sont aléatoires, elles sont beaucoup plus susceptibles de réduire la force d'une constatation que de l'améliorer - en d'autres termes, les erreurs de traitement des données conduiraient à des erreurs de type 2, pas à des erreurs de type 1 . Donc, dans de nombreux contextes, si vous utilisiez des données anciennes / douteuses et que vous trouviez toujours un effet, cela augmenterait votre confiance que l'effet est réel (car il était suffisamment fort pour survivre à l'ajout d'une erreur aléatoire à l'ensemble de données). Donc pour cette raison, peut-être que la «correction» devrait aller dans l'autre sens (augmenter le niveau alpha requis pour une «découverte»), ou tout simplement ne pas nous déranger?
Quoi qu'il en soit, désolé d'être si bavard et obtus, je ne sais pas vraiment comment poser cette question de manière plus concise. Merci de vous occuper de moi.
Réponses:
J'appuie la suggestion de @Aksakal: si une erreur de mesure est considérée par l'analyste comme potentiellement importante, elle peut et doit être modélisée explicitement dans le cadre du processus de génération de données.
Je vois plusieurs considérations qui plaident contre l'introduction d'un facteur de correction générique basé, par exemple, sur l'âge de l'ensemble de données.
Premièrement, l'âge peut être un très mauvais indicateur du degré de détérioration des données. La technologie de duplication, de compression et de conservation, ainsi que le degré d'effort et de soin nécessaires à la vérification de la transcription correcte, sont apparemment les facteurs importants. Certains textes anciens (par exemple, la Bible) ont été conservés pendant des siècles avec une dégradation apparemment nulle. Votre exemple VHS, bien que légitime, est en fait inhabituel, en ce que chaque événement de duplication introduit toujours une erreur, et il n'y a pas de moyens faciles de rechercher et de corriger les erreurs de transcription - si l' on utilise des technologies bon marché et largement disponibles pour la duplication et le stockage. Je m'attends à ce que l'on diminue considérablement le degré d'erreurs introduites, grâce à des investissements dans des systèmes plus coûteux.
Ce dernier point est plus général: la conservation et la propagation des données sont des activités économiques . La qualité de la transmission dépend fortement des ressources déployées. Ces choix dépendront à leur tour de l'importance perçue des données pour quiconque effectue la duplication et la transmission.
Les considérations économiques s'appliquent également à l'analyste. Il y a toujours plus de facteurs que vous pouvez prendre en compte lors de votre analyse. Dans quelles conditions les erreurs de transcription des données seront-elles suffisamment importantes et suffisamment importantes pour être prises en compte? Mon intuition est: de telles conditions ne sont pas courantes. De plus, si la dégradation potentielle des données est considérée comme suffisamment importante pour en tenir compte dans votre analyse, elle est probablement suffisamment importante pour faire l'effort de modéliser le processus de manière explicite, plutôt que d'insérer une étape générique de «correction».
Enfin, il n'est pas nécessaire de développer un tel facteur de correction générique de novo . Il existe déjà un corpus substantiel de théorie et de pratique statistiques pour analyser des ensembles de données pour lesquels l'erreur de mesure est considérée comme importante.
En somme: c'est une pensée intéressante. Mais je ne pense pas que cela devrait inciter à des changements dans la pratique analytique.
la source