Ma question pourrait être reformulée comme "comment évaluer une erreur d'échantillonnage en utilisant les mégadonnées", en particulier pour une publication de journal. Voici un exemple pour illustrer un défi.
À partir d'un très grand ensemble de données (> 100 000 patients uniques et leurs médicaments prescrits provenant de 100 hôpitaux), je souhaitais estimer une proportion de patients prenant un médicament spécifique. Il est simple d'obtenir cette proportion. Son intervalle de confiance (par exemple, paramétrique ou bootstrap) est incroyablement étroit / étroit, car n est très grand. Bien qu'il soit chanceux d'avoir un échantillon de grande taille, je cherche toujours un moyen d'évaluer, de présenter et / ou de visualiser certaines formes de probabilités d'erreur. Bien qu'il semble inutile (sinon trompeur) de mettre / visualiser un intervalle de confiance (par exemple, IC à 95%: .65878 - .65881), il semble également impossible d'éviter certaines déclarations sur l'incertitude.
S'il vous plait, faite moi part de votre avis. J'apprécierais toute littérature sur ce sujet; façons d'éviter une confiance excessive dans les données même avec un échantillon de grande taille.
Réponses:
Ce problème est également apparu dans certaines de mes recherches (en tant que modélisateur d'épidémie, j'ai le luxe de créer mes propres ensembles de données, et avec des ordinateurs suffisamment grands, ils peuvent être essentiellement de taille arbitraire. Quelques réflexions:
Le but principal de grands ensembles de données est de fournir des estimations précises, donc je ne pense pas que vous ayez besoin de vous dérober à cette précision. Mais vous devez vous rappeler que vous ne pouvez pas améliorer les mauvaises données simplement en collectant des volumes plus importants de mauvaises données.
la source
Ce problème est apparu dans mes propres manuscrits.
1. Options de rapport: si vous n'avez qu'un ou quelques CI à signaler, le rapport "(par exemple, IC à 95%: .65878 - .65881)" n'est pas trop verbeux et met en évidence la précision du CI. Cependant, si vous avez de nombreux CI, une déclaration générale peut être plus utile au lecteur. Par exemple, je signale généralement quelque chose comme «avec cette taille d'échantillon, la marge d'erreur de confiance à 95% pour chaque proportion était inférieure à +/- 0,010». Je signale généralement quelque chose comme ça dans la méthode, ou dans la légende du tableau ou de la figure, ou dans les deux.
2. Éviter la «confiance excessive» même avec un échantillon de grande taille: avec un échantillon de 100 000, le théorème de la limite centrale vous gardera en sécurité lors de la déclaration des IC pour les proportions. Donc, dans la situation que vous avez décrite, vous devriez être d'accord, à moins qu'il n'y ait d'autres violations d'hypothèses dont je ne suis pas au courant (par exemple, violé iid).
la source
Ne signalez pas les intervalles de confiance. Indiquez plutôt la taille exacte de l'échantillon et les proportions. Le lecteur pourra calculer ses propres CI de la manière qu'il souhaite.
la source
Considérez la possibilité que les proportions de 100 hôpitaux différents ne convergent pas vers la même valeur moyenne. Avez-vous testé la variance entre les groupes? S'il existe une différence mesurable entre les hôpitaux, l'hypothèse selon laquelle les échantillons sont générés à partir d'une distribution normale commune n'est pas prise en charge et vous ne devez pas les regrouper.
Cependant, si vos données proviennent vraiment d'un grand échantillon normalement distribué, vous ne trouverez pas de "déclarations sur l'incertitude" utiles en tant que propriété des données, mais en réfléchissant à pourquoi ou pourquoi vos statistiques ne devraient pas généraliser - en raison de certains préjugés inhérents à la collecte, ou le manque de stationnarité, etc. que vous devez signaler.
la source