Y a-t-il une différence entre les termes suivants ou ils sont identiques?
- Biais
- Biais systématique
- Erreurs systématiques
S'il existe des différences, veuillez les expliquer. Ces erreurs peuvent-elles être réduites lorsque l'on augmente la taille de l'échantillon?
MISE À JOUR: Mon domaine d'intérêt est l'inférence statistique. Je veux dire que la façon dont nous différencions ces termes en tant que statisticien.
measurement-error
bias
Biostat
la source
la source
Réponses:
Le terme «biais» apparaît de deux manières dans la littérature fondamentale sur les statistiques:
"... le parti prisEθ[ δ( X) ] - g( θ ) , parfois appelé l'erreur systématique, ... "[EL Lehmann, Theory of Point Estimation, 1983. Ceci est un texte classique.] Dans la notation de Lehmann, qui est standard,Eθ est l'attente lorsque la distribution est donnée par le paramètre θ , δ est un estimateur, X est une observation, et g( θ ) est une propriété de la distribution à estimer (l'estimateur). En d'autres termes, l'observation (ou sa séquence) est une variable aléatoire, ce qui rend l'estimation aléatoire, et le biais est l'écart attendu entre l'estimation et l'estimateur. Cela dépend de la distribution (inconnue mais vraie)θ , ce qui en fait une fonction de la vraie distribution. Lehmann consacre un chapitre entier aux estimateurs sans biais: ceux avec un biais nul quelle que soit la valeur deθ .
Dans la théorie de la mesure, le "biais" (ou "erreur systématique" ) est une différence entre l'attente d'une mesure et la vraie valeur sous-jacente. Le biais peut résulter d'erreurs d'étalonnage ou d'une dérive instrumentale, par exemple. Comparez cet usage avec le précédent: ici, un biais est une propriété d'une mesure, qui est un processus physique, alors qu'avant c'était une propriété d'un estimateur statistique (qui est une procédure mathématiquement définie pour faire des suppositions à partir de données).
Le "biais systématique" ne semble être utilisé que pour distinguer le biais de l '"erreur" aléatoire: le terme "erreur" a tendance à être utilisé principalement pour les termes aléatoires avec une attente nulle.
Dans de nombreux cas, le biais au premier sens diminue à mesure que la quantité de données augmente: de nombreux estimateurs biaisés dans la pratique deviennent de moins en moins biaisés avec plus de données (bien que cela ne soit pas théoriquement garanti, car le concept de biais est si large). Un bon exemple est l'estimateur du maximum de vraisemblance de la variance d'une distribution lorsquen tirages indépendants Xje de cette distribution sont disponibles. L'estimateur ML est
pourX¯=1n∑ni = 1Xje . Il est bien connu que cela est biaisé; l'estimateurnn - 1v^ est impartiale. D'où, commen → ∞ , v^→nn - 1v^ devient asymptotiquement impartiale.
Cependant, le biais dans le contexte de mesure (le deuxième sens) n'est généralement pas réductible en prenant plus de mesures: le biais est inhérent à la procédure de mesure elle-même. Il faut estimer et réduire le biais en étalonnant la procédure de mesure ou en la comparant à d'autres procédures connues pour ne pas avoir de biais (ou moins), en estimant le biais et en compensant cela.
Cette brève description de la terminologie telle qu'elle est utilisée pour l'inférence statistique ne remplace pas les réponses étendues et plus spécialisées déjà publiées. Au lieu de cela, il est destiné à servir d'introduction à eux et comme un léger avertissement pour se méfier des généralisations universelles faites dans des contextes limités, tels que "les trois [termes] sont équivalents à une" erreur systématique "", ce qui peut clairement être correct seulement dans un sens étroit, parce que les deux définitions que j'ai citées ne sont pas équivalentes. La lecture des autres réponses m'a alerté sur la possibilité que la littérature dans des domaines spécialisés comme l'épidémiologie utilise des termes statistiques familiers et standard comme «biais» de manière inattendue, dont certains peuvent en fait contredire les définitions statistiques. À la fin,
la source
Si j'ai appris quelque chose grâce à mes études d'épidémiologie, c'est qu'il s'agit d'un champ de mines où il n'y a pas de vrai bien ou de mal. J'aime les statistiques car elles ont au moins une base en mathématiques alors que l'épidémiologie est plus d'opinion. Cela dit, je vais essayer de répondre à votre question.
De M. Porta A Dictionary of Epidemiology 5e éd. il n'y a aucune mention de biais systématique et d' erreur systématique dit "Voir BIAS". Cela laisse un biais qui est décrit comme: «Écart systématique des résultats ou des inférences de la vérité. … Conduisant à des résultats ou des conclusions qui sont systématiquement (par opposition à aléatoires) différents de la vérité. » Je dirais qu'il n'y a pas de biais non systématique car ils dévient tous vos résultats de la véritable estimation du risque. La chose la plus importante à propos du biais est que vous ne pouvez pas le réduire en augmentant la taille de l'échantillon .
Il existe de nombreux types de biais, j'ai entendu dire que l'un des articles originaux sur les biais contenait plus de 300 types différents. L'important est de les identifier avant de commencer votre étude puis d'essayer de configurer votre étude / expérience pour éviter les biais. Dans les études épidémiologiques, il est très utile de séparer le biais en trois catégories:
Le biais de sélection consiste à sélectionner le mauvais type de personnes pour votre étude. Disons que vous êtes intéressé à voir si travailler dans une mine de charbon est un risque - si vous recherchez des personnes à l'étude dans la mine de charbon, vous pourriez trouver qu'elles sont en meilleure santé que la population générale simplement parce que celles qui sont les malades ne travaillent plus à la mine de charbon, c'est-à-dire que vous sélectionnez les individus les plus sains et que vous n'étudiez plus la population source mais un sous-échantillon. Le biais de sélection est généralement le type de biais le plus malin car il est si difficile à identifier.
Le biais d'information est lorsque votre collecte de données concernant les résultats ou l'exposition est défectueuse. Une erreur courante est le chirurgien qui demande à son patient s'il va mieux après la chirurgie. Ici, le patient peut ne pas vouloir décevoir le chirurgien et rapporte un meilleur résultat qu'il / elle aurait autrement et le chirurgien peut ne pas admettre que la chirurgie a été un échec, un signalement et un biais de l'intervieweur.
Le biais d'information est également appelé biais d'observation. Quand il s'agit d'une erreur dans une variable continue, c'est une erreur de mesure tandis que dans le réglage de la classification, vous avez un biais de classification erronée. Une classification erronée signifie qu'un individu à l'étude peut se retrouver dans la mauvaise catégorie, un fumeur peut être classé à tort comme non-fumeur soit par hasard, soit en signalant un biais. Même si la classification erronée est due au hasard (classification erronée non différentielle), elle aura toujours tendance à sous-estimer le risque de manière systématique, en particulier lorsque vous avez peu de catégories. Bien qu'une excellente étude de Jurek et al. 2005 a montré que vous devez être prudent en faisant cette hypothèse sur la base d'une seule étude. En ce qui concerne votre question, j'imagine que c'est le «biais non systématique» auquel le biais systématique se rapporte.
La confusion est un facteur qui est associé à la fois à l'exposition et au résultat et qui est étroitement lié à la personne à l'étude. Par exemple, Lambe et al. 2006 a montré que le tabagisme pendant la grossesse augmente le risque de mauvais résultats scolaires, mais lorsque l'on regarde les frères et sœurs dans une sous-population où la mère avait cessé de fumer pendant sa deuxième grossesse, leurs résultats scolaires étaient tout aussi mauvais. Cela suggère que le tabagisme n'est pas la cause de mauvais résultats scolaires mais peut-être un facteur de confusion pour d'autres facteurs sociaux.
Cet article de Sica et al. 2006 va plus en détail. Ce à quoi vous devez vous préparer, c'est qu'il y a vraiment un manque de consensus dans le domaine de la terminologie. Mon rêve est que l'OMS produise un jour une liste de définitions faciles à comprendre, intuitives et où le débat pourrait enfin se terminer.
la source
Les terminologies peuvent varier d'un domaine à l'autre. Cependant, en utilisant les termes définis dans les commentaires ci-dessous:
Non, les trois sont équivalents à une «erreur systématique».
Non, l'augmentation de la taille de l'échantillon réduit l'erreur aléatoire, pas l'erreur systématique.
Commentaire
Ces termes sont tirés du domaine de l'épidémiologie, en particulier de la discussion de Rothman et ses collègues sur l'erreur dans les chapitres 9 et 10 de l'épidémiologie moderne .
Résumer:
Le but d'un enquêteur est de fournir une estimation précise d'une certaine mesure (p. Ex. Moyenne, risque relatif, rapport de risque, et cetera) au sein d'une population. Une estimation exacte est une estimation à la fois valide et précise . Une estimation valide aura une estimation ponctuelle (par exemple, moyenne, risque relatif, rapport de risque, et cetera) qui est proche de la valeur réelle dans la population. Une estimation précise aura des niveaux de confiance étroits autour de l'estimation ponctuelle. De plus, une estimation peut être valide à l'interne, par rapport à la population étudiée, et à l'externe, par rapport à une population généralisée.
Les écarts par rapport à la précision sont causés par une erreur . Il existe deux principaux types d'erreur: l' erreur systémique et l' erreur aléatoire .
L'erreur systémique, souvent appelée biais, entraîne des estimations non valides. L'erreur systémique comprend l'erreur due à la confusion, au biais de sélection et au biais d'information. La confusion peut généralement être corrigée avec des techniques telles que la stratification ou la régression. Les biais de sélection et d'information ont traditionnellement été soit ignorés, soit uniquement évalués qualitativement dans les analyses, probablement en raison de la méconnaissance des analyses de biais appropriées. Cependant, il existe des méthodologies pour l'analyse des biais quantitatifs (par exemple Lash TL et AK Fink (2003) ).
Une erreur aléatoire donne des estimations qui ne sont pas précises. L'erreur aléatoire comprend, entre autres, l'erreur d'échantillonnage et l'erreur de mesure aléatoire. Les méthodes permettant d'augmenter la précision comprennent l'augmentation de la taille de l'étude, l'augmentation de l'efficacité de l'étude et l'optimisation de la précision des analyses statistiques telles que la mise en commun et la régression.
Mise à jour
Pour illustrer pourquoi l'augmentation de la taille de l'échantillon ne diminue pas l'erreur systématique avec l'analogie du jeu de fléchettes (copié à partir de ce poste de CV ):
Quel que soit le nombre de fléchettes lancées sur la planche, l'estimation ponctuelle ne se déplacera pas vers le véritable oeil de boeuf lorsqu'il y a un «biais élevé». Ici, «biais» équivaut à «erreur systématique» et «variance» équivaut à «erreur aléatoire».
la source
Ces extraits PowerPoint ont quelques informations pour compléter ce que jthetzel et Max Gordon ont donné. Ils sont orientés vers les données d'enquête, et ils ne sont pas rigoureux ou formels, mais si vous vouliez ce type de réponse, vous chercheriez probablement dans les manuels sur la théorie des mesures ou les méthodes d'enquête.
la source