Différence entre biais, biais systématique et erreur systématique?

9

Y a-t-il une différence entre les termes suivants ou ils sont identiques?

Biais
Biais systématique
Erreurs systématiques

S'il existe des différences, veuillez les expliquer. Ces erreurs peuvent-elles être réduites lorsque l'on augmente la taille de l'échantillon?

MISE À JOUR: Mon domaine d'intérêt est l'inférence statistique. Je veux dire que la façon dont nous différencions ces termes en tant que statisticien.

measurement-error bias Biostat
la source

1

Il serait utile d'indiquer dans quel domaine d'études vous vous intéressez. Il ressort clairement des réponses déjà proposées, par exemple, que "biais" a des significations spécialisées qui diffèrent de celles de l'analyse statistique (dans la théorie de l'estimation, le biais est la différence entre l'espérance d'un estimateur et la valeur de son estimateur). Votre question est désormais étiquetée "épidémiologie" car les réponses proviennent actuellement de ce domaine, mais cela pourrait ou non vous intéresser vraiment.

whuber

1

Si je comprends bien, en statistique, le biais est la différence entre l'estimateur et l'estimateur, tandis qu'en épidémiologie, le biais est la différence non aléatoire entre l'estimateur et l'estimateur . Quand je vois des termes comme «biais» et «erreur systématique» dans le contexte de la biostatistique, j'ai tendance à penser à l'interprétation épidémiologique. Mais là encore, en tant qu'étudiant en épidémiologie, je suis partial. Cet ensemble de diapositives de Sander Greenland aborde les deux concepts, mais se concentre sur l'épidémiologie.

jthetzel

13

Le terme «biais» apparaît de deux manières dans la littérature fondamentale sur les statistiques:

"... le parti pris $\mathbb{E}_\theta[\delta(X)] - g(\theta)$ , parfois appelé l'erreur systématique, ... "[EL Lehmann, Theory of Point Estimation, 1983. Ceci est un texte classique.] Dans la notation de Lehmann, qui est standard, $\mathbb{E}_\theta$ est l'attente lorsque la distribution est donnée par le paramètre $\theta$ , $\delta$ est un estimateur, $X$ est une observation, et $g(\theta)$ est une propriété de la distribution à estimer (l'estimateur). En d'autres termes, l'observation (ou sa séquence) est une variable aléatoire, ce qui rend l'estimation aléatoire, et le biais est l'écart attendu entre l'estimation et l'estimateur. Cela dépend de la distribution (inconnue mais vraie) $\theta$ , ce qui en fait une fonction de la vraie distribution. Lehmann consacre un chapitre entier aux estimateurs sans biais: ceux avec un biais nul quelle que soit la valeur de $\theta$ .
Dans la théorie de la mesure, le "biais" (ou "erreur systématique" ) est une différence entre l'attente d'une mesure et la vraie valeur sous-jacente. Le biais peut résulter d'erreurs d'étalonnage ou d'une dérive instrumentale, par exemple. Comparez cet usage avec le précédent: ici, un biais est une propriété d'une mesure, qui est un processus physique, alors qu'avant c'était une propriété d'un estimateur statistique (qui est une procédure mathématiquement définie pour faire des suppositions à partir de données).

Le "biais systématique" ne semble être utilisé que pour distinguer le biais de l '"erreur" aléatoire: le terme "erreur" a tendance à être utilisé principalement pour les termes aléatoires avec une attente nulle.

Dans de nombreux cas, le biais au premier sens diminue à mesure que la quantité de données augmente: de nombreux estimateurs biaisés dans la pratique deviennent de moins en moins biaisés avec plus de données (bien que cela ne soit pas théoriquement garanti, car le concept de biais est si large). Un bon exemple est l'estimateur du maximum de vraisemblance de la variance d'une distribution lorsque $n$ tirages indépendants $x_i$ de cette distribution sont disponibles. L'estimateur ML est

\hat{v} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2},

$\hat{v} = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2,$

pour $\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$ . Il est bien connu que cela est biaisé; l'estimateur $\frac{n}{n-1}\hat{v}$ est impartiale. D'où, comme $n\to\infty$ , $\hat{v}\to\frac{n}{n-1}\hat{v}$ devient asymptotiquement impartiale.

Cependant, le biais dans le contexte de mesure (le deuxième sens) n'est généralement pas réductible en prenant plus de mesures: le biais est inhérent à la procédure de mesure elle-même. Il faut estimer et réduire le biais en étalonnant la procédure de mesure ou en la comparant à d'autres procédures connues pour ne pas avoir de biais (ou moins), en estimant le biais et en compensant cela.

Cette brève description de la terminologie telle qu'elle est utilisée pour l'inférence statistique ne remplace pas les réponses étendues et plus spécialisées déjà publiées. Au lieu de cela, il est destiné à servir d'introduction à eux et comme un léger avertissement pour se méfier des généralisations universelles faites dans des contextes limités, tels que "les trois [termes] sont équivalents à une" erreur systématique "", ce qui peut clairement être correct seulement dans un sens étroit, parce que les deux définitions que j'ai citées ne sont pas équivalentes. La lecture des autres réponses m'a alerté sur la possibilité que la littérature dans des domaines spécialisés comme l'épidémiologie utilise des termes statistiques familiers et standard comme «biais» de manière inattendue, dont certains peuvent en fait contredire les définitions statistiques. À la fin,

whuber
la source

1

Merci pour un article intéressant. Je soupçonne que beaucoup d'épidémiologistes "empruntent" des termes aux statisticiens, les adaptent à leur environnement et ensuite ... en raison de l'absence d'une base solide ... cela devient un peu un gâchis

Max Gordon

@Max Gordon: whuber fournit une excellente réponse. Peut-être que d'autres domaines n'ont pas emprunté au hasard à la statistique mathématique des termes, mais ont défini des termes adaptés aux objectifs du domaine. Quoi qu'il en soit, il est utile pour les statisticiens, les épidémiologistes et d'autres personnes d'être conscients de ces différences subtiles mais significatives dans la terminologie, en particulier compte tenu de la prévalence des efforts de collaboration interdisciplinaires.

jthetzel

+1 bonne réponse! Très clair, et toujours rigoureux et concis.

gung - Rétablir Monica

@jthtzel, les statistiques mathématiques n'ont pas besoin d'être interprétées comme quelque chose qui a plusieurs significations. Il s'agit d'une science axée sur les applications, ce qui implique qu'elle s'occupe des problèmes associés à la mesure (statistiques) et à la vérité, c'est-à-dire les mathématiques. À l'heure actuelle, la littérature suggère que l'erreur de mesure se comporte de manière aléatoire et, par conséquent, une statistique (moyenne et variance) reste inchangée. Et dans le cas d'une moyenne, un soi-disant biais constant pourrait le faire monter ou descendre plus bas que l'estimation vraie. Mais la variance et l'écart-type restent inchangés.

Subhash C. Davar

4

Si j'ai appris quelque chose grâce à mes études d'épidémiologie, c'est qu'il s'agit d'un champ de mines où il n'y a pas de vrai bien ou de mal. J'aime les statistiques car elles ont au moins une base en mathématiques alors que l'épidémiologie est plus d'opinion. Cela dit, je vais essayer de répondre à votre question.

De M. Porta A Dictionary of Epidemiology 5e éd. il n'y a aucune mention de biais systématique et d' erreur systématique dit "Voir BIAS". Cela laisse un biais qui est décrit comme: «Écart systématique des résultats ou des inférences de la vérité. … Conduisant à des résultats ou des conclusions qui sont systématiquement (par opposition à aléatoires) différents de la vérité. » Je dirais qu'il n'y a pas de biais non systématique car ils dévient tous vos résultats de la véritable estimation du risque. La chose la plus importante à propos du biais est que vous ne pouvez pas le réduire en augmentant la taille de l'échantillon .

Il existe de nombreux types de biais, j'ai entendu dire que l'un des articles originaux sur les biais contenait plus de 300 types différents. L'important est de les identifier avant de commencer votre étude puis d'essayer de configurer votre étude / expérience pour éviter les biais. Dans les études épidémiologiques, il est très utile de séparer le biais en trois catégories:

Biais de séléction
Biais d'information
Confondre

Le biais de sélection consiste à sélectionner le mauvais type de personnes pour votre étude. Disons que vous êtes intéressé à voir si travailler dans une mine de charbon est un risque - si vous recherchez des personnes à l'étude dans la mine de charbon, vous pourriez trouver qu'elles sont en meilleure santé que la population générale simplement parce que celles qui sont les malades ne travaillent plus à la mine de charbon, c'est-à-dire que vous sélectionnez les individus les plus sains et que vous n'étudiez plus la population source mais un sous-échantillon. Le biais de sélection est généralement le type de biais le plus malin car il est si difficile à identifier.

Le biais d'information est lorsque votre collecte de données concernant les résultats ou l'exposition est défectueuse. Une erreur courante est le chirurgien qui demande à son patient s'il va mieux après la chirurgie. Ici, le patient peut ne pas vouloir décevoir le chirurgien et rapporte un meilleur résultat qu'il / elle aurait autrement et le chirurgien peut ne pas admettre que la chirurgie a été un échec, un signalement et un biais de l'intervieweur.

Le biais d'information est également appelé biais d'observation. Quand il s'agit d'une erreur dans une variable continue, c'est une erreur de mesure tandis que dans le réglage de la classification, vous avez un biais de classification erronée. Une classification erronée signifie qu'un individu à l'étude peut se retrouver dans la mauvaise catégorie, un fumeur peut être classé à tort comme non-fumeur soit par hasard, soit en signalant un biais. Même si la classification erronée est due au hasard (classification erronée non différentielle), elle aura toujours tendance à sous-estimer le risque de manière systématique, en particulier lorsque vous avez peu de catégories. Bien qu'une excellente étude de Jurek et al. 2005 a montré que vous devez être prudent en faisant cette hypothèse sur la base d'une seule étude. En ce qui concerne votre question, j'imagine que c'est le «biais non systématique» auquel le biais systématique se rapporte.

La confusion est un facteur qui est associé à la fois à l'exposition et au résultat et qui est étroitement lié à la personne à l'étude. Par exemple, Lambe et al. 2006 a montré que le tabagisme pendant la grossesse augmente le risque de mauvais résultats scolaires, mais lorsque l'on regarde les frères et sœurs dans une sous-population où la mère avait cessé de fumer pendant sa deuxième grossesse, leurs résultats scolaires étaient tout aussi mauvais. Cela suggère que le tabagisme n'est pas la cause de mauvais résultats scolaires mais peut-être un facteur de confusion pour d'autres facteurs sociaux.

Cet article de Sica et al. 2006 va plus en détail. Ce à quoi vous devez vous préparer, c'est qu'il y a vraiment un manque de consensus dans le domaine de la terminologie. Mon rêve est que l'OMS produise un jour une liste de définitions faciles à comprendre, intuitives et où le débat pourrait enfin se terminer.

Max Gordon
la source

Si vous dites que le biais ne diminue jamais, comment justifieriez-vous cette définition? «Un estimateur asymptotiquement sans biais est un estimateur qui est sans biais car la taille de l'échantillon tend vers l'infini.»

Biostat

Je suis d'accord avec @jthetzel, je ne suis pas sûr d'avoir bien compris votre question. Une estimation impartiale est celle où il n'y a pas de biais et où vous pouvez vous fier à la taille de votre échantillon, vous pencher en arrière et laisser les statistiques faire le travail (... et oui, cela ne se produit probablement jamais en réalité où vous avez toujours un certain type de biais ). J'essaie de garder les choses simples: le parti pris est pour moi toujours une erreur systématique mais comme je l'ai dit - il y a beaucoup de livres sur cette question et malheureusement beaucoup sont écrits par des gens qui comprennent à peine les statistiques. Interrogez un épidémiologiste sur la modification des effets - beaucoup (la plupart?)

Max Gordon

4

Les terminologies peuvent varier d'un domaine à l'autre. Cependant, en utilisant les termes définis dans les commentaires ci-dessous:

Y a-t-il une différence entre les termes suivants ou ils sont identiques?

Non, les trois sont équivalents à une «erreur systématique».

Ces erreurs peuvent-elles être réduites lorsque l'on augmente la taille de l'échantillon?

Non, l'augmentation de la taille de l'échantillon réduit l'erreur aléatoire, pas l'erreur systématique.

Commentaire

Ces termes sont tirés du domaine de l'épidémiologie, en particulier de la discussion de Rothman et ses collègues sur l'erreur dans les chapitres 9 et 10 de l'épidémiologie moderne .

Résumer:

Le but d'un enquêteur est de fournir une estimation précise d'une certaine mesure (p. Ex. Moyenne, risque relatif, rapport de risque, et cetera) au sein d'une population. Une estimation exacte est une estimation à la fois valide et précise . Une estimation valide aura une estimation ponctuelle (par exemple, moyenne, risque relatif, rapport de risque, et cetera) qui est proche de la valeur réelle dans la population. Une estimation précise aura des niveaux de confiance étroits autour de l'estimation ponctuelle. De plus, une estimation peut être valide à l'interne, par rapport à la population étudiée, et à l'externe, par rapport à une population généralisée.

Les écarts par rapport à la précision sont causés par une erreur . Il existe deux principaux types d'erreur: l' erreur systémique et l' erreur aléatoire .

L'erreur systémique, souvent appelée biais, entraîne des estimations non valides. L'erreur systémique comprend l'erreur due à la confusion, au biais de sélection et au biais d'information. La confusion peut généralement être corrigée avec des techniques telles que la stratification ou la régression. Les biais de sélection et d'information ont traditionnellement été soit ignorés, soit uniquement évalués qualitativement dans les analyses, probablement en raison de la méconnaissance des analyses de biais appropriées. Cependant, il existe des méthodologies pour l'analyse des biais quantitatifs (par exemple Lash TL et AK Fink (2003) ).

Une erreur aléatoire donne des estimations qui ne sont pas précises. L'erreur aléatoire comprend, entre autres, l'erreur d'échantillonnage et l'erreur de mesure aléatoire. Les méthodes permettant d'augmenter la précision comprennent l'augmentation de la taille de l'étude, l'augmentation de l'efficacité de l'étude et l'optimisation de la précision des analyses statistiques telles que la mise en commun et la régression.

Mise à jour

Pour illustrer pourquoi l'augmentation de la taille de l'échantillon ne diminue pas l'erreur systématique avec l'analogie du jeu de fléchettes (copié à partir de ce poste de CV ):

Analogie de jeu de fléchettes

Quel que soit le nombre de fléchettes lancées sur la planche, l'estimation ponctuelle ne se déplacera pas vers le véritable oeil de boeuf lorsqu'il y a un «biais élevé». Ici, «biais» équivaut à «erreur systématique» et «variance» équivaut à «erreur aléatoire».

jthetzel
la source

Si vous dites que le biais ne diminue jamais, comment justifieriez-vous cette définition? «Un estimateur asymptotiquement sans biais est un estimateur qui est sans biais car la taille de l'échantillon tend vers l'infini.»

Biostat

@biostat: Un estimateur non biaisé ne contient aucune erreur systématique, mais pourrait contenir une erreur aléatoire. Ainsi, à mesure que la taille de l'échantillon augmente, la variance diminue et l'estimateur converge vers la vraie valeur du paramètre dans la population. Un estimateur biaisé contiendrait une erreur systématique et ne convergerait pas sur la vraie valeur du paramètre dans la population (à moins que plusieurs biais dans l'estimateur ne se soient annulés).

jthetzel

@biostat: Peut-être une autre façon de penser: 1) La distribution de probabilité d'un estimateur biaisé asymptotiquement pourrait inclure la vraie valeur à de petits échantillons, entre autres valeurs, mais convergera vers une valeur autre que la vraie valeur car la taille de l'échantillon tend vers l'infini . 2) La distribution de probabilité d'un estimateur asymptotiquement non biaisé pourrait inclure, entre autres, la valeur vraie à de petits échantillons, mais convergera vers la valeur vraie à mesure que la taille de l'échantillon tend vers l'infini.

jthetzel

Alors, le biais et l'erreur systématique ne sont pas identiques? car ici le biais peut avoir une erreur aléatoire comme vous l'avez dit? Qu'en pensez-vous?

Biostat

@biostat: Comme indiqué ci-dessus, les terminologies peuvent varier d'un domaine à l'autre. J'ai défini le biais comme une erreur systématique. Vous semblez définir le biais comme une erreur. En épidémiologie, le biais est une erreur systématique, du moins pour ceux qui suivent la terminologie du manuel canonique de Rothman. Vous pouvez peut-être ajouter du contexte à votre question initiale pour orienter les réponses dans la bonne direction.

jthetzel

1

Ces extraits PowerPoint ont quelques informations pour compléter ce que jthetzel et Max Gordon ont donné. Ils sont orientés vers les données d'enquête, et ils ne sont pas rigoureux ou formels, mais si vous vouliez ce type de réponse, vous chercheriez probablement dans les manuels sur la théorie des mesures ou les méthodes d'enquête.

rolando2
la source

2

Pendant que nous y sommes, voici une autre série de diapositives du Groenland.

jthetzel

Différence entre biais, biais systématique et erreur systématique?

Réponses: