Qu'est-ce que le «biais» intuitivement?

J'ai du mal à saisir le concept de biais dans le contexte de l'analyse de régression linéaire.

Quelle est la définition mathématique du biais?
Qu'est-ce qui est biaisé et pourquoi / comment?
Exemple illustratif?

regression terminology bias definition Fabien
la source

Réponses:

Le biais est la différence entre la valeur attendue d'un estimateur et la vraie valeur estimée. Par exemple, la moyenne de l'échantillon pour un échantillon aléatoire simple (SRS) est un estimateur non biaisé de la moyenne de la population parce que si vous prenez tous les SRS possibles, trouvez leurs moyennes et prenez la moyenne de ces moyennes, alors vous obtiendrez la moyenne de la population (pour fini populations c'est juste l'algèbre pour le montrer). Mais si nous utilisons un mécanisme d'échantillonnage qui est en quelque sorte lié à la valeur, la moyenne peut devenir biaisée, pensez à un échantillon de composition aléatoire qui pose une question sur le revenu.

Il existe également certains estimateurs qui sont naturellement biaisés. La moyenne ajustée sera biaisée pour une population / distribution asymétrique. La variance standard est sans biais pour les SRS si la moyenne de la population est utilisée avec le dénominateur ou la moyenne de l'échantillon est utilisée avec le dénominateur . $n$ $n-1$

Voici un exemple simple utilisant R, nous générons un tas d'échantillons à partir d'une normale avec moyenne 0 et écart type 1, puis calculons la moyenne, la variance et l'écart type à partir des échantillons. Remarquez à quel point la moyenne et les moyennes de variance sont proches des valeurs réelles (l'erreur d'échantillonnage signifie qu'elles ne seront pas exactes), comparez maintenant la moyenne sd, il s'agit d'un estimateur biaisé (mais pas très biaisé).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

Dans la régression, nous pouvons obtenir des estimateurs biaisés des pentes en effectuant une régression pas à pas. Une variable est plus susceptible d'être conservée dans une régression pas à pas si la pente estimée est plus éloignée de 0 et plus susceptible d'être supprimée si elle est plus proche de 0, il s'agit donc d'un échantillonnage biaisé et les pentes du modèle final auront tendance à être plus éloignées. de 0 à la pente réelle. Des techniques comme le lasso et le biais de régression de la crête s'inclinent vers 0 pour contrer le biais de sélection loin de 0.

Greg Snow
la source

SRS?

$\text{ }$

cardinal

@cardinal Simple Random Sample.

whuber

@whuber: Wow. Bien que l'abréviation ait un sens, je ne me souviens pas l'avoir rencontrée dans des cadres plus formels. Y a-t-il des sous-domaines particuliers ou des domaines appliqués où il s'agit d'un initialisme "standard"?

cardinal

@cardinal Voir en.wikipedia.org/wiki/Simple_random_sample

whuber

(+1) La modification de @ whuber a été utile pour clarifier cette réponse.

cardinal

Le biais signifie que la valeur attendue de l'estimateur n'est pas égale au paramètre de population.

Intuitivement dans une analyse de régression, cela signifierait que l'estimation d'un des paramètres est trop élevée ou trop basse. Cependant, les estimations de régression des moindres carrés ordinaires sont BLEUES, qui représentent les meilleurs estimateurs linéaires sans biais. Dans d'autres formes de régression, les estimations des paramètres peuvent être biaisées. Cela peut être une bonne idée, car il y a souvent un compromis entre le biais et la variance. Par exemple, la régression de crête est parfois utilisée pour réduire la variance des estimations en cas de colinéarité.

Un exemple simple peut mieux illustrer cela, mais pas dans le contexte de la régression. Supposons que vous pesez 150 livres (vérifié sur une balance qui vous place dans un panier et un tas de poids dans l'autre panier). Maintenant, vous avez deux balances de salle de bain. Vous vous pesez 5 fois sur chacun.

L'échelle 1 donne des poids de 152, 151, 151,5, 150,5 et 152.

L'échelle 2 donne des poids de 145, 155, 154, 146 et 150.

L'échelle 1 est biaisée, mais présente une variance plus faible; la moyenne des poids n'est pas votre vrai poids. L'échelle 2 est non biaisée (la moyenne est de 150), mais présente une variance beaucoup plus élevée.

Quelle échelle est "meilleure"? Cela dépend de ce que vous voulez que l'échelle fasse.

Peter Flom - Réintégrer Monica
la source

Bien que la définition du biais soit correcte, je crains que les exemples ne le confondent avec l'inexactitude, ce qui est tout à fait différent! Le biais est une propriété d'une procédure statistique (un estimateur) tandis que la précision est une propriété d'un processus de mesure . (-1).

whuber

@whuber: Oui, je suis d'accord avec ça. Et, je pense toujours que, même ainsi, il est nécessaire de faire la différence entre les attentes mathématiques et une moyenne d'échantillon, car elles sont liées au biais.

cardinal

Non, je n'essayais pas de dire quoi que ce soit sur "l'inexactitude" (qui est terriblement difficile à définir) mais sur la "variance". Une échelle est non biaisée, l'autre échelle présente une faible variance. Je n'ai pas utilisé le mot «précis» ou «exactitude». Une balance qui tend à estimer votre poids trop haut (ou trop bas) est biaisée.

Peter Flom - Réintègre Monica

Mais ce sentiment de «parti pris» n'est qu'un synonyme d'inexact; ce n'est pas la même que la définition que vous avez donnée dans la première ligne. De plus, comme le souligne @cardinal, l'exemple confond également une attente avec la moyenne d'un échantillon particulier.

whuber

Je suis d'accord avec @whuber ici. Dans le sens (correct) de biais que l'OP demande, ce n'est pas l'échelle qui est biaisée ou non biaisée, mais plutôt quelle que soit l'estimation de votre poids que vous dérivez de ses mesures!

cardinal

Dans l'analyse de régression linéaire, le biais se réfère à l'erreur introduite par l'approximation d'un problème réel, qui peut être compliqué, par un modèle beaucoup plus simple. En termes simples, vous supposez un modèle linéaire simple tel que y * = (a *) x + b * où, comme dans la vie réelle, le problème commercial pourrait être y = ax ^ 3 + bx ^ 2 + c.

On peut dire que le test MSE attendu (erreur quadratique moyenne) d'un problème de régression peut être décomposé comme ci-dessous. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Biais (f * (x0))] ^ 2 + Var (e)

f * -> forme fonctionnelle supposée pour le modèle de régression linéaire y0 -> valeur de réponse d'origine enregistrée dans les données de test x0 -> valeur de prédicteur d'origine enregistrée dans les données de test e -> erreur irréductible Ainsi, l'objectif est de sélectionner la meilleure méthode pour arriver à un modèle qui obtient une faible variance et un faible biais.

Remarque: Une introduction à l'apprentissage statistique par Trevor Hastie & Robert Tibshirani a un bon aperçu de ce sujet

ganga
la source

Ceci est souvent évoqué par quelque chose comme "erreur de spécification erronée du modèle" afin de ne pas le confondre avec la définition standard du biais donnée dans la réponse acceptée. Sinon, il serait impossible de comprendre l'assertion (correcte) selon laquelle OLS est un estimateur non biaisé des coefficients des régresseurs.

whuber