J'ai du mal à saisir le concept de biais dans le contexte de l'analyse de régression linéaire.
Quelle est la définition mathématique du biais?
Qu'est-ce qui est biaisé et pourquoi / comment?
Exemple illustratif?
la source
J'ai du mal à saisir le concept de biais dans le contexte de l'analyse de régression linéaire.
Quelle est la définition mathématique du biais?
Qu'est-ce qui est biaisé et pourquoi / comment?
Exemple illustratif?
Le biais est la différence entre la valeur attendue d'un estimateur et la vraie valeur estimée. Par exemple, la moyenne de l'échantillon pour un échantillon aléatoire simple (SRS) est un estimateur non biaisé de la moyenne de la population parce que si vous prenez tous les SRS possibles, trouvez leurs moyennes et prenez la moyenne de ces moyennes, alors vous obtiendrez la moyenne de la population (pour fini populations c'est juste l'algèbre pour le montrer). Mais si nous utilisons un mécanisme d'échantillonnage qui est en quelque sorte lié à la valeur, la moyenne peut devenir biaisée, pensez à un échantillon de composition aléatoire qui pose une question sur le revenu.
Il existe également certains estimateurs qui sont naturellement biaisés. La moyenne ajustée sera biaisée pour une population / distribution asymétrique. La variance standard est sans biais pour les SRS si la moyenne de la population est utilisée avec le dénominateur ou la moyenne de l'échantillon est utilisée avec le dénominateur .
Voici un exemple simple utilisant R, nous générons un tas d'échantillons à partir d'une normale avec moyenne 0 et écart type 1, puis calculons la moyenne, la variance et l'écart type à partir des échantillons. Remarquez à quel point la moyenne et les moyennes de variance sont proches des valeurs réelles (l'erreur d'échantillonnage signifie qu'elles ne seront pas exactes), comparez maintenant la moyenne sd, il s'agit d'un estimateur biaisé (mais pas très biaisé).
> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121
Dans la régression, nous pouvons obtenir des estimateurs biaisés des pentes en effectuant une régression pas à pas. Une variable est plus susceptible d'être conservée dans une régression pas à pas si la pente estimée est plus éloignée de 0 et plus susceptible d'être supprimée si elle est plus proche de 0, il s'agit donc d'un échantillonnage biaisé et les pentes du modèle final auront tendance à être plus éloignées. de 0 à la pente réelle. Des techniques comme le lasso et le biais de régression de la crête s'inclinent vers 0 pour contrer le biais de sélection loin de 0.
Le biais signifie que la valeur attendue de l'estimateur n'est pas égale au paramètre de population.
Intuitivement dans une analyse de régression, cela signifierait que l'estimation d'un des paramètres est trop élevée ou trop basse. Cependant, les estimations de régression des moindres carrés ordinaires sont BLEUES, qui représentent les meilleurs estimateurs linéaires sans biais. Dans d'autres formes de régression, les estimations des paramètres peuvent être biaisées. Cela peut être une bonne idée, car il y a souvent un compromis entre le biais et la variance. Par exemple, la régression de crête est parfois utilisée pour réduire la variance des estimations en cas de colinéarité.
Un exemple simple peut mieux illustrer cela, mais pas dans le contexte de la régression. Supposons que vous pesez 150 livres (vérifié sur une balance qui vous place dans un panier et un tas de poids dans l'autre panier). Maintenant, vous avez deux balances de salle de bain. Vous vous pesez 5 fois sur chacun.
L'échelle 1 donne des poids de 152, 151, 151,5, 150,5 et 152.
L'échelle 2 donne des poids de 145, 155, 154, 146 et 150.
L'échelle 1 est biaisée, mais présente une variance plus faible; la moyenne des poids n'est pas votre vrai poids. L'échelle 2 est non biaisée (la moyenne est de 150), mais présente une variance beaucoup plus élevée.
Quelle échelle est "meilleure"? Cela dépend de ce que vous voulez que l'échelle fasse.
la source
Dans l'analyse de régression linéaire, le biais se réfère à l'erreur introduite par l'approximation d'un problème réel, qui peut être compliqué, par un modèle beaucoup plus simple. En termes simples, vous supposez un modèle linéaire simple tel que y * = (a *) x + b * où, comme dans la vie réelle, le problème commercial pourrait être y = ax ^ 3 + bx ^ 2 + c.
On peut dire que le test MSE attendu (erreur quadratique moyenne) d'un problème de régression peut être décomposé comme ci-dessous. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Biais (f * (x0))] ^ 2 + Var (e)
f * -> forme fonctionnelle supposée pour le modèle de régression linéaire y0 -> valeur de réponse d'origine enregistrée dans les données de test x0 -> valeur de prédicteur d'origine enregistrée dans les données de test e -> erreur irréductible Ainsi, l'objectif est de sélectionner la meilleure méthode pour arriver à un modèle qui obtient une faible variance et un faible biais.
Remarque: Une introduction à l'apprentissage statistique par Trevor Hastie & Robert Tibshirani a un bon aperçu de ce sujet
la source