Quand les moindres carrés seraient-ils une mauvaise idée?

11

Si j'ai un modèle de régression: où et ,

Y=Xβ+ε
V[ε]=IdRn×nE[ε]=(0,,0)

quand utiliser , l'estimateur des moindres carrés ordinaire de , serait-il un mauvais choix pour un estimateur?βOLSβ

J'essaie de trouver un exemple où les moindres carrés fonctionnent mal. Je recherche donc une distribution des erreurs qui satisfait l'hypothèse précédente mais donne de mauvais résultats. Si la famille de la distribution était déterminée par la moyenne et la variance, ce serait formidable. Sinon, c'est OK aussi.

Je sais que les "mauvais résultats" sont un peu vagues, mais je pense que l'idée est compréhensible.

Juste pour éviter les confusions, je sais que les moindres carrés ne sont pas optimaux et qu'il existe de meilleurs estimateurs comme la régression des crêtes. Mais ce n'est pas ce que je vise. Je veux un exemple où les moindres carrés ne seraient pas naturels.

Je peux imaginer des choses comme, le vecteur d'erreur vit dans une région non convexe de , mais je n'en suis pas sûr.ϵRn

Edit 1: Comme une idée pour aider une réponse (que je ne peux pas comprendre comment aller plus loin). est BLEU. Il pourrait donc être utile de se demander quand un estimateur linéaire sans biais ne serait pas une bonne idée.βOLS

Edit 2: Comme l'a souligné Brian, si est mal conditionné, alors est une mauvaise idée car la variance est trop grande, et la régression de crête doit être utilisée à la place. Ce qui m'intéresse le plus, c'est de savoir quelle distribution doit pour que les moindres carrés fonctionnent mal.XXβOLSε

βOLSβ+(XX)1Xε Existe-t-il une distribution avec une moyenne nulle et une matrice de variance d'identité pour qui rend cet estimateur inefficace?ε

Manuel
la source
1
Je ne veux pas paraître sévère, mais je ne suis pas tout à fait sûr de ce que vous voulez. Il y a beaucoup de façons dont quelque chose pourrait être un mauvais choix. En règle générale, nous évaluons les estimateurs en termes d'éléments comme le biais , la variance , la robustesse et l' efficacité . Par exemple, comme vous le constatez, l'estimateur OLS est BLEU .
gung - Réintègre Monica
1
OTOH, la variance peut être si grande qu'elle est inutile, ce qui rend préférable un estimateur à faible variance mais biaisé comme la crête. Un autre exemple est que OLS utilise au maximum toutes les informations de vos données, mais cela les rend sensibles aux valeurs aberrantes. Il existe de nombreuses autres fonctions de perte plus robustes, tout en essayant de maintenir l'efficacité. Il pourrait être plus clair si vous pouviez reformuler votre question en des termes comme ceux-ci. Je ne sais pas ce que signifie pour un estimateur d'être «contre nature».
gung - Rétablir Monica
Merci pour votre commentaire, cela m'a fait prendre conscience de l'ambiguïté de la question. J'espère que c'est plus clair maintenant
Manuel
Voir la régression dans cette réponse . En bref: les valeurs aberrantes influentes peuvent être un problème.
Glen_b -Reinstate Monica

Réponses:

8

La réponse de Brian Borchers est assez bonne --- les données qui contiennent des valeurs aberrantes étranges ne sont souvent pas bien analysées par OLS. Je vais juste développer cela en ajoutant une image, un Monte Carlo et du Rcode.

Considérons un modèle de régression très simple:

Yi=β1xi+ϵi ϵi={N(0,0.04)w.p.0.99931w.p.0.000531w.p.0.0005

Ce modèle est conforme à votre configuration avec un coefficient de pente de 1.

Le graphique ci-joint montre un ensemble de données composé de 100 observations sur ce modèle, avec la variable x allant de 0 à 1. Dans l'ensemble de données tracé, il y a un tirage sur l'erreur qui donne une valeur aberrante (+31 dans ce cas) . La ligne de régression OLS en bleu et la ligne de régression des écarts les moins absolus en rouge sont également représentées. Remarquez comment OLS mais pas LAD est déformé par la valeur aberrante:

OLS vs LAD avec une valeur aberrante

xϵR

               Mean   Std Dev   Minimum   Maximum 
Slope by OLS   1.00      0.34     -1.76      3.89 
Slope by LAD   1.00      0.09      0.66      1.36

OLS et LAD produisent des estimateurs non biaisés (les pentes sont toutes deux de 1,00 en moyenne sur les 10 000 répétitions). OLS produit un estimateur avec un écart-type beaucoup plus élevé, cependant, 0,34 vs 0,09. Ainsi, l'OLS n'est pas le meilleur / le plus efficace parmi les estimateurs sans biais, ici. C'est toujours BLEU, bien sûr, mais LAD n'est pas linéaire, il n'y a donc pas de contradiction. Notez les erreurs sauvages que OLS peut faire dans la colonne Min et Max. Pas si CONTRE.

Voici le code R pour le graphique et le Monte Carlo:

# This program written in response to a Cross Validated question
# http://stats.stackexchange.com/questions/82864/when-would-least-squares-be-a-bad-idea

# The program runs a monte carlo to demonstrate that, in the presence of outliers,
# OLS may be a poor estimation method, even though it is BLUE.


library(quantreg)
library(plyr)

# Make a single 100 obs linear regression dataset with unusual error distribution
# Naturally, I played around with the seed to get a dataset which has one outlier
# data point.

set.seed(34543)

# First generate the unusual error term, a mixture of three components
e <- sqrt(0.04)*rnorm(100)
mixture <- runif(100)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31

summary(mixture)
summary(e)

# Regression model with beta=1
x <- 1:100 / 100
y <- x + e

# ols regression run on this dataset
reg1 <- lm(y~x)
summary(reg1)

# least absolute deviations run on this dataset
reg2 <- rq(y~x)
summary(reg2)

# plot, noticing how much the outlier effects ols and how little 
# it effects lad
plot(y~x)
abline(reg1,col="blue",lwd=2)
abline(reg2,col="red",lwd=2)


# Let's do a little Monte Carlo, evaluating the estimator of the slope.
# 10,000 replications, each of a dataset with 100 observations
# To do this, I make a y vector and an x vector each one 1,000,000
# observations tall.  The replications are groups of 100 in the data frame,
# so replication 1 is elements 1,2,...,100 in the data frame and replication
# 2 is 101,102,...,200.  Etc.
set.seed(2345432)
e <- sqrt(0.04)*rnorm(1000000)
mixture <- runif(1000000)
e[mixture>0.9995] <- 31
e[mixture<0.0005] <- -31
var(e)
sum(e > 30)
sum(e < -30)
rm(mixture)

x <- rep(1:100 / 100, times=10000)
y <- x + e
replication <- trunc(0:999999 / 100) + 1
mc.df <- data.frame(y,x,replication)

ols.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(lm(y~x,data=df))[2])
names(ols.slopes)[2] <- "estimate"

lad.slopes <- ddply(mc.df,.(replication),
                    function(df) coef(rq(y~x,data=df))[2])
names(lad.slopes)[2] <- "estimate"

summary(ols.slopes)
sd(ols.slopes$estimate)
summary(lad.slopes)
sd(lad.slopes$estimate)
Facture
la source
@Manuel Merci. J'ai attrapé une erreur dans mon programme R --- il y avait un 0.04 où il aurait dû y avoir un sqrt (0.04). Cela n'a pas changé l'orientation de la réponse. Cela a fait une petite différence dans les résultats. Cependant, si vous avez copié le code auparavant, vous devez le recopier maintenant.
Bill
7

Un exemple serait celui où vous ne voulez pas estimer la moyenne. Cela est venu dans le travail que j'avais l'habitude de faire où nous estimions le nombre de partenaires sexuels que les gens avaient, dans le cadre de la modélisation de la propagation du VIH / SIDA. Il y avait plus d'intérêt dans les queues de la distribution: Quelles personnes ont beaucoup de partenaires?

Dans ce cas, vous pourriez vouloir une régression quantile; une méthode sous-utilisée, à mon avis.

Peter Flom - Réintégrer Monica
la source
β
Y
Oui, je voulais dire la moyenne de Y. C'est ce que fait la régression OLS.
Peter Flom - Réintégrer Monica
(xa)2+(xb)2L1
6

X

ϵ

ϵβ

Brian Borchers
la source
ε
1
De plus, Gauss-Markov s'assure que les moindres carrés soient un estimateur sans biais de variance minimale parmi les linéaires. Les estimateurs linéaires peuvent ne pas être rézonés pour une sorte de distribution. Voilà ce que je veux comprendre.
Manuel
ϵi=0ϵi=1000.00005ϵi=1000.00005X=Iβϵ
X=1β=0β^
Je crois que votre deuxième commentaire est ce que je recherche. Cela me dérange juste la faible probabilité de se produire. De cet exemple, il est assez clair comment construire un meilleur estimateur en connaissant la distribution des erreurs.
Manuel