Si j'ai un modèle de régression:
où et ,
quand utiliser , l'estimateur des moindres carrés ordinaire de , serait-il un mauvais choix pour un estimateur?
J'essaie de trouver un exemple où les moindres carrés fonctionnent mal. Je recherche donc une distribution des erreurs qui satisfait l'hypothèse précédente mais donne de mauvais résultats. Si la famille de la distribution était déterminée par la moyenne et la variance, ce serait formidable. Sinon, c'est OK aussi.
Je sais que les "mauvais résultats" sont un peu vagues, mais je pense que l'idée est compréhensible.
Juste pour éviter les confusions, je sais que les moindres carrés ne sont pas optimaux et qu'il existe de meilleurs estimateurs comme la régression des crêtes. Mais ce n'est pas ce que je vise. Je veux un exemple où les moindres carrés ne seraient pas naturels.
Je peux imaginer des choses comme, le vecteur d'erreur vit dans une région non convexe de , mais je n'en suis pas sûr.
Edit 1: Comme une idée pour aider une réponse (que je ne peux pas comprendre comment aller plus loin). est BLEU. Il pourrait donc être utile de se demander quand un estimateur linéaire sans biais ne serait pas une bonne idée.
Edit 2: Comme l'a souligné Brian, si est mal conditionné, alors est une mauvaise idée car la variance est trop grande, et la régression de crête doit être utilisée à la place. Ce qui m'intéresse le plus, c'est de savoir quelle distribution doit pour que les moindres carrés fonctionnent mal.
Existe-t-il une distribution avec une moyenne nulle et une matrice de variance d'identité pour qui rend cet estimateur inefficace?
Réponses:
La réponse de Brian Borchers est assez bonne --- les données qui contiennent des valeurs aberrantes étranges ne sont souvent pas bien analysées par OLS. Je vais juste développer cela en ajoutant une image, un Monte Carlo et du
R
code.Considérons un modèle de régression très simple:
Ce modèle est conforme à votre configuration avec un coefficient de pente de 1.
Le graphique ci-joint montre un ensemble de données composé de 100 observations sur ce modèle, avec la variable x allant de 0 à 1. Dans l'ensemble de données tracé, il y a un tirage sur l'erreur qui donne une valeur aberrante (+31 dans ce cas) . La ligne de régression OLS en bleu et la ligne de régression des écarts les moins absolus en rouge sont également représentées. Remarquez comment OLS mais pas LAD est déformé par la valeur aberrante:
R
OLS et LAD produisent des estimateurs non biaisés (les pentes sont toutes deux de 1,00 en moyenne sur les 10 000 répétitions). OLS produit un estimateur avec un écart-type beaucoup plus élevé, cependant, 0,34 vs 0,09. Ainsi, l'OLS n'est pas le meilleur / le plus efficace parmi les estimateurs sans biais, ici. C'est toujours BLEU, bien sûr, mais LAD n'est pas linéaire, il n'y a donc pas de contradiction. Notez les erreurs sauvages que OLS peut faire dans la colonne Min et Max. Pas si CONTRE.
Voici le code R pour le graphique et le Monte Carlo:
la source
Un exemple serait celui où vous ne voulez pas estimer la moyenne. Cela est venu dans le travail que j'avais l'habitude de faire où nous estimions le nombre de partenaires sexuels que les gens avaient, dans le cadre de la modélisation de la propagation du VIH / SIDA. Il y avait plus d'intérêt dans les queues de la distribution: Quelles personnes ont beaucoup de partenaires?
Dans ce cas, vous pourriez vouloir une régression quantile; une méthode sous-utilisée, à mon avis.
la source
la source