Pour un modèle linéaire, la solution OLS fournit le meilleur estimateur linéaire sans biais pour les paramètres.
Bien sûr, nous pouvons échanger un biais pour une variance plus faible, par exemple la régression des crêtes. Mais ma question concerne l'absence de parti pris. Existe-t-il d'autres estimateurs quelque peu couramment utilisés, qui sont non biaisés mais avec une variance plus élevée que les paramètres estimés de l'OLS?
Si j'avais un énorme ensemble de données, je pourrais bien sûr le sous-échantillonner et estimer les paramètres avec moins de données et augmenter la variance. Je suppose que cela pourrait être hypothétiquement utile.
C'est plus une question rhétorique, car quand j'ai lu sur les estimateurs BLEUS, une alternative pire n'est pas fournie. Je suppose que fournir des alternatives pires pourrait également aider les gens à mieux comprendre la puissance des estimateurs BLEUS.
Réponses:
Un exemple qui me vient à l'esprit est un estimateur GLS qui pondère les observations différemment, bien que cela ne soit pas nécessaire lorsque les hypothèses de Gauss-Markov sont remplies (ce que le statisticien peut ne pas savoir être le cas et donc appliquer toujours appliquer GLS).
Considérons le cas d'une régression deyi , i=1,…,n sur une constante pour illustration (se généralise facilement aux estimateurs GLS généraux). Ici, {yi} est supposé être un échantillon aléatoire d'une population de moyenne μ et de variance σ2 .
Ensuite, nous savons que OLS est juste β = ˉ y , la moyenne de l' échantillon. Pour mettre l'accent sur le fait que chaque observation est pondérée avec le poids 1 / n , écrire ce que β = n Σ i = 1 1β^=y¯ 1/n β^=∑i=1n1nyi.
Il est bien connu queVar(β^)=σ2/n .
Maintenant, considérons un autre estimateur qui peut s'écrireβ~=∑i=1nwiyi,
où les poids sont tels que ∑iwi=1 . Cela garantit que l'estimateur est sans biais, car
E(∑i=1nwiyi)=∑i=1nwiE(yi)=∑i=1nwiμ=μ.
Sa variance dépassera celle de l'OLS à moins quewi=1/n pour touti (auquel cas elle se réduira bien sûr à l'OLS), ce qui peut par exemple être montré via un lagrangien:
Voici une illustration graphique d'une petite simulation, créée avec le code ci-dessous:
In log(s) : NaNs produced
Que les trois derniers soient surperformés par la solution OLS n'est pas immédiatement impliqué par la propriété BLUE (du moins pas pour moi), car il n'est pas évident s'ils sont des estimateurs linéaires (et je ne sais pas non plus si le MLE et Huber sont sans biais).
la source