Régression linéaire: toute distribution non normale donnant l'identité de l'OLS et du MLE?

13

Cette question est inspirée de la longue discussion dans les commentaires ici: Comment la régression linéaire utilise-t-elle la distribution normale?

Dans le modèle de régression linéaire habituel, pour plus de simplicité, écrit ici avec un seul prédicteur: où les sont des constantes connues et sont des termes d'erreur indépendants de moyenne nulle. Si nous supposons en outre des distributions normales pour les erreurs, alors les estimateurs des moindres carrés habituels et les estimateurs du maximum de vraisemblance de sont identiques.

Y_{i} = β_{0} + β_{1} x_{i} + ϵ_{i}

$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i$

x_{i}

$x_i$

ϵ_{i}

$\epsilon_i$

β_{0}, β_{1}

$\beta_0, \beta_1$

Donc ma question facile: existe-t-il une autre distribution pour les termes d'erreur telle que les mle soient identiques à l'estimateur des moindres carrés ordinaires? La première implication est facile à montrer, l'autre pas.

regression normal-distribution mathematical-statistics maximum-likelihood least-squares kjetil b halvorsen
la source

1

(+1) Il faudrait que ce soit une distribution centrée autour de zéro, et il semblerait que cela aiderait si elle était symétrique. Certains candidats qui me viennent à l'esprit, comme la distribution t- ou Laplace, ne semblent pas faire l'affaire car le MLE est, même dans le seul cas constant, non disponible sous forme fermée ou donnée par la médiane, respectivement.

Christoph Hanck

voir aussi stats.stackexchange.com/questions/99014/… , il semble qu'il n'y ait que peu de choses à trouver

Christoph Hanck

Je suis sûr que la réponse est non. Il peut cependant être difficile d'écrire une preuve rigoureuse.

Gordon Smyth

11

Dans l'estimation du maximum de vraisemblance, nous calculons

{\hat{β}}_{M L} : \sum \frac{\partial \ln f (ϵ_{i})}{\partial β} = 0 ⟹ \sum \frac{f^{'} (ϵ_{i})}{f (ϵ_{i})} x_{i} = 0

$\hat \beta_{ML}: \sum \frac {\partial \ln f(\epsilon_i)}{\partial \beta} = \mathbf 0 \implies \sum \frac {f'(\epsilon_i)}{f(\epsilon_i)}\mathbf x_i = \mathbf 0$

la dernière relation prenant en compte la structure de linéarité de l'équation de régression.

En comparaison, l'estimateur OLS satisfait

\sum ϵ_{i} x_{i} = 0

$\sum \epsilon_i\mathbf x_i = \mathbf 0$

Afin d'obtenir des expressions algébriques identiques pour les coefficients de pente, nous devons avoir une densité pour le terme d'erreur telle que

\frac{f^{'} (ϵ_{i})}{f (ϵ_{i})} = \pm c ϵ_{i} ⟹ f^{'} (ϵ_{i}) = \pm c ϵ_{i} f (ϵ_{i})

$\frac {f'(\epsilon_i)}{f(\epsilon_i)} = \pm \;c\epsilon_i \implies f'(\epsilon_i)= \pm \;c\epsilon_if(\epsilon_i)$

Ce sont des équations différentielles de la forme qui ont des solutions $y' = \pm\; xy$

\int \frac{1}{y} d y = \pm \int x d x ⟹ \ln y = \pm \frac{1}{2} x^{2}

$\int \frac 1 {y}dy = \pm \int x dx\implies \ln y = \pm\;\frac 12 x^2$

⟹ y = f (ϵ) = \exp {\pm \frac{1}{2} c ϵ^{2}}

$\implies y = f(\epsilon) = \exp\left \{\pm\;\frac 12 c\epsilon^2\right\}$

Toute fonction qui possède ce noyau et s'intègre à l'unité sur un domaine approprié, rendra identiques le MLE et l'OLS pour les coefficients de pente. A savoir que nous recherchons

g (x) = A \exp {\pm \frac{1}{2} c x^{2}} : \int_{a}^{b} g (x) d x = 1

$g(x)= A\exp\left \{\pm\;\frac 12 cx^2\right\} : \int_a^b g(x)dx =1$

Y a-t-il un tel qui n'est pas la densité normale (ou la demi-normale ou la dérivée de la fonction d'erreur)? $g$

Certainement. Mais une autre chose à considérer est la suivante: si on utilise le signe plus dans l'exposant, et un support symétrique autour de zéro par exemple, on obtiendra une densité qui a un minimum unique au milieu, et deux maxima locaux à les limites du support.

Alecos Papadopoulos
la source

Excellente réponse (+1), mais si l'on utilise un signe plus dans la fonction, est-ce même une densité? Il semblerait alors que la fonction a une intégrale infinie et ne peut donc pas être normalisée à une fonction de densité. Si tel est le cas, il ne nous reste que la distribution normale.

Rétablir Monica

1

@Ben Merci. Il semble que vous supposiez implicitement que la plage de la variable aléatoire sera l'infini plus / moins. Mais nous pouvons définir un rv à plage dans un intervalle borné, auquel cas nous pouvons très bien utiliser le signe plus. C'est pourquoi dans mes expressions j'ai utilisé comme limites d'intégration

.

(a, b)

$(a,b)$

Alecos Papadopoulos

C'est vrai - je supposais cela.

Rétablir Monica

5

\arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}

$\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2$

f (y | x, β_{0}, β_{1})

$f(y|x,\beta_0,\beta_1)$

\arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} \log {f (y_{i} | x_{i}, β_{0}, β_{1})} = \arg_{β_{0}, β_{1}} min \sum_{i = 1}^{n} (y_{i} - β_{0} - β_{1} x_{i})^{2}

$\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n \log\{f(y_i|x_i,\beta_0,\beta_1)\}=\arg_{\beta_0,\beta_1}\min\sum_{i=1}^n (y_i-\beta_0-\beta_1x_i)^2$

f (y | x, β_{0}, β_{1}) = f_{0} (y | x) \exp {- ω (y_{i} - β_{0} - β_{1} x_{i})^{2}}

$f(y|x,\beta_0,\beta_1)=f_0(y|x)\exp\{-\omega(y_i-\beta_0-\beta_1x_i)^2\}$

f_{0} (y | x)

$f_0(y|x)$

(β_{0}, β_{1})

$(\beta_0,\beta_1)$

$\mathbf{y}$

h (| | y - X β | |)

$h(||\mathbf{y}-\mathbf{X}\beta||)$

h (\cdot)

$h(\cdot)$

ϵ_{i}

$\epsilon_i$

Xi'an
la source

1

Cela ne me semble pas correct. Si vous utilisez une distribution sphérique symétrique différente, cela ne conduirait-il pas à la minimisation d'une fonction de la norme différente de celle du carré (ce qui n'est donc pas une estimation des moindres carrés)?

Rétablir Monica

1

Je ne savais pas à propos de cette question jusqu'à ce que @ Xi'an vient de mettre à jour avec une réponse. Il existe une solution plus générique. Les distributions de familles exponentielles avec certains paramètres fixaient les divergences de Bregman. Pour de telles distributions, la moyenne est le minimiseur. Le minimiseur OLS est également la moyenne. Par conséquent, pour toutes ces distributions, elles devraient coïncider lorsque la fonction linéaire est liée au paramètre moyen.

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.75.6958&rep=rep1&type=pdf

Cagdas Ozgenc
la source

Régression linéaire: toute distribution non normale donnant l'identité de l'OLS et du MLE?

Réponses: