Relation entre MLE et moindres carrés en cas de régression linéaire

Le modèle de régression linéaire

$Y = X\beta + \epsilon$ , où $\epsilon \sim N(0,I\sigma^2)$

$Y \in \mathbb{R}^{n}$ , et $X \in \mathbb{R}^{n \times p}$ $\beta \in \mathbb{R}^{p}$

Notez que notre erreur de modèle (résiduelle) est . Notre objectif est de trouver un vecteur de qui minimise la norme carré de cette erreur. ${\bf \epsilon = Y - X\beta}$ $\beta$ $L_2$

Moindres carrés

Étant donné les données où chaque est de dimension , nous cherchons à trouver: $(x_1,y_1),...,(x_n,y_n)$ $x_{i}$ $p$

{\hat{β}}_{L S} = \underset{β}{argmin} | | ϵ | |^{2} = \underset{β}{argmin} | | Y - X β | |^{2} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2}

$\widehat{\beta}_{LS} = {\underset \beta {\text{argmin}}} ||{\bf \epsilon}||^2 = {\underset \beta {\text{argmin}}} ||{\bf Y - X\beta}||^2 = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} ( y_i - x_{i}\beta)^2$

Plausibilité maximum

En utilisant le modèle ci-dessus, nous pouvons configurer la probabilité des données en fonction des paramètres comme: $\beta$

L (Y | X, β) = \prod_{i = 1}^{n} f (y_{i} | x_{i}, β)

$L(Y|X,\beta) = \prod_{i=1}^{n} f(y_i|x_i,\beta)$

où est le pdf d'une distribution normale de moyenne 0 et de variance . Le brancher: $f(y_i|x_i,\beta)$ $\sigma^2$

L (Y | X, β) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}}

$L(Y|X,\beta) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y_i - x_i\beta)^2}{2\sigma^2}}$

Maintenant, généralement, lorsqu'il s'agit de probabilités, il est mathématiquement plus facile de prendre le journal avant de continuer (les produits deviennent des sommes, les exponentielles disparaissent), alors faisons-le.

\log L (Y | X, β) = \sum_{i = 1}^{n} \log (\frac{1}{\sqrt{2 π σ^{2}}}) - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\log L(Y|X,\beta) = \sum_{i=1}^{n} \log(\frac{1}{\sqrt{2\pi\sigma^2}}) -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Puisque nous voulons l'estimation du maximum de vraisemblance, nous voulons trouver le maximum de l'équation ci-dessus, par rapport à . Le premier terme n'a pas d'impact sur notre estimation de , nous pouvons donc l'ignorer: $\beta$ $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmax} \sum_{i = 1}^{n} - \frac{(y_{i} - x_{i} β)^{2}}{2 σ^{2}}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmax}}} \sum_{i=1}^{n} -\frac{(y_i - x_i\beta)^2}{2\sigma^2}$

Notez que le dénominateur est une constante par rapport à . Enfin, notez qu'il y a un signe négatif devant la somme. Donc, trouver le maximum d'un nombre négatif, c'est comme trouver le minimum sans le négatif. En d'autres termes: $\beta$

{\hat{β}}_{M L E} = \underset{β}{argmin} \sum_{i = 1}^{n} (y_{i} - x_{i} β)^{2} = {\hat{β}}_{L S}

$\widehat{\beta}_{MLE} = {\underset \beta {\text{argmin}}} \sum_{i=1}^{n} (y_i - x_i\beta)^2 = \widehat{\beta}_{LS}$

Rappelons que pour que cela fonctionne, nous avons dû faire certaines hypothèses de modèle (normalité des termes d'erreur, 0 moyenne, variance constante). Cela rend les moindres carrés équivalents à MLE dans certaines conditions. Voir ici et ici pour plus de discussion.

Pour être complet, notez que la solution peut être écrite comme:

β = (X^{T} X)^{- 1} X^{T} y

${\bf \beta = (X^TX)^{-1}X^Ty}$

ilanman
la source

Relation entre MLE et moindres carrés en cas de régression linéaire

Réponses: