Relation entre MLE et moindres carrés en cas de régression linéaire

9

Hastie et Tibshirani mentionnent dans la section 4.3.2 de leur livre que dans le cadre de la régression linéaire, l'approche des moindres carrés est en fait un cas spécial de maximum de vraisemblance. Comment prouver ce résultat?

PS: n'épargne aucun détail mathématique.

Pradnyesh Joshi
la source
2
Ce n'est pas un cas particulier: ils sont juste identiques lorsque la distribution des erreurs est normale.
Zhanxiong

Réponses:

13

Le modèle de régression linéaire

Y=Xβ+ϵ , oùϵN(0,Iσ2)

YRn , etXRn×pβRp

Notez que notre erreur de modèle (résiduelle) est . Notre objectif est de trouver un vecteur de qui minimise la norme carré de cette erreur.ϵ=YXββL2

Moindres carrés

Étant donné les données où chaque est de dimension , nous cherchons à trouver:(x1,y1),...,(xn,yn)xip

β^LS=argminβ||ϵ||2=argminβ||YXβ||2=argminβi=1n(yixiβ)2

Plausibilité maximum

En utilisant le modèle ci-dessus, nous pouvons configurer la probabilité des données en fonction des paramètres comme:β

L(Y|X,β)=i=1nf(yi|xi,β)

où est le pdf d'une distribution normale de moyenne 0 et de variance . Le brancher:f(yi|xi,β)σ2

L(Y|X,β)=i=1n12πσ2e(yixiβ)22σ2

Maintenant, généralement, lorsqu'il s'agit de probabilités, il est mathématiquement plus facile de prendre le journal avant de continuer (les produits deviennent des sommes, les exponentielles disparaissent), alors faisons-le.

logL(Y|X,β)=i=1nlog(12πσ2)(yixiβ)22σ2

Puisque nous voulons l'estimation du maximum de vraisemblance, nous voulons trouver le maximum de l'équation ci-dessus, par rapport à . Le premier terme n'a pas d'impact sur notre estimation de , nous pouvons donc l'ignorer:ββ

β^MLE=argmaxβi=1n(yixiβ)22σ2

Notez que le dénominateur est une constante par rapport à . Enfin, notez qu'il y a un signe négatif devant la somme. Donc, trouver le maximum d'un nombre négatif, c'est comme trouver le minimum sans le négatif. En d'autres termes:β

β^MLE=argminβi=1n(yixiβ)2=β^LS

Rappelons que pour que cela fonctionne, nous avons dû faire certaines hypothèses de modèle (normalité des termes d'erreur, 0 moyenne, variance constante). Cela rend les moindres carrés équivalents à MLE dans certaines conditions. Voir ici et ici pour plus de discussion.

Pour être complet, notez que la solution peut être écrite comme:

β=(XTX)1XTy
ilanman
la source