Hastie et Tibshirani mentionnent dans la section 4.3.2 de leur livre que dans le cadre de la régression linéaire, l'approche des moindres carrés est en fait un cas spécial de maximum de vraisemblance. Comment prouver ce résultat?
PS: n'épargne aucun détail mathématique.
regression
maximum-likelihood
least-squares
Pradnyesh Joshi
la source
la source
Réponses:
Le modèle de régression linéaire
Notez que notre erreur de modèle (résiduelle) est . Notre objectif est de trouver un vecteur de qui minimise la norme carré de cette erreur.ϵ = Y - X β β L2
Moindres carrés
Étant donné les données où chaque est de dimension , nous cherchons à trouver:(x1,y1),...,(xn,yn) xi p
Plausibilité maximum
En utilisant le modèle ci-dessus, nous pouvons configurer la probabilité des données en fonction des paramètres comme:β
où est le pdf d'une distribution normale de moyenne 0 et de variance . Le brancher:f(yi|xi,β) σ2
Maintenant, généralement, lorsqu'il s'agit de probabilités, il est mathématiquement plus facile de prendre le journal avant de continuer (les produits deviennent des sommes, les exponentielles disparaissent), alors faisons-le.
Puisque nous voulons l'estimation du maximum de vraisemblance, nous voulons trouver le maximum de l'équation ci-dessus, par rapport à . Le premier terme n'a pas d'impact sur notre estimation de , nous pouvons donc l'ignorer:β β
Notez que le dénominateur est une constante par rapport à . Enfin, notez qu'il y a un signe négatif devant la somme. Donc, trouver le maximum d'un nombre négatif, c'est comme trouver le minimum sans le négatif. En d'autres termes:β
Rappelons que pour que cela fonctionne, nous avons dû faire certaines hypothèses de modèle (normalité des termes d'erreur, 0 moyenne, variance constante). Cela rend les moindres carrés équivalents à MLE dans certaines conditions. Voir ici et ici pour plus de discussion.
Pour être complet, notez que la solution peut être écrite comme:
la source