Équivalence entre les moindres carrés et MLE dans le modèle gaussien

26

Je suis nouveau dans le Machine Learning et j'essaie de l'apprendre par moi-même. Récemment, je lisais quelques notes de cours et j'avais une question de base.

La diapositive 13 indique que "l'estimation du moindre carré est identique à l'estimation du maximum de vraisemblance dans un modèle gaussien". Il semble que ce soit quelque chose de simple, mais je ne peux pas voir cela. Quelqu'un peut-il expliquer ce qui se passe ici? Je suis intéressé à voir les mathématiques.

J'essaierai plus tard de voir également le point de vue probabiliste de la régression Ridge et Lasso, donc s'il y a des suggestions qui m'aideront, cela sera très apprécié également.

Andy
la source
4
La fonction objectif au bas de p. 13 est juste un multiple constant ( ) de la fonction objectif au bas de p. 10. MLE minimise les premiers tandis que les moindres carrés minimisent les seconds, QED. n
whuber
@whuber: Merci pour votre réponse. Eh bien, ce que je voulais savoir, c'est comment se fait-il que MLE fasse la minimisation.
Andy
Voulez-vous dire la mécanique ou conceptuellement?
whuber
@whuber: Les deux! Si je pouvais voir ces mathématiques, cela aiderait aussi.
Andy
1
Le lien est rompu; L'absence d'une référence complète et de plus de contexte pour la citation rend difficile la suppression de la référence ou la recherche d'une autre source pour celle-ci. La diapositive 13 de ce lien est-elle suffisante? --- cs.cmu.edu/~epxing/Class/10701-10s/recitation/recitation3.pdf
Glen_b -Reinstate Monica

Réponses:

29

Dans le modèle

Oui=Xβ+ϵ

où , la probabilité logicielle de pour un échantillon de sujets est (jusqu'à une constante additive)ϵN(0,σ2)Oui|Xn

-n2bûche(σ2)-12σ2je=1n(yje-Xjeβ)2

vu en fonction de seulement , le maximiseur est exactement ce qui minimiseβ

je=1n(yje-Xjeβ)2

cela rend-il l'équivalence claire?

Macro
la source
C'est précisément ce qui se trouve dans les diapositives mentionnées dans le PO
whuber
3
Oui, je vois cela, mais ils n'écrivent pas réellement la log-vraisemblance gaussienne à la page 13, ce qui, après cela, rend évident que son argmax est le même que l'argmin des critères OLS, j'ai donc pensé que c'était un ajout utile.
Macro
bon point: la diapositive est un peu sommaire avec les détails.
whuber
7
Vous avez appris que, si vous savez que les erreurs sont normalement réparties autour de la droite de régression, l'estimateur des moindres carrés est "optimal" dans un certain sens, à l'exception de décider arbitrairement que les "moindres carrés" sont les meilleurs. Concernant la régression des crêtes, cette solution est équivalente (si vous êtes bayésien) à l'estimateur des moindres carrés lorsqu'un a priori gaussien est placé sur les . Dans un monde fréquentiste, cela équivaut à moindres carrés pénalisés. Les coefficients de régression logistique ne sont pas la solution à un problème des moindres carrés, ce qui ne serait pas analogue. βL2
Macro
1
La constante additive estn/2 log(2 *pi)
SmallChess