Le titre dit tout. Je comprends que les moindres carrés et le maximum de vraisemblance donneront le même résultat pour les coefficients de régression si les erreurs du modèle sont normalement distribuées. Mais que se passe-t-il si les erreurs ne sont pas normalement distribuées? Pourquoi les deux méthodes ne sont-elles plus équivalentes?
11
Réponses:
Réponse courte
La densité de probabilité d'une variable distribuée gaussienne multivariée , avec une moyenne est liée au carré de l'euclidienne distance entre la moyenne et la variable ( ), c'est-à-dire la somme des carrés.x=(x1,x2,...,xn) μ=(μ1,μ2,...,μn) |μ−x|22
Longue réponse
Si vous multipliez plusieurs distributions gaussiennes pour vos erreurs, où vous supposez des écarts égaux, vous obtenez une somme de carrés.n
ou sous la forme logarithmique pratique:
Donc, optimiser le pour minimiser la somme des carrés équivaut à maximiser la vraisemblance (log) (c'est-à-dire le produit de plusieurs distributions gaussiennes ou la distribution gaussienne multivariée).μ
C'est ce carré imbriqué de la différence intérieur de la structure exponentielle, , que les autres distributions n'ont pas.(μ−x) exp[(xi−μ)2]
Comparer par exemple avec le cas des distributions de Poisson
qui a un maximum lorsque les éléments suivants sont minimisés:
qui est une bête différente.
De plus (historique)
L'histoire de la distribution normale (en ignorant que deMoivre arrive à cette distribution comme approximation de la distribution binomiale) est en fait la découverte de la distribution qui fait que le MLE correspond à la méthode des moindres carrés (plutôt que la méthode des moindres carrés étant une méthode qui peut exprimer le MLE de la distribution normale, d'abord la méthode des moindres carrés, puis la distribution gaussienne)
Notez que Gauss, reliant la «méthode du maximum de vraisemblance» à la «méthode des moindres carrés», a abouti à la «distribution gaussienne», , comme la seule distribution des erreurs qui nous amène à faire ce lien entre les deux méthodes.e−x2
De la traduction de Charles Henry Davis (Théorie du mouvement des corps célestes se déplaçant autour du soleil en sections coniques. Une traduction du "Theoria motus" de Gauss avec une annexe) ...
Gauss définit:
Et continue ( à l'article 177 pp. 258 ):
finir (après normalisation et réaliser ) dansk<0
Écrit par StackExchangeStrike
la source
Parce que le MLE est dérivé de l'hypothèse de résiduel normalement distribué.
Notez que
N'a pas de signification probabiliste : il suffit de trouver la qui minimise la fonction de perte au carré. Tout est déterministe, et il n'y a pas de composants aléatoires là-dedans.β
Lorsque le concept de probabilité et de vraisemblance vient, nous supposons
Où nous considérons comme une variable aléatoire, et est normalement distribué.y ϵ
la source
Les moindres carrés et l'ajustement de vraisemblance maximum (gaussien) sont toujours équivalents. Autrement dit, ils sont minimisés par le même ensemble de coefficients.
La modification de l'hypothèse sur les erreurs modifie votre fonction de vraisemblance (maximiser la probabilité d'un modèle équivaut à maximiser la probabilité du terme d'erreur), et donc la fonction ne sera plus minimisée par le même ensemble de coefficients.
Donc, en pratique, les deux sont les mêmes, mais en théorie, lorsque vous maximisez une probabilité différente, vous obtiendrez une réponse différente de celle des moindres carrés
la source
Un exemple concret: Supposons que nous prenons une fonction d'erreur simple p (1) =. 9, p (-9) = .10. Si nous prenons deux points, LS va juste prendre la ligne à travers eux. ML, d'autre part, va supposer que les deux points sont une unité trop haute, et prendra donc la ligne à travers les points décalés vers le bas sur l'unité.
la source