Pourquoi les méthodes de régression par moindres carrés et probabilité maximale ne sont-elles pas équivalentes alors que les erreurs ne sont pas normalement distribuées?

11

Le titre dit tout. Je comprends que les moindres carrés et le maximum de vraisemblance donneront le même résultat pour les coefficients de régression si les erreurs du modèle sont normalement distribuées. Mais que se passe-t-il si les erreurs ne sont pas normalement distribuées? Pourquoi les deux méthodes ne sont-elles plus équivalentes?

Shuklaswag
la source
Voulez-vous dire (a) en utilisant MLE lorsque l'hypothèse de normalité n'est pas remplie, ou (b) en utilisant la fonction de vraisemblance non gaussienne?
Tim
(a), lorsque l'hypothèse de normalité n'est pas remplie
Shuklaswag
Même lorsque l'hypothèse n'est pas remplie (c'est-à-dire que les valeurs observées ne sont pas distribuées gaussiennes) ... si vous calculez le MLE en utilisant la fonction de vraisemblance gaussienne, vous faites la même chose que l'optimisation des moindres carrés. Les méthodes d'optimisation sont mathématiquement équivalentes et indépendantes du fait que l'hypothèse de normalité était correcte ou non.
Sextus Empiricus
Même avec des distributions normales, les moindres carrés imposent une variance fixe.
CodesInChaos
Voir aussi cette question connexe: stats.stackexchange.com/questions/173621/…
kjetil b halvorsen

Réponses:

16

Réponse courte

La densité de probabilité d'une variable distribuée gaussienne multivariée , avec une moyenne est liée au carré de l'euclidienne distance entre la moyenne et la variable ( ), c'est-à-dire la somme des carrés.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


Longue réponse

Si vous multipliez plusieurs distributions gaussiennes pour vos erreurs, où vous supposez des écarts égaux, vous obtenez une somme de carrés.n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

ou sous la forme logarithmique pratique:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Donc, optimiser le pour minimiser la somme des carrés équivaut à maximiser la vraisemblance (log) (c'est-à-dire le produit de plusieurs distributions gaussiennes ou la distribution gaussienne multivariée).μ

C'est ce carré imbriqué de la différence intérieur de la structure exponentielle, , que les autres distributions n'ont pas.(μx)exp[(xiμ)2]


Comparer par exemple avec le cas des distributions de Poisson

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

qui a un maximum lorsque les éléments suivants sont minimisés:

μjlog(μj)xij

qui est une bête différente.


De plus (historique)

L'histoire de la distribution normale (en ignorant que deMoivre arrive à cette distribution comme approximation de la distribution binomiale) est en fait la découverte de la distribution qui fait que le MLE correspond à la méthode des moindres carrés (plutôt que la méthode des moindres carrés étant une méthode qui peut exprimer le MLE de la distribution normale, d'abord la méthode des moindres carrés, puis la distribution gaussienne)

Notez que Gauss, reliant la «méthode du maximum de vraisemblance» à la «méthode des moindres carrés», a abouti à la «distribution gaussienne», , comme la seule distribution des erreurs qui nous amène à faire ce lien entre les deux méthodes.ex2

De la traduction de Charles Henry Davis (Théorie du mouvement des corps célestes se déplaçant autour du soleil en sections coniques. Une traduction du "Theoria motus" de Gauss avec une annexe) ...

Gauss définit:

En conséquence, la probabilité à attribuer à chaque erreur sera exprimée par une fonction de que nous désignerons par .ΔΔψΔ

(Italisation faite par moi)

Et continue ( à l'article 177 pp. 258 ):

... d'où il est facilement déduit que doit être une quantité constante. que nous désignerons par . Nous avons donc désignant la base des logarithmes hyperboliques par et supposantψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

finir (après normalisation et réaliser ) dansk<0

ψΔ=hπehhΔΔ


Écrit par StackExchangeStrike

Sextus Empiricus
la source
Vous souvenez-vous d'où vous avez acquis ces connaissances? Pourriez-vous ajouter la source à votre message? (J'ai du mal à trouver un manuel qui explique bien cela.)
Joooeey
@Joooeey J'ai ajouté le titre de la source pour les citations traduites de Gauss ainsi qu'un lien vers l'une des nombreuses sources en ligne. Ce texte original est lourd, mais vous devriez rencontrer des traités plus légers dans toute description de l'histoire de la distribution normale.
Sextus Empiricus
Les fonctions de vraisemblance apparaissent dans de nombreux endroits. Si vous recherchez des sources où j'ai obtenu cette «connaissance», je suppose que je pourrais dire l'article de Pearson de 1900 sur le test du chi carré où la distribution normale multivariée est traitée géométriquement. Fisher a également utilisé plusieurs fois les représentations géométriques (il y a par exemple cet article des années 20, sur l'efficacité des estimations, où il compare l'erreur quadratique moyenne et l'erreur absolue moyenne et où il parle de surfaces dans un hyperespace).
Sextus Empiricus
@Joooeey J'ai déjà fait référence à cet article de Fisher ici . Et ma réponse ici utilise un point de vue géométrique pour dériver une propriété de la distribution t se rapporte également à Fisher (je crois que l'article où il prouve la distribution t de Gosset ou peut-être un article légèrement plus tard).
Sextus Empiricus
5

Parce que le MLE est dérivé de l'hypothèse de résiduel normalement distribué.

Notez que

minβ  Xβy2

N'a pas de signification probabiliste : il suffit de trouver la qui minimise la fonction de perte au carré. Tout est déterministe, et il n'y a pas de composants aléatoires là-dedans.β

Lorsque le concept de probabilité et de vraisemblance vient, nous supposons

y=Xβ+ϵ

Où nous considérons comme une variable aléatoire, et est normalement distribué.yϵ

Haitao Du
la source
@Matthew Drury pourquoi changer la notation matricielle et ajouter le signe de somme?
Haitao Du
J'ai pensé que ce serait clair, mais si vous prétendez qu'une déclaration n'a pas de signification probaliste, vous ne pouvez pas utiliser une expression avec des symboles qui sont mieux interprétés comme des variables aléatoires. Le problème d'optimisation auquel vous faites référence concerne les données fixes, je l'ai expliqué explicitement.
Matthew Drury
5

Les moindres carrés et l'ajustement de vraisemblance maximum (gaussien) sont toujours équivalents. Autrement dit, ils sont minimisés par le même ensemble de coefficients.

La modification de l'hypothèse sur les erreurs modifie votre fonction de vraisemblance (maximiser la probabilité d'un modèle équivaut à maximiser la probabilité du terme d'erreur), et donc la fonction ne sera plus minimisée par le même ensemble de coefficients.

Donc, en pratique, les deux sont les mêmes, mais en théorie, lorsque vous maximisez une probabilité différente, vous obtiendrez une réponse différente de celle des moindres carrés

Sam
la source
"ou toujours équivalent"?
nbro
0

Un exemple concret: Supposons que nous prenons une fonction d'erreur simple p (1) =. 9, p (-9) = .10. Si nous prenons deux points, LS va juste prendre la ligne à travers eux. ML, d'autre part, va supposer que les deux points sont une unité trop haute, et prendra donc la ligne à travers les points décalés vers le bas sur l'unité.

Accumulation
la source
2
Votre exemple n'est pas clair; en particulier, il est difficile de voir quel modèle vous essayez de décrire ou pourquoi ML produirait le résultat que vous prétendez. Pourriez-vous développer davantage cette réponse?
whuber
Le modèle est que y = mx + b + erreur, où l'erreur a 90% de chance d'être +1 et 10% de chance d'être -9. Étant donné tout point observé, le vrai point a une probabilité de 90% d'être une unité en dessous et une probabilité de 10% d'être neuf unités au-dessus. Par conséquent, ML indique que le vrai point est inférieur d'une unité. Qu'est-ce que tu ne comprends pas?
Acccumulation
2
Votre commentaire est utile, mais votre réponse ne décrit toujours pas le modèle de manière claire ou compréhensible. Pourriez-vous incorporer cette explication dans la réponse elle-même? C'est un bel exemple.
whuber