Pourquoi le MLE est-il logique, étant donné que la probabilité d'un échantillon individuel est de 0?

13

C'est une sorte de pensée étrange que j'ai eue en examinant certaines anciennes statistiques et pour une raison quelconque, je n'arrive pas à penser à la réponse.

Un PDF continu nous indique la densité des valeurs d'observation dans une plage donnée. À savoir, si XN(μ,σ2) , par exemple, alors la probabilité qu'une réalisation se situe entre a et b est simplement abϕ(x)dxϕ est la densité de la normale standard.

Lorsque nous pensons à faire une estimation MLE d'un paramètre, disons de μ , nous écrivons la densité conjointe de, disons N , variables aléatoires X1..XN et différencier la log-vraisemblance wrt à μ , mettre égal à 0 et résoudre pour μ . L'interprétation souvent donnée est «compte tenu des données, quel paramètre rend cette fonction de densité la plus plausible».

La partie qui me dérange est la suivante: nous avons une densité de N rv, et la probabilité que nous obtenions une réalisation particulière, disons notre échantillon, est exactement 0. Pourquoi est-il même logique de maximiser la densité conjointe compte tenu de nos données ( puisque encore une fois la probabilité d'observer notre échantillon réel est exactement 0)?

La seule rationalisation que je pourrais trouver est que nous voulons que le PDF soit le plus élevé possible autour de notre échantillon observé afin que l'intégrale dans la région (et donc la probabilité d'observer des choses dans cette région) soit la plus élevée.

Alex
la source
1
Pour la même raison, nous utilisons des densités de probabilité stats.stackexchange.com/q/4220/35989
Tim
Je comprends (je pense) pourquoi il est logique d'utiliser des densités. Ce que je ne comprends pas, c'est pourquoi il est logique de maximiser une densité conditionnelle à l'observation d'un échantillon qui a 0 probabilité de se produire.
Alex
2
Parce que les densités de probabilité nous indiquent quelles valeurs sont relativement plus probables que les autres.
Tim
Si vous avez le temps de répondre pleinement à la question, je pense que ce serait plus utile pour moi et pour la prochaine personne.
Alex
Parce que, heureusement, la probabilité n'est pas une probabilité!
AdamO

Réponses:

18

La probabilité de tout échantillon, Pθ(X=x) , est égale à zéro et pourtant un échantillon est réalisé en tirant d'une distribution de probabilité. La probabilité n'est donc pas le bon outil pour évaluer un échantillon et la probabilité qu'il se produise. La vraisemblance statistique, telle que définie par Fisher (1912), est basée sur l'argument limitatif de la probabilité d'observer l'échantillon x dans un intervalle de longueur δ lorsque δ passe à zéro (citant Aldrich, 1997) :

Aldrich, J. (1997) Statistical Science12, 162-176

lors de la renormalisation de cette probabilité par δ . Le terme de fonction de vraisemblance n'est introduit que dans Fisher (1921) et de maximum de vraisemblance dans Fisher (1922).

Bien qu'il passe sous la dénomination de `` valeur la plus probable '' et utilise un principe de probabilité inverse (inférence bayésienne) avec un a priori plat, Carl Friedrich Gauß avait déjà calculé en 1809 un estimateur du maximum de vraisemblance pour le paramètre de variance d'une distribution normale. Hald (1999) mentionne plusieurs autres occurrences d'estimateurs du maximum de vraisemblance avant l'article de Fisher de 1912, qui établit le principe général.

(x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
fθ

Xi'an
la source
Merci d'avoir répondu. Pourriez-vous développer un peu l'argument KL? Je ne vois pas comment c'est le cas immédiatement.
Alex