Utilisons-nous jamais une estimation du maximum de vraisemblance?

14

Je me demande si l'estimation du maximum de vraisemblance n'a jamais été utilisée dans les statistiques. Nous en apprenons le concept mais je me demande quand il est réellement utilisé. Si nous supposons la distribution des données, nous trouvons deux paramètres, un pour la moyenne et un pour la variance, mais l'utilisez-vous réellement dans des situations réelles?

Quelqu'un peut-il me dire un cas simple dans lequel il est utilisé?

estimation maximum-likelihood user122358
la source

33

C'est

méthode d'estimation

plus répandue.

the

$\textit{the}$

JohnK

3

J'essayais de demander quand n'utilisons-nous pas MLE

Haitao Du

4

régression logistique. Régression de Poisson. OLS est le MLE lorsque les erreurs sont supposées normales. Régression gamma. Tout GLM classique vraiment. Estimation de la moyenne à partir d'une population normale. Estimation de la probabilité de réussite à partir d'une série d'essais binomiaux. Estimation du taux d'événement poisson. Je pourrais continuer ...

GoF_Logistic

4

Cette recherche très étroite de notre site produit des centaines d'exemples d'utilisations réelles.

whuber

6

@ hxd1011 Vous n'utilisez pas MLE lorsque vous n'utilisez pas ses méthodes pour obtenir des variances d'estimations ou pour calculer des intervalles de confiance, de prédiction ou de tolérance, par exemple, même lorsque l'estimateur que vous utilisez peut arriver à être d'accord avec l'estimateur MLE. Par exemple, vous n'utilisez pas MLE lorsque vous exécutez un test t. Vous ne l'utilisez souvent pas lorsque vous appliquez des estimateurs non biaisés. D'un point de vue philosophique, vous n'utiliseriez pas MLE lorsque vous vous souciez d'une fonction de perte ou si vous avez une distribution antérieure.

whuber

25

Je me demande si l'estimation du maximum de vraisemblance n'a jamais été utilisée dans les statistiques.

Certainement! En fait, beaucoup - mais pas toujours.

Nous en apprenons le concept mais je me demande quand il est réellement utilisé.

Lorsque les gens ont un modèle de distribution paramétrique, ils choisissent assez souvent d'utiliser l'estimation du maximum de vraisemblance. Lorsque le modèle est correct, il existe un certain nombre de propriétés pratiques des estimateurs du maximum de vraisemblance.

Par exemple - l'utilisation de modèles linéaires généralisés est assez répandue et dans ce cas, les paramètres décrivant la moyenne sont estimés par maximum de vraisemblance.

Il peut arriver que certains paramètres soient estimés par maximum de vraisemblance et d'autres non. Par exemple, considérons un GLM de Poisson sur-dispersé - le paramètre de dispersion ne sera pas estimé par maximum de vraisemblance, car le MLE n'est pas utile dans ce cas.

Si nous supposons la distribution des données, nous trouvons deux paramètres

Eh bien, parfois vous pouvez en avoir deux, mais parfois vous avez un paramètre, parfois trois ou quatre ou plus.

un pour la moyenne et un pour la variance,

Pensez-vous à un modèle particulier peut-être? Ce n'est pas toujours le cas. Envisagez d'estimer le paramètre d'une distribution exponentielle ou d'une distribution de Poisson ou d'une distribution binomiale. Dans chacun de ces cas, il y a un paramètre et la variance est fonction du paramètre qui décrit la moyenne.

Ou considérons une distribution gamma généralisée , qui a trois paramètres. Ou une distribution bêta à quatre paramètres , qui a (peut-être sans surprise) quatre paramètres. Notez également que (selon la paramétrisation particulière) la moyenne ou la variance ou les deux peuvent ne pas être représentés par un seul paramètre mais par les fonctions de plusieurs d'entre eux.

Par exemple, la distribution gamma, pour laquelle il existe trois paramétrisations dont l'utilisation est assez courante - les deux plus courantes ont à la fois la moyenne et la variance en fonction de deux paramètres.

Typiquement dans un modèle de régression ou un GLM, ou un modèle de survie (parmi de nombreux autres types de modèles), le modèle peut dépendre de plusieurs prédicteurs, auquel cas la distribution associée à chaque observation sous le modèle peut avoir un de ses propres paramètres (ou même plusieurs paramètres) qui sont liés à de nombreuses variables prédictives ("variables indépendantes").

Glen_b -Reinstate Monica
la source

5

"Quand les gens ont un modèle de distribution paramétrique." N'oubliez pas l'estimation du maximum de vraisemblance non paramétrique, pour inclure la vraisemblance empirique.

Mark L. Stone

3

@Mark Relativement plus rare, cependant. J'ajouterai un mot à ma réponse.

Glen_b -Reinstate Monica

Pouvons-nous utiliser l'estimation du maximum de vraisemblance même si nous supposons que la distribution, par exemple, est normale? Je pense que nous n'en avons pas besoin mais nous pouvons toujours l'utiliser, ai-je raison?

user122358

@ user122358 Glen et Mark vous ont déjà répondu. Vous pouvez assumer une distribution ou non. La plupart du temps, vous supposez une fonction de distribution et donc de vraisemblance.

HelloWorld

3

"Quand les gens ont un modèle de distribution paramétrique." N'oubliez pas l'estimation du maximum de vraisemblance semi-paramétrique, pour inclure la vraisemblance partielle. ;)

Scortchi - Réintégrer Monica

8

Bien que les estimateurs de maximisation de vraisemblance puissent sembler suspects étant donné les hypothèses sur la distribution des données, des estimateurs de quasi-maximum de vraisemblance sont souvent utilisés. L'idée est de commencer par supposer une distribution et de résoudre le MLE, puis de supprimer l'hypothèse de distribution explicite et de regarder plutôt les performances de votre estimateur dans des conditions plus générales. Ainsi, le quasi-MLE devient simplement un moyen intelligent d'obtenir un estimateur, et l'essentiel du travail dérive ensuite des propriétés de l'estimateur. Étant donné que les hypothèses de distribution sont supprimées, le quasi MLE n'a généralement pas les bonnes propriétés d'efficacité.

$x_1, x_2, ..., x_n$ $X$ $X \sim N (\mu, \sigma^2)$ $\hat\sigma^2 = n^{-1}\sum (x_i - \bar x)^2$ $\hat\sigma^2$ un estimateur cohérent, est-il non biaisé (ce n'est pas le cas), est-il racine n cohérent, quelle est sa distribution asypmotique, etc.

Igor
la source

En outre, vous pouvez vérifier ce fil sur l'intuition derrière le Quasi MLE.

Richard Hardy

5

L'estimation du maximum de vraisemblance est souvent utilisée dans l'apprentissage automatique pour entraîner:

réseaux de neurones, p.ex. Pouvons-nous utiliser le MLE pour estimer les poids des réseaux de neurones?
régression logistique linéaire, régression logistique multiclasse, par exemple Pourquoi les coefficients de régression linéaire et logistique ne peuvent pas être estimés en utilisant la même méthode?
champ aléatoire conditionnel (CRF), par exemple https://www.coursera.org/learn/probabilistic-graphical-models-3-learning/lecture/oKJ1x/maximum-likelihood-for-conditional-random-fields
modèle de Markov caché (HMM), par exemple https://en.wikipedia.org/w/index.php?title=Hidden_Markov_model&oldid=768811108#Learning

Notez que dans certains cas, on préfère ajouter une certaine régularisation, qui est parfois équivalente à l' estimation Maximum a posteriori , par exemple Pourquoi la pénalité de Lasso est-elle équivalente à la double exponentielle (Laplace) antérieure? .

Franck Dernoncourt
la source

3

Quelqu'un peut-il me dire un cas simple dans lequel il est utilisé?

Un cas très typique est celui de la régression logistique. La régression logistique est une technique souvent utilisée en apprentissage automatique pour classer les points de données. Par exemple, la régression logistique peut être utilisée pour classer si un e-mail est du spam ou non, ou classer si une personne a ou non une maladie.

$x_i$ $h_\theta(x_i) = P[y_i = 1] = \frac{1}{1+e^{-\theta^T x_i}}$

$\theta$ est généralement estimé à l'aide de MLE.

$\hat\theta$ $-\sum_{i=1}^n y_i\log(h_\hat\theta(x_i)) + (1-y_i)\log(1-h_{\hat\theta}(x_i))$ est minimisé. Cette expression est la probabilité logarithmique négative, donc la minimiser équivaut à maximiser la vraisemblance.

user35734
la source

1

Nous utilisons MLE tout le temps, mais nous ne le ressentons peut-être pas. Je vais donner deux exemples simples à montrer.

Exemple 1

Si nous observons le résultat du retournement de pièce, avec $8$ sortir de $10$ flips (en supposant iid. de Bernoulli), comment deviner le paramètre $\theta$ (prob de tête) de la pièce? Nous pouvons dire $\theta=0.8$ , en utilisant "comptage".

Pourquoi utiliser le comptage? c'est en fait implicitement utiliser MLE! Où est le problème

\underset{θ}{Maximiser} θ^{8} (1 - θ)^{2}

$\underset \theta {\text{Maximize}}~~~\theta^{8}(1-\theta)^{2}$

Pour résoudre l'équation, nous aurons besoin d'un peu de calcul, mais la conclusion compte.

Exemple 2

Comment estimerions-nous les paramètres de distribution gaussienne à partir des données? Nous utilisons la moyenne empirique comme moyenne estimée et la variance empirique comme variance estimée, qui provient également de MLE !.

Haitao Du
la source

6

L'exemple 1 est également une solution de Bayes et une solution de méthode des moments (MM) (et c'est probablement la solution utilisant d'autres procédures également). L'exemple 2 est la solution MM. Il serait beaucoup plus convaincant d'exposer des procédures qui sont exclusivement MLE - sinon, on n'aurait jamais besoin de MLE.

whuber

Pourquoi l'exemple 1 devient une solution Bayes et l'exemple 2 devient la solution MM? Qu'est-ce que MM, au fait?

user122358

@ user122358 MM est la méthode des moments. Voir ici, par exemple: en.wikipedia.org/wiki/Method_of_moments_(statistics)

juillet

0

Quelques utilisations maximales de vraisemblance en communication sans fil:

Décodage de données numériques à partir de signaux reçus bruyants, avec ou sans codes redondants.
Estimation des décalages de temps, de phase et de fréquence dans les récepteurs.
Estimation des (paramètres du) canal de propagation.
Estimation du retard, de l'angle d'arrivée et du décalage Doppler (p. Ex. Radar).
Estimation d'une position mobile (par exemple, GPS).
Estimation des décalages d'horloge pour la synchronisation de toutes sortes de paramètres distribués.
Une multitude de procédures d'étalonnage.

GDumphart
la source

Utilisons-nous jamais une estimation du maximum de vraisemblance?

Réponses: