Pourquoi la probabilité maximale et la probabilité non attendue?

22

Pourquoi est-il si courant d'obtenir des estimations du maximum de vraisemblance des paramètres, mais vous n'entendez pratiquement jamais parler des estimations des paramètres de vraisemblance attendues (c'est-à-dire basées sur la valeur attendue plutôt que sur le mode d'une fonction de vraisemblance)? Est-ce principalement pour des raisons historiques ou pour des raisons techniques ou théoriques plus substantielles?

Y aurait-il des avantages et / ou des inconvénients importants à utiliser des estimations de vraisemblance plutôt que des estimations de vraisemblance maximale?

Y a-t-il des domaines dans lesquels les estimations de probabilité attendues sont couramment utilisées?

Jake Westfall
la source
9
Valeur attendue par rapport à quelle distribution de probabilité? Le ML est généralement appliqué dans les analyses non bayésiennes où (a) les données sont données (et fixes) et (b) les paramètres sont traités comme des constantes (inconnues): il n'y a pas du tout de variables aléatoires.
whuber

Réponses:

15

La méthode proposée (après normalisation de la probabilité d'être une densité) équivaut à estimer les paramètres en utilisant un a priori plat pour tous les paramètres du modèle et en utilisant la moyenne de la distribution postérieure comme estimateur. Il y a des cas où l'utilisation d'un avant plat peut vous causer des ennuis parce que vous ne vous retrouvez pas avec une distribution postérieure appropriée, donc je ne sais pas comment vous pourriez rectifier cette situation ici.

Rester dans un contexte fréquentiste, cependant, la méthode n'a pas beaucoup de sens car la probabilité ne constitue pas une densité de probabilité dans la plupart des contextes et il n'y a plus rien d'aléatoire, donc prendre une attente n'a pas beaucoup de sens. Maintenant, nous pouvons simplement formaliser cela comme une opération que nous appliquons à la probabilité après coup d'obtenir une estimation, mais je ne sais pas à quoi ressembleraient les propriétés fréquentistes de cet estimateur (dans les cas où l'estimation existe réellement).

Avantages:

  • Cela peut fournir une estimation dans certains cas où le MLE n'existe pas réellement.
  • Si vous n'êtes pas têtu, cela peut vous déplacer dans un cadre bayésien (et ce serait probablement le moyen naturel de faire des déductions avec ce type d'estimation). Ok, donc selon votre point de vue, cela peut ne pas être un avantage - mais c'est pour moi.

Désavantages:

  • Cela n'est pas garanti non plus.
  • Si nous n'avons pas d'espace de paramètres convexe, l'estimation peut ne pas être une valeur valide pour le paramètre.
  • Le processus n'est pas invariant à la reparamétrie. Puisque le processus équivaut à mettre un aplat sur vos paramètres, cela fait une différence quels sont ces paramètres (parlons-nous d'utiliser comme paramètre ou utilisons-nous σ 2 )σσ2
Dason
la source
7
+1 Un problème énorme avec l'hypothèse d'une distribution uniforme des paramètres est que les problèmes de ML sont souvent reformulés en exploitant l'invariance de leurs solutions à la reparamétrie: cependant, cela changerait la distribution antérieure sur les paramètres. Ainsi, prendre une «attente» comme si les paramètres avaient une distribution uniforme est un artefact arbitraire et peut conduire à des résultats erronés et dénués de sens.
whuber
1
Bon point! J'allais le mentionner également, mais j'ai oublié de le mentionner en tapant le reste.
Dason
Pour mémoire, la probabilité maximale n'est pas non plus invariante à la reparamétrisation.
Neil G
1
@NeilG Oui, c'est ça? Peut-être que nous faisons référence à des idées différentes. Que voulez-vous dire quand vous dites cela?
Dason
p[0,1]α=β=2o[0,)α=β=2121314
12

L'une des raisons est que l'estimation du maximum de vraisemblance est plus facile: vous définissez la dérivée de la vraisemblance par rapport aux paramètres à zéro et résolvez les paramètres. Prendre une attente signifie intégrer les temps de vraisemblance de chaque paramètre.

{xi}μ=E(x)χ=E(x2)

Dans certains cas, le paramètre de vraisemblance maximale est le même que le paramètre de vraisemblance attendu. Par exemple, la moyenne de vraisemblance attendue de la distribution normale ci-dessus est la même que la vraisemblance maximale parce que l'a priori sur la moyenne est normal, et le mode et la moyenne d'une distribution normale coïncident. Bien sûr, cela ne sera pas vrai pour l'autre paramètre (quelle que soit la manière dont vous le paramétrez).

Je pense que la raison la plus importante est probablement pourquoi voulez-vous une attente des paramètres? Habituellement, vous apprenez un modèle et les valeurs des paramètres sont tout ce que vous voulez. Si vous souhaitez renvoyer une seule valeur, la probabilité maximale n'est-elle pas la meilleure que vous puissiez retourner?

Neil G
la source
6
En ce qui concerne votre dernière ligne: Peut-être - peut-être pas. Cela dépend de votre fonction de perte. Je viens de jouer avec l'idée de Jake et il semble que dans le cas de X ~ Unif (0, thêta), max (X) * (n-1) / (n-2), ce que donne la méthode de Jake, a une meilleure MSE que max (X) qui est le MLE (au moins les simulations l'impliquent lorsque n> = 5). Évidemment, l'exemple Unif (0, thêta) n'est pas typique, mais il montre qu'il existe d'autres méthodes plausibles pour obtenir des estimateurs.
Dason
4
@Dason Une technique fréquentiste standard (et puissante) pour trouver de bons estimateurs ( c'est -à- dire admissibles) consiste à calculer les estimateurs de Bayes pour divers a priori. (Voir, par exemple , le livre de Lehmann sur l'estimation ponctuelle.) Vous venez de retrouver un de ces estimateurs.
whuber
Merci pour ta réponse Neil! Vous dites que l'obtention des estimations de paramètres via la différenciation est plus facile que l'intégration, et je peux certainement voir comment cela serait vrai pour des problèmes simples (par exemple, le niveau du stylo et du papier ou pas trop loin au-delà). Mais pour des problèmes beaucoup plus compliqués où nous devons compter sur des méthodes numériques, ne serait-il pas en fait plus facile d'utiliser l'intégration? En pratique, trouver le MLE peut représenter un problème d'optimisation assez difficile. Une approximation numérique de l'intégrale ne pourrait-elle pas être plus facile à calculer? Ou est-ce peu probable que ce soit vrai dans la plupart des cas?
Jake Westfall
@JakeWestfall: Comment allez-vous prendre une attente sur l'espace des paramètres en utilisant des méthodes numériques? Dans un espace modèle compliqué avec un espace de paramètres énorme, vous ne pouvez pas intégrer sur le tout en évaluant la probabilité de chaque modèle (paramétrage). Vous allez généralement exécuter EM pour lequel l'estimation des paramètres se produit à l'étape M afin que chaque paramètre soit l'un des "problèmes simples" comme vous le dites, et pour lequel les paramètres de probabilité maximale sont des attentes directes de statistiques suffisantes.
Neil G
@NeilG Eh bien, Dason souligne que la méthode dont je parle est (après normalisation) équivalente à une estimation bayésienne avec un a priori plat puis en utilisant la moyenne postérieure comme estimation. Donc, en réponse à "Comment allez-vous prendre une attente sur l'espace des paramètres en utilisant des méthodes numériques?" Je suppose que je pensais que nous pourrions utiliser l'une de ces méthodes: bayesian-inference.com/numericalapproximation Avez -vous des réflexions à ce sujet?
Jake Westfall
2

Cette approche existe et elle est appelée estimateur de contraste minimum. L'exemple de papier connexe (et voir d'autres références de l'intérieur) https://arxiv.org/abs/0901.0655

Danila Doroshin
la source