Quand la probabilité maximale fonctionne-t-elle et quand elle ne fonctionne pas?

Je suis confus quant à la méthode du maximum de vraisemblance par rapport, par exemple, au calcul de la moyenne arithmétique.

Quand et pourquoi la probabilité maximale produit-elle de "meilleures" estimations que, par exemple, la moyenne arithmétique? Comment est-ce vérifiable?

maximum-likelihood mavavilj
la source

+1 C'est une bonne question à poser à toute procédure statistique.

whuber

Je ne pense pas que cette question soit trop floue. Certes, le PO n'est pas clair, mais c'est pourquoi ils demandent. Les questions concernant la nature du MLE et les moyens arithmétiques devraient être clarifiées avec une bonne réponse.

gung - Rétablir Monica

Qu'entendez-vous par «mieux»? Et pourquoi la moyenne arithmétique serait-elle un bon estimateur d'un paramètre arbitraire?

Xi'an

On ne peut répondre à la question sans fixer d’abord une définition de «mieux», c’est-à-dire d’une fonction de perte ou d’un autre critère permettant de comparer les estimateurs. Par exemple, le MLE est efficace, ce qui signifie qu'il n'y a pas d'estimateur avec une variance asymptotique plus petite (dans certaines conditions de régularité). Et par exemple, le MLE peut être inadmissible comme le démontre l'effet Stein , ce qui signifie qu'il existe des estimateurs avec un risque quadratique plus faible pour toutes les valeurs du paramètre sous certaines contraintes sur la distribution de l'échantillon et la dimension du paramètre.

Xi'an

@ Xi'an Cela ressemble à la base d'une réponse.

whuber

Réponses:

Alors que la moyenne arithmétique peut sembler être l'estimateur "naturel", on pourrait se demander pourquoi elle devrait être préférée à la MLE! La seule propriété sûre associée à la moyenne arithmétique est qu'il s'agit d'un estimateur non biaisé de lorsque cette espérance est définie. (Considérez la distribution de Cauchy comme un contre-exemple.) La dernière jouit en effet d'un large éventail de propriétés dans des conditions de régularité sur la fonction de vraisemblance. Pour emprunter à la page wikipedia , le MLE est $\bar{x}$ $\mathbb{E}[X]$

cohérent
asymptotiquement normal
efficace en ce qu'il atteint la variance asymptotique minimale
invariant sous transformées bijectives
dans le jeu de paramètres, même pour les jeux de paramètres contraints

En comparaison avec la moyenne arithmétique, la plupart de ces propriétés sont également satisfaites pour des distributions suffisamment régulières. Sauf 4 et 5. Dans le cas des familles exponentielles, le MLE et la moyenne arithmétique sont identiques pour estimer le paramètre dans le paramétrage moyen (mais pas pour les autres paramétrisations). Et le MLE existe pour un échantillon de la distribution de Cauchy.

Cependant, lorsque l'on se tourne vers des propriétés d'optimalité d'échantillon fini comme la minimaxité ou l'admissibilité, il peut arriver que le MLE ne soit ni minimax ni admissible. Par exemple, l'effet Stein montre qu'il existe des estimateurs avec un risque quadratique plus faible pour toutes les valeurs du paramètre sous certaines contraintes sur la distribution de l'échantillon et la dimension du paramètre. C'est le cas lorsque et . $x\sim\mathcal{N}_p(\theta,I_p)$ $p\ge 3$

Xi'an
la source

Juste pour clarifier le mle - les 5 propriétés énumérées sont toutes dans le contexte d'un modèle supposé pour la population.

Probabilités

@CagdasOzgenc: oui la domination est asymptotiquement négligeable , mais vaut pour tout

..! Cependant, la plage des estimateurs minimax de James-Stein diminue avec

puisque la constante de retrait est comprise entre

où

est la dimension et

la variance d'une composante d'observation. Je n'ai jamais entendu parler de minimaxité asymptotique.

n^{'} s

$n's$

n

$n$

0

$0$

2 (p - 2) σ^{2} / n

$2(p-2)\sigma^2/n$

p

$p$

σ^{2}

$\sigma^2$

Xi'an

Interprétons le «calcul de la moyenne arithmétique» comme une estimation à l'aide de la méthode des moments (MoM). Je crois que cela est fidèle à la question d'origine puisque la méthode substitue les moyennes d'échantillonnage aux moyennes théoriques. Il répond également à la préoccupation de @ Xi'an concernant un paramètre arbitraire (à partir d'un modèle arbitraire).

Si vous êtes toujours avec moi, je pense qu'un bon endroit où aller est des exemples où la méthode des moments peut battre la probabilité maximale dans de petits échantillons? Le texte de la question souligne que «les estimateurs du maximum de vraisemblance (MLE) sont asymptotiquement efficaces; nous voyons le résultat pratique en ce qu'ils font souvent mieux que les estimations de la méthode des moments (MoM) (lorsqu'ils diffèrent)», et cherche des cas spécifiques où les estimateurs MoM obtenir une erreur quadratique moyenne plus petite que son homologue MLE. Quelques exemples sont fournis dans le contexte de la régression linéaire, de la distribution gaussienne inverse à deux paramètres et d'une distribution de puissance exponentielle asymétrique.

Cette idée d '«efficacité asymptotique» signifie que les estimateurs du maximum de vraisemblance sont probablement près d'utiliser les données à leur plein potentiel (pour estimer le paramètre en question), une garantie que vous n'obtenez pas avec la méthode des moments en général. Bien que la probabilité maximale ne soit pas toujours "meilleure" que de travailler avec des moyennes, cette propriété d'efficacité (si ce n'est que dans la limite) en fait une méthode de choix pour la plupart des fréquentateurs. Bien sûr, le contraire pourrait faire valoir qu'avec l'augmentation de la taille des ensembles de données, si vous pointez vers la bonne cible avec une fonction de moyennes, allez-y.

Ben Ogorek
la source

Il existe plusieurs exemples célèbres où le maximum de vraisemblance (ML) ne fournit pas la meilleure solution. Voir l'article de Lucien Le Cam de 1990: «Maximum de vraisemblance: une introduction» [1] , extrait de ses conférences invitées à l'Univ. du Maryland.

L'exemple que j'aime le plus, parce que c'est tellement simple, est le suivant:

$X_j$ $Y_j$ $j = 1,...,n$ $X_j\sim N(\mu_j,\sigma^2)$ $Y_j\sim N(\mu_j,\sigma^2)$ $j$ $X_j$ $Y_j$ $j$ $\sigma^2$

Je ne gâcherai pas le plaisir en vous donnant la réponse, mais (sans surprise) il y a deux façons de résoudre ce problème en utilisant ML et ils donnent des solutions différentes. L'une est la "moyenne arithmétique" des résidus au carré (comme on pourrait s'y attendre), et l'autre est la moitié de la moyenne arithmétique. Vous pouvez trouver la réponse ici sur ma page Github.

idnavid
la source