Des exemples où la méthode des moments peut battre le maximum de vraisemblance dans de petits échantillons?

57

Les estimateurs de maximum de vraisemblance (MLE) sont asymptotiquement efficaces; nous constatons le résultat pratique dans la mesure où elles donnent souvent de meilleurs résultats que les estimations fondées sur la méthode des moments (MoM) (lorsqu'elles diffèrent), même pour des échantillons de petite taille

Ici, "mieux que" signifie "en général", c'est-à-dire que la variance est généralement plus faible lorsque les deux sont non biaisés et que l'erreur quadratique moyenne (EQM) est généralement plus petite.

La question se pose cependant:

Existe-t-il des cas où le MoM peut battre le MLE - sur le MSE , par exemple - dans de petits échantillons?

(où il ne s'agit pas d'une situation étrange / dégénérée - c.-à-d. étant donné que les conditions sont réunies pour que ML existe / soit asymptotiquement efficace)

Une question de suivi serait alors: «Quelle taille peut avoir un petit? - c’est-à-dire que s’il existe des exemples, y en a-t-il qui ont encore une taille d’échantillon relativement grande, voire même toutes les tailles d’échantillon finies?

[Je peux trouver un exemple d'estimateur biaisé qui peut battre ML dans des échantillons finis, mais ce n'est pas du MoM.]


Remarque ajoutée rétrospectivement: je me concentre ici principalement sur le cas univarié (qui est en fait l’origine de ma curiosité sous-jacente). Je ne veux pas exclure les cas à plusieurs variables, mais je ne veux pas non plus me perdre dans de longues discussions sur l'estimation de James-Stein.

Glen_b
la source
Aucun problème; cela nous arrive à tous, et à moi plus souvent que vous. J'aurais probablement dû le mettre dans le titre, mais c'était déjà assez long.
Glen_b
@ cardinal J'ai clarifié les critères maintenant.
Glen_b
3
Il existe d'autres moyens par lesquels la méthode des moments peut "battre" le maximum de vraisemblance. Par exemple, dans les problèmes d’estimation d’un mélange normal, le MLE est notoirement difficile à calculer alors que le MoM ne l’est pas.
vqv
@vqv C'est certainement un sens dans lequel MoM peut être préférable.
Glen_b
2
Comme j'ai tendance à sympathiser avec les plébéiens, j'informe que dans un échantillon d'iid Uniforms , l'estimateur MoM pour a la même MSE avec le patricien (MLE) si la taille de l'échantillon est , ou ... Mais hélas, pour des échantillons plus grands, le patricien réaffirme sa souveraineté ...θ 1 2U(0,θ)θ12
Alecos Papadopoulos

Réponses:

36

Cela peut être considéré comme ... de la triche, mais l'estimateur MCO est un estimateur de MoM. Considérons une spécification de régression linéaire standard (avec régresseurs stochastiques, les magnitudes étant donc conditionnelles à la matrice des régresseurs) et un échantillon de taille . Notons l'estimateur MCO de la variance du terme d'erreur. C'est impartial doncn s 2 σ 2Kns2σ2

MSE(s2)=Var(s2)=2σ4nK

Considérons maintenant le MLE de . Il estσ2

σ^ML2=nKns2
Est-ce biaisé? Son MSE est

MSE(σ^ML2)=Var(σ^ML2)+[E(σ^ML2)σ2]2
obtenant la MLE en termes de MCO et en utilisant l’expression de la variance de l’estimateur de MCO, nous obtenons

MSE( σ 2 M L )=2(n-K)+K2

MSE(σ^ML2)=(nKn)22σ4nK+(Kn)2σ4
MSE(σ^ML2)=2(nK)+K2n2σ4

Nous voulons les conditions (si elles existent) dans lesquelles

MSE(σ^ML2)>MSE(s2)2(nK)+K2n2>2nK

2 n 2 - 4 n K + 2 K 2 + n K 2 - K 3 > 2 n 2 - 4 n + 2 K + n K - K 2 > 0 K 2 - (

2(nK)2+K2(nK)>2n2
2n24nK+2K2+nK2K3>2n2
simplifiant on obtient Est-il possible que ce quadratique dans obtienne des valeurs négatives? Nous avons besoin que son discriminant soit positif. Nous avons qui est un autre quadratique, dans cette fois. Ce discriminant est donc pour prendre en compte le fait que est un entier. Si
4n+2K+nKK2>0K2(n+2)K+4n<0
K
ΔK=(n+2)216n=n2+4n+416n=n212n+4
n
Δn=12242=816
n1,n2=12±8162=6±42n1,n2={1,12}
nnÀ l'intérieur de cet intervalle, nous avons que et le quadratique dans prend toujours des valeurs positives, nous ne pouvons donc pas obtenir l'inégalité requise. Donc: nous avons besoin d’une taille d’échantillon supérieure à 12.ΔK<0K

Compte tenu de cela, les racines de quadratique sontK

K1,K2=(n+2)±n212n+42=n2+1±(n2)2+13n

Globalement: pour la taille d'échantillon et le nombre de régresseurs tels que nous avons pour Par exemple, si on trouve que le nombre de régresseurs doit être égal à pour que l’inégalité soit conservée. Il est intéressant de noter que, pour un petit nombre de régresseurs, le MLE est meilleur au sens de la MSE.n>12KK1<K<K2

MSE(σ^ML2)>MSE(s2)
n=505<K<47

ADDENDUM
On peut écrire l' équation pour les racines du quadratiqueK

K1,K2=(n2+1)±(n2+1)24n
qui , par un coup d' œil , je pense implique que la racine sera toujours inférieure être (en tenant compte de la restriction "valeur entière") -so MLE sera efficace MSE lorsque les régresseurs ont jusqu'à pour toute taille d'échantillon (finie).55
Alecos Papadopoulos
la source
1
Eh bien, la condition de moment théorique qui accompagne la spécification est . Dans la mesure où nous utilisons l'échantillon analogue de comme estimateur de , je dirais qu'il l'est. E(uuX)=σ2E(uuX)σ2
Alecos Papadopoulos
1
@AlecosPapadopoulos Le "modèle d'analogue", dirais-je, prendrait pour le dénominateur, c'est-à-dire qu'il serait identique au MLE. Si vous remplacez l'attente théorique par l'attente empirique, comment pourriez-vous vous retrouver avec au dénominateur? Les conditions du moment naturel doivent être et et le remplacement des attentes empiriques vous donnerait au dénominateur. nnKE[Xk(YXβ)]=0E[(YXβ)2]=σ2n
mec
2
@guy C'est une remarque valable. La correction des degrés de liberté a toujours été, pour moi, un problème conceptuel avec Method of Moments. Après tout, l '"échantillon analogue" n'est pas un concept strict, et il est lié au concept de "moyen échantillon" par la correspondance asymptotique de cette dernière avec la valeur attendue - mais dans un cadre asymptotique, diviser par au lieu de ne ne fait aucune différence. Pour moi, cela reste une question non résolue. D'autre part, l'estimateur du maximum de vraisemblance est déterminé concrètement par les équations de vraisemblance et peut éventuellement coïncider avec MoM. (CONTD)nKn
Alecos Papadopoulos le
1
@guy (CONTD). Donc, ce que vous dites, c'est que l'estimateur MoM de la variance d'erreur dans ce cas est l'estimateur du maximum de vraisemblance, et que le résultat que j'ai obtenu compare non pas MoM à ML, mais ML à MLS (cette dernière étant une catégorie en soi). .. oui, on peut soutenir que c'est (aussi) le cas.
Alecos Papadopoulos
1
L’estimateur de MoM existe-t-il? C'est "un" estimateur MoM, non? Si vous prenez un résidu OLS sélectionné au hasard, , alors . C'est une condition parfaite, n'est-ce pas? Et cela donne un très bon MoM pour , non? À savoir, l'estimateur habituel de MCO, . eE(e2)=nknσ2σ2s2
Bill le
17

"Dans cet article, nous examinons une nouvelle paramétrisation de la distribution gaussienne inverse à deux paramètres. Nous trouvons les estimateurs des paramètres de la distribution gaussienne inverse par la méthode des moments et la méthode du maximum de vraisemblance. Ensuite, nous comparons l'efficacité de la estimateurs pour les deux méthodes en fonction de leur biais et de l’erreur quadratique moyenne (EQM). Pour cela, nous fixons les valeurs des paramètres, effectuons des simulations et signalons l’ESG et le biais des estimations obtenues par les deux méthodes. La conclusion est que lorsque la taille de l’échantillon est 10, la méthode des moments a tendance à être plus efficace que la méthode du maximum de vraisemblance pour l'estimation des deux paramètres (lambda et thêta) .... "en savoir plus

De nos jours, on ne peut pas (ou ne devrait pas) faire confiance à tout ce qui est publié, mais la dernière page du journal semble prometteuse. J'espère que cela adresse votre note ajoutée a posteriori.

En hibernation
la source
1
Si je comprends bien les tableaux de cet article, je pense que vous avez raison: pour certains échantillons, la méthode des moments (MME dans le document) semble surpasser MLE, du moins pour l'estimation de . (Cependant, certains résultats de la simulation semblent plus qu'un peu bizarres - par exemple la progression de la colonne la plus à droite sur p49.) - c'est un résultat très intéressant pour moi car le gaussien inverse est relativement largement utilisé. θ
Glen_b
Bonne trouvaille! Même si les résultats sont erronés, il est agréable de voir la revendication explicitement énoncée quelque part.
Ben Ogorek le
Le document auquel j'ai lié dans ma réponse provient d'une thèse de maîtrise, qui est disponible dans son intégralité ici: digi.library.tu.ac.th/thesis/st/0415 Voir, par exemple, la section 5.2 pour la déclaration correspondante. Six personnes, dont un professeur titulaire, ont approuvé ce résultat.
Hibernation le
14

Selon les simulations effectuées par Hosking et Wallis (1987) dans "Estimation des paramètres et des quantiles pour la distribution de Pareto généralisée", les paramètres de la distribution de Pareto généralisée à deux paramètres donnés par la cdf

G(y)={1(1+ξyβ)1ξξ01exp(yβ)ξ=0

ou la densité

g(y)={1β(1+ξyβ)11ξξ01βexp(yβ)ξ=0

sont plus fiables si elles sont estimées au moyen de MOM, par opposition à ML. Ceci est valable pour les échantillons jusqu’à la taille 500. Les estimations de MOM sont données par

β^=y¯y2¯2(y2¯(y¯)2)

et

ξ^=12(y¯)22(y2¯(y¯)2)

avec

y2¯=1ni=1nyi2

Le papier contient quelques fautes de frappe (du moins ma version). Les résultats pour les estimateurs de MOM donnés ci-dessus ont été aimablement fournis par "heropup" dans ce fil .

Joz
la source
Merci pour cela. C'est l'un des exemples les plus simples de ce que je cherchais jusqu'à présent.
Glen_b
13

J'en ai trouvé un:

Pour la distribution de puissance exponentielle asymétrique

f(x)=ασΓ(1α)κ1+κ2exp(κασα[(xθ)+]α1κασα[(xθ)]α),α,σ,κ>0, and x,θR

les résultats de la simulation de Delicado et Goria (2008) suggèrent que, pour certains paramètres de tailles d'échantillons plus petites, la méthode des moments peut dépasser celle de la MLE; Par exemple, dans le cas connu , à la taille d'échantillon 10, lors de l'estimation de , l'EQM de MoM est inférieure à celle de ML.θσ

Delicado et Goria (2008),
Petit échantillon de comparaison des méthodes du maximum de vraisemblance, des moments et des moments L pour la distribution de puissance exponentielle asymétrique,
Journal Computational Statistics & Data Analysis
Volume 52 Numéro 3, Janvier, pp 1661-1673.

(Voir aussi http://www-eio.upc.es/~delicado/my-public-files/LmomAEP.pdf )

Glen_b
la source
13

La méthode des moments (MM) peut vaincre l'approche du maximum de vraisemblance (ML) lorsqu'il est possible de spécifier uniquement certains moments de la population. Si la distribution est mal définie, les estimateurs de ML ne seront pas cohérents.

En supposant des moments finis et des observations idiotes, le MM peut fournir de bons estimateurs avec de belles propriétés asymptotiques.

Exemple: Soit un échantillon iid de , où est une fonction de densité de probabilité inconnue. Définissez le ème moment et considérez que l’intérêt est d’estimer le quatrième moment .X1,,XnXff:RR+νk=Rxkf(x)dxkν4

Soit , puis en supposant que , le théorème de la limite centrale garantit que où " " signifie "la distribution converge vers" . De plus, par le théorème de Slutsky,Xk¯=1ni=1nXikν8<

n(X4¯ν4)dN(0,ν8ν42),
d

n(X4¯ν4)X8¯X4¯2dN(0,1)
depuis (convergence en probabilité).X8¯X4¯2Pν8ν42

C'est-à-dire que nous pouvons tirer des conclusions (approximatives) pour en utilisant l'approche du moment (pour les grands échantillons), nous devons simplement émettre des hypothèses sur les moments d'intérêt de la population. Ici, les estimateurs de maximum de vraisemblance ne peuvent être définis sans connaître la forme de . fν4f

Une étude de simulation:

Patriota et al. (2009) ont mené des études de simulation pour vérifier les taux de rejet des tests d'hypothèses dans un modèle d'erreurs dans les variables. Les résultats suggèrent que l'approche MM produit des taux d'erreur sous l'hypothèse nulle plus proches du niveau nominal que ceux de ML pour les petits échantillons.

Note historique:

La méthode des moments a été proposée par K. Pearson en 1894 "Contributions à la théorie mathématique de l'évolution". La méthode du maximum de vraisemblance a été proposée par RA Fisher en 1922 "Sur les fondements mathématiques des statistiques théoriques". Les deux articles ont été publiés dans la série A des Opérations philosophiques de la Royal Society of London.

Référence:

Fisher, RA (1922). Sur les fondements mathématiques des statistiques théoriques, Opérations philosophiques de la Royal Society de Londres, série A, 222, 309-368.

Patriota, AG, Bolfarine, H., de Castro, M. (2009). Un modèle hétéroscedastique d'erreurs dans les variables de variables avec erreur d'équation, Statistical Methodology 6 (4), 408-423 ( pdf )

Pearson, K (1894). Contributions à la théorie mathématique de l'évolution, Opérations philosophiques de la Royal Society of London, série A, 185, 71-110.

Alexandre Patriota
la source
1
Votre réponse semble potentiellement intéressante. Pouvez-vous développer un peu? Je ne suis pas sûr de bien voir.
Glen_b
@Glen_b s'il vous plaît, vérifiez si ma dernière addition vous aide.
Alexandre Patriota
Merci pour ça; Je crois que je vois où vous voulez en venir.
Glen_b
OK, c’est un commentaire général, mais je pense que cela répond à votre question. Si vous fournissez des informations complètes sur le comportement des données, il est tout à fait naturel que l'approche ML soit plus performante que l'approche MM. Dans l'article [1], nous menons des études de simulation pour vérifier les taux de rejet des tests d'hypothèses dans un modèle d'erreurs dans les variables. Les résultats suggèrent que l'approche MM produit des taux d'erreur sous l'hypothèse nulle plus proches du niveau nominal que ceux de ML pour les petits échantillons. [1] ime.usp.br/~patriota/STAMET-D-08-00113-revised-v2.pdf
Alexandre Patriota le
Ceci est un exemple atypique de méthode des moments (MoM). MoM est généralement déployé dans des problèmes d'estimation paramétrique, où il existe une famille de distributions paramétriques bien définie. D'autre part, vous pouvez définir une estimation de probabilité maximum non paramétrique ici. La fonction de distribution empirique, disons F-hat, est l'estimation du maximum de vraisemblance non paramétrique de la fonction de distribution inconnue F. Considérant que le 4ème moment est fonctionnel de F, le MLE non paramétrique du 4ème moment est le 4ème moment du F-hat. . C'est le même que le 4ème moment de l'échantillon.
vqv
5

Sources supplémentaires en faveur de MOM:

Hong, HP et W. Ye. 2014. Analyse des charges de neige au sol extrêmes pour le Canada à l'aide d'enregistrements d'épaisseur de neige . Risques naturels 73 (2): 355-371.

L'utilisation de MML pourrait donner des prévisions irréalistes si la taille de l'échantillon est petite (Hosking et al. 1985; Martin et Stedinger 2000).


Martins, ES et JR Stedinger. 2000. Estimateurs quantiles généralisés de valeur extrême généralisés par maximum de vraisemblance pour les données hydrologiques . Recherche sur les ressources en eau 36 (3): 737-744.

Abstrait:

La distribution des valeurs extrêmes généralisées (GEV) à trois paramètres a trouvé de nombreuses applications pour décrire les inondations annuelles, les précipitations, la vitesse du vent, la hauteur des vagues, les hauteurs de neige et autres maxima. Des études antérieures ont montré que les estimateurs de paramètres de vraisemblance maximale (MLE) pour petits échantillons sont instables et recommandent des estimateurs à moment L. Des recherches plus récentes montrent que les estimateurs de la méthode des moments quantiles présentent pour -0,25 <κ <0,30 une erreur racine-carré plus petite que les moments L et les MLE. L'examen du comportement des MLE dans de petits échantillons montre que des valeurs absurdes du paramètre de forme de GEV κ peuvent être générées. L'utilisation d'une distribution antérieure bayésienne pour limiter les valeurs de κ à une plage statistiquement / physiquement raisonnable dans une analyse de vraisemblance maximum généralisée (GML) élimine ce problème.

Dans les sections Introduction et Revue de la littérature, ils citent des articles supplémentaires qui concluent que MOM est parfois supérieur à MLE (encore une fois, la modélisation des valeurs extrêmes), par exemple:

Hosking et al. [1985a] montrent que les estimateurs de paramètres MLE sur petit échantillon sont très instables et recommandent des estimateurs de moment pondéré en fonction de la probabilité (PWM) équivalents aux estimateurs de L moment [Hosking, 1990]. [...]

Hosking et al. [1985a] ont montré que les estimateurs de moments pondérés en fonction de la probabilité (PM) ou de moments L équivalents (LM) pour la distribution de GEV sont supérieurs aux estimateurs du maximum de vraisemblance (MLE) en termes de biais et de variance pour des tailles d'échantillon variant de 15 à 100. Plus récemment, Madsen et al. [1997a] ont montré que les estimateurs quantiles de la méthode des moments (MOM) ont un RMSE plus petit pour -0,25 <K <0,30 que LM et MLE lors de l'estimation de l'événement sur 100 ans pour des échantillons de taille comprise entre 10 et 50. . Les MLE ne sont préférables que lorsque K> 0,3 et que la taille des échantillons est modeste (n> = 50).

K (kappa) est le paramètre de forme de GEV.

articles qui apparaissent dans les citations:

Hosking J, Wallis J, Wood E (1985) Estimation de la distribution généralisée des valeurs extrêmes par la méthode des moments pondérés par probabilité . Technometrics 27: 251–261.

Madsen, H., PF Rasmussen et D. Rosbjerg (1997) Comparaison des méthodes de série de séries annuelles maximales et de séries de durées partielles pour la modélisation d'événements hydrologiques extrêmes , 1, Modélisation sur site, ressources en eau. Res., 33 (4), 747-758.

Hosking, JRM, L-moments: Analyse et estimation de distributions à l'aide de combinaisons linéaires de statistiques d'ordre , JR Stat. Soc., Ser. B, 52, 105-124, 1990.


De plus, j'ai la même expérience que celle décrite dans les articles ci-dessus. En cas de modélisation d'événements extrêmes avec des échantillons de petite taille et de taille modérée (<50-100, ce qui est typique), le MLE peut donner des résultats irréalistes, la simulation montre que MOM est plus robuste et plus robuste. RMSE plus petit.

Arpi
la source
3

En train de répondre à ceci: Estimation des paramètres pour un binôme, je suis tombé sur ce papier:

Ingram Olkin, A John Petkau, James V Zidek: Une comparaison des estimateurs de N pour la distribution binomiale. Jasa 1981.

ce qui donne un exemple où la méthode des moments, au moins dans certains cas, bat le maximum de vraisemblance. Le problème est l’estimation de dans la distribution binomiale où les deux paramètres sont inconnus. Il apparaît par exemple que vous essayez d'estimer l'abondance des animaux lorsque vous ne pouvez pas voir tous les animaux et que la probabilité d'observation est également inconnue.Bin ( N , p ) pNBin(N,p)p

kjetil b halvorsen
la source
Ce qui est très intéressant dans cet exemple, c’est qu’il est très simple de décrire la situation: beaucoup de gens connaissent le binôme (du moins dans son concept, si ce n’est toujours avec son nom).
Glen_b