L'estimation MLE est-elle asymptotiquement normale et efficace même si le modèle n'est pas vrai?

13

Prémisse: cela peut être une question stupide. Je ne connais que les déclarations sur les propriétés asymptotiques MLE, mais je n'ai jamais étudié les preuves. Si je le faisais, je ne poserais peut-être pas ces questions, ou je réaliserais peut-être que ces questions n'ont pas de sens ... alors s'il vous plaît allez-y doucement avec moi :)

J'ai souvent vu des déclarations qui disent que l'estimateur MLE des paramètres d'un modèle est asymptotiquement normal et efficace. La déclaration est généralement écrite comme

θ^dN(θ0,I(θ0)1)commeN

N est le nombre d'échantillons, I est l'information de Fisher et θ0 est la valeur vraie du paramètre (vecteur) . Maintenant, puisqu'il y a une référence à un vrai modèle, cela signifie-t-il que le résultat ne tiendra pas si le modèle n'est pas vrai?

Exemple: supposons que je modélise la puissance de sortie d'une éolienne P en fonction de la vitesse du vent V plus le bruit gaussien additif

P=β0+β1V+β2V2+ϵ

Je sais que le modèle est erroné, pour au moins deux raisons: 1) P est vraiment proportionnel à la troisième puissance de V et 2) l'erreur n'est pas additive, car j'ai négligé d'autres prédicteurs qui ne sont pas sans corrélation avec la vitesse du vent (je sais aussi que β0 devrait être 0 car à 0 vitesse du vent aucune puissance n'est générée, mais ce n'est pas pertinent ici). Supposons maintenant que j'ai une base de données infinie de données de puissance et de vitesse du vent de mon éolienne. Je peux dessiner autant d'échantillons que je veux, quelle que soit la taille. Supposons que je tire 1000 échantillons, chacun de taille 100, et calcule β^100 , l'estimation MLE de β=(β0,β1,β2)(qui selon mon modèle ne serait que l'estimation de l'OLS). J'ai donc 1000 échantillons de la distribution de β^100 . Je peux répéter l'exercice avec N=500,1000,1500, . En tant que N , la distribution de β^N devrait-elle avoir tendance à être asymptotiquement normale, avec la moyenne et la variance indiquées? Ou le fait que le modèle soit incorrect invalide-t-il ce résultat?

La raison pour laquelle je demande, c'est que rarement (voire jamais) les modèles sont "vrais" dans les applications. Si les propriétés asymptotiques du MLE sont perdues lorsque le modèle n'est pas vrai, il peut être judicieux d'utiliser des principes d'estimation différents, qui, bien que moins puissants dans un contexte où le modèle est correct, peuvent mieux fonctionner que le MLE dans d'autres cas.

EDIT : il a été noté dans les commentaires que la notion de vrai modèle peut être problématique. J'avais la définition suivante à l'esprit: étant donné une famille de modèles indiquée par le vecteur de paramètres , pour chaque modèle de la famille, vous pouvez toujours écrire θfθ(x)θ

Y=fθ(X)+ϵ

en définissant simplement comme . Cependant, en général, l'erreur ne sera pas orthogonale à , aura une moyenne de 0 et elle n'aura pas nécessairement la distribution supposée dans la dérivation du modèle. S'il existe une valeur telle que a ces deux propriétés, ainsi que la distribution supposée, je dirais que le modèle est vrai. Je pense que cela est directement lié au fait de dire que , car le terme d'erreur dans la décompositionY - f θ ( X ) X θ 0 ϵ f θ 0 ( X ) = E [ Y | X ]ϵYfθ(X)Xθ0ϵfθ0(X)=E[Y|X]

Y=E[Y|X]+ϵ

a les deux propriétés mentionnées ci-dessus.

DeltaIV
la source
3
L'estimation MLE est souvent asymptotiquement normale, même si le modèle n'est pas vrai, elle peut être cohérente pour les valeurs des paramètres "les moins faux", par exemple. Mais dans de tels cas, il sera difficile de montrer l'efficacité ou d'autres propriétés d'optimalité.
kjetil b halvorsen
1
Avant l'efficacité, nous devons examiner la cohérence. Dans un scénario où la vérité n'est pas dans votre espace de recherche, nous avons besoin d'une définition différente de la cohérence telle que: d (P *, P), où d est une divergence P * est le modèle le plus proche en termes de d, et P est la vérité. Lorsque d est la divergence KL (ce que MLE minimise) par exemple, on sait que les procédures bayésiennes sont incohérentes (ne peuvent pas atteindre le modèle le plus proche) à moins que le modèle ne soit convexe. Par conséquent, je suppose que MLE sera également incohérent. Par conséquent, l'efficacité devient mal définie. homepage.tudelft.nl/19j49/benelearn/papers/Paper_Grunwald.pdf
Cagdas Ozgenc
1
@Cagdas Ozgenc: Dans de nombreux cas (comme la régression logistique), le MLE est toujours cohérent pour les paramètres "les moins faux". Avez-vous une référence pour votre allégation d'incohérence dans le cas non convexe? Serait très intéressé? (La fonction de vraisemblance de la régression logistique est convexe)
kjetil b halvorsen
@kjetilbhalvorsen homepages.cwi.nl/~pdg/ftp/inconsistency.pdf C'est bien au-dessus de ma tête, mais c'est ce que je comprends. Si ma compréhension est fausse, veuillez me corriger. Je suis juste un amateur après tout.
Cagdas Ozgenc
4
Je pense que nous avons des ennuis lorsque nous utilisons des termes comme «le modèle est vrai» ou «le moins faux». Dans la pratique, les modèles sont tous approximatifs. Si nous faisons certaines hypothèses, nous pouvons utiliser les mathématiques pour montrer les propriétés statistiques. Il y a toujours un conflit entre les mathématiques des probabilités et l'analyse pratique des données.
Michael R. Chernick

Réponses:

4

Je ne pense pas qu'il y ait une seule réponse à cette question.

Lorsque nous considérons une possible erreur de spécification distributionnelle tout en appliquant une estimation du maximum de vraisemblance, nous obtenons ce que l'on appelle l'estimateur "Quasi-Maximum Likelihood" (QMLE). Dans certains cas, le QMLE est à la fois cohérent et asymptotiquement normal.

Ce qu'elle perd avec certitude, c'est son efficacité asymptotique. En effet, la variance asymptotique de (c'est la quantité qui a une distribution asymptotique, pas seulement ) est, dans tous les cas, θn(θ^θ)θ^

(1)Avar[n(θ^θ)]=plim([H^]1[S^S^T][H^]1)

où est la matrice de Hesse de la log-vraisemblance et est le gradient, et le chapeau indique des estimations d'échantillon.SHS

Maintenant, si nous avons des spécifications correctes , nous obtenons d'abord que

(2)Avar[n(θ^θ)]=(E[H0])1E[S0S0T](E[H0])1

où l' indice " " dénote une évaluation aux vrais paramètres (et notez que le moyen terme est la définition de l'information Fisher), et deuxièmement, que "l' égalité de la matrice d'information " est vraie et déclare que , ce qui signifie que la variance asymptotique sera finalement0E[H0]=E[S0S0T]

(3)Avar[n(θ^θ)]=(E[H0])1

qui est l'inverse de l'information de Fisher.

Mais si nous avons une erreur de spécification, l'expression ne mène pas à l'expression (car les première et deuxième dérivées de ont été dérivées sur la base d'une mauvaise probabilité). Cela implique à son tour que l'inégalité de la matrice d'information ne tient pas, que nous ne nous retrouvons pas dans l'expression et que le (Q) MLE n'atteint pas une efficacité asymptotique complète.( 2 ) ( 1 ) ( 3 )(1)(2)(1)(3)

Alecos Papadopoulos
la source
plim θ θ β = ( β 0 , β 1 , β 2 ) β 3 V θAvar est la variance asymptotique de la variable aléatoire, et signifie convergence en probabilité, non? Votre réponse semble très intéressante, mais je ne comprends pas ce qu'est dans votre contexte. Je faisais référence à un cas où la bonne valeur de n'existe tout simplement pas: voir mon exemple d'éolienne, où quelle que soit la valeur de , il n'y a pas valeur qui rend le modèle correct, car il n'y a pas de terme et parce que d'autres prédicteurs corrélés à sont manquants. Que signifierait dans ce contexte? plimθθβ=(β0,β1,β2)β3Vθ
DeltaIV
désolé, la première édition de mon commentaire était incompréhensible: maintenant mon point doit être clair. En d'autres termes, s'il n'y a pas de "vrai" , que devons-nous interpréter comme dans l'expression ? θ θθn(θ^θ)
DeltaIV
1
@DeltaIV Zero. Est-ce que le QMLE "attraper" cela? Cela dépend de la cohérence ou de l'absence de cohérence - et encore une fois, il n'y a pas de réponse unique à cette question
Alecos Papadopoulos
1
J'ai compris. Ainsi, le QMLE (s'il est cohérent) devrait converger vers : j'aurais pensé qu'il convergerait vers une valeur de paramètre "moins fausse", comme suggéré par @kjetilbhalvorsen. Pouvez-vous suggérer une référence sur le QMLE et les équations que vous avez écrites? Merciθ=0
DeltaIV
1
@DeltaIV Je suggérerais l'exposition dans Hayashi ch. 7 sur les estimateurs Extremum, en ce qui concerne la cohérence MLE, la normalité, etc. En ce qui concerne QMLE, le sujet est assez large. Par exemple, sous "QMLE", nous pouvons en effet également avoir des situations où nous reconnaissons dès le départ que les paramètres que nous estimons peuvent ne pas avoir de lien clair avec des "vrais paramètres" (mais l'exercice est toujours valable comme approximation)., et ainsi obtenir un vecteur "le moins faux" comme suggéré.
Alecos Papadopoulos