Idée et intuition derrière l'estimation du maximum de vraisemblance (QMLE)

17

Des questions): Quelle est l'idée et l'intuition derrière l'estimation du maximum de vraisemblance (QMLE; également connue sous le nom d'estimation du pseudo maximum de vraisemblance, PMLE)? Qu'est-ce qui fait que l'estimateur fonctionne lorsque la distribution d'erreur réelle ne correspond pas à la distribution d'erreur supposée?

Le site Wikipedia pour QMLE est très bien (bref, intuitif, au point), mais je pourrais utiliser un peu plus d'intuition et de détails, peut-être aussi une illustration. D'autres références sont les bienvenues. (Je me souviens d'avoir parcouru pas mal de manuels d'économétrie à la recherche de matériel sur QMLE, et à ma grande surprise, QMLE n'était couvert que dans un ou deux d'entre eux, par exemple Wooldridge "Econometric Analysis of Cross Section and Panel Data" (2010), Chapter 13 Section 11, p. 502-517.)

Richard Hardy
la source
2
Avez-vous lu les livres de White à ce sujet?
hejseb
2
@hejseb, peut-être pas, du moins je ne m'en souviens pas très bien. Est- ce celui-là?
Richard Hardy
1
Oui, c'est celui-là. Il s'appuie largement sur Huber (1967) , bien sûr, et le reconnaît pleinement. Mais ce qui suit en économétrie le fait à peine. Et le document de Huber, avec tout le respect que je lui dois, est à peine lisible, à son niveau de technicité; Hal White a certainement contribué à une meilleure digestion du problème.
StasK

Réponses:

7

"Qu'est-ce qui fait que l'estimateur fonctionne lorsque la distribution d'erreur réelle ne correspond pas à la distribution d'erreur supposée?"

En principe, le QMPLE ne pas « travail », au sens d'être un estimateur « bon ». La théorie développée autour du QMLE est utile car elle a conduit à des tests de mauvaise spécification.

Ce que le QMLE fait certainement, c'est d'estimer de manière cohérente le vecteur de paramètre qui minimise la divergence de Kullback-Leiber entre la vraie distribution et celle spécifiée. Cela semble bien, mais minimiser cette distance ne signifie pas que la distance minimisée ne sera pas énorme.

Pourtant, nous lisons qu'il existe de nombreuses situations où le QMLE est un estimateur cohérent pour le vrai vecteur de paramètre. Cela doit être évalué au cas par cas, mais permettez-moi de donner une situation très générale, qui montre qu'il n'y a rien inhérent au QMLE qui le rend cohérent pour le vrai vecteur ...

... C'est plutôt le fait que qu'il coïncide avec un autre estimateur qui est toujours cohérent (en maintenant l'hypothèse ergodic-stationnaire de l'échantillon): l'ancien, l'estimateur de la méthode des moments.

En d'autres termes, en cas de doute sur la distribution, une stratégie à considérer est de «toujours spécifier une distribution pour laquelle l'estimateur du maximum de vraisemblance pour les paramètres d'intérêt coïncide avec l'estimateur de la méthode des moments» : de cette manière, peu importe la distance est votre hypothèse de distribution, l'estimateur sera au moins cohérent.

Vous pouvez prendre cette stratégie à des extrêmes ridicules: supposez que vous avez un très grand échantillon iid d'une variable aléatoire, où toutes les valeurs sont positives. Continuez et supposez que la variable aléatoire est normalement distribuée et appliquez le maximum de vraisemblance pour la moyenne et la variance: votre QMLE sera cohérent pour les vraies valeurs.

Bien sûr, cela soulève la question de savoir pourquoi prétendre appliquer la MLE, car ce que nous faisons essentiellement, c'est de nous appuyer et de nous cacher derrière les forces de Method of Moments (qui garantit également une normalité asymptotique)?

Dans d'autres cas plus raffinés, QMLE peut se révéler cohérent pour les paramètres d'intérêt si nous pouvons dire que nous avons correctement spécifié la fonction moyenne conditionnelle mais pas la distribution (c'est par exemple le cas pour le Pooled Poisson QMLE - voir Wooldridge) .

Alecos Papadopoulos
la source
C'est intéressant. Pourriez-vous ajouter quelques références pour une telle théorie?
kjetil b halvorsen
1
@kjetilbhalvorsen Ce n'est pas un cadre théorique développé, car il ne fait que synthétiser de manière évidente des résultats très basiques. La synthèse est apparue dans ma tête alors que j'étais tourmenté par les conséquences d'une erreur de spécification. Et je crois qu'il y a aussi un côté «politique» à ne pas être bruyamment revendiqué dans les documents de recherche: nous ne voudrions pas détrôner le roi MLE, maintenant, n'est-ce pas?
Alecos Papadopoulos
8

Le document d'origine de Wedderburn en 74 est une excellente lecture concernant le sujet de la quasi-probabilité. En particulier, il a observé que pour les familles exponentielles régulières, les solutions aux équations de vraisemblance ont été obtenues en résolvant une équation de score générale de la forme:

0=je=1nS(β,Xje,Ouije)=TW(Oui-g-1(XTβ))
=βg-1(XTβ) et W=V-1. Cette notation trouve son origine dans les travaux de McCullogh et Nelder dans le texte d'origine, " Modèles linéaires généralisés ". M&N décrit la résolution de ces types de fonctions à l'aide de l'algorithme de type Gauss Newton.

Fait intéressant, cependant, cette formulation a écouté un estimateur de type méthode des moments où l'on pourrait simplement trier "définir la chose qu'ils veulent estimer" dans l'ERS de l'expression entre parenthèses, et croire que l'expression convergerait vers "cet intéressant chose". C'était une forme proto d'estimation d'équations.

L'estimation des équations n'était pas un nouveau concept. En fait, des tentatives remontant aux années 1870 et au début des années 1900 pour présenter les EE correctement dérivaient des théorèmes limites des EE utilisant des extensions de Taylor, mais un manque de connexion à un modèle probabiliste était une cause de discorde parmi les critiques.

Wedderburn a montré quelques résultats très importants: l'utilisation du premier affichage dans un cadre général où l'équation du score Speut être remplacé par un quasiscore, ne correspondant à aucun modèle probabiliste, mais répondant à une question d'intérêt, a donné des estimations statistiquement convaincantes. La transformation inverse d'un score général a abouti à un qMLE général qui provient d'une vraisemblance correcte jusqu'à une constante proportionnelle. Cette constante proportionnelle est appelée "dispersion". Un résultat utile de Wedderburn est que des écarts importants par rapport aux hypothèses probabilistes peuvent entraîner des dispersions grandes ou petites.

Cependant, contrairement à la réponse ci-dessus, la quasi-probabilité a été largement utilisée. Une très belle discussion à McCullogh et Nelder porte sur la modélisation des populations de crabes fer à cheval. À la différence des humains, leurs habitudes d'accouplement sont tout simplement bizarres: de nombreux mâles peuvent affluer vers une seule femelle en "grappes" non mesurées. Du point de vue de l'écologiste, l'observation de ces grappes dépasse de loin la portée de leur travail, mais néanmoins arriver à des prédictions de la taille de la population à partir de la capture et de la remise à l'eau posait un défi important. Il s'avère que ce schéma de couplage aboutit à un modèle de Poisson avec une sous-dispersion importante, c'est-à-dire que la variance est proportionnelle, mais pas égale à la moyenne.

Les dispersions sont considérées comme des paramètres de nuisance dans le sens où nous ne basons généralement pas d'inférence sur leur valeur, et les estimer conjointement en une seule probabilité entraîne des probabilités très irrégulières. La quasi-probabilité est un domaine très utile de la statistique, surtout à la lumière des travaux ultérieurs sur les équations d'estimation généralisées .

AdamO
la source
1
(+1) Réponse très utile.
Alecos Papadopoulos
2

J'avais une question similaire à l'original publié ici par Richard Hardy. Ma confusion était que les paramètres estimés à partir de quasi-ML peuvent ne pas exister dans la distribution "vraie" inconnue. Dans ce cas, que signifie exactement "cohérence"? À quoi convergent les paramètres estimés?

Après avoir vérifié quelques références ( White (1982) devrait être l'un des articles originaux mais est fermé. Une exposition utile que j'ai trouvée est http://homepage.ntu.edu.tw/~ckuan/pdf/et01/ch9.pdf ), mes pensées en anglais simple sont les suivantes: après avoir admis que la distribution que nous supposons n'est qu'une approximation de la vraie inconnue, la chose pratique que nous pouvons faire est de trouver la valeur du paramètre pour minimiser leur distance ( Kullback-Leiblerpour être précis). La beauté de la théorie est que, sans avoir besoin de connaître la vraie distribution, les paramètres estimés de quasi-ML convergent vers ce paramètre minimisant la distance (bien sûr, il existe d'autres résultats utiles de la théorie tels que la distribution asymptotique de l'estimation paramètres, etc., mais ils ne sont pas au centre de ma question ici).

Tout comme Alecos Papadopolous l'a mentionné dans sa réponse ci-dessus, la distance minimisée pourrait encore être grande. La distribution que nous supposons pourrait donc être une mauvaise approximation de la vraie. Tout ce que le quasi-ML peut faire est de rendre notre distribution supposée aussi proche que possible de la vraie inconnue. J'espère que mon expérience partagée ici pourrait être utile pour d'autres ayant des confusions similaires.

Franc
la source