Dans le célèbre article de 1938 (« La distribution à grand échantillon du rapport de vraisemblance pour tester les hypothèses composites », Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks a dérivé la distribution asymptotique de (log log vraisemblance ratio ) pour les hypothèses imbriquées, sous l'hypothèse que l'hypothèse la plus grande est correctement spécifiée. La distribution limite est (chi carré) avec degrés de liberté, où est le nombre de paramètres dans l'hypothèse la plus grande et est le nombre de paramètres libres dans l'hypothèse imbriquée. Cependant, il est bien connu que ce résultat ne se vérifie pas lorsque les hypothèses sont mal spécifiées (c'est-à-dire lorsque l'hypothèse la plus large n'est pas la vraie distribution pour les données échantillonnées).
Quelqu'un peut-il expliquer pourquoi? Il me semble que la preuve de Wilks devrait encore fonctionner avec des modifications mineures. Elle repose sur la normalité asymptotique de l'estimation du maximum de vraisemblance (MLE), qui est toujours valable pour les modèles mal spécifiés. La seule différence est la matrice de covariance de la normale multivariée limite: pour des modèles correctement spécifiés, nous pouvons approximer la matrice de covariance avec la matrice d'information de Fisher inverse , avec une erreur de spécification, nous pouvons utiliser l'estimation sandwich de la matrice de covariance ( ). Ce dernier se réduit à l'inverse de la matrice d'informations de Fisher lorsque le modèle est correctement spécifié (puisque ). AFAICT, la preuve de Wilks ne se soucie pas d'où vient l'estimation de la matrice de covariance, tant que nous avons une matrice de covariance asymptotique inversible de la normale multivariée pour les MLE ( dans l'article de Wilks).
Réponses:
RV Foutz et RC Srivastava ont examiné la question en détail. Leur article de 1977 "La performance du test du rapport de vraisemblance lorsque le modèle est incorrect" contient une déclaration du résultat de la distribution en cas de mauvaise spécification ainsi qu'un très bref croquis de la preuve, tandis que leur article de 1978 "La distribution asymptotique du rapport de vraisemblance lorsque le modèle est incorrect " contient la preuve - mais celle-ci est tapée dans un typographe à l'ancienne (les deux articles utilisent cependant la même notation, vous pouvez donc les combiner en lecture). En outre, pour certaines étapes de la preuve, ils se réfèrent à un article de KP Roy "Une note sur la distribution asymptotique du rapport de vraisemblance" de 1957 qui ne semble pas être disponible en ligne, même fermé.
En cas de spécification erronée de la distribution, si le MLE est toujours cohérent et asymptotiquement normal (ce qui n'est pas toujours le cas), la statistique LR suit asymptotiquement une combinaison linéaire de chi-carrés indépendants (chacun d'un degré de liberté)
où . On peut voir la "similitude": au lieu d'un chi carré avec h - m degrés de liberté, nous avons h - m chi carrés chacun avec un degré de liberté. Mais "l'analogie" s'arrête là, car une combinaison linéaire de chi-carrés n'a pas de densité de forme fermée. Chaque chi carré mis à l'échelle est un gamma, mais avec un paramètre c i différent qui conduit à un paramètre d'échelle différent pour le gamma - et la somme de ces gammas n'est pas de forme fermée, bien que ses valeurs puissent être calculées.r=h−m h−m h−m ci
Pour les constantes , nous avons c 1 ≥ c 2 ≥ . . . c r ≥ 0 , et ce sont les valeurs propres d'une matrice ... quelle matrice? Eh bien, en utilisant la notation des auteurs, définissez Λ comme la Hesse de la log-vraisemblance et C comme le produit extérieur du gradient de la log-vraisemblance (en termes d'espérance). Donc V = Λ - 1 C ( Λ ′ ) - 1 est la matrice asymptotique de variance-covariance du MLE.ci c1≥c2≥...cr≥0 Λ C V=Λ−1C(Λ′)−1
Ensuite , mettre en à la r × r bloc supérieur diagonale de V .M r×r V
Ecrivez également sous forme de blocΛ
et fixons ( W est le négatif du complément de Schur de Λ ).W=−Λr×r+Λ′2Λ−13Λ2 W Λ
Les sont alors les valeurs propres de la matrice M W évaluées aux vraies valeurs des paramètres.ci MW
ADDENDUM[9] [9] h−m h−m
Répondant à la remarque valable du PO dans les commentaires (parfois, en effet, les questions deviennent un tremplin pour partager un résultat plus général, et elles-mêmes peuvent être négligées dans le processus), voici comment procède la preuve de Wilks: Wilks commence par l'articulation distribution normale du MLE, et procède à dériver l'expression fonctionnelle du rapport de vraisemblance. Jusqu'à et y compris son éq. , la preuve peut avancer même si nous supposons que nous avons une erreur de distribution: comme le note l'OP, les termes de la matrice de covariance de la variance seront différents dans le scénario de l'erreur de spécification, mais tout ce que Wilks fait est de prendre des dérivés et d'identifier termes asymptotiquement négligeables. Et donc il arrive à l'eq. [ 9 ]
But if we have misspecification, then the terms that are used in order to scale the centered and magnified MLEn−−√(θ^−θ) are no longer the terms that will make the variances of each element equal to unity, and so transform each term into a standard normal r.v and the sum into a chi-square.
And they are not, because these terms involve the expected values of the second derivatives of the log-likelihood... but the expected value can only be taken with respect to the true distribution, since the MLE is a function of the data and the data follows the true distribution, while the second derivatives of the log-likelihood are calculated based on the wrong density assumption.
So under misspecification we have something like
which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. withh−m degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.
la source
Wilks' 1938 proof doesn't work because Wilks usedJ−1
As the asymptotic covariance matrix in his proof. J−1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J−1KJ−1 . Wilks references the ij th element of J as cij in his proof.
By making the assumption that J−1KJ−1=J−1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J . So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.
la source