Pourquoi l'épreuve de Wilks de 1938 ne fonctionne-t-elle pas pour les modèles mal spécifiés?

23

Dans le célèbre article de 1938 (« La distribution à grand échantillon du rapport de vraisemblance pour tester les hypothèses composites », Annals of Mathematical Statistics, 9: 60-62), Samuel Wilks a dérivé la distribution asymptotique de 2×LLR (log log vraisemblance ratio ) pour les hypothèses imbriquées, sous l'hypothèse que l'hypothèse la plus grande est correctement spécifiée. La distribution limite est χ2 (chi carré) avec hm degrés de liberté, où h est le nombre de paramètres dans l'hypothèse la plus grande et mest le nombre de paramètres libres dans l'hypothèse imbriquée. Cependant, il est bien connu que ce résultat ne se vérifie pas lorsque les hypothèses sont mal spécifiées (c'est-à-dire lorsque l'hypothèse la plus large n'est pas la vraie distribution pour les données échantillonnées).

Quelqu'un peut-il expliquer pourquoi? Il me semble que la preuve de Wilks devrait encore fonctionner avec des modifications mineures. Elle repose sur la normalité asymptotique de l'estimation du maximum de vraisemblance (MLE), qui est toujours valable pour les modèles mal spécifiés. La seule différence est la matrice de covariance de la normale multivariée limite: pour des modèles correctement spécifiés, nous pouvons approximer la matrice de covariance avec la matrice d'information de Fisher inverse J1 , avec une erreur de spécification, nous pouvons utiliser l'estimation sandwich de la matrice de covariance ( J1KJ1 ). Ce dernier se réduit à l'inverse de la matrice d'informations de Fisher lorsque le modèle est correctement spécifié (puisque J=K). AFAICT, la preuve de Wilks ne se soucie pas d'où vient l'estimation de la matrice de covariance, tant que nous avons une matrice de covariance asymptotique inversible de la normale multivariée pour les MLE ( dans l'article de Wilks). c1

ratsalad
la source
Lorsque le modèle plus grand est vrai mais que le sous-modèle est faux, la distribution asymptotique n'est plus (dans les modèles linéaires avec des erreurs gaussiennes, par exemple, nous obtenons des choses comme des distributions exactes non centrales-F donc la distribution asymptotique devrait être quelque chose comme nc- χ 2 Je suppose). Alors, pourquoi nous attendrions-nous à ce qu'il soit χ 2 alors que le plus grand et le plus petit modèle sont tous les deux erronés? Quelle est exactement l'hypothèse nulle ici pour commencer? χ2χ2χ2
gars
Dans l'hypothèse nulle correctement spécifiée, les deux modèles sont "vrais", mais celui imbriqué a paramètres fixés aux valeurs vraies. Dans l'hypothèse nulle mal spécifiée, les deux modèles sont "faux", mais celui imbriqué a m paramètres fixés aux valeurs pseudotrues. ("Pseudotrue value" étant la valeur asymptotique du paramètre qui minimise la distance de Kullback-Liebler entre le modèle mal spécifié et le vrai modèle). Donc, votre exemple du F non central n'est pas pertinent, car c'est la distribution lorsque l'hypothèse nulle ici est fausse. mm
ratsalad
Désolé, j'aurais dû dire que l'hypothèse imbriquée a des paramètres fixés aux vraies valeurs. hm
ratsalad
Je crois comprendre qu'un modèle nul mal spécifié pourrait être mal spécifié de plusieurs façons. Par exemple: mauvaise distribution des résidus, les données ont une hétéroscédasticité, les effets ne sont pas additifs, etc. Cependant, je conviens que si au moins l'un des paramètres "testés" est fixé à une valeur fausse (par exemple la valeur pseudotrue) , c'est un exemple d'un modèle nul spécifié de manière incorrecte. hm
rcorty

Réponses:

19

RV Foutz et RC Srivastava ont examiné la question en détail. Leur article de 1977 "La performance du test du rapport de vraisemblance lorsque le modèle est incorrect" contient une déclaration du résultat de la distribution en cas de mauvaise spécification ainsi qu'un très bref croquis de la preuve, tandis que leur article de 1978 "La distribution asymptotique du rapport de vraisemblance lorsque le modèle est incorrect " contient la preuve - mais celle-ci est tapée dans un typographe à l'ancienne (les deux articles utilisent cependant la même notation, vous pouvez donc les combiner en lecture). En outre, pour certaines étapes de la preuve, ils se réfèrent à un article de KP Roy "Une note sur la distribution asymptotique du rapport de vraisemblance" de 1957 qui ne semble pas être disponible en ligne, même fermé.

En cas de spécification erronée de la distribution, si le MLE est toujours cohérent et asymptotiquement normal (ce qui n'est pas toujours le cas), la statistique LR suit asymptotiquement une combinaison linéaire de chi-carrés indépendants (chacun d'un degré de liberté)

2lnλdi=1rciχi2

. On peut voir la "similitude": au lieu d'un chi carré avec h - m degrés de liberté, nous avons h - m chi carrés chacun avec un degré de liberté. Mais "l'analogie" s'arrête là, car une combinaison linéaire de chi-carrés n'a pas de densité de forme fermée. Chaque chi carré mis à l'échelle est un gamma, mais avec un paramètre c i différent qui conduit à un paramètre d'échelle différent pour le gamma - et la somme de ces gammas n'est pas de forme fermée, bien que ses valeurs puissent être calculées.r=hmhmhmci

Pour les constantes , nous avons c 1c 2. . . c r0 , et ce sont les valeurs propres d'une matrice ... quelle matrice? Eh bien, en utilisant la notation des auteurs, définissez Λ comme la Hesse de la log-vraisemblance et C comme le produit extérieur du gradient de la log-vraisemblance (en termes d'espérance). Donc V = Λ - 1 C ( Λ ) - 1 est la matrice asymptotique de variance-covariance du MLE.cic1c2...cr0ΛCV=Λ1C(Λ)1

Ensuite , mettre en à la r × r bloc supérieur diagonale de V . Mr×rV

Ecrivez également sous forme de blocΛ

Λ=[Λr×rΛ2Λ2Λ3]

et fixons ( W est le négatif du complément de Schur de Λ ).W=Λr×r+Λ2Λ31Λ2WΛ

Les sont alors les valeurs propres de la matrice M W évaluées aux vraies valeurs des paramètres.ciMW

ADDENDUM
Répondant à la remarque valable du PO dans les commentaires (parfois, en effet, les questions deviennent un tremplin pour partager un résultat plus général, et elles-mêmes peuvent être négligées dans le processus), voici comment procède la preuve de Wilks: Wilks commence par l'articulation distribution normale du MLE, et procède à dériver l'expression fonctionnelle du rapport de vraisemblance. Jusqu'à et y compris son éq. , la preuve peut avancer même si nous supposons que nous avons une erreur de distribution: comme le note l'OP, les termes de la matrice de covariance de la variance seront différents dans le scénario de l'erreur de spécification, mais tout ce que Wilks fait est de prendre des dérivés et d'identifier termes asymptotiquement négligeables. Et donc il arrive à l'eq. [ 9 ][9][9]hmhm

2lnλ=i=1hm(nθ^iθiσi)2dχhm2

But if we have misspecification, then the terms that are used in order to scale the centered and magnified MLE n(θ^θ) are no longer the terms that will make the variances of each element equal to unity, and so transform each term into a standard normal r.v and the sum into a chi-square.
And they are not, because these terms involve the expected values of the second derivatives of the log-likelihood... but the expected value can only be taken with respect to the true distribution, since the MLE is a function of the data and the data follows the true distribution, while the second derivatives of the log-likelihood are calculated based on the wrong density assumption.

So under misspecification we have something like

2lnλ=i=1hm(nθ^iθiai)2
and the best we can do is to manipulate it into

2lnλ=i=1hmσi2ai2(nθ^iθiσi)2=i=1hmσi2ai2χ12

which is a sum of scaled chi-square r.v.'s, no longer distributed as one chi-square r.v. with hm degrees of freedom. The reference provided by the OP is indeed a very clear exposition of this more general case that includes Wilks' result as a special case.

Alecos Papadopoulos
la source
1
So, this is just a restatement of the standard result when the model is misspecified. This result has been derived and re-derived many times. The clearest and most illuminating derivation I have seen is from Kent 1982 "Robust Properties of Likelihood Ratio Tests" (Biometrika 69:19). However, you did not answer my question. My question was specifically about Wilks 1938 proof, and why it fails.
ratsalad
2

Wilks' 1938 proof doesn't work because Wilks used J1 As the asymptotic covariance matrix in his proof. J1 is the inverse of the Hessian of the negative log likelihood rather than the sandwich estimator J1KJ1. Wilks references the ijth element of J as cij in his proof. By making the assumption that J1KJ1=J1 Wilks (1938) is assuming that K=J holds which is the Fisher Information Matrix equality. If the probability model is correctly specified then K=J. So one interpretation of the assumption by Wilks is that he is assuming the stronger assumption that the probability model is correctly specified.

RMG
la source