Le traitement classique de l'inférence statistique repose sur l'hypothèse qu'une statistique correctement spécifiée est utilisée. Autrement dit, la distribution qui a généré les données observées fait partie du modèle statistique :
Qu'advient-il des estimateurs des ensembles de confiance? Permet de récapituler les estimateurs des ensembles de confiance. Soit un estimateur d'ensemble, où est l'espace d'échantillonnage et la puissance définie sur l'espace des paramètres . Ce que nous aimerions savoir, c'est la probabilité que les ensembles produits par incluent la vraie distribution , c'est-à-direΩ Y 2 Θ Θ
Cependant, nous ne connaissons bien sûr pas la vraie distribution . L'hypothèse correctement spécifiée nous dit que . Cependant, nous ne savons toujours pas de quelle distribution est le modèle. Mais, est une limite inférieure pour la probabilité . L'équation est la définition classique du niveau de confiance pour un estimateur d'ensemble de confiance.
Si nous laissons tomber l'hypothèse correctement spécifiée, n'est plus nécessairement une borne inférieure pour , le terme qui nous intéresse réellement. En effet, si nous supposons que le modèle est mal spécifié, ce qui est sans doute le cas pour la plupart des situations réalistes, est 0, car la vraie distribution n'est pas contenue dans le modèle statistique .
Dans une autre perspective, on pourrait penser à quoi rapporte lorsque le modèle est mal spécifié. C'est une question plus spécifique. t-il encore un sens si le modèle est mal spécifié? Sinon, pourquoi nous préoccupons-nous même des statistiques paramétriques?
Je suppose que White 1982 contient des résultats sur ces questions. Malheureusement, mon manque de connaissances mathématiques m'empêche de comprendre beaucoup de choses qui y sont écrites.
Réponses:
Soity1,…,yn les données observées qui sont supposées être une réalisation d'une séquence de iid variables aléatoires Y1,…,Yn avec une fonction de densité de probabilité commune pe définie par rapport à une mesure sigma finie ν . La densité pe est appelée densité DGP (Data Generating Process).
Dans le modèle de probabilité du chercheurM≡{p(y;θ):θ∈Θ} est une collection de fonctions de densité de probabilité qui sont indexées par un vecteur de paramètre
θ . Supposons que chaque densité dans M est définie par rapport à une mesure sigma-finie commune ν (par exemple, chaque densité pourrait être une fonction de masse de probabilité avec le même espace d'échantillon S ).
Il est important de garder la densitépe qui a réellement généré les données conceptuellement distincte du modèle de probabilité des données. Dans les traitements statistiques classiques, une séparation soigneuse de ces concepts est soit ignorée, pas faite, ou on suppose dès le début que le modèle de probabilité est correctement spécifié.
Un modèleM correctement spécifié par rapport à pe est défini comme un modèle où pe∈M ν presque partout. Lorsque
M est mal spécifié par rapport à pe cela correspond au cas où le modèle de probabilité n'est pas correctement spécifié.
Si le modèle de probabilité est correctement spécifié, alors il existe unθ∗ dans l'espace des paramètres Θ tel que
pe(y)=p(y;θ∗) ν presque partout. Un tel vecteur de paramètres est appelé "vrai vecteur de paramètres". Si le modèle de probabilité est mal spécifié, alors le vrai vecteur de paramètre n'existe pas.
Au sein de modèle cadre de White l'erreur de spécification du but est de trouver l'estimation des paramètres θ n qui minimise ℓ n ( θ ) ≡ ( 1 / n ) Σ n i = 1 log p (θ^n ℓ^n(θ)≡(1/n)∑ni=1logp(yi;θ) sur un espace de paramètres compactΘ . On suppose qu'un minimiseur global unique stricte,θ∗ , de la valeur attendue de ℓ n sur Θ est situé à l'intérieur de Θℓ^n Θ Θ . Dans le cas chanceux où le modèle de probabilité est correctement spécifié, θ∗ peut être interprété comme la "vraie valeur du paramètre".
Dans le cas particulier où le modèle de probabilité est correctement spécifié, alors θ n est familier estimation de vraisemblance maximale. Si nous ne savons pas avoir une connaissance absolue que le modèle de probabilité est correctement spécifié, θ n est appelé une estimation de probabilité quasi-maximale et l'objectif est d'estimer θ * . Si nous avons de la chance et que le modèle de probabilité est correctement spécifié, alors l'estimation de vraisemblance quasi-maximale se réduit comme un cas spécial à l'estimation de vraisemblance maximale familière et θ ∗ devient la vraie valeur du paramètre.θ^n θ^n θ∗ θ∗
La cohérence dans le cadre de White (1982) correspond à la convergence versθ∗ sans exiger que θ∗ soit nécessairement le véritable vecteur de paramètres. Dans le cadre de White, nous ne pourrions jamais estimer la probabilité de l'événement que les ensembles produits par δ incluent la distribution VRAIE P *. Au lieu de cela, nous estimerions toujours la distribution de probabilité P ** qui est la probabilité de l'événement que les ensembles produits par δ incluent la distribution spécifiée par la densité
p(y;θ∗) .
Enfin, quelques commentaires sur les erreurs de spécification du modèle. Il est facile de trouver des exemples où un modèle mal spécifié est extrêmement utile et très prédictif. Par exemple, considérons un modèle de régression non linéaire (ou même linéaire) avec un terme d'erreur résiduelle gaussienne dont la variance est extrêmement faible, mais l'erreur résiduelle réelle dans l'environnement n'est pas gaussienne.
Il est également facile de trouver des exemples où un modèle correctement spécifié n'est pas utile et non prédictif. Par exemple, considérons un modèle de marche aléatoire pour prédire les cours des actions qui prédit le cours de clôture de demain est une somme pondérée du cours de clôture d'aujourd'hui et du bruit gaussien avec une très grande variance.
L'objectif du cadre de spécification erronée du modèle n'est pas d'assurer la validité du modèle mais plutôt d'assurer la fiabilité. Autrement dit, assurez-vous que l'erreur d'échantillonnage associée à vos estimations de paramètres, intervalles de confiance, tests d'hypothèse, etc., est correctement estimée malgré la présence d'une petite ou d'une grande quantité de spécification erronée du modèle. Les estimations de vraisemblance quasi-maximales sont asymptotiquement normales centrées àθ∗ avec un estimateur à matrice de covariance qui dépend à la fois des première et deuxième dérivées de la fonction log-vraisemblance négative. Dans le cas particulier où vous avez de la chance et que le modèle est correct, toutes les formules se réduisent au cadre statistique classique familier où le but est d'estimer les "vraies" valeurs des paramètres.
la source
Tout d'abord, permettez-moi de dire que c'est une question vraiment fascinante; bravo à Julian pour l'avoir publié. Selon moi, le problème fondamental auquel vous êtes confronté dans ce type d’analyse est que toute inférence d’un sous-ensemble de est une inférence sur la classe restreinte de mesures de probabilité dans le modèle M , donc lorsque vous commencez à poser des questions sur les probabilités d'inférer le vrai modèle, sous le modèle, cela dégénère en une question triviale de savoir s'il y a ou non des erreurs de spécification pour commencer. White contourne ce problème en examinant à quel point le modèle se rapproche de la vraie mesure de probabilité, en utilisant une mesure de distance appropriée. Cela le conduit à la mesure de probabilité P θ 1 , qui est le proxy le plus proche de P ∗ dansΘ M Pθ1 P∗ . Cette méthode de recherche de P θ 1 peut être étendue pour donner des quantités intéressantes relatives à votre question sur les ensembles de confiance.M Pθ1
Avant d’y arriver, il convient de souligner que les valeurs et BA B sont mathématiquement bien définies dans votre analyse (c'est-à-dire qu'elles existent) et qu'elles ont toujours un sens; ce n'est pas nécessairement une signification très utile. La valeur de votre analyse est bien définie; c'est la vraie probabilité que l'ensemble inféré de mesures de probabilité comprenne la vraie mesure de probabilité. Vous avez raison que P ∗ ∉ M implique A = 0 , ce qui signifie que cette quantité est triviale en cas de mauvaise spécification. Suivant l'exemple de White, il est peut-être plus intéressant de regarder la quantité:A P∗∉M A=0
Ici , nous avons remplacé l'occurrence intérieure de avec son plus proche proxy dans le modèle M , de sorte que la quantité est rendue plus trivial lorsque P * ∉ M . Nous demandons maintenant la vraie probabilité que l'ensemble inféré de mesures de probabilité comprenne le proxy le plus proche de la vraie mesure de probabilité dans le modèle. La mauvaise spécification du modèle ne banalise plus cette quantité, puisque nous avons P θ 1 ∈ M par construction.P∗ M P∗∉M Pθ1∈M
White analyse les erreurs de spécification en montrant que le MLE est un estimateur cohérent de . Ceci est précieux car il vous indique que même en cas de mauvaise spécification, vous estimez toujours correctement le proxy le plus proche de la vraie mesure de probabilité dans le modèle. Une question de suivi naturelle concernant les ensembles de confiance est de savoir si une méthode d'inférence particulière δ impose une limite inférieure à la quantité A ∗ ou tout résultat de convergence dans la limite comme n → ∞Pθ1 δ A∗ n→∞ . Si vous pouvez établir une borne inférieure (positive) ou un résultat de convergence (positif), cela vous donne une certaine valeur en garantissant que même en cas de spécification erronée, vous estimez toujours correctement le proxy le plus proche avec un certain niveau de probabilité. Je vous recommanderais d'explorer ces questions, en suivant le type d'analyse effectuée par White.
la source