Pourquoi un test du rapport de vraisemblance est-il distribué chi-carré?

34

Pourquoi la statistique de test d'un test de rapport de probabilité est-elle distribuée en khi-deux?

2(ln Lalt modelln Lnull model)χdfaltdfnull2

Dr. Beeblebrox
la source
3
Est-ce que cela aide ?
Nick Sabbe
14
Merci pour la référence. En voici un de moi: stats.stackexchange.com/faq#etiquette
Dr. Beeblebrox
5
Notez le "Apportez votre sens de l'humour" là-bas. Je n’avais pas l’intention d’être grossier, mais la réponse à cette question serait relativement fastidieuse et consisterait, pour l’essentiel, dans le contenu de cet article (ou dans certains des meilleurs manuels de statistiques). Si vous exposez votre problème avec l'explication dans l'un de ces cas, je me ferai un plaisir de vous aider.
Nick Sabbe
2
Lien direct vers le papier original de Wilks sans paywall.
Ayorgo

Réponses:

23

Comme mentionné par @Nick, ceci est une conséquence du théorème de Wilks . Mais notez que la statistique de test est asymptotiquement -distributed, non -distributed.χ 2χ2χ2

Je suis très impressionné par ce théorème car il se situe dans un contexte très large. Considérons un modèle statistique avec vraisemblance où est les observations vectorielles de observations répliquées indépendantes à partir d'une distribution de paramètre appartenant à un sous- de de dimension . Soit un sous-modèle de dimension . Imaginez que vous tester .y n θ B 1 R D dim ( B 1 ) = de B 0B 1 dim ( B 0 ) = m H 0 : { θ B 0 }l(θy)ynθB1Rddim(B1)=sB0B1dim(B0)=mH0:{θB0}

Le rapport de vraisemblance est Définit la déviance . Ensuite, le théorème de Wilks dit que, dans les hypothèses de régularité habituelles, est asymptotiquement distribué avec degrés de liberté lorsque est vrai.d(y)=2log(lr(y))d(y)2s-mH0

lr(y)=supθB1l(θy)supθB0l(θy).
d(y)=2log(lr(y))d(y)χ2smH0

Il est prouvé dans le document original de Wilk mentionné par @Nick. Je pense que cet article n'est pas facile à lire. Wilks a publié un livre plus tard, avec peut-être une présentation plus facile de son théorème. Une courte preuve heuristique est donnée dans l'excellent livre de Williams .

Stéphane Laurent
la source
3
Dommage que ce théorème ne soit pas mentionné dans la page de wikipedia consacrée à Samuel S. Wilks
Stéphane Laurent
5
Oh viens Stéphane. Ceci est Wikipedia, vous pouvez l'éditer et l'améliorer!
mardi
1
@StasK Je le sais mais je n'ai jamais essayé. Et je passe déjà trop de temps dans ma vie avec la statistique et les mathématiques;)
Stéphane Laurent
Y a-t-il une intuition pour laquelle le 2 est devant le journal dans la définition de la déviance?
user56834
@ Programmer2134 Il est dérivé d'une extension de taylor de second ordre.
Frank Vel
25

J'appuie le commentaire sévère de Nick Sabbe, et ma réponse courte est que ce n'est pas le cas . Je veux dire, ce n'est que dans le modèle linéaire normal. Dans des circonstances absolument différentes, la distribution exacte n’est pas un . Dans de nombreuses situations, vous pouvez espérer que les conditions du théorème de Wilks soient satisfaites, puis asymptotiquement, la statistique du test du rapport log-vraisemblance converge dans la distribution vers . Les limitations et violations des conditions du théorème de Wilks sont trop nombreuses pour être ignorées.χ 2χ2χ2

  1. Le théorème suppose des données iid s'attendre à des problèmes avec les données dépendantes, telles que des séries chronologiques ou des échantillons de l' enquête de probabilités inégales (dont les vraisemblances sont mal définis, de toute façon, le « régulier » tests, tels que les tests d'indépendance dans les tableaux de contingence , commencez à vous comporter comme une somme ( Rao & Scott ). Pour les données iid, , et la somme devient le Mais pour non -des données indépendantes, ce n'est plus le cas.χ 2 Σ k a k v k , v k ~ iid χ 2 1 a k = 1 χ 2χ2kakvk,vki.i.d.χ12ak=1χ2
  2. Le théorème suppose que le paramètre vrai se trouve à l'intérieur de l'espace des paramètres. Si vous avez un espace euclidien avec lequel travailler, ce n'est pas un problème. Cependant, dans certains problèmes, des restrictions naturelles peuvent survenir, telles que variance 0 ou corrélation entre -1 et 1. Si le paramètre vrai est l’une des limites, la distribution asymptotique est un mélange de de degrés différents de la liberté, dans le sens où le cdf du test est la somme de tels cdfs ( Andrews 2001 , plus deux ou trois autres de ses écrits de la même période, l’histoire remontant à Chernoff 1954 ).χ 2χ2
  3. Le théorème suppose que tous les dérivés pertinents sont non nuls. Cela peut être contesté avec certains problèmes non linéaires et / ou paramétrisations, et / ou situations dans lesquelles un paramètre n'est pas identifié sous la valeur NULL. Supposons que vous ayez un modèle de mélange gaussien et que votre valeur NULL est une composante rapport à la variante de deux composantes distinctes avec une fraction de mélange . Le null est apparemment imbriqué dans l'alternative, mais cela peut s'exprimer de différentes manières: comme (auquel cas les paramètres ne sont pas identifiés), (auquel casf N ( μ 1 , σ 2 1 ) + ( 1 - f ) N ( μ 2 , σ 2 2 ) f f = 0 μ 1 , σ 2 1 f = 1 μ 2 , σ 2 2 μ 1 = μ 2 , σ 1N(μ0,σ02)fN(μ1,σ12)+(1f)N(μ2,σ22)ff=0μ1,σ12f=1μ2,σ22ne sont pas identifiés) ou (auquel cas n'est pas identifié). Ici, vous ne pouvez même pas dire combien de degrés de liberté votre test devrait avoir, car vous avez un nombre différent de restrictions en fonction de la manière dont vous paramétrez l'imbrication. Voir le travail de Jiahua Chen à ce sujet, par exemple CJS 2001 . fμ1=μ2,σ1=σ2f
  4. Le peut fonctionner correctement si la distribution a été correctement spécifiée. Mais si ce n'était pas le cas, le test échouera à nouveau. Dans la sous-zone (largement négligée par les statisticiens) de l'analyse multivariée connue sous le nom de modélisation de covariance par équation structurelle, une distribution normale multivariée est souvent supposée, mais même si la structure est correcte, le test se comportera mal si la distribution est différente. Satorra et Bentler 1995 indiquent que la distribution deviendra , comme les données non indépendantes de mon point 1, mais ils ont également montré comment s dépend de la structure du modèle et des quatrièmes moments de la distribution.Σ k a k v k , v k ~ IID χ 2 1 a kχ2kakvk,vki.i.d.χ12ak
  5. Pour les échantillons finis, dans une grande classe de situations, le rapport de vraisemblance est corrigible par Bartlett : while pour un échantillon de taille , et étant la fonction de distribution de la distribution , pour les problèmes de vraisemblance régulière, vous pouvez trouver une constante telle que , c'est-à-dire à un ordre supérieur de précision. Donc, l' approximation de pour les échantillons finis peut être améliorée (et devrait probablement être améliorée si vous savez comment faire). La constanteProb[d(y)x]=F(x;χd2)[1+O(n1)]nF(x;χd2)χd2bχ 2 bProb[d(y)/(1+b/n)x]=F(x;χd2)[1+O(n2)]χ2b dépend de la structure du modèle et parfois des paramètres auxiliaires, mais s’ils peuvent être estimés de manière cohérente, cela contribue également à améliorer l’ordre de couverture.

Pour un examen de ces problèmes ésotériques similaires et similaires en inférence de probabilité, voir Smith 1989 .

StasK
la source
1
B0B1 χ2
Avec variance connue, je devrais ajouter.
mardi