Dans un GLM, la probabilité logarithmique du modèle saturé est-elle toujours nulle?

14

Dans le cadre de la sortie d'un modèle linéaire généralisé, la déviance nulle et résiduelle est utilisée pour évaluer le modèle. Je vois souvent les formules de ces quantités exprimées en termes de probabilité logarithmique du modèle saturé, par exemple: /stats//a/113022/22199 , Régression logistique: comment obtenir un modèle saturé

Le modèle saturé, pour autant que je le comprends, est le modèle qui correspond parfaitement à la réponse observée. Ainsi, dans la plupart des endroits que j'ai vus, la log-vraisemblance du modèle saturé est toujours donnée comme nulle.

Pourtant, la façon dont la formule de la déviance est donnée suggère que parfois cette quantité est non nulle. (Comme si c'était toujours zéro, pourquoi s'embêter à l'inclure?)

Dans quels cas peut-elle être non nulle? S'il n'est jamais non nul, pourquoi l'inclure dans la formule de déviance?

Alex
la source

Réponses:

18

Si vous vouliez vraiment dire log-vraisemblance , alors la réponse est: ce n'est pas toujours zéro.

Par exemple, considérons les données de Poisson: yjePoisson(μje),je=1,,n . La log-vraisemblance pour Oui=(y1,,yn) est donnée par:

()(μ;Oui)=-je=1nμje+je=1nyjeJournalμje-je=1nJournal(yje!).

Différencier (μ;Oui) en () par rapport à μje et le mettre à 0 (c'est ainsi que l'on obtient le MLE pour le modèle saturé):

-1+yjeμje=0.
Résoudre cela pourμjepour obtenir μ i=yi,remplaçant μ inouveau dans(*)pourμidonne que le log-vraisemblance du modèle saturé est: ( μ ;Y)=n i=1yi(logyi-1)-n i=μ^je=yjeμ^je()μje
(μ^;Oui)=je=1nyje(Journalyje-1)-je=1nJournal(yje!)0
moins queyjeprenne des valeurs très spéciales.

Dans la page d'aide de la Rfonction glm, sous l'élément deviance, le document explique ce problème comme suit:

deviance jusqu'à une constante, moins le double de la log-vraisemblance maximisée. Lorsqu'elle est sensible, la constante est choisie pour qu'un modèle saturé ait une déviance nulle.

Notez qu'il a mentionné que la déviance , au lieu de la log-vraisemblance du modèle saturé, est choisie pour être nulle.

Probablement, ce que vous vouliez vraiment confirmer, c'est que "la déviance du modèle saturé est toujours donnée comme nulle", ce qui est vrai, depuis la déviance, par définition (voir la section 4.5.1 de l' analyse des données catégorielles (2e édition) par Alan Agresti) est la statistique du rapport de vraisemblance d'un GLM spécifié au modèle saturé. Ce qui constantprécède dans la documentation R est en fait le double de la vraisemblance maximisée du log du modèle saturé.

En ce qui concerne votre affirmation "Pourtant, la façon dont la formule de la déviance est donnée suggère que parfois cette quantité est non nulle", c'est probablement en raison de l'abus d'utilisation du terme déviance . Par exemple, dans R, la statistique du rapport de vraisemblance de la comparaison de deux modèles arbitraires (imbriqués) et M 2 est également appelée déviance, qui serait plus précisément appelée la différence entre la déviance de M 1 et la déviance de M 2 , si nous suivions de près la définition donnée dans le livre d'Agresti.M1M2M1M2

Conclusion

  1. La log-vraisemblance du modèle saturé est en général non nulle.

  2. La déviance (dans sa définition d'origine) du modèle saturé est nulle.

  3. La sortie de déviance des logiciels (tels que R) est en général non nulle car elle signifie en réalité autre chose (la différence entre les déviances).


Voici la dérivation pour le cas général de la famille exponentielle et un autre exemple concret. Supposons que les données proviennent de la famille exponentielle (voir Statistiques appliquées modernes avec S , chapitre ): f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .sept

(1)F(yje;θje,φ)=exp[UNEje(yjeθje-γ(θje))/φ+τ(yje,φ/UNEje)].
sont des poids antérieurs connus et φ sont un paramètre de dispersion / échelle (pour de nombreux cas tels que binomial et Poisson, ce paramètre est connu, tandis que pour d'autres cas tels que normal et Gamma, ce paramètre est inconnu). La log-vraisemblance est alors donnée par: ( θ , φ ; Y ) = n i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n i = 1 τUNEjeφ Comme dans l'exemple de Poisson, les paramètres du modèle saturé peuvent être estimés en résolvant lafonction descoresuivante: 0 = U ( θ i ) = ( θ , φ ; Y )
(θ,φ;Oui)=je=1nUNEje(yjeθje-γ(θje))/φ+je=1nτ(yje,φ/UNEje).
0=U(θje)=(θ,φ;Oui)θje=UNEje(yje-γ(θje))φ

Désignons la solution de l'équation ci - dessus par θ i , alors la forme générale de la log-vraisemblance du modèle saturé (traiter le paramètre d'échelle comme constante) est: ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τ ( y i , φθ^je

()(θ^,φ;Oui)=je=1nUNEje(yjeθ^je-γ(θ^je))/φ+je=1nτ(yje,φ/UNEje).

()Γ(α,β)


F(y;α,β)=βαΓ(α)e-βyyα-1,y>0,α>0,β>0,
F(1)
φ=1α,θ=-βα,
F
F(y;θ,φ)=exp[θy-(-Journal(-θ))φ+τ(y,φ)],
τ(y,φ)=-Journalφφ+(1φ-1)Journaly-JournalΓ(φ-1).
θ^je=-1yje
je=1n1φ[θ^jeyje-(-Journal(-θ^je))]=je=1n1φ[-1-Journal(yje)]0,
sauf si yje prendre des valeurs très spéciales.
Zhanxiong
la source
1
La vraisemblance logicielle est-elle nulle si et seulement si le modèle peut attribuer une probabilité de 100% à chacun des résultats possibles?
Alex
Je ne comprends pas très bien ce que tu voulais dire. Mais d'après ma dérivation, vous pourriez conclure qu'il est0 si et seulement si le τ est identique 0 et il n'y a pas de paramètre de dispersion.
Zhanxiong du
Votre dérivation est très bonne mais la preuve formelle est un peu au-dessus de ma tête en ce moment. Merci pour votre exemple avec le modèle de Poisson. Ce que j'ai retenu de cet exemple, c'est que le modèle de Poisson ne peut pas attribuer une probabilité de 100% au résultat observé étant donné une valeur pour la moyenne de Poisson, donc la probabilité ne peut pas être nulle.
Alex
L'instruction "model assign 100% probabilité pour le résultat observé "me semble bizarre. Voulez-vous dire que compte tenu des observations y1,,yn, et si Oui est une variable aléatoire de Poisson, P(Oui=y1)+P(Oui=y2)++P(Oui=yn)<1?
Zhanxiong
1
Ce que je voulais dire, c'est que si Oui était une variable aléatoire de Poisson, alors P(Oui=yje)<1 pour toute jeou moyenne de Poisson, il est donc impossible de trouver un paramètre de modèle qui donne une probabilité logarithmique nulle pour l'observé. Peut-être que je comprends complètement mal le concept d'un modèle saturé.
Alex
4

La réponse de Zhanxiong est déjà excellente (+1), mais voici une démonstration rapide que la log-vraisemblance du modèle saturé est 0pour une régression logistique. J'ai pensé que je posterais parce que je n'ai pas vu ce TeX sur ce site, et parce que je viens de les écrire pour une conférence.

La probabilité est

(1)L(y;X,β)=je=1nF(yje;Xje,β)=je=1nπjeyje(1-πje)1-yje=je=1n(πje1-πje)yje(1-πje)
πje=invlogit(Xjeβ).

La log-vraisemblance est

JournalL(y;X,β)=je=1nyjeJournal(πje1-πje)+Journal(1-πje)=je=1nyjelogit(πje)+Journal(1-πje)=je=1nyjeXjeβ+Journal(1-invlogit(Xjeβ))=je=1nyjeXjeβ+Journal(invlogit(-Xjeβ))=je=1nyjeXjeβ-Journal(1+exp[Xjeβ]))

Si vous prenez les dérivées par rapport à tous les coefficients que vous obtenez

(2)(β)=je=1nyjeXje-exp[Xjeβ](1+exp[Xjeβ])Xje.

Définition de cette expression égale à 0 et résoudre pour βvous donnera votre réponse. Habituellement, cela ne peut pas être fait analytiquement, ce qui explique la popularité / nécessité d'utiliser des algorithmes itératifs pour s'adapter à ce modèle, mais dans le cas d'un modèle saturé, c'est possible.

Pour trouver le modèle saturé, nous donnons à chaque ligne son propre coefficient. DoncβRn et la matrice de conception multipliée par le vecteur de coefficient est

Xβ=[100010001][β1β2βn].

Notez qu'en particulier, Xjeβ=βje.

Donc, en prenant le je ligne de l'équation (2) nous donne

je=1nyjeXje,j=je=1nexp[Xjeβ](1+exp[Xjeβ])Xje,j

ce qui ne peut être vrai que pour chaque observation je:

yje=invlogit(βje)
ou en d'autres termes chacun βje est l'infini plus ou moins (si yje est 1 ou 0, respectivement). Nous pouvons rebrancher ces paramètres dans (1) pour obtenir la probabilité maximisée:
je=1nπ^jeyje(1-π^je)1-yje=1n=1.
De toute évidence, le journal de ceci est 0.

Taylor
la source
Mais cela suppose des données non groupées . Si vous avez des groupes avecnje>1(et les mêmes covariables) (dans R, par exemple en utilisant le formulaire glm( cbind(k, n-k) ~ x + ... ), alors le modèle saturé n'a pas de loglik vraisemblance nulle.
kjetil b halvorsen
@kjetilbhalvorsen oh bon point. Je n'ai jamais essayé ça, laisse-moi vérifier
Taylor
1

@Alex: oui, c'est vrai. au moins pour les distributions discrètes. pour des distributions continues, cela reviendrait à laisser la densité égale à 1, ce qui n'est pas nécessairement significatif et donc pas une chose sensée à essayer de réaliser. un peu plus généralement, la log-vraisemblance du modèle saturé vous donne une limite supérieure pour les performances de tout modèle qui suit votre hypothèse de la famille de distribution sous-jacente. En d'autres termes, la probabilité logarithmique d'un modèle binomial saturé est "aussi bonne que possible" pour l'ensemble de données donné (X, Y) en supposant que Y est binomial. Il est logique de comparer votre modèle glm à cette limite supérieure par opposition, par exemple, à 100% (ou similaire), car votre modèle est intrinsèquement contraint par votre hypothèse sur la distribution des réponses.

bettmensch88
la source