Si vous vouliez vraiment dire log-vraisemblance , alors la réponse est: ce n'est pas toujours zéro.
Par exemple, considérons les données de Poisson: yje∼ Poisson ( μje) , i = 1 , … , n . La log-vraisemblance pour Oui= ( y1, … , Yn) est donnée par:
ℓ ( μ ; Y) = - ∑i = 1nμje+ ∑i = 1nyjeJournalμje- ∑i = 1nJournal( yje! ) .( ∗ )
Différencier ℓ ( μ ; Y) en ( ∗ ) par rapport à μje et le mettre à 0 (c'est ainsi que l'on obtient le MLE pour le modèle saturé):
- 1 + yjeμje= 0.
Résoudre cela pour
μjepour obtenir
μ i=yi,remplaçant
μ inouveau dans
(*)pour
μidonne que le log-vraisemblance du modèle saturé est:
ℓ( μ ;Y)=n ∑ i=1yi(logyi-1)-n ∑ i=μ^je= yjeμ^je( ∗ )μjeℓ ( μ^; Oui) = ∑i = 1nyje( journalyje- 1 ) - ∑i = 1nJournal( yje! ) ≠ 0
moins que
yjeprenne des valeurs très spéciales.
Dans la page d'aide de la R
fonction glm
, sous l'élément deviance
, le document explique ce problème comme suit:
deviance
jusqu'à une constante, moins le double de la log-vraisemblance maximisée. Lorsqu'elle est sensible, la constante est choisie pour qu'un modèle saturé ait une déviance nulle.
Notez qu'il a mentionné que la déviance , au lieu de la log-vraisemblance du modèle saturé, est choisie pour être nulle.
Probablement, ce que vous vouliez vraiment confirmer, c'est que "la déviance du modèle saturé est toujours donnée comme nulle", ce qui est vrai, depuis la déviance, par définition (voir la section 4.5.1 de l' analyse des données catégorielles (2e édition) par Alan Agresti) est la statistique du rapport de vraisemblance d'un GLM spécifié au modèle saturé. Ce qui constant
précède dans la documentation R est en fait le double de la vraisemblance maximisée du log du modèle saturé.
En ce qui concerne votre affirmation "Pourtant, la façon dont la formule de la déviance est donnée suggère que parfois cette quantité est non nulle", c'est probablement en raison de l'abus d'utilisation du terme déviance . Par exemple, dans R, la statistique du rapport de vraisemblance de la comparaison de deux modèles arbitraires (imbriqués) et M 2 est également appelée déviance, qui serait plus précisément appelée la différence entre la déviance de M 1 et la déviance de M 2 , si nous suivions de près la définition donnée dans le livre d'Agresti.M1M2M1M2
Conclusion
La log-vraisemblance du modèle saturé est en général non nulle.
La déviance (dans sa définition d'origine) du modèle saturé est nulle.
La sortie de déviance des logiciels (tels que R) est en général non nulle car elle signifie en réalité autre chose (la différence entre les déviances).
Voici la dérivation pour le cas général de la famille exponentielle et un autre exemple concret. Supposons que les données proviennent de la famille exponentielle (voir Statistiques appliquées modernes avec S , chapitre ):
f ( y i ; θ i , φ ) = exp [ A i ( y i θ i - γ ( θ i ) ) / φ + τ ( y i , φ / A i ) ] .sept
F( yje; θje, φ ) = exp[ Aje( yjeθje- γ( θje) ) / φ + τ( yje, φ / Aje) ] .(1)
où
sont des poids antérieurs connus et
φ sont un paramètre de dispersion / échelle (pour de nombreux cas tels que binomial et Poisson, ce paramètre est connu, tandis que pour d'autres cas tels que normal et Gamma, ce paramètre est inconnu). La log-vraisemblance est alors donnée par:
ℓ ( θ , φ ; Y ) = n ∑ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n ∑ i = 1 τUNEjeφ
Comme dans l'exemple de Poisson, les paramètres du modèle saturé peuvent être estimés en résolvant lafonction de
scoresuivante:
0 = U ( θ i ) = ∂ ℓ ( θ , φ ; Y )ℓ ( θ , φ ; Y) = ∑i = 1nUNEje( yjeθje- γ( θje) ) / φ + ∑i = 1nτ( yje, φ / Aje) .
0 = U( θje) = ∂ℓ ( θ , φ ; Y)∂θje= Aje( yje- γ′( θje) )φ
Désignons la solution de l'équation ci - dessus par θ i , alors la forme générale de la log-vraisemblance du modèle saturé (traiter le paramètre d'échelle comme constante) est:
ℓ ( θ , φ ; Y ) = n Σ i = 1 A i ( y i θ i - γ ( θ i ) ) / φ + n Σ i = 1 τ ( y i , φθ^je
ℓ ( θ^, φ ; Oui) = ∑i = 1nUNEje( yjeθ^je- γ( θ^je) ) / φ + ∑i = 1nτ( yje, φ / Aje) .( ∗ ∗ )
( ∗ ∗ )Γ ( α , β)
F( y; α , β) = βαΓ ( α )e- βyyα - 1,y> 0 , α > 0 , β> 0 ,
F( 1 )φ = 1α,θ = - βα,
FF( y; θ , φ ) = exp[ θ y- ( - journal( - θ ) )φ+ τ( y, φ ) ] ,
τ( y, φ ) = - logφφ+ ( 1φ- 1 ) journaly- journalΓ ( φ- 1) .
θ^je= - 1yje∑i = 1n1φ[ θ^jeyje- ( - journal( - θ^je) ) ] = ∑i = 1n1φ[ - 1 - journal( yje) ] ≠ 0 ,
sauf si
yje prendre des valeurs très spéciales.
La réponse de Zhanxiong est déjà excellente (+1), mais voici une démonstration rapide que la log-vraisemblance du modèle saturé est0 pour une régression logistique. J'ai pensé que je posterais parce que je n'ai pas vu ce TeX sur ce site, et parce que je viens de les écrire pour une conférence.
La probabilité estL ( y ; X , β ) = ∏i = 1nF( yje; Xje, β ) = ∏i = 1nπyjeje( 1 - πje)1 - yje= ∏i = 1n( πje1 - πje)yje( 1 - πje)(1)
où πje= invlogit ( x⊺jeβ ) .
La log-vraisemblance estJournalL ( y ; X , β )= ∑i = 1nyjeJournal( πje1 - πje) +journal( 1 - πje)= ∑i = 1nyjelogit ( πje) + journal( 1 - πje)= ∑i = 1nyjeX⊺jeβ + log( 1 - invlogit ( x⊺jeβ ) )= ∑i = 1nyjeX⊺jeβ + log( invlogit ( - x⊺jeβ ) )= ∑i = 1nyjeX⊺jeβ - log( 1 + exp[ x⊺jeβ ] ) )
Si vous prenez les dérivées par rapport à tous les coefficients que vous obtenez∇ ℓ ( β ) = ∑i = 1nyjeXje- exp[ x⊺jeβ ]( 1 + exp[ x⊺jeβ ] )Xje.(2)
Définition de cette expression égale à0 et résoudre pour β vous donnera votre réponse. Habituellement, cela ne peut pas être fait analytiquement, ce qui explique la popularité / nécessité d'utiliser des algorithmes itératifs pour s'adapter à ce modèle, mais dans le cas d'un modèle saturé, c'est possible.
Pour trouver le modèle saturé, nous donnons à chaque ligne son propre coefficient. Doncβ ∈ Rn et la matrice de conception multipliée par le vecteur de coefficient est
X β= ⎡⎣⎢⎢⎢⎢⎢10⋮001⋮0⋯⋯⋱⋯00⋮1⎤⎦⎥⎥⎥⎥⎥⎡⎣⎢⎢⎢⎢β1β2⋮βn⎤⎦⎥⎥⎥⎥.
Notez qu'en particulier,X⊺jeβ = βje .
Donc, en prenant lej e ligne de l'équation (2) nous donne
∑i = 1nyjeXi , j= ∑i = 1nexp[ x⊺jeβ ]( 1 + exp[ x⊺jeβ ] )Xi , j
ce qui ne peut être vrai que pour chaque observationje :
la source
glm( cbind(k, n-k) ~ x + ...
), alors le modèle saturé n'a pas de loglik vraisemblance nulle.@Alex: oui, c'est vrai. au moins pour les distributions discrètes. pour des distributions continues, cela reviendrait à laisser la densité égale à 1, ce qui n'est pas nécessairement significatif et donc pas une chose sensée à essayer de réaliser. un peu plus généralement, la log-vraisemblance du modèle saturé vous donne une limite supérieure pour les performances de tout modèle qui suit votre hypothèse de la famille de distribution sous-jacente. En d'autres termes, la probabilité logarithmique d'un modèle binomial saturé est "aussi bonne que possible" pour l'ensemble de données donné (X, Y) en supposant que Y est binomial. Il est logique de comparer votre modèle glm à cette limite supérieure par opposition, par exemple, à 100% (ou similaire), car votre modèle est intrinsèquement contraint par votre hypothèse sur la distribution des réponses.
la source