Une probabilité de -2 Log peut-elle être calculée avec un seul modèle?

9

J'utilise la glmfitfonction dans MATLAB. La fonction renvoie uniquement la déviance et non la vraisemblance du journal. Je comprends que la déviance est fondamentalement deux fois la différence entre les probabilités logarithmiques des modèles, mais ce que je n'obtiens pas, c'est que je n'utilise que glmfitpour créer un modèle, mais d'une manière ou d'une autre je reçois une déviance.

  • Le calcul de la probabilité -2 Log ne nécessite-t-il pas 2 modèles?
  • Comment analyser la déviance lorsqu'il n'y a qu'un seul modèle?

Une autre question que je me pose est de dire que j'avais deux modèles et que je les comparais en utilisant le test de vraisemblance logarithmique. L'hypothèse nulle serait le premier modèle et l'hypothèse alternative serait le deuxième modèle. Après avoir obtenu la statistique du test de vraisemblance du log, puis-je la comparer au cdf au carré du chi pour déterminer la valeur de p? Ai-je raison de dire que si elle est inférieure au niveau alpha, je rejetterais la valeur nulle et si elle est supérieure, je ne parviendrais pas à rejeter la valeur nulle?

shiu6rewgu
la source
2
À votre première question. Oui, il existe 2 modèles. L'autre est un modèle parfait avec log vraisemblance = 0. De cette façon, votre déviance est juste égale à la vraisemblance logarithmique de votre modèle.
FMZ
1
serait-ce un modèle parfait - mon modèle, ou mon modèle - un modèle parfait? Et le diviser par -2 me donnerait-il vraiment la probabilité logarithmique du modèle et je pourrais l'utiliser pour faire le test de vraisemblance logarithmique?
shiu6rewgu

Réponses:

13

Le terme statistique déviance est un peu trop utilisé. La plupart du temps, les programmes renvoient la déviance

D(y)=2log{p(y|θ^)},
θ^ est votre paramètre estimé (s) de l'ajustement du modèle et y est une occurrence potentiellement observée / observable de la quantité aléatoire en question.

La déviance la plus courante à laquelle vous faites référence traiterait la déviance ci-dessus en fonction de deux variables, à la fois les données et les paramètres ajustés:

D(y,θ^)=2log{p(y|θ^)}
et donc si vous en aviez un y mais deux valeurs de paramètres ajustées concurrentes, θ^1 et θ^2, alors vous obtiendrez la déviance dont vous avez parlé
2(log{p(y|θ^1)}log{p(y|θ^2)}).
Vous pouvez lire sur la fonction Matlab que vous avez mentionnée glmfit(), liée ici . Une discussion plus fructueuse, quoique plus courte, de la déviance est liée ici .

La statistique de déviance suppose implicitement deux modèles: le premier est votre modèle ajusté, renvoyé par glmfit(), appelez ce vecteur de paramètreθ^1. Le second est le "modèle complet" (également appelé "modèle saturé"), qui est un modèle dans lequel il existe une variable libre pour chaque point de données, appelez ce vecteur de paramètreθ^s. Avoir autant de variables libres est évidemment une chose stupide à faire, mais cela vous permet de vous adapter exactement à ces données.

Ainsi, les statistiques de déviance sont calculées comme la différence entre la vraisemblance logarithmique calculée au modèle ajusté et le modèle saturé. LaisserY={y1,y2,,yN}être la collecte des N points de données. Alors:

DEV(θ^1,Y)=2[logp(Y|θ^1)logp(Y|θ^s)].
Les termes ci-dessus seront développés en sommations sur les points de données individuels yipar l'hypothèse d'indépendance. Si vous souhaitez utiliser ce calcul pour calculer la log-vraisemblance du modèle, vous devrez d'abord calculer la log-vraisemblance du modèle saturé. Voici un lien qui explique quelques idées pour calculer cela ... mais le hic, c'est que dans tous les cas, vous devrez écrire une fonction qui calcule la probabilité de journalisation pour votre type de données, et dans ce cas il est probablement préférable de créer votre propre fonction qui calcule vous-même la probabilité de journalisation, plutôt que de la revenir en arrière à partir d'un calcul de déviance.

Voir le chapitre 6 de l'analyse des données bayésiennes pour une bonne discussion de la déviance.

Quant à votre deuxième point sur la statistique du test de vraisemblance, oui, il semble que vous sachiez fondamentalement ce qu'il faut faire. Mais dans de nombreux cas, vous considérerez l'hypothèse nulle comme quelque chose d'expert, les connaissances externes vous permettent de deviner à l'avance (comme un coefficient égal à zéro). Ce n'est pas nécessairement quelque chose qui résulte de l'ajustement d'un modèle.

ely
la source
Merci EMS! Vous m'avez vraiment aidé à comprendre ce qu'est beaucoup la déviance! J'ai encore quelques questions, mais je ne sais pas comment les poser. Une fois que j'aurai compris comment le formuler, je répondrai certainement ici.
shiu6rewgu
Ok première question, comment puis-je extraire la probabilité logarithmique du modèle que j'ai créé à partir de la déviance, étant donné que matlab ne me donne que la déviance? De plus, (je sais que cela me fait paraître assez stupide mais) pour p (y | θˆ2) serait-ce la probabilité d'obtenir une certaine valeur y à partir de l'ensemble de données de résultat ou des variables indépendantes compte tenu du paramètre ajusté
shiu6rewgu
Il semble que je m'étais trompé sur la méthode de Matlab. Il calcule la déviance en examinant deux modèles, et j'ai modifié la réponse ci-dessus pour refléter cela.
ely
+1, c'est une très bonne réponse. J'espère en voir plus à l'avenir.
gung - Réintégrer Monica
1
@SibbsGambling Dans ce lien, il y a un exemple avec des données d'arbre coolibah montrant un modèle "complet" ou "saturé" où la log-vraisemblance n'est pas nulle. Je crois qu'il y a certaines situations où le modèle saturé doit avoir une probabilité d'un par définition, mais pas dans toutes les situations.
le