J'utilise la glmfit
fonction dans MATLAB. La fonction renvoie uniquement la déviance et non la vraisemblance du journal. Je comprends que la déviance est fondamentalement deux fois la différence entre les probabilités logarithmiques des modèles, mais ce que je n'obtiens pas, c'est que je n'utilise que glmfit
pour créer un modèle, mais d'une manière ou d'une autre je reçois une déviance.
- Le calcul de la probabilité -2 Log ne nécessite-t-il pas 2 modèles?
- Comment analyser la déviance lorsqu'il n'y a qu'un seul modèle?
Une autre question que je me pose est de dire que j'avais deux modèles et que je les comparais en utilisant le test de vraisemblance logarithmique. L'hypothèse nulle serait le premier modèle et l'hypothèse alternative serait le deuxième modèle. Après avoir obtenu la statistique du test de vraisemblance du log, puis-je la comparer au cdf au carré du chi pour déterminer la valeur de p? Ai-je raison de dire que si elle est inférieure au niveau alpha, je rejetterais la valeur nulle et si elle est supérieure, je ne parviendrais pas à rejeter la valeur nulle?
la source
Réponses:
Le terme statistique déviance est un peu trop utilisé. La plupart du temps, les programmes renvoient la dévianceD ( y) = - 2 log{ p ( y|θ^) } ,
où θ^ est votre paramètre estimé (s) de l'ajustement du modèle et y est une occurrence potentiellement observée / observable de la quantité aléatoire en question.
La déviance la plus courante à laquelle vous faites référence traiterait la déviance ci-dessus en fonction de deux variables, à la fois les données et les paramètres ajustés:D ( y,θ^) = - 2 log{ p ( y|θ^) }
et donc si vous en aviez un y mais deux valeurs de paramètres ajustées concurrentes, θ^1 et θ^2 , alors vous obtiendrez la déviance dont vous avez parlé −2(log{p(y|θ^1)}−log{p(y|θ^2)}).
Vous pouvez lire sur la fonction Matlab que vous avez mentionnée
glmfit()
, liée ici . Une discussion plus fructueuse, quoique plus courte, de la déviance est liée ici .La statistique de déviance suppose implicitement deux modèles: le premier est votre modèle ajusté, renvoyé parθ^1 . Le second est le "modèle complet" (également appelé "modèle saturé"), qui est un modèle dans lequel il existe une variable libre pour chaque point de données, appelez ce vecteur de paramètreθ^s . Avoir autant de variables libres est évidemment une chose stupide à faire, mais cela vous permet de vous adapter exactement à ces données.
glmfit()
, appelez ce vecteur de paramètreAinsi, les statistiques de déviance sont calculées comme la différence entre la vraisemblance logarithmique calculée au modèle ajusté et le modèle saturé. LaisserY={y1,y2,⋯,yN} être la collecte des N points de données. Alors:
Voir le chapitre 6 de l'analyse des données bayésiennes pour une bonne discussion de la déviance.
Quant à votre deuxième point sur la statistique du test de vraisemblance, oui, il semble que vous sachiez fondamentalement ce qu'il faut faire. Mais dans de nombreux cas, vous considérerez l'hypothèse nulle comme quelque chose d'expert, les connaissances externes vous permettent de deviner à l'avance (comme un coefficient égal à zéro). Ce n'est pas nécessairement quelque chose qui résulte de l'ajustement d'un modèle.
la source