Comment interpréter le terme d'interception dans un GLM?

20

J'utilise R et j'ai analysé mes données avec GLM avec lien binomial.

Je veux savoir quelle est la signification de l'interception dans le tableau de sortie. L'ordonnée à l'origine pour l'un de mes modèles est significativement différente, mais la variable ne l'est pas. Qu'est-ce que ça veut dire?

Quelle est l'interception. Je ne sais pas si je ne fais que m'embrouiller, mais après avoir cherché sur Internet, il n'y a rien à dire, c'est ça, faites attention ... ou pas.

S'il vous plaît, aidez, un étudiant très frustré


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5
Samuel Waldron
la source
1
Quelle est la fonction de liaison que vous spécifiez dans glm?
Tomas
5
L'ordonnée à l'origine est la valeur prédite de la variable dépendante lorsque toutes les variables indépendantes sont à 0. Sans plus d'informations sur votre modèle, je ne peux pas dire si cela est significatif dans votre cas.
Peter Flom - Réintègre Monica

Réponses:

21

Le terme d'interception est l'ordonnée à l'origine dans la partie linéaire de l'équation GLM, donc votre modèle pour la moyenne est , où g est votre fonction de liaison et X β est votre modèle linéaire. Ce modèle linéaire contient un "terme d'interception", c'est-à-dire:E[Y]=g1(Xβ)gXβ

Xβ=c+X1β1+X2β2+

Dans votre cas, l'ordonnée à l'origine est significativement non nulle, mais la variable ne l'est pas, donc cela signifie que

Xβ=c0

Parce que votre fonction de lien est binomiale, alors

g(μ)=ln(μ1μ)

Et donc avec juste le terme d'interception, votre modèle ajusté pour la moyenne est:

E[Y]=11+ec

Vous pouvez voir que si cela correspond simplement à une chance de 50:50 d'obtenir Y = 1 ou 0, c'est-à-dire E [ Y ] = 1c=0E[Y]=11+1=0.5

Donc, votre résultat indique que vous ne pouvez pas prédire le résultat, mais une classe (1 ou 0) est plus probable que l'autre.

Corone
la source
2
Tu m'as fait peur à E [Y] = .... :). Merci pour la réponse, je comprends bien ce que vous dites. Vous avez dit que l'interception est sig. non nul, mais la var. n'est pas, c'est p = 1,00!? Quel effet la variable p-value a-t-elle sur ce que je peux dire à propos du résultat?
Samuel Waldron
2
Si la valeur p d'une variable n'est pas petite, celle-ci n'inclurait généralement pas cette variable dans le modèle. Dans votre cas, la variable n'est même pas estimée avoir une valeur non nulle, d'où la valeur p de 1,00. Fondamentalement, il n'y a pas de relation entre "traitement" et "attacked_excluding_app". L'absence de relation est si parfaite ici qu'elle est presque suspecte, bien que vous ayez un petit ensemble de données. Il peut être utile de visualiser vos données et de voir si elles sont raisonnables.
Corone
2
+1 pour la réponse (et suggestion dans le commentaire que quelque chose d'étrange se produit dans l'ensemble de données), bien que je ne sois pas d'accord avec l'ouverture de votre commentaire "Si la valeur p d'une variable n'est pas petite, celle-ci n'inclurait généralement pas cette variable dans le modèle." Ce n'est pas nécessairement le cas - souvent, on veut signaler l'ampleur d'une relation, même si elle n'est pas "significative" (et plus précisément, si vous étiez intéressé par la modélisation d'une relation pour commencer, alors un résultat nul est toujours important à signaler.)
James Stanley
1
@James - très bon point, il faut toujours signaler les variables que vous avez testées - j'aurais dû être plus clair, je voulais simplement dire que l'on n'inclurait généralement pas cette variable lorsque vous essayez d'utiliser le modèle pour faire une prévision (car cela signifierait généralement un sur-ajustement ).
Corone
@Corone - Je suis particulièrement intéressé par vos commentaires ici sur l' inclusion
rolando2
5

Il me semble qu'il peut y avoir un problème avec les données. Il est étrange que l'estimation du paramètre pour le coefficient soit de 0,000. Il semble que votre DV et votre IV soient dichotomiques et que les proportions de votre DV ne varient pas du tout avec votre IV. Est-ce correct?

L'interception, comme je l'ai noté dans mon commentaire (et comme la réponse de @corone l'indique) est la valeur du DV lorsque le IV est 0. Comment votre IV a-t-il été codé? Cependant, le fait que l'estimation du coefficient soit de 0,000 implique que le IV ne fait aucune différence.

log(p1p)

Peter Flom - Réintégrer Monica
la source
Salut les gars, encore merci pour les commentaires. Les points de données sont presque identiques. Je le signale dans un rapport et je dois néanmoins le souligner. C'est pourquoi les résultats semblent étranges. Avec ces données (GLM) et d'autres ensembles de données dans mes rapports (GLMM), je cours en toute sécurité (# TEAM2x2x2x2) avant de pouvoir marcher. Je pense que mon principal problème est de savoir ce que je dois signaler, dois-je mentionner les statistiques de l'interception ou de l'IV? Ci-dessous est à nouveau mon (espérons-le plus standard) GLMM avec lien binomial.
Samuel Waldron
Modèle mixte linéaire généralisé ajusté par l'approximation de Laplace Formule: Attaqué ~ Traitement + Essai + Traitement * Essai + (1 | Oiseau) Données: données AIC BIC déviance logLik 139,6 153,8 -64,78 129,6 Effets aléatoires: Groupes Nom Variance Std.Dev. Oiseau (Intercept) 0,87795 0,93699 Nombre d'observations: 128, groupes: Oiseau, 32
Samuel Waldron
Effets fixes: Estimation Std. Erreur valeur z Pr (> | z |) (Intercept) 3.19504 0.90446 3.533 .000412 *** Traitementshiny_non-shiny 0.02617 1.26964 0.021 .983558 Trial -1.53880 0.36705 -4.192 2.76e-05 *** Traitement: Trial 0.16909 0.49501 0.342 .732655 --- Signif. codes: 0 ' ' 0,001 ' ' 0,01 ' ' 0,05 ''. 0.1 '' 1 Corrélation des effets fixes: (Intr) Trtm_- Trial Trtmntshn_- -0.712 Trial -0.895 0.638 Trtmnts _-: T 0.664 -0.896 -0.742
Samuel Waldron
3

Dans votre cas, l'ordonnée à l'origine est la grande moyenne de attacked_excluding_app, calculée pour toutes les données indépendamment de treatment. Le test de signification dans le tableau des coefficients vérifie s'il est significativement différent de zéro. Que cela soit pertinent dépend de si vous avez une raison a priori de vous attendre à ce qu'il soit nul ou non.

Par exemple, imaginez que vous avez testé un médicament et un placebo pour déterminer leur effet sur la pression artérielle. Pour chaque sujet, vous enregistrez la variation de leur tension artérielle en calculant (pression après traitement - pression avant traitement) et la traitez comme variable dépendante dans votre analyse. Vous constatez ensuite que l'effet du traitement (médicament vs placebo) n'est pas significatif mais que l'interception est significativement> 0 - cela vous indiquerait qu'en moyenne, la tension artérielle de vos sujets a augmenté entre les deux temps de mesure. Cela pourrait être intéressant et nécessiter une enquête plus approfondie.

Freya Harrison
la source