Interprétation de la sortie de régression logistique dans R

13

Je travaille sur une régression logistique multiple dans R en utilisant glm. Les variables prédictives sont continues et catégoriques. Un extrait du résumé du modèle montre ce qui suit:

Coefficients:
               Estimate Std. Error z value Pr(>|z|)
(Intercept)   2.451e+00  2.439e+00   1.005   0.3150
Age           5.747e-02  3.466e-02   1.658   0.0973 .
BMI          -7.750e-02  7.090e-02  -1.093   0.2743
...
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Intervalles de confiance:

                  2.5 %       97.5 %
(Intercept)  0.10969506 1.863217e+03
Age          0.99565783 1.142627e+00
BMI          0.80089276 1.064256e+00
...

Rapports impairs:

                 Estimate Std. Error   z value Pr(>|z|)
(Intercept)  1.159642e+01  11.464683 2.7310435 1.370327
Age          1.059155e+00   1.035269 5.2491658 1.102195
B            9.254228e-01   1.073477 0.3351730 1.315670
...

UNEgeUNEgeUNEgeUNEge

SabreWolfy
la source
8
Elle n'est significative qu'au niveau de confiance de 10%, mais les intervalles de confiance sont de 5%.
Nick Sabbe
Les intervalles de confiance pour 10% n'incluraient donc pas 1 alors?
SabreWolfy
La valeur de p (dernière colonne de la première table) est la chance que le résultat obtenu ou pire soit atteint si l'hypothèse nulle était vraie. L'intervalle de confiance est une / la région qui contiendra la vraie valeur, par exemple dans 95% des cas. S'il ne contient pas la valeur vraie hypothétique, il y a au plus 5% de chances que nous obtenions le résultat obtenu ou pire, si l'hypothèse est vraie. Cela impliquerait donc que votre valeur p soit inférieure à 5%. Il existe une relation très étroite entre les valeurs de p et les intervalles de confiance (statistiques 101). Mais en bref: oui, l'IC pour 10% inclura 1.
Nick Sabbe
Il semble que vous supposiez la linéarité. Comment est-ce justifié?
Frank Harrell

Réponses:

8

Il y a une multitude de questions ici sur le site qui aideront à l'interprétation de la sortie des modèles (voici trois exemples différents, 1 2 3 , et je suis sûr qu'il y en a plus si vous fouillez dans les archives). Voici également un didacticiel sur le site Web des statistiques de l'UCLA sur la façon d'interpréter les coefficients de régression logistique.

Bien que le rapport de cotes pour le coefficient d'âge soit proche de un, cela ne signifie pas nécessairement que l'effet est faible (qu'un effet soit petit ou grand est souvent autant une question normative qu'empirique). Il faudrait connaître la variation typique de l'âge entre les observations pour se faire une opinion plus éclairée.

Andy W
la source
Merci pour le lien vers le tutoriel, qui semble complet. J'ai fait une recherche ici avant de poster ma question. Les liens 1 et 3 ne semblent pas liés à ma question.
SabreWolfy
@SabreWolfy, le lien 1 explique plus en détail comment interpréter les coefficients en termes d'unités d'origine, le lien 3 décrit les étapes pour interpréter les effets en termes de probabilités (ce qui est vraiment applicable à votre question, et les tracés suggérés dans cette question seraient une réponse raisonnable à moi disant que la taille de l'effet direct est difficile à interpréter sans connaître la variation de l'âge).
Andy W
5
(1.05930-1)×100%=458%
Le lien UCLA est mort, mais celui-ci correspond probablement (au moins son contenu m'aide à comprendre cette question).
MBR