J'ai effectué une régression logistique multivariée avec la variable dépendante Y
étant le décès dans une maison de soins infirmiers dans une certaine période d'entrée et j'ai obtenu les résultats suivants (notez que si les variables commencent dans A
c'est une valeur continue tandis que celles qui commencent dans B
sont catégoriques):
Call:
glm(Y ~ A1 + B2 + B3 + B4 + B5 + A6 + A7 + A8 + A9, data=mydata, family=binomial)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.0728 -0.2167 -0.1588 -0.1193 3.7788
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 20.048631 6.036637 3.321 0.000896 ***
A1 0.051167 0.016942 3.020 0.002527 **
B2 -0.664940 0.304299 -2.185 0.028878 *
B3 -2.825281 0.633072 -4.463 8.09e-06 ***
B4 -2.547931 0.957784 -2.660 0.007809 **
B5 -2.862460 1.385118 -2.067 0.038774 *
A6 -0.129808 0.041286 -3.144 0.001666 **
A7 0.020016 0.009456 2.117 0.034276 *
A8 -0.707924 0.253396 -2.794 0.005210 **
A9 0.003453 0.001549 2.229 0.025837 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 485.10 on 2206 degrees of freedom
Residual deviance: 417.28 on 2197 degrees of freedom
AIC: 437.28
Number of Fisher Scoring iterations: 7
(Intercept) A1 B2 B3 B4 B5 A6 A7 A8 A9
5.093426e+08 1.052499e+00 5.143045e-01 5.929197e-02 7.824340e-02 5.712806e-02 8.782641e-01 1.020218e+00 4.926657e-01 1.003459e+00
2.5 % 97.5 %
(Intercept) 3.703525e+03 7.004944e+13
A1 1.018123e+00 1.088035e+00
B2 2.832698e-01 9.337710e-01
B3 1.714448e-02 2.050537e-01
B4 1.197238e-02 5.113460e-01
B5 3.782990e-03 8.627079e-01
A6 8.099945e-01 9.522876e-01
A7 1.001484e+00 1.039302e+00
A8 2.998207e-01 8.095488e-01
A9 1.000416e+00 1.006510e+00
Comme vous pouvez le voir, toutes les variables sont "significatives" en ce que leurs valeurs de p sont inférieures au seuil habituel de 0,05. Cependant, en regardant les coefficients, je ne sais pas trop quoi faire de ces résultats. Il semble que bien que ces variables contribuent au modèle, en examinant les rapports de cotes, elles ne semblent pas vraiment avoir beaucoup de pouvoir prédictif. Il est à noter que lorsque j'ai calculé l'ASC, j'ai obtenu environ 0,8.
Puis-je dire que ce modèle est meilleur pour prévoir la mortalité (p. Ex. Prédire que les personnes âgées vivront au-delà de la période prescrite) que pour prédire la mortalité?
la source
Réponses:
C
Dxy
Comme indiqué ci-dessus, le modèle est probablement trop optimiste. Nous utilisons maintenant le bootstrap pour quantifier l'optimisme:
optimism
index.corrected
Nous pouvons également calculer une courbe d'étalonnage en utilisant le rééchantillonnage:
La construction de modèles prédictifs est un grand sujet et je suggère de lire les notes de cours de Frank Harrell .
la source
rms
package @COOLSerdash et Nick.Remarque sur l'interprétation des coefficients: rappelez-vous qu'ils dépendent de la façon dont les prédicteurs sont écrits sous forme de nombres. Ainsi, pour les variables continues, elles dépendent des unités dans lesquelles elles sont mesurées; pour les prédicteurs catégoriques, le schéma de codage. Ne soyez pas tenté de penser que, disons, A9 est «sans importance» simplement parce que son coefficient de 0,003453 est petit - A9 peut varier sur plusieurs ordres de grandeur dans une population d'intérêt tandis que les autres prédicteurs ne varient que légèrement, ou il peut être facile à régler sur des valeurs très élevées ou faibles tandis que les autres sont difficiles à changer beaucoup.
la source