Analyse des coefficients de régression logistique

12

Voici une liste de coefficients de régression logistique (le premier est une interception)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Je trouve bizarre à quel point l'ordonnée à l'origine est si faible et j'ai un coefficient qui est en fait égal à 0. Je ne sais pas trop comment je l'interpréterais. Le 0 indique-t-il que la variable spécifique n'a aucun effet sur le modèle? Mais l'interception qui se fait en saisissant une de ses colonnes est soudainement vraiment importante? Ou mes données ne sont-elles que de la merde et le modèle ne peut pas s'y adapter correctement?

shiu6rewgu
la source
2
Quelle est la plage ou l'écart type de vos autres variables? Existe-t-il une grande différence entre l'écart-type de la variable à estimation zéro par rapport aux autres? Vous pouvez vous attendre à un coefficient de zéro si l'écart-type est faible par rapport aux autres (précision numérique). L'interception signifie également que vous avez des variables qui ont de grandes moyennes (loin de zéro). Centrer vos variables donnerait une interception plus interprétable et ne changera pas les bêtas pour les autres variables (erreur d'algorithme itérative mise à part).
probabilitéislogic
1
Si vous deviez soustraire 1027 de toutes les valeurs de la sixième variable, votre interception serait assez proche de 0. Cela vous ferait-il vous sentir mieux? :-)
whuber
4
Afficher une liste de coefficients comme celui-ci, sans aucun contexte, signifie probablement "Joe en a 31, n'est-ce pas beaucoup?" sans dire quoi . 31 voitures? Beaucoup. 31 enfants? Un sacré lot! 31 dollars? Pas tant.
Peter Flom - Réintègre Monica
1
En ce qui concerne le coefficient de zéro: je pourrais voir cela comme un artefact consistant à mettre tous vos coefficients dans XL avant de les coller ici - quelque chose qui semble cohérent avec le nombre élevé de décimales que nous voyons généralement. Peut-être qu'une de ces cellules XL a été définie pour arrondir à des entiers, ce qui donne le zéro. J'ai eu des choses comme ça.
rolando2
Merci à tous pour votre contribution! J'apprécie vraiment chacun d'entre vous! Beaucoup de mes questions ont été répondues
shiu6rewgu

Réponses:

16


logit=β0+β1X1+β2X2+...+βkXk
e2.718281828
e2=7.389056
7.3890561+7.389056=0,880797

9,8×dix-3050/(1+0)), nous donne à nouveau 0. Ainsi, ce que votre sortie vous dit, c'est que votre événement (quel qu'il soit) ne se produit tout simplement pas lorsque toutes vos variables sont égales à 0. Bien sûr, cela dépend de ce dont nous parlons, mais je ne trouve rien de trop remarquable à propos de cette. Une équation de régression logistique standard (par exemple, sans terme carré, par exemple) suppose nécessairement que la relation entre une covariable et la probabilité de succès soit soit monotone, soit monotone, soit décroissante.. Cela signifie qu'il devient toujours plus grand et plus grand (ou plus petit et plus petit), et donc, si vous allez assez loin dans une direction, vous obtiendrez des nombres si petits que mon ordinateur ne peut pas les distinguer de 0. C'est juste le nature de la bête. En fait, pour votre modèle, aller très loin va là où vos valeurs de covariables sont égales à 0.

Quant au coefficient de 0, cela signifie que cette variable n'a aucun effet, comme vous le suggérez. Maintenant, il est tout à fait raisonnable qu'une variable n'ait pas d'effet, néanmoins, vous n'obtiendrez fondamentalement jamais un coefficient d'exactement 0. Je ne sais pas pourquoi cela s'est produit dans ce cas; les commentaires offrent quelques suggestions possibles. Je peux en proposer un autre, à savoir qu'il peut n'y avoir aucune variation dans cette variable. Par exemple, si vous aviez une variable qui codait pour le sexe, mais seulement des femmes dans votre échantillon. Je ne sais pas si c'est la vraie réponse (R, par exemple, retourne NAdans ce cas, mais le logiciel diffère) - c'est juste une autre suggestion.

gung - Réintégrer Monica
la source
2
3067003sept-460dix-460
10

Interpréter l'interception

Vous pouvez penser que la régression logistique vous donne une probabilité postérieure d'être un «1». L'ordonnée à l'origine représente une priorité sur les catégories dérivées de l'ensemble de données: en particulier, il s'agit de l'estimation empirique de log (p (Y = 1) / p (Y = 0), en soi lorsque le modèle n'a qu'une interception, pour les cas dans les classes «de référence» lorsqu'il y a des covariables catégorielles, et pour les cas où les covariables sont à 0 de manière plus générale (mais moins interprétable). Donc, votre nombre fortement négatif vous dit probablement que les «1» sont rares parmi les cas de votre échantillon caractérisés par ayant toutes les covariables à 0. Encore une fois, il n'y a peut-être aucune observation, il ne vaut donc pas la peine de s'inquiéter de la valeur d'interception. Cette discussion est assez claire.

En raison de cette séparation pratique des préoccupations entre les paramètres, vous pouvez corriger le déséquilibre de catégorie en vous entraînant sur un échantillon mieux équilibré et en ajustant uniquement l'interception . Voir King et Zeng pour une discussion approfondie.

conjugateprior
la source
Le lien vers "cette discussion" semble avoir disparu. Une chance de récupérer ce lien?
Alexey Grigorev
1
@ alexey-grigorev J'ai mis à jour le lien UCLA
conjugateprior
et a recueilli un downvote. Très étrange.
conjugateprior