Voici une liste de coefficients de régression logistique (le premier est une interception)
-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
0
1.03152408392552
1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393
Je trouve bizarre à quel point l'ordonnée à l'origine est si faible et j'ai un coefficient qui est en fait égal à 0. Je ne sais pas trop comment je l'interpréterais. Le 0 indique-t-il que la variable spécifique n'a aucun effet sur le modèle? Mais l'interception qui se fait en saisissant une de ses colonnes est soudainement vraiment importante? Ou mes données ne sont-elles que de la merde et le modèle ne peut pas s'y adapter correctement?
regression
logistic
shiu6rewgu
la source
la source
Réponses:
Quant au coefficient de 0, cela signifie que cette variable n'a aucun effet, comme vous le suggérez. Maintenant, il est tout à fait raisonnable qu'une variable n'ait pas d'effet, néanmoins, vous n'obtiendrez fondamentalement jamais un coefficient d'exactement 0. Je ne sais pas pourquoi cela s'est produit dans ce cas; les commentaires offrent quelques suggestions possibles. Je peux en proposer un autre, à savoir qu'il peut n'y avoir aucune variation dans cette variable. Par exemple, si vous aviez une variable qui codait pour le sexe, mais seulement des femmes dans votre échantillon. Je ne sais pas si c'est la vraie réponse (R, par exemple, retourne
NA
dans ce cas, mais le logiciel diffère) - c'est juste une autre suggestion.la source
Interpréter l'interception
Vous pouvez penser que la régression logistique vous donne une probabilité postérieure d'être un «1». L'ordonnée à l'origine représente une priorité sur les catégories dérivées de l'ensemble de données: en particulier, il s'agit de l'estimation empirique de log (p (Y = 1) / p (Y = 0), en soi lorsque le modèle n'a qu'une interception, pour les cas dans les classes «de référence» lorsqu'il y a des covariables catégorielles, et pour les cas où les covariables sont à 0 de manière plus générale (mais moins interprétable). Donc, votre nombre fortement négatif vous dit probablement que les «1» sont rares parmi les cas de votre échantillon caractérisés par ayant toutes les covariables à 0. Encore une fois, il n'y a peut-être aucune observation, il ne vaut donc pas la peine de s'inquiéter de la valeur d'interception. Cette discussion est assez claire.
En raison de cette séparation pratique des préoccupations entre les paramètres, vous pouvez corriger le déséquilibre de catégorie en vous entraînant sur un échantillon mieux équilibré et en ajustant uniquement l'interception . Voir King et Zeng pour une discussion approfondie.
la source