Les coefficients de régression logistique ont-ils un sens?

14

J'ai un problème de classification binaire à partir de plusieurs fonctionnalités. Les coefficients d'une régression logistique (régularisée) ont-ils une signification interprétable?

Je pensais qu'ils pourraient indiquer la taille de l'influence, étant donné que les caractéristiques sont préalablement normalisées. Cependant, dans mon problème, les coefficients semblent dépendre sensiblement des caractéristiques que je sélectionne. Même le signe des coefficients change avec différents ensembles de caractéristiques choisis en entrée.

Est-il judicieux d'examiner la valeur des coefficients et quelle est la bonne façon de trouver les coefficients les plus significatifs et d' indiquer leur signification en mots ? Certains modèles ajustés et leur signe des coefficients sont-ils faux - même s'ils correspondent en quelque sorte aux données?

(La corrélation la plus élevée que j'ai entre les fonctionnalités n'est que de 0,25, mais cela joue certainement un rôle?)

Gerenuk
la source
Pourriez-vous préciser ce que vous entendez par régularisé? Avez-vous un terme de pénalité L2, et si oui, avez-vous recherché le facteur optimal, par exemple par validation croisée?
seanv507
Oui, j'autorise les pénalités L2 sur les coefficients. J'ai cherché le facteur de régularisation optimal, mais je n'ai pas encore utilisé la sélection de fonctionnalités (comme la sélection avant). Cependant, cela me rend incertain, car les coefficients dépendent si sensible- ment du choix des fonctionnalités que j'inclus. En supposant que chaque caractéristique a un effet positif ou négatif de la classe positive, comment puis-je déterminer leur force et leur direction?
Gerenuk

Réponses:

14

Les coefficients de la sortie ont une signification, bien que ce ne soit pas très intuitif pour la plupart des gens et certainement pas pour moi. C'est pourquoi les gens les changent en odds ratios. Cependant, le logarithme du rapport de cotes est le coefficient; de manière équivalente, les coefficients exponentiels sont les rapports de cotes.

Les coefficients sont les plus utiles pour se connecter à des formules qui donnent des probabilités prédites d'être à chaque niveau de la variable dépendante.

par exemple dans R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

L'estimation des paramètres pour l'âge est de 1,64. Qu'est-ce que ça veut dire? Eh bien, si vous le combinez avec l'estimation du paramètre pour l'ordonnée à l'origine (-21.24), vous pouvez obtenir une formule prédisant la probabilité de ménarche:

P(M)=11+e21.24-1,64unege

e1,64=5.16

Peter Flom - Réintégrer Monica
la source
4

L'interprétation directe des coefficients est difficile et peut être trompeuse. Vous n'avez aucune garantie sur la façon dont les poids sont attribués parmi les variables.

Exemple rapide, similaire à la situation que vous décrivez: J'ai travaillé sur un modèle d'interaction des utilisateurs avec un site Web. Ce modèle comprenait deux variables qui représentent le nombre de "clics" pendant la première heure et pendant la deuxième heure d'une session utilisateur. Ces variables sont fortement corrélées les unes aux autres. Si les deux coefficients de cette variable étaient positifs, nous pourrions facilement nous induire en erreur et croire qu'un coefficient peut-être plus élevé indique une importance "plus élevée". Cependant, en ajoutant / supprimant d' autresvariables, nous pourrions facilement nous retrouver avec un modèle où la première variable avait un signe positif et l'autre négative. Le raisonnement auquel nous nous sommes retrouvés était que, puisqu'il existait des corrélations significatives (bien que faibles) entre la plupart des paires de variables disponibles, nous ne pouvions pas avoir de conclusion sûre sur l'importance des variables utilisant les coefficients (heureux d'apprendre de la communauté si cette interprétation est correcte).

Si vous voulez obtenir un modèle où il est plus facile d'interpréter une idée, utilisez le Lasso (minimisation de la norme L1). Cela conduit à des solutions rares où les variables sont moins corrélées les unes aux autres. Cependant, cette approche ne sélectionnerait pas facilement les deux variables de l'exemple précédent - une serait zéro.

Si vous souhaitez simplement évaluer l'importance de variables spécifiques ou d'ensembles de variables, je recommanderais d'utiliser directement une approche de sélection des fonctionnalités. De telles approches conduisent à des informations beaucoup plus significatives et même à des classements mondiaux de l'importance des variables basées sur certains critères.

iliasfl
la source
0

Les coefficients ont certainement une signification. Dans certains progiciels, le modèle peut être dirigé de deux manières pour produire l'un des deux types de coefficients. Par exemple, dans Stata, on peut utiliser la commande Logistic ou la commande logit; en utilisant l'un, le modèle donne des coefficients traditionnels, tandis qu'en utilisant l'autre, le modèle donne des rapports de cotes.

Vous constaterez peut-être que l'un est beaucoup plus significatif pour vous que l'autre.

A propos de votre question que "... les coefficients semblent dépendre de la sensibilité ...".

Voulez-vous dire que les résultats dépendent des variables que vous mettez dans le modèle?

Si oui, oui, c'est une réalité de la vie lors de l'analyse de régression. La raison en est que l'analyse de régression examine un ensemble de nombres et les calcule de manière automatisée.

Les résultats dépendent de la façon dont les variables sont liées entre elles et des variables qui ne sont pas mesurées. C'est autant un art qu'une science.

De plus, si le modèle a trop de prédicteurs par rapport à la taille de l'échantillon, les signes peuvent basculer de manière folle - je pense que cela signifie que le modèle utilise des variables qui ont un petit effet pour «ajuster» ses estimations de celles-ci. qui ont un gros effet (comme un petit bouton de volume pour faire de petits calibrages). Lorsque cela se produit, j'ai tendance à ne pas faire confiance aux variables avec de petits effets.

D'un autre côté, il se peut que les signes changent initialement, lorsque vous ajoutez de nouveaux prédicteurs, parce que vous vous rapprochez de la vérité causale.

Par exemple, imaginons que le Brandy du Groenland pourrait être mauvais pour la santé mais que le revenu est bon pour la santé. Si le revenu est omis et que les personnes plus riches boivent du Brandy, alors le modèle peut «capter» l'influence du revenu omis et «dire» que l'alcool est bon pour la santé.

N'ayez aucun doute à ce sujet, c'est une réalité de la vie que les coefficients dépendent des autres variables qui sont incluses. Pour en savoir plus, examinez le «biais variable omis» et la «fausse relation». Si vous n'avez jamais rencontré ces idées auparavant, essayez de trouver des cours d'introduction à la statistique qui répondent à vos besoins - cela peut faire une énorme différence dans l'élaboration des modèles.

user163367
la source