Disons que je construis un modèle de régression logistique où la variable dépendante est binaire et peut prendre les valeurs ou . Soit les variables indépendantes - il y a variables indépendantes. Disons que pour lee variable indépendante, l'analyse bivariée montre une tendance en forme de U - c'est-à-dire si je dans bacs contenant chacun un nombre à peu près égal d'observations et calculant le `` mauvais taux '' pour chaque bac - # observations où y = 0 / total des observations dans chaque bac - alors j'obtiens une courbe en U.
Mes questions sont:
- Puis-je utiliser directement comme entrée lors de l'estimation des paramètres bêta? Des hypothèses statistiques ont-elles été violées, ce qui pourrait entraîner une erreur significative dans l'estimation des paramètres?
- Faut-il «linéariser» cette variable par une transformation (log, carré, produit avec lui-même, etc.)?
regression
estimation
logistic
sas
Mozan Sykol
la source
la source
Réponses:
Vous voudriez utiliser une formulation flexible qui capturerait automatiquement la non-linéarité, par exemple, une version d'un modèle additif généralisé . Le choix d'un pauvre est un polynômexk , x2k , ..., xpkk , mais de tels polynômes produisent de terribles survols aux extrémités de la plage de leurs variables respectives. Une bien meilleure formulation serait d'utiliser des splines B (cubiques) (voir une note d'introduction aléatoire de la première page de Google ici , et un bon livre, ici ). Les B-splines sont une séquence de bosses locales:
http://ars.sciencedirect.com/content/image/1-s2.0-S0169743911002292-gr2.jpg
La hauteur des bosses est déterminée à partir de votre régression (linéaire, logistique, autre GLM), car la fonction que vous ajustez est simplement
pour la forme fonctionnelle spécifiée de votre bosseB(⋅) . La version de loin la plus populaire est une cannelure cubique lisse en forme de cloche:
Du côté de l'implémentation, tout ce que vous devez faire est de configurer 3-5-10-quel que soit le nombre de nœudsxk serait raisonnable pour votre application et créerait les variables 3-5-10 correspondantes dans le jeu de données avec les valeurs de B(x−xkhk) . En règle générale, une simple grille de valeurs est choisie, avechk étant deux fois la taille du maillage de la grille, de sorte qu'à chaque point, il y a deux splines B qui se chevauchent, comme dans le tracé ci-dessus.
la source
Tout comme la régression linéaire, la régression logistique et plus généralement les modèles linéaires généralisés doivent être linéaires dans les paramètres mais pas nécessairement dans les covariables. Ainsi, des termes polynomiaux comme un quadratique que Macro suggère peuvent être utilisés. Il s'agit d'une incompréhension courante du terme linéaire dans les modèles linéaires généralisés. Les modèles non linéaires sont des modèles non linéaires dans les paramètres. Si le modèle est linéaire dans les paramètres et contient des termes de bruit additifs qui sont IID, le modèle est linéaire même s'il existe des covariables comme X2 log X ou exp (X). Alors que je lis maintenant la question, elle semble être modifiée. Ma réponse spécifique serait oui à 1 et pas nécessaire à 2.
la source
Une autre alternative viable que la boutique de modélisation pour laquelle je travaille régulièrement est de regrouper les variables indépendantes continues et de remplacer le «mauvais taux». Cela force une relation linéaire.
la source
disco
paquet. J'ai créé mon propre algorithme qui fractionne récursivement une variable continue en fonction de la valeur de l'information. Je l'ai mis dans un package R ici: github.com/Zelazny7/binnr (travaux en cours!). Je substituerais également le poids de la preuve au lieu de la moyenne. Associé à la régression LASSO, les résultats sont fantastiques!binnr
algorithme avec les CRANsmbinning
?