J'ai 5 variables et j'essaie de prédire ma variable cible qui doit être comprise entre 0 et 70.
Comment utiliser cette information pour mieux modéliser ma cible?
la source
J'ai 5 variables et j'essaie de prédire ma variable cible qui doit être comprise entre 0 et 70.
Comment utiliser cette information pour mieux modéliser ma cible?
y
Cependant, la plage restreinte soulève la possibilité d'une relation non linéaire entre la variable dépendante ( ) et les variables indépendantes ( x_i ). Voici quelques indicateurs supplémentaires:x i
Plus grande variation des valeurs résiduelles lorsque est au milieu de sa plage, par rapport à la variation des valeurs résiduelles à chaque extrémité de la plage.
Raisons théoriques des relations non linéaires spécifiques.
Preuve d'une mauvaise spécification du modèle (obtenue de la manière habituelle).
Signification des termes quadratiques ou d'ordre élevé dans le .
Considérons une ré-expression non linéaire de dans le cas où l'une de ces conditions est vérifiée.
Il existe de nombreuses façons de ré-exprimer pour créer des relations plus linéaires avec . Par exemple, toute fonction croissante définie sur l'intervalle peut être "repliée" pour créer une fonction croissante symétrique via . Si devient arbitrairement grand et négatif lorsque son argument se rapproche de , la version repliée de correspondra à dans tous les nombres réels. Des exemples de telles fonctions incluent le logarithme et toute puissance négative. L'utilisation du logarithme équivaut au «lien logit» recommandé par @ user603. Une autre façon est de laisserêtre le CDF inverse de toute distribution de probabilité et définir . L'utilisation d'une distribution normale donne la transformation "probit".
Une façon d'exploiter les familles de transformations est d'expérimenter: essayer une transformation probable, effectuer une régression rapide du transformé contre le , et tester les résidus: ils devraient apparaître comme indépendants des valeurs prédites de (homoscédastique et non corrélée) . Ce sont des signes d'une relation linéaire avec les variables indépendantes. Il aide aussi, si les résidus des arrière transformées valeurs prévues ont tendance à être faible. Cela indique que la transformation a amélioré l'ajustement. Pour résister aux effets des valeurs aberrantes, utilisez des méthodes de régression robustes telles que les moindres carrés itérativement repondérés .x i
Il est important de considérer pourquoi vos valeurs sont limitées dans la plage 0-70. Par exemple, s'il s'agit du nombre de réponses correctes sur un test de 70 questions, alors vous devriez envisager des modèles pour les variables de "nombre de succès", comme la régression binomiale surdispersée. D'autres raisons peuvent vous conduire à d'autres solutions.
la source
Transformation des données: redimensionnez vos données pour qu'elles se trouvent dans et modélisez-les à l'aide d'un modèle glm avec un lien logit.[0,1]
Modifier: Lorsque vous redimensionnez un vecteur (c'est-à-dire que vous divisez tous les éléments par la plus grande entrée), en règle générale, avant de le faire, filtrez (globes oculaires) les valeurs aberrantes.
MISE À JOUR
En supposant que vous avez accès à R, je porterais la partie modélisation avec une routine glm robuste , voir dans le package .glmrob() robustbase
la source