Je travaille avec des données du monde réel et les modèles de régression donnent des résultats contre-intuitifs. Normalement, je fais confiance aux statistiques, mais en réalité, certaines de ces choses ne peuvent pas être vraies. Le principal problème que je vois est qu'une augmentation d'une variable entraîne une augmentation de la réponse alors qu'en réalité, elles doivent être corrélées négativement.
Existe-t-il un moyen de forcer un signe spécifique pour chacun des coefficients de régression? Tout code R pour ce faire serait également apprécié.
Merci pour toute aide!
Réponses:
attention à la distinction entre la corrélation marginale et la corrélation partielle (corrélation conditionnelle à d'autres variables). Ils peuvent légitimement être de signe différent.
nnls
Cependant, je vous déconseille d'ignorer à la hâte les points du point 1. simplement parce que beaucoup d'entre eux sont facilement mis en œuvre.
* (vous pouvez utiliser des programmes qui ne sont pas négatifs pour faire non positifs en annulant la variable correspondante)
la source
Il existe peut-être une telle solution, mais je dirais qu'elle n'est pas recommandée dans votre situation.
Si vous avez un résultat impossible:
1) Il y a un problème avec vos données 2) Il y a un problème avec votre définition de «impossible» ou 3) Vous utilisez la mauvaise méthode
Vérifiez d'abord les données. Deuxièmement, vérifiez le code. (Ou demandez aux autres de le vérifier). Si les deux vont bien, peut-être que quelque chose d'inattendu se produit.
Heureusement pour vous, vous avez une simple «impossibilité» - vous dites que deux variables ne peuvent pas être corrélées positivement. Alors, faites un nuage de points et ajoutez un lissage et voyez. Une seule valeur aberrante pourrait provoquer cela; ou ce pourrait être une relation non linéaire. Ou autre chose.
Mais si vous avez de la chance, vous avez trouvé quelque chose de nouveau. Comme disait mon professeur préféré "Si vous n'êtes pas surpris, vous n'avez rien appris".
la source
Pour répondre à votre question spécifique, vous pouvez essayer le package nnls qui fait la régression des moindres carrés avec des contraintes non négatives sur les coefficients. Vous pouvez l'utiliser pour obtenir les signes que vous voulez en changeant les signes des prédicteurs appropriés.
Soit dit en passant, voici un moyen très simple de créer un ensemble de données pour montrer comment il est possible d'avoir des corrélations positives et des coefficients de régression négatifs.
la source