J'essaie de prédire un score d'équilibre et j'ai essayé plusieurs méthodes de régression différentes. Une chose que j'ai remarquée, c'est que les valeurs prédites semblent avoir une sorte de limite supérieure. Autrement dit, le solde réel est de , mais mes prédictions atteignent un sommet d'environ 0,8 . Le graphique suivant montre le solde réel par rapport au solde prévu (prévu avec régression linéaire):
Et voici deux diagrammes de distribution des mêmes données:
Étant donné que mes prédicteurs sont très biaisés (données utilisateur avec distribution de loi de puissance), j'ai appliqué une transformation Box-Cox, qui change les résultats comme suit:
Bien que cela modifie la distribution des prédictions, il y a toujours cette limite supérieure. Mes questions sont donc:
- Quelles sont les raisons possibles de ces limites supérieures dans les résultats de prédiction?
- Comment puis-je fixer les prévisions pour qu'elles correspondent à la distribution des valeurs réelles?
Bonus: étant donné que la distribution après la transformation de Box-Cox semble suivre les distributions des prédicteurs transformés, est-il possible que cela soit directement lié? Si oui, y a-t-il une transformation que je peux appliquer pour adapter la distribution aux valeurs réelles?
Edit: j'ai utilisé une régression linéaire simple avec 5 prédicteurs.
Réponses:
Votre dep var est limité entre 0 et 1 et donc OLS n'est pas entièrement approprié, je suggère la régression bêta par exemple, et il peut y avoir d'autres méthodes. Mais deuxièmement, après votre transformation box-cox, vous dites que vos prédictions sont bornées, mais votre graphique ne le montre pas.
la source
Bien que l'accent soit mis sur l'utilisation de régressions obéissant aux limites de 0/1, et cela est raisonnable (et important!), La question spécifique de savoir pourquoi votre LPM ne prévoit pas de résultats supérieurs à 0,8 me semble être une question légèrement différente. .
Dans les deux cas, il y a un modèle noté dans vos résidus, à savoir que votre modèle linéaire correspond mal à la queue supérieure de votre distribution. Cela signifie qu'il y a quelque chose de non linéaire dans le bon modèle.
Solutions qui prennent également en compte la limite 0/1 de vos données: régression probit, logit et bêta. Cette limite est critique et doit être abordée pour que votre travail soit rigoureux, étant donné votre distribution relativement proche de 1, et donc le grand nombre de réponses sur ce sujet.
Habituellement, cependant, le problème est qu'un LPM dépasse la limite 0/1. Ce n'est pas le cas ici! Si vous n'êtes pas concerné par la borne 0/1 et que vous souhaitez activement une solution pouvant être adaptée avec (x'x) ^ - 1 (x'y), alors considérez que le modèle n'est peut-être pas strictement linéaire. L'ajustement du modèle en fonction de x ^ 2, les produits croisés de variables indépendantes ou les journaux de variables indépendantes peuvent aider à améliorer votre ajustement et éventuellement à améliorer le pouvoir explicatif de votre modèle afin qu'il estime des valeurs supérieures à 0,8.
la source