Les résultats de la régression ont une limite supérieure inattendue

9

J'essaie de prédire un score d'équilibre et j'ai essayé plusieurs méthodes de régression différentes. Une chose que j'ai remarquée, c'est que les valeurs prédites semblent avoir une sorte de limite supérieure. Autrement dit, le solde réel est de , mais mes prédictions atteignent un sommet d'environ 0,8 . Le graphique suivant montre le solde réel par rapport au solde prévu (prévu avec régression linéaire):[0.0,1.0)0.8

réel vs prévu

Et voici deux diagrammes de distribution des mêmes données:

distribution initiale

Étant donné que mes prédicteurs sont très biaisés (données utilisateur avec distribution de loi de puissance), j'ai appliqué une transformation Box-Cox, qui change les résultats comme suit:

réel vs prévu après transformation de Box-Cox

distribution après transformation de Box-Cox

Bien que cela modifie la distribution des prédictions, il y a toujours cette limite supérieure. Mes questions sont donc:

  • Quelles sont les raisons possibles de ces limites supérieures dans les résultats de prédiction?
  • Comment puis-je fixer les prévisions pour qu'elles correspondent à la distribution des valeurs réelles?

Bonus: étant donné que la distribution après la transformation de Box-Cox semble suivre les distributions des prédicteurs transformés, est-il possible que cela soit directement lié? Si oui, y a-t-il une transformation que je peux appliquer pour adapter la distribution aux valeurs réelles?

Edit: j'ai utilisé une régression linéaire simple avec 5 prédicteurs.

Mennny
la source
1
Je suis vraiment intéressé de voir où cela va. Ce n'est qu'un modèle de régression linéaire? Combien de prédicteurs?
shadowtalker
1
En remarque: comme votre variable de résultat est limitée par 0 et 1, un modèle de régression linéaire simple prédira probablement des valeurs en dehors de ces limites, ce qui est bien sûr invalide. Il y a d' autres options à considérer dans ce cas.
COOLSerdash
1
L'entrée bornée implique une sortie bornée pour un modèle linéaire. Quelles sont les limites des prédicteurs (transformés)? Pouvez-vous nous montrer un tableau récapitulatif de l'ajustement du modèle?
Cardinal
2
Mennny: Tout ce dont vous avez vraiment besoin (pour commencer), ce sont les valeurs des coefficients et les limites des prédicteurs. En faisant correspondre les signes un par un, vous pouvez rapidement déterminer la prédiction minimale et maximale (en supposant que les prédicteurs satisferont toujours les limites, implicitement ou explicitement).
Cardinal
1
@cardinal: J'ai vérifié les limites des prédicteurs et j'ai pu confirmer votre hypothèse. Avec les prédicteurs donnés (non transformés), la prédiction maximale est de ~ 0,79. Pouvez-vous s'il vous plaît "copier / coller" votre commentaire comme réponse afin que je puisse l'accepter? Comment puis-je procéder? Je suppose que cela montre qu'il n'y a pas de relation linéaire entre mes prédicteurs et le résultat?
Mennny

Réponses:

1

Votre dep var est limité entre 0 et 1 et donc OLS n'est pas entièrement approprié, je suggère la régression bêta par exemple, et il peut y avoir d'autres méthodes. Mais deuxièmement, après votre transformation box-cox, vous dites que vos prédictions sont bornées, mais votre graphique ne le montre pas.

Leonardo Auslender
la source
0

Bien que l'accent soit mis sur l'utilisation de régressions obéissant aux limites de 0/1, et cela est raisonnable (et important!), La question spécifique de savoir pourquoi votre LPM ne prévoit pas de résultats supérieurs à 0,8 me semble être une question légèrement différente. .

Dans les deux cas, il y a un modèle noté dans vos résidus, à savoir que votre modèle linéaire correspond mal à la queue supérieure de votre distribution. Cela signifie qu'il y a quelque chose de non linéaire dans le bon modèle.

Solutions qui prennent également en compte la limite 0/1 de vos données: régression probit, logit et bêta. Cette limite est critique et doit être abordée pour que votre travail soit rigoureux, étant donné votre distribution relativement proche de 1, et donc le grand nombre de réponses sur ce sujet.

Habituellement, cependant, le problème est qu'un LPM dépasse la limite 0/1. Ce n'est pas le cas ici! Si vous n'êtes pas concerné par la borne 0/1 et que vous souhaitez activement une solution pouvant être adaptée avec (x'x) ^ - 1 (x'y), alors considérez que le modèle n'est peut-être pas strictement linéaire. L'ajustement du modèle en fonction de x ^ 2, les produits croisés de variables indépendantes ou les journaux de variables indépendantes peuvent aider à améliorer votre ajustement et éventuellement à améliorer le pouvoir explicatif de votre modèle afin qu'il estime des valeurs supérieures à 0,8.

RegressForward
la source