J'ai un problème de régression multiple, que j'ai essayé de résoudre en utilisant une régression multiple simple:
model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)
Cela semble expliquer les 85% de variance (selon R au carré), ce qui semble assez bon.
Cependant, ce qui m'inquiète, c'est l'intrigue Residuals vs Fitted, voir ci-dessous:
Je soupçonne que la raison pour laquelle nous avons de telles lignes parallèles est parce que la valeur Y n'a que 10 valeurs uniques correspondant à environ 160 valeurs X.
Peut-être devrais-je utiliser un autre type de régression dans ce cas?
Edit : J'ai vu dans l' article suivant un comportement similaire. Notez qu'il s'agit d'un papier d'une seule page, donc lorsque vous le prévisualisez, vous pouvez tout lire. Je pense que cela explique assez bien pourquoi j'observe ce comportement, mais je ne sais toujours pas si une autre régression fonctionnerait mieux ici?
Edit2: L'exemple le plus proche de notre cas auquel je peux penser est le changement des taux d'intérêt. La FED annonce un nouveau taux d'intérêt tous les quelques mois (nous ne savons pas quand ni à quelle fréquence). Entre-temps, nous rassemblons quotidiennement nos variables indépendantes (telles que le taux d'inflation quotidien, les données boursières, etc.). Par conséquent, nous aurons une situation où nous pourrons avoir de nombreuses mesures pour un taux d'intérêt.
la source
R
package qui le fait estordinal
, mais il y en a aussi d'autresRéponses:
Un modèle possible est celui d'une variable "arrondie" ou "censurée": soit étant vos 10 valeurs observées. On pourrait supposer qu'il existe une variable latente représentant le prix "réel", que vous ne connaissez pas complètement. Cependant, vous pouvez écrire (avec , si vous pardonnez cet abus de notation). Si vous êtes prêt à risquer une déclaration sur la distribution de Z dans chacun de ces intervalles, une régression bayésienne devient triviale; une estimation du maximum de vraisemblance nécessite un peu plus de travail (mais pas beaucoup, pour autant que je sache). Les analogues de ce problème sont traités par Gelman & Hill (2007).y1,…y10 Z Yi=yj⇒yj−1≤Zi≤yj+1 y0=−∞,y11=+∞
la source