Lignes droites parallèles sur le tracé résiduel vs ajusté

J'ai un problème de régression multiple, que j'ai essayé de résoudre en utilisant une régression multiple simple:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Cela semble expliquer les 85% de variance (selon R au carré), ce qui semble assez bon.

Cependant, ce qui m'inquiète, c'est l'intrigue Residuals vs Fitted, voir ci-dessous:

entrez la description de l'image ici

Je soupçonne que la raison pour laquelle nous avons de telles lignes parallèles est parce que la valeur Y n'a que 10 valeurs uniques correspondant à environ 160 valeurs X.

Peut-être devrais-je utiliser un autre type de régression dans ce cas?

Edit : J'ai vu dans l' article suivant un comportement similaire. Notez qu'il s'agit d'un papier d'une seule page, donc lorsque vous le prévisualisez, vous pouvez tout lire. Je pense que cela explique assez bien pourquoi j'observe ce comportement, mais je ne sais toujours pas si une autre régression fonctionnerait mieux ici?

Edit2: L'exemple le plus proche de notre cas auquel je peux penser est le changement des taux d'intérêt. La FED annonce un nouveau taux d'intérêt tous les quelques mois (nous ne savons pas quand ni à quelle fréquence). Entre-temps, nous rassemblons quotidiennement nos variables indépendantes (telles que le taux d'inflation quotidien, les données boursières, etc.). Par conséquent, nous aurons une situation où nous pourrons avoir de nombreuses mesures pour un taux d'intérêt.

r regression multiple-regression Datageek
la source

Vous avez presque certainement besoin d'une autre forme de régression. Si les données Y sont ordinales (ce que je soupçonne), alors vous voulez probablement une régression logistique ordinale. Un Rpackage qui le fait est ordinal, mais il y en a aussi d'autres

Peter Flom

En fait, le Y est le prix que nous essayons de prédire, qui change tous les quelques mois. Nous avons des variables d'enregistrement hebdomadaire (X) pour le prix correspondant (Y) qui change tous les quelques mois. La régression logistique fonctionnerait-elle dans ce cas lorsque nous ne connaissons pas le prix futur?

Datageek

Vous avez raison sur l'explication; votre référence l'a cloué. Mais votre situation semble inhabituelle: il semble que vous n'ayez qu'une dizaine de réponses indépendantes (qui se situent sur une échelle continue, pas discrète) mais vous utilisez plusieurs variables explicatives qui varient dans le temps. Ce n'est pas une situation envisagée par la plupart des techniques de régression. Plus d'informations sur la signification de ces variables et la façon dont elles sont mesurées pourraient nous aider à identifier une bonne approche analytique.

whuber

Réponses:

Un modèle possible est celui d'une variable "arrondie" ou "censurée": soit étant vos 10 valeurs observées. On pourrait supposer qu'il existe une variable latente représentant le prix "réel", que vous ne connaissez pas complètement. Cependant, vous pouvez écrire (avec , si vous pardonnez cet abus de notation). Si vous êtes prêt à risquer une déclaration sur la distribution de Z dans chacun de ces intervalles, une régression bayésienne devient triviale; une estimation du maximum de vraisemblance nécessite un peu plus de travail (mais pas beaucoup, pour autant que je sache). Les analogues de ce problème sont traités par Gelman & Hill (2007). $y_1,\ldots y_{10}$ $Z$ $Y_i=y_j\Rightarrow{}y_{j-1}\leq{}Z_i\leq{}y_{j+1}$ $y_0=-\infty, y_{11}=+\infty$

Emmanuel Charpentier
la source

C'est une bonne idée. Il s'occupe du phénomène, mais je me demande s'il ne pourrait pas passer à côté d'un problème plus important: même si les prix peuvent être considérés comme censurés, ils sont très probablement corrélés en série.

whuber

J'ai essayé le paquet censReg R mais je n'ai pas pu le faire fonctionner. Il est possible que je n'aie pas compris votre idée. Le fait est que nous connaissons toutes les variables dépendantes, nous n'avons donc pas de situation où Y = 0 (censuré), c'est juste que le Y reste stable pendant quelques mois. Je viens de faire un autre montage, donc j'espère que cela explique mieux notre cas d'utilisation.

Datageek

Radek, je pense que l'idée est la suivante: supposons que le prix dépend du temps mais ne change qu'à des moments discrets . Nous concevons cela comme la manifestation d'une variable sous-jacente non observée (le "prix réel") et nous espérons qu'entre les instants et se situera toujours entre et . En effet, nous considérons donc le prix observé à tout moment dans cet intervalle comme étant comme censuré à la fois à gauche et à droite par et

Y (t)

$Y(t)$

t_{1}, t_{2}, \dots

$t_1,t_2,\ldots$

Z (t)

$Z(t)$

t_{i}

$t_i$

t_{i + 1}

$t_{i+1}$

Z (t)

$Z(t)$

Y (t_{i})

$Y(t_i)$

Y (t_{i + 1})

$Y(t_{i+1})$

t

$t$

Z (t)

$Z(t)$

Y (t_{i})

$Y(t_i)$

Y (t_{i + 1})

$Y(t_{i+1})$ . (Je dois souligner "l'espoir": c'est la "déclaration risquée" à laquelle il est fait référence.)

whuber

whuber: vous avez raison. Le message d'origine ne faisait pas allusion à une série chronologique, alors j'ai ignoré cela. Je pense que pour répondre à la question, il faut risquer deux affirmations: une sur la distribution de dans les intervalles , et une sur la forme du modèle temporel , c'est-à-dire la fonction f binding

Z

$Z$

(y_{j - 1}, y_{j + 1}

$(y_{j-1}, y_{j+1}$

Z (t)

$Z(t)$ à

f (Z (1), Z (2, \dots, Z (t - 1))

$f(Z(1), Z(2,\ldots,Z(t-1))$ . Dans un modèle BUGS, ces deux aspects seraient exprimés dans des déclarations sur

Z

$Z$ . Ce n'est plus si simple ...

Emmanuel Charpentier