Comment décrire ou visualiser un modèle de régression linéaire multiple

J'essaie d'adapter un modèle de régression linéaire multiple à mes données avec quelques paramètres d'entrée, disons 3.

\begin{aligned} (je) & F (X) & = UNE X_{1} + B X_{2} + C X_{3} + ré \\ ou \\ (ii) & F (X) & = (UNE B C)^{T} (X_{1} X_{2} X_{3}) + ré \end{aligned}

$\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align}$

Comment expliquer et visualiser ce modèle? Je pourrais penser aux options suivantes:

Mentionnez l'équation de régression décrite dans (coefficients, constante) avec l'écart-type, puis un graphique d'erreur résiduelle pour montrer la précision de ce modèle. $(i)$
Tracés par paire de variables indépendantes et dépendantes, comme ceci:
Une fois les coefficients connus, les points de données utilisés pour obtenir l'équation peuvent-ils être condensés à leurs valeurs réelles. Autrement dit, les données d'apprentissage ont de nouvelles valeurs, sous la forme au lieu de , , , où chacune des variables indépendantes est multipliée par son coefficient respectif. Ensuite, cette version simplifiée peut être représentée visuellement comme une simple régression comme ceci: $(i)$ $x$ $x_1$ $x_2$ $x_3$ $\ldots$

Je suis confus là-dessus malgré le fait de parcourir des documents appropriés sur ce sujet. Quelqu'un peut-il m'expliquer comment "expliquer" un modèle de régression linéaire multiple et comment le montrer visuellement.

regression data-visualization multiple-regression communication kris
la source

Quel est le but de votre document et qui sont les publics? Je commencerais par obtenir des articles similaires et chercherais des exemples sur la façon dont ils sont effectués dans votre propre domaine. Je connais mieux la littérature biomédicale et la plupart du temps, nous utilisons simplement un tableau. Les illustrations sont plus souvent vues lorsque les auteurs tentent d'expliquer une interaction.

Penguin_Knight

@Penguin_Knight, c'est dans le domaine de l'informatique, mais je pense que c'est un générique plutôt que limité à un domaine particulier. Corrigez-moi si j'ai tort, s'il-vous plait.

kris

Hmm ... bien que question. Je dirais que la seule partie générique, pour moi, est de ne pas montrer plus que vous ne devriez, et assurez-vous que les composants à mettre en valeur sont vraiment mis en valeur. Même dans mon domaine, j'ai vu les trois options. 1) la tabulation des résultats est la plus courante, suivie de 3), mais surtout de la forme du tracé des résultats prévus, puis de 2). Mais pour 2), j'utiliserais ce que @gregory_britten a suggéré: utilisez X ajusté au lieu de chaque X individuel.

Penguin_Knight

utiliser le diagramme de distribution .... regardez la distribution des valeurs ajustées qui résultent du modèle et comparez-la à la distribution des valeurs réelles.

owais qureshi

Je sais que cela date d'il y a des années, mais si vous revenez ici, pourriez-vous publier les données? Les gens auraient alors quelque chose à travailler pour montrer différentes possibilités.

gung - Rétablir Monica

Réponses:

$X$ $\Delta Y/\Delta sd(X)$ . De cette façon, la distance à laquelle les coefficients sont à partir de zéro classe leur «importance» relative et leur CI donne la précision. Je pense que cela résume assez bien les relations et offre beaucoup plus d'informations que les coefficients et les valeurs p sur leurs échelles numériques naturelles et souvent disparates. Un exemple est ci-dessous:

entrez la description de l'image ici

$Y$ $X_i$ $Y \sim X_1 + X_2 + X_3$ $X_i$ $Y$ avPlots()carlm

entrez la description de l'image ici

gregory_britten
la source

Merci @gregory_britten pour ces informations. Le problème que j'ai sous la main comporte 8 variables indépendantes. Pensez-vous que les «graphiques de variables ajoutées» seraient raisonnables pour un grand nombre de variables d'entrée?

kris

Conformément à l'idée de la première intrigue, si je travaille en R, je suggère de regarder le package RMS qui rend tout cela facile. Ce qui est bien, c'est qu'on peut demander des changements de pas significatifs dans la covariance, évitant ainsi la nécessité de normaliser.

Thomas Speidel

@suzanne Oui certainement. Le tracé de variable ajouté vous donne des perspectives bidimensionnelles pour un nombre quelconque de variables. Il peut être particulièrement révélateur dans les dimensions supérieures. On trouve souvent des motifs révélateurs dans les résidus qui n'étaient pas du tout évidents dans le Y observé.

gregory_britten

Je ne comprends pas très bien la notation X1 | X2 & X3 dans ce contexte. Je sais comment elle est utilisée en ce qui concerne les probabilités, mais je ne comprends pas très bien ce qu'elle dit ici

Casebash

@Casebash C'est la régression partielle sur X1, étant donné que X2 et X3 sont dans le modèle

gregory_britten

Puisqu'ils ont tous à voir avec l'explication des contributeurs à la cirrhose, avez-vous essayé de faire un graphique à bulles / cercles et d'utiliser la couleur pour indiquer les différents régresseurs et le rayon du cercle pour indiquer l'impact relatif sur la cirrhose?

Je fais référence ici à un type de graphique Google qui ressemble à ceci: entrez la description de l'image ici

Et sur une note sans rapport, à moins que je ne lise mal vos intrigues, je pense que vous avez des régresseurs redondants là-dedans. Le vin est déjà une liqueur, donc si ces deux sont des régresseurs séparés, il n'est pas logique de les garder tous les deux, si votre objectif est d'expliquer l'incidence de la cirrhose.

rocinante
la source