Voici un nomogramme créé à partir de l'ensemble de données mtcars avec le package rms pour la formule:
mpg ~ wt + am + qsec
Le modèle lui-même semble bon avec R2 de 0,85 et P <0,00001
> mod
Linear Regression Model
ols(formula = mpg ~ wt + am + qsec, data = mtcars)
Model Likelihood Discrimination
Ratio Test Indexes
Obs 32 LR chi2 60.64 R2 0.850
sigma 2.4588 d.f. 3 R2 adj 0.834
d.f. 28 Pr(> chi2) 0.0000 g 6.456
Residuals
Min 1Q Median 3Q Max
-3.4811 -1.5555 -0.7257 1.4110 4.6610
Coef S.E. t Pr(>|t|)
Intercept 9.6178 6.9596 1.38 0.1779
wt -3.9165 0.7112 -5.51 <0.0001
am 2.9358 1.4109 2.08 0.0467
qsec 1.2259 0.2887 4.25 0.0002
Je ne sais pas exactement quels sont ces «points», «total de points» et «prédicteur linéaire». Lequel de ceux-ci représente mpg, la variable de résultat? J'apprécierai toute explication.
Edit: compte tenu des excellentes suggestions de @Glen_b pour une lecture facile des points, etc., voici un nomogramme alternatif:
Étant donné que la variable de résultat ou de réponse est disponible, elle peut être utilisée à la place du terme «prédicteur linéaire». Il devient également explicite de la façon dont le nomogramme doit être lu.
regression
multiple-regression
data-visualization
predictive-models
regression-strategies
rnso
la source
la source
Réponses:
Eh bien, puisque votre modèle est linéaire, avec le mpg attendu égal au prédicteur linéaire, vous pouvez lire le mpg directement sur l'échelle du prédicteur linéaire.
Pour chaque variable, vous trouvez sa valeur sur l'échelle appropriée. Par exemple, imaginez que nous voulions trouver un mpg prévu pour une voiture avec
wt=4, am=1, qsec=18
:ce qui donne un mpg prévu d'environ 18,94. La substitution dans l'équation donne 18,95, donc c'est assez proche. (En pratique, vous ne travailleriez probablement que jusqu'au point entier le plus proche - et obtiendrez ainsi une précision d'environ 2 chiffres - "19 mpg" - au lieu de 3-4 chiffres comme ici.)
Un des principaux avantages d'un tel diagramme pour moi est que vous voyez instantanément l'effet relatif des changements dans les différentes variables prédictives (IV) sur la réponse (DV). Même lorsque vous n'avez besoin du diagramme pour aucun calcul, il peut avoir une grande valeur en termes d'affichage simple des effets relatifs des variables.
Question de suivi des commentaires:
Pour les cas où est non linéaire dans certains prédicteurs, des modifications mineures - et peut-être évidentes - sont nécessaires. Imaginez que nous ayonsy = b 0 + b x 1 + f ( x 2 )E(Y) y^=b0+bx1+f(x2)
où soit:
(a) est monotone; ouf
(b) n'est pas monotonef
Dans les deux cas, l'échelle pour fonctionnerait exactement comme ci-dessus, mais dans le cas:x1
(a) l'échelle de ne sera pas linéaire; Par exemple, si est monotone décroissant mais (à peu près) quadratique, vous pourriez avoir quelque chose comme ceci: fx2 f
(b) l'échelle non monotone pour "se cassera" à un point de retournement et basculera. par exemplex2
- ici la fonction a un minimum quelque part autour dex = 2,23f(x) x=2.23
Il est possible que ces fonctions aient plusieurs points de retournement, où les échelles se briseraient et se retourneraient plusieurs fois - mais la ligne d'axe n'a que deux côtés.
Avec les nomogrammes de type point, cela ne présente aucune difficulté, car on peut déplacer légèrement des sections d'échelle supplémentaires (ou plus généralement, orthogonalement à la direction de l'axe) jusqu'à ce qu'il n'y ait pas de chevauchement.
(Plus d'un point de retournement peut être un problème pour les nomogrammes de type alignement; une solution présentée dans le livre de Harrell consiste à décaler légèrement toutes les échelles par rapport à une ligne de référence, sur laquelle la position de la valeur est réellement prise.)
Dans le cas des GLM avec fonction de liaison non linéaire, les échelles fonctionnent comme ci-dessus, mais l'échelle du prédicteur linéaire sera marquée d'une échelle non linéaire pour , quelque chose comme (a) ci-dessus.Y
Des exemples de toutes ces situations peuvent être trouvés dans les stratégies de modélisation de la régression de Harrell .
Juste quelques notes annexes
Je préférerais de loin voir deux échelles de points, en haut et en bas de la section pertinente; sinon, il est difficile de «s'aligner» avec précision car il faut deviner ce qu'est la «verticale». Quelque chose comme ça:
Cependant, comme je le note dans les commentaires, pour la dernière section du diagramme (total des points et prédicteur linéaire), une meilleure alternative à une deuxième échelle de points serait peut-être simplement d'avoir une paire d'échelles consécutives (total des points sur un côté, prédicteur linéaire de l'autre), comme ceci:
sur quoi nous évitons d'avoir à savoir ce qu'est la «verticale».
Avec seulement deux prédicteurs continus et un seul facteur binaire, nous pouvons très facilement construire un nomogramme d'alignement plus traditionnel :
Dans ce cas, vous trouvez simplement les valeurs
wt
etqsec
sur leurs échelles et les joignez à une ligne; là où ils croisent l'mpg
axe, nous lisons la valeur (tandis que laam
variable détermine de quel côté de l'mpg
axe vous lisez). Dans un cas simple comme celui-ci, ces types de nomogrammes sont plus rapides et plus simples à utiliser, mais peuvent être moins faciles à généraliser à de nombreux prédicteurs, où ils peuvent devenir peu maniables. Le nomogramme de points dans votre question (tel qu'implémenté dans les stratégies de modélisation de régression et dans lerms
package dans R) peut ajouter plus de variables de manière transparente. Cela peut être tout à fait un avantage lorsqu'il s'agit d'interactions.la source
nomogram
fonctionplot
pour ajouter l'Points
échelle supplémentaire par défaut. Grande suggestion !!