Je veux régresser l'économie de carburant sur la cylindrée du moteur, le type de carburant, la transmission 2 vs 4 roues motrices, la puissance, la transmission manuelle vs automatique et le nombre de vitesses. Mon ensemble de données ( lien ) contient des véhicules de 2012 à 2014.
fuelEconomy
en miles par gallonengineDisplacement
: taille du moteur en litresfuelStd
: 1 pour le gaz 0 pour le dieselwheelDriveStd
: 1 pour 2 roues motrices, 0 pour 4 roues motriceshp
: puissancetransStd
: 1 pour automatique, 0 pour manueltransSpeed
: Nombre de vitesses
Code R:
reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp +
transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd +
hp + transStd + transSpeed, data = a)
Residuals:
Min 1Q Median 3Q Max
-10.2765 -2.3142 -0.0655 2.0944 15.8637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 48.147115 0.542910 88.683 < 2e-16 ***
engineDisplacement -3.673549 0.091272 -40.248 < 2e-16 ***
fuelStd -6.613112 0.403989 -16.370 < 2e-16 ***
wheelDriveStd 2.778134 0.137775 20.164 < 2e-16 ***
hp -0.005884 0.001008 -5.840 5.86e-09 ***
transStd -0.351853 0.157570 -2.233 0.0256 *
transSpeed -0.080365 0.052538 -1.530 0.1262
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.282 on 2648 degrees of freedom
(1 observation deleted due to missingness)
Multiple R-squared: 0.7802, Adjusted R-squared: 0.7797
F-statistic: 1566 on 6 and 2648 DF, p-value: < 2.2e-16
- Les résultats sont-ils réalistes ou est-ce que je fais quelque chose de mal ici car la plupart des variables sont hautement statistiquement significatives?
- D'autres modèles sont-ils mieux utilisés à cette fin?
- Un tel résultat est-il utilisable pour l'interprétation?
Je sais très peu de choses sur la mécanique et la physique impliquées, mais la première chose que j'examinerais est le diagnostic de régression, en particulier, les graphiques des valeurs résiduelles par rapport aux valeurs ajustées, pour lesquels nous aimerions qu'il n'y ait pas de schéma global.
Vous avez ajusté un modèle linéaire de sorte que chaque covariable ait une association linéaire avec
fuelEconomy
. Est-ce soutenu par la théorie mécanique et physique sous-jacente? Pourrait-il y avoir des associations non linéaires? Si tel est le cas, vous pouvez envisager des modèles avec des termes non linéaires, transformer certaines variables ou envisager d'utiliser un modèle additif. Même si les associations sont vraisemblablement linéaires au sein de votre ensemble de données réel, faites très attention de ne pas extrapoler les résultats au-delà de vos limites de données.la source
Une matrice de nuage de points avec des courbes de Loess et des valeurs de corrélation (valeurs absolues) peut être un bon point de départ:
Nous pouvons remarquer ici la relation peut-être quadratique du
fuelEconomy
tracé contre les deuxlineDisplacement
ethp
, qui se reflète également dans une apparence Nike swoosh dans le tracé résiduel . Il serait intéressant d'étudier la présence d'une interaction entre ces termes.Ce manque de linéarité est également apparent si nous effectuons une régression linéaire de
fuelEconomy
contrelinearDisplacement
(des résultats similaires peuvent être obtenus avechp
). Remarquez la ligne rouge ...Cet effet peut être partiellement corrigé, rendant le modèle plus complexe et introduisant un modèle quadratique:
Le nouveau modèle a une valeur R ajustée au carré plus élevée (0,8205 ) que le premier (0,7798 ).
La nature dichotomique
fuelStd
etwheeldriveStd
simplement déplacer la moyenne des valeurs prédites vers le bas, et en effet sont des variables ou facteurs codés fictivement. Cela est également apparent sur le diagramme de dispersion initial, mais peut être davantage visualisé avec des diagrammes en boîte:Un dernier point dans les diagnostics est la présence de points de levier élevés , qui méritent d'être examinés:
Que conclure? Rien de catégorique. Peut-être juste pour souligner l'importance du traçage pour comprendre l'ensemble de données et tout modèle qui lui est imposé.
la source
La réponse à votre première question dépend de votre cadre théorique, de la façon dont vous énoncez les hypothèses sur la relation entre les variables dépendantes et indépendantes et de la façon dont vous interprétez les résultats. À elle seule, l'obtention d'une relation statistiquement significative pour la plupart des variables pourrait ne rien dire de la réalité de vos résultats.
Donc, si ces résultats vous semblent suspects (en fonction de vos connaissances antérieures), vous pouvez exécuter des tests de diagnostic pour la régression. Il peut y avoir violation des hypothèses du modèle et d'autres problèmes (par exemple, valeurs aberrantes). En fait, il est toujours utile d'exécuter ces tests pour évaluer votre modèle de régression. Puisque vous utilisez
R
, vous pouvez vérifier lecar
package qui fournit un certain nombre de fonctions pour les tests de diagnostic. Ici vous pouvez trouver les diapositives de cours sur les diagnostics de régression par l'un des auteurs (et le créateur) ducar
package, John Fox. Vous pouvez également consulter son livre sur le sujet (1991). Kabacoff (2011) a également discuté des diagnostics de régression et de l'utilisation desR
fonctions (y compris celles decar
package) et interpréter les résultats (p.188-200). Je pense qu'après ces tests de diagnostic, il vaut mieux évaluer les résultats et leur utilité.Fox, J. (1991). Diagnostics de régression . Newbury Park, Londres, New Delhi: Sage Publications.
Kabacoff, RI (2011). R en action: analyse des données et des graphiques avec R . Shelter Island: Manning.
Aussi:
Fox, J. et Weisberg, S. (2011). Diagnostic des problèmes dans les modèles linéaires et linéaires généralisés. Dans An R Companion to Applied Regression (2e éd., P. 285–328). Los Angeles: Sage Publications.
la source