Est-il réaliste que toutes les variables soient hautement significatives dans un modèle de régression multiple?

8

Je veux régresser l'économie de carburant sur la cylindrée du moteur, le type de carburant, la transmission 2 vs 4 roues motrices, la puissance, la transmission manuelle vs automatique et le nombre de vitesses. Mon ensemble de données ( lien ) contient des véhicules de 2012 à 2014.

  • fuelEconomy en miles par gallon
  • engineDisplacement: taille du moteur en litres
  • fuelStd: 1 pour le gaz 0 pour le diesel
  • wheelDriveStd: 1 pour 2 roues motrices, 0 pour 4 roues motrices
  • hp: puissance
  • transStd: 1 pour automatique, 0 pour manuel
  • transSpeed: Nombre de vitesses

Code R:

reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + 
                       transStd + transSpeed, data = a)
summary(reg)
Call:
lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + 
    hp + transStd + transSpeed, data = a)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.2765  -2.3142  -0.0655   2.0944  15.8637 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)        48.147115   0.542910  88.683  < 2e-16 ***
engineDisplacement -3.673549   0.091272 -40.248  < 2e-16 ***
fuelStd            -6.613112   0.403989 -16.370  < 2e-16 ***
wheelDriveStd       2.778134   0.137775  20.164  < 2e-16 ***
hp                 -0.005884   0.001008  -5.840 5.86e-09 ***
transStd           -0.351853   0.157570  -2.233   0.0256 *  
transSpeed         -0.080365   0.052538  -1.530   0.1262    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.282 on 2648 degrees of freedom
  (1 observation deleted due to missingness)
Multiple R-squared:  0.7802,    Adjusted R-squared:  0.7797 
F-statistic:  1566 on 6 and 2648 DF,  p-value: < 2.2e-16
  1. Les résultats sont-ils réalistes ou est-ce que je fais quelque chose de mal ici car la plupart des variables sont hautement statistiquement significatives?
  2. D'autres modèles sont-ils mieux utilisés à cette fin?
  3. Un tel résultat est-il utilisable pour l'interprétation?
Bert
la source

Réponses:

5

@AntoniParelleada a fait du bon travail en démontrant certaines des techniques de diagnostic de modèle standard que vous pouvez utiliser pour évaluer votre modèle. Je suppose que votre principale préoccupation est que «la plupart des variables sont hautement statistiquement significatives».

Je ne vois pas que vous deviez vous en préoccuper, en soi. De votre sortie, je vois que le modèle a un F-statistic: 1566 on 6 and 2648 DF. Cela signifie que vous vous adaptez6 paramètres pour 6 variables et ont 2655Les données. Cela vous donne une énorme puissance statistique . En supposant qu'il existe une relation entre vos variables et la réponse, qui n'est pas complètement triviale, vous devriez obtenir un résultat significatif. Je suis plus surpris que quoi que ce soit (à savoir transSpeed) ne soit pas significatif.

Peut-être votre question est-elle motivée par la conviction que, d'un point de vue théorique, une variable ne devrait pas être liée fuelEconomyet vous êtes donc surpris qu'elle soit significative. (Si cela était vrai, cependant, il aurait été inhabituel de l'inclure dans le modèle.) Mais un résultat significatif ne signifie pas nécessairement qu'une covariable a un effet sur la réponse, donc ce n'est pas nécessairement un type I erreur . Parce que vos données sont presque certainement des observations, vous ne détectez que des associations marginales. C'est-à-dire que les voitures à traction avant, par exemple, peuvent également différer typiquement des voitures à traction arrière d'une manière autre que la transmission de la puissance des roues et autre que les autres variables incluses dans le modèle. Ainsi, le coefficient pour wheelDriveStdmesurerait l'association entreet toutes les variables non incluses étaient corrélées avec lui et fuelEconomy. Il peut donc être raisonnable qu'elle soit significative même si nous savions par la physique / l'ingénierie que les roues qui transmettent la puissance ne sont pas liées à l'efficacité énergétique.

gung - Réintégrer Monica
la source
J'ai plus de connaissances en apprentissage automatique que de statistiques. Pouvons-nous dire que si nous avons des données volumineuses, comme des millions de lignes et des milliers de colonnes, personne ne se soucie plus de la «signification» de la fonctionnalité?
Haitao Du
3
Je ne le caractériserais pas nécessairement de cette façon, @ hxd1011. S'il n'y a vraiment pas d'association, le taux d'erreur de type I sera toujours de 0,05, donc quelqu'un pourrait s'en soucier, mais vous aurez suffisamment de puissance pour détecter même des effets très triviaux. Par analogie, il pourrait être utile de lire Les tests de normalité sont-ils «essentiellement inutiles»?
gung - Rétablir Monica
Vraiment instructif. Je me demande s'il y a une ligne unique que vous pourriez ajouter pour donner une référence / perspective pour que nous puissions saisir intuitivement votre affirmation sur l'énorme quantité de puissance statistique basée sur la statistique F.
Antoni Parellada
2
C'est juste ça N=2,655c'est beaucoup de données, @AntoniParellada.
gung - Réintégrer Monica
Je vous remercie! Avec les statistiques, je suppose toujours qu'il doit y avoir plus de "caché" ... :-)
Antoni Parellada
4

Je sais très peu de choses sur la mécanique et la physique impliquées, mais la première chose que j'examinerais est le diagnostic de régression, en particulier, les graphiques des valeurs résiduelles par rapport aux valeurs ajustées, pour lesquels nous aimerions qu'il n'y ait pas de schéma global.

Vous avez ajusté un modèle linéaire de sorte que chaque covariable ait une association linéaire avec fuelEconomy. Est-ce soutenu par la théorie mécanique et physique sous-jacente? Pourrait-il y avoir des associations non linéaires? Si tel est le cas, vous pouvez envisager des modèles avec des termes non linéaires, transformer certaines variables ou envisager d'utiliser un modèle additif. Même si les associations sont vraisemblablement linéaires au sein de votre ensemble de données réel, faites très attention de ne pas extrapoler les résultats au-delà de vos limites de données.

Robert Long
la source
4

Une matrice de nuage de points avec des courbes de Loess et des valeurs de corrélation (valeurs absolues) peut être un bon point de départ:

entrez la description de l'image ici

Nous pouvons remarquer ici la relation peut-être quadratique du fuelEconomytracé contre les deux lineDisplacementet hp, qui se reflète également dans une apparence Nike swoosh dans le tracé résiduel . Il serait intéressant d'étudier la présence d'une interaction entre ces termes.

entrez la description de l'image ici

Ce manque de linéarité est également apparent si nous effectuons une régression linéaire de fuelEconomycontre linearDisplacement(des résultats similaires peuvent être obtenus avec hp). Remarquez la ligne rouge ...

entrez la description de l'image ici

Cet effet peut être partiellement corrigé, rendant le modèle plus complexe et introduisant un modèle quadratique:

entrez la description de l'image ici

Le nouveau modèle a une valeur R ajustée au carré plus élevée (0,8205) que le premier (0,7798).


La nature dichotomique fuelStdet wheeldriveStdsimplement déplacer la moyenne des valeurs prédites vers le bas, et en effet sont des variables ou facteurs codés fictivement. Cela est également apparent sur le diagramme de dispersion initial, mais peut être davantage visualisé avec des diagrammes en boîte:

entrez la description de l'image ici


Un dernier point dans les diagnostics est la présence de points de levier élevés , qui méritent d'être examinés:

entrez la description de l'image ici

Que conclure? Rien de catégorique. Peut-être juste pour souligner l'importance du traçage pour comprendre l'ensemble de données et tout modèle qui lui est imposé.

Antoni Parellada
la source
1

La réponse à votre première question dépend de votre cadre théorique, de la façon dont vous énoncez les hypothèses sur la relation entre les variables dépendantes et indépendantes et de la façon dont vous interprétez les résultats. À elle seule, l'obtention d'une relation statistiquement significative pour la plupart des variables pourrait ne rien dire de la réalité de vos résultats.

Donc, si ces résultats vous semblent suspects (en fonction de vos connaissances antérieures), vous pouvez exécuter des tests de diagnostic pour la régression. Il peut y avoir violation des hypothèses du modèle et d'autres problèmes (par exemple, valeurs aberrantes). En fait, il est toujours utile d'exécuter ces tests pour évaluer votre modèle de régression. Puisque vous utilisez R, vous pouvez vérifier le carpackage qui fournit un certain nombre de fonctions pour les tests de diagnostic. Ici vous pouvez trouver les diapositives de cours sur les diagnostics de régression par l'un des auteurs (et le créateur) du carpackage, John Fox. Vous pouvez également consulter son livre sur le sujet (1991). Kabacoff (2011) a également discuté des diagnostics de régression et de l'utilisation des Rfonctions (y compris celles decarpackage) et interpréter les résultats (p.188-200). Je pense qu'après ces tests de diagnostic, il vaut mieux évaluer les résultats et leur utilité.


Fox, J. (1991). Diagnostics de régression . Newbury Park, Londres, New Delhi: Sage Publications.

Kabacoff, RI (2011). R en action: analyse des données et des graphiques avec R . Shelter Island: Manning.

Aussi:

Fox, J. et Weisberg, S. (2011). Diagnostic des problèmes dans les modèles linéaires et linéaires généralisés. Dans An R Companion to Applied Regression (2e éd., P. 285–328). Los Angeles: Sage Publications.

TEG
la source