Comment effectuer une analyse résiduelle pour les prédicteurs indépendants binaires / dichotomiques en régression linéaire?

J'effectue la régression linéaire multiple ci-dessous dans R pour prédire les rendements des fonds gérés.

reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata)

Ici, seuls GRI et MBA sont des prédicteurs binaires / dichotomiques; les prédicteurs restants sont continus.

J'utilise ce code pour générer des tracés résiduels pour les variables binaires.

plot(rawdata$GRI, reg$residuals)
abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) 

plot(rawdata$MBA, reg$residuals)
abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x)

Ma question: je sais comment inspecter les tracés résiduels pour les prédicteurs continus, mais comment testez-vous les hypothèses de régression linéaire telles que l'homoscédasticité lorsqu'une variable indépendante est binaire?

Tracés résiduels:

Terrain résiduel pour GR1 Terrain résiduel pour MBA

r multiple-regression categorical-data heteroscedasticity residuals GeorgeOfTheRF
la source

Réponses:

@NickCox a fait du bon travail en parlant des affichages de résidus lorsque vous avez deux groupes. Permettez-moi d'aborder certaines des questions explicites et des hypothèses implicites qui se cachent derrière ce fil.

La question demande: "Comment testez-vous les hypothèses de régression linéaire telles que l'homoscédasticité lorsqu'une variable indépendante est binaire?" Vous disposez d'un modèle de régression multiple . Un modèle de régression (multiple) suppose qu'il n'y a qu'un seul terme d'erreur, qui est constant partout. Il n'est pas très significatif (et vous n'avez pas) de vérifier individuellement l'hétéroscédasticité de chaque prédicteur. C'est pourquoi, lorsque nous avons un modèle de régression multiple, nous diagnostiquons l'hétéroscédasticité à partir des graphiques des résidus par rapport aux valeurs prédites. Le graphique le plus utile à cet effet est probablement un graphique de localisation de l'échelle (également appelé `` niveau de propagation ''), qui est un graphique de la racine carrée de la valeur absolue des résidus par rapport aux valeurs prédites. Pour voir des exemples,Que signifie «variance constante» dans un modèle de régression linéaire?

De même, vous n'avez pas à vérifier la normalité des résidus de chaque prédicteur. (Honnêtement, je ne sais même pas comment cela fonctionnerait.)

Ce que vous pouvez faire avec des graphiques de résidus par rapport à des prédicteurs individuels, c'est de vérifier si la forme fonctionnelle est correctement spécifiée. Par exemple, si les résidus forment une parabole, il y a une courbure dans les données que vous avez manquées. Pour voir un exemple, regardez le deuxième tracé dans la réponse de @ Glen_b ici: Vérification de la qualité du modèle en régression linéaire . Cependant, ces problèmes ne s'appliquent pas avec un prédicteur binaire.

Pour ce que ça vaut, si vous n'avez que des prédicteurs catégoriques, vous pouvez tester l'hétéroscédasticité. Vous utilisez simplement le test de Levene. J'en discute ici: Pourquoi le test de Levene de l'égalité des variances plutôt que du rapport F? Dans R, vous utilisez ? LeveneTest du package de voiture.

Modifier: pour mieux illustrer le fait que regarder un tracé des résidus par rapport à une variable de prédiction individuelle n'aide pas lorsque vous avez un modèle de régression multiple, considérez cet exemple:

set.seed(8603)                       # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50))  # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12)        # here is the (dichotomous) x2 variable
y  = 5 + 1*x1 + 2*x2 + rnorm(48)     # the true data generating process, there is 
                                     #   no heteroscedasticity

mod = lm(y~x1+x2)                    # this fits the model

Vous pouvez voir d'après le processus de génération de données qu'il n'y a pas d'hétéroscédasticité. Examinons les tracés pertinents du modèle pour voir s'ils impliquent une hétéroscédasticité problématique:

entrez la description de l'image ici

Non, rien à craindre. Cependant, regardons le tracé des résidus par rapport à la variable prédictive binaire individuelle pour voir s'il semble y avoir une hétéroscédasticité:

entrez la description de l'image ici

Oh oh, il semble qu'il y ait un problème. Nous savons par le processus de génération de données qu'il n'y a pas d'hétéroscédasticité, et les principaux tracés pour l'explorer n'en ont pas montré non plus, alors que se passe-t-il ici? Peut-être que ces complots aideront:

entrez la description de l'image ici

x1et x2ne sont pas indépendants les uns des autres. De plus, les observations x2 = 1sont extrêmes. Ils ont plus d'effet de levier, donc leurs résidus sont naturellement plus petits. Néanmoins, il n'y a pas d'hétéroscédasticité.

Le message à retenir: votre meilleur pari est de diagnostiquer l'hétéroscédasticité uniquement à partir des parcelles appropriées (la courbe résiduelle par rapport à la courbe ajustée et la courbe au niveau de la propagation).

gung - Réintégrer Monica
la source

Merci! Pour la même régression que je faisais, j'ai trouvé que Residual Vs Y est homoscédastique mais quand j'ai vérifié la permanence de Residual Vs (indépendante), c'était une forme d'entonnoir. J'ai donc besoin de faire une transformation pour corriger ce droit? Dans ce contexte, je voulais simplement comprendre pourquoi vous avez mentionné que la vérification de la variable indépendante Vs résiduelle n'était pas nécessaire?

GeorgeOfTheRF

@ mrcet007, non, vous n'avez pas besoin d'une transformation. Si le rés vs ajusté ne montre aucune hétéroscédasticité, vous êtes OK. Peut-être qu'une illustration vous aidera. J'ai modifié ma réponse pour ajouter une démonstration.

gung - Rétablir Monica

Pouvez-vous vérifier ce lien people.duke.edu/~rnau/testing.htm . Il dit également vérifier la variable indépendante Vs résiduelle. Partage juste pour les discussions. Pouvez-vous commenter cela? Ce que je pensais, c'était que nous devions toujours vérifier les V résiduels prédits ainsi que les résidus vs indépendants. homoscédasticité (variance constante) des erreurs (a) en fonction du temps (dans le cas des données de séries chronologiques) (b) en fonction des prédictions (c) en fonction de toute variable indépendante

GeorgeOfTheRF

Mon commentaire est que je vous ai fourni à la fois une raison pour laquelle vous regardez les graphiques résiduels vs prédits pour vérifier l'hétéroscédasticité et vous a montré un exemple de la façon dont la recherche de graphiques résiduels vs IV peut vous induire en erreur. Je ne sais pas quoi dire d'autre.

gung - Rétablir Monica

Il est vrai que les parcelles résiduelles conventionnelles sont plus difficiles dans ce cas: il peut être (beaucoup) plus difficile de voir si les distributions sont à peu près les mêmes. Mais il existe des alternatives faciles ici. Vous comparez simplement deux distributions, et il existe de nombreuses bonnes façons de le faire. Certaines possibilités sont des diagrammes quantiles côte à côte ou superposés, des histogrammes ou des diagrammes rectangulaires. Mon propre préjugé est que les boîtes à moustaches non décorées sont souvent surutilisées ici: elles suppriment généralement les détails que nous devrions vouloir examiner, même si nous pouvons souvent les considérer comme sans importance. Mais vous pouvez manger votre gâteau et l'avoir.

Vous utilisez R, mais rien de statistique dans votre question n'est spécifique à R. Ici, j'ai utilisé Stata pour une régression sur un seul prédicteur binaire, puis j'ai lancé des diagrammes de boîtes quantiles comparant les résidus pour les deux niveaux du prédicteur. La conclusion pratique de cet exemple est que les distributions sont à peu près les mêmes.

entrez la description de l'image ici

$1/4$ $3/4$

Remarque: Voir également Comment présenter un diagramme en boîte avec une valeur aberrante extrême? y compris l'exemple de @ Glen_b de tracés similaires utilisant R. Ces tracés devraient être faciles dans n'importe quel logiciel décent; sinon, votre logiciel n'est pas décent.

Nick Cox
la source

+1 Magnifique. Pensez-vous que les tests d'hypothèse sur les résidus ont également leur rôle à jouer?

Alexis

@gung J'ai modifié votre montage. L'original n'était évidemment pas assez clair si vous l'avez mal compris.

Nick Cox

@Alexis Merci! Je suis satisfait de l'idée qu'une hypothèse de dispersion égale est supportée de manière informelle par le graphique dans ce cas. Je ne suis pas de l'école de pensée selon laquelle chaque petite étape d'une analyse doit être sanctifiée par une valeur P. Malheureusement, il n'est jamais facile d'être sûr que vous sautez dans le bon sens, mais j'aurais aussi en pratique d'autres modèles en cas de doute. Ici l'exemple est juste concocté pour la question et ne fait pas partie d'une analyse sérieuse.

Nick Cox

Mes excuses, Nick. J'ai mal compris le point de cette phrase. Je pensais que c'était une faute de frappe. C'est plus clair maintenant.

gung - Rétablir Monica

@whuber C'est bien pour moi. Certaines personnes les trouvent déroutantes, du moins me dit-on.

Nick Cox