@NickCox a fait du bon travail en parlant des affichages de résidus lorsque vous avez deux groupes. Permettez-moi d'aborder certaines des questions explicites et des hypothèses implicites qui se cachent derrière ce fil.
La question demande: "Comment testez-vous les hypothèses de régression linéaire telles que l'homoscédasticité lorsqu'une variable indépendante est binaire?" Vous disposez d'un modèle de régression multiple . Un modèle de régression (multiple) suppose qu'il n'y a qu'un seul terme d'erreur, qui est constant partout. Il n'est pas très significatif (et vous n'avez pas) de vérifier individuellement l'hétéroscédasticité de chaque prédicteur. C'est pourquoi, lorsque nous avons un modèle de régression multiple, nous diagnostiquons l'hétéroscédasticité à partir des graphiques des résidus par rapport aux valeurs prédites. Le graphique le plus utile à cet effet est probablement un graphique de localisation de l'échelle (également appelé `` niveau de propagation ''), qui est un graphique de la racine carrée de la valeur absolue des résidus par rapport aux valeurs prédites. Pour voir des exemples,Que signifie «variance constante» dans un modèle de régression linéaire?
De même, vous n'avez pas à vérifier la normalité des résidus de chaque prédicteur. (Honnêtement, je ne sais même pas comment cela fonctionnerait.)
Ce que vous pouvez faire avec des graphiques de résidus par rapport à des prédicteurs individuels, c'est de vérifier si la forme fonctionnelle est correctement spécifiée. Par exemple, si les résidus forment une parabole, il y a une courbure dans les données que vous avez manquées. Pour voir un exemple, regardez le deuxième tracé dans la réponse de @ Glen_b ici: Vérification de la qualité du modèle en régression linéaire . Cependant, ces problèmes ne s'appliquent pas avec un prédicteur binaire.
Pour ce que ça vaut, si vous n'avez que des prédicteurs catégoriques, vous pouvez tester l'hétéroscédasticité. Vous utilisez simplement le test de Levene. J'en discute ici: Pourquoi le test de Levene de l'égalité des variances plutôt que du rapport F? Dans R, vous utilisez ? LeveneTest du package de voiture.
Modifier: pour mieux illustrer le fait que regarder un tracé des résidus par rapport à une variable de prédiction individuelle n'aide pas lorsque vous avez un modèle de régression multiple, considérez cet exemple:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Vous pouvez voir d'après le processus de génération de données qu'il n'y a pas d'hétéroscédasticité. Examinons les tracés pertinents du modèle pour voir s'ils impliquent une hétéroscédasticité problématique:
Non, rien à craindre. Cependant, regardons le tracé des résidus par rapport à la variable prédictive binaire individuelle pour voir s'il semble y avoir une hétéroscédasticité:
Oh oh, il semble qu'il y ait un problème. Nous savons par le processus de génération de données qu'il n'y a pas d'hétéroscédasticité, et les principaux tracés pour l'explorer n'en ont pas montré non plus, alors que se passe-t-il ici? Peut-être que ces complots aideront:
x1
et x2
ne sont pas indépendants les uns des autres. De plus, les observations x2 = 1
sont extrêmes. Ils ont plus d'effet de levier, donc leurs résidus sont naturellement plus petits. Néanmoins, il n'y a pas d'hétéroscédasticité.
Le message à retenir: votre meilleur pari est de diagnostiquer l'hétéroscédasticité uniquement à partir des parcelles appropriées (la courbe résiduelle par rapport à la courbe ajustée et la courbe au niveau de la propagation).
Il est vrai que les parcelles résiduelles conventionnelles sont plus difficiles dans ce cas: il peut être (beaucoup) plus difficile de voir si les distributions sont à peu près les mêmes. Mais il existe des alternatives faciles ici. Vous comparez simplement deux distributions, et il existe de nombreuses bonnes façons de le faire. Certaines possibilités sont des diagrammes quantiles côte à côte ou superposés, des histogrammes ou des diagrammes rectangulaires. Mon propre préjugé est que les boîtes à moustaches non décorées sont souvent surutilisées ici: elles suppriment généralement les détails que nous devrions vouloir examiner, même si nous pouvons souvent les considérer comme sans importance. Mais vous pouvez manger votre gâteau et l'avoir.
Vous utilisez R, mais rien de statistique dans votre question n'est spécifique à R. Ici, j'ai utilisé Stata pour une régression sur un seul prédicteur binaire, puis j'ai lancé des diagrammes de boîtes quantiles comparant les résidus pour les deux niveaux du prédicteur. La conclusion pratique de cet exemple est que les distributions sont à peu près les mêmes.
Remarque: Voir également Comment présenter un diagramme en boîte avec une valeur aberrante extrême? y compris l'exemple de @ Glen_b de tracés similaires utilisant R. Ces tracés devraient être faciles dans n'importe quel logiciel décent; sinon, votre logiciel n'est pas décent.
la source