Mesures de l'hétéroscédasticité résiduelle

16

Ce lien wikipedia répertorie un certain nombre de techniques pour détecter l'hétéroscédasticité des résidus OLS. Je voudrais savoir quelle technique pratique est plus efficace pour détecter les régions affectées par l'hétéroscédasticité.

Par exemple, ici, la région centrale du graphique OLS `` Résidus vs ajustés '' semble avoir une variance plus élevée que les côtés du graphique (je ne suis pas entièrement sûr des faits, mais supposons que c'est le cas pour le bien de la question). Pour confirmer, en regardant les étiquettes d'erreur dans le graphique QQ, nous pouvons voir qu'elles correspondent aux étiquettes d'erreur au centre du graphique Residuals.

Mais comment pouvons-nous quantifier la région des résidus qui a une variance significativement plus élevée?

hétéroscédasticité

Robert Kubrick
la source
2
Je ne suis pas sûr que vous ayez raison de dire qu'il existe une variance plus élevée au milieu. Le fait que les valeurs aberrantes se trouvent dans la région centrale me semble probablement être le résultat du fait que c'est là que se trouvent la plupart des données. Bien sûr, cela n'invalide pas votre question.
Peter Ellis
1
Le qqplot est destiné à identifier directement la non-normalité de la distribution et non les variances non homogènes.
Michael R. Chernick
@PeterEllis Oui, j'ai spécifié dans la question que je ne suis pas sûr que la variance soit différente, mais j'avais cette image de diagnostic à portée de main et il pourrait y avoir une certaine hétéroscédasticité dans l'exemple.
Robert Kubrick
@ MichaelChernick J'ai seulement mentionné le qqplot pour illustrer comment les erreurs les plus élevées semblent se concentrer au milieu du graphique des résidus, indiquant ainsi potentiellement une variance plus élevée dans cette zone.
Robert Kubrick

Réponses:

15

Ce problème a un aspect exploratoire. John Tukey décrit de nombreuses procédures pour explorer l'hétéroscédasticité dans son analyse classique des données exploratoires (Addison-Wesley 1977). Le plus directement utile est peut-être une variante de son « intrigue schématique errante ». Cela découpe une variable (telle que la valeur prédite) en bacs et utilise des résumés de m-lettres (généralisations de boîtes à moustaches) pour montrer l'emplacement, la répartition et la forme de l'autre variable pour chaque bac. Les statistiques sur les lettres m sont encore lissées afin de mettre l'accent sur les tendances générales plutôt que sur les écarts de chance.

Une version rapide peut être préparée en exploitant la boxplotprocédure de R. Nous illustrons avec des données fortement hétéroscédastiques simulées:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Les données

Obtenons les valeurs prédites et les résidus de la régression OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Voici donc le tracé schématique errant utilisant des bacs à nombre égal pour les valeurs prédites. J'utilise lowesspour un lissage rapide et sale.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Graphique schématique errant

La courbe bleue lisse les médianes. Sa tendance horizontale indique que la régression est généralement un bon ajustement. Les autres courbes lissent les extrémités des boîtes (quartiles) et les clôtures (qui sont généralement des valeurs extrêmes). Leur forte convergence et leur séparation ultérieure témoignent de l'hétéroscédasticité - et nous aident à la caractériser et à la quantifier.

(Remarquez l'échelle non linéaire sur l'axe horizontal, reflétant la distribution des valeurs prédites. Avec un peu plus de travail, cet axe pourrait être linéarisé, ce qui est parfois utile.)

whuber
la source
6
Bel exemple, j'aurais pensé qu'une implémentation de l'exécution des quantiles était disponible dans R (pour éviter le problème avec les bacs tous ensemble). Cela me rappelle un peu les parcelles de sacs . Voir également l' extension de Rob Hyndman dans son package Rainbow.
Andy W
9

Typiquement, l'hétéroskédasticité est modélisée en utilisant une approche de Breusch-Pagan. Les résidus de votre régression linéaire sont ensuite mis au carré et régressés sur les variables de votre modèle linéaire d'origine. Cette dernière régression est appelée régression auxiliaire .

nRune2nRune2R2

Pour vos besoins, vous pouvez vous concentrer sur les coefficients individuels de ce modèle pour voir quelles variables sont les plus prédictives des résultats de variance élevée ou faible.

Charlie
la source
1
+1 Mais veuillez noter que ces tests sont limités dans les formes d'hétéroscédasticité qu'ils peuvent détecter. Des exemples comme celui montré dans ma réponse peuvent passer à travers, même si l'hétéroscédasticité est extrêmement forte.
whuber