Ce lien wikipedia répertorie un certain nombre de techniques pour détecter l'hétéroscédasticité des résidus OLS. Je voudrais savoir quelle technique pratique est plus efficace pour détecter les régions affectées par l'hétéroscédasticité.
Par exemple, ici, la région centrale du graphique OLS `` Résidus vs ajustés '' semble avoir une variance plus élevée que les côtés du graphique (je ne suis pas entièrement sûr des faits, mais supposons que c'est le cas pour le bien de la question). Pour confirmer, en regardant les étiquettes d'erreur dans le graphique QQ, nous pouvons voir qu'elles correspondent aux étiquettes d'erreur au centre du graphique Residuals.
Mais comment pouvons-nous quantifier la région des résidus qui a une variance significativement plus élevée?
la source
Réponses:
Ce problème a un aspect exploratoire. John Tukey décrit de nombreuses procédures pour explorer l'hétéroscédasticité dans son analyse classique des données exploratoires (Addison-Wesley 1977). Le plus directement utile est peut-être une variante de son « intrigue schématique errante ». Cela découpe une variable (telle que la valeur prédite) en bacs et utilise des résumés de m-lettres (généralisations de boîtes à moustaches) pour montrer l'emplacement, la répartition et la forme de l'autre variable pour chaque bac. Les statistiques sur les lettres m sont encore lissées afin de mettre l'accent sur les tendances générales plutôt que sur les écarts de chance.
Une version rapide peut être préparée en exploitant la
boxplot
procédure deR
. Nous illustrons avec des données fortement hétéroscédastiques simulées:Obtenons les valeurs prédites et les résidus de la régression OLS:
Voici donc le tracé schématique errant utilisant des bacs à nombre égal pour les valeurs prédites. J'utilise
lowess
pour un lissage rapide et sale.La courbe bleue lisse les médianes. Sa tendance horizontale indique que la régression est généralement un bon ajustement. Les autres courbes lissent les extrémités des boîtes (quartiles) et les clôtures (qui sont généralement des valeurs extrêmes). Leur forte convergence et leur séparation ultérieure témoignent de l'hétéroscédasticité - et nous aident à la caractériser et à la quantifier.
(Remarquez l'échelle non linéaire sur l'axe horizontal, reflétant la distribution des valeurs prédites. Avec un peu plus de travail, cet axe pourrait être linéarisé, ce qui est parfois utile.)
la source
Typiquement, l'hétéroskédasticité est modélisée en utilisant une approche de Breusch-Pagan. Les résidus de votre régression linéaire sont ensuite mis au carré et régressés sur les variables de votre modèle linéaire d'origine. Cette dernière régression est appelée régression auxiliaire .
Pour vos besoins, vous pouvez vous concentrer sur les coefficients individuels de ce modèle pour voir quelles variables sont les plus prédictives des résultats de variance élevée ou faible.
la source