Je suis un peu perdu dans le processus de régression WLS. On m'a donné un ensemble de données et ma tâche consiste à tester s'il existe une hétéroscédascité, et si c'est le cas, je dois exécuter une régression WLS.
J'ai effectué le test et trouvé des preuves d'hétéroscédascité, j'ai donc besoin d'exécuter le WLS. On m'a dit que WLS est essentiellement une régression OLS d'un modèle transformé, mais je suis un peu confus quant à la recherche de la fonction de transformation. J'ai lu quelques articles qui suggéraient que la transformation peut être fonction des résidus au carré de la régression OLS, mais j'apprécierais que quelqu'un puisse m'aider à me mettre sur la bonne voie.
Réponses:
La régression des moindres carrés pondérés (WLS) n'est pas un modèle transformé. , Vous simplement au lieu de traiter chaque observation comme plus ou moins d' information sur la relation sous - jacente entre et . Les points qui sont plus informatifs reçoivent plus de «poids» et ceux qui sont moins informatifs reçoivent moins de poids. Vous avez raison de dire que la régression des moindres carrés pondérés (WLS) n'est techniquement valable que si les poids sont connus a priori.X Oui
Cependant, la régression linéaire (OLS) est assez robuste contre l'hétéroscédasticité et il en va de même pour le WLS si vos estimations sont approximatives. Une règle d'or pour la régression OLS est qu'elle n'est pas trop impactée par l'hétéroscédasticité tant que la variance maximale n'est pas supérieure à 4 fois la variance minimale. Par exemple, si la variance des résidus / erreurs augmente avec , alors vous seriez OK si la variance des résidus à l'extrémité supérieure était inférieure à quatre fois la variance des résidus à l'extrémité inférieure. L'implication de ceci est que si vos poids vous placent dans cette plage, vous êtes raisonnablement en sécurité. C'est une sorte de fers à cheval et de grenades à mainX situation. Par conséquent, vous pouvez essayer d'estimer la fonction reliant la variance des résidus aux niveaux de vos variables prédictives.
Plusieurs questions se posent quant à la manière de procéder à cette estimation:
N'oubliez pas que les poids doivent être l'inverse de la variance (ou tout ce que vous utilisez).
Si vos données se produisent uniquement à des niveaux discrets de , comme dans une expérience ou une ANOVA, vous pouvez estimer la variance directement à chaque niveau de et l'utiliser. Si les estimations sont des niveaux discrets d'une variable continue (par exemple, 0 mg., 10 mg., 20 mg., Etc.), vous voudrez peut-être les lisser, mais cela ne fera probablement pas beaucoup de différence.X X
Les estimations des écarts, en raison de la quadrature, sont cependant très sensibles aux valeurs aberrantes et / ou aux points de levier élevés. Si vos données ne sont pas réparties uniformément sur ou si vous disposez de relativement peu de données, l'estimation directe de la variance n'est pas recommandée. Il est préférable d'estimer quelque chose qui devrait être en corrélation avec la variance, mais qui est plus robuste. Un choix courant consisterait à utiliser la racine carrée des valeurs absolues des écarts par rapport à la moyenne conditionnelle. (Par exemple, dans R, affichera un nuage de points de ceux-ci contre , appelé "diagramme de niveau de propagation", pour vous aider à diagnostiquer l'hétéroscédasticité potentielle; voir ma réponse ici .) Encore plus robuste pourrait être d'utiliser la plage interquartile conditionnelle, ou le conditionnelX X écart absolu médian par rapport à la médiane .
plot(model, which=2)
Si est une variable continue, la stratégie typique consiste à utiliser une simple régression OLS pour obtenir les résidus, puis régressent l' une des fonctions [ 3 ] (très probablement l'écart absolu de la racine) sur . La valeur prédite de cette fonction est utilisée pour le poids associé à ce point.X X
Obtenir vos poids à partir des résidus d'une régression OLS est raisonnable car OLS est non biaisé, même en présence d'hétéroscédasticité. Néanmoins, ces poids dépendent du modèle d'origine et peuvent modifier l'ajustement du modèle WLS suivant. Ainsi, vous devriez vérifier vos résultats en comparant les bêtas estimés des deux régressions. S'ils sont très similaires, vous êtes OK. Si les coefficients WLS divergent des coefficients OLS, vous devez utiliser les estimations WLS pour calculer manuellement les résidus (les résidus déclarés de l'ajustement WLS prendront en compte les poids). Après avoir calculé un nouvel ensemble de résidus, déterminez à nouveau les poids et utilisez les nouveaux poids dans une deuxième régression WLS. Ce processus doit être répété jusqu'à ce que deux ensembles de bêtas estimés soient suffisamment similaires (même si cela n'est pas courant une fois).
Si ce processus vous met quelque peu mal à l'aise, car les poids sont estimés et parce qu'ils dépendent du modèle incorrect antérieur, une autre option consiste à utiliser l' estimateur `` sandwich '' de Huber-White . Cela est cohérent même en présence d'hétéroscédasticité, quelle que soit sa gravité, et cela ne dépend pas du modèle. C'est aussi potentiellement moins compliqué.
Je démontre une version simple des moindres carrés pondérés et l'utilisation des SE sandwichs dans ma réponse ici: Alternatives à l'ANOVA unidirectionnelle pour les données hétéroscédastiques .
la source
Lors de l'exécution de WLS, vous devez connaître les poids. Il existe quelques moyens de les trouver, comme indiqué à la page 191 de l' introduction à l'analyse de régression linéaire par Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Par exemple:
la source