J'ai le modèle linéaire suivant:
Pour résoudre l'hétéroscédasticité des résidus, j'ai essayé d'appliquer une transformation logarithmique à la variable dépendante comme mais je vois toujours le même effet de fan out sur les résidus. Les valeurs DV sont relativement petites, donc l'addition constante +1 avant de prendre le journal n'est probablement pas appropriée dans ce cas.
> summary(Y)
Min. :-0.0005647
1st Qu.: 0.0001066
Median : 0.0003060
Mean : 0.0004617
3rd Qu.: 0.0006333
Max. : 0.0105730
NA's :30.0000000
Comment puis-je transformer les variables pour améliorer l'erreur de prédiction et la variance, en particulier pour les valeurs ajustées d'extrême droite?
la source
Vous voudriez essayer la transformation Box-Cox . C'est une version d'une transformation du pouvoir:
˙y
Certaines discussions antérieures incluent: Quelles autres transformations de normalisation sont couramment utilisées au-delà des transformations courantes comme la racine carrée, le journal, etc.? et comment transformer des données non négatives, y compris des zéros? . Vous pouvez trouver le code R suivant Comment rechercher une procédure statistique dans R?
Les économétriciens ont cessé de se soucier de l'hétéroskédasticité après les travaux fondateurs de Halbert White (1980) sur la mise en place de procédures inférentielles robustes à l'hétéroskédasticité (qui en fait viennent de raconter l'histoire antérieure d'un statisticien F.Eicker (1967)). Voir la page Wikipedia que je viens de réécrire.
la source
Il existe une solution très simple au problème d'hétéroscédasticité associé aux variables dépendantes dans les données de séries chronologiques. Je ne sais pas si cela s'applique à votre variable dépendante. En supposant que c'est le cas, au lieu d'utiliser Y nominal, changez-le en% de variation de Y par rapport à la période actuelle par rapport à la période précédente. Par exemple, supposons que votre Y nominal soit un PIB de 14 billions de dollars au cours de la période la plus récente. Calculez plutôt la variation du PIB au cours de la période la plus récente (disons 2,5%).
Une série temporelle nominale croît toujours et est toujours hétéroscédastique (la variance de l'erreur augmente avec le temps parce que les valeurs augmentent). Une série de variation en% est généralement homoscédastique car la variable dépendante est à peu près stationnaire.
la source