Je recherche de l'aide, des conseils ou des astuces pour expliquer l'hétérogénéité / l'hétéroscédasticité aux biologistes de mon service. En particulier, je veux expliquer pourquoi il est important de le rechercher et de le traiter s'il existe, je cherchais des opinions sur les questions suivantes.
- L'hétérogénéité influence-t-elle la fiabilité des estimations des effets aléatoires? Je suis sûr que c'est le cas, mais je n'ai pas trouvé de papier.
- Quelle est la gravité d'un problème d'hétérogénéité? J'ai trouvé des opinions contradictoires à ce sujet, alors que certains disent que les erreurs standard du modèle, etc. ne seront pas fiables, j'ai également lu que ce n'est un problème que si l'hétérogénéité est grave. Quelle est la gravité est grave?
- Conseils sur la modélisation de l'hétérogénéité. Actuellement, je me concentre principalement sur le paquetage nlme dans R et l'utilisation de covariables de variance, c'est assez simple et la plupart des gens ici utilisent R, donc fournir des scripts est utile. J'utilise également le package MCMCglmm, mais d'autres suggestions sont les bienvenues, en particulier pour les données non normales.
- N'importe quelles autres suggestions sont les bienvenues.
Réponses:
L'allométrie serait un bon point de départ qui sera familier aux biologistes. Les transformations logaritmiques sont souvent utilisées en allométrie parce que les données ont une forme de loi de puissance, mais aussi parce que le processus de bruit est hétéroscédastique (car la variabilité est proportionnelle à la taille). Pour un exemple où cela a causé un problème grave, voir «Équations allométriques pour prédire la masse corporelle des dinosaures» , où la conclusion que les dinosaures n'étaient que la moitié de la taille auparavant était incorrecte car une hypothèse invalide d'homoscédasticité a été faite (voir la correspondance pour détails).
la source
Une option consiste à utiliser une simulation. Donc, configurez un modèle où vous spécifiez spécifiquement l'hétérogénéité supposée commevar(αi)=X¯¯¯¯2iσ2u . Générez ensuite vos données à partir de ce modèle, en prenant des interceptions aléatoires comme exemple simple.
(espérons que cette notation a du sens). Je crois que jouer avec une configuration comme celle-ci vous aidera à répondre à la question 2). Donc, vous ajusteriez ce modèle en utilisant une interception aléatoire, alors qu'en fait, il devrait s'agir d'une pente aléatoire (qui vous donne une réponse partielle à la question 3 - les interceptions aléatoires peuvent expliquer le "fanning" à un degré - c'est "le fanning de niveau 2" ). L'idée de ce qui précède est d'essayer aussi fort que possible de briser votre méthode de modélisation - essayez des conditions extrêmes cohérentes avec ce que vous savez sur les données et voyez ce qui se passe. Si vous avez du mal à trouver ces conditions, ne vous inquiétez pas.
J'ai fait une vérification rapide de l'hétéroscédasticité pour OLS, et cela ne semble pas trop affecter les bêtas estimés. Pour moi, il semble simplement que l'hétéroscédasticité se produira à certains endroits en donnant une sous-estimation de l'erreur probable, et à d'autres endroits, elle donnera une surestimation de l'erreur probable (en termes prédictifs). Voir ci-dessous:
en attendant le tracé des données ici, l'utilisateur actuellement frustré par les ordinateurs
Et une chose que je trouve toujours amusante est cette "non-normalité des données" qui inquiète les gens. Les données n'ont pas besoin d'être distribuées normalement, mais le terme d'erreur le fait. Si ce n'était pas le cas, les GLM ne fonctionneraient pas - les GLM utilisent une approximation normale de la fonction de vraisemblance pour estimer les paramètres, comme le font les GLMM.
Je dirais donc que si l'estimation des paramètres à effet fixe est l'objectif principal, alors pas de quoi s'inquiéter, mais vous pouvez obtenir de meilleurs résultats pour la prédiction en tenant compte de l'hétéroscédasticité.
la source
La meilleure ressource en ligne GRATUITE que je connaisse pour en savoir plus sur l'hétéroskédasticité est les conférences ECON 421 du professeur Thoma de 2011. Plus précisément les conférences 1 à 7. Ses conférences sont très organisées et faciles à suivre quelle que soit votre discipline.
Voici la première conférence. Vous pouvez également trouver le reste des conférences du semestre d'hiver 2011 ici. http://www.youtube.com/watch?v=WK03XgoVsPM
En outre, le site Web correspondant au cours Econ 421 du professeur Thoma contient des problèmes de devoirs et leurs solutions. Pour les solutions qui nécessitent un logiciel, la solution est détaillée étape par étape en utilisant une combinaison de texte, de formules et de captures d'écran d'Eviews.
Bien que les étapes utilisées pour résoudre les problèmes de devoirs soient détaillées à l'aide de captures d'écran des vues électroniques, les solutions se transforment facilement en d'autres packages statistiques tels que les statistiques STATA ou R.
Aucune solution n'est répertoriée pour les devoirs du semestre 2011, qui est le dernier semestre enregistré par le professeur Thoma. Cependant, des devoirs sont disponibles pour son semestre d'hiver 2012 .
Voici un lien vers la section Solutions de devoirs de la classe Prof. Thomas Winter 2012 421. Plus précisément, voici la solution aux devoirs 3 où l'hétéroscédasticité est introduite dans les ensembles de devoirs. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html
la source