Conseils pour expliquer l'hétérogénéité / l'hétéroscédastictie

8

Je recherche de l'aide, des conseils ou des astuces pour expliquer l'hétérogénéité / l'hétéroscédasticité aux biologistes de mon service. En particulier, je veux expliquer pourquoi il est important de le rechercher et de le traiter s'il existe, je cherchais des opinions sur les questions suivantes.

  1. L'hétérogénéité influence-t-elle la fiabilité des estimations des effets aléatoires? Je suis sûr que c'est le cas, mais je n'ai pas trouvé de papier.
  2. Quelle est la gravité d'un problème d'hétérogénéité? J'ai trouvé des opinions contradictoires à ce sujet, alors que certains disent que les erreurs standard du modèle, etc. ne seront pas fiables, j'ai également lu que ce n'est un problème que si l'hétérogénéité est grave. Quelle est la gravité est grave?
  3. Conseils sur la modélisation de l'hétérogénéité. Actuellement, je me concentre principalement sur le paquetage nlme dans R et l'utilisation de covariables de variance, c'est assez simple et la plupart des gens ici utilisent R, donc fournir des scripts est utile. J'utilise également le package MCMCglmm, mais d'autres suggestions sont les bienvenues, en particulier pour les données non normales.
  4. N'importe quelles autres suggestions sont les bienvenues.
user3136
la source
1
@ user3136, veuillez clarifier est votre principale préoccupation l'hétérogénéité (différentes espèces avec des attributs uniques, probablement tirés de la distribution connue) ou l'hétéroscédasticité (la propriété du processus aléatoire d'avoir une variance variant dans le temps), car ces deux concepts sont clairement différents. Les deux problèmes sont cependant intéressants, le premier conduit à des modèles à effets mixtes ou à des modèles à coefficient aléatoire, le second a de nombreux remèdes à gérer (mais est moins important, car l' n'est tout simplement pas efficace, mais les estimations ne sont pas biaisées). OLS
Dmitrij Celov
Salut, désolé. Ma préoccupation concerne vraiment l'hétéroscédastictie. Un problème que j'ai eu, c'est que ces deux termes (hétéroscédasticité et hétérogénéité) sont utilisés presque de façon interchangeable. Dans ce contexte, les deux sont censés se référer à la situation où l'erreur dans les résidus n'est pas constante
user3136
4
Pas vraiment, les sources d'hétérogénéité sont nombreuses: différences de paramètres (paramètres aléatoires par exemple), variables (chose de régression habituelle), résidus (partie idiosyncratique qui peut appartenir à des distributions différentes, ou les paramètres de distribution peuvent être différents, l'hétéroscédasticité appartient ici, donc c'est un cas distinct d'hétérogénéité), des différences de forme fonctionnelle. Je laisserais donc le terme le plus particulier - l'hétéroscédasticité.
Dmitrij Celov
Merci Dimitrij, une question que je voulais poser concernait la terminologie correcte dans ce domaine.
user3136

Réponses:

6

L'allométrie serait un bon point de départ qui sera familier aux biologistes. Les transformations logaritmiques sont souvent utilisées en allométrie parce que les données ont une forme de loi de puissance, mais aussi parce que le processus de bruit est hétéroscédastique (car la variabilité est proportionnelle à la taille). Pour un exemple où cela a causé un problème grave, voir «Équations allométriques pour prédire la masse corporelle des dinosaures» , où la conclusion que les dinosaures n'étaient que la moitié de la taille auparavant était incorrecte car une hypothèse invalide d'homoscédasticité a été faite (voir la correspondance pour détails).

Dikran Marsupial
la source
6

Une option consiste à utiliser une simulation. Donc, configurez un modèle où vous spécifiez spécifiquement l'hétérogénéité supposée commevar(αi)=X¯i2σu2. Générez ensuite vos données à partir de ce modèle, en prenant des interceptions aléatoires comme exemple simple.

αi=X¯iuiuiN(0,σu2)

Yij=αi+βXij+eijeijN(0,σe2)

(espérons que cette notation a du sens). Je crois que jouer avec une configuration comme celle-ci vous aidera à répondre à la question 2). Donc, vous ajusteriez ce modèle en utilisant une interception aléatoire, alors qu'en fait, il devrait s'agir d'une pente aléatoire (qui vous donne une réponse partielle à la question 3 - les interceptions aléatoires peuvent expliquer le "fanning" à un degré - c'est "le fanning de niveau 2" ). L'idée de ce qui précède est d'essayer aussi fort que possible de briser votre méthode de modélisation - essayez des conditions extrêmes cohérentes avec ce que vous savez sur les données et voyez ce qui se passe. Si vous avez du mal à trouver ces conditions, ne vous inquiétez pas.

J'ai fait une vérification rapide de l'hétéroscédasticité pour OLS, et cela ne semble pas trop affecter les bêtas estimés. Pour moi, il semble simplement que l'hétéroscédasticité se produira à certains endroits en donnant une sous-estimation de l'erreur probable, et à d'autres endroits, elle donnera une surestimation de l'erreur probable (en termes prédictifs). Voir ci-dessous:

en attendant le tracé des données ici, l'utilisateur actuellement frustré par les ordinateurs

Et une chose que je trouve toujours amusante est cette "non-normalité des données" qui inquiète les gens. Les données n'ont pas besoin d'être distribuées normalement, mais le terme d'erreur le fait. Si ce n'était pas le cas, les GLM ne fonctionneraient pas - les GLM utilisent une approximation normale de la fonction de vraisemblance pour estimer les paramètres, comme le font les GLMM.

Je dirais donc que si l'estimation des paramètres à effet fixe est l'objectif principal, alors pas de quoi s'inquiéter, mais vous pouvez obtenir de meilleurs résultats pour la prédiction en tenant compte de l'hétéroscédasticité.

probabilitéislogique
la source
1
Salut, merci pour le conseil. Je travaille actuellement sur quelques simulations donc j'espère qu'elles fonctionnent. Pour autant que je sache, l'hétéroscédastictie n'affecte pas l'estimation des coefficients de régression, mais elle peut surestimer ou sous-estimer les erreurs-types de ces estimations.
user3136
En fait, il fait les deux (surestimation et sous-estimation) s'il existe une hétéroscédasticité - de la même manière que la «moyenne» des données ordinaires surestimera et sous-estimera les valeurs réelles. Pour une pente, vous aurez différents degrés de précision à différents points de la ligne.
Probabilogic
Dans mon domaine particulier, il y a également une grande dépendance à l'égard des tests de signification et donc des valeurs de p également. Je pense donc que le fait que la SE peut être surestimée et sous-estimée peut causer des problèmes si vous basez toute inférence sur vos valeurs de p.
user3136
Je dirais que vous avez des problèmes plus importants que les erreurs standard si toutes les inférences sont basées sur des valeurs de p et des tests de signification. Ce genre de choses encourage les «statistiques insensées».
Probabilogic
Je ne pourrais pas être plus d'accord, je pense que la plupart des gens à qui je parle savent qu'une telle approche est suspecte, mais il est difficile de les empêcher de se concentrer uniquement sur les valeurs p, souvent au détriment de tout le reste.
user3136
0

La meilleure ressource en ligne GRATUITE que je connaisse pour en savoir plus sur l'hétéroskédasticité est les conférences ECON 421 du professeur Thoma de 2011. Plus précisément les conférences 1 à 7. Ses conférences sont très organisées et faciles à suivre quelle que soit votre discipline.

Voici la première conférence. Vous pouvez également trouver le reste des conférences du semestre d'hiver 2011 ici. http://www.youtube.com/watch?v=WK03XgoVsPM

En outre, le site Web correspondant au cours Econ 421 du professeur Thoma contient des problèmes de devoirs et leurs solutions. Pour les solutions qui nécessitent un logiciel, la solution est détaillée étape par étape en utilisant une combinaison de texte, de formules et de captures d'écran d'Eviews.

Bien que les étapes utilisées pour résoudre les problèmes de devoirs soient détaillées à l'aide de captures d'écran des vues électroniques, les solutions se transforment facilement en d'autres packages statistiques tels que les statistiques STATA ou R.

Aucune solution n'est répertoriée pour les devoirs du semestre 2011, qui est le dernier semestre enregistré par le professeur Thoma. Cependant, des devoirs sont disponibles pour son semestre d'hiver 2012 .

Voici un lien vers la section Solutions de devoirs de la classe Prof. Thomas Winter 2012 421. Plus précisément, voici la solution aux devoirs 3 où l'hétéroscédasticité est introduite dans les ensembles de devoirs. http://economistsview.typepad.com/economics421/2012/02/solution-to-homework-3.html

James Bradshaw IV
la source
1
Merci pour ces références, James. Ici, cependant, l'interrogateur demande des explications et des conseils. Pour que votre réponse soit pertinente, seriez-vous en mesure de paraphraser des "aides, conseils ou astuces" spécifiques dans ces références?
whuber