J'utilise un modèle de régression de Poisson pour les données de comptage et je me demande s'il y a des raisons de ne pas utiliser l'erreur-type robuste pour les estimations des paramètres? Je suis particulièrement préoccupé car certaines de mes estimations sans robustesse ne sont pas significatives (par exemple, p = 0,13) mais avec robustes sont significatives (p <0,01).
Dans SAS, cela est disponible en utilisant l'instruction répétée dans proc genmod
(par exemple, repeated subject=patid;
). J'ai utilisé http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm comme exemple qui cite un article de Cameron et Trivedi (2009) à l'appui de l'utilisation d'erreurs standard robustes.
Je vais différencier les analyses à l'aide d'erreurs standard basées sur un modèle par rapport à des erreurs standard robustes en désignant ces dernières comme des «GEE», ce qui est en fait une définition échangeable. En plus de l'explication fantastique de Scortchi:
Les GEE peuvent être «biaisés» dans de petits échantillons, c'est-à-dire 10 à 50 sujets: (Lipsitz, Laird et Harrington, 1990; Emrich et Piedmonte, 1992; Sharples et Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, et Williams, 1994; Gunsolley, Getchell et Chinchilli, 1995; Sherman et le Cessie, 1997.) Quand je dis que les GEE sont biaisés, je veux dire que l'estimation de l'erreur-type peut être soit conservatrice soit anticonservatrice en raison d'un nombre de cellules faible ou nul , en fonction des valeurs ajustées qui présentent ce comportement et de leur cohérence avec la tendance générale du modèle de régression.
En général, lorsque le modèle paramétrique est correctement spécifié, vous obtenez toujours des estimations d'erreur standard correctes à partir des CI basés sur le modèle, mais le but de l'utilisation de GEE est de tenir compte de ce très gros "si". Les GEE permettent au statisticien de simplement spécifier un modèle de probabilité de travail pour les données, et les paramètres (au lieu d'être interprétés dans le cadre strictement paramétrique) sont considérés comme un type de "tamis" qui peut générer des valeurs reproductibles indépendamment des données sous-jacentes et inconnues générant mécanisme. C'est le cœur et l'âme de l'analyse semi-paramétrique, dont un GEE est un exemple.
Les GEE gèrent également des sources de covariation non mesurées dans les données, même avec la spécification d'une matrice de corrélation indépendante. Cela est dû à l'utilisation d'une matrice de covariance empirique plutôt que basée sur un modèle. Dans la modélisation de Poisson, par exemple, vous pourriez être intéressé par les taux de fertilité des saumons prélevés dans divers cours d'eau. Les ovules récoltés sur les poissons femelles pourraient avoir une distribution sous-jacente de Poisson, mais la variation génétique qui comprend une hérétibilité partagée et des ressources disponibles dans des cours d'eau spécifiques pourrait rendre les poissons dans ces cours d'eau plus similaires que dans d'autres cours d'eau. L'EGE fournira des estimations d'erreur standard de population correctes tant que le taux d'échantillonnage est cohérent avec leur proportion de population (ou est stratifié d'une autre manière).
la source
Vous faites un test de la valeur nulle d'équidispersion. Il s'agit d'une simple régression OLS auxiliaire. Il y a une description à la page 670 de Cameron et Trivedi. Avec une surdispersion importante, les erreurs standard sont très dégonflées, donc je me méfierais des résultats qui dépendent d'un VCE non robuste lorsqu'il y a surdispersion. Avec une sous-dispersion, le contraire sera vrai, ce qui ressemble au scénario dans lequel vous vous trouvez.
la source