Quand utiliser des erreurs types robustes dans la régression de Poisson?

J'utilise un modèle de régression de Poisson pour les données de comptage et je me demande s'il y a des raisons de ne pas utiliser l'erreur-type robuste pour les estimations des paramètres? Je suis particulièrement préoccupé car certaines de mes estimations sans robustesse ne sont pas significatives (par exemple, p = 0,13) mais avec robustes sont significatives (p <0,01).

Dans SAS, cela est disponible en utilisant l'instruction répétée dans proc genmod(par exemple, repeated subject=patid;). J'ai utilisé http://www.ats.ucla.edu/stat/sas/dae/poissonreg.htm comme exemple qui cite un article de Cameron et Trivedi (2009) à l'appui de l'utilisation d'erreurs standard robustes.

poisson-distribution robust kara
la source

Réponses:

En général, si vous pensez que vos erreurs sont hétéroscédastiques, vous devez utiliser des erreurs standard robustes. Le fait que vos estimations deviennent non significatives lorsque vous n'utilisez pas de SE robustes suggère (mais ne prouve pas) le besoin de SE robustes! Ces SE sont "robustes" au biais que l'hétéroskédasticité peut provoquer dans un modèle linéaire généralisé.

Cette situation est un peu différente, cependant, dans la mesure où vous les superposez à la régression de Poisson.

Poisson a une propriété bien connue qui oblige la dispersion à être égale à la moyenne, que les données le soutiennent ou non. Avant d'envisager des erreurs standard robustes, j'essaierais une régression binomiale négative, qui ne souffre pas de ce problème. Un test (voir le commentaire) permet de déterminer si le changement résultant des erreurs standard est significatif.

Je ne sais pas avec certitude si le changement que vous voyez (le passage à des SE robustes rétrécit l'IC) implique une sous-dispersion, mais cela semble probable. Jetez un œil au modèle approprié (je pense binôme négatif, mais une recherche rapide sur Google suggère également un quasi-Poisson pour une sous-dispersion?) Et voyez ce que vous obtenez dans ce cadre.

Ari B. Friedman
la source

Bonne réponse! En général, dans OLS, l'hétéroskédasticité n'entraîne pas de biais (simplement inefficace). Ce n'est pas vrai cependant pour les modèles linéaires généralisés, voir cet article de Dave Giles à ce sujet pour les références. Je ne pense pas avoir vu le test Vuong le recommander cependant (pour les comparaisons de modèles gonflés à zéro non imbriqués, je l'ai vu suggéré). Poisson est imbriqué dans le Neg. Modèle binomial, donc on peut utiliser un test de rapport de vraisemblance pour le paramètre de dispersion.

Andy W

Merci pour votre réponse. J'ai essayé la régression binomiale négative, mais je suis tombé sur l'avertissement: "Le critère de convergence relative de la Hesse de 0,0046138565 est supérieur à la limite de 0,0001. La convergence est discutable." Notez que ma variable de réponse est un nombre avec des valeurs allant de 0 à 4. Y a-t-il une transformation de la variable dépendante ou indépendante qui aiderait à la convergence? Ou que fait-on dans ce cas?

kara

En outre, en ce qui concerne les SE non robustes étant plus petits - dans mon analyse, je vois que ce sont les SE robustes qui sont plus petites et c'est là que réside la signification (pas dans les résultats non robustes). C'est pourquoi je veux faire attention à ne pas rapporter ou non les résultats robustes - je ne veux pas choisir cette méthode juste à cause de valeurs p importantes! Merci encore!

kara

@AndyW J'ai vérifié mes notes et Vuong est en effet pour ZI vs Poisson. Message mis à jour. kara j'ai raté l'inversion. Vous pourriez avoir des données sous-dispersées, auquel cas le NBD est également potentiellement la solution :-)

Ari B. Friedman

@kara Difficile de diagnostiquer votre problème de non-convergence dans les commentaires. J'essaierais une nouvelle question juste là-dessus avec autant d'informations que vous pouvez fournir.

Ari B. Friedman

Je vais différencier les analyses à l'aide d'erreurs standard basées sur un modèle par rapport à des erreurs standard robustes en désignant ces dernières comme des «GEE», ce qui est en fait une définition échangeable. En plus de l'explication fantastique de Scortchi:

Les GEE peuvent être «biaisés» dans de petits échantillons, c'est-à-dire 10 à 50 sujets: (Lipsitz, Laird et Harrington, 1990; Emrich et Piedmonte, 1992; Sharples et Breslow, 1992; Lipsitz et al., 1994; Qu, Piedmonte, et Williams, 1994; Gunsolley, Getchell et Chinchilli, 1995; Sherman et le Cessie, 1997.) Quand je dis que les GEE sont biaisés, je veux dire que l'estimation de l'erreur-type peut être soit conservatrice soit anticonservatrice en raison d'un nombre de cellules faible ou nul , en fonction des valeurs ajustées qui présentent ce comportement et de leur cohérence avec la tendance générale du modèle de régression.

En général, lorsque le modèle paramétrique est correctement spécifié, vous obtenez toujours des estimations d'erreur standard correctes à partir des CI basés sur le modèle, mais le but de l'utilisation de GEE est de tenir compte de ce très gros "si". Les GEE permettent au statisticien de simplement spécifier un modèle de probabilité de travail pour les données, et les paramètres (au lieu d'être interprétés dans le cadre strictement paramétrique) sont considérés comme un type de "tamis" qui peut générer des valeurs reproductibles indépendamment des données sous-jacentes et inconnues générant mécanisme. C'est le cœur et l'âme de l'analyse semi-paramétrique, dont un GEE est un exemple.

Les GEE gèrent également des sources de covariation non mesurées dans les données, même avec la spécification d'une matrice de corrélation indépendante. Cela est dû à l'utilisation d'une matrice de covariance empirique plutôt que basée sur un modèle. Dans la modélisation de Poisson, par exemple, vous pourriez être intéressé par les taux de fertilité des saumons prélevés dans divers cours d'eau. Les ovules récoltés sur les poissons femelles pourraient avoir une distribution sous-jacente de Poisson, mais la variation génétique qui comprend une hérétibilité partagée et des ressources disponibles dans des cours d'eau spécifiques pourrait rendre les poissons dans ces cours d'eau plus similaires que dans d'autres cours d'eau. L'EGE fournira des estimations d'erreur standard de population correctes tant que le taux d'échantillonnage est cohérent avec leur proportion de population (ou est stratifié d'une autre manière).

AdamO
la source

Vous faites un test de la valeur nulle d'équidispersion. Il s'agit d'une simple régression OLS auxiliaire. Il y a une description à la page 670 de Cameron et Trivedi. Avec une surdispersion importante, les erreurs standard sont très dégonflées, donc je me méfierais des résultats qui dépendent d'un VCE non robuste lorsqu'il y a surdispersion. Avec une sous-dispersion, le contraire sera vrai, ce qui ressemble au scénario dans lequel vous vous trouvez.

Dimitriy V. Masterov
la source