Une collègue analyse certaines données biologiques pour sa thèse avec une mauvaise hétéroscédasticité (figure ci-dessous). Elle est en train de l'analyser avec un modèle mixte mais a toujours des problèmes avec les résidus.
La transformation logarithmique des variables de réponse nettoie les choses et sur la base des commentaires sur cette question, cela semble être une approche appropriée. À l'origine, cependant, nous avions pensé qu'il y avait des problèmes à utiliser des variables transformées avec des modèles mixtes. Il s'avère que nous avions mal interprété une déclaration dans Littell & Milliken (2006) SAS pour les modèles mixtes qui montrait pourquoi il était inapproprié de transformer les données de comptage puis de les analyser avec un modèle mixte linéaire normal (la citation complète est ci-dessous) .
Une approche qui a également amélioré les résidus consistait à utiliser un modèle linéaire généralisé avec une distribution de Poisson. J'ai lu que la distribution de Poisson peut être utilisée pour modéliser des données continues (par exemple, comme discuté dans cet article ), et les packages de statistiques le permettent, mais je ne comprends pas ce qui se passe lorsque le modèle est adapté.
Pour comprendre comment les calculs sous-jacents sont effectués, mes questions sont les suivantes: lorsque vous ajustez une distribution de Poisson à des données continues, 1) les données sont-elles arrondies à l'entier le plus proche 2) cela entraîne-t-il une perte d'informations et 3) Quand, le cas échéant, est-il approprié d'utiliser un modèle de Poisson pour les données continues?
Littel & Milliken 2006, pg 529 "transformer les données [count] peut être contre-productif. Par exemple, une transformation peut fausser la distribution des effets du modèle aléatoire ou la linéarité du modèle. Plus important encore, la transformation des données laisse encore ouverte la possibilité des dénombrements prédits négatifs. Par conséquent, l'inférence à partir d'un modèle mixte utilisant des données transformées est hautement suspecte. "
Réponses:
J'ai estimé des régressions de Poisson à résultats positifs continus avec l'estimateur de variance linéarisé Huber / White / Sandwich assez fréquemment. Cependant, ce n'est pas une raison particulièrement bonne de faire quoi que ce soit, alors voici quelques références réelles.
Du côté de la théorie, n'a pas besoin d'être un entier pour que l'estimateur basé sur la fonction de vraisemblance de Poisson soit cohérent. C'est ce que montrent Gourieroux, Monfort et Trognon (1984). C'est ce qu'on appelle Poisson PMLE ou QMLE, pour Pseudo / Quasi Maximum Likelihood.y
Il y a aussi des preuves de simulation encourageantes de Santos Silva et Tenreyro (2006), où le Poisson arrive en tête du classement . Il fait également bien dans une simulation avec beaucoup de zéros dans le résultat . Vous pouvez également facilement faire votre propre simulation pour vous convaincre que cela fonctionne dans votre étui à flocons de neige.
Enfin, vous pouvez également utiliser un GLM avec une fonction de liaison de journal et la famille Poisson. Cela donne des résultats identiques et apaise les réactions de secousse du genou basées sur les données uniquement.
Références sans liens non fermés:
Gourieroux, C., A. Monfort et A. Trognon (1984). «Méthodes pseudo-maximales de vraisemblance: applications aux modèles de Poisson», Econometrica , 52, 701-720.
la source
La distribution de Poisson est uniquement pour les données de comptage, essayer de l'alimenter avec des données continues est désagréable et je pense que cela ne devrait pas être fait. L'une des raisons est que vous ne savez pas comment mettre à l'échelle votre variable continue. Et le Poisson dépend beaucoup de l'échelle! J'ai essayé de l'expliquer avec un exemple simple ici . Donc, pour cette seule raison, je n'utiliserais Poisson pour rien d'autre que les données de comptage.
Souvenez-vous également que GLM fait 2 choses - fonction de liaison (transformant la réponse var., Log dans le cas de Poisson), et résidus (distrubution de Poisson dans ce cas). Pensez à la tâche biologique, aux résidus, puis sélectionnez la bonne méthode. Parfois, il est logique d'utiliser la transformation logarithmique, mais restez avec des résidus normalement distribués.
J'entends cette première fois! Ça n'a aucun sens pour moi. Le modèle mixte peut être comme un modèle linéaire normal, avec des effets aléatoires supplémentaires. Pouvez-vous mettre une citation exacte ici? À mon avis, si la transformation du journal clarifie les choses, utilisez-la!
la source
Voici une autre grande discussion sur la façon d'utiliser le modèle de Poisson pour ajuster les log-régressions: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Je le dis à un ami, comme le suggère le blog). L'idée maîtresse est que nous utilisons uniquement la partie du modèle de Poisson qui est le lien logarithmique. La partie qui nécessite que la variance soit égale à la moyenne peut être remplacée par une estimation en sandwich de la variance. C'est tout pour les données iid, cependant; les extensions en cluster / modèle mixte ont été correctement référencées par Dimitriy Masterov .
la source
Si le problème est la variation de la variance avec la moyenne, mais que vous disposez de données continues, avez-vous pensé à utiliser des distributions continues qui peuvent répondre aux problèmes que vous rencontrez. Peut-être un gamma? La variance aura une relation quadratique avec la moyenne - un peu comme un binôme négatif, en fait.
la source