Comment fonctionne une distribution de Poisson lors de la modélisation de données continues et entraîne-t-elle une perte d'informations?

20

Une collègue analyse certaines données biologiques pour sa thèse avec une mauvaise hétéroscédasticité (figure ci-dessous). Elle est en train de l'analyser avec un modèle mixte mais a toujours des problèmes avec les résidus.

La transformation logarithmique des variables de réponse nettoie les choses et sur la base des commentaires sur cette question, cela semble être une approche appropriée. À l'origine, cependant, nous avions pensé qu'il y avait des problèmes à utiliser des variables transformées avec des modèles mixtes. Il s'avère que nous avions mal interprété une déclaration dans Littell & Milliken (2006) SAS pour les modèles mixtes qui montrait pourquoi il était inapproprié de transformer les données de comptage puis de les analyser avec un modèle mixte linéaire normal (la citation complète est ci-dessous) .

Une approche qui a également amélioré les résidus consistait à utiliser un modèle linéaire généralisé avec une distribution de Poisson. J'ai lu que la distribution de Poisson peut être utilisée pour modéliser des données continues (par exemple, comme discuté dans cet article ), et les packages de statistiques le permettent, mais je ne comprends pas ce qui se passe lorsque le modèle est adapté.

Pour comprendre comment les calculs sous-jacents sont effectués, mes questions sont les suivantes: lorsque vous ajustez une distribution de Poisson à des données continues, 1) les données sont-elles arrondies à l'entier le plus proche 2) cela entraîne-t-il une perte d'informations et 3) Quand, le cas échéant, est-il approprié d'utiliser un modèle de Poisson pour les données continues?

Littel & Milliken 2006, pg 529 "transformer les données [count] peut être contre-productif. Par exemple, une transformation peut fausser la distribution des effets du modèle aléatoire ou la linéarité du modèle. Plus important encore, la transformation des données laisse encore ouverte la possibilité des dénombrements prédits négatifs. Par conséquent, l'inférence à partir d'un modèle mixte utilisant des données transformées est hautement suspecte. "

entrez la description de l'image ici

N Brouwer
la source
1
Comme @Tomas, je ne connais aucune raison pour laquelle vous ne devriez pas transformer les variables avant un modèle mixte, et j'ai lu pas mal de choses sur ce sujet. J'ai le livre de Ramon et Littel ... à quelle page faites-vous référence?
Peter Flom - Réintégrer Monica
Il s'avère que nous avons mal interprété une déclaration de la page 529.
N Brouwer

Réponses:

22

J'ai estimé des régressions de Poisson à résultats positifs continus avec l'estimateur de variance linéarisé Huber / White / Sandwich assez fréquemment. Cependant, ce n'est pas une raison particulièrement bonne de faire quoi que ce soit, alors voici quelques références réelles.

Du côté de la théorie, n'a pas besoin d'être un entier pour que l'estimateur basé sur la fonction de vraisemblance de Poisson soit cohérent. C'est ce que montrent Gourieroux, Monfort et Trognon (1984). C'est ce qu'on appelle Poisson PMLE ou QMLE, pour Pseudo / Quasi Maximum Likelihood. y

Il y a aussi des preuves de simulation encourageantes de Santos Silva et Tenreyro (2006), où le Poisson arrive en tête du classement . Il fait également bien dans une simulation avec beaucoup de zéros dans le résultat . Vous pouvez également facilement faire votre propre simulation pour vous convaincre que cela fonctionne dans votre étui à flocons de neige.

Enfin, vous pouvez également utiliser un GLM avec une fonction de liaison de journal et la famille Poisson. Cela donne des résultats identiques et apaise les réactions de secousse du genou basées sur les données uniquement.

Références sans liens non fermés:

Gourieroux, C., A. Monfort et A. Trognon (1984). «Méthodes pseudo-maximales de vraisemblance: applications aux modèles de Poisson», Econometrica , 52, 701-720.

Dimitriy V. Masterov
la source
2
Voir aussi cette belle entrée de blog sur le blog Stata écrite par Bill Gould - blog.stata.com/2011/08/22/…
boscovich
1
Vous avez dit: "... doit être un entier pour que l'estimateur basé sur la fonction de vraisemblance de Poisson soit cohérent. Les données n'ont même pas besoin d'être de Poisson." --- ces deux points semblent contradictoires. Le premier aurait-il dû inclure le mot « pas » entre «fait» et «besoin»? y
Glen_b -Reinstate Monica
Il y a un article sur le blog Stata qui propose des preuves de simulation supplémentaires .
Dimitriy V. Masterov
6

La distribution de Poisson est uniquement pour les données de comptage, essayer de l'alimenter avec des données continues est désagréable et je pense que cela ne devrait pas être fait. L'une des raisons est que vous ne savez pas comment mettre à l'échelle votre variable continue. Et le Poisson dépend beaucoup de l'échelle! J'ai essayé de l'expliquer avec un exemple simple ici . Donc, pour cette seule raison, je n'utiliserais Poisson pour rien d'autre que les données de comptage.

Souvenez-vous également que GLM fait 2 choses - fonction de liaison (transformant la réponse var., Log dans le cas de Poisson), et résidus (distrubution de Poisson dans ce cas). Pensez à la tâche biologique, aux résidus, puis sélectionnez la bonne méthode. Parfois, il est logique d'utiliser la transformation logarithmique, mais restez avec des résidus normalement distribués.

"mais il semble que la sagesse conventionnelle est que vous ne devriez pas transformer les données entrant dans un modèle mixte"

J'entends cette première fois! Ça n'a aucun sens pour moi. Le modèle mixte peut être comme un modèle linéaire normal, avec des effets aléatoires supplémentaires. Pouvez-vous mettre une citation exacte ici? À mon avis, si la transformation du journal clarifie les choses, utilisez-la!

Curieuse
la source
Merci pour l'aide; ce que je pensais être de la «sagesse conventionnelle» était une mauvaise lecture de Littel et Milliken. J'ai édité ma question et ajouté la citation de L & M 2006.
N Brouwer
@NBrouwer: oui, il semble que vous l'ayez mal interprété. Il est désagréable de transformer des données de comptage et il est encore plus désagréable de transformer des données continues pour compter des données et d'essayer d'y faire correspondre Poisson! Voilà ce que j'ai essayé de vous expliquer. Ne le fais pas. Enregistrez-transformez simplement vos données continues selon vos besoins. C'est très courant dans les statistiques, pas besoin de s'en inquiéter.
Curieux du
5

Voici une autre grande discussion sur la façon d'utiliser le modèle de Poisson pour ajuster les log-régressions: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Je le dis à un ami, comme le suggère le blog). L'idée maîtresse est que nous utilisons uniquement la partie du modèle de Poisson qui est le lien logarithmique. La partie qui nécessite que la variance soit égale à la moyenne peut être remplacée par une estimation en sandwich de la variance. C'est tout pour les données iid, cependant; les extensions en cluster / modèle mixte ont été correctement référencées par Dimitriy Masterov .

StasK
la source
1

Si le problème est la variation de la variance avec la moyenne, mais que vous disposez de données continues, avez-vous pensé à utiliser des distributions continues qui peuvent répondre aux problèmes que vous rencontrez. Peut-être un gamma? La variance aura une relation quadratique avec la moyenne - un peu comme un binôme négatif, en fait.

jebyrnes
la source