Utiliser la régression du poisson pour des données continues?

11

La distribution de poisson peut-elle être utilisée pour analyser des données continues ainsi que des données discrètes?

J'ai quelques ensembles de données où les variables de réponse sont continues, mais ressemblent à une distribution de poisson plutôt qu'à une distribution normale. Cependant, la distribution de poisson est une distribution discrète et concerne généralement les nombres ou les dénombrements.

user3136
la source
En quoi vos distributions empiriques diffèrent-elles des variables gamma, alors?
whuber
1
J'ai utilisé la distribution gamma pour ces données. Si vous utilisez la distribution gamma avec un lien de journal, vous obtenez presque exactement le même résultat que vous obtenez d'un modèle de poisson sur-dispersé.Cependant, dans la plupart des progiciels statistiques que je connais, la régression du poisson est plus simple et beaucoup plus flexible.
user3136
N'y aurait-il pas d'autres distributions qui sont meilleures, par exemple la suggestion de whuber de gamma?
Peter Flom - Réintègre Monica
1
@PeterFlom - Je me demande si ce problème survient souvent car le paquet glmnet dans R ne prend pas en charge la famille Gamma ou la famille gaussienne avec une fonction de liaison de journal. Cependant, parce que glmnet est utilisé comme un package de modélisation prédictive (les utilisateurs ne sont donc intéressés que par les coefficients du modèle, pas par les erreurs de coeff. Stnd) et puisque le dbn de Poisson produit un coeff cohérent. estimations pour les modèles de la forme ln [E (y)] = beta0 + beta * X avec des réponses continues quelle que soit la distribution, je suppose que les auteurs de glmnet n'ont pas pris la peine d'inclure ces familles supplémentaires.
RobertF

Réponses:

12

L'hypothèse clé d'un modèle linéaire généralisé pertinent ici est la relation entre la variance et la moyenne de la réponse, compte tenu des valeurs des prédicteurs. Lorsque vous spécifiez une distribution de Poisson, cela implique que vous supposez que la variance conditionnelle est égale à la moyenne conditionnelle. * La forme réelle de la distribution n'a pas autant d'importance: il peut s'agir de Poisson ou gamma ou normal, ou toute autre chose aussi longtemps que cette relation moyenne-variance tient.

* Vous pouvez assouplir l'hypothèse que la variance est égale à la moyenne de l'un de la proportionnalité, et toujours obtenir de bons résultats.

Hong Ooi
la source
9

Si vous parlez d'utiliser une réponse de Poisson dans un modèle linéaire généralisé, alors oui, si vous êtes prêt à faire l'hypothèse que la variance de chaque observation est égale à sa moyenne.

Si vous ne voulez pas faire cela, une autre alternative peut être de transformer la réponse (par exemple, prendre des journaux).

Simon Byrne
la source
Je pense que, en plus de votre argument, même si @ user3136 n'est pas disposé à faire l'hypothèse de moyenne = variance, il / elle peut utiliser la quasipoissonfamille dans glm.
suncoolsu
2
Mais mon problème est pourquoi voudriez-vous transformer des données continues en données discrètes. Il perd essentiellement des informations. Aussi, lorsqu'une simple logtransformation aurait fonctionné, pourquoi discrétiser vos données? Utilisation de glmtravaux, mais chaque résultat est basé sur des asymptotiques (qui peuvent ou non tenir le coup)
suncoolsu
@suncoolsu: 1) quasipoisson rend l'hypothèse de moyenne proportionnelle à la variance. 2) Je ne voulais pas transformer en discret, je voulais dire transformer (maintenir la continuité) afin que vous puissiez utiliser un modèle différent.
Simon Byrne
ouais - j'ai compris d'accord avec toi. Désolé, je parlais de la question. Quasi-poisson, prend en compte le surdosage non? (si je me souviens bien, cf Faraway 2006)
suncoolsu
Dans ce cas particulier, je n'étais pas convaincu que toute transformation que j'essayais (log, sqrt, box-cox) donnait une bonne approximation de la normalité. Soit dit en passant, si j'utilise la méthode de transformation de score normale, je peux transformer la plupart des données en une normalité presque magnifique, mais je n'ai pas vu cette transformation largement utilisée, donc je suppose qu'il y a un problème (il est difficile de retransformer).
user3136