J'ai des données de densité de poisson que j'essaie de comparer entre plusieurs techniques de collecte différentes, les données ont beaucoup de zéros et l'histogramme semble approprié pour une distribution de poisson, sauf que, comme densités, ce ne sont pas des données entières. Je suis relativement nouveau dans les GLM et j'ai passé les derniers jours à chercher en ligne comment savoir quelle distribution utiliser, mais j'ai échoué à trouver des ressources qui pourraient aider à prendre cette décision. Un exemple d'histogramme des données ressemble à ceci:
Je ne sais pas comment décider de la famille appropriée à utiliser pour le GLM. Si quelqu'un a des conseils ou pourrait me donner une ressource que je devrais consulter, ce serait fantastique.
Réponses:
Les familles GLM comprennent une fonction de liaison ainsi qu'une relation moyenne-variance. Pour les GLM de Poisson, la fonction de liaison est un log et la relation moyenne-variance est l'identité. Malgré les avertissements que la plupart des logiciels statistiques vous donnent, il est tout à fait raisonnable de modéliser une relation en données continues dans laquelle la relation entre deux variables est linéaire sur l'échelle logarithmique et la variance augmente en fonction de la moyenne.
Telle est essentiellement la justification du choix de la fonction de lien et de variance dans un GLM. Bien sûr, ce processus repose sur plusieurs hypothèses. Vous pouvez créer un modèle plus robuste en utilisant la quasi-probabilité (voir
?quasipoisson
) ou des erreurs standard robustes (voir packagesandwich
ougee
).Vous avez correctement noté que de nombreuses densités sont nulles dans vos données. Dans les modèles de probabilité de Poisson, il est approprié d'échantillonner occasionnellement des 0 dans les données, il n'est donc pas nécessairement vrai que ces observations conduisent à un biais dans vos estimations de taux.
Pour inspecter les hypothèses sous-jacentes aux GLM, il est généralement utile d'examiner les résidus Pearson. Ceux-ci expliquent la relation de variance moyenne et montrent au statisticien si des observations particulières, telles que ces 0, affectent de manière flagrante l'estimation et les résultats.
la source
Le modèle linéaire généralisé est défini en termes de prédicteur linéaire
qui est passé par la fonction de lien :g
Il modélise la relation entre la variable dépendante et les variables indépendantes X = X 1 , X 2 , … , X k . Plus précisément, il modélise une espérance conditionnelle de Y étant donné X ,Y X=X1,X2,…,Xk Y X
de sorte que le modèle peut être défini en termes probabilistes comme
où est une distribution de probabilité de la famille exponentielle . Donc , première chose à noter est que f est pas la distribution de Y , mais Y suit conditionnellement sur X . Le choix de cette distribution dépend de vos connaissances (ce que vous pouvez assumer) au sujet de la relation entre Y et X . Donc, partout où vous lisez sur la distribution, il s'agit de la distribution conditionnelle.f f Y Y X Y X
Si votre résultat est continu et illimité, alors le choix le plus "par défaut" est la distribution gaussienne (aka distribution normale ), c'est-à-dire la régression linéaire standard (sauf si vous utilisez une autre fonction de lien, puis le lien d'identité par défaut).
Si vous avez affaire à un résultat continu non négatif , vous pouvez envisager la distribution Gamma ou la distribution gaussienne inverse .
Si votre résultat est discret , ou plus précisément, vous avez affaire à des comptes (combien de fois quelque chose se produit dans un intervalle de temps donné), alors le choix le plus courant de la distribution pour commencer est la distribution de Poisson . Le problème avec la distribution de Poisson est qu'elle est plutôt rigide dans le fait qu'elle suppose que la moyenne est égale à la variance.Si cette hypothèse n'est pas remplie, vous pouvez envisager d'utiliser la famille quasi-Poisson ou la distribution binomiale négative (voir aussi Définition de la dispersion paramètre pour la famille quasipoisson ).
Si votre résultat est binaire (zéros et uns), proportions de «succès» et «échecs» (valeurs comprises entre 0 et 1), ou leurs nombres , vous pouvez utiliser la distribution binomiale , c'est-à-dire le modèle de régression logistique . S'il y a plus de deux catégories, vous utiliseriez la distribution multinomiale dans la régression multinomiale .
D'un autre côté, dans la pratique, si vous êtes intéressé par la construction d'un modèle prédictif, vous pouvez être intéressé par le test de quelques distributions différentes, et finalement apprenez que l'une d'elles vous donne des résultats plus précis que les autres même si ce n'est pas le la plus «appropriée» en termes de considérations théoriques (par exemple, en théorie, vous devriez utiliser Poisson, mais en pratique, la régression linéaire standard fonctionne mieux pour vos données).
la source
C'est une question assez large, vous demandez comment faire de la modélisation, et il y a des livres entiers dédiés à cela. Par exemple, lorsque vous traitez des données de comptage, tenez compte des éléments suivants:
En plus de choisir une distribution, vous devez choisir une fonction de lien. Avec les données de comptage, vous pouvez essayer la distribution binomiale poisson ou négative et la fonction de liaison de journal. Une raison pour le lien de log est donnée ici: Qualité de l'ajustement et quel modèle choisir la régression linéaire ou Poisson Si vos patchs ont des zones très différentes, vous devriez peut-être inclure le logarithme de la zone comme décalage, pour modéliser le nombre par unité de surface et non absolu compte. Pour une explication du décalage dans la régression des données de comptage, voir Quand utiliser un décalage dans une régression de Poisson?
Cette réponse a été initialement publiée dans une autre question, qui a été fusionnée avec celle-ci. Bien que la réponse soit générale, elle a commenté les détails d'un ensemble de données et d'un problème qui ne sont plus en cause. La question d'origine se trouve dans le lien suivant: Famille dans GLM - comment choisir la bonne?
la source