Comment décider quelle famille GLM utiliser?

J'ai des données de densité de poisson que j'essaie de comparer entre plusieurs techniques de collecte différentes, les données ont beaucoup de zéros et l'histogramme semble approprié pour une distribution de poisson, sauf que, comme densités, ce ne sont pas des données entières. Je suis relativement nouveau dans les GLM et j'ai passé les derniers jours à chercher en ligne comment savoir quelle distribution utiliser, mais j'ai échoué à trouver des ressources qui pourraient aider à prendre cette décision. Un exemple d'histogramme des données ressemble à ceci:

Je ne sais pas comment décider de la famille appropriée à utiliser pour le GLM. Si quelqu'un a des conseils ou pourrait me donner une ressource que je devrais consulter, ce serait fantastique.

regression distributions generalized-linear-model link-function C. Denney
la source

Qu'est-ce que la «densité de poisson» exactement? S'agit-il d'un nombre de poissons par unité de volume de lac, par exemple?

gung - Rétablir Monica

C'est le nombre de poissons par unité de surface (dans ce cas, les mètres carrés). Nous avons utilisé des outils de relevé visuel, il est donc calculé par le nombre de poissons observés divisé par la zone étudiée par l'outil. Nous avons dû utiliser la densité pour standardiser les outils, car ils étudient des quantités de surface très différentes, sinon je pourrais simplement utiliser les données de comptage et m'en tenir à une distribution de poisson.

C.Denney

Mon conseil - revenez aux données de comptage et utilisez la "zone" comme décalage dans un modèle avec un lien log --- mais je ne sais pas si le Poisson s'adaptera très bien (c'est un peu difficile à deviner car votre histogramme ne montre que la distribution marginale plutôt que les distributions conditionnelles que le GLM modéliserait ... et a en tout cas beaucoup trop peu de casiers pour être très utile). Si le Poisson n'est pas

assez costaud / pointu

Je modélise Poisson tous les jours et le commentaire de Glen_b est la réponse canonique.

Paul

Un addendum - la modélisation de Poisson est théoriquement bien justifiée lorsque les unités d'observation (dans ce cas, je suppose que vous comptez des poissons individuels?) Sont distribuées indépendamment à travers le champ d'observation, comme des grains de sable éparpillés au hasard. Dans cette hypothèse, il peut y avoir une certaine variation de la densité, mais la position d'un poisson n'implique rien sur la position des autres poissons. Mais sachez que cette hypothèse peut être violée dans la pratique car les poissons se regroupent, par exemple dans des bancs, et leurs positions ne sont plus indépendantes.

Paul

Réponses:

Les familles GLM comprennent une fonction de liaison ainsi qu'une relation moyenne-variance. Pour les GLM de Poisson, la fonction de liaison est un log et la relation moyenne-variance est l'identité. Malgré les avertissements que la plupart des logiciels statistiques vous donnent, il est tout à fait raisonnable de modéliser une relation en données continues dans laquelle la relation entre deux variables est linéaire sur l'échelle logarithmique et la variance augmente en fonction de la moyenne.

Telle est essentiellement la justification du choix de la fonction de lien et de variance dans un GLM. Bien sûr, ce processus repose sur plusieurs hypothèses. Vous pouvez créer un modèle plus robuste en utilisant la quasi-probabilité (voir ?quasipoisson) ou des erreurs standard robustes (voir package sandwichou gee).

Vous avez correctement noté que de nombreuses densités sont nulles dans vos données. Dans les modèles de probabilité de Poisson, il est approprié d'échantillonner occasionnellement des 0 dans les données, il n'est donc pas nécessairement vrai que ces observations conduisent à un biais dans vos estimations de taux.

Pour inspecter les hypothèses sous-jacentes aux GLM, il est généralement utile d'examiner les résidus Pearson. Ceux-ci expliquent la relation de variance moyenne et montrent au statisticien si des observations particulières, telles que ces 0, affectent de manière flagrante l'estimation et les résultats.

AdamO
la source

Le modèle linéaire généralisé est défini en termes de prédicteur linéaire

η = X β

$\eta = \boldsymbol{X} \beta$

qui est passé par la fonction de lien : $g$

g (E (Y | X)) = η

$g(E(Y\,|\,\boldsymbol{X})) = \eta$

Il modélise la relation entre la variable dépendante et les variables indépendantes . Plus précisément, il modélise une espérance conditionnelle de étant donné , $Y$ $\boldsymbol{X} = X_1,X_2,\dots,X_k$ $Y$ $\boldsymbol{X}$

E (Y | X) = μ = g^{- 1} (η)

$E(Y\,|\,\boldsymbol{X} ) = \mu = g^{-1}(\eta)$

de sorte que le modèle peut être défini en termes probabilistes comme

Y | X \sim f (μ, σ^{2})

$Y\,|\,\boldsymbol{X} \sim f(\mu, \sigma^2)$

où est une distribution de probabilité de la famille exponentielle . Donc , première chose à noter est que est pas la distribution de , mais suit conditionnellement sur . Le choix de cette distribution dépend de vos connaissances (ce que vous pouvez assumer) au sujet de la relation entre et . Donc, partout où vous lisez sur la distribution, il s'agit de la distribution conditionnelle. $f$ $f$ $Y$ $Y$ $\boldsymbol{X}$ $Y$ $\boldsymbol{X}$

Si votre résultat est continu et illimité, alors le choix le plus "par défaut" est la distribution gaussienne (aka distribution normale ), c'est-à-dire la régression linéaire standard (sauf si vous utilisez une autre fonction de lien, puis le lien d'identité par défaut).
Si vous avez affaire à un résultat continu non négatif , vous pouvez envisager la distribution Gamma ou la distribution gaussienne inverse .
Si votre résultat est discret , ou plus précisément, vous avez affaire à des comptes (combien de fois quelque chose se produit dans un intervalle de temps donné), alors le choix le plus courant de la distribution pour commencer est la distribution de Poisson . Le problème avec la distribution de Poisson est qu'elle est plutôt rigide dans le fait qu'elle suppose que la moyenne est égale à la variance.Si cette hypothèse n'est pas remplie, vous pouvez envisager d'utiliser la famille quasi-Poisson ou la distribution binomiale négative (voir aussi Définition de la dispersion paramètre pour la famille quasipoisson ).
Si votre résultat est binaire (zéros et uns), proportions de «succès» et «échecs» (valeurs comprises entre 0 et 1), ou leurs nombres , vous pouvez utiliser la distribution binomiale , c'est-à-dire le modèle de régression logistique . S'il y a plus de deux catégories, vous utiliseriez la distribution multinomiale dans la régression multinomiale .

D'un autre côté, dans la pratique, si vous êtes intéressé par la construction d'un modèle prédictif, vous pouvez être intéressé par le test de quelques distributions différentes, et finalement apprenez que l'une d'elles vous donne des résultats plus précis que les autres même si ce n'est pas le la plus «appropriée» en termes de considérations théoriques (par exemple, en théorie, vous devriez utiliser Poisson, mais en pratique, la régression linéaire standard fonctionne mieux pour vos données).

Tim
la source

C'est une question assez large, vous demandez comment faire de la modélisation, et il y a des livres entiers dédiés à cela. Par exemple, lorsque vous traitez des données de comptage, tenez compte des éléments suivants:

En plus de choisir une distribution, vous devez choisir une fonction de lien. Avec les données de comptage, vous pouvez essayer la distribution binomiale poisson ou négative et la fonction de liaison de journal. Une raison pour le lien de log est donnée ici: Qualité de l'ajustement et quel modèle choisir la régression linéaire ou Poisson Si vos patchs ont des zones très différentes, vous devriez peut-être inclure le logarithme de la zone comme décalage, pour modéliser le nombre par unité de surface et non absolu compte. Pour une explication du décalage dans la régression des données de comptage, voir Quand utiliser un décalage dans une régression de Poisson?

EDIT

Cette réponse a été initialement publiée dans une autre question, qui a été fusionnée avec celle-ci. Bien que la réponse soit générale, elle a commenté les détails d'un ensemble de données et d'un problème qui ne sont plus en cause. La question d'origine se trouve dans le lien suivant: Famille dans GLM - comment choisir la bonne?

kjetil b halvorsen
la source

Nous ne pouvons pas immerger les questions, @kjetil, seuls les développeurs peuvent le faire (et ils n'aiment vraiment pas). Cependant, je peux toujours accéder au Q d'origine. 1 possibilité est que je pourrais copier le contenu dans un nouveau Q (qui serait écrit par moi), vous pourriez copier ce A dans le nouveau thread, puis je pourrais fermer ce thread en double. C'est difficile de dire si c'est une idée folle, ou si ça vaut le coup, mais c'est ce que je peux faire. Avez-vous une préférence?

gung - Réintégrer Monica

@gung: Vous pouvez le faire, ou je peux copier les informations de cette question dans la réponse ici. C'est peut-être le meilleur? (Je peux modifier cela semble à partir de l'historique des modifications)

kjetil b halvorsen

@kjetilbhalvorsen tout d'abord, désolé d'avoir gâché car c'était mon idée de fusionner les threads car ils semblaient être presque les mêmes et les deux contenaient de bonnes réponses. Mon impression initiale était que la fusion des fils ne ferait aucun mal. Peut-être pourriez-vous simplement ajouter "Par exemple, lorsque vous traitez des données de comptage ..." à votre deuxième paragraphe? Votre réponse répond bien au général "Comment choisir sa famille?" question, alors peut-être qu'il vaut la peine de le laisser dans le fil général?

Tim

@Tim je vais éditer comme tu dis!

kjetil b halvorsen

Essayons l'édition. Si vous voulez que je republie le Q, envoyez-moi un nouveau ping. Je vais rejeter le drapeau maintenant.

gung - Réintégrer Monica