J'ai identifié plusieurs endroits dans les manuels où le GLM est décrit avec 5 distributions (à savoir, Gamma, gaussienne, binomiale, gaussienne inverse et Poisson). Ceci est également illustré dans la fonction familiale dans R.
Parfois, je rencontre des références au GLM où des distributions supplémentaires sont incluses ( exemple ). Quelqu'un peut-il expliquer pourquoi ces 5 sont spéciaux ou sont toujours dans le GLM, mais parfois d'autres le sont?
D'après ce que j'ai appris jusqu'à présent, les distributions GLM dans la famille exponentielle tiennent toutes sous la forme: où est le paramètre de dispersion et est le paramètre canonique.ϕθ
Aucune distribution ne peut-elle être transformée pour s'intégrer dans le GLM?
r
probability
distributions
generalized-linear-model
timothy.s.lau
la source
la source
Réponses:
Comme vous l'indiquez, la qualification pour utiliser une distribution dans un GLM est qu'elle soit de la famille exponentielle (note: ce n'est pas la même chose que la distribution exponentielle! Bien que la distribution exponentielle, en tant que distribution gamma, fasse elle-même partie de la famille exponentielle). Les cinq distributions que vous listez sont toutes de cette famille, et plus important encore, sont des distributions TRÈS courantes, elles sont donc utilisées comme exemples et explications.
Comme le note Zhanxiong, la distribution uniforme (avec des bornes inconnues) est un exemple classique de distribution familiale non exponentielle. shf8888 confond la distribution uniforme générale, à n'importe quel intervalle, avec un uniforme (0, 1). La distribution uniforme (0,1) est un cas particulier de la distribution bêta, qui est une famille exponentielle. Les autres distributions non exponentielles des familles sont les modèles de mélange et la distribution t.
Vous avez la définition de la famille exponentielle correcte, et le paramètre canonique est très important pour utiliser GLM. Pourtant, j'ai toujours trouvé un peu plus facile de comprendre la famille exponentielle en l'écrivant comme:
Il existe une manière plus générale d'écrire ceci, avec un vecteur au lieu d'un scalaire ; mais le cas unidimensionnel explique beaucoup de choses. Plus précisément, vous devez être capable de factoriser la partie non exponentiée de votre densité en deux fonctions, une de paramètre inconnu mais pas de données observées et une de et non ; et de même pour la partie exponentiée. Il peut être difficile de voir comment, par exemple, la distribution binomiale peut être écrite de cette façon; mais avec quelques jonglages algébriques, cela devient clair finalement.θ θ θ X X θ
Nous utilisons la famille exponentielle car elle facilite beaucoup de choses: par exemple, trouver des statistiques suffisantes et tester des hypothèses. Dans GLM, le paramètre canonique est souvent utilisé pour trouver une fonction de lien. Enfin, une illustration connexe de la raison pour laquelle les statisticiens préfèrent utiliser la famille exponentielle dans presque tous les cas tente de faire une inférence statistique classique sur, disons, une distribution uniforme ( , ) où les deux et sont inconnus . Ce n'est pas impossible, mais c'est beaucoup plus compliqué et impliqué que de faire de même pour les distributions familiales exponentielles.θ1 θ2 θ1 θ2
la source