La famille de GLM représente la distribution de la variable de réponse ou des résidus?

13

J'ai discuté avec plusieurs membres du laboratoire de celui-ci, et nous sommes allés à plusieurs sources mais n'avons toujours pas tout à fait la réponse:

Quand on dit qu'un GLM a une famille de poisson , disons-nous parler de la distribution des résidus ou de la variable de réponse?

Points de discorde

  1. La lecture de cet article indique que les hypothèses du GLM sont l'indépendance statistique des observations, la spécification correcte de la fonction de lien et de variance (ce qui me fait penser aux résidus, pas la variable de réponse), l'échelle de mesure correcte pour la variable de réponse et le manque d'influence indue de points uniques

  2. Cette question a deux réponses avec deux points chacune, celle qui apparaît en premier parle des résidus, et la seconde de la variable de réponse, c'est quoi?

  3. Dans cet article de blog , lorsqu'ils parlent d'hypothèses, ils déclarent " La distribution des résidus peut être autre, par exemple binomiale "

  4. Au début de ce chapitre, ils disent que la structure des erreurs doit être Poisson, mais les résidus auront sûrement des valeurs positives et négatives, comment cela peut-il être Poisson?

  5. Cette question, souvent citée dans des questions comme celle-ci pour les faire dupliquer, n'a pas de réponse acceptée

  6. Cette question, les réponses parlent de réponse et non de résidus

  7. Dans cette description de cours de l'Université de Pensilvania, ils parlent de la variable de réponse dans les hypothèses, pas des résidus

Derek Corcoran
la source

Réponses:

18

L' argument familial pour les modèles glm détermine la famille de distribution pour la distribution conditionnelle de la réponse , et non des résidus (sauf pour les quasi- modèles).

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

β0+xiTβϵi

Donc, pour toutes ces autres familles, nous utilisons une définition dans le style de la première équation affichée ci-dessus. Autrement dit, la distribution conditionnelle de la réponse. Donc, non, les résidus (quelle que soit la définition) dans la régression de Poisson n'ont pas de distribution de Poisson.

kjetil b halvorsen
la source
13

Suite à l'excellente réponse de Kjetil, je voulais ajouter quelques exemples spécifiques pour aider à clarifier le sens d'une distribution conditionnelle , qui peut être un peu un concept insaisissable.

Supposons que vous ayez prélevé un échantillon aléatoire de 100 poissons d'un lac et que vous souhaitiez voir comment l'âge du poisson affecte plusieurs variables de résultat:

  1. Poids du poisson (poids);
  2. Que les poissons mesurent plus de 30 cm ou non;
  3. Nombre d'écailles de poisson.

La première variable de résultat est continue, la seconde est binaire (0 = le poisson N'EST PAS plus long que 30 cm; 1 = le poisson EST plus long que 30 cm) et la troisième est une variable de comptage.

Régression linéaire simple

Comment l'âge affecte-t-il le poids? Vous allez formuler un modèle de régression linéaire simple de la forme:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

Régression logistique binaire simple

Comment l'âge affecte-t-il si les poissons mesurent plus de 30 cm ou non? Vous allez formuler un modèle de régression logistique binaire simple de la forme:

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

Régression de Poisson simple

Comment l'âge affecte-t-il le nombre d'écailles de poisson? Vous allez formuler un modèle de régression de Poisson simple de la forme:

log(μ)=β0+β1Age

μβ0+β1Age

Pour résumer, une distribution conditionnelle représente la distribution des valeurs de résultat pour des valeurs spécifiques des variables prédictives incluses dans le modèle . Chaque type de modèle de régression illustré ci-dessus impose certaines hypothèses de distribution sur la distribution conditionnelle de la variable de résultat en fonction de l'âge. Sur la base de ces hypothèses de distribution, le modèle formule la façon dont (1) la moyenne de la distribution conditionnelle varie en fonction de l'âge (régression linéaire simple), (2) la moyenne transformée en logit de la distribution conditionnelle varie en fonction de âge (régression logistique binaire simple) ou (3) la moyenne transformée en log de la distribution conditionnelle varie en fonction de l'âge.

Pour chaque type de modèle, on peut définir des résidus correspondants à des fins de vérification du modèle. En particulier, les résidus de Pearson et de déviance pourraient être définis pour les modèles de régression logistique et de Poisson.

Isabella Ghement
la source
2
D'EXCELLENTES réponses. Merci à vous deux. Je n'ai jamais réalisé que le résiduel "réel" n'est jamais vraiment explicite dans le cadre général de GLM comme il l'est dans le cas de la distribution normale.
mlofton
1
@mlofton: Merci pour vos aimables paroles. Une excellente question a invité d'excellentes réponses. Nous bénéficions tous de cet échange de connaissances.
Isabella Ghement
4
J'ai utilisé les GLM depuis longtemps (pendant un an ou deux comme il y a 10 ans) et cela a toujours été ma confusion, mais je n'ai jamais su que c'était ma confusion jusqu'à ce qu'il soit demandé si clairement et expliqué si clairement. Parfois, la confusion signifie même ne pas pouvoir poser la bonne question. Merci encore.
mlofton
1
Tu as tout à fait raison! La confusion fait partie de l'apprentissage - lorsque nous luttons avec quelque chose pendant un certain temps, nous sommes prêts à mieux le comprendre lorsque nous tombons soudainement sur une explication claire.
Isabella Ghement
1
Mon plaisir et merci pour votre excellente réponse @IsabellaGhement
Patrick