Ces données peuvent-elles être agrégées dans une proportion pour un glm binomial?

11

Nous avons demandé à 60 personnes de répertorier autant de franchises de restaurants à Atlanta que possible. La liste globale comprenait plus de 70 restaurants, mais nous avons éliminé ceux qui étaient mentionnés par moins de 10% des gens, nous en laissant 45. Pour ces 45, nous avons calculé la proportion d'informateurs qui ont inscrit la franchise, et nous sommes intéressés par modéliser cette proportion en fonction du budget publicitaire des franchises (transformées en rondins) et des années écoulées depuis qu'elles sont devenues franchisées.

J'ai donc écrit ce code:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Comme prévu, les deux variables présentent des effets forts et significatifs.

Mais même si je sais que les données proportionnelles ne doivent jamais être modélisées avec la régression OLS, j'ai ensuite écrit ce code:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

Dans ce cas, le «budget» est toujours un prédicteur significatif, mais les «années» sont relativement faibles et non significatives.

Cela m'inquiète que la confiance dans les estimations soit artificiellement gonflée par l'agrégation. Le glm binomial ne vectorise-t-il pas essentiellement les données de sorte que le modèle est basé sur 45 * 55 = 2 475 lignes? Est-ce approprié étant donné qu'il n'y a vraiment que 45 restaurants et 55 informateurs? Cela nécessiterait-il une modélisation à effets mixtes?

Jeremy _
la source
4
indice: voir ce qui se passe avecfamily=quasibinomial
Ben Bolker
1
Intéressant. Les coefficients estimés sont les mêmes, mais les erreurs standard sont plus conservatrices (et les années ne sont pas significatives dans le modèle quasibinomial). Je recherche les fichiers d'aide pour les quasi-binômes, mais pouvez-vous expliquer ce qui se passe? J'ai l'impression que le quasi-binôme est utilisé principalement pour la surdispersion. . .
Jeremy _
3
Exactement. Il existe une variété de différences entre lmet glm(...,family=binomial), mais l'une des plus importantes est qu'un GLM binomial émet de fortes hypothèses sur la variance. Si les données ne sont pas trop dispersées, l'agrégation / la désagrégation ne fait aucune différence.
Ben Bolker
1
La sortie R montre que le paramètre de dispersion est pris à 8,7. J'essaie de comprendre ce que cela dit sur la surdispersion. Pendant ce temps, Ben, je vois que vous avez beaucoup d'expérience avec les modèles mixtes. Suis-je en sécurité en utilisant un GLM binomial sans effets mixtes pour l'informateur ou la franchise (dans ce cas, je devrais probablement vectoriser toutes les données tout en ajoutant une colonne pour "ID de l'informateur")?
Jeremy _

Réponses:

1

Pour les données proportionnelles, on peut prendre le logarithme de la variable dépendante avant l'ajustement car les logarithmes transforment la multiplication en addition. Dans la même veine, si l'on prend également les logarithmes des variables indépendantes, si elles sont également proportionnelles, l'ajustement résultant pour la régression linéaire multiple implique un modèle de produit de fonction de puissance, et non un modèle additif, c'est-à-dire . Autrement dit, on ajuste . Pour les variables proportionnelles, cela donne généralement une signification plus élevée que l'ajustement linéaire, et est plus puissant et a un plus élevé .Y=cX1k1X2k2...Xnknln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn)R2

Maintenant, si la droite de régression non modifiée (idéalement une régression bivariée, par exemple une régression de Deming) ne passe pas de manière plausible par {0,0}, alors cela devient un peu plus compliqué, et on minimise une fonction de perte proportionnelle de décalage plutôt que d'utiliser le moins ordinaire carrés.

Carl
la source