Nous avons demandé à 60 personnes de répertorier autant de franchises de restaurants à Atlanta que possible. La liste globale comprenait plus de 70 restaurants, mais nous avons éliminé ceux qui étaient mentionnés par moins de 10% des gens, nous en laissant 45. Pour ces 45, nous avons calculé la proportion d'informateurs qui ont inscrit la franchise, et nous sommes intéressés par modéliser cette proportion en fonction du budget publicitaire des franchises (transformées en rondins) et des années écoulées depuis qu'elles sont devenues franchisées.
J'ai donc écrit ce code:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Comme prévu, les deux variables présentent des effets forts et significatifs.
Mais même si je sais que les données proportionnelles ne doivent jamais être modélisées avec la régression OLS, j'ai ensuite écrit ce code:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Dans ce cas, le «budget» est toujours un prédicteur significatif, mais les «années» sont relativement faibles et non significatives.
Cela m'inquiète que la confiance dans les estimations soit artificiellement gonflée par l'agrégation. Le glm binomial ne vectorise-t-il pas essentiellement les données de sorte que le modèle est basé sur 45 * 55 = 2 475 lignes? Est-ce approprié étant donné qu'il n'y a vraiment que 45 restaurants et 55 informateurs? Cela nécessiterait-il une modélisation à effets mixtes?
la source
family=quasibinomial
lm
etglm(...,family=binomial)
, mais l'une des plus importantes est qu'un GLM binomial émet de fortes hypothèses sur la variance. Si les données ne sont pas trop dispersées, l'agrégation / la désagrégation ne fait aucune différence.Réponses:
Pour les données proportionnelles, on peut prendre le logarithme de la variable dépendante avant l'ajustement car les logarithmes transforment la multiplication en addition. Dans la même veine, si l'on prend également les logarithmes des variables indépendantes, si elles sont également proportionnelles, l'ajustement résultant pour la régression linéaire multiple implique un modèle de produit de fonction de puissance, et non un modèle additif, c'est-à-dire . Autrement dit, on ajuste . Pour les variables proportionnelles, cela donne généralement une signification plus élevée que l'ajustement linéaire, et est plus puissant et a un plus élevé .Y=cXk11Xk22...Xknn ln(Y)=ln(c)+k1ln(X1)+k2ln(X2)...+knln(Xn) R2
Maintenant, si la droite de régression non modifiée (idéalement une régression bivariée, par exemple une régression de Deming) ne passe pas de manière plausible par {0,0}, alors cela devient un peu plus compliqué, et on minimise une fonction de perte proportionnelle de décalage plutôt que d'utiliser le moins ordinaire carrés.
la source