Ajustement d'un GLMM binomial (glmer) à une variable de réponse qui est une proportion ou une fraction

11

J'espère que quelqu'un peut aider avec ce que je pense être une question relativement simple, et je pense que je connais la réponse, mais sans confirmation, c'est devenu quelque chose dont je ne peux tout simplement pas être certain.

J'ai des données de comptage comme variable de réponse et je veux mesurer comment cette variable change avec la présence proportionnelle de quelque chose.

Plus en détail, la variable de réponse est le décompte de la présence d'une espèce d'insecte dans un certain nombre de sites, par exemple un site est échantillonné 10 fois et cette espèce peut se produire 4 fois.

Je veux voir si cela est en corrélation avec la présence proportionnelle d'un groupe d'espèces végétales dans la communauté globale des plantes sur ces sites.

Cela signifie que mes données se présentent comme suit (ce n'est qu'un exemple)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Les données incluent également un effet aléatoire pour la localisation.

J'ai pensé à deux méthodes, l'une serait un modèle linéaire ( lmer) avec les insectes convertis en proportion par exemple

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

Le second serait un GLMM binomial ( glmer) par exemple

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Je crois que le scintillement binomial est la bonne méthode, mais ils produisent des résultats assez différents. Je n'arrive pas à trouver une réponse définitive sur le net sans me sentir encore un peu incertain, et je veux m'assurer de ne pas faire d'erreur.

Toute aide ou information sur des méthodes alternatives à ce sujet serait très appréciée.

ALs
la source

Réponses:

19

Le GLMM binomial est probablement la bonne réponse.

  • Surtout avec un nombre d'échantillons faible à modéré (9 et 10 dans votre exemple), la distribution de la variable de réponse sera probablement hétéroscédastique (la variance ne sera pas constante, et en particulier dépendra de la moyenne de manière systématique) et loin de la normalité, d'une manière qui sera difficile à transformer - surtout si les proportions sont proches de 0 ou 1 pour certaines valeurs de la variable prédictive. Cela fait du GLMM une bonne idée.
  • Vous devez faire attention à vérifier / prendre en compte la surdispersion. Si vous avez une seule observation (c.-à-d. Un seul échantillon / ligne binomiale dans votre bloc de données) par emplacement, votre (1|Site)effet aléatoire s'en occupera automatiquement (bien que voir Harrison 2015 pour une mise en garde)
  • si l'hypothèse précédente est correcte (vous n'avez qu'un seul échantillon binomial par emplacement), vous pouvez également l'ajuster en tant que modèle binomial régulier ( glm(...,family=binomial)- dans ce cas, vous pouvez également utiliser un modèle quasibinomial ( family=quasibinomial) comme moyen alternatif plus simple) pour tenir compte de la surdispersion
  • si vous le souhaitez, vous pouvez également ajuster votre GLMM avec la proportion comme réponse, si vous définissez l' weightsargument pour égaler le nombre d'échantillons:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")

    (cela devrait donner des résultats identiques à l' glmer()ajustement que vous avez dans votre question).

Harrison, Xavier A. « Une comparaison de l'effet aléatoire au niveau de l'observation et des modèles bêta-binomiaux pour modéliser la surdispersion dans les données binomiales en écologie et évolution ». PeerJ 3 (21 juillet 2015): e1114. doi: 10.7717 / peerj.1114.

Ben Bolker
la source
Salut Ben, Merci beaucoup pour votre réponse claire et complète!
ALs