Effets aléatoires croisés et données déséquilibrées

10

Je modélise certaines données où je pense avoir deux effets aléatoires croisés. Mais l'ensemble de données n'est pas équilibré, et je ne suis pas sûr de ce qui doit être fait pour en tenir compte.

Mes données sont un ensemble d'événements. Un événement se produit lorsqu'un client rencontre un fournisseur pour effectuer une tâche, réussie ou non. Il y a des milliers de clients et fournisseurs, et chaque client et fournisseur participe à un nombre variable d'événements (environ 5 à 500). Chaque client et fournisseur a un niveau de compétence, et les chances de succès de la tâche dépendent des compétences des deux participants. Il n'y a pas de chevauchement entre les clients et les fournisseurs.

Je m'intéresse aux variations respectives de la population des clients et des prestataires, afin que nous puissions savoir quelle source a un plus grand effet sur le taux de réussite. Je veux également connaître les valeurs spécifiques des compétences parmi le client et les fournisseurs pour lesquels nous avons réellement des données, afin d'identifier les meilleurs / pires clients ou fournisseurs.

Au départ, je veux supposer que la probabilité de réussite est uniquement déterminée par les niveaux de compétence combinés du client et du fournisseur, sans autres effets fixes. Donc, en supposant que x est un facteur pour le client et y est un facteur pour le fournisseur, alors dans R (en utilisant le package lme4), j'ai un modèle spécifié comme:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Un problème est que les clients ne sont pas répartis également entre les fournisseurs. Les clients plus qualifiés sont plus susceptibles d'être jumelés à des fournisseurs de compétences plus élevées. Je crois comprendre qu'un effet aléatoire ne doit pas être corrélé avec tout autre prédicteur du modèle, mais je ne sais pas comment le prendre en compte.

De plus, certains clients et fournisseurs ont très peu d'événements (moins de 10), tandis que d'autres en ont beaucoup (jusqu'à 500), il y a donc une large diffusion dans la quantité de données que nous avons sur chaque participant. Idéalement, cela se refléterait dans un "intervalle de confiance" autour de chaque estimation de compétence des participants (bien que je pense que le terme intervalle de confiance n'est pas tout à fait correct ici).

Les effets aléatoires croisés vont-ils être problématiques en raison des données déséquilibrées? Si oui, quelles sont les autres approches à considérer?

colonel.triq
la source

Réponses:

4

En ce qui concerne les données non équilibrées, glmer est capable de gérer des groupes non équilibrés: c'était en fait le point de développer des approches de modèles mixtes par rapport aux ANOVA à mesures répétées qui sont limitées à des conceptions équilibrées. Il est toujours préférable d'inclure des clients ou des prestataires avec peu d'événements (même un seul) que de les omettre, car cela améliore l'estimation de la variance résiduelle (voir Martin et al. 2011 ).

Si vous souhaitez utiliser BLUPs ( ranef(model)) comme proxy des compétences, vous devrez en effet estimer l'incertitude autour de vos prédictions ponctuelles. Cela peut se faire dans un cadre fréquentiste en utilisant ranef(model, postVar=TRUE)ou via la distribution postérieure dans un cadre bayésien. Cependant, vous ne devez pas utiliser les BLUP comme variable de réponse dans d'autres modèles de régression: voir Hadfield et al. (2010) pour des exemples d'utilisation abusive des BLUP et de différentes méthodes pour prendre en compte de manière adéquate leur incertitude.

Quant à la corrélation des compétences entre clients et prestataires, ce déséquilibre pourrait être problématique s'il est très fort, car il empêcherait d'estimer correctement la variance due à chaque effet aléatoire. Il ne semble pas y avoir de cadre de modèles mixtes qui gérerait facilement la corrélation entre les interceptions aléatoires (voir ici pour une expression formelle de votre problème). Pourriez-vous peut-être préciser dans quelle mesure les succès moyens des clients et des prestataires sont corrélés?

Charlotte R
la source
Merci beaucoup d'avoir abordé l'une de mes anciennes questions. La réponse est toujours d'actualité et les conseils et références sont appréciés. Désolé, il m'a fallu si longtemps pour remarquer qu'il était là! Je l'ai marqué résolu.
colonel.triq