Une confusion potentielle dans la conception d'une expérience

12

Aperçu de la question

Avertissement: cette question nécessite beaucoup de configuration. S'il vous plaît, supportez-moi.

Un de mes collègues et moi travaillons sur un plan d'expérience. La conception doit contourner un grand nombre de contraintes, que je listerai ci-dessous. J'ai développé une conception qui satisfait les contraintes et qui nous donne des estimations impartiales de nos effets d'intérêt. Cependant, mon collègue pense qu'il y a une confusion dans la conception. Nous avons argumenté ce point ad nauseum sans parvenir à une résolution, donc à ce stade, j'aimerais avoir des opinions extérieures.

Je décrirai le but de l'étude, nos contraintes, la confusion potentielle et pourquoi je crois que cette "confusion" n'est pas un problème ci-dessous. Lorsque vous lisez chaque section, gardez à l'esprit ma question générale:

Y a-t-il une confusion dans la conception que je décris?

[Les détails de cette expérience ont été modifiés, mais les éléments essentiels requis pour poser ma question restent les mêmes]

Objectifs de l'expérience

Nous souhaitons déterminer si les essais écrits par des hommes blancs sont évalués plus favorablement que les essais écrits par des femmes blanches, des hommes noirs ou des femmes noires (la variable d' auteur de l' essai ). Nous souhaitons également déterminer si tout biais que nous constatons apparaît davantage dans les subventions de haute ou de faible qualité (la variable de qualité ). Enfin, nous souhaitons inclure des essais écrits sur 12 sujets différents (la variable de sujet ). Cependant, seules les deux premières variables présentent un intérêt substantiel; bien que le sujet doive varier d'un essai à l'autre, nous ne sommes pas vraiment intéressés par la façon dont les évaluations varient d'un sujet à l'autre.

Contraintes

  1. Il y a des limites à la fois au nombre de participants et au nombre d'essais que nous pouvons collecter. Le résultat est que la paternité ne peut pas être entièrement manipulée entre les participants, ni manipulée entièrement entre les essais (c.-à-d., Chaque essai individuel doit être assigné à plusieurs conditions).
  2. Bien que chaque essai puisse avoir des versions Homme blanc, Femme blanche, Homme noir et Femme noire, chaque essai ne peut être que de haute et de basse qualité et ne peut porter que sur un seul sujet. Ou, pour mettre cette contrainte d'une manière différente, ni la qualité ni le sujet ne peuvent être manipulés dans les essais, car ils sont des caractéristiques inhérentes à un essai donné.
  3. En raison de la fatigue, le nombre d'essais qu'un participant donné peut évaluer est limité.
  4. Tous les essais qu'une personne donnée lit doivent porter sur un seul sujet. En d'autres termes, les essais ne peuvent pas être attribués entièrement au hasard aux participants, car nous devons nous assurer que chaque participant ne lit que les essais d'un sujet similaire.
  5. Chaque participant ne peut voir qu'un essai censément rédigé par un auteur masculin non blanc, car nous ne voulons pas que les participants se méfient du but de l'expérience parce que trop de leurs essais sont écrits par des auteurs noirs ou féminins.

La conception proposée

Ma conception proposée manipule d'abord chaque essai dans les 4 différentes versions d'auteur (homme blanc, femme blanche, etc.). Quatre essais d'un sujet similaire sont ensuite utilisés pour définir un «ensemble», chacun composé de deux essais de haute et de deux mauvaise qualité. Chaque participant reçoit trois essais d'un ensemble donné comme suit dans la figure ci-dessous. Chaque participant attribue ensuite une note unique à chacun des trois essais qui lui sont attribués.

Conception de l'expérience

La confusion potentielle

Mon collègue estime que la conception ci-dessus contient une confusion. Le problème, dit-il, est que, lorsqu'un essai de haute qualité doit être rédigé par un écrivain non blanc, il est toujours associé à un essai de haute qualité et un essai de faible qualité (pour l'essai 1, voir les participants 1-3 dans la figure). D'un autre côté, lorsque ce même essai est destiné à être rédigé par des écrivains blancs, il est associé à un essai de haute qualité et à un essai de faible qualité trois fois (pour l'essai 1, participants 4-6) et deux essais de faible qualité trois. fois (pour l'essai 1, participants 7-9).

Un problème similaire existe pour les essais de faible qualité. Lorsqu'un essai de faible qualité a un auteur masculin non blanc, il est toujours vu avec un essai de faible qualité et un essai de haute qualité (pour l'essai 3, voir Participants 7-9). Cependant, lorsque ce même essai a un auteur masculin blanc, il est vu avec un essai de haute qualité et un essai de faible qualité trois fois (pour l'essai 3, participants 10-12) et avec deux essais de haute qualité trois fois (pour l'essai 3, Participants 1-3).

La raison pour laquelle les schémas ci-dessus pourraient être problématiques est que nous supposons l'existence "d'effets de contraste". Plus précisément, si les essais de haute qualité sont évalués plus favorablement en moyenne lorsqu'ils sont associés à deux essais de faible qualité que lorsqu'ils sont associés à un essai de faible qualité et un essai de haute qualité (une hypothèse raisonnable), les essais masculins blancs peuvent recevoir des notes plus élevées que Essais féminins blancs, mâles noirs et femelles noires pour une raison autre que la paternité.

Un effet de contraste pour les essais de haute qualité peut ou non être équilibré par un effet de contraste pour les essais de faible qualité; c'est-à-dire qu'il peut ou non être le cas que les essais de faible qualité associés à deux essais de haute qualité soient évalués de manière particulièrement défavorable. Quoi qu'il en soit, mon collègue prétend que la possibilité d'effets de contraste de toute nature rend cette conception problématique aux fins de déterminer si les essais écrits par des hommes blancs sont évalués plus favorablement que les essais d'autres auteurs.

Pourquoi je crois que la confusion potentielle n'est pas un problème

Ce qui m'importe, c'est de savoir si nous sommes en mesure d'estimer dans quelle mesure les essais masculins blancs sont évalués différemment des autres essais (c'est-à-dire, si nous pouvons estimer nos effets d'intérêt), même en présence d'effets de contraste. J'ai donc effectué une simulation où j'ai simulé 50 jeux de données qui contenaient des effets de contraste et ajusté un modèle qui teste nos effets d'intérêt.

Le modèle spécifique est un modèle à effets mixtes avec des interceptions aléatoires pour l'essai (chaque essai est évalué par plusieurs participants) et le participant (chaque participant évalue plusieurs essais). Le niveau d'essai contient également des pentes aléatoires pour la race, le sexe et leur interaction (les deux variables sont manipulées dans l'essai) et le niveau participant contient une pente aléatoire pour la qualité (la qualité est manipulée parmi les participants). Les effets intéressants sont les effets de la race, du sexe, de l'interaction entre la race et le sexe et les interactions d'ordre supérieur entre chacune de ces variables et la qualité. Le but de cette simulation était de déterminer si l'introduction d'effets de contraste dans les données créerait des effets parasites de la race, du sexe, de l'interaction entre la race et le sexe, et les interactions d'ordre supérieur entre ces variables et la qualité. Voir le bloc de code ci-dessous pour plus de détails.

Selon la simulation, la présence d'effets de contraste ne biaiserait les estimations d'aucun de nos effets d'intérêt. De plus, la taille de l'effet de contraste peut être estimée dans le même modèle statistique que les autres effets du plan; pour moi, cela suggère déjà que les «effets de contraste» identifiés par mon collègue ne sont pas une confusion. Mon collègue reste cependant sceptique.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Encore une fois, ma question générale est la suivante: y a-t-il une confusion dans la conception que j'ai décrite? S'il n'y a pas de confusion, je voudrais savoir pourquoi les "effets de contraste" potentiels ne sont pas des confusion afin de pouvoir l'expliquer à mon collègue.

Patrick S. Forscher
la source
2
Juste un commentaire: comment les essais vont-ils être évalués? Je demande parce que si plusieurs évaluateurs vont être employés, alors vous devez vous rappeler que les évaluations des différents évaluateurs ne sont pas très cohérentes, vous devez donc également vous rappeler de la variabilité entre les évaluateurs.
Tim
Chaque participant attribue une note à chacun des trois essais qui lui sont attribués.
Patrick S.Forscher
J'ai ajouté les détails de la procédure de notation au corps de la question.
Patrick S.Forscher
Pour ceux d'entre nous qui ne connaissent pas lmer (), pouvez-vous expliquer brièvement l'analyse et les "effets d'intérêt"?
Anthony
Pas de problème, @Anthony. J'ai ajouté ces détails à la question.
Patrick S.Forscher

Réponses:

1

Je serais préoccupé par une confusion connexe - `` Chaque participant ne peut voir qu'un essai censément rédigé par un auteur masculin non blanc, car nous ne voulons pas que les participants se méfient du but de l'expérience parce que trop de leurs essais sont écrit par des auteurs noirs ou féminins.

Cela signifie que quel que soit le résultat, vous ne pourrez pas déterminer si c'est à cause d'une différence entre la paternité masculine blanche et une autre paternité, ou simplement entre 'paternité majoritaire' et 'paternité minoritaire'.

Si le design comme indiqué reflète également l'ordre de présentation (je suppose que ce n'est pas le cas, mais il vaut mieux le vérifier), cela semble être un autre problème.

Charlie
la source
Le chiffre ne reflète pas l'ordre de présentation.
Patrick S.Forscher
1
Je suppose que par paternité «majoritaire» et «minoritaire», vous voulez dire la proportion d'essais qui sont une combinaison race / sexe donnée (c'est-à-dire 2/3 hommes blancs, 1/3 autres)? Il est vrai que pour chaque participant, les essais masculins blancs composent une plus grande proportion d'essais présents que les autres. Cependant, les hommes blancs constituent une plus grande proportion de la population de rédacteurs que nous voulons étudier. Nous avons décidé que cette "confusion" (qui pourrait en fait faire partie du problème) est moins problématique que de créer une situation artificielle dans laquelle il y a exactement la moitié des essais écrits par des hommes blancs et des minorités.
Patrick S.Forscher
1

La conception ne serait-elle pas plus simple si chaque participant ne notait que deux essais (un homme blanc et un autre)? Dans l'affirmative, demandez aux participants d'évaluer deux essais, mais faites-leur croire que la pile contenait principalement des essais masculins. Ils se sont juste retrouvés à les obtenir par hasard. Les magiciens des cartes appellent cela le "forçage". Si cela nécessite trop de participants, testez moins de 12 sujets. Douze, c'est beaucoup.

dragice
la source
1

Avec cette taille d'échantillon, comment pouvez-vous conclure quoi que ce soit? Si vous répétiez cette expérience plusieurs fois, les quatre marqueurs qui obtiennent à la fois un homme blanc et un homme noir attribueraient tous de meilleures notes aux hommes blancs dans un essai sur 16.

Hugh Morris
la source
Il s'agit d'une toute petite version de cette étude. L'étude complète a 432 personnes évaluant les essais.
Patrick S.Forscher