L'affichage de la taille de l'effet binomial (BESD) est-il une représentation trompeuse de la taille de l'effet?

10

Il m'est difficile d'accepter que Donald Rubin puisse jamais trouver un vrai citron d'une technique. Pourtant, c'est ma perception du BESD [ 1 , 2 , 3 ].

L'article original de Rosenthal et Rubin (1982) affirmait qu'il était utile de montrer «comment refondre toute corrélation produit-moment dans un tel affichage [2x2], que les données d'origine soient continues ou catégoriques».

Le tableau ci-dessous est extrait de p. 451 du 2ème lien ci-dessus:

entrez la description de l'image ici

Cette technique semble surestimer l'ampleur de presque toutes les tailles d'effet. Ici, partir des données originales = 0,01, mais quand "traduit" en un tableau de contingence 2x2, nous semblons être confrontés à un effet beaucoup plus fort. Je ne nie pas que, lorsque les données sont refondues au format catégoriel de cette manière, effet = .1, mais je pense que quelque chose a été très déformé dans la traduction. ϕR2ϕ

Suis-je en train de manquer quelque chose de vraiment précieux ici? De plus, j'ai l'impression qu'au cours des 10 dernières années, la communauté statistique a généralement rejeté cela comme une méthode légitime - je me trompe là-dessus?

L'équation pour calculer respectivement les taux de réussite expérimental ( ) et de contrôle ( ) ( ) est simplement:C s rECsr

Esr=.50+r/2

et

Csr=.50r/2


Référence:

Rosenthal, R. et Rubin, DB (1982). Un affichage simple à usage général de l'ampleur de l'effet expérimental. Journal of Educational Psychology, 74 , 166-169.

rolando2
la source
r
Vos bonnes idées ont été les seuls commentaires ou réponses que j'ai vus.
rolando2
2
Je ne l'ai pas lu, mais cela semble très pertinent: Hsu, LM (2004). Biais des différences de taux de réussite montrés dans les affichages de taille d'effet binomial. Psychological Methods, 9 (2), 183-197. Certaines critiques sont également discutées dans: Randolph, JJ, & Edmondson, RS (2005). Utilisation de l'affichage de la taille de l'effet binomial (BESD) pour présenter l'ampleur des tailles d'effet au public d'évaluation. Évaluation pratique, recherche et évaluation, 10 (14).
Wolfgang

Réponses:

4

Je peux démontrer qu'il est biaisé (je pense), mais je ne peux pas expliquer pourquoi. J'espère que quelqu'un pourra voir ma réponse et aider à l'expliquer davantage.

Comme dans de nombreuses méta-analyses et dans l'image que vous avez publiée, de nombreuses personnes interprètent la BESD comme suit: si vous divisez les deux variables en médiane, vous placerez avec précision les personnes dans les «bonnes» cellules d'un tableau de contingence 2 x 2 un pourcentage donné de le temps.

.50+r/2=.70r

entrez la description de l'image ici

r

r=.38.50+r/2

J'ai ensuite pris la moyenne et l'écart type de chacun de ces vecteurs de 10 000 de longueur. Le code:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

Sur la base de BESD, nous obtenons ce tableau, où v1et se v2réfèrent aux variables et lowet se highréfèrent respectivement au-dessous et au-dessus de la médiane:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

Sur la base d'un découpage médian avec les données brutes, nous obtenons ce tableau:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

Ainsi, alors que quelqu'un pourrait soutenir, en utilisant BESD, qu'il existe une "différence de 38 points de pourcentage entre le contrôle et l'expérimentation", la répartition médiane réelle a ce nombre à 24.

Je ne sais pas pourquoi cela se produit, ou si cela dépend de la taille de l'échantillon et de la corrélation (on pourrait facilement faire plus de simulations pour comprendre), je pense que cela montre qu'il est biaisé. J'adorerais que quelqu'un puisse jouer avec une explication mathématique plutôt que computationnelle.

Mark White
la source
2

L'intuition de Mark White est incorrecte. Le BESD ne modélise pas réellement une répartition médiane. Une répartition médiane est associée à une véritable perte d'informations statistiques - elle atténue systématiquement les relations (voir http://psycnet.apa.org/record/1990-24322-001), c'est pourquoi les valeurs médianes de division montrent une précision plus faible que la BESD. Le BESD démontre la précision de la classification comme si les variables étaient vraiment dichotomiques, et non artificiellement dichotomisées par une répartition médiane. Pour voir cela, calculez la corrélation sur les données de répartition médiane. Vous verrez qu'elle est plus petite que la corrélation pour les variables d'origine. Si les variables étaient à l'origine binaires, les deux méthodes seraient d'accord. De par sa nature, le BESD affiche des variables comme si elles étaient vraiment binaires. Lorsqu'il est utilisé pour des variables continues, cela représente nécessairement une abstraction - il n'y a pas vraiment de groupes "succès" et "échec" ou "traitement" et "contrôle",

Le BESD n'est pas biaisé. Il reflète avec précision l'impact d'un traitement particulier sur la précision de la classification si nous travaillions avec deux variables binaires. C'est un affichage utile pour démontrer la valeur pratique potentielle d'une mesure ou d'un traitement, et, oui, il démontre que même les effets avec une petite variance prise en compte dans les statistiques peuvent être significativement importants. Le BESD est largement utilisé dans la pratique psychologique et organisationnelle appliquée, et il est fortement en accord avec d'autres affichages de taille d'effet pratiques (par exemple, que la sélection descendante d'un groupe en utilisant une mesure avec une corrélation de validité de r = 0,25 conduira à un 0,25 Augmentation de la performance des résultats dans le groupe sélectionné par rapport à un groupe non sélectionné).

La variance prise en compte dans les statistiques conduit systématiquement à des malentendus et à une sous-estimation de la taille des relations variables car l'opération de quadrature est non linéaire. De nombreux méthodologistes appliqués (par exemple, https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) découragent fortement leur utilisation en faveur de leurs racines carrées (qui traduisent plus précisément la taille de effets).

Brenton Wiernik
la source