Comment afficher les barres d'erreur pour les expériences croisées (appariées)

19

Le scénario suivant est devenu la plupart des FAQ dans le trio d'enquêteur (I), réviseur / éditeur (R, non lié au CRAN) et moi (M) en tant que créateur de l'intrigue. Nous pouvons supposer que (R) est le réviseur de big boss médical typique, qui sait seulement que chaque intrigue doit avoir une barre d'erreur, sinon c'est faux. Lorsqu'un réviseur statistique est impliqué, les problèmes sont beaucoup moins critiques.

Scénario

Dans une étude pharmacologique croisée typique, deux médicaments A et B sont testés pour leur effet sur le taux de glucose. Chaque patient est testé deux fois dans un ordre aléatoire et sous l'hypothèse d'aucun report. Le critère d'évaluation principal est la différence entre le glucose (BA) et nous supposons qu'un test t apparié est adéquat.

(I) veut un graphique qui montre les niveaux absolus de glucose dans les deux cas. Il craint le désir de (R) d'avoir des barres d'erreur et demande des erreurs standard dans les graphiques à barres. Ne commençons pas la guerre des graphiques à barres ici ._)

graphiques à barres et glucose SE pour deux traitements

(I): Cela ne peut pas être vrai. Les barres se chevauchent et nous avons p = 0,03? Ce n'est pas ce que j'ai appris au lycée.

(M): Nous avons ici un design apparié. Les barres d'erreur demandées sont totalement hors de propos, ce qui compte est le SE / CI des différences appariées, qui ne sont pas affichées dans le graphique. Si j'avais le choix et qu'il n'y avait pas trop de données, je préférerais l'intrigue suivante

Les lignes jointes montrent l'appariement, pointent les valeurs d'origine

Ajouté 1: il s'agit du tracé de coordonnées parallèles mentionné dans plusieurs réponses

(M): Les lignes montrent l'appariement, et la plupart des lignes montent, et c'est la bonne impression, car c'est la pente qui compte (ok, c'est catégorique, mais néanmoins).

(I): Cette image prête à confusion. Personne ne le comprend et il n'a pas de barres d'erreur (R est caché).

(M): Nous pourrions également ajouter un autre graphique qui montre l'intervalle de confiance pertinent de la différence. La distance de la ligne zéro donne une impression de la taille de l'effet.

(I): Personne ne le fait

(R): Et ça gaspille des arbres précieux

(M): (En bon allemand): Oui, on pointe sur les arbres. Mais j'utilise quand même cela (et je ne le fais jamais publier) lorsque nous avons plusieurs traitements et plusieurs contrastes.

intervalle de confiance de la différence

Des suggestions ? Le code R est ci-dessous, si vous souhaitez créer un tracé.

# Graphics for Crossover experiments
library(ggplot2)
library(plyr)
theme_set(theme_bw()+theme(panel.margin=grid::unit(0,"lines")))
n = 20
effect = 5 
set.seed(4711)
glu0 = rnorm(n,120,30)
glu1 = glu0 + rnorm(n,effect,7)
dt = data.frame(patient = rep(paste0("P",10:(9+n))),              
                treatment = rep(c("A","B"), each=n),glucose = c(glu0,glu1))

dt1 = ddply(dt,.(treatment), function(x){
  data.frame(glucose = mean(x$glucose), se = sqrt(var(x$glucose)/nrow(x)) )})

tt = t.test(glucose~treatment,paired=TRUE,data=dt,conf.int=TRUE)
dt2 = data.frame(diff = -tt$estimate,low=-tt$conf.int[2], up=-tt$conf.int[1])
p = paste("p =",signif(tt$p.value,2))

png(height=300,width=300)
ggplot(dt1, aes(x=treatment, y=glucose, fill=treatment))+      
  geom_bar(stat="identity")+  
  geom_errorbar(aes(ymin=glucose-se, ymax=glucose+se),size=1., width=0.3)+
  geom_text(aes(1.5,150),label=p,size=6)

ggplot(dt,aes(x=treatment,y=glucose, group=patient))+ylim(0,190)+
  geom_line()+geom_point(size=4.5)+
  geom_text(aes(1.5,60),label=p,size=6)

ggplot(dt2,aes(x="",y=diff))+
  geom_errorbar(aes(ymin=low,ymax=up),size=1.5,width=0.2)+ 
  geom_text(aes(1,-0.8),label=p,size=6)+
  ylab("95% CI of difference glucose B-A")+  ylim(-10,10)+
  theme(panel.border=element_blank(), panel.grid.major.x=element_blank(),
         panel.grid.major.y=element_line(size=1,colour="grey88"))

dev.off()
Dieter Menne
la source
Oh mon Dieu @ dieter-menne, grande question! Cela dépend tellement du type de journal auquel vous soumettez l'article. Je vais rester à l'écart des guerres de graphes, mais j'adore les graphes 2 et 3: tellement d'informations dans si peu d'espace.
doug.numbers
4
Masson et Loftus (2003) sont une référence souvent donnée. Ils montrent des exemples de graphiques dans lesquels ils placent le CI de la différence dans un deuxième panneau du même graphique. Si cela rendra tout le monde dans le cirque heureux, je ne sais pas (je pense que pour vous!)
Andy W
Merci, @AndyW, pour la référence. C'est vrai, mais il y a un problème: c'est de la psychologie. Il y a beaucoup plus de bons articles sur le sujet par des psychologues qui ont une bien meilleure expérience statistique que les examinateurs médicaux. J'aimerais pouvoir trouver un guide de journal de haut niveau sur le sujet, c'est la seule épée tranchante que je pouvais manipuler.
Dieter Menne

Réponses:

17

Vous avez tout à fait raison de supposer que les barres d'erreur représentant l'erreur standard de la moyenne sont totalement inappropriées pour les conceptions intra-sujet. Cependant, la question du chevauchement des barres d'erreur et de leur signification est un autre sujet, sur lequel je reviendrai à la fin de cette liste de références commentée.

Il existe une abondante littérature de psychologie sur les intervalles de confiance intra-sujet ou les barres d'erreur qui font exactement ce que vous voulez. L'ouvrage de référence est clairement:

Loftus, GR et Masson, MEJ (1994). Utilisation d'intervalles de confiance dans les conceptions intra-sujet . Psychonomic Bulletin & Review , 1 (4), 476–490. doi: 10.3758 / BF03210951

Cependant, leur problème est qu'ils utilisent le même terme d'erreur pour tous les niveaux d'un facteur intra-sujet. Cela ne semble pas être un gros problème pour votre cas (2 niveaux). Mais il existe des approches plus modernes pour résoudre ce problème. Notamment:

Franz, V. et Loftus, G. (2012). Erreurs standard et intervalles de confiance dans les plans intra-sujets: Généraliser Loftus et Masson (1994) et éviter les biais des comptes alternatifs . Bulletin et revue psychonomiques, 1–10. doi: 10.3758 / s13423-012-0230-1

Baguley, T. (2011). Calcul et représentation graphique des intervalles de confiance intra-sujet pour l'ANOVA. Méthodes de recherche comportementale . doi: 10.3758 / s13428-011-0123-7 [ peut être trouvé ici ]

D'autres références peuvent être trouvées dans les deux derniers articles (qui, je pense, valent la peine d'être lus).


Comment les chercheurs interprètent-ils les IC? Mauvais selon le papier suivant:

Belia, S., Fidler, F., Williams, J., et Cumming, G. (2005). Les chercheurs comprennent mal les intervalles de confiance et les barres d'erreur standard . Psychological Methods , 10 (4), 389–396. doi: 10.1037 / 1082-989X.10.4.389

Comment interpréter les IC qui se chevauchent et qui ne se chevauchent pas?

Cumming, G. et Finch, S. (2005). Inférence par l'œil: intervalles de confiance et comment lire des images de données . Psychologue américain , 60 (2), 170-180. doi: 10.1037 / 0003-066X.60.2.170


Une dernière pensée (bien que cela ne soit pas pertinent pour votre cas): Si vous avez une conception à parcelles divisées (c'est-à-dire des facteurs intra et inter-sujets) dans une parcelle, vous pouvez oublier les barres d'erreur toutes ensemble. Je (humblement) recommander ma raw.means.plotfonction dans le package R plotrix.

Henrik
la source
2
Liste de référence très utile. Cumming a rassemblé bon nombre de ses idées sur amazon.com/Understanding-New-Statistics-Meta-Analysis-ebook/dp/… (Quoi que vous vouliez dire sur l'expression "les nouvelles statistiques", je suis probablement d'accord.)
Nick Cox
@amoeba Le papier Baguley que je cite utilise la technique du papier Morey.
Henrik
10

La question ne semble pas concerner autant les barres d'erreur que les meilleures façons de tracer les données appariées.

Essentiellement, les barres d'erreur sont tout au plus un moyen de résumer l'incertitude: elles ne disent pas, et ne peuvent nécessairement, en dire long sur une structure fine des données.

Des tracés de coordonnées parallèles - parfois appelés tracés de profil, un terme qui signifie différentes choses dans différents domaines - ont été mentionnés dans la question. @Ray Koopman a déjà suggéré des diagrammes de dispersion de base.

AB(A+B)/2A+B

Une autre source pour ce complot est Neyman, J., Scott, EL et Shane, CD 1953. Sur la distribution spatiale des galaxies: un modèle spéci fi que. Journal astrophysique 117: 92–133.

En termes généraux, ces parcelles ressemblent à l'idée de tracer les résidus par rapport aux ajustés, également popularisée par Tukey et son beau-frère au carré Anscombe.

AB=0A=BAB

Un plan négligé est le tracé en lignes parallèles de McNeil, DR 1992. Sur la représentation graphique des données appariées. Statisticien américain 46: 307–310. Ceci est également discuté dans les deux références ci-dessous.

Les revues liées aux statistiques, avec plusieurs références, sont en

2004, Représentation graphique de l'accord et du désaccord. Journal Stata 4: 329-349.

.pdf accessible sur http://www.stata-journal.com/sjpdf.html?articlenum=gr0005

Tracés appariés, parallèles ou de profil pour les changements, corrélations et autres comparaisons. Journal Stata 9: 621-639.

.pdf accessible sur http://www.stata-journal.com/sjpdf.html?articlenum=gr0041

Les utilisateurs non-Stata devraient pouvoir sauter et fredonner leur chemin à travers le code Stata tout en travaillant sur la façon d'implémenter les graphiques dans leur propre logiciel préféré.

AB

Nick Cox
la source
4

Essayez un diagramme de dispersion des points individuels (A, B). La plupart d'entre eux ne doivent reposer que sur un seul côté de la diagonale (la ligne A = B). Il existe deux analogues de barres d'erreur. La conventionnelle, équivalente à un IC pour la différence moyenne, serait une bande de confiance pour la différence moyenne. La bande serait la région entre deux lignes, toutes deux parallèles à la diagonale. Un test t apparié serait significatif si et seulement si les deux bords de la bande étaient du même côté de la diagonale.

Un analogue de barre d'erreur plus conservateur serait une ellipse de confiance pour le centroïde.

Ray Koopman
la source
1
cmethodBcmethodA
Non, cl. - :) La chimie clinique est trop sophistiquée. Serait-ce que vous aviez ajouté une référence dans "là"; Je ne sais pas de quel papier vous parlez.
Dieter Menne
4

Résumé préliminaire:

Masson / Loftus est très exhaustif, et ce n'est pas une lecture facile à donner à mes collègues médecins qui n'accepteraient pas quelque chose comme une "interaction". Ils ont également quelques suggestions de comparaisons multiples, qui montrent que les intervalles de confiance par paire sont difficiles à illustrer lorsque l'on ne veut pas simplifier fortement.

Masson Loftus

Je n'aime pas ce style: les barres avec des barres d'erreur ressemblent à Excelish du dernier millénaire. Cependant, ils utilisent également un style légèrement plus élégant:

Masson Loftus sans barreaux

Cumming / Finch et Belia et al. sont des lectures incontournables. Le premier est le choix parfait pour donner à votre ami qui frissonne quand il voit le mot interaction . J'ai commandé le livre de Cumming après avoir lu cet article. La seconde montre un test que je mettrai en œuvre à Shiny pour la prochaine réunion des investigateurs médicaux.

Cumming / Finch

J'aime cette intrigue, même s'il y a un deuxième axe que je n'ai jamais utilisé auparavant; vérifiez la contribution de Henrik et d'autres sur StackOverflow pour une méthode graphique R-base pour l'obtenir. Je préférerais mettre le deuxième axe à gauche de la différence pour être absolument clair que les valeurs ont changé, et peut-être ajouter un axe de valeur p.

Quelqu'un de la fraction treillis / ggplot prend une photo? Toutes les solutions fournies sont des graphiques de base et non panelables / facetable.

Cependant: notez que les commentaires et articles proviennent principalement du département de psychologie (et @cbeleites de la chimie hardcore). Il serait bon d'obtenir les commentaires des critiques des revues médicales.

Dieter Menne
la source
0

Pourquoi ne pas simplement tracer la différence * pour chaque patient? Vous pouvez ensuite utiliser un histogramme, un diagramme en boîte ou un diagramme de probabilité normal et superposer un intervalle de confiance à 95% pour la différence.

  • Dans certains scénarios, cela pourrait être la différence des logarithmes. Voir, par exemple, Patterson et Jones, «Bioequivalence and Statistics in Clinical Pharmacology», Chapman, 2006.
Emil Friedman
la source
Pourquoi pas? Il peut fournir des informations valides, mais les parcelles avec des points individuels ou des paires ne sont pas vraiment populaires dans la recherche médicale. C'est pourquoi l'intrigue parallèle (qui fournit plus d'informations) est si impopulaire. Les chercheurs en médecine veulent des moyennes et des "gammes normales" (quelles qu'elles soient).
Dieter Menne