L'image ci-dessous est tirée de cet article dans Psychological Science . Un collègue a souligné deux choses inhabituelles à ce sujet:
- Selon la légende, les barres d'erreur indiquent «± 2,04 erreurs standard, l'intervalle de confiance à 95%». Je n'ai vu que ± 1,96 SE utilisé pour l'IC à 95%, et je ne trouve rien sur le 2,04 SE utilisé à quelque fin que ce soit. Est-ce que 2.04 SE a une signification acceptée ?
- Le texte indique que les comparaisons par paires planifiées ont trouvé des différences significatives pour la magnitude moyenne de sursaut d'erreur par rapport aux essais prévisibles corrects (t (30) = 2,51, p <0,01) et l'erreur par rapport aux essais imprévisibles corrects (t (30) = 2,61, p <0,01) (le test omnibus F était également significatif à p <0,05). Cependant, le graphique montre les barres d'erreur pour les trois conditions se chevauchant sensiblement. Si les intervalles ± 2,04 SE se chevauchent, comment les valeurs peuvent-elles être significativement différentes à p <0,05? Le chevauchement est suffisamment grand pour que je suppose que les intervalles ± 1,96 SE se chevauchent également.
Réponses:
Les moyennes sont comparées en termes d' erreurs standard . L'erreur standard est généralement fois l'écart type, où (probablement autour de ici) est la taille de l'échantillon. Si la légende est correcte en appelant ces barres les «erreurs standard», alors les écarts-types doivent être au moins fois supérieurs aux valeurs d'environ comme indiqué. Un ensemble de données de valeurs positives avec un écart type de et une moyenne entre et devrait avoir la plupart des valeurs proches de1/n−−√ n 30+1=31 31−−√≈5.5 6 31 6×5.5=33 14 18 0 et un petit nombre de grandes valeurs énormes, ce qui semble assez improbable. (S'il en était ainsi, alors toute l'analyse basée sur les statistiques de Student ne serait pas valide de toute façon.) Nous devons conclure que la figure montre probablement des écarts-types, pas des erreurs-types .
Les comparaisons de moyennes ne sont pas basées sur le chevauchement (ou son absence) des intervalles de confiance. Deux IC à 95% peuvent se chevaucher, mais peuvent néanmoins indiquer des différences très importantes. La raison en est que l'erreur-type de la différence des moyennes ( indépendantes ) est, au moins approximativement, la racine carrée de la somme des carrés des erreurs-types des moyennes. Par exemple, si l'erreur standard d'une moyenne de est égale à et l'erreur standard d'une moyenne de est égale à , alors l'IC de la première moyenne (en utilisant un multiple de ) s'étendra de à et l'IC de le second s'étendra de14 1 17 1 2.04 11.92 16.08 14.92 à , avec un chevauchement important. Néanmoins, le SE de la différence sera égal à . La différence de moyennes, , est supérieure à fois cette valeur: elle est significative.19.03 12+12−−−−−−√≈1.41 17−14=3 2.04
Ce sont des comparaisons par paire . Les valeurs individuelles peuvent présenter beaucoup de variabilité tandis que leurs différences peuvent être très cohérentes. Par exemple, un ensemble de paires comme , , , , , , , , etc., présente une variation dans chaque composant, mais les différences sont toujours de . Bien que cette différence soit faible par rapport à l'un ou l'autre des composants, sa cohérence montre qu'elle est statistiquement significative.( 15 , 15.01 ) ( 16 , 16.01 ) ( 17 , 17.01 ) 0,01(14,14.01) (15,15.01) (16,16.01) (17,17.01) 0.01
la source
F(2,60)=5.64, p<.05
) implique qu'il s'agissait d'un test à mesures répétées, et donc que les tests post hoc l'étaient probablement aussi.Une partie de la confusion ici est la représentation confuse des données. Il semble que ce soit un plan de mesures répétées, mais les barres d'erreur sont des intervalles de confiance de la façon dont la vraie valeur moyenne a été estimée. Un objectif principal des mesures répétées est d'éviter de collecter suffisamment de données pour obtenir une estimation de la qualité de la valeur moyenne brute. Par conséquent, les barres d'erreur telles que celles présentées n'ont vraiment aucun rapport avec l'histoire racontée. La valeur de l'intérêt critique est l'effet. Le but des graphiques étant de mettre en évidence le point principal de l'histoire, la représentation graphique des effets et de leurs intervalles de confiance aurait été plus appropriée.
la source