Comment traiter correctement plusieurs points de données pour chaque sujet

10

Je discute actuellement avec someoe sur la façon de traiter correctement les données avec plusieurs mesures pour chaque sujet. Dans ce cas, les données ont été recueillies pour chaque sujet dans un court laps de temps pour différentes conditions au sein de chaque sujet. Toutes les mesures rassemblent exactement la même variable, juste plusieurs.

Une option consiste maintenant à simplement regrouper les données par conditions et ne pas se soucier que plusieurs points de données proviennent d'un même sujet. Cependant, les points de données de chaque sujet ne sont probablement pas complètement indépendants.

L'autre alternative consiste à prendre d'abord la moyenne de toutes les mesures pour chaque condition de chaque sujet, puis à comparer les moyennes. Cependant, cela aura probablement un impact sur l'importance, car en dernière analyse, il n'est pas pris en compte, que les moyens ont moins d'erreur.

Comment pouvez-vous analyser correctement ces données? Est-ce en quelque sorte pris en charge dans SPSS? En principe, il devrait être possible de calculer la marge d'erreur lors du calcul d'une moyenne et de la considérer dans l'analyse finale, mais je ne pense pas que SPSS effectue ce calcul derrière mon dos.

LiKao
la source
1
S'agit-il d'une conception de mesures répétées telle que chaque sujet s'exécute dans toutes ou plusieurs des conditions? Ou, s'agit-il simplement d'une conception de groupes ou de mesures indépendants où chaque sujet est dans une condition?
John
Dans cette conception, chaque sujet s'exécute dans toutes les conditions. Cependant, il existe certains points de données, qui doivent être rejetés, car les sujets ont échoué dans la tâche à accomplir. Il est peu probable qu'un sujet échoue à toutes les sous-tâches pour une seule condition (il y a environ 40 répétitions par condition), donc chaque sujet aura très probablement des points de données pour toutes les conditions.
LiKao

Réponses:

9

Ce serait une violation de l'indépendance de "grouper les données par conditions et de ne pas se soucier que plusieurs points de données proviennent d'un même sujet". C'est donc un non. Une approche consiste à «prendre la moyenne de toutes les mesures pour chaque condition de chaque sujet et ensuite comparer les moyennes». Vous pourriez le faire de cette façon, vous ne violeriez pas l'indépendance, mais vous perdez certaines informations dans l'agrégation aux moyens au niveau du sujet.

À première vue, cela ressemble à un design mixte avec des conditions entre les sujets et de multiples périodes de temps mesurées au sein des sujets. Cependant, cela soulève la question: pourquoi avez-vous collecté des données à plusieurs moments? L'effet du temps ou la progression d'une variable dans le temps devrait-il être différent entre les conditions? Si la réponse est oui à l'une de ces questions, étant donné la structure des données, je m'attendrais à ce que ce qui vous intéresse soit une ANOVA mixte. L'ANOVA mixte divisera la variance du sujet du SSTotal "derrière votre dos" pour ainsi dire. Mais si ce partitionnement aide votre test de conditions entre sujets, cela dépend de plusieurs autres facteurs.

Quoi qu'il en soit, dans SPSS / PASW 18 Analyser -> Modèle linéaire général -> Mesures répétées. Vous aurez une ligne pour chaque sujet et une colonne pour chaque point temporel ainsi qu'une pour leur identifiant de condition. L'identifiant de condition ira dans la section "entre" et les mesures répétées seront prises en compte lorsque vous définissez le facteur de mesure répétée.

russellpierce
la source
Ok, c'est ce que j'ai pensé. Les multiples points de données par condition sont collectés pour deux raisons. La première est que les données devraient être plus fiables de cette façon. L'autre raison est que certains points de données doivent être jetés (les sujets n'ont pas suivi correctement les instructions à tout moment). Les conditions sont complètement dans les sujets, donc nous n'avons pas du tout de conception dans ce cas. Malheureusement, une mesure répétée est hors de question, car nous avons environ 40 répétitions par condition dans chaque sujet. Le nombre élevé de répétitions signifie cependant que nous perdons beaucoup d'informations lors de l'utilisation de la moyenne.
LiKao
Ensuite, je recommande la réponse de John. Un modèle mixte est probablement préférable. Cela peut modéliser à la fois la moyenne et la variabilité au sein de chaque sujet et respecter la nidification. Un problème avec une telle analyse est que les degrés de liberté «corrects» ne sont pas clairs et donc les seuils de signification statistique ne le sont pas non plus. Contrairement au code fourni par John, je recommanderais d'ajuster une pente aléatoire pour votre effet de condition (différents sujets affichent des effets différents). J'ai vu des simulations suggérant que ne pas le faire pourrait augmenter votre taux d'erreur de type I.
russellpierce
4

La conception de mesures répétées est la manière traditionnelle de gérer cela, comme le mentionne drknexus. Lorsque vous effectuez ce type d'analyse, vous devez regrouper un score / une condition / un sujet. Il est sensible aux violations des hypothèses de sphéricité et à d'autres problèmes. Cependant, la technique la plus moderne consiste à utiliser une modélisation à plusieurs niveaux ou des effets mixtes linéaires. En utilisant cette technique, vous ne regroupez pas les données. Il existe plusieurs traitements de cela, mais je ne connais pas actuellement le meilleur tutoriel de base. Baayen (2008) Le chapitre 7 est bon. Pinheiro & Bates (2000) est très bon mais d'après les sons des choses, suivez leurs conseils dans l'intro et lisez les morceaux recommandés pour les débutants.

Si vous voulez simplement obtenir un résultat de style ANOVA, en supposant que toutes vos données sont au format long (une ligne / point de données) et que vous avez des colonnes indiquant le sujet, la réponse (y) et une variable de condition (x), vous pouvez essayer regarder quelque chose comme ça dans R (assurez-vous que le paquet lme4 est installé).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Vous pouvez bien sûr avoir beaucoup plus de colonnes de variables de conditions, peut-être en interaction. Ensuite, vous pouvez changer la commande lmer en quelque chose comme ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(BTW, je crois que ne pas agréger en mesures répétées afin d'augmenter le pouvoir est une erreur formelle. Quelqu'un se souvient du nom?)

John
la source
Je pense que l'erreur de ne pas agréger et d'utiliser le df du nombre de réponses plutôt que du nombre de sujets est une violation de l'indépendance. Alternativement, (je pense), on pourrait penser à faire une inférence au niveau des réponses des items individuels pour un ensemble fixe de sujets.
russellpierce