Puis-je effectuer une ACP sur des mesures répétées de réduction des données?

13

J'ai 3 essais chacun sur 87 animaux dans chacun des 2 contextes (certaines données manquantes; aucune donnée manquante = 64 animaux). Dans un contexte, j'ai de nombreuses mesures spécifiques ( le temps d'entrer, le nombre de fois de retour à l' abri, etc.), donc je veux développer 2 à 3 scores de comportement composites qui décrivent le comportement dans ce contexte (les appeler C1, C2, C3). Je veux un C1qui signifie la même chose sur les 3 essais et 87 animaux, afin que je puisse faire une régression pour examiner l'effet de l'âge, du sexe, du pedigree et de chaque animal sur le comportement. Ensuite, je veux examiner la C1relation avec les scores de comportement dans l'autre contexte, au sein de l'âge particulier. (À l'âge 1, l'activité dans le contexte 1 prédit-elle fortement l'activité dans le contexte 2?)

Si ce n'était pas des mesures répétées, une PCA fonctionnerait bien - faites une PCA sur les multiples mesures d'un contexte, puis utilisez PC1, PC2, etc. pour examiner les relations (corrélations de Spearman) entre PC1 dans un contexte et PC1 (ou 2 ou 3) dans l'autre contexte. Le problème, ce sont les mesures répétées qui tombent dans la pseudoréplication. Un critique a catégoriquement dit non, mais je ne trouve aucune référence claire quant à savoir si cela pose problème lors de la réduction des données.

Mon raisonnement est le suivant: les mesures répétées ne sont pas un problème, car ce que je fais dans l'APC est purement descriptif par rapport aux mesures initiales. Si je déclarais par fiat que j'utilisais le temps pour entrer dans l'arène comme mesure "d'audace" dans le contexte 1, j'aurais une mesure d'audace dans le contexte 1 qui serait comparable pour tous les individus à tous les âges et personne ne bat l'œil. Si je déclare par fiat que j'utiliserai time-to-enter time-to-far-end, il en va de même. Donc, si j'utilise PCA uniquement à des fins réductrices, pourquoi ne peut-il pas s'agir de PC1 (cela pourrait être entrer terminer0,5+ 0,50,28+ 0,63+ 0,02 temps total ...), qui est au moins informé par mes multiples mesures au lieu de deviner que le temps d'entrer est un trait généralement informatif et représentatif?

(Notez que je ne suis pas intéressé par la structure sous-jacente des mesures ... mes questions portent sur ce que nous interprétons comme les comportements spécifiques au contexte. "Si j'ai utilisé le contexte 1 et conclu que Harry est actif par rapport à d'autres animaux, est-ce que je vois Harry actif dans le contexte 2? S'il change ce que nous interprétons comme activité dans le contexte 1 en vieillissant, change-t-il également son activité dans le contexte 2?)

J'ai examiné PARAFAC et j'ai examiné SEM, et je ne suis pas convaincu que l'une ou l'autre de ces approches soit meilleure ou plus appropriée à la taille de mon échantillon. Quelqu'un peut-il peser? Merci.

Leann
la source
Ai-je bien compris que vous avez 2 facteurs intra-sujets: 1) le contexte, qui diffère par certaines conditions expérimentales (par exemple, expérience en intérieur vs expérience en extérieur), 2) essai, qui est simplement une répétition, une tentative, une expérience. Et vous aimeriez faire un PCA dans chacune des conditions, mais cela vous empêche d'avoir fait non pas un mais plusieurs essais de l'expérience.
ttnphns
Les deux contextes sont deux tests distincts et les mesures prises dans chacun sont différentes. Cela dit, oui, vous comprenez ma situation.
Leann
Qu'en est-il de contourner le problème et d'exécuter une PCA sur les moyens des trois essais?
Gala du

Réponses:

7

Vous pouvez vous pencher sur l' analyse factorielle multiple . Cela peut être implémenté en R avec FactoMineR.

MISE À JOUR:

Pour élaborer, Leann proposait - il y a si longtemps - de mener une ACP sur un ensemble de données avec des mesures répétées. Si je comprends bien la structure de son ensemble de données, pour un `` contexte '' donné, elle avait une xmatrice de `` mesure spécifique '' animale (temps pour entrer, nombre de fois retournant au refuge, etc.). Chacun des 64 animaux (ceux sans obs. Manquantes) a été suivi trois fois. Disons qu'elle avait 10 « mesures spécifiques », elle aurait alors trois 64 x 10 matrices sur le comportement des animaux (on peut appeler les matrices X1, X2, X3). Pour exécuter un PCA sur les trois matrices simultanément, elle devrait «lier en ligne» les trois matrices (par ex.PCA(rbind(X1,X2,X3))). Mais cela ignore le fait que la première et la 64e observation concernent le même animal. Pour contourner ce problème, elle peut «lier en colonne» les trois matrices et les exécuter à travers une analyse à facteurs multiples. L'AMF est un moyen utile d'analyser plusieurs ensembles de variables mesurées sur les mêmes individus ou objets à différents moments. Elle pourra extraire les principaux composants du MFA de la même manière que dans un PCA mais aura une seule coordonnée pour chaque animal. Les objets animaux auront désormais été placés dans un espace de compromis multivarié délimité par ses trois observations.

Elle serait en mesure d'exécuter l'analyse en utilisant le package FactoMineR dans R. Exemple de code ressemblerait à quelque chose comme:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

De plus, au lieu d'extraire les trois premiers composants de l'AMF et de les soumettre à une régression multiple, elle pourrait penser à projeter ses variables explicatives directement sur l'AMF en tant que `` tableaux supplémentaires '' (voir ?FactoMineR). Une autre approche consisterait à calculer une matrice de distance euclidienne des coordonnées de l'objet à partir du MFA (par exemple dist1=vegdist(mfa1$ind$coord, "euc")) et à la passer par un RDA avec dist1en fonction des variables spécifiques à l'animal (par exemple en rda(dist1~age+sex+pedigree)utilisant le package végétalien).

Kyle
la source
2
Salut Kyle, merci pour ta réponse. Cependant, les réponses qui consistent essentiellement en un simple lien ou qui ne portent que sur une phrase ne sont généralement pas considérées comme des réponses, mais comme des commentaires. En particulier, les réponses de lien uniquement souffrent de pourriture de lien, donc les réponses devraient avoir suffisamment d'informations pour être utiles même si le lien ne fonctionne plus. Pourriez-vous développer votre réponse un peu plus, en donnant peut-être un bref aperçu de ce que c'est / comment cela se rapporte à l'analyse factorielle en général?
Glen_b -Reinstate Monica
(+1) Je me rends compte que c'est un ancien message, mais cette réponse est très utile! Peut-être que la référence devrait être ajoutée complètement au cas où le lien mourrait: Abdi Hervé, Williams Lynne J., Valentin Domininique. Analyse à facteurs multiples: analyse en composantes principales pour les ensembles de données multitables et multiblocs. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg
4

Il est courant d'utiliser l'ACP lors de l'analyse de mesures répétées (par exemple, il est utilisé pour analyser les données sur les ventes, les cours des actions et les taux de change) ).

Une publication d'un très bon statisticien est: Bradlow, ET (2002). " Exploration des ensembles de données de mesures répétées pour les fonctionnalités clés à l'aide de l'analyse des composants principaux. " Journal of Research in Marketing 19: 167-179.

Tim
la source