J'ai un tas de variables qui contiennent des données longitudinales du jour 0 au jour 7. Je cherche une approche de regroupement appropriée qui peut regrouper ces variables longitudinales (pas des cas) en différents groupes. J'ai essayé d'analyser cet ensemble de données séparément par le temps, mais le résultat était assez difficile à expliquer raisonnablement.
J'ai étudié la disponibilité d'une procédure SAS PROC SIMILARITY
car il y a un exemple sur son site Web ; cependant, je pense que ce n'est pas une bonne façon. Certaines études antérieures ont utilisé une analyse factorielle exploratoire à chaque instant, mais ce n'est pas une option dans mon étude également en raison de résultats déraisonnables.
Si tout va bien quelques idées peuvent être fournies ici, et un programme compilé, tel que SAS ou R, peut être disponible pour traiter. Toute suggestion est appréciée !!
Voici un court exemple (désolé pour la position incohérente entre les données et les noms de variables):
id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
2 0 8 7 3 7 6 6 0 0 5 2
2 1 3 5 2 6 5 5 1 1 4 2
2 2 2 3 2 4 4 2 0 0 2 2
2 3 6 4 2 5 3 2 1 2 3 3
2 4 5 3 4 4 3 3 4 3 3 3
2 5 6 4 5 5 6 3 3 2 2 2
2 6 7 5 2 4 4 3 3 4 4 5
2 7 7 7 2 6 4 4 0 0 4 3
4 0 10 7 0 2 2 6 7 7 0 9
4 1 8 7 0 0 0 9 3 3 7 8
4 2 8 7 0 0 0 9 3 3 7 8
4 3 8 7 0 0 0 9 3 3 7 8
4 4 5 7 0 0 0 9 3 3 7 8
4 5 5 7 0 0 0 9 3 3 7 8
4 6 5 7 0 0 0 9 3 3 7 8
4 7 5 7 0 0 0 9 3 3 7 8
5 0 9 6 1 3 2 2 2 3 3 5
5 1 7 3 1 3 1 3 2 2 1 3
5 2 6 4 0 4 2 4 2 1 2 4
5 3 6 3 2 3 2 3 3 1 3 4
5 4 8 6 0 5 3 3 2 2 3 4
5 5 9 6 0 4 3 3 2 3 2 5
5 6 8 6 0 4 3 3 2 3 2 5
5 7 8 6 0 4 3 3 2 3 2 5
la source
Réponses:
Dans le
Hmisc
package R , consultez le fichier d'aide de lacurveRep
fonction, qui signifie «courbes représentatives».curveRep
des grappes sur des formes de courbes, des emplacements et des motifs de points temporels manquants.la source
x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
Je ne suis pas sûr que ce soit ce que vous recherchez, mais le package
kml
de R utilise k-means pour regrouper des séquences de mesures répétées. Voici un lien vers la page du package et vers le papier (malheureusement, il est fermé). Cela ne fonctionne bien que si vous avez un ensemble de données assez petit (quelques centaines de séquences).voici une version non fermée du document (sans problème de référence): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf
la source
Donc, vous avez p variables mesurées chaque t fois sur les mêmes n individus. Une façon de procéder consiste à calculer les matrices de (dis) similitude t pXp et à appliquer l'échelle multidimensionnelle du modèle INDSCAL. Il vous donnera deux cartes de faible dimension (disons, de 2 dimensions). La première carte montre les coordonnées de p variables dans l'espace des dimensions et reflète les regroupements entre elles, s'il y en a. La deuxième carte montre les poids (c.-à-d. L'importance ou la saillance) des dimensions dans chaque matrice de t .
la source