Existe-t-il un test / une technique / une méthode pour comparer les décompositions des composants principaux entre les échantillons?

8

Existe-t-il un moyen méthodique de comparer les directions, les grandeurs, etc. des résultats de l'ACP pour différents échantillons prélevés sur la même population?

Je laisse la nature du test délibérément vague parce que j'aimerais entendre toutes les différentes possibilités ... par exemple, il pourrait y avoir (et je spécule ici) un test comparant les tailles des premiers composants principaux, ou un test comparant les directions des principaux composants, ou il existe une sorte de mesure de distance entre les résultats de l'ACP et une statistique de test pour leur égalité.

En ce qui concerne un cas d'utilisation, je n'ai pas à l'esprit. Par curiosité, peut-être comme technique exploratoire.

shadowtalker
la source
Imaginez-vous deux ensembles d'échantillons peuplant le même espace (c'est-à-dire ayant les mêmes caractéristiques)? Donc, fondamentalement, deux nuages ​​de points différents, est-ce exact? Supposez-vous que les nuages ​​ont le même nombre de points, ou pas nécessairement?
amoeba
Oui, désolé, ce sont deux échantillons de la même population. Si la réponse est différente pour des échantillons de tailles inégales, j'aimerais en savoir plus.
shadowtalker
Googler avec le terme «analyse factorielle multigroupe» donne beaucoup de liens, c'est un vaste domaine (et je pense bien) discuté. Si je me souviens bien, il existe même des logiciels spécialisés
Gottfried Helms

Réponses:

6

Donc, d'après ce que j'ai compris, vous imaginez que vous avez deux nuages ​​de points chacun, dans un espace dimensionnel; vous effectuez l'ACP sur chaque cloud séparément et souhaitez ensuite comparer les résultats de l'ACP entre les clouds et tester les différences significatives dans certaines des fonctionnalités PCA les plus importantes.nd

Je ne pense pas qu'il existe de tests standard à cet effet. Pour toute question spécifique, on peut probablement trouver une méthode ou un test, mais votre question est un peu trop large pour essayer de proposer des tests possibles.

Pourtant, une approche générale qui me vient à l'esprit est d'utiliser des tests de permutation. Disons que vous voulez tester si PC1 dans les deux ensembles d'échantillons ("nuages") est différent. Vous pouvez calculer l'angle entre eux. Ensuite, vous regroupez tous les points ensemble dans un grand nuage, vous le divisez au hasard en deux nuages ​​de taille (cela est généralement appelé "mélangez les étiquettes"), exécutez deux PCA et calculez entre deux PC1. Des séparations aléatoires peuvent être effectuées plusieurs fois (disons fois), résultant en une distribution de attendue sous l'hypothèse nulle de pas de différence entre les nuages. Ensuite, vous comparez simplement votre réel à cette distribution et obtenez unθ2nnθ10000θθp-valeur.

La même approche peut être utilisée pour comparer, par exemple, les plus grandes valeurs propres. Ou les plus petites valeurs propres. Ou presque tout ce que vous voulez comparer.

En dehors de cela, si vous voulez une statistique de test pour "l'égalité des résultats de l'ACP" dans son ensemble, alors vous devriez peut-être simplement utiliser un test comparant deux matrices de covariance (sans faire aucune ACP du tout). Par exemple, le test M de Box (qui est une généralisation multivariée du test de Bartlett pour l'égalité des variances).

amibe
la source
+1 qu'il est probablement plus logique de comparer directement les matrices de covariance
Andrew M
1
En relisant votre réponse, il m'est venu à l'esprit que l'angle moyen entre les axes principaux correpsondjng est probablement quelque chose comme ce que je recherchais.
shadowtalker
1

disons que vous avez l'échantillon set2 1 et 2, et vous avez trouvé leurs composants de principe de 1 à nth qui sont capables de cartographier 90% des informations (n ​​peut être différent pour les deux, et 90 est arbitraire).

Vous pouvez calculer la quantité d'informations contenues dans set1 qui peut être conservée après avoir été mappée à l'espace des composants principaux et inversement. Définissez un seuil pour la quantité d'informations que vous êtes prêt à perdre avant de déclarer que le nouvel ensemble est suffisamment différent pour mériter ses propres composants principaux.

Dan Erez
la source