Existe-t-il un moyen méthodique de comparer les directions, les grandeurs, etc. des résultats de l'ACP pour différents échantillons prélevés sur la même population?
Je laisse la nature du test délibérément vague parce que j'aimerais entendre toutes les différentes possibilités ... par exemple, il pourrait y avoir (et je spécule ici) un test comparant les tailles des premiers composants principaux, ou un test comparant les directions des principaux composants, ou il existe une sorte de mesure de distance entre les résultats de l'ACP et une statistique de test pour leur égalité.
En ce qui concerne un cas d'utilisation, je n'ai pas à l'esprit. Par curiosité, peut-être comme technique exploratoire.
hypothesis-testing
pca
variance
inference
shadowtalker
la source
la source
Réponses:
Donc, d'après ce que j'ai compris, vous imaginez que vous avez deux nuages de points chacun, dans un espace dimensionnel; vous effectuez l'ACP sur chaque cloud séparément et souhaitez ensuite comparer les résultats de l'ACP entre les clouds et tester les différences significatives dans certaines des fonctionnalités PCA les plus importantes.n d
Je ne pense pas qu'il existe de tests standard à cet effet. Pour toute question spécifique, on peut probablement trouver une méthode ou un test, mais votre question est un peu trop large pour essayer de proposer des tests possibles.
Pourtant, une approche générale qui me vient à l'esprit est d'utiliser des tests de permutation. Disons que vous voulez tester si PC1 dans les deux ensembles d'échantillons ("nuages") est différent. Vous pouvez calculer l'angle entre eux. Ensuite, vous regroupez tous les points ensemble dans un grand nuage, vous le divisez au hasard en deux nuages de taille (cela est généralement appelé "mélangez les étiquettes"), exécutez deux PCA et calculez entre deux PC1. Des séparations aléatoires peuvent être effectuées plusieurs fois (disons fois), résultant en une distribution de attendue sous l'hypothèse nulle de pas de différence entre les nuages. Ensuite, vous comparez simplement votre réel à cette distribution et obtenez unθ 2n n θ 10000 θ θ p -valeur.
La même approche peut être utilisée pour comparer, par exemple, les plus grandes valeurs propres. Ou les plus petites valeurs propres. Ou presque tout ce que vous voulez comparer.
En dehors de cela, si vous voulez une statistique de test pour "l'égalité des résultats de l'ACP" dans son ensemble, alors vous devriez peut-être simplement utiliser un test comparant deux matrices de covariance (sans faire aucune ACP du tout). Par exemple, le test M de Box (qui est une généralisation multivariée du test de Bartlett pour l'égalité des variances).
la source
disons que vous avez l'échantillon set2 1 et 2, et vous avez trouvé leurs composants de principe de 1 à nth qui sont capables de cartographier 90% des informations (n peut être différent pour les deux, et 90 est arbitraire).
Vous pouvez calculer la quantité d'informations contenues dans set1 qui peut être conservée après avoir été mappée à l'espace des composants principaux et inversement. Définissez un seuil pour la quantité d'informations que vous êtes prêt à perdre avant de déclarer que le nouvel ensemble est suffisamment différent pour mériter ses propres composants principaux.
la source