Pourquoi la sphéricité diagnostiquée par le test de Bartlett signifie-t-elle qu'une ACP est inappropriée?

14

Je comprends que le test de Bartlett vise à déterminer si vos échantillons proviennent de populations présentant des variances égales.

Si les échantillons proviennent de populations à variances égales, nous ne rejetons pas l'hypothèse nulle du test, et donc une analyse en composantes principales est inappropriée.

Je ne sais pas où se situe le problème avec cette situation (avoir un ensemble de données homoskedastic). Quel est le problème avec un ensemble de données où la distribution sous-jacente de toutes vos données est la même? Je ne vois tout simplement pas le gros problème si cette condition existe. Pourquoi cela rendrait-il un APC inapproprié?

Je n'arrive pas à trouver de bonnes informations n'importe où en ligne. Quelqu'un a-t-il une expérience de l'interprétation de la raison pour laquelle ce test est pertinent pour une ACP?

Matt O'Brien
la source

Réponses:

15

En réponse au titre de la question.

Test de sphéricité de Bartlett1, qui est souvent effectuée avant l'ACP ou l'analyse factorielle, teste si les données proviennent d'une distribution normale multivariée avec des covariances nulles. (Notez s'il vous plaît, que la version asymptotique standard du test n'est pas du tout robuste à l'écart de la normalité multivariée. On pourrait utiliser le bootstrap avec un nuage non russe.) Pour le dire de manière équivalente, l'hypothèse nulle est que la matrice de corrélation de population est une matrice d'identité ou que la matrice de covariance est diagonale.

Imaginez maintenant que le nuage multivarié est parfaitement sphérique (c'est-à-dire que sa matrice de covariance est proportionnelle à la matrice d'identité). Alors 1) toutes les dimensions arbitraires peuvent servir aux composants principaux, donc la solution PCA n'est pas unique; 2) tous les composants ont les mêmes variances (valeurs propres), donc PCA ne peut pas aider à réduire les données.

Imaginez le deuxième cas où le nuage multivarié est ellipsoïde avec une oblongueur strictement le long des axes des variables (c'est-à-dire que sa matrice de covariance est diagonale: toutes les valeurs sont nulles sauf la diagonale). La rotation impliquée par la transformation PCA sera alors nulle; les principales composantes sont les variables elles-mêmes, uniquement réorganisées et potentiellement rétrogradées. C'est un résultat trivial: aucun PCA n'était nécessaire pour éliminer certaines dimensions faibles afin de réduire les données.


1Plusieurs (au moins trois, à ma connaissance) des tests de statistiques portent le nom de Bartlett. Nous parlons ici du test de sphéricité de Bartlett.

ttnphns
la source
13

Il semble qu'il existe deux tests appelés test de Bartlett . Celui que vous avez référencé (1937) détermine si vos échantillons proviennent de populations présentant des variances égales. Un autre semble tester si la matrice de corrélation pour un ensemble de données est la matrice d'identité (1951). Il est plus logique de ne pas exécuter PCA sur des données avec une matrice de corrélation d'identité, car vous récupérerez simplement vos variables d'origine car elles ne sont pas encore corrélées. Comparez, par exemple,

user42628
la source
2
+1 Cela résout mieux les confusions que l'autre réponse.
HelloWorld