Quelle est la relation entre l'analyse en composantes indépendantes et l'analyse factorielle?

67

Je suis novice en Analyse de Composants Indépendants (ICA) et n’ai qu’une compréhension rudimentaire de la méthode. Il me semble que l’ACI est semblable à l’analyse factorielle (AF) à une exception près: l’ACI suppose que les variables aléatoires observées sont une combinaison linéaire de composants / facteurs indépendants non gaussiens, alors que le modèle classique pour l’AF suppose que les variables aléatoires observées sont une combinaison linéaire de composants / facteurs gaussiens corrélés.

Ce qui précède est-il exact?

stats_student
la source
1
Cette réponse à une autre question ( PCA trouve de manière itérative les directions de la plus grande variance; mais comment trouver tout un sous-espace avec la plus grande variance? ) Mérite d'être examinée.
Piotr Migdal

Réponses:

72

entrez la description de l'image ici

FA, PCA et ICA sont tous «liés», dans la mesure où ils recherchent tous les trois des vecteurs de base sur lesquels les données sont projetées, de sorte que vous maximisez les critères d'insertion (ici). Considérez les vecteurs de base comme une simple encapsulation de combinaisons linéaires.

Par exemple, supposons que votre matrice de données soit une matrice x , c’est-à-dire que vous avez deux variables aléatoires et observations de chacune d’elles. Ensuite, supposons que vous ayez trouvé un vecteur de base de . Lorsque vous extrayez (le premier) signal (appelez-le le vecteur ), cela se fait comme suit:Z2NNw=[0.14]y

y=wTZ

Cela signifie simplement "Multiplie 0,1 par la première ligne de vos données et soustrayez 4 fois la deuxième ligne de vos données". Ensuite, cela donne , qui est bien sûr un vecteur x qui a pour propriété de maximiser ses critères d’insertion-ici.y1N

Alors, quels sont ces critères?

Critères de deuxième ordre:

En ACP, vous trouvez des vecteurs de base qui "expliquent le mieux" la variance de vos données. Le premier vecteur de base (c.-à-d. Le mieux classé) sera celui qui correspond le mieux à la variance de vos données. Le second a aussi ce critère, mais doit être orthogonal au premier, et ainsi de suite. (Il s'avère que ces vecteurs de base pour PCA ne sont que les vecteurs propres de la matrice de covariance de vos données).

En FA, il y a une différence entre elle et la PCA, parce que la FA est générative, contrairement à la PCA. J'ai vu dans FA le terme «PCA avec bruit», où le «bruit» est appelé «facteurs spécifiques». Néanmoins, la conclusion générale est que PCA et FA sont basées sur des statistiques de second ordre (covariance) et rien d’autre.

Critères d'ordre supérieur:

Dans ICA, vous trouvez à nouveau des vecteurs de base, mais cette fois-ci, vous voulez des vecteurs de base donnant un résultat, de sorte que ce vecteur résultant soit l’un des composants indépendants des données originales. Vous pouvez le faire en maximisant la valeur absolue du kurtosis normalisé - une statistique du 4ème ordre. Autrement dit, vous projetez vos données sur un vecteur de base et mesurez le kurtosis du résultat. Vous changez un peu votre vecteur de base (généralement par l’ascension progressive), puis vous mesurez à nouveau le kurtosis, etc. etc. Vous finirez par arriver à un vecteur de base qui vous donne un résultat avec le kurtosis le plus élevé possible. composant.

Le diagramme ci-dessus peut vous aider à le visualiser. Vous pouvez clairement voir comment les vecteurs ICA correspondent aux axes des données (indépendamment les uns des autres), tandis que les vecteurs PCA tentent de trouver des directions dans lesquelles la variance est maximisée. (Un peu comme résultant).

Si, dans le diagramme du haut, les vecteurs PCA semblent correspondre presque aux vecteurs ICA, c'est simplement une coïncidence. Voici un autre exemple de données et de matrice de mixage différentes où elles sont très différentes. ;-)

entrez la description de l'image ici

Spacey
la source
2
Sache que vous connaissez les deux méthodes. En tant que personne compétente, pouvez-vous indiquer si ces méthodes impliquent de manière inhérente que les vecteurs de base sont orthogonaux? Comment pourrait-on découvrir les composants principaux ou indépendants qui ont une projection non nulle l'un sur l'autre, quelque chose comme deux nuages ​​de points orientés approximativement à un angle de 45 degrés?
mbaitoff
2
@mbaitoff ICA va récupérer un ensemble de base de vecteurs orthogonal, oui. Deuxièmement, lorsque vous demandez, comme vous le demandez, deux signaux dont la projection est différente de zéro, c’est exactement ce que l’ICA essaie d’annuler. C'est pourquoi les vecteurs de base finaux trouvés par ICA sont orthogonaux les uns aux autres. Ensuite, lorsque vous projetez vos données sur ces deux nouveaux vecteurs, ils seront orthogonaux l'un par rapport à l'autre.
Spacey
1
@Tarantula J'ai posé une question sur ce dont je parle: stats.stackexchange.com/questions/6575/… , vous pouvez voir l'illustration, i.stack.imgur.com/U6fWb.png . Je ne comprends pas comment une base orthogonale décrirait ces deux nuages. Il est évident pour moi que deux vecteurs décrivant les principales directions d'oscillation ne sont pas orthogonaux.
mbaitoff
@mbaitoff Vous avez pris vos données de deux capteurs, vous les avez placées l'une contre l'autre et vous voyez ces deux modes. Vous savez donc qu'ils sont au moins corrélés. La question devient alors: comment pouvez-vous projeter tous les points que vous avez là-bas, de sorte qu'ils sont indépendants? (c.-à-d. sur une base orthogonale, comme ce que l’ACI trouve). C'est ce que l'ICA trouve pour vous. Je ne comprends pas ce que vous voulez dire quand vous dites "je ne peux pas comprendre comment une base orthogonale décrirait ces deux nuages". Pourquoi pas?
Spacey
@Tarantula Oh, maintenant je vois ce que cela signifie! Je pensais que c'était comme "trouver deux vecteurs orthogonaux sur la parcelle d'origine", alors que cela signifie en fait "trouver deux vecteurs sur une parcelle originale une projection sur laquelle ils seront orthogonaux (indépendants)".
mbaitoff
31

Pas assez. L’analyse factorielle fonctionne avec les seconds moments et espère vraiment que les données sont gaussiennes, de sorte que les rapports de vraisemblance et ce genre de choses ne soient pas affectés par la non-normalité. ICA, d’autre part, est motivé par l’idée que, lorsque vous ajoutez des éléments, vous obtenez quelque chose de normal, à cause du CLT, et espère vraiment que les données ne sont pas normales, de sorte que les composants non normaux puissent être extraits de leur. Pour exploiter la non-normalité, l'ICA essaie de maximiser le quatrième moment d'une combinaison linéaire des entrées:

maxa:a=11ni[a(xix¯)]4

L'ACI devrait plutôt être comparée à l'ACP, qui maximise le deuxième moment (variance) d'une combinaison d'entrées normalisée.

StasK
la source
réponse gentille et croustillante
Subhash C. Davar
quel est le 4ème moment ici? PL.EXPLAIN.
Subhash C. Davar
@ subhashc.davar Le 4ème moment est le kurtosis, c’est-à-dire la mesure dans laquelle les données ont été plus lourdes ou plus légères que la distribution normale. en.wikipedia.org/wiki/Kurtosis
javadba