Indépendance linéaire vs indépendance statistique (PCA et ICA)

8

Je lis cet article intéressant sur l'application de l'ICA aux données d'expression génique.

Les auteurs écrivent:

[T] il n'est pas nécessaire que les composants PCA soient statistiquement indépendants.

C'est vrai, mais les PJ sont orthogonaux, n'est-ce pas?

Je suis un peu flou quant à la relation entre l'indépendance statistique et l'orthogonalité ou l'indépendance linéaire.

Il convient de noter que si l'ICA fournit également une décomposition linéaire de la matrice de données, l'exigence d'indépendance statistique implique que la matrice de covariance des données est décorrélée de manière non linéaire, contrairement à l'ACP où la décorrélation est effectuée de manière linéaire.

Je ne comprends pas ça. Comment le manque de linéarité découle-t-il de l'indépendance statistique?

Question: comment l'indépendance statistique des composants dans ICA est-elle liée à l'indépendance linéaire des composants dans PCA?

janvier
la source

Réponses:

10

Il s'agit probablement d'un doublon de certaines questions plus anciennes, mais je vais répondre brièvement est néanmoins.

Pour une explication non technique, je trouve très utile cette figure de l'article Wikipedia sur la corrélation et la dépendance :

entrez la description de l'image ici

Les nombres au-dessus de chaque nuage de points montrent des coefficients de corrélation entre X et Y. Regardez la dernière ligne: sur chaque nuage de points la corrélation est nulle, c'est-à-dire que X et Y sont "linéairement indépendants". Cependant, ils ne sont évidemment pas statistiquement indépendants: si vous connaissez la valeur de X, vous pouvez affiner les valeurs possibles de Y. Si X et Y étaient indépendants, cela signifierait que connaître X ne vous dit rien sur Y.

Le but de l'ICA est d'essayer de trouver des composants indépendants. Dans PCA, vous obtenez uniquement des composants non corrélés ("orthogonaux"); leur corrélation est nulle mais ils peuvent très bien être statistiquement dépendants.

amibe
la source
2
Ah! (palmface) D'accord, j'ai commencé à disséquer l'ICA et j'ai fini par ne pas voir l'évidence. Merci! J'utilise le même exemple pour expliquer le même problème pour les autres ...
Janvier
1
Nous avons tendance à «assimiler» «orthogonalité» avec «corrélation nulle», mais cela n'est vrai que lorsque l'une des variables impliquées a une moyenne nulle.
Alecos Papadopoulos
2
@Alecos, c'est exact (+1), mais les analyses telles que PCA ou ICA sont presque toujours effectuées sur des variables centrées, donc cette distinction n'est pas pertinente.
amoeba
1
En effet, c'est le problème en général. En économétrie, l'orthogonalité est discutée principalement en ce qui concerne le "terme d'erreur" d'une régression qui a une moyenne nulle, et donc ici aussi, elle a tendance à être assimilée à une "covariance nulle". Les gens courent donc le danger d'oublier qu'en général ils ne sont pas égaux, et ils peuvent donc finir par le supposer à tort dans une situation où les variables ne sont pas centrées sur leur moyenne.
Alecos Papadopoulos
J'ai rencontré une phrase: "Bien que non corrélées, les principales composantes peuvent être très dépendantes statistiquement". Suite à votre réponse, est-il raisonnable de la comprendre de la manière suivante: sachant ce qu'est un PC, nous pouvons dire quelque chose sur un autre PC?
camillejr