Exemples d'ACP où les PC à faible variance sont «utiles»

24

Normalement, dans l'analyse en composantes principales (ACP), les premiers PC sont utilisés et les PC à faible variance sont abandonnés, car ils n'expliquent pas beaucoup la variation des données.

Cependant, existe-t-il des exemples où les PC à faible variation sont utiles (c'est-à-dire qu'ils ont une utilisation dans le contexte des données, ont une explication intuitive, etc.) et ne devraient pas être jetés?

Michael
la source
5
Pas mal. Voir PCA, caractère aléatoire du composant? Cela peut même être un doublon, mais votre titre est beaucoup plus clair (donc probablement plus facile à trouver en recherchant), donc ne le supprimez pas même s'il est fermé en tant que tel.
Nick Stauner

Réponses:

18

Voici un extrait intéressant de Jolliffe (1982) que je n'ai pas inclus dans ma réponse précédente à la question très similaire, " Les composants à faible variance dans PCA, sont-ils vraiment juste du bruit? Y a-t-il un moyen de le tester? " Je trouve c'est assez intuitif.

Supposons qu'il soit nécessaire de prévoir la hauteur de la base des nuages, , un problème important dans les aéroports. Diverses variables climatiques sont mesurées, notamment la température de surface et le point de rosée de surface, . Ici, est la température à laquelle l'air de surface serait saturé de vapeur d'eau, et la différence , est une mesure de l'humidité de surface. Maintenant sont généralement corrélés positivement, donc une analyse en composantes principales des variables climatiques aura une composante à variance élevée qui est fortement corrélée avec , et une composante à faible variance qui est corrélée de manière similaire avecT s T d T d T s - T d T s , T d T s + T d T s - T dHTsTTTs-TTs,TTs+TTs-T. Mais est lié à l' humidité et donc à , soit à une faible variance plutôt qu'une composante haute variance, donc une stratégie qui rejette les composants à faible variance donnera de mauvaises prévisions pour . La discussion de cet exemple est nécessairement vague en raison des effets inconnus de toute autre variable climatique qui sont également mesurés et inclus dans l'analyse. Cependant, il montre un cas physiquement plausible où une variable dépendante sera liée à une composante de faible variance, confirmant les trois exemples empiriques de la littérature. T s - T d HHTs-TH

En outre, l'exemple de la base des nuages ​​a été testé sur des données de l'aéroport de Cardiff (Pays de Galles) pour la période 1966-1973 avec une variable climatique supplémentaire, la température de la surface de la mer, également incluse. Les résultats étaient essentiellement comme prévu ci-dessus. La dernière composante principale était approximativement , et elle ne représentait que % de la variation totale. Cependant, dans une régression composante principale était de loin le plus important facteur prédictif pour . [Italiques ajoutés]HTs-TH

Les trois exemples tirés de la littérature mentionnés dans la dernière phrase du deuxième paragraphe sont les trois que j'ai mentionnés dans ma réponse à la question liée .


Référence
Jolliffe, IT (1982). Remarque sur l'utilisation des principaux composants dans la régression. Statistiques appliquées, 31 (3), 300–303. Extrait de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .

Nick Stauner
la source
C'est vraiment cool. Je voudrais juste ajouter une note que est toujours supérieur à . Cela m'a fait trébucher pendant une seconde pour comprendre pourquoi était nécessairement un composant de "faible variance"V(UNE+B)=V(UNE)+V(B)+2Cov(UNE,B)V(UNE-B)=V(UNE)+V(B)-2Cov(UNE,B)Ts-T
shadowtalker
+1, ceci est un bel exemple. Fait intéressant, c'est aussi un exemple de suppression.
gung - Réintégrer Monica
17

Si vous avez R, il y a un bon exemple dans les crabsdonnées du package MASS.

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Plus de 98% de la variance est "expliquée" par les deux premiers PC, mais en fait, si vous aviez effectivement collecté ces mesures et les étudiiez, le troisième PC est très intéressant, car il est étroitement lié à l'espèce du crabe. Mais il est submergé par PC1 (qui semble correspondre à la taille du crabe) et PC2 (qui semble correspondre au sexe du crabe.)

entrez la description de l'image ici

entrez la description de l'image ici

Flet
la source
2
+1, ceci est une démonstration vraiment soignée. J'ai fait 2 matrices de nuages ​​de points qui pourraient être ajoutées, si vous le souhaitez.
gung - Réintègre Monica
1
@gung: Merci d'avoir ajouté les nuages ​​de points! J'ai déjà voté pour cette réponse, mais je ne l'ai pas pleinement appréciée sans avoir vu les intrigues. Scatterplot PC2 vs PC3 est vraiment sympa: séparer les genres et les espèces presque parfaitement. J'aime cet exemple également parce qu'il illustre ce qui se passe lorsque toutes les variables sont fortement corrélées positivement (c.-à-d. PC1 explique beaucoup de variance et est fondamentalement une moyenne).
amibe dit Réintégrer Monica
1
Merci, @amoeba. J'aime vraiment la façon dont ils se sont révélés. J'ai passé beaucoup de temps à jouer avec eux (couleurs, pch, étiquettes, légende). En fait, je pense qu'ils sont plutôt jolis maintenant. Vous faites un bon point sur PC1. Nous pouvons également voir qu'il y a (probablement) un coefficient de variation constant et une interaction par sexe et / ou espèce dans de nombreuses relations: les petits crabes (bébés?) Ont tendance à avoir les mêmes valeurs indépendamment du sexe ou de l'espèce, mais comme ils grandissent (âge?) ils deviennent plus distincts. Etc. Il y a beaucoup de choses intéressantes à voir - vous pouvez simplement continuer à les regarder.
gung - Rétablir Monica
8

Voici deux exemples de mon expérience (chimiométrie, spectroscopie optique / vibrationnelle / Raman):

  • J'ai récemment eu des données de spectroscopie optique, où> 99% de la variance totale des données brutes était due à des changements de la lumière de fond (projecteur plus ou moins intense sur le point mesuré, lampes fluorescentes allumées / éteintes, plus ou moins de nuages ​​avant le soleil). Après correction d'arrière-plan avec les spectres optiques des facteurs d'influence connus (extraits par PCA sur les données brutes; mesures supplémentaires prises afin de couvrir ces variations), l'effet qui nous intéressait s'est manifesté dans les PC 4 et 5.
    PC 1 et 3 où en raison d'autres effets dans l'échantillon mesuré, et PC 2 est en corrélation avec l'échauffement de la pointe de l'instrument pendant les mesures.

  • Dans une autre mesure, une lentille sans correction de couleur pour la gamme spectrale mesurée a été utilisée. L'aberration chromatique conduit à des distorsions dans les spectres qui expliquent ca. 90% de la variance totale des données prétraitées (capturées principalement dans le PC 1).
    Pour ces données, il nous a fallu un certain temps pour réaliser ce qui s'était exactement passé, mais le passage à un meilleur objectif a résolu le problème pour des expériences ultérieures.

(Je ne peux pas montrer les détails car ces études sont encore inédites)

cbeleites soutient Monica
la source
3

J'ai remarqué que les PC à faible variance sont plus utiles lors de l'exécution d'une ACP sur une matrice de covariance où les données sous-jacentes sont regroupées ou regroupées d'une manière ou d'une autre. Si l'un des groupes a une variance moyenne sensiblement plus faible que les autres groupes, alors les plus petits PC seraient dominés par ce groupe. Cependant, vous pourriez avoir une raison de ne pas vouloir jeter les résultats de ce groupe.

En finance, les rendements boursiers ont un écart-type annuel d'environ 15 à 25%. Les variations des rendements obligataires sont historiquement un écart-type beaucoup plus faible. Si vous effectuez l'ACP sur la matrice de covariance des rendements boursiers et des variations des rendements obligataires, les PC supérieurs refléteront tous la variance des actions et les plus petits reflèteront les variances des obligations. Si vous jetez les PC qui expliquent les liens, vous pourriez avoir des ennuis. Par exemple, les obligations peuvent avoir des caractéristiques de distribution très différentes de celles des actions (queues plus minces, différentes propriétés de variance variant dans le temps, réversion moyenne différente, cointégration, etc.). Celles-ci peuvent être très importantes à modéliser, selon les circonstances.

Si vous effectuez l'ACP sur la matrice de corrélation, vous pouvez voir davantage de PC expliquer les liaisons près du sommet.

John
la source
Cette réponse est très difficile à comprendre si l'on ne sait pas ce que sont les actions, les obligations, les rendements et les rendements. Je ne sais pas, et donc je ne vois pas comment votre première phrase est liée à votre deuxième ...
amibe dit Reinstate Monica
1
J'ai fait quelques modifications.
John
1

Dans cette présentation ( diapositives ), les présentateurs discutent de leur utilisation de l'ACP pour faire la distinction entre les caractéristiques à forte variabilité et à faible variabilité.

Ils préfèrent en fait les caractéristiques de faible variabilité pour la détection des anomalies, car un changement significatif dans une dimension de faible variabilité est un indicateur fort d'un comportement anormal. L'exemple de motivation qu'ils fournissent est le suivant:

Supposons qu'un utilisateur se connecte toujours à partir d'un Mac. La dimension "système d'exploitation" de leur activité serait très peu variée. Mais si nous voyions un événement de connexion de ce même utilisateur où le "système d'exploitation" était Windows, ce serait très intéressant, et quelque chose que nous aimerions attraper.

turtlemonvh
la source