Normalement, dans l'analyse en composantes principales (ACP), les premiers PC sont utilisés et les PC à faible variance sont abandonnés, car ils n'expliquent pas beaucoup la variation des données.
Cependant, existe-t-il des exemples où les PC à faible variation sont utiles (c'est-à-dire qu'ils ont une utilisation dans le contexte des données, ont une explication intuitive, etc.) et ne devraient pas être jetés?
Réponses:
Voici un extrait intéressant de Jolliffe (1982) que je n'ai pas inclus dans ma réponse précédente à la question très similaire, " Les composants à faible variance dans PCA, sont-ils vraiment juste du bruit? Y a-t-il un moyen de le tester? " Je trouve c'est assez intuitif.
Les trois exemples tirés de la littérature mentionnés dans la dernière phrase du deuxième paragraphe sont les trois que j'ai mentionnés dans ma réponse à la question liée .
Référence
Jolliffe, IT (1982). Remarque sur l'utilisation des principaux composants dans la régression. Statistiques appliquées, 31 (3), 300–303. Extrait de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
la source
Si vous avez R, il y a un bon exemple dans les
crabs
données du package MASS.Plus de 98% de la variance est "expliquée" par les deux premiers PC, mais en fait, si vous aviez effectivement collecté ces mesures et les étudiiez, le troisième PC est très intéressant, car il est étroitement lié à l'espèce du crabe. Mais il est submergé par PC1 (qui semble correspondre à la taille du crabe) et PC2 (qui semble correspondre au sexe du crabe.)
la source
Voici deux exemples de mon expérience (chimiométrie, spectroscopie optique / vibrationnelle / Raman):
J'ai récemment eu des données de spectroscopie optique, où> 99% de la variance totale des données brutes était due à des changements de la lumière de fond (projecteur plus ou moins intense sur le point mesuré, lampes fluorescentes allumées / éteintes, plus ou moins de nuages avant le soleil). Après correction d'arrière-plan avec les spectres optiques des facteurs d'influence connus (extraits par PCA sur les données brutes; mesures supplémentaires prises afin de couvrir ces variations), l'effet qui nous intéressait s'est manifesté dans les PC 4 et 5.
PC 1 et 3 où en raison d'autres effets dans l'échantillon mesuré, et PC 2 est en corrélation avec l'échauffement de la pointe de l'instrument pendant les mesures.
Dans une autre mesure, une lentille sans correction de couleur pour la gamme spectrale mesurée a été utilisée. L'aberration chromatique conduit à des distorsions dans les spectres qui expliquent ca. 90% de la variance totale des données prétraitées (capturées principalement dans le PC 1).
Pour ces données, il nous a fallu un certain temps pour réaliser ce qui s'était exactement passé, mais le passage à un meilleur objectif a résolu le problème pour des expériences ultérieures.
(Je ne peux pas montrer les détails car ces études sont encore inédites)
la source
J'ai remarqué que les PC à faible variance sont plus utiles lors de l'exécution d'une ACP sur une matrice de covariance où les données sous-jacentes sont regroupées ou regroupées d'une manière ou d'une autre. Si l'un des groupes a une variance moyenne sensiblement plus faible que les autres groupes, alors les plus petits PC seraient dominés par ce groupe. Cependant, vous pourriez avoir une raison de ne pas vouloir jeter les résultats de ce groupe.
En finance, les rendements boursiers ont un écart-type annuel d'environ 15 à 25%. Les variations des rendements obligataires sont historiquement un écart-type beaucoup plus faible. Si vous effectuez l'ACP sur la matrice de covariance des rendements boursiers et des variations des rendements obligataires, les PC supérieurs refléteront tous la variance des actions et les plus petits reflèteront les variances des obligations. Si vous jetez les PC qui expliquent les liens, vous pourriez avoir des ennuis. Par exemple, les obligations peuvent avoir des caractéristiques de distribution très différentes de celles des actions (queues plus minces, différentes propriétés de variance variant dans le temps, réversion moyenne différente, cointégration, etc.). Celles-ci peuvent être très importantes à modéliser, selon les circonstances.
Si vous effectuez l'ACP sur la matrice de corrélation, vous pouvez voir davantage de PC expliquer les liaisons près du sommet.
la source
Dans cette présentation ( diapositives ), les présentateurs discutent de leur utilisation de l'ACP pour faire la distinction entre les caractéristiques à forte variabilité et à faible variabilité.
Ils préfèrent en fait les caractéristiques de faible variabilité pour la détection des anomalies, car un changement significatif dans une dimension de faible variabilité est un indicateur fort d'un comportement anormal. L'exemple de motivation qu'ils fournissent est le suivant:
la source