Quel est le point de décomposition en valeurs singulières?

9

Je ne comprends pas pourquoi la réduction de dimension est importante. Quel est l'avantage de prendre certaines données et de réduire leur dimension?

whuber
la source
3
Le ton de la question n'invite pas à des réponses constructives. Veuillez envisager de reformuler votre question.
Sasha
2
Le but peut être de réduire le volume de données nécessaires pour stocker certaines informations au détriment d'une légère perte de précision (par exemple la compression d'image JPEG).
Sasha
2
Merci pour vos commentaires, @Sasha. C'est une question raisonnable, j'ai donc fait une modification mineure pour éviter l'impression d'imprécision (sûrement involontaire) véhiculée par le libellé d'origine.
whuber
Voir stats.stackexchange.com/questions/177102/… pour un exemple!
kjetil b halvorsen
Vous faites SVD pour la modélisation de sujet qui n'est PAS probabiliste. Pour la modélisation de sujet qui est probabiliste, utilisez LDA. Si vous ne faites PAS de modélisation de sujet, utilisez PCA.
Brad

Réponses:

18

La décomposition en valeurs singulières (SVD) ne revient pas à réduire la dimensionnalité des données. C'est une méthode de décomposition d'une matrice en d'autres matrices qui a beaucoup de propriétés merveilleuses dans lesquelles je n'entrerai pas ici. Pour en savoir plus sur SVD, consultez la page Wikipedia .

Réduire la dimensionnalité de vos données est parfois très utile. Il se peut que vous ayez beaucoup plus de variables que d'observations; ce n'est pas rare dans le travail génomique. Il se peut que nous ayons plusieurs variables qui sont très fortement corrélées, par exemple, lorsqu'elles sont fortement influencées par un petit nombre de facteurs sous-jacents, et nous souhaitons retrouver une approximation des facteurs sous-jacents. Les techniques de réduction de dimensionnalité telles que l'analyse des composants principaux, la mise à l'échelle multidimensionnelle et l'analyse canonique des variables nous donnent un aperçu des relations entre les observations et / ou les variables que nous ne pourrions peut-être pas obtenir autrement.

Un exemple concret: il y a quelques années, j'analysais une enquête de satisfaction des employés qui contenait plus de 100 questions. Eh bien, aucun gestionnaire ne pourra jamais regarder plus de 100 questions valant des réponses, même résumées, et faire plus que deviner ce que cela signifie, car qui peut dire comment les réponses sont liées et ce qui les motive, vraiment ? J'ai effectué une analyse factorielle des données, pour laquelle j'avais plus de 10 000 observations, et j'ai trouvé cinq facteurs très clairs et facilement interprétables qui pourraient être utilisés pour développer des scores spécifiques au manager (un pour chaque facteur) qui résumeraient l'intégralité des l'enquête de plus de 100 questions. Une bien meilleure solution que le vidage de feuille de calcul Excel qui avait été la méthode antérieure de rapport des résultats!

jbowman
la source
Une méthode appelée "SVD mince" est utilisée pour réduire la dimensionnalité. Voir Wikipedia sur SVD.
cyborg
5

En ce qui concerne votre deuxième point de la question, les avantages de la réduction de la dimensionnalité pour un ensemble de données peuvent être:

  • réduire l'espace de stockage nécessaire
  • accélérer le calcul (par exemple dans les algorithmes d'apprentissage automatique), moins de dimensions signifient les calculs, aussi moins de dimensions peuvent permettre l'utilisation d'algorithmes impropres à un grand nombre de dimensions
  • supprimer les fonctionnalités redondantes, par exemple inutile de stocker la taille d'un terrain en mètres carrés et en miles carrés (peut-être que la collecte de données était défectueuse)
  • la réduction de la dimension d'une donnée en 2D ou en 3D peut nous permettre de la représenter et de la visualiser, peut-être d'observer des modèles, de nous donner un aperçu

En dehors de cela, au-delà de PCA, SVD a de nombreuses applications dans le traitement des signaux, la PNL et bien d'autres

clyfe
la source
2

Jetez un oeil à ma réponse . La décomposition en valeurs singulières est un élément clé de l' analyse des composants principaux , qui est une technique d'analyse de données très utile et très puissante.

Il est souvent utilisé dans les algorithmes de reconnaissance faciale, et je l'utilise fréquemment dans mon travail de jour en tant qu'analyste de hedge funds.

Chris Taylor
la source
1
Les procédures SVD et PCA (bien que liées) ne sont-elles pas différentes?
B_Miner
2
Tu as raison. SVD est une méthode pour obtenir une solution au problème PCA.
bayerj
1
@B_Miner Oui - c'est pourquoi j'ai dit que svd est un composant clé de pca. Je me suis concentré sur pca parce que la question concerne la réduction de dimension (pour laquelle pca est approprié, et svd ne l'est pas)
Chris Taylor
Peut-être le mot choix du composant a-t-il temporairement rejeté @B_Miner. :)
Cardinal