L'analyse des composants principaux élimine le bruit dans les données

L'analyse en composantes principales (ACP) élimine-t-elle le bruit dans l'ensemble de données? Si l'ACP n'élimine pas le bruit dans l'ensemble de données, que fait réellement l'ACP à l'ensemble de données? Quelqu'un peut-il m'aider à ce sujet.

machine-learning neural-networks pca noise bbadyalina
la source

Non, cela n'élimine pas le "bruit" (dans le sens où les données bruyantes resteront bruyantes). L'ACP n'est qu'une transformation des données. Chaque composante PCA représente une combinaison linéaire de prédicteurs. Et les PCA peuvent être classés par leur valeur propre: au sens large, plus la valeur propre est grande, plus la variance est couverte. Par conséquent, la transformation sans perte serait lorsque vous avez autant de PC que de dimensions. Maintenant, lorsque vous ne considérez que certains PC avec une grande Ev, vous négligez les composants qui ajoutent peu à la variance dans les données (mais ce n'est pas du "bruit").

Drey

Comme @Drey l'a déjà noté, les composants à faible variance n'ont pas besoin d'être du bruit. Vous pouvez également avoir du bruit comme composante à forte variance.

Richard Hardy

Merci. En fait, j'ai fait ce que @Drey mentionne dans son commentaire, ce qui j'élimine les PC avec de petits Ev que je pensais auparavant que c'était du bruit à l'intérieur de l'ensemble de données. Donc, si je veux continuer à éliminer les PC avec un petit Ev, et à l'utiliser comme entrée pour le modèle de régression et à améliorer les performances du modèle de régression. Puis-je dire que PCA a rendu les données faciles à interpréter et a rendu les prévisions plus précises.

bbadyalina

@Richard Hardy si l'ACP ne dérive pas du bruit des données, comment la transformation linéaire améliore-t-elle l'ensemble de données? Je suis en quelque sorte confus à ce sujet, car il y a beaucoup de chercheurs utilisant un hybride PCA avec un modèle de série chronologique qui améliore les performances de prédiction par rapport au modèle de série chronologique conventionnel. Merci pour votre réponse.

bbadyalina

Ni les données ne sont «faciles» (il s'agit d'une combinaison linéaire de caractéristiques) ni faciles à interpréter (interprétation des coefficients dans le modèle de régression). Mais vos prévisions peuvent devenir plus précises. Plus encore, votre modèle peut bien se généraliser.

Drey

L'analyse en composantes principales (ACP) est utilisée pour a) réduire le bruit et b) réduire la dimensionnalité.

Il n'élimine pas le bruit, mais il peut réduire le bruit.

Fondamentalement, une transformation linéaire orthogonale est utilisée pour trouver une projection de toutes les données dans k dimensions, alors que ces k dimensions sont celles de la variance la plus élevée. Les vecteurs propres de la matrice de covariance (de l'ensemble de données) sont les dimensions cibles et ils peuvent être classés en fonction de leurs valeurs propres. Une valeur propre élevée signifie une variance élevée expliquée par la dimension de vecteur propre associée.

Jetons un coup d'œil à l' ensemble de données usps , obtenu en scannant des chiffres manuscrits à partir d'enveloppes par le US Postal Service.

Premièrement, nous calculons les vecteurs propres et les valeurs propres de la matrice de covariance et nous traçons toutes les valeurs propres en ordre décroissant. Nous pouvons voir qu'il existe quelques valeurs propres qui pourraient être nommées composants principaux, car leurs valeurs propres sont beaucoup plus élevées que les autres.

Chaque vecteur propre est une combinaison linéaire de dimensions originales . Par conséquent, le vecteur propre (dans ce cas) est une image elle-même, qui peut être tracée.

Pour b) la réduction de la dimensionnalité, nous pourrions maintenant utiliser les cinq premiers vecteurs propres et projeter toutes les données (à l'origine une image 16 * 16 pixels) dans un espace à 5 dimensions avec le moins de perte de variance possible.

(Remarque ici: dans certains cas, la réduction de la dimensionnalité non linéaire (comme LLE) peut être meilleure que PCA, voir wikipedia pour des exemples)

Enfin, nous pouvons utiliser PCA pour le débruitage. Par conséquent, nous pouvons ajouter du bruit supplémentaire à l'ensemble de données d'origine en trois niveaux (faible, élevé, aberrant) pour pouvoir comparer les performances. Dans ce cas, j'ai utilisé du bruit gaussien avec une moyenne de zéro et une variance comme multiple de la variance d'origine (facteur 1 (faible), facteur 2 (élevé), facteur 20 (valeur aberrante)) .Un résultat possible ressemble à ceci. Pourtant, dans chaque cas, le paramètre k doit être réglé pour trouver un bon résultat.

Enfin, une autre perspective consiste à comparer les valeurs propres des données très bruyantes avec les données originales (comparer avec la première image de cette réponse). Vous pouvez voir que le bruit affecte toutes les valeurs propres, donc en utilisant uniquement les 25 premières valeurs propres pour le débruitage, l'influence du bruit est réduite.

Nikolas Rieble
la source

ce ne sont que des chiffres avez-vous essayé de leur trouver le SNR

Boris

Non, je viens d'utiliser ces chiffres pour illustrer le lien entre la réduction du bruit et l'ACP pour un exemple d'ensemble de données. Vous êtes invités à écrire une réponse qui ajoute une nouvelle perspective.

Nikolas Rieble

Salut Nikolas, ta réponse est géniale, +1. Je viens de poster une question sur l'échange de pile mathématique, je me demandais si vous pouviez aider à y répondre? Principalement, je ne comprends pas POURQUOI les vecteurs propres de la matrice de covariance de l'ensemble de données d'origine se révèlent être les directions de la plus grande variance, et donc nous voulons projeter sur eux ... ici, je relie la question: les mathématiques. stackexchange.com/questions/3213775/… Merci!

joshuaronis

L'analyse des composants principaux élimine le bruit dans les données

Réponses: