Im suivant un tutoriel ici: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ pour acquérir une meilleure compréhension de PCA.
Le didacticiel utilise l'ensemble de données Iris et applique une transformation de journal avant PCA:
Notez que dans le code suivant, nous appliquons une transformation de journal aux variables continues comme suggéré par [1] et défini
center
etscale
égal àTRUE
dans l'appelprcomp
à normaliser les variables avant l'application de PCA.
Quelqu'un pourrait-il m'expliquer en anglais simple pourquoi vous utilisez d'abord la fonction log sur les quatre premières colonnes du jeu de données Iris. Je comprends que cela a quelque chose à voir avec le fait de rendre les données relatives, mais je suis confus quant à la fonction exacte du journal, du centre et de l'échelle.
La référence [1] ci-dessus est à Venables et Ripley, Statistiques appliquées modernes avec S-PLUS , Section 11.1 qui dit brièvement:
Les données sont des mesures physiques, donc une bonne stratégie initiale consiste à travailler à l'échelle logarithmique. Cela a été fait tout au long.
la source
Réponses:
L'ensemble de données sur l'iris est un bel exemple pour apprendre l'ACP. Cela dit, les quatre premières colonnes décrivant la longueur et la largeur des sépales et des pétales ne sont pas un exemple de données fortement asymétriques. Par conséquent, la transformation logarithmique des données ne modifie pas beaucoup les résultats, car la rotation résultante des principaux composants est pratiquement inchangée par la transformation logicielle.
Dans d'autres situations, la transformation du journal est un bon choix.
Nous effectuons l'ACP pour avoir un aperçu de la structure générale d'un ensemble de données. Nous centrons, mettons à l'échelle et parfois transformons par log pour filtrer certains effets triviaux, qui pourraient dominer notre ACP. L'algorithme d'une PCA trouvera à son tour la rotation de chaque PC pour minimiser les résidus au carré, à savoir la somme des distances perpendiculaires au carré de n'importe quel échantillon aux PC. Les grandes valeurs ont généralement un effet de levier élevé.
Imaginez injecter deux nouveaux échantillons dans les données de l'iris. Une fleur avec 430 cm de longueur de pétale et une avec une longueur de pétale de 0,0043 cm. Les deux fleurs sont très anormales étant respectivement 100 fois plus grandes et 1000 fois plus petites que les exemples moyens. L'effet de levier de la première fleur est énorme, de sorte que les premiers PC décriront principalement les différences entre la grande fleur et toute autre fleur. Le regroupement des espèces n'est pas possible en raison de cette valeur aberrante. Si les données sont transformées en journal, la valeur absolue décrit maintenant la variation relative. Maintenant, la petite fleur est la plus anormale. Néanmoins, il est possible à la fois de contenir tous les échantillons dans une seule image et de fournir un regroupement équitable des espèces. Découvrez cet exemple:
la source
Eh bien, l'autre réponse donne un exemple, lorsque la transformation logarithmique est utilisée pour réduire l'influence des valeurs extrêmes ou des valeurs aberrantes.
Un autre argument général se produit, lorsque vous essayez d'analyser des données qui sont composées de manière multiplicative au lieu d' additif - le modèle PCA et FA par leurs mathématiques de telles compositions additives.Multiplicativeles compositions se produisent dans le cas le plus simple des données physiques comme la surface et le volume des corps (fonctionnellement) en fonction (par exemple) des trois paramètres longueur, largeur, profondeur. On peut reproduire les compositions d'un exemple historique de la première PCA, je pense que cela s'appelle le "problème de la balle de Thurstone (ou" Cubes ")" ou similaire. Une fois, j'avais joué avec les données de cet exemple et constaté que les données transformées en logarithmes donnaient un modèle beaucoup plus agréable et plus clair pour la composition du volume mesuré et des données de surface avec les trois mesures unidimensionnelles.
Outre ces exemples simples, si nous considérons dans les recherches sociales les interactions de données , nous les pensons généralement ainsi que les mesures composées de manière multiplicative d'éléments plus élémentaires. Donc, si nous examinons spécifiquement les interactions, une transformation logarithmique pourrait être un outil particulièrement utile pour obtenir un modèle mathématique pour la décomposition.
la source