Pourquoi transformer les données en journaux avant d'effectuer l'analyse des composants principaux?

16

Im suivant un tutoriel ici: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ pour acquérir une meilleure compréhension de PCA.

Le didacticiel utilise l'ensemble de données Iris et applique une transformation de journal avant PCA:

Notez que dans le code suivant, nous appliquons une transformation de journal aux variables continues comme suggéré par [1] et défini centeret scaleégal à TRUEdans l'appel prcompà normaliser les variables avant l'application de PCA.

Quelqu'un pourrait-il m'expliquer en anglais simple pourquoi vous utilisez d'abord la fonction log sur les quatre premières colonnes du jeu de données Iris. Je comprends que cela a quelque chose à voir avec le fait de rendre les données relatives, mais je suis confus quant à la fonction exacte du journal, du centre et de l'échelle.

La référence [1] ci-dessus est à Venables et Ripley, Statistiques appliquées modernes avec S-PLUS , Section 11.1 qui dit brièvement:

Les données sont des mesures physiques, donc une bonne stratégie initiale consiste à travailler à l'échelle logarithmique. Cela a été fait tout au long.

Marc van der Peet
la source
Connexes: stats.stackexchange.com/questions/319794 .
amibe dit Réintégrer Monica

Réponses:

19

L'ensemble de données sur l'iris est un bel exemple pour apprendre l'ACP. Cela dit, les quatre premières colonnes décrivant la longueur et la largeur des sépales et des pétales ne sont pas un exemple de données fortement asymétriques. Par conséquent, la transformation logarithmique des données ne modifie pas beaucoup les résultats, car la rotation résultante des principaux composants est pratiquement inchangée par la transformation logicielle.

Dans d'autres situations, la transformation du journal est un bon choix.

Nous effectuons l'ACP pour avoir un aperçu de la structure générale d'un ensemble de données. Nous centrons, mettons à l'échelle et parfois transformons par log pour filtrer certains effets triviaux, qui pourraient dominer notre ACP. L'algorithme d'une PCA trouvera à son tour la rotation de chaque PC pour minimiser les résidus au carré, à savoir la somme des distances perpendiculaires au carré de n'importe quel échantillon aux PC. Les grandes valeurs ont généralement un effet de levier élevé.

Imaginez injecter deux nouveaux échantillons dans les données de l'iris. Une fleur avec 430 cm de longueur de pétale et une avec une longueur de pétale de 0,0043 cm. Les deux fleurs sont très anormales étant respectivement 100 fois plus grandes et 1000 fois plus petites que les exemples moyens. L'effet de levier de la première fleur est énorme, de sorte que les premiers PC décriront principalement les différences entre la grande fleur et toute autre fleur. Le regroupement des espèces n'est pas possible en raison de cette valeur aberrante. Si les données sont transformées en journal, la valeur absolue décrit maintenant la variation relative. Maintenant, la petite fleur est la plus anormale. Néanmoins, il est possible à la fois de contenir tous les échantillons dans une seule image et de fournir un regroupement équitable des espèces. Découvrez cet exemple:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

entrez la description de l'image ici

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

entrez la description de l'image ici

Soren Havelund Welling
la source
2
Belle démo et intrigues.
shadowtalker
3

Eh bien, l'autre réponse donne un exemple, lorsque la transformation logarithmique est utilisée pour réduire l'influence des valeurs extrêmes ou des valeurs aberrantes.
Un autre argument général se produit, lorsque vous essayez d'analyser des données qui sont composées de manière multiplicative au lieu d' additif - le modèle PCA et FA par leurs mathématiques de telles compositions additives.Multiplicativeles compositions se produisent dans le cas le plus simple des données physiques comme la surface et le volume des corps (fonctionnellement) en fonction (par exemple) des trois paramètres longueur, largeur, profondeur. On peut reproduire les compositions d'un exemple historique de la première PCA, je pense que cela s'appelle le "problème de la balle de Thurstone (ou" Cubes ")" ou similaire. Une fois, j'avais joué avec les données de cet exemple et constaté que les données transformées en logarithmes donnaient un modèle beaucoup plus agréable et plus clair pour la composition du volume mesuré et des données de surface avec les trois mesures unidimensionnelles.

Outre ces exemples simples, si nous considérons dans les recherches sociales les interactions de données , nous les pensons généralement ainsi que les mesures composées de manière multiplicative d'éléments plus élémentaires. Donc, si nous examinons spécifiquement les interactions, une transformation logarithmique pourrait être un outil particulièrement utile pour obtenir un modèle mathématique pour la décomposition.

Heaumes Gottfried
la source
Pourriez-vous énumérer quelques références qui pourraient mieux expliquer les compositions "multipicatives"? Merci beaucoup!
Amatya
1
@Amatya - Je n'ai pas trouvé le "problème de la boîte à thurstone", mais un pca de discussion de site (allemand) sur les cubes, contenant la largeur, la longueur, la hauteur comme éléments de base et les surfaces et le volume comme éléments supplémentaires combinés de manière multiplicative. Peut-être que les formules incluses pour les définitions sont suffisantes. Voir sgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms
1
Ah, et j'ai oublié - une vieille discussion à propos de ce go.helms-net.de/stat/fa/SGIPT_Quader.htm
Gottfried Helms
@GottfriedHelms Je ne comprends toujours pas vraiment pourquoi si nous normalisons les variables, nous devons également les transformer en journal. Je comprends le principe général de réduction de l'influence indésirable des valeurs extrêmes, mais si nous les normalisons déjà (centrage, mise à l'échelle), il semble que la transformation du journal en plus déforme en fait les données.
Yu Chen
@YuChen - toute transformation logarithmique convertit la composition multiplicativement en composition additive , et la composition additive est l'hypothèse de base (en plus de la linéarité, etc.) de tous les types de composants et d'analyse factorielle. Donc, si vos données ont une composition multiplicative, une transformation de journal devrait être une option à considérer.
Gottfried Helms