J'ai normalisé mon ensemble de données, puis j'ai exécuté 3 composants PCA pour obtenir de petits ratios de variance expliqués ([0,50, 0,1, 0,05]).
Quand je n'ai pas normalisé mais blanchi mon ensemble de données puis exécuté l'APC à 3 composants, j'ai obtenu des ratios de variance expliqués élevés ([0.86, 0.06,0.01]).
Étant donné que je souhaite conserver autant de données en 3 composants, ne dois-je PAS normaliser les données? D'après ma compréhension, nous devrions toujours normaliser avant l'APC.
En normalisant: mettre la moyenne à 0 et avoir la variance unitaire.
Réponses:
Dépend de l'objectif de votre analyse. Quelques pratiques courantes, dont certaines sont mentionnées dans le lien de whuber:
Exemple intuitif:
Supposons que vous ayez deux variables: la hauteur d'un arbre et la circonférence du même arbre. Nous convertirons le volume en un facteur: un arbre aura un volume élevé si son volume est supérieur à 20 pieds cubes et un volume faible dans le cas contraire. Nous utiliserons l'ensemble de données d'arbres préchargé dans R.
Supposons maintenant que la hauteur soit réellement mesurée en miles au lieu de pieds.
La première composante explique près de 100% de la variabilité des données. Les chargements:
Évaluation graphique:
Nous voyons que les arbres à volume élevé ont tendance à avoir une circonférence d'arbre élevée, mais les trois hauteurs ne donnent aucune information sur le volume des arbres. C'est probablement faux et la conséquence des deux mesures unitaires différentes.
Nous pourrions utiliser les mêmes unités ou standardiser les variables. Je pense que les deux mèneront à une image plus équilibrée de la variabilité. Bien sûr, dans ce cas, on peut affirmer que les variables devraient avoir la même unité mais ne pas être normalisées, ce qui peut être un argument valable, si nous ne mesurons pas deux choses différentes. (Lorsque nous mesurerions le poids de l'arbre et la circonférence de l'arbre, l'échelle sur laquelle les deux devraient être mesurés n'est plus très claire. Dans ce cas, nous avons un argument clair pour travailler sur les variables normalisées.)
Nous voyons maintenant que les arbres qui sont grands et qui ont une grande circonférence, ont un volume élevé (coin inférieur gauche), par rapport à une circonférence basse et une faible hauteur pour les arbres à faible volume (coin supérieur droit). Cela a un sens intuitif.
Cependant, si l'on regarde attentivement, on voit que le contraste entre le volume haut / bas est le plus fort dans le sens de la circonférence et non dans le sens de la hauteur. Voyons ce qui se passe quand on standardise:
En effet, la circonférence explique désormais la majorité de la différence dans les arbres à volume élevé et faible! (La longueur de la flèche dans le biplot indique la variance de la variable d'origine.) Ainsi, même si les choses sont mesurées à la même échelle, la normalisation peut être utile. Une non standardisation peut être recommandée lorsque nous comparons par exemple la longueur de différentes espèces d'arbres car il s'agit exactement de la même mesure.
la source