Je lisais la justification suivante (à partir des notes de cours cs229) sur la raison pour laquelle nous divisons les données brutes par son écart type:
même si je comprends ce que dit l'explication, il n'est pas clair pour moi pourquoi la division par l'écart-type permettrait d'atteindre un tel objectif. Il dit que tout le monde est plus sur la même "échelle". Cependant, il n'est pas tout à fait clair pourquoi la division par l'écart-type y parvient. Comme quoi de mal à diviser par la variance? Pourquoi pas une autre quantité? Comme ... la somme des valeurs absolues? ou une autre norme ... Y a-t-il une justification mathématique pour choisir la MST?
Les affirmations contenues dans cet extrait sont-elles un énoncé théorique qui peut être dérivé / prouvé par le biais des mathématiques (et / ou des statistiques) ou s'agit-il davantage d'un énoncé que nous faisons parce qu'il semble fonctionner dans la «pratique»?
Fondamentalement, peut-on fournir soit une explication mathématique rigoureuse de la raison pour laquelle cette intuition est vraie? Ou si c'est juste une observation empirique, pourquoi pensons-nous que cela fonctionne en général avant de faire l'ACP?
De plus, dans le contexte de l'ACP, s'agit-il du processus de normalisation ou de normalisation?
Quelques autres pensées que j'ai eues qui pourraient "expliquer" pourquoi la MST:
Étant donné que l'ACP peut être dérivée de la maximisation de la variance, j'ai deviné que la division par une quantité liée telle que la MST, pourrait être l'une des raisons pour lesquelles nous avons divisé par la MST. Mais alors j'ai considéré que peut-être si nous définissions peut-être une "variance" avec toute autre norme, , alors nous diviserions par la MST de cette norme (en prenant la racine pth ou quelque chose). Cependant, c'était juste une supposition et je ne suis pas à 100% à ce sujet, d'où la question. Je me demandais si quelqu'un savait quoi que ce soit à ce sujet.
J'ai vu qu'il y avait peut-être une question connexe:
ACP sur la corrélation ou la covariance?
mais il semblait parler davantage du moment d'utiliser la "corrélation" ou la "covariance" mais manquait de justifications rigoureuses ou convaincantes ou détaillées, ce qui m'intéresse principalement.
Pareil pour:
Pourquoi devons-nous normaliser les données avant l'analyse
en relation:
la source
Réponses:
Il s'agit d'une réponse partielle à "il n'est pas clair pour moi pourquoi la division par l'écart-type permettrait d'atteindre un tel objectif". En particulier, pourquoi il place les données transformées (standardisées) sur la "même échelle". La question fait allusion à des problèmes plus profonds (quoi d'autre aurait pu "fonctionner", qui est lié à ce que "travaillé" pourrait même signifier, mathématiquement?), Mais il semblait judicieux de traiter au moins les aspects les plus simples de la raison pour laquelle cette procédure "fonctionne". - c'est-à-dire, réalise les revendications faites pour cela dans le texte.
Le résultat est qu'une méthode qui fonctionne sur la matrice de covariance des données normalisées, utilise essentiellement la matrice de corrélation des données d'origine. Pour lequel vous préférez utiliser sur PCA, voir PCA sur la corrélation ou la covariance?
la source
Donc: la normalisation (centrage moyen + mise à l'échelle par écart-type) est logique si vous considérez la distribution normale standard comme sensible pour vos données.
D'autres quantités sont utilisées pour l' échelle données, mais la procédure n'est appelée standardisation que si elle utilise le centrage moyen et la division par écart-type. La mise à l'échelle est le terme générique.
Par exemple, je travaille avec des données spectroscopiques et je sais que mon détecteur a une sensibilité dépendante de la longueur d'onde et un biais (électronique). Ainsi, j'étalonne en soustrayant le signal de décalage (vierge) et en multipliant (divisant) par un facteur d'étalonnage.
De plus, je me concentre peut-être non pas sur la moyenne, mais plutôt sur une autre valeur de référence, comme la moyenne d'un groupe témoin au lieu de la grande moyenne. (Personnellement, je ne standardise presque jamais car mes variables ont déjà la même unité physique et sont dans le même ordre de grandeur)
Voir aussi: Les variables sont souvent ajustées (par exemple normalisées) avant de créer un modèle - quand est-ce une bonne idée et quand est-elle mauvaise?
la source
Ce lien répond clairement à votre question, je suppose: http://sebastianraschka.com/Articles/2014_about_feature_scaling.html
Je cite un petit morceau:
la source