Quelle est la différence entre les données "Normalisation" et les données "Mise à l'échelle"? Jusqu'à présent, je pensais que les deux termes faisaient référence au même processus, mais je réalise maintenant qu'il y a quelque chose de plus que je ne sais pas / ne comprends pas. De même, s'il existe une différence entre Normalisation et Mise à l'échelle, quand devrions-nous utiliser la normalisation mais pas la Mise à l'échelle et vice versa?
S'il vous plaît élaborer avec un exemple.
Réponses:
Je ne suis pas au courant d'une définition «officielle» et même si elle existe, vous ne devriez pas y faire confiance car vous la verrez être utilisée de manière incohérente dans la pratique.
Ceci étant dit, la mise à l'échelle en statistique signifie généralement une transformation linéaire de la forme .f(x)=ax+b
Normaliser peut signifier soit d'appliquer une transformation de sorte que les données transformées soient approximativement normalement distribuées, mais cela peut aussi simplement signifier de placer différentes variables sur une échelle commune. La normalisation, qui consiste à soustraire la moyenne et à la diviser par l’écart type, est un exemple de l’utilisation ultérieure. Comme vous pouvez le constater, c’est aussi un exemple de mise à l’échelle. Un exemple pour le premier serait de prendre le journal pour les données distribuées lognormales.
Mais ce que vous devriez enlever, c'est que lorsque vous le lisez, vous devriez chercher une description plus précise de ce que l'auteur a fait. Parfois, vous pouvez l'obtenir à partir du contexte.
la source
La mise à l'échelle est un choix personnel pour que les chiffres soient corrects, par exemple entre zéro et un, ou un cent. Par exemple, convertir des données exprimées en millimètres en mètres parce que c'est plus pratique, ou impérial en métriques.
Bien que la normalisation concerne l’adaptation à un «standard» externe - la norme locale - telle que l’élimination de la valeur moyenne et la division par l’écart type de l’échantillon, par exemple pour que vos données triées puissent être comparées à une normale ou à un cumul de Poisson. peu importe.
Donc, si un conférencier ou un responsable veut que les données soient «normalisées», cela signifie «redimensionnez-les à ma façon » ;-)
la source
Je ne sais pas si vous voulez dire exactement cela, mais je vois beaucoup de gens se référer à la normalisation, ce qui signifie normalisation des données. La normalisation est en train de transformer vos données afin qu’elles aient une moyenne de 0 et un écart-type de 1:
Je vois aussi des gens utiliser le terme normalisation pour la mise à l'échelle des données, comme pour transformer vos données en une plage de 0 à 1:
Cela peut être déroutant!
Les deux techniques ont leurs avantages et leurs inconvénients. Lorsque vous redimensionnez un jeu de données avec trop de valeurs éloignées, vos données non aberrantes risquent de se retrouver dans un très petit intervalle. Par conséquent, si votre jeu de données comporte trop de données aberrantes, vous pouvez envisager de le normaliser. Néanmoins, lorsque vous le ferez, vous obtiendrez des données négatives (parfois, vous ne le souhaitez pas) et des données illimitées (vous ne voudrez peut-être pas cela non plus).
la source
Centrer signifie sous-traiter la moyenne de la variable aléatoire à partir des variables. Ie x -xi
Mise à l'échelle signifie diviser une variable par son écart type. C'est-à-dire xi / s
La combinaison des deux s'appelle normalisation ou normalisation. C'est-à-dire x-xi / s
la source