Quelle est la différence entre normalisation et normalisation?

118

Au travail, nous en discutions, mon patron n’ayant jamais entendu parler de la normalisation. En algèbre linéaire, la normalisation semble faire référence à la division d'un vecteur par sa longueur. Et en statistique, la normalisation semble faire référence à la soustraction d’une moyenne puis à sa division par son SD. Mais ils semblent également interchangeables avec d’autres possibilités.

Lorsque vous créez une sorte de score universel, cela constitue métriques différentes, qui ont des moyens différents et des SD différents, voudriez-vous normaliser, normaliser ou autre chose? Une personne m'a dit qu'il suffisait de prendre chaque métrique et de la diviser par son SD, individuellement. Puis en sommant les deux. Et cela donnera un score universel qui peut être utilisé pour juger les deux métriques.2

Par exemple, supposons que vous avez le nombre de personnes qui prennent le métro pour aller travailler (à New York) et le nombre de personnes qui conduisent pour aller au travail (à New York).

voiture y

Trainx
Cary

mean(x)mean(y)

mean(x)=8,000,000

mean(y)=800,000

xyxy

Tout article ou chapitre de livre à titre de référence serait très apprécié. MERCI!

Voici également un autre exemple de ce que j'essaie de faire.

Imaginez que vous êtes un doyen d'université et que vous discutez des conditions d'admission. Vous voudrez peut-être des étudiants avec au moins un certain GPA et un certain score au test. Ce serait bien si elles étaient toutes les deux sur la même échelle, car alors vous pourriez simplement additionner les deux et dire "n'importe qui avec au moins 7,0 peut être admis". De cette façon, si un étudiant potentiel a une moyenne pondérée cumulative de 4,0, il pourrait obtenir un score aussi bas que 3,0 et rester admis. Inversement, si une personne avait une moyenne cumulative de 3,0, elle pourrait toujours être admise avec un score de 4.0.

Mais ce n'est pas comme ça. L'ACT est sur une échelle de 36 points et la plupart des GPA sont sur 4.0 (certains sont de 4,3, oui ennuyeux). Étant donné que je ne peux pas simplement ajouter un ACT et un GPA pour obtenir une sorte de score universel, comment puis-je les transformer afin qu'ils puissent être ajoutés, créant ainsi un score d'admission universel? Et puis en tant que doyen, je pouvais accepter automatiquement toute personne ayant un score supérieur à un certain seuil. Ou même accepter automatiquement toutes les personnes dont le score se situe dans les 95% supérieurs… ce genre de choses.

Serait-ce la normalisation? standardisation? ou juste en divisant chacun par leur SD puis en sommant?

Chris
la source
4
La dernière partie de la question semble indiquer que vous essayez de créer une évaluation à partir de plusieurs attributs. Pour plus d'informations à ce sujet, voir la question et les réponses à l' adresse stats.stackexchange.com/q/9137 et stats.stackexchange.com/q/9358 . En particulier, notez que ni la normalisation ni la normalisation n’ont de rapport direct avec le problème du doyen.
whuber

Réponses:

65

La normalisation redimensionne les valeurs dans une plage de [0,1]. Cela peut être utile dans certains cas où tous les paramètres doivent avoir la même échelle positive. Cependant, les valeurs aberrantes du jeu de données sont perdues.

Xchanged=XXminXmaxXmin

μσ

Xchanged=Xμσ

Pour la plupart des applications, la normalisation est recommandée.

Vivek Kumar
la source
7
Pourriez-vous s'il vous plaît expliquer pourquoi "les valeurs aberrantes de l'ensemble de données sont perdues" lors de la normalisation des données?
apprenant
3
les valeurs aberrantes dans ce cas de rééchelonnage auraient une incidence sur le résultat et ne seraient pas perdues.
Feras
@learner Imaginez si vous avez [1 2 3 4 5 1000 2 4 5 2000 ...]. La valeur normalisée de 1000 points de données serait réduite car 2000
COLD ICE
3
@COLDICE Je pense que cela dépend de l'algorithme de normalisation que vous utilisez. Par exemple, si vous divisez chaque nombre de votre jeu de données par la valeur maximale (par exemple 2000), il se situera entre 0 et 1, sans que cela affecte les valeurs aberrantes.
Alisson le
3
Je pense que cela n'affecte pas du tout les valeurs aberrantes, sinon cela ne serait pas fait dans les logiciels de détection d'anomalies.
Alisson le
44

Dans le monde des affaires, la "normalisation" signifie généralement que la plage de valeurs est "normalisée de 0,0 à 1,0". "Normalisation" signifie généralement que la plage de valeurs est "normalisée" pour mesurer le nombre d'écarts-types entre la valeur et la moyenne. Cependant, tout le monde ne serait pas d'accord avec cela. Il est préférable d'expliquer vos définitions avant de les utiliser.

Dans tous les cas, votre transformation doit fournir quelque chose d’utile.

Dans votre exemple train / voiture, gagnez-vous quelque chose en sachant combien d’écarts-types par rapport à leur moyenne, chaque valeur réside? Si vous tracez ces mesures "standardisées" les unes contre les autres sous forme de graphique xy, vous pourrez voir une corrélation (voir le premier graphique à droite):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Si oui, cela vous dit-il quelque chose?

En ce qui concerne votre deuxième exemple, si vous voulez "assimiler" un GPA d'une échelle à une autre, qu'est-ce que ces échelles ont en commun? En d'autres termes, comment pourriez-vous transformer ces minimums en équivalents et les maximums en équivalents?

Voici un exemple de "normalisation":

Lien de normalisation

Une fois que vous obtenez vos scores GPA et ACT sous une forme interchangeable, est-il judicieux de peser les scores ACT et GPA différemment? Si oui, quelle pondération vous dit quelque chose?

Modifier 1 (05/03/2011) ======================================= =

Premièrement, je vérifierais les liens suggérés par Whuber ci-dessus. En bout de ligne, dans vos deux problèmes à deux variables, vous allez devoir trouver une "équivalence" d'une variable par rapport à une autre. Et un moyen de différencier une variable de l’autre. En d'autres termes, même si vous pouvez simplifier ceci à une simple relation linéaire, vous aurez besoin de "pondérations" pour différencier une variable de l'autre.

Voici un exemple de problème à deux variables:

Utilitaires multi-attributs

À partir de la dernière page, si vous pouvez dire que le trafic ferroviaire normalisé U1(x)par rapport au trafic automobile normalisé U2(y)est "totalement indépendant", vous pourrez alors vous en tirer avec une équation simple, telle que:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Où k1 = 0,5 signifie que vous êtes indifférent au trafic voiture / train normalisé. Un k1 plus élevé signifierait que le trafic ferroviaire U1(x)est plus important.

Cependant, si ces deux variables ne sont pas "indépendantes de manière additive", vous devrez alors utiliser une équation plus compliquée. Une possibilité est indiquée à la page 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

Dans les deux cas, vous devrez créer un utilitaire U(x, y)qui ait du sens.

Les mêmes concepts généraux de pondération / comparaison valent pour votre problème GPA / ACT. Même s'ils sont "normalisés" plutôt que "normalisés".

Un dernier numéro. Je sais que vous n'allez pas aimer ça, mais la définition du terme "indépendant par additif" se trouve à la page 4 du lien suivant. J'ai cherché une définition moins geek, mais je n'ai pas pu en trouver. Vous pourriez regarder autour de vous pour trouver quelque chose de mieux.

Additivement indépendant

Citer le lien:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Comme suggéré en haut de cette réponse, si vous tracez un trafic train normalisé par rapport à un trafic voiture normalisé sur un graphe xy, vous constaterez peut-être une corrélation. Si tel est le cas, vous vous retrouvez avec l'équation utilitaire non linéaire ci-dessus ou quelque chose de similaire.

bill_080
la source
D'accord. Vous avez raison. Il vaut mieux expliquer mes définitions. Et en y repensant, ce ne sont pas les définitions dont j'ai besoin. Ce dont j'ai besoin, c'est la méthode appropriée pour créer 1 partition universelle. Que ce soit un score d'admission ou un score de trafic. Comment peut-on créer une métrique universelle qui est fonction d'autres variables, qui ont été transformées pour les mettre toutes deux à la même échelle? Et ne vous inquiétez pas des poids. Je comprends que même une simple sommation pondère les métriques 1/1. Mais cela me préoccupe moins pour le moment.
Chris
@Chris, j'ai ajouté ma réponse en tant que modification ci-dessus.
bill_080
2
(+1) Bonne édition. @Chris: vous pourriez être intéressé par les notes d'une courte série de diapositives PowerPoint ici : il s'agit d'une présentation sur le sujet que j'ai donné à des personnes non techniques. Je le mentionne car il contient des illustrations et des indications sur la manière de "créer une métrique universelle".
whuber
Le lien Utilitaires multi-attributs est mort, l'article peut être trouvé ici web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/…
mgilbert Le
6

La réponse est simple, mais vous n’allez pas l’aimer: ça dépend. Si vous accordez la même valeur à 1 écart-type des deux scores, la standardisation est la solution (remarque: vous êtes en train d' étudier , car vous divisez par une estimation de l'écart-type de la population).

Dans le cas contraire, il est probable que la normalisation constituera une bonne première étape. Vous pourrez ensuite donner plus de poids à l’un des scores en le multipliant par un facteur bien choisi.

Nick Sabbe
la source
Donc, vous dites au moins commencer par ce que je décris comme étant la normalisation (studentizing), puis ajuster les poids pour correspondre au mieux aux données / scénario? Ça a du sens. Je ne comprends tout simplement pas pourquoi je diviserais par le SD. Et lors de mes recherches, j'ai trouvé un élément appelé Différence moyenne standardisée ... et je viens de me perdre. Il semble que cela devrait être simple. Vous pouvez soit les mettre tous les deux sur l'échelle A, soit l'un sur la même échelle que l'autre, puis résumer. Mais non. Au lieu de cela, je suis confus et tout le wiki est sorti pour le moment.
Chris
0

Pour résoudre le problème GPA / ACT ou train / voiture, pourquoi ne pas utiliser la moyenne géométrique ?

n√ (a1 × a2 × ... × an)

a*est la valeur de la distribution et nest l'indice de la distribution.

Cette moyenne géométrique garantit que chaque valeur, malgré son échelle, contribue également à la valeur moyenne. Voir plus sur Moyenne géométrique

LingxB
la source
3
Je ne pense pas que la moyenne géométrique conviendrait aux situations décrites par le PO.
gung
1
Je suis d'accord avec gung. La moyenne géométrique n'est pas une solution à ce problème.
Ferdi
La moyenne géométrique empêchera la réduction de la contribution des nombres plus petits. Par conséquent, cela peut constituer une alternative à la normalisation ou à la normalisation lorsque des échelles inégales doivent être combinées.
rnso
0

Dans mon domaine, la science des données, la normalisation est une transformation de données qui permet une comparaison facile des données en aval. Il existe de nombreux types de normalisations. La mise à l'échelle est l'un d'entre eux. Vous pouvez également enregistrer les données ou faire tout ce que vous voulez. Le type de normalisation que vous utilisez dépend du résultat souhaité, car toutes les normalisations transforment les données en quelque chose d'autre.

Voici certains de ce que je considère comme des exemples de normalisation. Normalisation d' échelle Normalisation quantile

yevishere
la source