Que signifie «normalisation» et comment vérifier qu'un échantillon ou une distribution est normalisé?

18

J'ai une question dans laquelle il demande de vérifier si la distribution uniforme ( Uniform(a,b) ) est normalisée.

  1. D'une part, que signifie la normalisation d'une distribution?
  2. Et deuxièmement, comment procéder pour vérifier si une distribution est normalisée ou non?

Je comprends en calculant

Xmeansd
nous obtenons desdonnéesnormalisées, mais ici, il s'agit de vérifier si unedistributionest normalisée ou non.
Ada
la source
3
Ce que signifie normaliser une distribution n'est pas si simple (et ce n'est généralement pas la distribution elle-même qui est normalisée, mais la variable aléatoire). Par exemple, dans le cas de l'uniforme, certaines personnes peuvent vouloir dire "rééchelonné linéairement pour obtenir un uniforme standard" (c'est-à-dire pour obtenir et b = 1 ) ... tandis qu'une autre personne pourrait vouloir dire "rééchelonné linéairement afin pour obtenir la moyenne 0 et sd 1 ". Pour l'uniforme, je suppose normalement le premier, mais comme vous le voyez dans la réponse ci-dessous, d'autres personnes peuvent penser que cela signifie autre chose. La meilleure option est de demander à la personne qui utilise le terme d'être moins ambiguë. a=0b=1
Glen_b -Reinstate Monica
1
Les termes les plus conventionnels sont standardisés (pour atteindre une moyenne de zéro et SD de un) et normalisés (pour ramener la plage à l'intervalle ou pour redimensionner une norme vectorielle à 1 ). Ainsi la ré-expression X ( X - moyenne ) / S D est une standardisation en multipliant une densité f par une constante C pour faire - C f ( x ) d x =[0,1]1X(Xmean)/SDfC est unenormalisation, carf ( x ) d x est lanorme L 1 de f . Cf(x)dx=1f(x)dxL1f
whuber
Également demandé sur math.SE.
Dilip Sarwate
1
S'il vous plaît ne pas cross-post , @Ada. C'est contraire à la politique de SE. Si vous postez un Q sur 1 site et pensez que vous auriez dû le poster sur un autre, signalez votre Q et demandez aux modérateurs de le migrer pour vous.
gung - Réintégrer Monica

Réponses:

33

Malheureusement, les termes sont utilisés différemment dans différents domaines, par différentes personnes dans le même domaine, etc., donc je ne sais pas dans quelle mesure cela peut être répondu pour vous ici. Vous devez vous assurer que vous connaissez la définition que votre instructeur / le manuel utilise pour «normalisé». Cependant, voici quelques définitions courantes:

Centré: Standardisé: X - moyen

Xmean
normalisé:X-min(X)
Xmeansd
normalisationdans ce sens redimensionne vos données à l'intervalle unitaire. La standardisationtransforme vos données enscoresz, comme le note @Jeff. Et lecentragerend juste la moyenne de vos données égale à0.
Xmin(X)max(X)min(X)
z0

zz

En ce qui concerne la façon dont vous pouvez vérifier ces transformations, cela dépend de ce que l'on entend exactement par cela. S'ils signifient simplement pour vérifier que le code fonctionne correctement, vous pouvez vérifier les moyennes, les SD, les minimums et les maximums.

gung - Réintégrer Monica
la source
1
Φ1(F(X))
4

En utilisant la formule que vous avez fournie pour chaque score de votre échantillon, vous les convertissez tous en z-scores .

01

Le but est de tout mettre en unités par rapport à l'écart type de votre échantillon. Cela peut être utile à diverses fins, comme la comparaison de deux ensembles de données différents qui ont été notés en utilisant des unités différentes (centimètres et pouces, peut-être).

Il est important de ne pas confondre cela avec la question de savoir si une distribution est normale , c'est-à-dire si elle se rapproche d'une distribution gaussienne .

Jeff
la source
donc pour vérifier si la distribution uniforme était normalisée serait-elle équivalente à dire E (X) = 0 et Var (X) = 1 où X ~ Uniform (a, b)?
2
les données ne doivent même pas provenir d'une distribution uniforme, elles peuvent provenir de n'importe quelle distribution. cela n'est également vrai qu'en utilisant la formule que vous avez fournie; les données peuvent être normalisées autrement qu'en utilisant les z-scores. par exemple, les scores de QI seraient normalisés avec un score de 100 et un écart-type de 15.
Jeff
1

Après avoir consulté l'AT, la question était de savoir si, si

f(x)dx=1

f(x)

Ada
la source
2
1
C'est ce qu'on nous demande de vérifier. f (x) n'a pas vraiment besoin d'être un pdf, et il peut s'agir de n'importe quelle fonction non négative. Pour toute fonction non négative où ce qui précède ne satisfait pas, nous pouvons toujours multiplier par une constante de normalisation
Ada
1
f(x)=ex
Il est vrai qu'aucune fonction non négative ne peut la faire satisfaire à la condition ci-dessus même si nous la multiplions par une constante de normalisation.
Ada