Comment additionner deux variables à différentes échelles?

9

Si j'ai deux variables suivant deux distributions différentes et ayant des écarts-types différents ... Comment dois-je transformer deux variables pour que lorsque je résume, les deux résultats ne soient pas "induits" par des plus volatils.

Par exemple ... La variable A est moins volatile que la variable B (de 0 à 3000) et la variable B va de l'avant. 300 à 350.

Si vous ajoutez simplement les deux variables ensemble, le résultat sera évidemment déterminé par A.

user333
la source

Réponses:

14

Une pratique courante consiste à normaliser les deux variables, , pour les placer sur la même échelle en soustrayant la moyenne de l'échantillon et en la divisant par l'écart-type de l'échantillon. Une fois que vous avez fait cela, les deux variables seront sur la même échelle dans le sens où elles ont chacune une moyenne d'échantillon de 0 et un écart-type d'échantillon de 1. Ainsi, elles peuvent être ajoutées sans qu'une variable ait une influence indue simplement en raison de échelle.A,B

Autrement dit, calculer

AA¯SD(A),  BB¯SD(B)

où indique la moyenne de l'échantillon et l'écart-type de , et de même pour B. Les versions normalisées des variables sont interprétées comme le nombre d'écarts-types au-dessus / en dessous de la moyenne a observation particulière est. A¯,SD(A)A

Macro
la source
1
cela fonctionnera-t-il si les variables ne sont pas normalement distribuées?
user333
1
la normalisation n'a rien à voir avec la distribution normale - c'est simplement un moyen de mettre les variables sur la même échelle. Donc oui.
Macro
Si je divise par sd et que je ne soustrais pas la moyenne ... j'obtiendrai les mêmes volatilités, mais des plages différentes non?
user333
Oui - si vous ne les mettez à l'échelle (divisez par les écarts-types), ils se retrouvent tous les deux avec la même variance, mais leur moyenne et leur plage seront différentes.
Macro
@Macro Et si je n'ai pas de données mais uniquement des données séquentielles pour les variables. Ainsi, la somme de deux variables agit plus comme un score. Je crois qu'il y a de mauvaises implications telles que des scores très tôt dans la séquence. Connaissez-vous une autre façon?
Tintinthong