Valeur qui augmente l'écart type

12

Je suis perplexe devant la déclaration suivante:

"Afin d'augmenter l'écart-type d'un ensemble de nombres, vous devez ajouter une valeur qui est plus d'un écart-type de la moyenne"

Quelle est la preuve de cela? Je sais bien sûr comment nous définissons l'écart type, mais cette partie me semble d'une certaine manière manquer. Des commentaires?

standard-deviation JohnK
la source

1

Avez-vous essayé de déterminer l'algèbre impliquée?

Alecos Papadopoulos

Oui j'ai. J'ai soustrait la variance d'échantillon de n valeurs de la variance de n + 1 valeurs et j'ai exigé que la différence soit supérieure à zéro. Pourtant, je n'arrive pas à le comprendre.

JohnK

3

L'un des moyens les plus simples consiste à différencier l'algorithme de Welford par rapport à la nouvelle valeur , puis à l'intégrer pour montrer que si l'introduction de augmente la variance, alors où est la moyenne des premières valeurs et est leur estimation de variance.

x_{n}

$x_n$

x_{n}

$x_n$

(x_{n} - {\bar{x}}_{n - 1})^{2} \geq \frac{n}{n - 1} v_{n - 1}

$(x_n-\bar{x}_{n-1})^2 \ge \frac{n}{n-1}v_{n-1}$

{\bar{x}}_{n - 1}

$\bar{x}_{n-1}$

n - 1

$n-1$

v_{n - 1}

$v_{n-1}$

whuber

D'accord, mais cela peut-il être montré avec une simple algèbre? Ma connaissance des statistiques n'est pas très avancée.

JohnK

@JohnK, pouvez-vous s'il vous plaît partager la source du devis?

Pe Dro

20

Pour tout nombre avec moyenne $N$ $y_1,y_2, \ldots, y_N$ , la variance est donnée par $\displaystyle \bar{y} = \frac{1}{N}\sum_{i=1}^N y_i$ Application deà l'ensemble donné denombres que nous considérons par commodité dans l'exposition comme ayant une moyenne, nous avons que

\begin{aligned} σ^{2} & = \frac{1}{N - 1} \sum_{i = 1}^{N} (y_{i} - \bar{y})^{2} \\ = \frac{1}{N - 1} \sum_{i = 1}^{N} (y_{i}^{2} - 2 y_{i} \bar{y} + {\bar{y}}^{2}) \\ = \frac{1}{N - 1} [(\sum_{i = 1}^{N} y_{i}^{2}) - 2 N (\bar{y})^{2} + N (\bar{y})^{2}] \\ (1) & σ^{2} & = \frac{1}{N - 1} \sum_{i = 1}^{N} (y_{i}^{2} - (\bar{y})^{2}) \end{aligned}

$\begin{align} \sigma^2 &= \frac{1}{N-1}\sum_{i=1}^N (y_i-\bar{y})^2\\ &= \frac{1}{N-1}\sum_{i=1}^N \left(y_i^2 - 2y_i\bar{y} + \bar{y}^2\right)\\ &= \frac{1}{N-1}\left[\left(\sum_{i=1}^Ny_i^2\right) - 2N(\bar{y})^2 + N(\bar{y})^2 \right] \\ \sigma^2 &=\frac{1}{N-1}\sum_{i=1}^N \left(y_i^2 - (\bar{y})^2\right) \tag{1} \end{align}$

(1)

$(1)$

n

$n$

x_{1}, x_{2}, \dots x_{n}

$x_1, x_2, \ldots x_n$

\bar{x} = 0

$\bar{x} = 0$

Si nous ajoutons maintenant une nouvelle observation

à cet ensemble de données, alors la nouvelle moyenne de l'ensemble de données est

σ^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i}^{2} - (\bar{x})^{2}) = \frac{1}{n - 1} \sum_{i = 1}^{n} x_{i}^{2}

$\sigma^2 = \frac{1}{n-1}\sum_{i=1}^n \left(x_i^2-(\bar{x})^2\right) = \frac{1}{n-1}\sum_{i=1}^n x_i^2$

x_{n + 1}

$x_{n+1}$

alors que la nouvelle variance est

\frac{1}{n + 1} \sum_{i = 1}^{n + 1} x_{i} = \frac{n \bar{x} + x_{n + 1}}{n + 1} = \frac{x_{n + 1}}{n + 1}

$\frac{1}{n+1}\sum_{i=1}^{n+1}x_i = \frac{n\bar{x} + x_{n+1}}{n+1} = \frac{x_{n+1}}{n+1}$

Alors

doit être plus grand que

\begin{aligned} {\hat{σ}}^{2} & = \frac{1}{n} \sum_{i = 1}^{n + 1} (x_{i}^{2} - \frac{x_{n + 1}^{2}}{(n + 1)^{2}}) \\ = \frac{1}{n} [((n - 1) σ^{2} + x_{n + 1}^{2}) - \frac{x_{n + 1}^{2}}{n + 1}] \\ = \frac{1}{n} [(n - 1) σ^{2} + \frac{n}{n + 1} x_{n + 1}^{2}] \\ > σ^{2} only if x_{n + 1}^{2} > \frac{n + 1}{n} σ^{2} . \end{aligned}

$\begin{align} \hat{\sigma}^2 &= \frac{1}{n}\sum_{i=1}^{n+1} \left(x_i^2-\frac{x_{n+1}^2}{(n+1)^2}\right)\\ &= \frac{1}{n}\left[\left((n-1)\sigma^2 + x_{n+1}^2\right) - \frac{x_{n+1}^2}{n+1}\right]\\ &= \left.\left.\frac{1}{n}\right[(n-1)\sigma^2 + \frac{n}{n+1}x_{n+1}^2\right]\\ &> \sigma^2 ~ \text{only if}~ x_{n+1}^2 > \frac{n+1}{n}\sigma^2. \end{align}$

| x_{n + 1} |

$|x_{n+1}|$

ou, plus généralement,

doit différer deplus de

de la moyenne

de l'ensemble de données d'origine

σ \sqrt{1 + \frac{1}{n}}

$\displaystyle\sigma\sqrt{1+\frac{1}{n}}$

x_{n + 1}

$x_{n+1}$

\bar{x}

$\bar{x}$

, afin que l'ensemble de données augmenté présente une variance plus importante que l'ensemble de données d'origine. Voir aussi la réponse de Ray Koopman qui souligne que la nouvelle variance est supérieure, égale ou inférieure à la variance d'origine selon

diffère de la moyenne de plus, exactement ou moins que

σ \sqrt{1 + \frac{1}{n}}

$\displaystyle\sigma\sqrt{1+\frac{1}{n}}$

x_{n + 1}

$x_{n+1}$

.

σ \sqrt{1 + \frac{1}{n}}

$\displaystyle\sigma\sqrt{1+\frac{1}{n}}$

Dilip Sarwate
la source

5

+1 Enfin, quelqu'un a raison ... ;-) La déclaration à prouver est correcte; ce n'est tout simplement pas serré. Par ailleurs, vous pouvez également choisir vos unités de mesure pour faire

, ce qui simplifie encore le calcul, le réduisant à environ deux lignes.

σ^{2} = 1

$\sigma^2=1$

whuber

Je vous suggère d'utiliser S au lieu de sigma dans le premier ensemble d'équations et merci pour la dérivation. C'était bon à savoir :)

Theoden

3

La déclaration déroutante donne une condition nécessaire mais insuffisante pour que l'écart-type augmente. Si l'ancienne taille d'échantillon est , l'ancienne moyenne est , l'ancien écart-type est et un nouveau point est ajouté aux données, alors le nouvel écart-type sera inférieur, égal ou supérieur à selon comme est inférieur, égal ou supérieur à $n$ $m$ $s$ $x$ $s$ $|x-m|$ . $s\sqrt{1+1/n}$

Ray Koopman
la source

1

Avez-vous une preuve à portée de main?

JohnK

2

En laissant de côté l'algèbre (qui fonctionne aussi), pensez-y de cette façon: l'écart-type est la racine carrée de la variance. La variance est la moyenne des distances au carré de la moyenne. Si nous ajoutons une valeur plus proche de la moyenne que celle-ci, la variance diminuera. Si nous ajoutons une valeur plus éloignée de la moyenne que celle-ci, elle augmentera.

Cela est vrai pour toute moyenne de valeurs non négatives. Si vous ajoutez une valeur supérieure à la moyenne, la moyenne augmente. Si vous ajoutez une valeur inférieure, elle diminue.

Peter Flom - Réintégrer Monica
la source

J'aimerais aussi voir une preuve rigoureuse. Bien que je comprenne le principe, je suis intrigué par le fait que la valeur doit être au moins à 1 écart de la moyenne. Pourquoi précisément 1?

JohnK

Je ne vois pas ce qui prête à confusion. La variance est la moyenne. Si vous ajoutez quelque chose de supérieur à la moyenne (c'est-à-dire plus de 1 sd), cela augmente. Mais je ne suis pas du genre pour les preuves formelles

Peter Flom - Réintègre Monica

Elle pourrait être supérieure à la moyenne de 0,2 écart-type. Pourquoi n'augmenterait-il pas alors?

JohnK

Non, pas plus grand que la moyenne des données, plus grand que la variance, qui est la moyenne des distances au carré.

Peter Flom - Réintégrer Monica

4

C'est déroutant car l'inclusion d'une nouvelle valeur modifie la moyenne, donc tous les résidus changent. Il est concevable que même lorsque la nouvelle valeur est loin de l'ancienne moyenne, sa contribution au SD pourrait être compensée en réduisant la somme des carrés des résidus des autres valeurs. C'est l'une des nombreuses raisons pour lesquelles des preuves rigoureuses sont utiles: elles fournissent non seulement la sécurité de nos connaissances, mais également des informations (et même de nouvelles informations). Par exemple, la preuve montrera que vous devez ajouter une nouvelle valeur qui est strictement plus éloignée d'une SD de la moyenne afin d'augmenter la SD.

whuber

2

Z = \frac{x - μ}{σ} .

$Z = \frac{x-\mu}{\sigma} .$

x

$x$

Z

$Z$

x

$x$

σ = \sqrt{\frac{\sum_{i = 1}^{N} Z_{i}^{2}}{N - 1}}

$\sigma = \sqrt{\frac{\sum_{i=1}^{N}Z_i^2}{N-1}}$

σ

$\sigma$

Z_{N}

$Z_N$

wcampbell
la source

Un nombre dont la valeur absolue est inférieure à 1, au carré, il sera également inférieur à 1 en abs. valeur. Pourtant, ce que je ne comprends pas, c'est que même si Z_N tombe dans cette catégorie, nous ajoutons une valeur positive à σ, alors ne devrait-il pas augmenter?

JohnK

Z_{N + 1}

$Z_{N+1}$

1

N

$N$

σ

$\sigma$

\sum Z_{i}^{2}

$\sum Z_i^2$

Exactement ce que j'essayais d'exprimer!

wcampbell

Z_{i}

$Z_i$

N - 1

$N-1$

Valeur qui augmente l'écart type

Réponses: