Est-ce que plus un écart-type peut dépasser la valeur maximale?

19

J'ai la moyenne 74,10 et l'écart type 33,44 pour un échantillon qui a un minimum de 0 et un maximum de 94,33.

Mon professeur me demande comment peut signifier plus un écart-type dépasser le maximum.

Je lui ai montré de nombreux exemples à ce sujet, mais elle ne comprend pas. J'ai besoin d'une référence pour lui montrer. Il peut s'agir de n'importe quel chapitre ou paragraphe d'un livre de statistiques qui en parle particulièrement.

Boyun Omuru
la source
Pourquoi voulez-vous ajouter (ou soustraire) un écart-type à la moyenne? Le SD est une mesure de la diffusion des données. Vouliez-vous plutôt l'erreur-type de la moyenne?
Rétablir Monica - G. Simpson
Je ne veux pas ajouter ou soustraire, celui qui veut ceci est mon professeur. C'est ainsi qu'elle comprend la déviation standard
Boyun Omuru
5
Un exemple intéressant est l'échantillon (0,01,0,02,0,98,0,99). La moyenne plus l'écart-type et la moyenne moins l'écart-type se situent en dehors de [0,1].
Glen_b -Reinstate Monica
Peut-être qu'elle pense juste à une distribution normale?
user765195

Réponses:

28

Certes, la moyenne plus un sd peut dépasser la plus grande observation.

Considérez l'échantillon 1, 5, 5, 5 -

il a une moyenne de 4 et un écart-type de 2, donc la moyenne + sd est de 6, une de plus que le maximum de l'échantillon. Voici le calcul dans R:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

C'est un phénomène courant. Cela a tendance à se produire quand il y a un tas de valeurs élevées et une queue vers la gauche (c'est-à-dire quand il y a une forte asymétrie gauche et un pic près du maximum).

-

La même possibilité s'applique aux distributions de probabilité, pas seulement aux échantillons - la moyenne de la population plus la population sd peut facilement dépasser la valeur maximale possible.

Voici un exemple de densité, qui a une valeur maximale possible de 1:beta(10,12)

entrez la description de l'image ici

Dans ce cas, nous pouvons consulter la page Wikipedia pour la distribution bêta, qui indique que la moyenne est:

E[X]=αα+β

et la variance est:

var[X]=αβ(α+β)2(α+β+1)

(Bien que nous n'ayons pas besoin de compter sur Wikipedia, car ils sont assez faciles à dériver.)

Donc pour et β = 1α=10 nous avons une moyenne0,9523et sd0,0628, donc une moyenne + sd1,0152, plus que le maximum possible de 1.β=120.95230.06281.0152

Autrement dit, il est facilement possible d'avoir une valeur de moyenne + sd qui ne peut pas être observée en tant que valeur de données .

-

Pour toute situation où le mode était au maximum, l' asymétrie du mode Pearson n'a besoin que d'être pour que la moyenne + sd dépasse le maximum. Cela peut prendre n'importe quelle valeur, positive ou négative, donc nous pouvons voir que c'est facilement possible.<1

-

Un problème étroitement lié est souvent observé avec les intervalles de confiance pour une proportion binomiale , où un intervalle couramment utilisé, l' intervalle d'approximation normal peut produire des limites en dehors de .[0,1]

Par exemple, considérons un intervalle d'approximation normal de 95,4% pour la proportion de la population des succès dans les essais de Bernoulli (les résultats sont 1 ou 0 représentant respectivement les événements de réussite et d'échec), où 3 des 4 observations sont " " et une observation est " 0 ".10

Ensuite , la limite supérieure de l'intervalle est p + 2 × p^+2×14p^(1p^)=p^+p^(1p^)=0.75+0.433=1.183

C'est juste la moyenne de l'échantillon + l'estimation habituelle du sd pour le binôme ... et produit une valeur impossible.

L'échantillon habituel sd pour 0,1,1,1 est de 0,5 au lieu de 0,433 (elles diffèrent parce que l'estimation ML binomial de l'écart type p ( 1 - p ) correspond à diviser la variance par n au lieu de n - 1 ) . Mais cela ne fait aucune différence - dans les deux cas, la moyenne + sd dépasse la plus grande proportion possible.p^(1p^)nn1

Ce fait - qu'un intervalle d'approximation normal pour le binôme peut produire des «valeurs impossibles» est souvent noté dans les livres et les articles. Cependant, vous ne traitez pas avec des données binomiales. Néanmoins, le problème - c'est-à-dire + un certain nombre d'écarts types n'est pas une valeur possible - est analogue.

-

Dans votre cas, la valeur inhabituelle "0" dans votre échantillon rend le sd plus grand qu'il ne fait baisser la moyenne, c'est pourquoi la moyenne + sd est élevée.

entrez la description de l'image ici

-

(La question serait plutôt - selon quel raisonnement serait-il impossible? - parce que sans savoir pourquoi quelqu'un penserait qu'il y a un problème, à quoi abordons-nous?)

Logiquement, bien sûr, on démontre que c'est possible en donnant un exemple où cela se produit. Vous l'avez déjà fait. En l’absence de raison expliquant pourquoi il devrait en être autrement, que devez-vous faire?

Si un exemple n'est pas suffisant, quelle preuve serait acceptable?

Cela ne sert à rien de simplement pointer une déclaration dans un livre, car n'importe quel livre peut faire une déclaration par erreur - je les vois tout le temps. Il faut s'appuyer sur une démonstration directe de ce qui est possible, soit une preuve en algèbre (une pourrait être construite à partir de l'exemple bêta ci-dessus par exemple *) ou par un exemple numérique (que vous avez déjà donné), dont chacun peut examiner la vérité par lui-même .

* whuber donne les conditions précises du cas bêta dans les commentaires.

Glen_b -Reinstate Monica
la source
5
0<β<1α>β(1+β)/(1β)(α,β)1
Je m'explique davantage. Je recherche le pourcentage de précision d'un appareil particulier utilisé pour la correction des dents. Et cet appareil a effectué le pourcentage de précision pour 7 dents comme suit:% 76,19,% 77,41,% 94,33,% 91,06,% 0,% 87,77,% 91,96. Mon professeur ajoute une déviation standard pour signifier et déclare que le résultat ne peut pas dépasser la valeur maximale, même% 100 car% 100 est le pourcentage de précision maximum que appliancek peut effectuer.
Boyun Omuru
2
Elle a raison qu'un pourcentage> 100% n'a aucun sens dans votre situation. Le problème est en fait la prémisse non déclarée selon laquelle l'ajout d'un sd à la moyenne devrait avoir un sens dans ce contexte, quand ce n'est pas le cas . C'est là que je crois que votre difficulté vient. Si nous comprenions d'où venait la prémisse, cela pourrait conduire à une meilleure résolution. Il est possible que le simple fait soit énoncé quelque part dans un livre (c'est une observation banale, donc il est possible que ce ne soit pas non plus), mais je doute qu'il soit mis de manière à la satisfaire, car sa fausse la prémisse est la source du problème.
Glen_b -Reinstate Monica
1
En effet - mon point mineur est que cette curiosité est le résultat de ce que les écarts-types représentent pour les distributions fortement non symétriques plutôt que le résultat de la prise d'un échantillon. Mais en général, je pense que votre réponse est excellente
Henry
2
@tomka J'ai essayé d'aider de nombreux étudiants dans une position similaire. J'ai finalement appris la règle de base (sans surprise) selon laquelle il est effectivement impossible d'enseigner quoi que ce soit à un superviseur par l'intermédiaire de son élève.
Glen_b -Reinstate Monica
4

Selon l'inégalité de Chebyshev, moins de k -2 points peuvent être à plus de k écarts-types. Ainsi, pour k = 1, cela signifie que moins de 100% de vos échantillons peuvent être à plus d'un écart-type.

Il est plus intéressant de regarder la limite inférieure. Votre professeur devrait être plus surpris qu'il y ait des points qui sont inférieurs d'environ 2,5 écarts-types à la moyenne. Mais nous savons maintenant que seulement environ 1/6 de vos échantillons peuvent être 0.

MSalters
la source
3

σσ

Snives
la source
5
Ceci est une belle contribution. Je ne suis pas sûr que le SD "assume" vraiment une distribution normale, cependant.
gung - Réintègre Monica
3
L '«ajustement de distribution» et la recherche d'une transformation vers la normalité sont des procédures distinctes ayant des objectifs différents.
whuber
2

X10<p<101p

E(X)=p,SE(X)=p(1p)

Et nous voulons

E(X)+SE(X)>1p+p(1p)>1

p(1p)>(1p)

Équerrez les deux côtés pour obtenir

p(1p)>(1p)2p>1pp>12

p>1/2E(X)+SE(X)>maxX

p=0.71

U(a,b)E(U)+SE(U)<maxU=b

Alecos Papadopoulos
la source