J'ai la moyenne 74,10 et l'écart type 33,44 pour un échantillon qui a un minimum de 0 et un maximum de 94,33.
Mon professeur me demande comment peut signifier plus un écart-type dépasser le maximum.
Je lui ai montré de nombreux exemples à ce sujet, mais elle ne comprend pas. J'ai besoin d'une référence pour lui montrer. Il peut s'agir de n'importe quel chapitre ou paragraphe d'un livre de statistiques qui en parle particulièrement.
standard-deviation
mean
references
bounds
maximum
Boyun Omuru
la source
la source
Réponses:
Certes, la moyenne plus un sd peut dépasser la plus grande observation.
Considérez l'échantillon 1, 5, 5, 5 -
il a une moyenne de 4 et un écart-type de 2, donc la moyenne + sd est de 6, une de plus que le maximum de l'échantillon. Voici le calcul dans R:
C'est un phénomène courant. Cela a tendance à se produire quand il y a un tas de valeurs élevées et une queue vers la gauche (c'est-à-dire quand il y a une forte asymétrie gauche et un pic près du maximum).
-
La même possibilité s'applique aux distributions de probabilité, pas seulement aux échantillons - la moyenne de la population plus la population sd peut facilement dépasser la valeur maximale possible.
Voici un exemple de densité, qui a une valeur maximale possible de 1:beta(10,12)
Dans ce cas, nous pouvons consulter la page Wikipedia pour la distribution bêta, qui indique que la moyenne est:
et la variance est:
(Bien que nous n'ayons pas besoin de compter sur Wikipedia, car ils sont assez faciles à dériver.)
Donc pour et β = 1α=10 nous avons une moyenne≈0,9523et sd≈0,0628, donc une moyenne + sd≈1,0152, plus que le maximum possible de 1.β=12 ≈0.9523 ≈0.0628 ≈1.0152
Autrement dit, il est facilement possible d'avoir une valeur de moyenne + sd qui ne peut pas être observée en tant que valeur de données .
-
Pour toute situation où le mode était au maximum, l' asymétrie du mode Pearson n'a besoin que d'être pour que la moyenne + sd dépasse le maximum. Cela peut prendre n'importe quelle valeur, positive ou négative, donc nous pouvons voir que c'est facilement possible.<−1
-
Un problème étroitement lié est souvent observé avec les intervalles de confiance pour une proportion binomiale , où un intervalle couramment utilisé, l' intervalle d'approximation normal peut produire des limites en dehors de .[0,1]
Par exemple, considérons un intervalle d'approximation normal de 95,4% pour la proportion de la population des succès dans les essais de Bernoulli (les résultats sont 1 ou 0 représentant respectivement les événements de réussite et d'échec), où 3 des 4 observations sont " " et une observation est " 0 ".1 0
Ensuite , la limite supérieure de l'intervalle est p + 2 × √p^+2×14p^(1−p^)−−−−−−−−−√=p^+p^(1−p^)−−−−−−−√=0.75+0.433=1.183
C'est juste la moyenne de l'échantillon + l'estimation habituelle du sd pour le binôme ... et produit une valeur impossible.
L'échantillon habituel sd pour 0,1,1,1 est de 0,5 au lieu de 0,433 (elles diffèrent parce que l'estimation ML binomial de l'écart type p ( 1 - p ) correspond à diviser la variance par n au lieu de n - 1 ) . Mais cela ne fait aucune différence - dans les deux cas, la moyenne + sd dépasse la plus grande proportion possible.p^(1−p^) n n−1
Ce fait - qu'un intervalle d'approximation normal pour le binôme peut produire des «valeurs impossibles» est souvent noté dans les livres et les articles. Cependant, vous ne traitez pas avec des données binomiales. Néanmoins, le problème - c'est-à-dire + un certain nombre d'écarts types n'est pas une valeur possible - est analogue.
-
Dans votre cas, la valeur inhabituelle "0" dans votre échantillon rend le sd plus grand qu'il ne fait baisser la moyenne, c'est pourquoi la moyenne + sd est élevée.
-
(La question serait plutôt - selon quel raisonnement serait-il impossible? - parce que sans savoir pourquoi quelqu'un penserait qu'il y a un problème, à quoi abordons-nous?)
Logiquement, bien sûr, on démontre que c'est possible en donnant un exemple où cela se produit. Vous l'avez déjà fait. En l’absence de raison expliquant pourquoi il devrait en être autrement, que devez-vous faire?
Si un exemple n'est pas suffisant, quelle preuve serait acceptable?
Cela ne sert à rien de simplement pointer une déclaration dans un livre, car n'importe quel livre peut faire une déclaration par erreur - je les vois tout le temps. Il faut s'appuyer sur une démonstration directe de ce qui est possible, soit une preuve en algèbre (une pourrait être construite à partir de l'exemple bêta ci-dessus par exemple *) ou par un exemple numérique (que vous avez déjà donné), dont chacun peut examiner la vérité par lui-même .
* whuber donne les conditions précises du cas bêta dans les commentaires.
la source
Selon l'inégalité de Chebyshev, moins de k -2 points peuvent être à plus de k écarts-types. Ainsi, pour k = 1, cela signifie que moins de 100% de vos échantillons peuvent être à plus d'un écart-type.
Il est plus intéressant de regarder la limite inférieure. Votre professeur devrait être plus surpris qu'il y ait des points qui sont inférieurs d'environ 2,5 écarts-types à la moyenne. Mais nous savons maintenant que seulement environ 1/6 de vos échantillons peuvent être 0.
la source
la source
Et nous voulons
Équerrez les deux côtés pour obtenir
la source