Relation empirique entre moyenne, médiane et mode

40

Pour une distribution unimodale qui est modérément biaisée, nous avons la relation empirique suivante entre la moyenne, la médiane et le mode:

(Mean - Mode)3(Mean - Median)
Comment cette relation a-t-elle été dérivée?

Karl Pearson a-t-il tracé des milliers de ces relations avant de tirer cette conclusion, ou existe-t-il un raisonnement logique derrière cette relation?

Sara
la source

Réponses:

29

Notons μ la moyenne ( moyenne), m la médiane, σ l'écart type et M le mode. Enfin, soit X l’échantillon, réalisation d’une distribution unimodale continue F pour laquelle les deux premiers moments existent.

Il est bien connu que

(1)|μm|σ

Ceci est un exercice manuel fréquent:

La première égalité provient de la définition de la moyenne, la troisième vient du fait que la médiane est l'unique minimiseur (parmi tous lesc) deE| X-c| et le quatrième de l'inégalité de Jensen (c'est-à-dire la définition d'une fonction convexe). En réalité, cette inégalité peut être resserrée. En fait, pour toutFremplissant les conditions ci-dessus, il peut être montré [3] que

|μm|=|E(Xm)|E|Xm|E|Xμ|=E(Xμ)2E(Xμ)2=σ
cE|Xc|F

(2)|mμ|0.6σ

Même s’il n’est généralement pas vrai ( Abadir, 2005 ) que toute distribution unimodale doit satisfaire l’un ou l’autre des valeurs suivantes: on peut encore démontrer

Mmμ or Mmμ

(3)|μM|3σ

est valable pour toute distribution intégrable carrée unimodale (quel que soit le biais). Ceci est prouvé formellement par Johnson et Rogers (1951) bien que la preuve dépend de nombreux lemmes auxiliaires difficiles à ajuster ici. Allez voir le papier original.


Une condition suffisante pour qu'une distribution satisfasse à μ m M est donnée dans [2]. Si F :FμmMF

(4)F(mx)+F(m+X)1 pour tous X

puis . De plus, si μ m , l’inégalité est stricte. Les distributions de Pearson types I à XII sont un exemple de famille de distributions satisfaisant ( 4 ) [4] (par exemple, la distribution de Weibull est une distribution commune pour laquelle ( 4 ) ne correspond pas, voir [5]).μmMμm(4)(4)

Maintenant , en supposant que tient strictement et WLOG que σ = 1 , on a que 3 ( m - μ ) ( 0 , 3 (4)σ=1

3(mμ)(0,30.6] and Mμ(mμ,3]

et comme la seconde de ces deux plages n’est pas vide, il est certainement possible de trouver des distributions pour lesquelles l’affirmation est vraie (par exemple, lorsque ) pour une plage de valeurs des paramètres de la distribution, mais ce n'est pas vrai pour toutes les distributions et même pour toutes les distributions satisfaisant(4).0<mμ<33<σ=1(4)

  • [0]: Le problème de moment pour les distributions unimodales. NL Johnson et CA Rogers. Les annales des statistiques mathématiques, vol. 22, n ° 3 (septembre 1951), pages 433-439
  • [1]: L'inégalité moyenne dans le mode médian: les contre-exemples. Karim M. Abadir Econometric Theory, Vol. 21, n ° 2 (avril 2005), p. 477-482
  • [2]: WR van Zwet, Moyenne, médiane, mode II, Statist. Neerlandica, 33 (1979), pages 1-5.
  • [3]: La moyenne, la médiane et le mode de distribution unimodale: une caractérisation. S. Basu et A. DasGupta (1997). Théorie Probab. Appl., 41 (2), 210-223.
  • [4]: Quelques remarques sur la moyenne, la médiane, le mode et l'asymétrie. Michikazu Sato. Australian Journal of Statistics. Volume 39, numéro 2, pages 219-224, juin 1997
  • [5]: PT von Hippel (2005). Moyenne, médiane et biais: correction d'une règle de manuel. Journal of Statistics Education Volume 13, Numéro 2.
utilisateur603
la source
Je suis désolé, je ne suis qu'un étudiant en première année en mathématiques. Pourriez-vous fournir / recommander un lien / livre / article décrivant comment la relation a été établie?
Sara
3
@Sara Je pense que cela remonte à Karl Pearson, qui utilise cette relation empirique pour son "asymétrie de mode Pearson". En dehors de cela, vous pouvez trouver cet article en ligne intéressant, j.mp/aWymCv .
chl
Merci chl et kwak pour le lien et la réponse que vous avez fournie. Je vais les étudier.
Sara
2
Divers points: est réduit au minimum lorsque k est la valeur médiane de X . L'article de Von Hippel (lié ci-dessus par chl) traite des exceptions et btinternet.com/~se16/hgb/median.htm montre la relation possible entre la moyenne, la médiane, le mode et l'écart type, à la fois pour des distributions continues et discrètes. Le 3 peut en effet prendre n'importe quelle valeur: positive, négative, nulle ou infinie. E|Xk|kX
Henry
1
Il se peut que je sois un peu dense (ce ne serait pas la première fois). Pouvez-vous préciser comment découle de (1) et (3)? |Mμ|3|μm|
Glen_b -Reinstate Monica
9

Le document chl indique des informations importantes - montrant que ce n’est pas proche d’une règle générale (même pour des variables continues, lisses, "se comportant bien", comme le Weibull). Ainsi, même s’il est souvent vrai, c’est souvent faux.

Alors, d'où vient Pearson? Comment est-il arrivé à cette approximation?

Heureusement, Pearson nous dit à peu près la réponse lui-même.

La première utilisation du terme "biais" dans le sens que nous employons semble être Pearson, 1895 [1] (elle apparaît tout à fait dans le titre). Cet article semble également être l'endroit où il introduit le terme mode (note de bas de page, p345):

J'ai trouvé pratique d'utiliser le terme mode pour l'abscisse correspondant à l'ordonnée de fréquence maximale. Le "moyen", le "mode" et la "médiane" ont tous des caractères distincts importants pour le statisticien.

Il semble également que ce soit son premier détail réel de son système de courbes de fréquence .

Ainsi, en discutant de l’estimation du paramètre de forme dans la distribution Pearson de type III (ce que nous appellerions maintenant un gamma décalé - et peut-être inversé - gamma), il dit (p375):

p

>1

x

Et en effet, si nous examinons le rapport entre (mode moyen) et (moyenne médiane) pour la distribution gamma, nous observons ceci:

entrez la description de l'image ici

(La partie bleue marque la région Pearson dit que l'approximation est raisonnable).

αβ

entrez la description de l'image ici

βα=kβααβααββ+α=cβ+ααβ

α>10

entrez la description de l'image ici

eμσ2,eμeμ+σ2/2

eμeσ2/2eσ2eσ2/21σ232σ212σ2σ2

Il existe un bon nombre de distributions bien connues - plusieurs dont Pearson était familier - pour lesquelles elle est proche de la vérité pour une large gamme de valeurs de paramètres; il l'a remarqué avec la distribution gamma, mais aurait eu l'idée confirmée lorsqu'il serait venu examiner plusieurs autres distributions qu'il serait susceptible d'envisager.

[1]: Pearson, K. (1895),
"Contributions à la théorie mathématique de l'évolution, II: Variation asymétrique dans un matériau homogène",
Opérations philosophiques de la Royal Society, série A, 186, 343-414
[ Sans droit d'auteur. Librement disponible ici ]

Glen_b -Reinstate Monica
la source
4

Cette relation n'a pas été dérivée. Il a été remarqué que les distributions quasi-symétriques se maintiennent approximativement de manière empirique . Voir l’exposé de Yule dans L’introduction à la théorie de la statistique , (1922), p.121, chapitre VII, section 20. Il présente l’exemple empirique.

Aksakal
la source
+1 En effet, ma citation de Pearson 1895 indique que c'est quelque chose qu'il a remarqué plutôt que dérivé.
Glen_b -Reinstate Monica
2
Les vieux textes de maths sont tellement plus amusants à lire que l'écriture d'aujourd'hui
Aksakal