Notons μ la moyenne ( ≠ moyenne), m la médiane, σ l'écart type et M le mode. Enfin, soit X l’échantillon, réalisation d’une distribution unimodale continue F pour laquelle les deux premiers moments existent.
Il est bien connu que
|μ−m|≤σ(1)
Ceci est un exercice manuel fréquent:
La première égalité provient de la définition de la moyenne, la troisième vient du fait que la médiane est l'unique minimiseur (parmi tous lesc) deE| X-c| et le quatrième de l'inégalité de Jensen (c'est-à-dire la définition d'une fonction convexe). En réalité, cette inégalité peut être resserrée. En fait, pour toutFremplissant les conditions ci-dessus, il peut être montré [3] que
|μ−m|=≤≤=≤=|E(X−m)|E|X−m|E|X−μ|E(X−μ)2−−−−−−−√E(X−μ)2−−−−−−−−−√σ
cE|X−c|F
|m−μ|≤0.6−−−√σ(2)
Même s’il n’est généralement pas vrai ( Abadir, 2005 ) que toute distribution unimodale doit satisfaire l’un ou l’autre des
valeurs suivantes:
on peut encore démontrer
M≤m≤μ or M≥m≥μ
|μ−M|≤3–√σ(3)
est valable pour toute distribution intégrable carrée unimodale (quel que soit le biais). Ceci est prouvé formellement par Johnson et Rogers (1951) bien que la preuve dépend de nombreux lemmes auxiliaires difficiles à ajuster ici. Allez voir le papier original.
Une condition suffisante pour qu'une distribution satisfasse à μ ≤ m ≤ M est donnée dans [2]. Si F :Fμ≤m≤MF
F(m−x)+F( m + x ) ≥1 for all x(4)
puis . De plus, si μ ≠ m , l’inégalité est stricte. Les distributions de Pearson types I à XII sont un exemple de famille de distributions satisfaisant ( 4 ) [4] (par exemple, la distribution de Weibull est une distribution commune pour laquelle ( 4 ) ne correspond pas, voir [5]).μ≤m≤Mμ≠m(4)(4)
Maintenant , en supposant que tient strictement et WLOG que σ = 1 , on a que
3 ( m - μ ) ∈ ( 0 , 3 √(4)σ=1
3(m−μ)∈(0,30.6−−−√] and M−μ∈(m−μ,3–√]
et comme la seconde de ces deux plages n’est pas vide, il est certainement possible de trouver des distributions pour lesquelles l’affirmation est vraie (par exemple, lorsque ) pour une plage de valeurs des paramètres de la distribution, mais ce n'est pas vrai pour toutes les distributions et même pour toutes les distributions satisfaisant(4).0<m−μ<3√3<σ=1(4)
- [0]: Le problème de moment pour les distributions unimodales. NL Johnson et CA Rogers. Les annales des statistiques mathématiques, vol. 22, n ° 3 (septembre 1951), pages 433-439
- [1]: L'inégalité moyenne dans le mode médian: les contre-exemples. Karim M. Abadir Econometric Theory, Vol. 21, n ° 2 (avril 2005), p. 477-482
- [2]: WR van Zwet, Moyenne, médiane, mode II, Statist. Neerlandica, 33 (1979), pages 1-5.
- [3]: La moyenne, la médiane et le mode de distribution unimodale: une caractérisation. S. Basu et A. DasGupta (1997). Théorie Probab. Appl., 41 (2), 210-223.
- [4]: Quelques remarques sur la moyenne, la médiane, le mode et l'asymétrie. Michikazu Sato. Australian Journal of Statistics. Volume 39, numéro 2, pages 219-224, juin 1997
- [5]: PT von Hippel (2005). Moyenne, médiane et biais: correction d'une règle de manuel. Journal of Statistics Education Volume 13, Numéro 2.
Le document chl indique des informations importantes - montrant que ce n’est pas proche d’une règle générale (même pour des variables continues, lisses, "se comportant bien", comme le Weibull). Ainsi, même s’il est souvent vrai, c’est souvent faux.
Alors, d'où vient Pearson? Comment est-il arrivé à cette approximation?
Heureusement, Pearson nous dit à peu près la réponse lui-même.
La première utilisation du terme "biais" dans le sens que nous employons semble être Pearson, 1895 [1] (elle apparaît tout à fait dans le titre). Cet article semble également être l'endroit où il introduit le terme mode (note de bas de page, p345):
Il semble également que ce soit son premier détail réel de son système de courbes de fréquence .
Ainsi, en discutant de l’estimation du paramètre de forme dans la distribution Pearson de type III (ce que nous appellerions maintenant un gamma décalé - et peut-être inversé - gamma), il dit (p375):
Et en effet, si nous examinons le rapport entre (mode moyen) et (moyenne médiane) pour la distribution gamma, nous observons ceci:
(La partie bleue marque la région Pearson dit que l'approximation est raisonnable).
Il existe un bon nombre de distributions bien connues - plusieurs dont Pearson était familier - pour lesquelles elle est proche de la vérité pour une large gamme de valeurs de paramètres; il l'a remarqué avec la distribution gamma, mais aurait eu l'idée confirmée lorsqu'il serait venu examiner plusieurs autres distributions qu'il serait susceptible d'envisager.
[1]: Pearson, K. (1895),
"Contributions à la théorie mathématique de l'évolution, II: Variation asymétrique dans un matériau homogène",
Opérations philosophiques de la Royal Society, série A, 186, 343-414
[ Sans droit d'auteur. Librement disponible ici ]
la source
Cette relation n'a pas été dérivée. Il a été remarqué que les distributions quasi-symétriques se maintiennent approximativement de manière empirique . Voir l’exposé de Yule dans L’introduction à la théorie de la statistique , (1922), p.121, chapitre VII, section 20. Il présente l’exemple empirique.
la source