Que peut-on conclure sur les données lorsque la moyenne arithmétique est très proche de la moyenne géométrique?

24

Y a-t-il quelque chose d'important dans une moyenne géométrique et une moyenne arithmétique qui se rapprochent très près, disons ~ 0,1%? Quelles conjectures peut-on faire sur un tel ensemble de données?

J'ai travaillé sur l'analyse d'un ensemble de données et je remarque que, ironiquement, les valeurs sont très, très proches. Pas exact, mais proche. En outre, une vérification rapide de la justesse de l'inégalité moyenne arithmétique moyenne-géométrique ainsi qu'un examen de l'acquisition des données révèlent qu'il n'y a rien de compliqué à l'intégrité de mon ensemble de données en termes de comment j'ai trouvé les valeurs.

user12289
la source
6
Petite remarque: vérifiez d'abord que vos données sont toutes positives; un nombre pair de valeurs négatives peut vous laisser un produit positif et certains packages peuvent ne pas signaler le problème potentiel (l'inégalité AM-GM repose sur le fait que les valeurs sont toutes positives). Voir par exemple (en R): (alors que la moyenne arithmétique est 1)x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363
Glen_b -Reinstate Monica
1
Pour développer le point de @ Glen_b, un ensemble de données toujours une moyenne arithmétique et géométrique égale, à savoir zéro. Cependant, nous pouvons répartir les trois valeurs aussi loin que nous le souhaitons. {x,0,x}
hardmath
Les moyennes arithmétiques et géométriques ont la même formule généralisée , donnant la première et donnant la seconde. Il devient alors intuitivement clair que les deux se rapprochent de plus en plus lorsque les valeurs de données sont de plus en plus toutes égales, approchant la constante. p 0 xp=1p0x
ttnphns

Réponses:

29

La moyenne arithmétique est liée à la moyenne géométrique par le biais de l'inégalité Arithmetic-Mean-Geometric-Mean (AMGM) qui stipule que:

x1+x2++xnnx1x2xnn,

où l'égalité est atteinte ssi . Donc, vos points de données sont probablement très proches les uns des autres.x1=x2==xn

Alex R.
la source
4
C'est juste. En règle générale, plus la variance des valeurs est petite, plus les deux moyennes sont proches.
Michael M
16
La variance devrait être faible PAR COMPARAISON avec la taille des observations. C'est donc le coefficient de variation, , qui devrait être petit.σ/μ
Michael Hardy
1
AMGM représente-t-il quelque chose? Si c'est le cas, ce serait bien de le préciser.
Richard Hardy
@RichardHardy: AMGM signifie 'moyenne arithmétique - moyenne géométrique'
1
@ user1108, merci, en fait, je l'ai eu après avoir lu les autres articles. Je pense simplement que cela pourrait être précisé dans la réponse (pas seulement dans les commentaires).
Richard Hardy
15

En élaborant sur la réponse de @Alex R, une façon de voir l'inégalité AMGM est comme un effet d'inégalité de Jensen. Par l'inégalité de Jensen : Prenez ensuite l'exponentielle des deux côtés: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Le côté droit est la moyenne géométrique puisque (X1X2Xn)1/n=exp(1njebûcheXje)

Quand l'inégalité AMGM se maintient-elle avec une quasi-égalité? Lorsque l'effet d'inégalité de Jensen est faible. Ce qui entraîne ici l'effet d'inégalité de Jensen, c'est la concavité, la courbure du logarithme. Si vos données sont réparties sur une zone où le logarithme a une courbure, l'effet sera important. Si vos données sont réparties dans une région où le logarithme est fondamentalement affine, alors l'effet sera faible.

Par exemple, si les données ont peu de variation, sont regroupées dans un voisinage suffisamment petit, le logarithme ressemblera à une fonction affine dans cette région (un thème du calcul est que si vous zoomez suffisamment sur une fonction continue et lisse, cela il ressemblera à une ligne). Pour des données suffisamment rapprochées, la moyenne arithmétique des données sera proche de la moyenne géométrique.

Matthew Gunn
la source
12

Étudions la plage de étant donné que leur moyenne arithmétique (AM) est un petit multiple 1 + δ de leur moyenne géométrique (GM) (avec δ 0 ). Dans la question, δ 0,001 mais nous ne savons pas n .X1X2Xn1+δδ0δ0,001n

Étant donné que le rapport de ces moyennes ne change pas lorsque les unités de mesure sont modifiées, choisissez une unité pour laquelle le GM est . Ainsi, nous cherchons à maximiser x n sous la contrainte que x 1 + x 2 + + x n = n ( 1 + δ ) et x 1x 2x n = 1 .1XnX1+X2++Xn=n(1+δ)X1X2Xn=1

Cela se fera en faisant , disons, et x n = z x . AinsiX1=X2==Xn-1=XXn=zX

n(1+δ)=X1++Xn=(n-1)X+z

et

1=X1X2Xn=Xn-1z.

La solution est une racine entre 0 et 1 deX01

(1-n)Xn+n(1+δ)Xn-1-1.

Il est facilement trouvé de manière itérative. Voici les graphiques des et z optimaux en fonction de δ pour n = 6 , 20 , 50 , 150 , de gauche à droite:Xzδn=6,20,50,150

Figure

Dès que atteint une taille appréciable, même un petit rapport de 1,001 correspond à un grand x n périphérique (les courbes rouges supérieures) et à un groupe de x i étroitement groupés (les courbes bleues inférieures).n1,001XnXje

À l'autre extrême, supposons que est pair (pour simplifier). La plage minimale est atteinte lorsque la moitié de x i est égale à une valeur x 1 et l'autre moitié à une autre valeur z 1 . Maintenant, la solution (qui est facilement vérifiable) estn=2kXjeX1z1

Xk=1+δ±δ2+2δ.

Pour les minuscules , nous pouvons ignorer le δ 2 comme approximation et également approcher la k ème racine au premier ordre, donnantδδ2ke

X1+δ-2δk; z1+δ+2δk.

La plage est d'environ .32δ/n

nδ

Xje

whuber
la source
n=150,δ=0,002,X0.9954,z1,983,k=75X0,99918,z1.00087
n=150X149z=1149X+z=150(1,002)=150,3X=0.995416z=1,98308
z1+δ+2δk=1+0,002+2×0,002751.00087X
Xz75X+75z150,3X75z751