La médiane est-elle un type de moyenne, pour une généralisation de la «moyenne»?

20

Le concept de «moyenne» se déplace beaucoup plus loin que la moyenne arithmétique traditionnelle; s'étend-elle jusqu'à inclure la médiane? Par analogie,

raw dataidraw datameanraw meanid1arithmetic meanraw datarecipreciprocalsmeanmean reciprocalrecip1harmonic meanraw dataloglogsmeanmean loglog1geometric meanraw datasquaresquaresmeanmean squaresquare1root mean squareraw datarankranksmeanmean rankrank1median

L'analogie que je fais est celle de la moyenne quasi-arithmétique , donnée par:

Mf(x1,,xn)=f1(1ni=1nf(xi))

À titre de comparaison, lorsque nous disons que la médiane d'un ensemble de données à cinq éléments est égale au troisième élément, nous pouvons voir que cela équivaut à classer les données de un à cinq (ce que nous pourrions désigner par une fonction f ); prendre la moyenne des données transformées (qui est trois); et relire la valeur de l'élément de données qui avait le rang trois (une sorte de f1 ).

Dans les exemples de moyenne géométrique, moyenne harmonique et RMS, f était une fonction fixe qui peut être appliquée à n'importe quel nombre de manière isolée. En revanche, soit pour attribuer un rang, soit pour revenir des rangs aux données d'origine (interpoler si nécessaire) nécessite la connaissance de l'ensemble des données. De plus, dans les définitions que j'ai lues de la moyenne quasi-arithmétique, f doit être continu. La médiane est-elle jamais considérée comme un cas particulier de moyenne quasi-arithmétique, et si oui, comment définit- on le f ? Ou la médiane est-elle jamais décrite comme un exemple d'une autre notion plus large de «moyenne»? La moyenne quasi-arithmétique n'est certainement pas la seule généralisation disponible.

Une partie du problème est d'ordre terminologique (que signifie de toute façon "signifier", en particulier par opposition à "tendance centrale" ou "moyenne"?). Par exemple, dans la littérature pour les systèmes de commande flous , une fonction d'agrégation est une fonction croissante avec et ; une fonction d'agrégation pour laquelle pour tout x, y \ dans [a, b] est appelé une "moyenne" (dans un sens général). Une telle définition est, il va sans dire, incroyablement large! Et dans ce contexte, la médiane est en effet désignée comme un type de moyenne. ^ {[1]}F ( a , a ) = a FF:[a,b]×[a,b][a,b]F(a,a)=amin ( x , y ) F ( x , y ) max ( x , y ) x , y [ aF(b,b)=bmin(x,y)F(x,y)max(x,y)[ 1 ]x,y[a,b][1]Mais je suis curieux de savoir si des caractérisations moins larges de la moyenne peuvent encore s'étendre suffisamment pour englober la médiane - la soi-disant moyenne généralisée (qui pourrait mieux être décrite comme la "moyenne de puissance") et la moyenne de Lehmer ne le font pas, mais d'autres peuvent . Pour ce que ça vaut, Wikipedia inclut "médiane" dans sa liste des "autres moyens" , mais sans autre commentaire ou citation.

[1] : Une définition aussi large de la moyenne, convenablement étendue à plus de deux entrées, semble standard dans le domaine du contrôle flou et a été répétée plusieurs fois lors de recherches sur Internet pour des exemples de la médiane décrite comme médiane; Je citerai par exemple Fodor, JC, & Rudas, IJ (2009), " Sur certaines classes de fonctions d'agrégation qui sont migratrices ", IFSA / EUSFLAT Conf. (pp. 653-656). Soit dit en passant, cet article note que l'un des premiers utilisateurs du terme «moyenne» ( moyenne ) était Cauchy , dans le Cours d'analyse de l'École royale polytechnique, 1ère partie; Analyser algébrique (1821). Contributions ultérieures d' Aczél , Chisini ,et de Finetti dans l'élaboration de concepts plus généraux de «moyenne» que Cauchy sont reconnus dans Fodor, J., et Roubens, M. (1995), « Sur la signification des moyens », Journal of Computational and Applied Mathematics , 64 (1), 103-115.

Silverfish
la source
Je pense que la moyenne arithmétique, la médiane et le minerai de mode sont souvent appelés en général «moyens» et le mot est parfois utilisé de manière ambiguë. Le livre How To Lie With Statistics l' utilise comme exemple de "mensonge" avec les statistiques. (Je comprends que votre question est plus générale, alors postez-la en tant que commentaire.)
Tim
@Tim J'ai l'impression non scientifique qu'il est rare de voir "mode" appelé "moyenne". Mais il y a certainement un énorme lien de confusion autour de l'utilisation de «moyenne» (qui est parfois utilisée comme synonyme de «moyenne arithmétique» et d'autres fois comprend des mesures de tendance centrale qui ne sont pas des moyens du tout) et «moyenne» (qui en l'utilisation générale, plutôt que dans le sens technique, est principalement mais pas exclusivement utilisée pour la "moyenne arithmétique"). Soit dit en passant, c'est aussi un sujet difficile pour les recherches sur Internet, en raison des autres significations de "méchant"!
Silverfish
3
les moyens (arithmétique, géométrique, harmonique, motorisé, exponentiel, combinatoire, etc.) sont des "moyennes analytiques". La médiane, les quantiles et les tantiles sont des "moyennes positionnelles". Le classement est très différent du log, du carré, etc., car il s'agit de la transformation monotone de n'importe quelle variée en une variée uniforme et il n'y a pas de chemin inverse pour la non-transformation.
ttnphns
Btw le terme "moyenne généralisée" est préoccupé en.wikipedia.org/wiki/Generalized_mean
ttnphns
3
Si vous autorisez les pondérations dans le calcul , alors la médiane pourrait facilement être considérée comme une sorte de moyenne. De même, mais pas de manière identique, le concept de moyens compensés inclut certainement les médianes comme cas spécial de limitation ou de courtoisie. stata-journal.com/article.html?article=st0313 est une revue assez récente. jewjeXje,jewje=1
Nick Cox

Réponses:

9

Voici une façon de considérer une médiane comme une «sorte générale de moyenne» - tout d'abord, définissez soigneusement votre moyenne arithmétique ordinaire en termes de statistiques d'ordre:

X¯=jewjeX(je),wje=1n.

Ensuite, en remplaçant cette moyenne ordinaire des statistiques d'ordre par une autre fonction de pondération, nous obtenons une notion de «moyenne généralisée» qui rend compte de l'ordre.

Dans ce cas, une multitude de mesures potentielles du centre deviennent des «moyens généralisés». Dans le cas de la médiane, pour impair , et tous les autres sont 0, et pour pair , .w ( n + 1 ) / 2 = 1 n w nnw(n+1)/2=1nwn2=wn2+1=12

De même, si nous regardons l' estimation M , les estimations de localisation pourraient également être considérées comme une généralisation de la moyenne arithmétique (où pour la moyenne, est quadratique, est linéaire ou la fonction de poids est plate), et la médiane tombe également dans cette classe de généralisations. Il s'agit d'une généralisation quelque peu différente de la précédente.ψρψ

Il existe une variété d'autres façons d'étendre la notion de «moyenne» qui pourrait inclure la médiane.

Glen_b -Reinstate Monica
la source
C'est très gentil. Étroitement liée à cette réponse, et qui est discutée dans les articles cités dans la question: la moyenne pondérée ordonnée, ou OWA
Silverfish
11

Si vous considérez la moyenne comme le point minimisant la fonction de perte quadratique SSE, alors la médiane est le point minimisant la fonction de perte linéaire MAD, et le mode est le point minimisant une fonction de perte 0-1. Aucune transformation requise.

La médiane est donc un exemple de moyenne de Fréchet .

Mike Anderson
la source
3
@Mike Anderson: Eh bien, cela montre que les médias sont un moyen Frechet (voir l'article de wikipedia): en.wikipedia.org/wiki/Fr%C3%A9chet_mean
kjetil b halvorsen
@Kjetil Excellent! Le fait que la médiane soit un exemple de moyenne de Fréchet est exactement une réponse à ma question "la médiane est-elle jamais décrite comme un exemple d'une autre notion plus large de" moyenne "?" Et +1 à Mike Anderson. J'espère que ces informations sont éditées dans la réponse.
Silverfish
2
J'ai ajouté le commentaire de @ Kjetil à la réponse afin qu'il apparaisse dans une recherche de site pour "Frechet mean". Merci à vous deux.
Silverfish
4

Une généralisation simple mais fructueuse est la moyenne pondérée , où . Il est clair que la moyenne commune ou jardin est le cas spécial le plus simple avec des poids égaux .n i = 1 w i = 1 w i = 1 / ni=1nwixi/i=1nwi,i=1nwi=1wi=1/n

Laisser les poids dépendre de l'ordre de grandeur, du plus petit au plus grand, pointe vers divers autres cas particuliers, notamment l'idée d'une moyenne ajustée , qui est également connue sous d'autres noms.

Pour éviter une utilisation excessive de la notation là où elle n'est pas nécessaire ou particulièrement utile, imaginez par exemple ignorer les valeurs les plus petites et les plus grandes et prendre la moyenne (également pondérée) des autres. Ou imaginez ignorer les deux plus petits et les deux plus grands et prendre la moyenne des autres; et ainsi de suite. Le découpage le plus vigoureux ignorerait toutes les valeurs sauf une ou deux dans l'ordre, selon que le nombre de valeurs était impair ou pair, ce qui n'est naturellement que la médiane familière . Rien dans l'idée de découpage ne vous engage à ignorer des nombres égaux dans chaque queue d'un échantillon, mais en dire plus sur le découpage asymétrique nous éloignerait davantage de l'idée principale de ce fil.

Bref, les moyennes (non qualifiées) et les médianes sont des cas extrêmement limitatifs de la famille des moyennes (symétriques) équilibrées. L'idée générale est de permettre des compromis entre un idéal d'utilisation de toutes les informations contenues dans les données et un autre idéal de protection contre les points de données extrêmes, qui peuvent être des valeurs aberrantes peu fiables.

Voir la référence ici pour une revue assez récente.

Nick Cox
la source
4

La question nous invite à caractériser le concept de «moyenne» dans un sens suffisamment large pour englober tous les moyens habituels - les moyens de puissance, les moyens , les médianes, les moyens ajustés - mais pas si largement qu'il devient presque inutile pour l'analyse des données. . Cette réponse examine certaines des propriétés axiomatiques que toute définition raisonnablement utile de «moyenne» devrait avoir.Lp


Axiomes de base

Une définition utilement large de la «moyenne» aux fins de l'analyse des données serait toute séquence de fonctions déterministes bien définies pour A R et n = 1 , 2 , … de telle sorte quefn:AnAARn=1,2,

(1) pour tous (une moyenne se situe entre les extrêmes),x = ( x 1 , x 2 , , x n ) A nmin(x)fn(x)max(x)x=(x1,x2,,xn)An

(2) est invariant sous permutations de ses arguments (les moyens ne se soucient pas de l'ordre des données), etfn

(3) chaque ne décroît pas dans chacun de ses arguments (à mesure que les nombres augmentent, leur moyenne ne peut pas diminuer).fn

Nous devons permettre à d'être un sous-ensemble approprié de nombres réels (tels que tous les nombres positifs) parce que de nombreux moyens, tels que des moyens géométriques, sont définis uniquement sur ces sous-ensembles.A

Nous pourrions également ajouter que

(1 ') il existe au moins quelques pour lesquels (les moyennes ne sont pas extrêmes). (Nous ne pouvons pas exiger que cela soit toujours vrai. Par exemple, la médiane de est égale à , ce qui est le minimum.)min ( x ) f n ( x ) max ( xxA( 0 , 0 , , 0 , 1 ) 0min(x)fn(x)max(x)(0,0,,0,1)0

Ces propriétés semblent capturer l'idée derrière une «moyenne» étant une sorte de «valeur moyenne» d'un ensemble de données (non ordonnées).

Axiomes de cohérence

Je suis en outre tenté de préciser le critère de cohérence un peu moins évident

(4.a) La plage de lorsque varie dans l'intervalle comprend . En d'autres termes, il est toujours possible de laisser la moyenne inchangée en attachant une valeur appropriée à un ensemble de données. Conjointement avec (3), cela implique que des valeurs extrêmes adjacentes à un ensemble de données tireront la moyenne vers ces extrêmes.t [ min (fn+1(t,x1,x2,,xn)tf n ( x ) t[min(x),max(x)]fn(x)t

Si nous voulons appliquer le concept de moyenne à une distribution ou "population infinie", alors une façon serait de l'obtenir dans la limite d'échantillons aléatoires arbitrairement grands. Bien sûr, la limite peut ne pas toujours exister (elle n'existe pas pour la moyenne arithmétique lorsque la distribution n'a aucune attente, par exemple). Je ne veux donc pas imposer d'axiomes supplémentaires pour garantir l'existence de telles limites, mais ce qui suit semble naturel et utile:

(4.b) Chaque fois que est borné et est une séquence d'échantillons d'une distribution supportée sur , alors la limite de existe presque sûrement. Cela empêche la moyenne de "rebondir" pour toujours à l'intérieur de même lorsque les tailles d'échantillon deviennent de plus en plus grandes.A FA f n ( x n )AxnFAfn(xn)A

Dans le même ordre d'idées, nous pourrions affiner davantage l'idée d'un moyen pour insister pour qu'il devienne un meilleur estimateur de la «localisation» à mesure que la taille des échantillons augmente:

(4.c) Chaque fois que est borné, la variance de la distribution d'échantillonnage de pour un échantillon aléatoire de ne décroît pas en .f n ( X ( n ) ) X ( n )Afn(X(n))F nX(n)=(X1,X2,,Xn)Fn

Axiome de continuité

Nous pourrions envisager de demander des moyens de varier "agréablement" avec les données:

(5) est continu séparément dans chaque argument (un petit changement dans les valeurs des données ne devrait pas induire un saut soudain de leur moyenne).fn

Cette exigence peut éliminer certaines généralisations étranges, mais elle n'exclut aucun moyen bien connu. Cela exclura certaines fonctions d'agrégation.

Un axiome d'invariance

Nous pouvons concevoir les moyens comme s'appliquant à des données d' intervalle ou de rapport (au sens bien connu de Stevens). Nous ne pouvons pas exiger qu’elles soient invariantes lors de changements de position (la moyenne géométrique ne l’est pas), mais nous pouvons exiger

(6) pour tous et tous pour lesquels . Cela dit seulement que nous sommes libres de calculer utilisant toutes les unités de mesure que nous aimons.xAfn(λx)=λfn(x)xAnλ>0λxAnfn

Tous les moyens mentionnés dans la question satisfont à cet axiome à l'exception de certaines fonctions d'agrégation.


Discussion

Les fonctions d'agrégation générales , telles que décrites dans la question, ne satisfont pas nécessairement les axiomes (1 '), (2), (3), (5) ou (6). Le fait qu'ils satisfassent des axiomes de cohérence peut dépendre de la façon dont ils sont étendus à .f2n>2

La médiane habituelle de l'échantillon jouit de toutes ces propriétés axiomatiques.

Nous pourrions augmenter les axiomes de cohérence pour inclure

(4.d) pour tous lesf2n(x;x)=fn(x)xAn.

Cela implique que lorsque tous les éléments d'un ensemble de données sont répétés également souvent, la moyenne ne change pas. Cela peut être trop fort, cependant: la moyenne Winsored n'a pas cette propriété (sauf asymptotiquement). Le but de la winsorisation au niveau est de fournir une résistance contre les changements d' au moins des données dans les deux extrêmes. Par exemple, la moyenne de 10% Winsored de est la moyenne arithmétique de , égale à , mais la moyenne de 10% Winsored de est de .100 α % ( 1 , 2 , 3 , 6 ) ( 2 , 2 , 3 , 3 ) 2,5 ( 1 , 1 , 2 , 2 , 3 , 3 , 6 , 6 ) 3,5100α% 100α%(1,2,3,6)(2,2,3,3)2.5(1,1,2,2,3,3,6,6)3,5

Je ne sais pas lequel des axiomes de cohérence (4.a), (4.b) ou (4.c) serait le plus souhaitable ou utile. Ils semblent indépendants: je ne pense pas que deux d'entre eux impliquent le troisième.

whuber
la source
(+1) Je pense que (1 '), "les moyens ne sont pas des extrêmes", est un point intéressant. De nombreuses définitions naturelles de autrement moyenne se passent pour inclure le minimum et maximum comme des cas particuliers ou limitation: cela est vrai des moyens de puissance , des moyens Lehmer , Fréchet moyenne , Chisini moyenne et moyenne Stolarsky . Bien qu'il semble un peu étrange de les qualifier de "moyens"!
Silverfish
Oui, les cas limites sont inévitables. Mais pour les ensembles de données finis, nous pourrions vouloir insister sur le fait que ni le max ni le min ne peuvent être qualifiés de «moyens».
whuber
D'un autre côté, non seulement il est vrai que "la médiane habituelle de l'échantillon jouit de toutes ces propriétés axiomatiques", mais il en est de même du quantile habituel de l'échantillon (sauf si j'ai oublié quelque chose). Il semble également un peu étrange de se référer, par exemple, au quartile supérieur en tant que "moyenne" (même si je l'ai vu utilisé comme mesure de la tendance centrale sur des données très biaisées). Si nous acceptons tous les autres quantiles, il ne semble plus aussi pervers d'admettre des minima et des maxima. Mais je peux certainement voir qu'il peut être souhaitable de conserver au moins le droit de les exclure.
Silverfish
1
Je ne suis pas perturbé par l'admission des quantiles dans le panthéon des moyens. Après tout, pour des familles de distributions données, certains quantiles non médians coïncideront avec des moyennes arithmétiques, vous pourriez donc avoir des ennuis si vous tentiez d'éliminer cette possibilité de manière axiomatique. (Considérez une famille de distributions lognormales de SD géométrique constant, par exemple.) Si la moyenne arithmétique ne peut pas être qualifiée de moyenne, tout est perdu!
whuber
1
J'ai considéré cette approche et je l'ai rejetée, comme expliqué dans ma réponse: si vous appliquez un tel critère pour , vous éliminez la médiane comme une forme de moyenne! n>2
whuber
2

Je pense que la médiane peut être considérée comme un type de généralisation de la moyenne arithmétique. Plus précisément, la moyenne arithmétique et la médiane (entre autres) peuvent être unifiées en tant que cas particuliers de la moyenne de Chisini. Si vous allez effectuer une opération sur un ensemble de valeurs, la moyenne de Chisini est un nombre que vous pouvez remplacer par toutes les valeurs d'origine de l'ensemble et toujours obtenir le même résultat. Par exemple, si vous voulez additionner vos valeurs, remplacer toutes les valeurs par la moyenne arithmétique donnera la même somme. L'idée est qu'une certaine valeur est représentative des nombres dans l'ensemble dans le contexte d'une certaine opération sur ces nombres. (Une implication intéressante de cette façon de penser est qu'une valeur donnée - la moyenne arithmétique - ne peut être considérée comme représentative que si vous faites certaines choses avec ces chiffres.)

C'est moins évident pour la médiane (et je note que la médiane n'est pas répertoriée comme l'un des moyens de Chisini sur Wolfram ou Wikipedia ), mais si vous deviez autoriser des opérations sur les rangs, la médiane pourrait s'inscrire dans la même idée.

gung - Réintégrer Monica
la source
Mf(M,M,...,M)=f(x1,x2,...,xn)
C'est une bonne question, @Silverfish, j'y ai pensé ;-). Ma pensée est plus que, dans votre Q & la discussion dans les commentaires, le cadre conceptuel semble être comment obtenir la moyenne et comment récupérer les données de la moyenne; OTOH, mon cadrage est ce que nous utilisons la moyenne pour: à savoir comme une représentation compressée des données avec la perte minimale d'informations.
gung - Reinstate Monica
f
@Silverfish, j'accorde que cela semble être un trou quelque peu problématique dans ma position.
gung - Reinstate Monica
(x¯,x¯,...,x¯)x¯
-1

La question n'est pas bien définie. Si nous sommes d'accord sur la définition commune de la rue de la moyenne comme la somme de n nombres divisés par n, alors nous avons un enjeu dans le sol. De plus, si nous regardions les mesures de la tendance centrale, nous pourrions dire que la moyenne et la médiane sont généralisées mais pas l'une de l'autre. Une partie de mon expérience est en non paramétrique, j'aime donc la médiane et la robustesse qu'elle offre, l'invariance à la transformation monotone et plus encore. mais chaque mesure a sa place en fonction de l'objectif.

Bob Clauss
la source
2
Bienvenue sur notre site, Bob. Je crois que si vous lisez jusqu'à la fin de la question - en particulier l'avant-dernier paragraphe long - vous découvrirez qu'elle est précise et bien définie. (Sinon, ce serait une bonne idée d'expliquer ce que vous entendez par "pas bien défini.) Vos commentaires ne semblent pas vraiment répondre à ce qui est demandé.
whuber
1
En fait, je sympathise avec le sentiment de Bob selon lequel la question n'est pas terriblement bien définie, en ce sens que le concept de «moyenne» n'a pas de définition unique, mais j'ai fait de mon mieux pour rendre les choses aussi claires que possible. J'espère que ma dernière édition aide à clarifier les choses.
Silverfish
1
La raison pour laquelle je pense que la question a une valeur autre que la simple terminologie (qu'est-ce que cela signifie de toute façon, et existe-t-il une définition que nous pouvons étendre jusqu'à inclure la médiane?) Est qu'il peut être instructif de voir la médiane comme une seule membre d'une famille de généralisations de la moyenne; L'exemple de Nick Cox de la médiane comme cas limite de la moyenne ajustée est particulièrement agréable - il est parfaitement lié à la propriété de «robustesse» que vous aimez. Dans la famille des moyennes coupées, la moyenne arithmétique «rue» et la médiane se trouvent aux extrémités opposées avec un spectre entre elles.
Silverfish