Le concept de «moyenne» se déplace beaucoup plus loin que la moyenne arithmétique traditionnelle; s'étend-elle jusqu'à inclure la médiane? Par analogie,
L'analogie que je fais est celle de la moyenne quasi-arithmétique , donnée par:
À titre de comparaison, lorsque nous disons que la médiane d'un ensemble de données à cinq éléments est égale au troisième élément, nous pouvons voir que cela équivaut à classer les données de un à cinq (ce que nous pourrions désigner par une fonction ); prendre la moyenne des données transformées (qui est trois); et relire la valeur de l'élément de données qui avait le rang trois (une sorte de ).
Dans les exemples de moyenne géométrique, moyenne harmonique et RMS, était une fonction fixe qui peut être appliquée à n'importe quel nombre de manière isolée. En revanche, soit pour attribuer un rang, soit pour revenir des rangs aux données d'origine (interpoler si nécessaire) nécessite la connaissance de l'ensemble des données. De plus, dans les définitions que j'ai lues de la moyenne quasi-arithmétique, doit être continu. La médiane est-elle jamais considérée comme un cas particulier de moyenne quasi-arithmétique, et si oui, comment définit- on le ? Ou la médiane est-elle jamais décrite comme un exemple d'une autre notion plus large de «moyenne»? La moyenne quasi-arithmétique n'est certainement pas la seule généralisation disponible.
Une partie du problème est d'ordre terminologique (que signifie de toute façon "signifier", en particulier par opposition à "tendance centrale" ou "moyenne"?). Par exemple, dans la littérature pour les systèmes de commande flous , une fonction d'agrégation est une fonction croissante avec et ; une fonction d'agrégation pour laquelle pour tout x, y \ dans [a, b] est appelé une "moyenne" (dans un sens général). Une telle définition est, il va sans dire, incroyablement large! Et dans ce contexte, la médiane est en effet désignée comme un type de moyenne. ^ {[1]}F ( a , a ) = a Fmin ( x , y ) ≤ F ( x , y ) ≤ max ( x , y ) x , y ∈ [ a[ 1 ]Mais je suis curieux de savoir si des caractérisations moins larges de la moyenne peuvent encore s'étendre suffisamment pour englober la médiane - la soi-disant moyenne généralisée (qui pourrait mieux être décrite comme la "moyenne de puissance") et la moyenne de Lehmer ne le font pas, mais d'autres peuvent . Pour ce que ça vaut, Wikipedia inclut "médiane" dans sa liste des "autres moyens" , mais sans autre commentaire ou citation.
: Une définition aussi large de la moyenne, convenablement étendue à plus de deux entrées, semble standard dans le domaine du contrôle flou et a été répétée plusieurs fois lors de recherches sur Internet pour des exemples de la médiane décrite comme médiane; Je citerai par exemple Fodor, JC, & Rudas, IJ (2009), " Sur certaines classes de fonctions d'agrégation qui sont migratrices ", IFSA / EUSFLAT Conf. (pp. 653-656). Soit dit en passant, cet article note que l'un des premiers utilisateurs du terme «moyenne» ( moyenne ) était Cauchy , dans le Cours d'analyse de l'École royale polytechnique, 1ère partie; Analyser algébrique (1821). Contributions ultérieures d' Aczél , Chisini ,et de Finetti dans l'élaboration de concepts plus généraux de «moyenne» que Cauchy sont reconnus dans Fodor, J., et Roubens, M. (1995), « Sur la signification des moyens », Journal of Computational and Applied Mathematics , 64 (1), 103-115.
Réponses:
Voici une façon de considérer une médiane comme une «sorte générale de moyenne» - tout d'abord, définissez soigneusement votre moyenne arithmétique ordinaire en termes de statistiques d'ordre:
Ensuite, en remplaçant cette moyenne ordinaire des statistiques d'ordre par une autre fonction de pondération, nous obtenons une notion de «moyenne généralisée» qui rend compte de l'ordre.
Dans ce cas, une multitude de mesures potentielles du centre deviennent des «moyens généralisés». Dans le cas de la médiane, pour impair , et tous les autres sont 0, et pour pair , .w ( n + 1 ) / 2 = 1 n w nn w( n + 1 ) / 2= 1 n wn2= wn2+ 1= 12
De même, si nous regardons l' estimation M , les estimations de localisation pourraient également être considérées comme une généralisation de la moyenne arithmétique (où pour la moyenne, est quadratique, est linéaire ou la fonction de poids est plate), et la médiane tombe également dans cette classe de généralisations. Il s'agit d'une généralisation quelque peu différente de la précédente.ψρ ψ
Il existe une variété d'autres façons d'étendre la notion de «moyenne» qui pourrait inclure la médiane.
la source
Si vous considérez la moyenne comme le point minimisant la fonction de perte quadratique SSE, alors la médiane est le point minimisant la fonction de perte linéaire MAD, et le mode est le point minimisant une fonction de perte 0-1. Aucune transformation requise.
La médiane est donc un exemple de moyenne de Fréchet .
la source
Une généralisation simple mais fructueuse est la moyenne pondérée , où . Il est clair que la moyenne commune ou jardin est le cas spécial le plus simple avec des poids égaux .∑ n i = 1 w i = 1 w i = 1 / n∑ni = 1wjeXje/ ∑ni = 1wje, ∑ni = 1wje= 1 wje= 1 / n
Laisser les poids dépendre de l'ordre de grandeur, du plus petit au plus grand, pointe vers divers autres cas particuliers, notamment l'idée d'une moyenne ajustée , qui est également connue sous d'autres noms.
Pour éviter une utilisation excessive de la notation là où elle n'est pas nécessaire ou particulièrement utile, imaginez par exemple ignorer les valeurs les plus petites et les plus grandes et prendre la moyenne (également pondérée) des autres. Ou imaginez ignorer les deux plus petits et les deux plus grands et prendre la moyenne des autres; et ainsi de suite. Le découpage le plus vigoureux ignorerait toutes les valeurs sauf une ou deux dans l'ordre, selon que le nombre de valeurs était impair ou pair, ce qui n'est naturellement que la médiane familière . Rien dans l'idée de découpage ne vous engage à ignorer des nombres égaux dans chaque queue d'un échantillon, mais en dire plus sur le découpage asymétrique nous éloignerait davantage de l'idée principale de ce fil.
Bref, les moyennes (non qualifiées) et les médianes sont des cas extrêmement limitatifs de la famille des moyennes (symétriques) équilibrées. L'idée générale est de permettre des compromis entre un idéal d'utilisation de toutes les informations contenues dans les données et un autre idéal de protection contre les points de données extrêmes, qui peuvent être des valeurs aberrantes peu fiables.
Voir la référence ici pour une revue assez récente.
la source
La question nous invite à caractériser le concept de «moyenne» dans un sens suffisamment large pour englober tous les moyens habituels - les moyens de puissance, les moyens , les médianes, les moyens ajustés - mais pas si largement qu'il devient presque inutile pour l'analyse des données. . Cette réponse examine certaines des propriétés axiomatiques que toute définition raisonnablement utile de «moyenne» devrait avoir.Lp
Axiomes de base
Une définition utilement large de la «moyenne» aux fins de l'analyse des données serait toute séquence de fonctions déterministes bien définies pour A ⊂ R et n = 1 , 2 , … de telle sorte queFn: An→ A A ⊂ R n = 1 , 2 , …
(1) pour tous (une moyenne se situe entre les extrêmes),x = ( x 1 , x 2 , … , x n ) ∈ A nmin ( x ) ≤ fn( x ) ≤ max ( x ) x =( x1, x2, … , Xn) ∈ An
(2) est invariant sous permutations de ses arguments (les moyens ne se soucient pas de l'ordre des données), etFn
(3) chaque ne décroît pas dans chacun de ses arguments (à mesure que les nombres augmentent, leur moyenne ne peut pas diminuer).Fn
Nous devons permettre à d'être un sous-ensemble approprié de nombres réels (tels que tous les nombres positifs) parce que de nombreux moyens, tels que des moyens géométriques, sont définis uniquement sur ces sous-ensembles.UNE
Nous pourrions également ajouter que
(1 ') il existe au moins quelques pour lesquels (les moyennes ne sont pas extrêmes). (Nous ne pouvons pas exiger que cela soit toujours vrai. Par exemple, la médiane de est égale à , ce qui est le minimum.)min ( x ) ≠ f n ( x ) ≠ max ( xx ∈A ( 0 , 0 , … , 0 , 1 ) 0min ( x ) ≠ fn( x ) ≠ max ( x ) ( 0 , 0 , … , 0 , 1 ) 0
Ces propriétés semblent capturer l'idée derrière une «moyenne» étant une sorte de «valeur moyenne» d'un ensemble de données (non ordonnées).
Axiomes de cohérence
Je suis en outre tenté de préciser le critère de cohérence un peu moins évident
(4.a) La plage de lorsque varie dans l'intervalle comprend . En d'autres termes, il est toujours possible de laisser la moyenne inchangée en attachant une valeur appropriée à un ensemble de données. Conjointement avec (3), cela implique que des valeurs extrêmes adjacentes à un ensemble de données tireront la moyenne vers ces extrêmes.t [ min (Fn + 1( t , x1, x2, … , Xn) t f n ( x ) t[ min ( x ) , max ( x ) ] Fn( x ) t
Si nous voulons appliquer le concept de moyenne à une distribution ou "population infinie", alors une façon serait de l'obtenir dans la limite d'échantillons aléatoires arbitrairement grands. Bien sûr, la limite peut ne pas toujours exister (elle n'existe pas pour la moyenne arithmétique lorsque la distribution n'a aucune attente, par exemple). Je ne veux donc pas imposer d'axiomes supplémentaires pour garantir l'existence de telles limites, mais ce qui suit semble naturel et utile:
(4.b) Chaque fois que est borné et est une séquence d'échantillons d'une distribution supportée sur , alors la limite de existe presque sûrement. Cela empêche la moyenne de "rebondir" pour toujours à l'intérieur de même lorsque les tailles d'échantillon deviennent de plus en plus grandes.UNE FA f n ( x n )AXn F UNE Fn( xn) UNE
Dans le même ordre d'idées, nous pourrions affiner davantage l'idée d'un moyen pour insister pour qu'il devienne un meilleur estimateur de la «localisation» à mesure que la taille des échantillons augmente:
(4.c) Chaque fois que est borné, la variance de la distribution d'échantillonnage de pour un échantillon aléatoire de ne décroît pas en .f n ( X ( n ) ) X ( n )UNE Fn( X( n )) F nX( n )= ( X1, X2, … , Xn) F n
Axiome de continuité
Nous pourrions envisager de demander des moyens de varier "agréablement" avec les données:
(5) est continu séparément dans chaque argument (un petit changement dans les valeurs des données ne devrait pas induire un saut soudain de leur moyenne).Fn
Cette exigence peut éliminer certaines généralisations étranges, mais elle n'exclut aucun moyen bien connu. Cela exclura certaines fonctions d'agrégation.
Un axiome d'invariance
Nous pouvons concevoir les moyens comme s'appliquant à des données d' intervalle ou de rapport (au sens bien connu de Stevens). Nous ne pouvons pas exiger qu’elles soient invariantes lors de changements de position (la moyenne géométrique ne l’est pas), mais nous pouvons exiger
(6) pour tous et tous pour lesquels . Cela dit seulement que nous sommes libres de calculer utilisant toutes les unités de mesure que nous aimons.x ∈ AFn( λ x ) = λ fn( x ) x ∈ An λ > 0 λ x ∈ An Fn
Tous les moyens mentionnés dans la question satisfont à cet axiome à l'exception de certaines fonctions d'agrégation.
Discussion
Les fonctions d'agrégation générales , telles que décrites dans la question, ne satisfont pas nécessairement les axiomes (1 '), (2), (3), (5) ou (6). Le fait qu'ils satisfassent des axiomes de cohérence peut dépendre de la façon dont ils sont étendus à .F2 n > 2
La médiane habituelle de l'échantillon jouit de toutes ces propriétés axiomatiques.
Nous pourrions augmenter les axiomes de cohérence pour inclure
(4.d) pour tous lesF2 n( x ; x ) = fn( x ) x ∈ An.
Cela implique que lorsque tous les éléments d'un ensemble de données sont répétés également souvent, la moyenne ne change pas. Cela peut être trop fort, cependant: la moyenne Winsored n'a pas cette propriété (sauf asymptotiquement). Le but de la winsorisation au niveau est de fournir une résistance contre les changements d' au moins des données dans les deux extrêmes. Par exemple, la moyenne de 10% Winsored de est la moyenne arithmétique de , égale à , mais la moyenne de 10% Winsored de est de .100 α % ( 1 , 2 , 3 , 6 ) ( 2 , 2 , 3 , 3 ) 2,5 ( 1 , 1 , 2 , 2 , 3 , 3 , 6 , 6 ) 3,5100 α % 100 α % ( 1 , 2 , 3 , 6 ) ( 2 , 2 , 3 , 3 ) 2,5 ( 1 , 1 , 2 , 2 , 3 , 3 , 6 , 6 ) 3,5
Je ne sais pas lequel des axiomes de cohérence (4.a), (4.b) ou (4.c) serait le plus souhaitable ou utile. Ils semblent indépendants: je ne pense pas que deux d'entre eux impliquent le troisième.
la source
Je pense que la médiane peut être considérée comme un type de généralisation de la moyenne arithmétique. Plus précisément, la moyenne arithmétique et la médiane (entre autres) peuvent être unifiées en tant que cas particuliers de la moyenne de Chisini. Si vous allez effectuer une opération sur un ensemble de valeurs, la moyenne de Chisini est un nombre que vous pouvez remplacer par toutes les valeurs d'origine de l'ensemble et toujours obtenir le même résultat. Par exemple, si vous voulez additionner vos valeurs, remplacer toutes les valeurs par la moyenne arithmétique donnera la même somme. L'idée est qu'une certaine valeur est représentative des nombres dans l'ensemble dans le contexte d'une certaine opération sur ces nombres. (Une implication intéressante de cette façon de penser est qu'une valeur donnée - la moyenne arithmétique - ne peut être considérée comme représentative que si vous faites certaines choses avec ces chiffres.)
C'est moins évident pour la médiane (et je note que la médiane n'est pas répertoriée comme l'un des moyens de Chisini sur Wolfram ou Wikipedia ), mais si vous deviez autoriser des opérations sur les rangs, la médiane pourrait s'inscrire dans la même idée.
la source
La question n'est pas bien définie. Si nous sommes d'accord sur la définition commune de la rue de la moyenne comme la somme de n nombres divisés par n, alors nous avons un enjeu dans le sol. De plus, si nous regardions les mesures de la tendance centrale, nous pourrions dire que la moyenne et la médiane sont généralisées mais pas l'une de l'autre. Une partie de mon expérience est en non paramétrique, j'aime donc la médiane et la robustesse qu'elle offre, l'invariance à la transformation monotone et plus encore. mais chaque mesure a sa place en fonction de l'objectif.
la source