Dans mon travail, lorsque les individus se réfèrent à la valeur "moyenne" d'un ensemble de données, ils se réfèrent généralement à la moyenne arithmétique (c'est-à-dire "moyenne" ou "valeur attendue"). Si j'ai fourni le moyenne géométrique , les gens penseraient probablement que je suis sournois ou inutile, car la définition de «moyenne» est connue à l'avance.
J'essaie de déterminer s'il existe plusieurs définitions de la "médiane" d'un ensemble de données. Par exemple, l'une des définitions fournies par un collègue pour trouver la médiane d'un ensemble de données avec un nombre pair d'éléments serait:
Algorithme 'A'
- Divisez le nombre d'éléments par deux, arrondissez vers le bas.
- Cette valeur est l'indice de la médiane.
- ie pour l'ensemble suivant, la médiane serait
5
. [4, 5, 6, 7]
Cela semble logique, même si l'aspect arrondi semble un peu arbitraire.
Algorithme «B»
Dans tous les cas, un autre collègue a proposé un algorithme distinct, qui se trouvait dans un manuel de statistiques de son (besoin d'obtenir le nom et l'auteur):
- Divisez le nombre d'éléments par 2 et conservez une copie des nombres entiers arrondis et arrondis. Nommez-les
n_lo
etn_hi
. - Prenez la moyenne arithmétique des éléments en
n_lo
etn_hi
. - ie pour l'ensemble suivant, la médiane serait
(5+6)/2 = 5.5
. [4, 5, 6, 7]
Cela semble cependant faux, car la valeur médiane, 5.5
dans ce cas, n'est pas réellement dans l'ensemble de données d'origine. Lorsque nous avons remplacé l'algorithme «A» par «B» dans un code de test, il s'est cassé horriblement (comme nous nous y attendions).
Question
Existe-t-il un «nom» formel pour ces deux approches de calcul de la médiane d'un ensemble de données? c'est-à-dire «la médiane du moindre des deux» par rapport à la «médiane des éléments moyens et des nouvelles données»?
la source
Réponses:
TL; DR - Je ne suis pas au courant que des noms spécifiques soient donnés à différents estimateurs des médianes de l'échantillon. Les méthodes d'estimation des statistiques d'échantillonnage à partir de certaines données sont plutôt difficiles et différentes ressources donnent des définitions différentes.
Dans Hogg, McKean et Craig's Introduction to Mathematical Statistics , les auteurs donnent une définition des médianes d' échantillons aléatoires , mais seulement dans le cas où il y a un nombre impair d'échantillons! Les auteurs écrivent
Mais cela semble inutilement restrictif; Je préférerais pouvoir définir une médiane d'un échantillon aléatoire pour pair ou impairn
L'algorithme B a la propriété que la moitié des données tombent au-dessus de la valeur et la moitié des données tombent au-dessous de la valeur. À la lumière de la définition de la médiane d'un variable aléatoire , cela semble agréable.
La question de savoir si un estimateur particulier rompt les tests unitaires est une propriété des tests unitaires - les tests unitaires écrits par rapport à un estimateur spécifique ne seront pas nécessairement valables lorsque vous substituerez un autre estimateur. Dans le cas idéal, les tests unitaires ont été choisis parce qu'ils reflètent les besoins critiques de votre organisation, et non en raison d'un argument doctrinaire sur les définitions.
la source
Ce que dit @Sycorax.
En fait, il existe étonnamment de nombreuses définitions des quantiles généraux, et en particulier aussi des médianes. Hyndman & Fan (1996, The American Statistician ) donnent un aperçu qui est, AFAIK, toujours complet. Les différents types n'ont pas de noms formels. Vous devrez peut-être simplement être clair sur le type que vous utilisez. (Souvent, cela ne fait pas une grande différence avec des ensembles de données de tailles réalistes.)
Notez qu'il est communément admis d'avoir une valeur qui n'est pas présente dans l'ensemble de données comme médiane, par exemple, 5,5 comme médiane pour (4, 5, 6, 7). Il s'agit du comportement par défaut pour R:
median()
Par défaut, R utilise le type 7 de la classification de Hyndman & Fan.la source
Dans les R
mad
fonction , il utilise les termes "lo-médiane" pour décrire votre algorithme A, "hi-médiane" pour décrire l'arrondi à la place, et juste "médiane" pour décrire votre algorithme B (qui, comme d'autres l'ont noté, est de loin définition la plus courante).Curieusement, il n'y a pas une telle option sur la
median()
fonction de R ! (Mais Rquantile()
atype
un contrôle fin.)la source