Y a-t-il plus d'une formule «médiane»?

16

Dans mon travail, lorsque les individus se réfèrent à la valeur "moyenne" d'un ensemble de données, ils se réfèrent généralement à la moyenne arithmétique (c'est-à-dire "moyenne" ou "valeur attendue"). Si j'ai fourni le moyenne géométrique , les gens penseraient probablement que je suis sournois ou inutile, car la définition de «moyenne» est connue à l'avance.

J'essaie de déterminer s'il existe plusieurs définitions de la "médiane" d'un ensemble de données. Par exemple, l'une des définitions fournies par un collègue pour trouver la médiane d'un ensemble de données avec un nombre pair d'éléments serait:

Algorithme 'A'

  • Divisez le nombre d'éléments par deux, arrondissez vers le bas.
  • Cette valeur est l'indice de la médiane.
  • ie pour l'ensemble suivant, la médiane serait 5.
  • [4, 5, 6, 7]

Cela semble logique, même si l'aspect arrondi semble un peu arbitraire.

Algorithme «B»

Dans tous les cas, un autre collègue a proposé un algorithme distinct, qui se trouvait dans un manuel de statistiques de son (besoin d'obtenir le nom et l'auteur):

  • Divisez le nombre d'éléments par 2 et conservez une copie des nombres entiers arrondis et arrondis. Nommez-les n_loet n_hi.
  • Prenez la moyenne arithmétique des éléments en n_loet n_hi.
  • ie pour l'ensemble suivant, la médiane serait (5+6)/2 = 5.5.
  • [4, 5, 6, 7]

Cela semble cependant faux, car la valeur médiane, 5.5dans ce cas, n'est pas réellement dans l'ensemble de données d'origine. Lorsque nous avons remplacé l'algorithme «A» par «B» dans un code de test, il s'est cassé horriblement (comme nous nous y attendions).

Question

Existe-t-il un «nom» formel pour ces deux approches de calcul de la médiane d'un ensemble de données? c'est-à-dire «la médiane du moindre des deux» par rapport à la «médiane des éléments moyens et des nouvelles données»?

Nuage
la source
16
Je n'ai jamais vu l'algorithme "A" considéré comme une médiane. Ce ne devrait pas être un problème qu'une statistique descriptive de la tendance centrale des données ne figure pas parmi les données elles-mêmes: après tout, la plupart des moyens ne sont pas non plus dans les données. Une propriété plus fondamentale que nous aimerions que la médiane ait est qu'elle ne change pas lorsque la séquence de données est inversée, car ordonner les données du plus petit au plus grand ou du plus grand au plus petit est une question de goût arbitraire. Pour cette raison, la plupart des auteurs définissent la médiane comme dans l'algorithme «B», car il s'agit de loin de la procédure invariante d'ordre la plus simple possible.
whuber
3
@whuber L'algorithme 'A' est parfois appelé la médiane basse . Il y a aussi bien sûr une médiane élevée correspondante. En règle générale, la médiane est la moyenne des deux (qui peut ou non être un élément de l'ensemble sur lequel la médiane est calculée).
user603
8
Un bon moment et un bon endroit pour répéter le commentaire selon lequel les deux valeurs centrales d'un échantillon ordonné avec un nombre pair d'observations - comme 3 et 4 en 1, 2, 3, 4, 5, 6 - doivent être considérées comme des comédiens (plaisanté indépendamment par SM Stigler, R. Koenker et sans doute d'autres).
Nick Cox
3
Les deux algorithmes ne manquent-ils pas l'étape cruciale du tri des données?
Emil
3
Si vous avez besoin que votre "médiane" soit toujours un élément de l'ensemble de données, vous cherchez peut-être un médoïde .
Ilmari Karonen

Réponses:

23

TL; DR - Je ne suis pas au courant que des noms spécifiques soient donnés à différents estimateurs des médianes de l'échantillon. Les méthodes d'estimation des statistiques d'échantillonnage à partir de certaines données sont plutôt difficiles et différentes ressources donnent des définitions différentes.

Dans Hogg, McKean et Craig's Introduction to Mathematical Statistics , les auteurs donnent une définition des médianes d' échantillons aléatoires , mais seulement dans le cas où il y a un nombre impair d'échantillons! Les auteurs écrivent

nY(n+1)/2 médiane de l'échantillon aléatoire.

Yii ème plus petite donnée.)

Mais cela semble inutilement restrictif; Je préférerais pouvoir définir une médiane d'un échantillon aléatoire pour pair ou impairn

L'algorithme B a la propriété que la moitié des données tombent au-dessus de la valeur et la moitié des données tombent au-dessous de la valeur. À la lumière de la définition de la médiane d'un variable aléatoire , cela semble agréable.


La question de savoir si un estimateur particulier rompt les tests unitaires est une propriété des tests unitaires - les tests unitaires écrits par rapport à un estimateur spécifique ne seront pas nécessairement valables lorsque vous substituerez un autre estimateur. Dans le cas idéal, les tests unitaires ont été choisis parce qu'ils reflètent les besoins critiques de votre organisation, et non en raison d'un argument doctrinaire sur les définitions.

Sycorax dit de réintégrer Monica
la source
2
(+1) Nous pouvons également ajouter que (1) Lorsque les valeurs sont assorties de poids, la définition des médianes doit en principe et en pratique couvrir cela également. (Implicitement dans les réponses jusqu'à présent, tous les poids sont égaux, donc immatériels.) Bien que l'interpolation linéaire dans la somme cumulative des poids soit la plus simple, il existe des situations où d'autres types d'interpolation peuvent avoir un sens. (2) Des définitions plus rigoureuses de la médiane visent généralement à couvrir les distributions discrètes, continues et hybrides, y compris celles avec des pics de probabilité quelque part.
Nick Cox
25

Ce que dit @Sycorax.

En fait, il existe étonnamment de nombreuses définitions des quantiles généraux, et en particulier aussi des médianes. Hyndman & Fan (1996, The American Statistician ) donnent un aperçu qui est, AFAIK, toujours complet. Les différents types n'ont pas de noms formels. Vous devrez peut-être simplement être clair sur le type que vous utilisez. (Souvent, cela ne fait pas une grande différence avec des ensembles de données de tailles réalistes.)

Notez qu'il est communément admis d'avoir une valeur qui n'est pas présente dans l'ensemble de données comme médiane, par exemple, 5,5 comme médiane pour (4, 5, 6, 7). Il s'agit du comportement par défaut pour R:

> median(4:7)
[1] 5.5

median()Par défaut, R utilise le type 7 de la classification de Hyndman & Fan.

S. Kolassa - Rétablir Monica
la source
6
+1 pour "Souvent, cela ne fait pas une grande différence avec des ensembles de données de tailles réalistes." Je vais voler que, au lieu de mon habituel "si cela fait une différence matérielle, vous avez probablement besoin de plus de données." :)
Jason
1
Si vous avez une variable binaire avec des valeurs 0, 1 (par exemple) et avec à peu près autant de 0 et de 1 (moyenne proche de 0,5), une grande taille d'échantillon n'empêchera pas nécessairement la médiane rapportée de basculer entre 0, 0,5 et 1. Mosteller et Tukey ( Data Analysis and Regression 1977) citent des distributions fortement bimodales et presque symétriques comme des cas où la médiane pourrait ne pas se comporter particulièrement bien.
Nick Cox
3

Dans les R mad fonction , il utilise les termes "lo-médiane" pour décrire votre algorithme A, "hi-médiane" pour décrire l'arrondi à la place, et juste "médiane" pour décrire votre algorithme B (qui, comme d'autres l'ont noté, est de loin définition la plus courante).

Curieusement, il n'y a pas une telle option sur la median()fonction de R ! (Mais R quantile()a typeun contrôle fin.)

Darren Cook
la source