Propriétés moyennes et médianes

18

Quelqu'un peut-il m'expliquer clairement la logique mathématique qui relierait deux énoncés (a) et (b) ensemble? Ayons un ensemble de valeurs (une certaine distribution). Maintenant,

a) La médiane ne dépend pas de chaque valeur [elle dépend seulement d'une ou deux valeurs moyennes]; b) La médiane est le lieu de la somme minimale des écarts absolus par rapport à elle.

Et de même, et en revanche,

a) La moyenne (arithmétique) dépend de chaque valeur; b) La moyenne est le lieu de la somme minimale des écarts au carré de celle-ci.

Jusqu'à présent, ma compréhension est intuitive.

mean median robust sensitivity-analysis ttnphns
la source

1

Il vaut la peine de revoir une ancienne version de la même question: stats.stackexchange.com/questions/2547/… Et, une description de Robust Statistics: en.wikipedia.org/wiki/Robust_statistics

bill_080

Donc, ce que vous recherchez pour la première paire est une preuve que la médiane, généralement définie comme la valeur de rang moyen (pour un nombre impair de valeurs de toute façon, pour commencer avec le cas le plus simple) est également la valeur qui minimise la somme des écarts absolus? De préférence une preuve qui donne également un aperçu intuitif? Je ne connais aucune preuve moi-même, donc cela semble être une bonne question, et j'aimerais également connaître la réponse.

2011

Tu me sens bien. (a) et (b) sont actuellement des aspects / propriétés distincts dans mon esprit, pour les deux statistiques; mais l'intuition suggère que les deux aspects sont liés. Je veux savoir - comment ils sont liés, pour tout comprendre profondément.

ttnphns

19

Il s'agit de deux questions: l'une sur la façon dont la moyenne et la médiane minimisent les fonctions de perte et l'autre sur la sensibilité de ces estimations aux données. Les deux questions sont liées, comme nous le verrons.

Minimiser les pertes

Un résumé (ou estimateur) du centre d'un lot de nombres peut être créé en laissant la valeur de résumé changer et en imaginant que chaque numéro du lot exerce une force de restauration sur cette valeur. Lorsque la force ne repousse jamais la valeur d'un nombre, alors sans doute tout point où l'équilibre des forces est un "centre" du lot.

Perte quadratique ( ) $L_2$

Par exemple, si nous devions attacher un ressort classique (suivant la loi de Hooke ) entre le résumé et chaque nombre, la force serait proportionnelle à la distance à chaque ressort. Les ressorts tireraient le résumé de cette façon et cela, s'installant finalement à un emplacement stable unique d'énergie minimale.

Je voudrais attirer l'attention sur un petit tour de passe-passe qui vient de se produire: l' énergie est proportionnelle à la somme des distances au carré . La mécanique newtonienne nous apprend que la force est le taux de changement d'énergie. Atteindre un équilibre - minimiser l'énergie - entraîne un équilibrage des forces. Le taux net de variation de l'énergie est nul.

Appelons cela le « résumé » ou le «résumé des pertes au carré». $L_2$

Perte absolue ( ) $L_1$

Un autre résumé peut être créé en supposant que les tailles des forces de restauration sont constantes , quelles que soient les distances entre la valeur et les données. Les forces elles-mêmes ne sont cependant pas constantes, car elles doivent toujours tirer la valeur vers chaque point de données. Ainsi, lorsque la valeur est inférieure au point de données, la force est dirigée positivement, mais lorsque la valeur est supérieure au point de données, la force est dirigée négativement. Maintenant, l' énergie est proportionnelle aux distances entre la valeur et les données. Il y aura généralement une région entière dans laquelle l'énergie est constante et la force nette est nulle. Toute valeur dans cette région pourrait être appelée « résumé » ou «résumé des pertes absolues». $L_1$

Ces analogies physiques fournissent une intuition utile sur les deux résumés. Par exemple, qu'advient-il du résumé si nous déplaçons l'un des points de données? Dans le cas avec des ressorts attachés, le déplacement d'un point de données étire ou détend son ressort. Le résultat est un changement en vigueur sur le résumé, il doit donc changer en réponse. Mais dans le cas , la plupart du temps une modification d'un point de données ne fait rien au résumé, car la force est localement constante. La seule façon dont la force peut changer est que le point de données se déplace dans le résumé. $L_2$ $L_1$

(En fait, il devrait être évident que la force nette sur une valeur est donnée par le nombre de points supérieur à elle - qui la tire vers le haut - moins le nombre de points de moins qu'elle - qui la tire vers le bas. Ainsi, le résumé doit se produire à n'importe quel endroit où le nombre de valeurs de données le dépassant est exactement le nombre de valeurs de données inférieur à celui-ci.) $L_1$

Représenter les pertes

Puisque les forces et les énergies s'additionnent, dans les deux cas, nous pouvons décomposer l'énergie nette en contributions individuelles à partir des points de données. En représentant graphiquement l'énergie ou la force en fonction de la valeur récapitulative, cela donne une image détaillée de ce qui se passe. Le résumé sera un endroit où l'énergie (ou "perte" dans le langage statistique) est la plus petite. De manière équivalente, ce sera un endroit où les forces s'équilibreront: le centre des données se produit où le changement net de perte est nul.

Cette figure montre les énergies et les forces pour un petit ensemble de données de six valeurs (marquées par de faibles lignes verticales dans chaque tracé). Les courbes noires en pointillés sont les totaux des courbes colorées montrant les contributions des valeurs individuelles. L'axe des x indique les valeurs possibles du résumé.

La moyenne arithmétique est un point où la perte au carré est minimisée: elle sera située au sommet (en bas) de la parabole noire dans le graphique supérieur gauche. C'est toujours unique. La médiane est un point où la perte absolue est minimisée. Comme indiqué ci-dessus, il doit se produire au milieu des données. Ce n'est pas nécessairement unique. Il sera situé en bas de la courbe noire brisée en haut à droite. (Le bas se compose en fait d'une courte section plate comprise entre et ; toute valeur dans cet intervalle est une médiane.) $-0.23$ $-0.17$

Analyser la sensibilité

Plus tôt, j'ai décrit ce qui peut arriver au résumé lorsqu'un point de données varie. Il est instructif de tracer comment le résumé change en réponse à la modification d'un point de données unique. (Ces graphiques sont essentiellement les fonctions d'influence empiriques . Ils diffèrent de la définition habituelle en ce qu'ils montrent les valeurs réelles des estimations plutôt que la façon dont ces valeurs sont modifiées.) La valeur du résumé est étiquetée par "Estimation" sur le y -axes pour nous rappeler que ce résumé estime où se trouve le milieu de l'ensemble de données. Les nouvelles valeurs (modifiées) de chaque point de données sont affichées sur leurs axes x.

Cette figure présente les résultats de la variation de chacune des valeurs de données du lot (la même que celle analysée dans la première figure). Il y a un tracé pour chaque valeur de données, qui est mis en évidence sur son tracé avec une longue coche noire le long de l'axe inférieur. (Les valeurs de données restantes sont représentées par de courtes graduations grises.) La courbe bleue trace le résumé - la moyenne arithmétique - et la courbe rouge trace le $-1.02, -0.82, -0.23, -0.17, -0.08, 0.77$ $L_2$ $L_1$ résumé - la médiane. (Étant donné que souvent la médiane est une plage de valeurs, la convention consistant à tracer le milieu de cette plage est suivie ici.)

Remarquer:

La sensibilité de la moyenne est illimitée: ces lignes bleues s'étendent infiniment de haut en bas. La sensibilité de la médiane est limitée: il y a des limites supérieures et inférieures aux courbes rouges.
Cependant, là où la médiane change, elle change beaucoup plus rapidement que la moyenne. La pente de chaque ligne bleue est (il est généralement pour un ensemble de données à valeurs), tandis que les pentes des parties inclinées des lignes rouges sont . $1/6$ $1/n$ $n$ $1/2$
La moyenne est sensible à chaque point de données et cette sensibilité n'a pas de limites (comme l'indiquent les pentes non nulles de toutes les lignes colorées dans le graphique en bas à gauche du premier chiffre). Bien que la médiane soit sensible à chaque point de données, la sensibilité est limitée (c'est pourquoi les courbes colorées dans le tracé en bas à droite du premier chiffre sont situées dans une étroite plage verticale autour de zéro). Ce ne sont bien sûr que des réitérations visuelles de la loi de force (perte) de base: quadratique pour la moyenne, linéaire pour la médiane.
L'intervalle sur lequel la médiane peut être amenée à changer peut varier selon les points de données. Il est toujours délimité par deux des valeurs proches du milieu parmi les données qui ne varient pas . (Ces limites sont marquées par de faibles lignes verticales en pointillés.)
Étant donné que le taux de variation de la médiane est toujours , le montant par lequel il peut varier est donc déterminée par la longueur de cet écart entre les valeurs quasi-milieu de l'ensemble de données. $1/2$

Bien que seul le premier point soit couramment noté, les quatre points sont importants. En particulier,

Il est définitivement faux que la "médiane ne dépend pas de chaque valeur". Cette figure fournit un contre-exemple.
Néanmoins, la médiane ne dépend pas "matériellement" de chaque valeur dans le sens où bien que la modification des valeurs individuelles puisse changer la médiane, l' ampleur du changement est limitée par les écarts entre les valeurs quasi-moyennes de l'ensemble de données. En particulier, le montant du changement est limité . On dit que la médiane est un résumé "résistant".
Bien que la moyenne ne soit pas résistante et change chaque fois que la valeur d' une donnée est modifiée, le taux de variation est relativement faible. Plus l'ensemble de données est grand, plus le taux de variation est faible. De manière équivalente, afin de produire un changement important dans la moyenne d'un grand ensemble de données, au moins une valeur doit subir une variation relativement importante. Cela suggère que la non-résistance de la moyenne ne concerne que (a) les petits ensembles de données ou (b) les ensembles de données où une ou plusieurs données peuvent avoir des valeurs extrêmement éloignées du milieu du lot.

Ces remarques - que j'espère que les chiffres mettent en évidence - révèlent un lien profond entre la fonction de perte et la sensibilité (ou résistance) de l'estimateur. Pour en savoir plus, commencez par l' un des articles de Wikipédia sur les estimateurs M , puis poursuivez ces idées autant que vous le souhaitez.

Code

Ce Rcode a produit les figures et peut être facilement modifié pour étudier tout autre ensemble de données de la même manière: il suffit de remplacer le vecteur créé au hasard ypar n'importe quel vecteur de nombres.

#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
  sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
  apply(col2rgb(c)/255 * x, 2, function(s)  rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics, 
                         function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
  #
  # Create a standard, consistent plot region.
  #
  plot(x.limits, y.limits, type="n", 
       xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
       main=paste("Sensitivity to y[", i, "]", sep=""))
  #legend("topleft", legend=names(statistics), col=colors, lwd=1)
  #
  # Mark the limits of the possible medians.
  #
  n <- length(y)/2
  bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
  abline(v=range(bars), lty=2, col="Gray")
  rug(y, col="Gray", ticksize=0.05);
  #
  # Show which value is being varied.
  #
  rug(y[1], col="Black", ticksize=0.075, lwd=2)
  #
  # Plot the statistics as the value is varied between x.limits.
  #
  invisible(mapply(function(f,c) 
    curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
    statistics, colors))
  y <- c(y[-1], y[1])    # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
                   "Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
  f <- losses[[j]]
  y.range <- range(c(0, 1.1*loss(y, y, f)))
  #
  # Plot the loss (or its rate of change).
  #
  curve(loss(x, y, f), from=min(x.limits), to=max(x.limits), 
        n=1001, lty=3,
        ylim=y.range, xlab="Value", ylab=loss.types[j],
        main=names(losses)[j])
  #
  # Draw the x-axis if needed.
  #
  if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
  #
  # Faintly mark the data values.
  #
  abline(v=y, col="#00000010")
  #
  # Plot contributions to the loss (or its rate of change).
  #
  for (i in 1:length(y)) {
    curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
  }
  rug(y, side=3)
}

whuber
la source

3

J'offre une prime, en raison du style minutieux et sans hâte de la réponse, en plus de la qualité.

ttnphns

Je vous remercie! Votre appréciation de ce message est très gratifiante.

whuber

11

$x_1,x_2,\ldots,x_n$ $n$ $y$ $f(y)$ $y$ $x_i$ $f(y) = |x_1 - y| + |x_2 - y| + \ldots + |x_n - y|$ $y$ $f(y)$ $l$ $x_i$ $y$ $r = n - l$ $y$ $y$ $y$ $f(y)$

$\Delta y$ $y$ $x_i$ $y$ $|x_i - y|$ $\Delta y$ $y$ $|x_i - y|$ $\Delta y$ $\Delta y$ $y$ $f(y)$ $l\Delta y - r \Delta y = (l-r)\Delta y$ $f(y)$ $x_i$ $y$ $y$ $f(y)$ $l-r = 0$ $x_i$ $y$ $y$ $x_i$

$f(y)$ $f(y) = (x_1 - y)^2 + \ldots + (x_n - y)^2$ $f(y)$ $y$ $x_i$ $y$

$f(y)$

shabbychef
la source

1

x_{i}

$x_i$

merci pour l'élégante explication. Cependant, cela me semble donc: "Ce nombre y dont le petit changement ne change pas la fonction Sum | x_i-y | ne dépend pas de chaque x_i et est appelé médiane". C'est une note intéressante sur la médiane d'une donnée paire n . Mais je demandais de le prouver: "Ce nombre y qui minimise la fonction Sum | x_i-y | ne dépend pas de chaque x_i et est appelé médiane". Et de même: "Ce nombre y qui minimise la fonction Sum (x_i-y) ^ 2 dépend également de chaque x_i et est appelé moyenne".

ttnphns

1

comment suis-je censé prouver que la partie «s'appelle médiane»? C'est fou.

shabbychef

C'est un trope de cause. Cette partie n'est pas à prouver, j'espère que vous comprendrez.

ttnphns

1

Existe-t-il un résultat similaire pour la médiane des écarts absolus au lieu de la somme des écarts absolus? Parce que l'écart médian absolu par rapport à la médiane est également une mesure de dispersion assez intéressante.

samthebest

3

$x_{(n)}$ $2 * x_{(n)}$
$a \in \mathbb{R}$

$\sum_{i=1}^{n} |x_{i} - median| \leq \sum_{i=1}^{n} |x_{i} - a|$

et

$\sum_{i=1}^{n} (x_{i} - mean)^{2} \leq \sum_{i=1}^{n} (x_{i} - a)^{2}$

ocram
la source

Eh bien, en tant que statisticien expérimenté sans formation fondamentale en mathématiques, je connais encore beaucoup les différences et les applications moyennes et médianes. Ce dont j'ai besoin ici, c'est de quelqu'un pour TIRER - logiquement ou mathématiquement - soit (a) de (b) ou (b) de (a), pour moi. Je sens que je ne peux pas harmoniser (a) avec (b) rationnellement moi-même. Marco, je trouve très difficile de comprendre votre notation. Si vos formules sont la déduction dont j'ai besoin, pourriez-vous "mordre" l'idée moins techniquement pour moi?

ttnphns

PS Tant que vos deux inégalités se sont finalement affichées correctement sur mon écran, je vois que ce sont simplement mes (b) déclarations. Vous écrivez: "on peut montrer que ...". Alors montrez-moi ça. J'ai besoin d'une sorte de preuve mathématique exprimée en termes intelligibles pour un analyste de données qui n'est pas un mathématicien professionnel.

ttnphns

2

@ttnphns: votre demande de réponse mathématique plutôt qu'intuitive semble incompatible avec votre demande de quelque chose de moins technique que ce que les gens ont proposé.

rolando2

Peut-on simplifier la situation à 2 ou 3 points et se demander si la médiane dans l'inégalité non stricte à double sommation ci-dessus a une valeur unique? Avec deux points, il semblerait être satisfait par n'importe quel point entre les 2.

DWin

2

Hé, voici une contribution, après avoir lu un peu à ce sujet. Probablement un peu tard pour la personne qui a demandé, mais ça vaut peut-être pour quelqu'un d'autre.

Pour le cas moyen:

$argmin_x \sum_{i=1}^n (y_i - x)$

$f(x) = \sum_{i=1}^n(y_i - x)^2$

$f'(x)=0 \Leftrightarrow 2 \sum_{i=1}^n (y_i - x ) = 0$

$f'(x)=0\Leftrightarrow \sum_{i=1}^n y_i = \sum_{i=1}^n x$

$f'(x)=0\Leftrightarrow x = \frac{\sum_{i=1}^n}{n}$

Comme la fonction est convexe, c'est un minimum

Pour le cas médian

$argmin_x \sum_{i=1}^n |y_i - x|$

$f(x) = \sum_{i=1}^n|y_i - x|$

$f'(x)=0 \Leftrightarrow \sum_{i=1}^n sgn(y_i - x ) = 0$

$sgn(x)$ $sgn(x)=1$ $x >0$ $sgn(x)=-1$ $x<0$

$f'(x)=0\Leftrightarrow \# \{y_i / y_i >x \} - \# \{y_i / y_i <x \} = 0$

$\#{}$ est le cardinal de l'espace, donc dans ce cas discret, le nombre d'éléments qu'il contient)

$f'(x)=0\Leftrightarrow x$

Comme la fonction est également convexe, c'est encore un minimum.

Anthony Martin
la source

Merci. Cela peut être utile pour moi et pour les autres. Pouvez-vous ajouter quelques commentaires en mots pour le principal de vos expressions - pour quelqu'un qui ne maîtrise pas très bien les formules. En particulier, votre dernier d'une ligne - qu'est-ce que cela signifie et qu'est-ce que c'est #?

ttnphns

Est-ce clair maintenant? J'ai défini les deux fonctions moins habituelles

Anthony Martin

Propriétés moyennes et médianes

Réponses:

Minimiser les pertes

Perte quadratique ( )L2L2L_2

Perte absolue ( )L1L1L_1

Représenter les pertes

Analyser la sensibilité

Code

Perte quadratique ( ) $L_2$

Perte absolue ( ) $L_1$