Quand utiliserions-nous des tantiles et la médiale, plutôt que des quantiles et la médiane?

14

Je ne trouve pas de définitions de tantile ou médial sur Wikipedia ou Wolfram Mathworld, mais l'explication suivante est donnée dans Bílková, D. et Mala, I. (2012), " Application de la méthode du moment L lors de la modélisation de la distribution des revenus en République tchèque ", Austrian Journal of Statistics , 41 (2), 125–132.

La médiane est la valeur d'un tantile de (échantillon) tout comme la médiane de l'échantillon est égale à la valeur d'un quantile d'échantillon de . Les échantillons tantiles que les échantillons quantiles sont basés sur un échantillon ordonné. Tout d'abord, les sommes cumulées d'observations dans l'échantillon ordonné sont évaluées. Ensuite, pour un pourcentage donné , , un tantile est défini comme la valeur de la variable analysée qui divise toutes les observations de l'échantillon ordonné en deux parties: la somme des observations plus petites ou égales est de la somme totale des observations et la somme des observations supérieures représentent le résiduel de cette somme.50%50%p0<p<100p%p%(100p)%

Quand est-il judicieux de les utiliser comme mesures de localisation, plutôt que comme la médiane plus conventionnelle ou d'autres quantiles? Une situation possible, les revenus des ménages, est donnée dans cet article:

On peut déduire de cette définition que la médiane peut être utilisée comme une caractéristique raisonnable du niveau de revenu, puisque les ménages dont le revenu est inférieur ou égal à la médiane reçoivent la moitié du revenu total de l'échantillon, ceux dont le revenu est supérieur que la médiane recevant l'autre moitié.

Dans ce cas, le revenu médian des ménages s'est révélé être de 117 497 CZK (soit la moitié des ménages gagnaient plus que cela et la moitié gagnait plus), par rapport à un revenu médian des ménages de 133 930 CZK (les ménages dont le revenu était supérieur à ce chiffre recevaient la moitié des revenu total). À noter que cette comparaison ne reflète pas nécessairement l'asymétrie des revenus des ménages, ni même sa non-uniformité: même si les revenus des ménages étaient uniformément répartis, la médiane se situerait toujours au-dessus de la médiane. Pour autant que je comprends la définition, la médiane ne serait égale à la médiane que si tous les ménages recevaient le même revenu.

Y a-t-il donc une raison particulière de préférer la médiale dans ce cas, ou du moins de l'utiliser comme mesure complémentaire? Que nous dit exactement la comparaison entre médiane et médiale? Il ne semble pas que la médiane soit directement comparable à d'autres mesures de tendance centrale pour les raisons que je viens de mentionner. Y a-t-il d'autres situations où les médiaux / tantiles sont largement utilisés ou considérés comme particulièrement informatifs? Des exemples pratiques de leur utilisation, avec des exemples de documents de recherche, seraient les bienvenus, et une idée intuitive du contexte plus large dans lequel ils pourraient s'avérer utiles serait encore meilleure.

Il faut que les totaux et les sous-totaux soient significatifs - quelque chose qui semble pertinent avec l'argent, et comment "le gâteau" est distribué - mais même l'acte d'addition n'a de sens que pour certaines quantités. Pour des propriétés intensives plutôt qu'extensives , telles que la densité ou la température, aucune sorte de sommation ne serait physiquement significative. Il me semble qu'une propriété étendue est nécessaire mais pas suffisante pour que les tantiles soient utiles, car je peux imaginer un analyste maritime intéressé par le poids de la cargaison transportée est la limite de sorte que 50% de toute la cargaison (en poids) soit transporté dans des charges de ce poids ou au-dessus, mais je ne peux pas imaginer un écologiste intéressé par la longueur du triton qui soit telle que 50% de la longueur totale de tous les tritons soient fournis par des tritons de cette longueur ou plus.

Silverfish
la source
3
@NickCox Pour autant que je le comprenne, la médiane donne une valeur seuil où, grosso modo (j'ignore complètement le problème des liens), la moitié des ménages reçoivent plus que le seuil et la moitié des ménages en reçoivent moins. La médiane donne un seuil différent, de sorte que le revenu total des ménages recevant plus que le seuil constitue 50% de tous les revenus, tandis que le revenu total des ménages recevant moins que le seuil constitue 50% de tous les revenus.
Silverfish
2
Une astuce: je suis devenu curieux curieux de cela après un commentaire de @ttnphns sur une question précédente ; les moyens (arithmétique, géométrique, harmonique, motorisé, exponentiel, combinatoire, etc.) sont des "moyennes analytiques". La médiane, les quantiles et les tantiles sont des "moyennes positionnelles".
Silverfish
4
Merci; J'ai mal lu cela et j'apprécie la correction. Je reformulerais de "somme d'observations" à "somme de valeurs", car "somme d'observations" est trop proche de "nombre d'observations" pour moi. Ou peut-être que je cherche une excuse ... Il devrait y avoir un lien avec les courbes de Lorenz. La mesure ne semble utile que si la variable concernée est théoriquement additive ou étendue. Sir David Cox souligne souvent l'importance de savoir si les variables sont étendues. Il est donc logique de considérer de manière substantielle le revenu total, les précipitations totales, mais pas le revenu journalier total ni la température totale.
Nick Cox
2
@NickCox Je pense que l'extensibilité est un excellent point (et votre reformulation suggérée aurait également été une amélioration à mon avis), bien qu'il me semble qu'une propriété étendue soit nécessaire mais pas suffisante pour que les tantiles soient utiles. Il semble plausible que nous puissions nous intéresser, par exemple, au poids de la cargaison transportée qui constitue la limite de sorte que 50% de toute la cargaison (en poids) soit transportée dans des charges de ce poids ou plus; mais je ne peux pas imaginer être intéressé par la longueur du triton qui est telle que 50% de la longueur totale de tous les tritons proviennent de tritons de cette longueur ou plus.
Silverfish
1
Je suis d'accord dans la pratique, mais je ne pense pas que le principe soit affecté. La réponse à "Mais cela ne serait ni intéressant ni utile" ne doit pas toujours être une démonstration de principe mathématique ou statistique; il y a aussi de la place pour "Ne le faites pas!".
Nick Cox

Réponses:

3

C'est vraiment un commentaire, mais trop long pour un commentaire. Il essaie de clarifier la définition de "tantile" (dans le cas p=0.5 qui est analogue à la médiane). Soit X une variable aléatoire absolument continue (pour simplifier) ​​avec la fonction de densité f(x) . Nous supposons que l'espérance μ=EX existe, c'est-à-dire l'intégrale μ=xf(x)dx converge. Définir, de façon analogue à la fonction de distribution cumulative, une "fonction d'attente cumulative" (je n'ai jamais vu un tel concept, a-t-il un nom officiel?) Par

G(t)=txf(x)dx
Alors le "tantile" est la solutiont de l'équationG(t)=μ/2 .

Cette interprétation est-elle correcte? Est-ce cela qui était prévu?

Pour revenir à la question initiale, dans le contexte d'une répartition des revenus, le tantile est la valeur du revenu de sorte que la moitié du revenu total est destinée aux personnes ayant un revenu supérieur, et la moitié du revenu total est destinée aux personnes ayant un revenu inférieur à ce revenu.

EDIT

G(t)

G(t)t

Un autre terme utilisé pour cette idée est "attente partielle". Voir par exemple /math/1080530/the-partial-expectation-mathbbex-xk-for-an-alpha-stable-distributed-r et utilisez google!

X>0

Fk(x)=1EXk0xtkf(t)dt
kG(t)=μF1(t)F1FF0
{(u,L(u))}={(u,v):u=F(x),v=F1(x);x0}

kjetil b halvorsen
la source
1
Merci pour l'ajout - je vais devoir faire un peu de lecture par son apparence!
Silverfish