Y a-t-il 99 centiles ou 100 centiles? Et sont-ils des groupes de nombres, ou des diviseurs ou des pointeurs vers des nombres individuels?

27

Y a-t-il 99 centiles ou 100 centiles? Et sont-ils des groupes de nombres, ou des lignes de séparation, ou des pointeurs vers des nombres individuels?

Je suppose que la même question s'appliquerait aux quartiles ou à tout quantile.

J'ai lu que l'indice d'un nombre à un centile particulier (p), étant donné n éléments, est i = (p / 100) * n

Cela me suggère qu'il y a 100 centiles .. car en supposant que vous avez 100 nombres (i = 1 à i = 100), alors chacun aurait un indice (1 à 100).

Si vous aviez 200 nombres, il y aurait 100 centiles, mais feraient chacun référence à un groupe de deux nombres. Ou 100 diviseurs, à l'exclusion du cos à l'extrême gauche ou à l'extrême droite, sinon vous obtiendriez 101 diviseurs. Ou des pointeurs vers des nombres individuels pour que le premier centile se réfère au deuxième nombre, (1/100) * 200 = 2 Et le centième centile se réfère au 200e nombre (100/100) * 200 = 200

J'ai parfois entendu parler de 99 centiles.

Google montre le dictionnaire d'Oxford qui dit de percentile - "chacun des 100 groupes égaux dans lesquels une population peut être divisée selon la distribution des valeurs d'une variable particulière." et "chacune des 99 valeurs intermédiaires d'une variable aléatoire qui divise une distribution de fréquence en 100 de ces groupes."

Wikipédia dit que "le 20e centile est la valeur en dessous de laquelle 20% des observations peuvent être trouvées" % des valeurs sont <= pour lui ". Si c'était juste <et non <=, alors selon ce raisonnement, le 100e centile serait la valeur en dessous de laquelle 100% des valeurs peuvent être trouvées. J'ai entendu cela comme un argument selon lequel il ne peut y avoir de 100e centile, parce que vous ne pouvez pas avoir un nombre où il y a 100% des nombres en dessous. Mais je pense que peut-être cet argument selon lequel vous ne pouvez pas avoir un 100e centile est incorrect et est basé sur une erreur que la définition d'un centile implique <= pas <. (ou> = pas>). Ainsi, le centième centile serait le nombre final et serait>

barlop
la source
4
Je pense qu'il est peu probable que 100 soit une réponse raisonnable en raison de son traitement asymétrique des extrêmes. Les cas peuvent être faits pour 99 (comme dans la définition que vous citez) ou 101.
whuber
4
Historiquement, les quantiles - comme nous le disons maintenant de manière générique - étaient d'abord des points de synthèse, puis par extension les compartiments, classes ou intervalles qu'ils délimitent. Donc, trois quartiles, y compris la médiane, définissent quatre bacs, etc.
Nick Cox
1
@whuber Vous écrivez "Je pense qu'il est peu probable que 100 soit une réponse raisonnable en raison de son traitement asymétrique des extrêmes." <- pouvez-vous nous en dire plus?
barlop
3
Je répertorie les premières utilisations de divers termes quantiles sur stats.stackexchange.com/questions/235330/… . Si vous regardez dans l'OED ou le jstor, vous obtiendrez des exemples d'utilisation historique.
Nick Cox
2
@whuber Oui, il semble que ce à quoi je fais référence soit correctement appelé "rang centile", utilisé dans les rapports sur les résultats des tests, etc.: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / resources / glossary . Toutes mes excuses pour avoir ajouté à la confusion. Pour ma défense, la différence semble dépendre de l'utilisation des prépositions "à" contre "dans" (voir 1er lien).
Jeff Y

Réponses:

32

Ces deux sens du centile , du quartile , etc. sont largement utilisés. Il est plus facile d'illustrer la différence avec les quartiles:

  1. le sens du «diviseur» - il y a 3 quartiles, qui sont les valeurs divisant la distribution (ou l'échantillon) en 4 parties égales:

       1   2   3
    ---|---|---|---
    

    (Parfois, cela est utilisé avec les valeurs max et min incluses, donc il y a 5 quartiles numérotés de 0 à 4; notez que cela n'est pas en conflit avec la numérotation ci-dessus, il la prolonge simplement.)

  2. le sens «bin»: il y a 4 quartiles, les sous-ensembles dans lesquels ces 3 valeurs divisent la distribution (ou l'échantillon)

     1   2   3   4
    ---|---|---|---
    

Aucune de ces utilisations ne peut raisonnablement être qualifiée de «mauvaise»: les deux sont utilisées par de nombreux praticiens expérimentés, et les deux apparaissent dans de nombreuses sources faisant autorité (manuels, dictionnaires techniques, etc.).

Avec les quartiles, le sens utilisé est généralement clair du contexte: parler d' une valeur dans le troisième quartile ne peut être que le sens «bin», alors que parler de toutes les valeurs en dessous du troisième quartile signifie probablement le sens «diviseur». Avec les centiles, la distinction est plus souvent floue, mais elle n'est pas non plus aussi importante dans la plupart des cas, car 1% d'une distribution est si petite - une bande étroite est approximativement une ligne. Parler de tout le monde au-dessus du 80e centile pourrait signifier les 20% ou les 19% les plus riches, mais dans un contexte informel ce n'est pas une différence majeure, et dans un travail rigoureux, le sens nécessaire devrait probablement être clarifié par le reste du contexte.

(Certaines parties de cette réponse sont adaptées de /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , qui donne également des citations + références.)

PLL
la source
2
(+1) Cette réponse tardive va bien au cœur du problème.
Nick Cox
qu'en est-il en.wikipedia.org/wiki/Percentile dit "chaque score est dans le 100e centile" <- cela ressemble à un bac de la taille de l'ensemble de données, alors que vos bacs sont tous de tailles égales
barlop
1
L'entrée Wikipedia le dit. Je ne peux pas penser à une défense pour une telle formulation. Wikipédia est merveilleux, sauf lorsqu'il est trompeur ou erroné. Cela semblera désinvolte, mais tout ce que je peux faire est d'encourager quiconque regarde qui est actif sur Wikipédia à améliorer l'entrée. Tout le monde doit avoir des règles pour ce qu'il fait et ne fait pas, et être actif ici et dans quelques autres endroits est ma limite personnelle.
Nick Cox
5

Prenez cette réponse avec un grain de sel - cela a commencé assez mal et je suis toujours en train de décider quoi en faire.

La question porte en partie sur la langue et l'usage, alors que cette réponse se concentre sur les mathématiques. J'espère que les mathématiques fourniront un cadre pour comprendre différents usages.

Une bonne façon de traiter cela est de commencer par des calculs simples et de revenir en arrière au cas plus compliqué de données réelles. Commençons par les PDF, les CDF et les CDF inverses (également appelés fonctions quantiles). Le X ème quantile d'une distribution avec pdf F et cdf F est F-1(X) . Supposons que le z ème centile soit F-1(z/100) . Cela permet de cerner l'ambiguïté que vous identifiez: nous pouvons examiner des situations où F est 1) non inversible, 2) uniquement inversible sur un certain domaine, ou 3) inversible mais son inverse n'atteint jamais certaines valeurs.

Exemple de 1): je vais laisser cela pour la fin; continue de lire.

Exemple de 2): pour une distribution uniforme de 0,1, le CDF est inversible lorsqu'il est limité à [0, 1], de sorte que les 100e et 0e centiles pourraient être définis comme F-1(1) et F-1(0) étant donné cette mise en garde. Sinon, ils sont mal définis car F(-0,5) (par exemple) vaut également 0.

Un autre exemple de 2): Pour une distribution uniforme sur les deux intervalles disjoints de 0 à 1 et 2 à 3, le CDF ressemble à ceci.

entrez la description de l'image ici

La plupart des quantiles de cette distribution existent et sont uniques, mais la médiane (50e centile) est intrinsèquement ambiguë. Dans R, ils vont à mi-chemin: quantile(c(runif(100), runif(100) + 2), 0.5)retourne environ 1,5.

Exemple de 3): Pour une distribution normale, les 100e et 0e centiles n'existent pas (ou ils "sont" ± ). En effet, le CDF normal n'atteint jamais 0 ou 1.

z/100yF(y)=z/100

entrez la description de l'image ici

Pour le 60e centile, R renvoie 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Pour le 65e centile, R renvoie également 1. Vous pouvez penser à cela en dessinant 100 observations, en les classant de bas en haut et en renvoyant le 60e ou 65e élément. Si vous faites cela, vous obtiendrez le plus souvent 1.

En ce qui concerne les données réelles, toutes les distributions sont discrètes. (Le CDF empirique de runif(100)ou np.random.random(100)a 100 incréments regroupés autour de 0,5.) Mais, plutôt que de les traiter comme discrets, la quantilefonction de R semble les traiter comme des échantillons de distributions continues. Par exemple, la médiane (le 50e centile ou 0,5 quantile) de l'échantillon 3,4, 5, 6, 7, 8 est donnée comme 5,5. Si vous tirez 2n échantillons d'une distribution unif (3,8) et prenez n'importe quel nombre entre le nième et (n + 1) ème échantillon, vous convergerez vers 5,5 à mesure que n augmentera.

Il est intéressant de considérer également la distribution uniforme discrète avec une probabilité égale de frapper 3,4,5,6,7,8. (Un jet de dé plus deux.) Si vous adoptez l'approche de l'échantillon et du rang décrite ci-dessus pour la distribution de Poisson, vous obtiendrez généralement 5 ou 6. Au fur et à mesure que les échantillons grossissent, la distribution du nombre à mi-hauteur convergera de moitié cinq et demi six. 5.5 semble ici aussi un compromis raisonnable.

eric_kernfeld
la source
2
F1[0,1]F[0,1]F
whuber
Bon point. J'ai essayé de séparer certains cas pour clarifier cela. Comment pourriez-vous améliorer la discussion sur la continuité? L'interprétation des quantiles comme estimateurs est le point central de ma réponse; ils n'ont pas vraiment de sens pour moi sans ça.
eric_kernfeld
Concernant ce dernier: les quantiles n'ont pas besoin d'estimer quoi que ce soit. Ils sont utiles en soi pour décrire et visualiser les données (et sont souvent utilisés uniquement comme statistiques descriptives). Re continuité: Je pense que la plupart des autorités diraient que tous les centiles existent pour des distributions discrètes. Insister autrement est une complication inutile. Cela rendrait également les résultats de la plupart des calculs logiciels totalement mystérieux, qui fournissent heureusement tous les quantiles de 0 à 1 ( inclus ) pour tout ensemble de données. Dans R, par exemple, tapez quantile(0).
whuber
Cette discussion m'a fait réaliser que je ne comprends pas les quantiles de distributions discrètes. Je pense que je devrais supprimer cette réponse.
eric_kernfeld
1
Les gens varient à ce sujet, Eric. Lorsque mes réponses sont si erronées qu'elles sont trompeuses, je les supprime d'abord. Si je vois une valeur potentielle dans une partie de la réponse, je la modifie pour supprimer (ou expliquer) la partie trompeuse, puis la supprimer. D'autres laissent simplement les choses en suspens et prennent leur mot dans le vote; d'autres ajoutent une modification suggérant qu'il pourrait être utile pour les lecteurs de voir où certains malentendus se sont produits; d'autres encore suppriment. Vous pouvez même changer complètement la réponse si vous le souhaitez, comme cela se fait parfois.
whuber
2

On m'a appris qu'une observation dans le nième centile était supérieure à n% des observations dans l'ensemble de données considéré. Ce qui pour moi implique qu'il n'y a pas de 0e ou 100e centile. Aucune observation ne peut être supérieure à 100% des observations car elle fait partie de ces 100% (et une logique similaire s'applique dans le cas de 0).

Edit: Pour ce que ça vaut, cela est également cohérent avec l'utilisation non académique du terme que j'ai rencontré: "X est dans le nième centile " implique que le centile est le groupe, pas une frontière.

Je n'ai malheureusement aucune source pour cela que je puisse vous indiquer.

mkt - Réintégrer Monica
la source
6
Avez-vous une référence faisant autorité pour ce que vous vous souvenez avoir appris? Notez que vous adoptez implicitement une définition de "centile" comme étant un groupe de nombres. L'autre définition citée dans la question est que le centile est une frontière entre ces groupes.
whuber
1
Cela n'a pas de sens pour moi parce que supposons que vos données soient 2,2,2,2,2,2,2,2,2,2,2,2 donc un élément dans un quantile est égal à un élément à sa gauche dans un quantile antérieur. Un élément du nième quantile n'est donc pas supérieur à tous les quantiles restants. Ainsi, un élément du nième centile ne dépasse pas n% des observations dans l'ensemble de données. C'est> = n% d'observations dans l'ensemble de données, mais pas simplement>. Et donc vous pouvez avoir un centième centime .. que pensez-vous de cette logique?
barlop
4
De nombreuses définitions sont mises à rude épreuve si toutes les valeurs sont identiques!
Nick Cox
2
Ceux d'abstrait plié mathématique et idéalisent tandis que ceux qui écrivent des logiciels doivent faire face au désordre des données. Votre exemple de 16 valeurs serait traité différemment par un logiciel que je connais qui suit une règle selon laquelle les valeurs identiques doivent être regroupées de manière identique (et je suis d'accord). Je suis surpris que vous n'ayez pas agonisé les données avec 15 ou 17 valeurs où même si toutes les valeurs sont distinctes, aucune règle ne peut diviser les données en 4 cases de taille égale.
Nick Cox
3
Quelle est la logique similaire pour zéro? "Supérieur à zéro pour cent des observations" ne signifie-t-il pas "égal ou inférieur à toutes les observations", c'est-à-dire que le 0e centile serait la valeur observée la plus basse?
ilkkachu
2

Il existe d'autres façons de calculer les centiles, ce qui suit n'est pas le seul. Tiré de cette source .


p pp%28808028

X1Xn

nXjepje

pje=100(je-0,5)n

Exemple des mêmes notes pour l'illustration:

entrez la description de l'image ici

7507

Si vous aviez 200 nombres, il y aurait 100 centiles, mais feraient chacun référence à un groupe de deux nombres.

Non.

X1X200

100(1-0,5)200100(2-0,5)200100(3-0,5)200...

résultant en

0,25,0,75,1,25...1,2,3,...

naïve
la source
3
La première phrase a fière allure, et l'un des mots les plus importants est approximativement . Par la suite, il s'agit d'une explication minutieuse d'une seule recette. Ce qui est essentiel, c'est qu'il existe plusieurs recettes et que la plupart sinon toutes ont une logique défendable à leur sujet (parfois la logique est de garder les choses aussi simples que possible). Voir le papier Hyndman et Fan mentionné dans de nombreux fils ici sur CV. Je doute que beaucoup de gens prennent votre dernier paragraphe comme moyen de rapporter les centiles de votre exemple.
Nick Cox
@ Nick Cox Merci pour le commentaire perspicace. À propos du dernier paragraphe, je pense que la méthode devrait fonctionner correctement lorsque toutes les observations sont différentes les unes des autres. En cas de nombres répétés, il n'y aura pas de centile unique pour le même nombre qui ne sonne pas bien. Pourriez-vous, avec bonté, suggérer comment traiter l'affaire. Et pourriez-vous également signaler les pièges potentiels dans le dernier paragraphe.
naïf
1
Je ne pense pas que je veuille ou n'ai pas besoin d'ajouter à ce qui est déjà bien expliqué dans la littérature de la revue. Tout d'abord, vous avez un logiciel préféré pour cela. Voyez ce qu'il documente et ce qu'il fait. Deuxièmement, je n'ai pas calculé les centiles à la main depuis quelques décennies, et aucun d'entre nous n'en a besoin. Troisièmement, mon point sur le dernier paragraphe: Je suppose que personne ne veut être informé que les points de données observés sont les centiles 0,25, 0,75, 1,25, ... Ce que les gens veulent varie, mais d'après mon expérience, il s'agit le plus souvent de résumés tels que 1, 5, 10, 25, 50, 75, 90, 95, 99% points ainsi que les exemples extrêmes.
Nick Cox
1
Je viens de remarquer que vous affirmez que 0,5 est dans le jargon EDA souvent appelé la valeur p pour la médiane. Pas dans ma lecture, et même si vous pouvez trouver des exemples qui sont une terminologie terrible étant donné un sens écrasant de la majorité pour la valeur p comme niveau de signification observé.
Nick Cox
Je vais parcourir le document que vous avez suggéré. Merci
naïf
0

Remarque - J'accepterai la réponse de quelqu'un d'autre plutôt que la mienne. Mais je vois des commentaires utiles, donc j'écris juste une réponse qui en fait mention.

Basé sur la terminologie "-iles" de Nick pour le demi-pour cent supérieur

il semble que les termes soient ambigus, et je suppose (sur la base de ma compréhension de ce poste), une meilleure terminologie serait X% point et X% -Y% group; donc point quantile (donc pour les points quartile qui pourraient être de 0 à 4); groupe de quantiles allant du point de quantile X au point de quantile Y.

Quoi qu'il en soit, on obtiendrait 101 pour les centiles, bien qu'un commentaire suggère que l'on pourrait se référer à 101 points (je suppose que si vous avez compté des points de centile et uniquement des nombres entiers), mais même alors, si l'on parle de 1er, 2e, 3e, centile ou quantile, c'est compter et on ne peut pas compter le premier comme 0, et vous ne pouvez pas avoir par exemple plus de 4 quartiles ou plus de 100 centiles. Donc, si on parle 1er, 2e, 3e, cette terminologie ne peut pas vraiment faire référence au point 0. Si quelqu'un a dit 0e point, alors que c'est clair, cela signifie point 0, je pense qu'ils devraient vraiment dire point quantile 0. Ou groupe quantile au point 0. Même les informaticiens ne diraient pas 0e; même ils comptent le premier élément comme 1, et s'ils l'appellent élément 0, c'est une indexation de 0, pas un compte.

Un commentaire mentionne "Il ne peut pas y en avoir 100. Soit 99 ou 101, selon que vous comptez le maximum et le minimum". Je pense qu'il y a un cas pour 99 ou 101, quand on parle de points quantiles plutôt que de groupes, mais je ne dirais pas 0e. Pour n éléments, un index peut aller de 0 ... n-1 et on n'écrirait pas th / st, par exemple 1er, 2e, etc., sur un index (à moins que l'index n'ait peut-être indexé le premier élément comme 1). Mais un index commençant le premier élément avec un index de 0 n'est pas un 1er, 2ème, 3ème compte. Par exemple, l'élément avec un index de 0 est le 1er élément, on ne dirait pas 0 et étiqueter le deuxième élément 1er.

barlop
la source
Toute ambiguïté a été introduite par ceux qui se sont écartés d'un précédent historique clair. Il ne mord pas dur dans la pratique.
Nick Cox
Tous les mathématiciens commencent à compter à zéro. Le concept est simple et naturel: prononcer le mot «zéro» à haute voix annonce son intention de compter. Ensuite, on fait une attribution univoque (peut-être arbitraire) de la séquence de mots "un", "deux", "trois", etc. aux objets comptés. Le dernier de ces mots (s'il y en a un) est égal à la cardinalité de l'ensemble. La beauté de cette idée est que lorsqu'il n'y a aucun élément dans l'ensemble, le dernier mot dit était "zéro", qui est la valeur correcte unique.
whuber
@quand vous écrivez "Tous les mathématiciens commencent à compter à zéro" <- Où pensez-vous que j'ai dit le contraire?
barlop
"ça compte et on ne peut pas compter le premier comme 0".
whuber
1
@whuber peut-être beaucoup pourraient, je pense qu'il y a de nombreuses années, comme lorsque j'étudiais l'informatique, j'ai entendu parfois que les informaticiens comptent à partir de 0, les mathématiciens unilke (ce n'est pas votre affirmation ou la mienne), mais après une réflexion approfondie, j'ai obtenu plus la clarté et réalisé que les informaticiens et les mathématiciens comptent tous les deux à partir de 0 .. La différence est que les informaticiens utilisent souvent un index et que l'index indexe le premier élément comme 0. (mais toujours compter serait 1) ..
barlop