Y a-t-il 99 centiles ou 100 centiles? Et sont-ils des groupes de nombres, ou des lignes de séparation, ou des pointeurs vers des nombres individuels?
Je suppose que la même question s'appliquerait aux quartiles ou à tout quantile.
J'ai lu que l'indice d'un nombre à un centile particulier (p), étant donné n éléments, est i = (p / 100) * n
Cela me suggère qu'il y a 100 centiles .. car en supposant que vous avez 100 nombres (i = 1 à i = 100), alors chacun aurait un indice (1 à 100).
Si vous aviez 200 nombres, il y aurait 100 centiles, mais feraient chacun référence à un groupe de deux nombres. Ou 100 diviseurs, à l'exclusion du cos à l'extrême gauche ou à l'extrême droite, sinon vous obtiendriez 101 diviseurs. Ou des pointeurs vers des nombres individuels pour que le premier centile se réfère au deuxième nombre, (1/100) * 200 = 2 Et le centième centile se réfère au 200e nombre (100/100) * 200 = 200
J'ai parfois entendu parler de 99 centiles.
Google montre le dictionnaire d'Oxford qui dit de percentile - "chacun des 100 groupes égaux dans lesquels une population peut être divisée selon la distribution des valeurs d'une variable particulière." et "chacune des 99 valeurs intermédiaires d'une variable aléatoire qui divise une distribution de fréquence en 100 de ces groupes."
Wikipédia dit que "le 20e centile est la valeur en dessous de laquelle 20% des observations peuvent être trouvées" % des valeurs sont <= pour lui ". Si c'était juste <et non <=, alors selon ce raisonnement, le 100e centile serait la valeur en dessous de laquelle 100% des valeurs peuvent être trouvées. J'ai entendu cela comme un argument selon lequel il ne peut y avoir de 100e centile, parce que vous ne pouvez pas avoir un nombre où il y a 100% des nombres en dessous. Mais je pense que peut-être cet argument selon lequel vous ne pouvez pas avoir un 100e centile est incorrect et est basé sur une erreur que la définition d'un centile implique <= pas <. (ou> = pas>). Ainsi, le centième centile serait le nombre final et serait>
Réponses:
Ces deux sens du centile , du quartile , etc. sont largement utilisés. Il est plus facile d'illustrer la différence avec les quartiles:
le sens du «diviseur» - il y a 3 quartiles, qui sont les valeurs divisant la distribution (ou l'échantillon) en 4 parties égales:
(Parfois, cela est utilisé avec les valeurs max et min incluses, donc il y a 5 quartiles numérotés de 0 à 4; notez que cela n'est pas en conflit avec la numérotation ci-dessus, il la prolonge simplement.)
le sens «bin»: il y a 4 quartiles, les sous-ensembles dans lesquels ces 3 valeurs divisent la distribution (ou l'échantillon)
Aucune de ces utilisations ne peut raisonnablement être qualifiée de «mauvaise»: les deux sont utilisées par de nombreux praticiens expérimentés, et les deux apparaissent dans de nombreuses sources faisant autorité (manuels, dictionnaires techniques, etc.).
Avec les quartiles, le sens utilisé est généralement clair du contexte: parler d' une valeur dans le troisième quartile ne peut être que le sens «bin», alors que parler de toutes les valeurs en dessous du troisième quartile signifie probablement le sens «diviseur». Avec les centiles, la distinction est plus souvent floue, mais elle n'est pas non plus aussi importante dans la plupart des cas, car 1% d'une distribution est si petite - une bande étroite est approximativement une ligne. Parler de tout le monde au-dessus du 80e centile pourrait signifier les 20% ou les 19% les plus riches, mais dans un contexte informel ce n'est pas une différence majeure, et dans un travail rigoureux, le sens nécessaire devrait probablement être clarifié par le reste du contexte.
(Certaines parties de cette réponse sont adaptées de /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , qui donne également des citations + références.)
la source
Prenez cette réponse avec un grain de sel - cela a commencé assez mal et je suis toujours en train de décider quoi en faire.
La question porte en partie sur la langue et l'usage, alors que cette réponse se concentre sur les mathématiques. J'espère que les mathématiques fourniront un cadre pour comprendre différents usages.
Une bonne façon de traiter cela est de commencer par des calculs simples et de revenir en arrière au cas plus compliqué de données réelles. Commençons par les PDF, les CDF et les CDF inverses (également appelés fonctions quantiles). LeX ème quantile d'une distribution avec pdf F et cdf F est F- 1( x ) . Supposons que le z ème centile soit F- 1( z/ 100) . Cela permet de cerner l'ambiguïté que vous identifiez: nous pouvons examiner des situations où F est 1) non inversible, 2) uniquement inversible sur un certain domaine, ou 3) inversible mais son inverse n'atteint jamais certaines valeurs.
Exemple de 1): je vais laisser cela pour la fin; continue de lire.
Exemple de 2): pour une distribution uniforme de 0,1, le CDF est inversible lorsqu'il est limité à [0, 1], de sorte que les 100e et 0e centiles pourraient être définis commeF−1(1) et F−1(0) étant donné cette mise en garde. Sinon, ils sont mal définis car F(−0.5) (par exemple) vaut également 0.
Un autre exemple de 2): Pour une distribution uniforme sur les deux intervalles disjoints de 0 à 1 et 2 à 3, le CDF ressemble à ceci.
La plupart des quantiles de cette distribution existent et sont uniques, mais la médiane (50e centile) est intrinsèquement ambiguë. Dans R, ils vont à mi-chemin:
quantile(c(runif(100), runif(100) + 2), 0.5)
retourne environ 1,5.Exemple de 3): Pour une distribution normale, les 100e et 0e centiles n'existent pas (ou ils "sont"±∞ ). En effet, le CDF normal n'atteint jamais 0 ou 1.
Pour le 60e centile, R renvoie 1 (
quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)
). Pour le 65e centile, R renvoie également 1. Vous pouvez penser à cela en dessinant 100 observations, en les classant de bas en haut et en renvoyant le 60e ou 65e élément. Si vous faites cela, vous obtiendrez le plus souvent 1.En ce qui concerne les données réelles, toutes les distributions sont discrètes. (Le CDF empirique de
runif(100)
ounp.random.random(100)
a 100 incréments regroupés autour de 0,5.) Mais, plutôt que de les traiter comme discrets, laquantile
fonction de R semble les traiter comme des échantillons de distributions continues. Par exemple, la médiane (le 50e centile ou 0,5 quantile) de l'échantillon 3,4, 5, 6, 7, 8 est donnée comme 5,5. Si vous tirez 2n échantillons d'une distribution unif (3,8) et prenez n'importe quel nombre entre le nième et (n + 1) ème échantillon, vous convergerez vers 5,5 à mesure que n augmentera.Il est intéressant de considérer également la distribution uniforme discrète avec une probabilité égale de frapper 3,4,5,6,7,8. (Un jet de dé plus deux.) Si vous adoptez l'approche de l'échantillon et du rang décrite ci-dessus pour la distribution de Poisson, vous obtiendrez généralement 5 ou 6. Au fur et à mesure que les échantillons grossissent, la distribution du nombre à mi-hauteur convergera de moitié cinq et demi six. 5.5 semble ici aussi un compromis raisonnable.
la source
R
, par exemple, tapezquantile(0)
.On m'a appris qu'une observation dans le nième centile était supérieure à n% des observations dans l'ensemble de données considéré. Ce qui pour moi implique qu'il n'y a pas de 0e ou 100e centile. Aucune observation ne peut être supérieure à 100% des observations car elle fait partie de ces 100% (et une logique similaire s'applique dans le cas de 0).
Edit: Pour ce que ça vaut, cela est également cohérent avec l'utilisation non académique du terme que j'ai rencontré: "X est dans le nième centile " implique que le centile est le groupe, pas une frontière.
Je n'ai malheureusement aucune source pour cela que je puisse vous indiquer.
la source
Il existe d'autres façons de calculer les centiles, ce qui suit n'est pas le seul. Tiré de cette source .
Exemple des mêmes notes pour l'illustration:
Non.
résultant en
la source
Remarque - J'accepterai la réponse de quelqu'un d'autre plutôt que la mienne. Mais je vois des commentaires utiles, donc j'écris juste une réponse qui en fait mention.
Basé sur la terminologie "-iles" de Nick pour le demi-pour cent supérieur
il semble que les termes soient ambigus, et je suppose (sur la base de ma compréhension de ce poste), une meilleure terminologie serait X% point et X% -Y% group; donc point quantile (donc pour les points quartile qui pourraient être de 0 à 4); groupe de quantiles allant du point de quantile X au point de quantile Y.
Quoi qu'il en soit, on obtiendrait 101 pour les centiles, bien qu'un commentaire suggère que l'on pourrait se référer à 101 points (je suppose que si vous avez compté des points de centile et uniquement des nombres entiers), mais même alors, si l'on parle de 1er, 2e, 3e, centile ou quantile, c'est compter et on ne peut pas compter le premier comme 0, et vous ne pouvez pas avoir par exemple plus de 4 quartiles ou plus de 100 centiles. Donc, si on parle 1er, 2e, 3e, cette terminologie ne peut pas vraiment faire référence au point 0. Si quelqu'un a dit 0e point, alors que c'est clair, cela signifie point 0, je pense qu'ils devraient vraiment dire point quantile 0. Ou groupe quantile au point 0. Même les informaticiens ne diraient pas 0e; même ils comptent le premier élément comme 1, et s'ils l'appellent élément 0, c'est une indexation de 0, pas un compte.
Un commentaire mentionne "Il ne peut pas y en avoir 100. Soit 99 ou 101, selon que vous comptez le maximum et le minimum". Je pense qu'il y a un cas pour 99 ou 101, quand on parle de points quantiles plutôt que de groupes, mais je ne dirais pas 0e. Pour n éléments, un index peut aller de 0 ... n-1 et on n'écrirait pas th / st, par exemple 1er, 2e, etc., sur un index (à moins que l'index n'ait peut-être indexé le premier élément comme 1). Mais un index commençant le premier élément avec un index de 0 n'est pas un 1er, 2ème, 3ème compte. Par exemple, l'élément avec un index de 0 est le 1er élément, on ne dirait pas 0 et étiqueter le deuxième élément 1er.
la source