Je m'intéresse à la définition de quartile qui est habituellement utilisée lorsque vous êtes dans les statistiques de base. J'ai un livre de type Stat 101 et il donne juste une définition intuitive. "Environ un quart des données se situe dans ou en dessous du premier quartile ..." Mais, il donne un exemple où il calcule Q1, Q2 et Q3 pour l'ensemble de données
5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37
Puisqu'il y a 15 données, il en choisit 15 comme médiane, Q2. Il divise ensuite les données restantes en deux moitiés, 5 à 14 et 16 à 37. Celles-ci contiennent chacune 7 éléments de données et trouvent la médiane de chacun de ces ensembles, 10 et 18, comme Q1 et Q3, respectivement. C'est ainsi que je le calculerais moi-même.
J'ai regardé l'article de Wikipédia et il donne 2 méthodes. On est d'accord avec ce qui précède, et on dit que vous pouvez également inclure la médiane 15 dans les deux ensembles (mais vous n'incluriez pas la médiane si c'était la moyenne des deux nombres moyens dans le cas d'un nombre pair de points de données). Tout cela a du sens pour moi.
Mais, j'ai vérifié Excel pour voir comment Excel le calcule. J'utilise Excel 2010, qui a 3 fonctions différentes. Quartile était disponible en 2007 et dans les versions précédentes. Il semble qu'ils veulent que vous cessiez de l'utiliser en 2010, mais il est toujours disponible. Quartile.Inc est nouveau mais est exactement d'accord avec Quartile pour autant que je sache. Et, il y a aussi Quartile.Exc. Les deux derniers sont nouveaux en 2010, je crois. Cette fois, j'ai juste essayé d'utiliser les entiers 1, 2, 3, ..., 10. Je m'attends à ce qu'Excel donne une médiane de 5,5, Q1 de 3 et Q3 de 8. La méthode du livre de statistiques aussi car les deux méthodes sur Wikipedia donneraient ces réponses, puisque la médiane est la moyenne des deux nombres du milieu. Excel donne
quartile number, Quartile.Inc, Quartile.Exc
1, 3.25, 2.75
2, 5.5, 5.5
3, 7.75, 8.25
Aucun de ces éléments n'est d'accord avec ce dont j'ai parlé précédemment.
Les descriptions dans le fichier d'aide pour Excel sont les suivantes:
Quartile.Inc - Renvoie le quartile d'un ensemble de données, basé sur les valeurs de centile de 0..1, inclus.
Quartile.Exc - Renvoie le quartile de l'ensemble de données, basé sur les valeurs de centile de 0..1, exclusif.
Quelqu'un peut-il m'aider à comprendre cette définition qu'Excel utilise?
Réponses:
Typiquement, un rang (entre et pour données) est converti en un pourcentage via la formule1 n n pr 1 n n p
pour une "position de tracé" prédéterminée entre et inclus. La résolution de en termes de donne0 1 r pα 0 1 r p
Excel a toujours utilisé pour ses fonctions etα = 1
PERCENTILE
QUARTILE
. La documentation en ligne pourQUARTILE.INC
etQUARTILE.EXC
est inutile, nous devons donc procéder à une rétro-ingénierie de ce que font ces fonctions.Par exemple, avec les données , nous avons et pour les trois quartiles. L'utilisation de dans la formule précédente donne des rangs de , et , reproduisant les résultats pour .n = 10 p ∈ { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 =( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 ) n = 10 p ∈ { 25 , 50 , 75 } α= 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 = 7,75
QUARTILE.INC
Si, à la place, nous définissons les rangs correspondants sont , et , reproduisant les résultats pour .11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25α = 0 11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25
QUARTILE.EXC
Des tests supplémentaires de votre part (je n'ai pas de version récente d'Excel) peuvent établir la validité de ma supposition que ces deux versions de la fonction quartile sont déterminées par ces deux valeurs (extrêmes) deα .
Soit dit en passant, les rangs fractionnaires sont convertis en valeurs de données au moyen d'une interpolation linéaire. Le processus est expliqué et illustré dans mes notes de cours sur Percentiles et EDF Plots - regardez au bas de cette page. Il existe également un lien vers une feuille de calcul Excel illustrant les calculs.
Si vous souhaitez implémenter une fonction de centile générale dans Excel , voici une macro VBA pour le faire:
Il convertit un pourcentage nominal (tel que 25/100) en pourcentage qui amènerait la
PERCENTILE
fonction d' Excel à retourner la valeur souhaitée. Il est destiné à être utilisé dans les formules cellulaires, comme dans=PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5))
.la source
Il me semble qu'Excel est d'
quartile.inc
accord avec l'originalquartile
, qui est d'accord avec les définitions par défaut de R et d'autres définitions.Avec un indice utile de whuber, j'ai trouvé que Excel
quartile.exc
semble d'accord (sur le cas 1..10) avec latype=6
définition de R du quantile:Ce qui semble répondre à votre question: "Oui, Minitab et SPSS le font."
la source
Je pense que la saveur exc du quartile ignore simplement le 5 et le 37 (min et max dans vos données d'origine).
Dans Stata, les versions par défaut et alternative vous donnent des valeurs quartile.exc avec ces données.
la source
QUARTILE.EXC
.#NUM!
PERCENTILE
Beaucoup de détails intéressants mais pour revenir à la question d'origine, je ne vois pas que deux façons légèrement différentes qui pourraient ne pas donner exactement la même réponse comptent vraiment. Le premier quatile est le point auquel 25% des observations se situent au niveau ou en dessous. Selon la taille de votre échantillon, il peut ou non s'agir d'un point exact dans les données. Donc, si un point est en dessous et le suivant est au-dessus, ce premier quartile n'est pas vraiment bien défini et n'importe quel point entre ces deux peut aussi bien servir. Il en va de même pour la médiane lorsque la taille de l'échantillon est paire. La règle sélectionne le milieu entre les points de données ci-dessous et au-dessus. Mais rien ne dit vraiment que le choix donné par la règle est vraiment meilleur que tout autre point.
la source
Pour ceux d'entre vous qui utilisent Excel, il existe une assez bonne ventilation des différentes méthodes de version ici http://peltiertech.com/WordPress/comparison/
la source
dans Excel 2016, j'ai remarqué que l'on peut obtenir les bonnes valeurs de quartiles si:
la source