Quartiles dans Excel

10

Je m'intéresse à la définition de quartile qui est habituellement utilisée lorsque vous êtes dans les statistiques de base. J'ai un livre de type Stat 101 et il donne juste une définition intuitive. "Environ un quart des données se situe dans ou en dessous du premier quartile ..." Mais, il donne un exemple où il calcule Q1, Q2 et Q3 pour l'ensemble de données

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

Puisqu'il y a 15 données, il en choisit 15 comme médiane, Q2. Il divise ensuite les données restantes en deux moitiés, 5 à 14 et 16 à 37. Celles-ci contiennent chacune 7 éléments de données et trouvent la médiane de chacun de ces ensembles, 10 et 18, comme Q1 et Q3, respectivement. C'est ainsi que je le calculerais moi-même.

J'ai regardé l'article de Wikipédia et il donne 2 méthodes. On est d'accord avec ce qui précède, et on dit que vous pouvez également inclure la médiane 15 dans les deux ensembles (mais vous n'incluriez pas la médiane si c'était la moyenne des deux nombres moyens dans le cas d'un nombre pair de points de données). Tout cela a du sens pour moi.

Mais, j'ai vérifié Excel pour voir comment Excel le calcule. J'utilise Excel 2010, qui a 3 fonctions différentes. Quartile était disponible en 2007 et dans les versions précédentes. Il semble qu'ils veulent que vous cessiez de l'utiliser en 2010, mais il est toujours disponible. Quartile.Inc est nouveau mais est exactement d'accord avec Quartile pour autant que je sache. Et, il y a aussi Quartile.Exc. Les deux derniers sont nouveaux en 2010, je crois. Cette fois, j'ai juste essayé d'utiliser les entiers 1, 2, 3, ..., 10. Je m'attends à ce qu'Excel donne une médiane de 5,5, Q1 de 3 et Q3 de 8. La méthode du livre de statistiques aussi car les deux méthodes sur Wikipedia donneraient ces réponses, puisque la médiane est la moyenne des deux nombres du milieu. Excel donne

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

Aucun de ces éléments n'est d'accord avec ce dont j'ai parlé précédemment.

Les descriptions dans le fichier d'aide pour Excel sont les suivantes:

Quartile.Inc - Renvoie le quartile d'un ensemble de données, basé sur les valeurs de centile de 0..1, inclus.

Quartile.Exc - Renvoie le quartile de l'ensemble de données, basé sur les valeurs de centile de 0..1, exclusif.

Quelqu'un peut-il m'aider à comprendre cette définition qu'Excel utilise?

Graphth
la source
5
Une autre excellente illustration de pourquoi ne pas utiliser Excel pour quoi que ce soit de statistique. :-)
Wayne
1
Les amis ne laissent pas leurs amis utiliser Excel pour les statistiques. Triste mais vrai
Chris Beeley

Réponses:

11

Typiquement, un rang (entre et pour données) est converti en un pourcentage via la formule1 n n pr1nnp

p=100rαn+12α

pour une "position de tracé" prédéterminée entre et inclus. La résolution de en termes de donne0 1 r pα01rp

r=(n+1-2α)(p/100)+α.

Excel a toujours utilisé pour ses fonctions etα=1PERCENTILEQUARTILE . La documentation en ligne pour QUARTILE.INCet QUARTILE.EXCest inutile, nous devons donc procéder à une rétro-ingénierie de ce que font ces fonctions.

Par exemple, avec les données , nous avons et pour les trois quartiles. L'utilisation de dans la formule précédente donne des rangs de , et , reproduisant les résultats pour .n = 10 p { 25 , 50 , 75 } α = 1 9 ( 0,25 ) + 1 = 3,25 9 ( 0,50 ) + 1 = 5,5 9 ( 0,75 ) + 1 =(1,2,3,4,5,6,7,8,9,dix)n=dixp{25,50,75}α=19(0,25)+1=3,259(0,50)+1=5.59(0,75)+1=7.75QUARTILE.INC

Si, à la place, nous définissons les rangs correspondants sont , et , reproduisant les résultats pour .11 ( 0,25 ) = 2,75 11 ( 0,50 ) = 5,5 11 ( 0,75 ) = 8,25α=011(0,25)=2,7511(0,50)=5.511(0,75)=8.25QUARTILE.EXC

Des tests supplémentaires de votre part (je n'ai pas de version récente d'Excel) peuvent établir la validité de ma supposition que ces deux versions de la fonction quartile sont déterminées par ces deux valeurs (extrêmes) deα .

Soit dit en passant, les rangs fractionnaires sont convertis en valeurs de données au moyen d'une interpolation linéaire. Le processus est expliqué et illustré dans mes notes de cours sur Percentiles et EDF Plots - regardez au bas de cette page. Il existe également un lien vers une feuille de calcul Excel illustrant les calculs.

Si vous souhaitez implémenter une fonction de centile générale dans Excel , voici une macro VBA pour le faire:

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

Il convertit un pourcentage nominal (tel que 25/100) en pourcentage qui amènerait la PERCENTILEfonction d' Excel à retourner la valeur souhaitée. Il est destiné à être utilisé dans les formules cellulaires, comme dans =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).

whuber
la source
Notez qu'une fois que vous comprenez exactement ce que fait Excel, vous pouvez l'utiliser efficacement pour des travaux statistiques.
whuber
5
Si je peux être en désaccord avec humour sur votre commentaire: Excel peut être utilisé efficacement pour le travail statistique, si vous êtes un assistant statistique qui peut prouver à partir des premiers principes ce qui devrait être fait, alors inversez les méthodes d'Excel pour déterminer ce qu'il fait réellement. Lorsque vous êtes aussi bon, la plupart des outils feront l'affaire. Bien que je souligne également que dans ce fil, 100% des assistants impliqués dans cette discussion jusqu'à présent n'ont pas accès à la dernière version d'Excel, il est donc peu probable de l'utiliser réellement.
Wayne
Touche ', @Wayne. (Mais certains d'entre nous utilisent toujours d'anciennes versions d'Excel :-).)
whuber
1
Whuber, merci d'avoir partagé la solution VBA. Ce sera extrêmement utile. En tant que personne qui a besoin de faire des statistiques mais qui est coincé avec Excel comme le seul outil facilement disponible (oui, j'ai essayé R, mais ne peux pas tout à fait comprendre), j'apprécie les outils pour aider à plier Excel à mes besoins.
dav
4

Il me semble qu'Excel est d' quartile.incaccord avec l'original quartile, qui est d'accord avec les définitions par défaut de R et d'autres définitions.

Avec un indice utile de whuber, j'ai trouvé que Excel quartile.excsemble d'accord (sur le cas 1..10) avec la type=6définition de R du quantile:

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

Ce qui semble répondre à votre question: "Oui, Minitab et SPSS le font."

Wayne
la source
R n'a-t-il pas neuf définitions de quantiles? (+1 pour le montage, btw)
whuber
@whuber: Ne faites pas attention à l'homme derrière le rideau! (Je vais modifier ma réponse. Après un examen plus approfondi, cela correspond à l'une des autres définitions de R, qui est évidemment ce que Minitab et SPSS utilisent. Merci!)
Wayne
2

Je pense que la saveur exc du quartile ignore simplement le 5 et le 37 (min et max dans vos données d'origine).

Dans Stata, les versions par défaut et alternative vous donnent des valeurs quartile.exc avec ces données.

Dimitriy V. Masterov
la source
Cette supposition semble être incompatible avec la documentation qui affirme que les valeurs max et min peuvent en effet être renvoyées par QUARTILE.EXC.
whuber
Dans ma version d'Excel 2010, le QUARTILE.EXC (plage de cellules, k) renverra #NUM! sauf si k = {1,2,3}, qui correspondent aux 25e, 50e et 75e centiles selon le menu contextuel qui apparaît. Le QUARTILE d'origine acceptera également 0 et 4 comme deuxième argument, ce qui correspond au min et au max.
Dimitriy V. Masterov
1
La documentation indique "Si quart ≤ 0 ou si quart ≥ 4, QUARTILE.EXC renvoie la valeur d'erreur #NUM!". Cela semble vrai. La deuxième instruction «MIN, MEDIAN et MAX renvoie la même valeur que QUARTILE.EXC lorsque quart est égal à 0 (zéro), 2 et 4, respectivement» apparaît fausse, sauf si je manque quelque chose. Quel bordel!
Dimitriy V. Masterov
nn-11#NUM!PERCENTILE
1
Les 3 saveurs du percentile se comportent de la même manière que le quartile pour moi. Pour les données 5-37, PERCENTILE.EXC (plage, k) donne #NUM! pour k = {0,1}. Pour k = 0,25, PERCENTILE.EXC donne 10. Si je jette 5 et 37, il donne 10,5, ce qui correspond aux 2 autres façons.
Dimitriy V. Masterov
2

Beaucoup de détails intéressants mais pour revenir à la question d'origine, je ne vois pas que deux façons légèrement différentes qui pourraient ne pas donner exactement la même réponse comptent vraiment. Le premier quatile est le point auquel 25% des observations se situent au niveau ou en dessous. Selon la taille de votre échantillon, il peut ou non s'agir d'un point exact dans les données. Donc, si un point est en dessous et le suivant est au-dessus, ce premier quartile n'est pas vraiment bien défini et n'importe quel point entre ces deux peut aussi bien servir. Il en va de même pour la médiane lorsque la taille de l'échantillon est paire. La règle sélectionne le milieu entre les points de données ci-dessous et au-dessus. Mais rien ne dit vraiment que le choix donné par la règle est vraiment meilleur que tout autre point.

Michael R. Chernick
la source
α1/31/2
0

Pour ceux d'entre vous qui utilisent Excel, il existe une assez bonne ventilation des différentes méthodes de version ici http://peltiertech.com/WordPress/comparison/

Peter
la source
2
Il serait préférable que vous puissiez les résumer dans votre réponse. Bien que le lien puisse répondre à la question, ils sont parfois obsolètes, auquel cas votre réponse ne sera pas utile pour les futurs lecteurs.
Andy
0

dans Excel 2016, j'ai remarqué que l'on peut obtenir les bonnes valeurs de quartiles si:

  • l'ensemble de données a un nombre impair d'entrées: utilisez QUARTILE.EXC
  • l'ensemble de données a un nombre pair d'entrées: utilisez la moyenne de QUARTILE.EXC et QUARTILE.INC
Max Knyazeff
la source
1
Étant donné le nombre de définitions des quantiles, comme en témoignent certaines des autres réponses, pouvez-vous expliquer ce que vous entendez par les bonnes valeurs?
mdewey