Peut-on dire que 50% des données se situeront entre le 25e et le 75e centile?

8

Disons que nous avons le cadre de données suivant:

       TY_MAX
141  1.004622
142  1.004645
143  1.004660
144  1.004672
145  1.004773
146  1.004820
147  1.004814
148  1.004807
149  1.004773
150  1.004820
151  1.004814
152  1.004834
153  1.005117
154  1.005023
155  1.004928
156  1.004834
157  1.004827
158  1.005023
159  1.005248
160  1.005355

25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644

Je suis un peu confus ici. Si nous obtenons le 75e centile, 75% des données devraient être inférieures à ce centile. Et si nous pouvons atteindre le 25e centile, 25% des données devraient être inférieures à ce 25e. Maintenant, je pense que 50% des données devraient se situer entre le 25 et le 50. Et aussi le 50e centile me donne une valeur différente. Assez juste, ce qui signifie que 50% des données devraient être inférieures à cette valeur. Mais ma question est de savoir si mon approche est correcte?

EDIT: Et pouvons-nous également dire que 98% des données se situeront entre le 1er et le 99e centile?

Don Coder
la source
2
Oui, mais vous pouvez également dire que 50% des données ne le seront pas!
James

Réponses:

30

Oui.

  • 75% de vos données sont inférieures au 75e centile.
  • 25% de vos données sont inférieures au 25e centile.
  • Par conséquent, 50% (= 75% -25%) de vos données se situent entre les deux, c'est-à-dire entre le 25e et le 75e centile.
  • De façon tout à fait analogue, 98% de vos données se situent entre le 1er et le 99e centile.
  • Et la moitié inférieure de vos données, à nouveau 50%, est inférieure au 50e centile.

Ces chiffres peuvent ne pas être complètement corrects, surtout si vous avez un petit nombre de données. Notez également qu'il existe différentes conventions sur la façon dont les quantiles et les centiles sont réellement calculés .

Stephan Kolassa
la source
5
une autre raison pour laquelle vos numéros peuvent être erronés est lorsque vous avez beaucoup de liens (observations avec la même valeur)
Maarten Buis
4
"Centile utilisé le plus courant" - voulez-vous dire quel type selon l' typeargument des Rquantile() ? Hyndman & Fan recommande le type 7, qui est également la valeur par défaut. Pour être tout à fait honnête, les différences sont mineures. Ou voulez-vous dire quel pourcentage est couramment utilisé? Cela dépendra de votre application, nous ne pouvons pas vous aider. Et bien sûr, plus vous obtenez de données, plus vous serez précis. Le niveau de précision suffisant dépendra de vos données et de votre application.
Stephan Kolassa
2
Le niveau dont vous avez besoin dépendra de l'utilisation de votre analyse.
Stephan Kolassa
2
"Pas tout à fait correct, surtout si vous avez un petit nombre de données." - il pourrait être utile de clarifier cela car il y a deux facteurs que je peux voir en jeu: (1) la taille de l'échantillon peut ne pas être exactement divisible par 4 ou 100 ou tout ce qui est nécessaire pour le quantile en question; (2) les points de données peuvent ne pas être uniques (par exemple, pour les données sur un nombre entier, échelle de 1 à 5, vous pouvez vous attendre à de nombreuses valeurs répétées; dans ce cas, les quartiles peuvent très mal se comporter par rapport à des propriétés comme "50% des données") se situent au-dessus de la médiane "ou" entre Q1 et Q3 "et les percentiles sont souvent une perte de temps)
Silverfish
1
@StephanKolassa, il semble que Hyndman & Fan ait recommandé le type 8. (qui est également mentionné dans ?quantile).
Axeman
2

Idéalement, oui.

Les centiles sont généralement interprétés en termes de distribution normale (car la normalité est souvent une hypothèse sous-jacente, parfois non déclarée, lors du calcul de toute sorte de mesures statistiques élémentaires). La distribution ne doit cependant pas être normale.

Selon ce site ...

La distribution normale standard peut également être utile pour calculer les centiles . Par exemple, la médiane est le 50e centile, le premier quartile est le 25e centile et le troisième quartile est le 75e centile. Dans certains cas, il peut être intéressant de calculer d'autres centiles, par exemple le 5e ou le 95e. La formule ci-dessous est utilisée pour calculer les centiles d'une distribution normale:X=μ+Zσ

Donc, si nous supposons la normalité, nous pouvons facilement calculer n'importe quel percentile que nous recherchons. Les centiles ne nécessitent cependant aucune hypothèse de distribution et sont liés aux données à partir desquelles ils sont calculés. Cela signifie que les centiles peuvent fournir des repères significatifs pour les distributions normales et non normales. Vous pouvez également utiliser des centiles dans une interprétation de probabilité, bien sûr basée sur les mesures dont vous disposez actuellement, qui pourraient être de bons ou de mauvais indicateurs de la véritable distribution sous-jacente.

Selon ce site ...

Interprétation directe: considérons le 10 (P10) et 90e (P90) centiles: "compte tenu des données disponibles, nous savons que la propriété du sol p<P10 10% du temps, et, p<P90 90% du temps ". Cette même affirmation peut être formulée en utilisant des probabilités ou des proportions:" compte tenu des données disponibles, propriété du sol p est dans la plage de {P10P90} 80% du temps ".

ERT
la source
10
Pour être honnête, je ne pense pas que votre accent sur la distribution normale soit utile ici. Le PO ne s'intéresse qu'aux centiles empiriques.
Stephan Kolassa
D'accord avec @StephanKolassa, d'autant plus que les données d'exemple du PO ne sont pas normales.
Nuclear Wang