Disons que nous avons le cadre de données suivant:
TY_MAX
141 1.004622
142 1.004645
143 1.004660
144 1.004672
145 1.004773
146 1.004820
147 1.004814
148 1.004807
149 1.004773
150 1.004820
151 1.004814
152 1.004834
153 1.005117
154 1.005023
155 1.004928
156 1.004834
157 1.004827
158 1.005023
159 1.005248
160 1.005355
25th: 1.0031185409705132
50th: 1.004634349800723
75th: 1.0046683578907745
Calculated 50th: 1.003893449430644
Je suis un peu confus ici. Si nous obtenons le 75e centile, 75% des données devraient être inférieures à ce centile. Et si nous pouvons atteindre le 25e centile, 25% des données devraient être inférieures à ce 25e. Maintenant, je pense que 50% des données devraient se situer entre le 25 et le 50. Et aussi le 50e centile me donne une valeur différente. Assez juste, ce qui signifie que 50% des données devraient être inférieures à cette valeur. Mais ma question est de savoir si mon approche est correcte?
EDIT: Et pouvons-nous également dire que 98% des données se situeront entre le 1er et le 99e centile?
quantiles
statsmodels
Don Coder
la source
la source
Réponses:
Oui.
Ces chiffres peuvent ne pas être complètement corrects, surtout si vous avez un petit nombre de données. Notez également qu'il existe différentes conventions sur la façon dont les quantiles et les centiles sont réellement calculés .
la source
type
argument des Rquantile()
? Hyndman & Fan recommande le type 7, qui est également la valeur par défaut. Pour être tout à fait honnête, les différences sont mineures. Ou voulez-vous dire quel pourcentage est couramment utilisé? Cela dépendra de votre application, nous ne pouvons pas vous aider. Et bien sûr, plus vous obtenez de données, plus vous serez précis. Le niveau de précision suffisant dépendra de vos données et de votre application.?quantile
).Idéalement, oui.
Les centiles sont généralement interprétés en termes de distribution normale (car la normalité est souvent une hypothèse sous-jacente, parfois non déclarée, lors du calcul de toute sorte de mesures statistiques élémentaires). La distribution ne doit cependant pas être normale.
Selon ce site ...
Donc, si nous supposons la normalité, nous pouvons facilement calculer n'importe quel percentile que nous recherchons. Les centiles ne nécessitent cependant aucune hypothèse de distribution et sont liés aux données à partir desquelles ils sont calculés. Cela signifie que les centiles peuvent fournir des repères significatifs pour les distributions normales et non normales. Vous pouvez également utiliser des centiles dans une interprétation de probabilité, bien sûr basée sur les mesures dont vous disposez actuellement, qui pourraient être de bons ou de mauvais indicateurs de la véritable distribution sous-jacente.
Selon ce site ...
la source