Est-ce que calculer un centile équivaut à évaluer une fonction de densité cumulative?

8

J'essaie de sauter de l'idée d'un centile, disons, sur la ligne du nombre réel (où le nième centile est simplement la position dans laquelle n% des points de données sont en dessous et 100 à n% au-dessus) ), à l'idée de l'aire sous une fonction de densité de probabilité.

Si je veux connaître le 50% centile à partir d'un ensemble de nombres, je trouverai le point où la moitié des nombres sont en dessous, la moitié des nombres sont au-dessus. C'est le 50%, et j'ai terminé.

Si je veux connaître le centile à 50% d'une distribution, disons un score Z, j'évaluerai le cdf de 0 à 50, et j'ai terminé. Suis-je en train de dire cela correctement?

Cela me semble intuitif, mais j'ai besoin de quelques discussions pour le marteler. Ou, je pourrais être complètement hors tension ...

tumultous_rooster
la source

Réponses:

5

Vous êtes proche mais pas tout à fait raison. Rappelez-vous que l'aire sous une distribution de probabilité doit être égale à 1. La fonction de densité cumulative (CDF) est une fonction avec des valeurs dans [0,1] car CDF est défini comme où f (x) est la fonction de densité de probabilité. Le 50e centile est alors la probabilité totale de 50% des échantillons, ce qui signifie le point où le CDF atteint 0,5. Ou en termes plus généraux, le pème centile est le point où le CDF atteint p / 100.

F(a)=af(x)dx
goker
la source
3
Il vaut peut-être la peine de souligner à quel point le PO s'est rapproché - au lieu d '"évaluer un CDF", ils devraient évaluer un CDF inverse .
Silverfish
1
si proche et si loin ... :)
tumultous_rooster
En général, l'inverse d'un CDF (au sens habituel, c'est-à-dire l'inverse d'une fonction) peut ne pas exister. Nous devrions considérer l'inverse dit (ou pseudo-inverse) généralisé d'un CDF.
Danny Pak-Keung Chan
1

Non. Essentiellement, le calcul d'un centile (ou d'un p-quantile) équivaut à trouver l'inverse d'un CDF.

Notez que l'inverse, au sens habituel, d'un CDF peut ne pas exister et la notion d'inverse généralisé doit être introduite. Pour rendre la discussion précise, nous clarifions toutes les définitions.

Définition: Un CDF est une fonction qui remplit les conditions suivantes:F:[,][0,1]

  1. (Augmentation) Pour tout , si , alors ,x,y[,]x<yF(x)F(y)

  2. (Continuité à droite) Pour tout aR, nous avons ça F(a)=limxa+F(x),

  3. F()=limxF(x)=0 , et

  4. F()=limxF(x)=1 .

Nous avons au moins deux versions d'inverse généralisé de , notées et , qui sont définies comme suit.FInv1FInv2F

Inv1F:[0,1][,] , défini parInv1F(x)=inf{yF(y)x},

Inv2F:[0,1][,] , défini par .Inv2F(x)=inf{yF(y)>x}

Ici, nous adoptons la convention que .inf()=

Si je me souviens bien, étant donné , le -quantile est simplement défini comme .p[0,1]pInv1F(p)

Bien sûr, si est strictement croissant et continu, les deux versions de l'inverse généralisé sont les mêmes et se réduisent à l'inverse habituel de la fonctionFF1:[0,1][,].

Pour plus d'informations: https://people.math.ethz.ch/~embrecht/ftp/generalized_inverse.pdf

Danny Pak-Keung Chan
la source