Comment obtenir la fonction quantile lorsqu'une forme analytique de la distribution n'est pas connue

8

Le problème vient de la page 377-379 de ce document [0] .

Étant donné une distribution continue et un fixe , considérons:FzR

Lz(t)=PF(|zZ|t)

et

H(z)=Lz1(0.5)=medZF|zZ|

où est l'inverse continu droit. Donc, pour un z fixe , c'est la distance médiane de tous les Z \ sim F à z . Ensuite, considérez la fonction:Lz1(u)=inf{t:Lz(t)>u}zZFz

L(t)=PF(H(Z)t)

Maintenant, je n'ai pas d'expression analytique pour H(z) (en fait, je suis sûr qu'une expression analytique n'est pas possible) mais étant donné un CDF F je peux facilement utiliser un algorithme de recherche de racine pour obtenir H(z) pour tout z donné z.

Dans cette application, l'intérêt porte sur:

L1(0.5)=medZFH(Z)

Ceci est la valeur médiane de la H(Z) , encore une fois, pour ZF .

En ce moment pour obtenir , je calcule (comme expliqué ci-dessus, en utilisant un algorithme de recherche de racine) des valeurs de correspondant à de nombreuses valeurs de sur une grille et je prends la médiane pondérée de ces valeurs de (avec les poids ) comme mon estimation de .L1(0.5)H(z)zH(z)f(z)L1(0.5)

Mes questions sont:

  • Existe-t-il une approche plus précise pour obtenir (les auteurs de l'article ne disent pas comment est calculé) etL1(0.5)L1(0.5)
  • Comment choisir la grille de valeurs de ?z

    [0] Ola Hössjer, Peter J. Rousseeuw et Christophe Croux. Asymptotique d'un estimateur d'une fonction de propagation robuste. Statistica Sinica 6 (1996), 375-388.

user603
la source
Selon la notation et la terminologie, nous sommes censés comprendre " " comme mappant tout dans le nombre (c'est ce que font les "fonctionnels", après tout). Mais alors que pourrait signifier " "? Ce pourrait être soit une distribution (littéralement, l'inverse de ) ou, plus probablement, un nombre (si nous fixons et considérons comme une fonction - non fonctionnelle!), Mais je ne vois aucun moyen l' interpréter comme une variable aléatoire avec la distribution . Cela faitLz(t)F Lz(t)[F]=PF(|zZ|t)Lz1(q)Lz(t)FLzFMq(t)assez mystérieux.
whuber
Un tout petit peu, mais il doit encore y avoir des fautes de frappe. Peut-être que dans la définition de vous vouliez utiliser " " (une variable aléatoire avec pour sa distribution) au lieu de " "? Après tout, on ne peut pas attribuer une probabilité à " ", car et sont des nombres. Vous courez un gros risque ici qu'une seule petite faute de frappe dans n'importe quelle équation transformera votre question en quelque chose de complètement involontaire et non pertinent; pire encore, vous pourriez obtenir des réponses correctes que vous interprétez mal! Il serait utile (beaucoup) d'inclure des explications en anglais de ce que chaque formule est censée représenter. L(t)ZFzH(z)tH(z)t
whuber

Réponses:

1

La médiane est le point qui minimise la distance attendue :L1

medZf(Z)=argminmEz|f(Z)m|

Nous pouvons donc simplifier votre expression:

medz1Fmedz2F|z1z2|=argminm1Ez1F|m1argminm2Ez2F|m2|z1z2|||

Je pense que c'est un problème d'optimisation à deux niveaux , que je ne connais pas trop mais peut-être qu'il existe des techniques standard que vous pouvez appliquer. Là encore, cela pourrait ne pas être plus rapide que de simplement calculer la médiane de l'échantillon des médianes pour des échantillons plus grands jusqu'à la convergence.

Ben Kuhn
la source
1
Je ne pense pas que cela règle le problème, car nous ne traitons pas ici des réalisations de mais de lui-même (si vous voulez, je m'intéresse aux valeurs de ces objets lorsque la taille de l'échantillon passe à ). Mais peut-être que je comprends mal votre réponse? FF
user603
1
Eh bien, je viens de réaliser que j'ai quand même fait une erreur avec la dérivation - les optimisations sont en fait imbriquées. Je pense qu'il existe encore des techniques d'optimisation que vous pouvez utiliser, mais je ne sais pas si elles sont meilleures que de simplement prendre la deuxième médiane sur un grand échantillon comme vous l'avez fait.
Ben Kuhn
bien donc on se demande maintenant la même chose;)
user603
1

Une approche directe fondée sur les données pour estimer la fonction quantile consiste à:

  • amorcer vos observations pour générer beaucoup plus de valeurs que celles de votre échantillon d'origine (en particulier, des valeurs au-delà de la plage de l'échantillon limité initial). Une bonne stratégie consiste à utiliser un schéma de simulation bootstrap lissé pour éviter les principales limites du bootstrap non paramétrique de base. Cela équivaut à simuler à partir d'une estimation de densité de noyau.
  • à partir de cela, vous pouvez obtenir la fonction de distribution cumulative empirique (CDF) des valeurs simulées ( ecdffonction dans R). L'inverse du CDF n'est rien d'autre que la fonction quantile ( quantile fonction dans R). Voir ici pour obtenir les valeurs et tracer votre fonction quantile. Vous pouvez même obtenir des bandes de confiance.

Une condition préalable est cependant que vous échantillonnez des fonctionnalités suffisamment d'observations pour au moins avoir une bonne idée de la forme de votre PDF sous-jacent.

Antoine
la source
Pourquoi pensez-vous obtenir une meilleure précision en démarrant?
kjetil b halvorsen
le sort de chaque échantillon fini est qu'il ne contient pas le spectre complet des observations qui peuvent se produire. Par exemple, le débit maximal d'un cours d'eau observé sur 100 ans n'est évidemment pas le maximum absolu qui peut se produire. Ainsi, vos estimations de l'inondation de 500 ans (0,998 quantile) ou de 1000 ans (0,999 quantile) basées sur votre échantillon limité seront biaisées (le risque sera sous-estimé ). Au contraire, si vous générez des centaines de milliers de nouvelles observations en simulant (via bootstrap lissé ou toute autre technique), vos estimations seront plus précises
Antoine
C'est un malentendu! Les valeurs de l'échantillon amorcé proviennent toutes de ce même échantillon limité et fini et ne contiennent pas plus d'informations que l'échantillon lui-même. Le bootstrap (comme d'autres techniques analytiques) ne peut que nous aider à mieux comprendre les informations contenues dans l'échantillon, il ne peut pas augmenter ces informations.
kjetil b halvorsen
Non! Je parle du bootstrap lissé . Il génère des observations jamais vues, qui dépassent la plage de l'échantillon d'origine. Veuillez cliquer sur le lien dans ma réponse ci-dessus.
Antoine
@ Antoine: D'accord, mais cela ne change rien à mon commentaire. Ces «obs» lissés sont générés à partir de votre modèle du phénomène, et non du phénomène lui-même, ce n'est donc pas le cas des «données».
kjetil b halvorsen
1

Donc, je pense que la meilleure façon d’obtenir

medZFH(Z)

est de:

  1. calculer les entrées du vecteur de valeurs de correspondant à une grille de valeurs de placé uniformément surn{H(zi)}i=1nH(zi)n{zi}i=1n(FZ1(ϵ),FZ1(1ϵ))
  2. Calculez la médiane pondérée de avec les poids .{H(zi)}i=1nFZ(zi)
user603
la source