Quelqu'un peut-il expliquer que j'ai 5 ans à propos de ce problème dans le livre ESL de Hastie?

9

Je travaille sur le livre ESL de Hastie et j'ai du mal avec la question 2.3. La question est la suivante:

entrez la description de l'image ici

Nous considérons une estimation du plus proche voisin à l'origine, et la distance médiane de l'origine au point de données le plus proche est donnée par cette équation. Je ne sais pas par où commencer pour essayer de dériver cela.

Je sais que la plupart des points de données sont plus proches de la limite de l'espace d'échantillonnage que de tout autre point de données (malédiction de dimensionnalité), mais j'ai du mal à traduire cela en sens Algèbre linéaire / Probabilité.

Merci!

Gary
la source
4
Que signifie "ELI5" dans le titre? Si vous voulez dériver cette équation, vous devrez commencer par un modèle de probabilité pour les points dans la balle: quel est ce modèle? (Veuillez ne pas demander à vos lecteurs de se référer à un livre ou à un autre site pour comprendre votre question.)
whuber
3
@whuber Je suis d'accord - Les acronymes sont un système de hachage terrible.
Sycorax dit Réintégrer Monica
14
Tu as cinq ans. Nous vous remercions tous de vouloir comprendre l'ESL, mais vous devrez attendre jusqu'à six ans. C'est un livre pour les grands garçons et les filles.
Nick Cox
4
Un enfant de cinq ans pourrait commencer par examiner le cas unidimensionnel (p = 1). Et une fois que c'est en main, prenez-le à partir de là.
Mark L. Stone
3
Si nous allons avoir ELI5 explicité, qu'en est-il de l'ESL?
mdewey

Réponses:

15

rV0[p]pr

V[r]=V0[p]rp

P=V[r]/V0[p]R=rp

P[R]=R

0R1RRp[R]=P[R]=1p

RPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

Par définition de la médiane, nous avons que nous pouvons réécrire comme ce qui équivaut au résultat souhaité.(1-dp)n=1

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

EDIT: Tentative de réponse de style " ELI5 ", en trois parties.

  1. Pour le cas 1D avec un seul point, la distance est uniformément répartie sur , donc la médiane sera .1[0,1]12

  2. En 1D, la distribution du minimum sur points est le premier cas à la ème puissance.nnn

  3. En dimensions, la distance n'est pas uniformément distribuée, mais est.r r pprrp

GeoMatt22
la source
1
Ha ha, j'ai fait le commentaire qu'un enfant de 5 ans pourrait commencer par regarder le cas p = 1. J'ai pensé à ajouter un commentaire qu'un enfant de 4 ans pourrait non seulement commencer par le cas p = 1, mais aussi n = 1. Mais je me suis dit que je laisserais le chiffre de 5 ans.
Mark L. Stone
1
Notez que lorsque j'ai répondu à la question, c'était après avoir été clarifié par @fcop pour lire: "Considérez N points de données uniformément répartis dans une boule d'unité p-dimensionnelle centrée à l'origine. Montrez que la distance médiane de l'origine à la le point de données le plus proche est donné par ... ". Donc une unité-balle par rapport à la norme dans espace dimensionnel. Après cela, la question a été ramenée à l'original, qui diffère et n'est pas si clair. (Voir la chaîne de commentaires sous la question d'origine.) pL2p
GeoMatt22