Explication de la formule du point médian le plus proche de l'origine des N échantillons de l'unité de balle

Dans Elements of Statistical Learning , un problème est introduit pour mettre en évidence les problèmes de k-nn dans les espaces de grande dimension. Il y a $N$ points de données qui sont uniformément distribués dans une boule d'unité $p$ dimensionnelle.

La distance médiane de l'origine au point de données le plus proche est donnée par l'expression:

d (p, N) = {(1 - {(\frac{1}{2})}^{\frac{1}{N}})}^{\frac{1}{p}}

$d(p,N) = \left(1-\left(\frac{1}{2}\right)^\frac{1}{N}\right)^\frac{1}{p}$

Lorsque , les pauses de formule vers le bas à la moitié du rayon de la balle, et je peux voir comment le point le plus proche se rapproche de la frontière comme , rendant ainsi l'intuition derrière KNN briser les dimensions élevées. Mais je ne comprends pas pourquoi la formule dépend de N. Pourriez-vous clarifier quelque chose? $N=1$ $p \rightarrow \infty$

Le livre aborde également ce problème en déclarant: "... la prédiction est beaucoup plus difficile près des bords de l'échantillon d'apprentissage. Il faut extrapoler à partir des points d'échantillonnage voisins plutôt qu'interpoler entre eux". Cela semble être une déclaration profonde, mais je n'arrive pas à comprendre ce que cela signifie. Quelqu'un pourrait-il reformuler?

self-study proof k-nearest-neighbour user64773
la source

Vous devez modifier un peu votre équation affichée. Est-ce que

exposant applicable uniquement à ce

dans le numérateurà quoiil ressemble maintenant, ou vouliez-vous qu'il s'applique à l'ensemble

\frac{1}{N}

$\frac 1N$

1

$1$

\frac{1}{2}

$\frac 12$

Dilip Sarwate

Cela aiderait à distinguer l '"hypersphère" (qui dans

est une variété de dimension

) de la "boule unitaire" (qui a la dimension

). L'hypersphère est la limite de la balle. Si, comme votre titre l'indique, tous les points sont échantillonnés à partir de l' hypersphère , alors - par définition - ils ont tous la distance

de l'origine, la distance médiane est

, et tous sont également proches de l'origine.

R^{p}

$\mathbb{R}^p$

p - 1

$p-1$

p

$p$

1

$1$

1

$1$

whuber

@DilipSarwate Il est appliqué à l'ensemble

. Dans le livre, il y a un exemple où

donc

\frac{1}{2}

$\frac{1}{2}$

N = 500, p = 10

$N=500, p=10$

d (p, N) \approx 0.52

$d(p, N) \approx 0.52$

user64773

Réponses:

Le volume d'une hyperbille de dimension de rayon a un volume proportionnel à . $p$ $r$ $r^p$

Donc, la proportion du volume supérieure à une distance de l'origine est $kr$ . $\frac{r^p-(kr)^p}{r^p}=1-k^p$

La probabilité que tous les points d' choisis au hasard sont plus d'une distance de l'origine est . Pour obtenir la distance médiane au point aléatoire le plus proche, définissez cette probabilité égale à $N$ $kr$ $\left(1-k^p\right)^N$ . Donc $\frac12$

{(1 - k^{p})}^{N} = \frac{1}{2}

$\left(1-k^p\right)^N=\tfrac12$

⟹ k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p} .

$\implies k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}.$

$k$ $N$ $2^{1/N}$ $N$ $\tfrac1{2^{1/N}}$ $N$ $1-\tfrac1{2^{1/N}}$ $N$ $p$

Henri
la source

Ah, belle façon de voir les choses. Pourriez-vous réinterpréter la citation de ma deuxième question?

user64773

Je soupçonne que cela peut suggérer que dans les dimensions élevées, les points à prédire sont effectivement loin des données d'entraînement, comme s'ils étaient au bord d'une sphère, donc vous n'êtes pas vraiment interpolant mais plutôt extrapolant, et donc les incertitudes sont beaucoup plus grandes. Mais je ne sais pas vraiment.

Henry

Je ne comprends pas - je comprends pourquoi cette expression est la probabilité que tous les points soient plus éloignés que kr, mais pourquoi la définition de cette probabilité à 1/2 donne la distance médiane ??

ihadanny

k = {(1 - \frac{1}{2^{1 / N}})}^{1 / p}

$k=\left(1-\tfrac1{2^{1/N}}\right)^{1/p}$

N

$N$

\frac{1}{2}

$\frac12$

1 - \frac{1}{2} = \frac{1}{2}

$1-\frac12=\frac12$

k r

$kr$

Définition de la médiane, la moitié est plus grande et la moitié est plus petite.

Grant Izmirlian

Et maintenant sans agiter la main

$P (min_{1 \leq i \leq N} Y_{i} > y) = (1 - F (y))^{N},$ $P( \min_{1\le i\le N} Y_i > y ) = (1-F(y))^N,$ $F$
Ainsi, si nous avons iid uniformément distribué dans la boule unitaire en dimensions, alors où est la CDF commune des distances, . Enfin, quel est le CDF, , pour un point uniformément distribué dans la boule unitaire dans ? La probabilité que le point se trouve dans la boule de rayon r à l'intérieur de la boule de rayon unitaire est égale au rapport des volumes: $N$ $X_i$ $p$
$P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - F (r))^{N},$ $P( \min_{1\le i\le N} ||X_i|| > r ) = (1-F(r))^N,$ $F$ $||X_i||, i=1,2,\ldots,N$ $F$ $R^p$

F (r) = P (| | X_{i} | | \leq r) = C r^{p} / (C 1^{p}) = r^{p}

$F(r) = P ( ||X_i|| \le r ) = C r^p/( C 1^p) = r^p$

Ainsi, la solution à

1 / 2 = P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N}

$1/2 = P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N$

est

r = (1 - (1 / 2)^{1 / N})^{1 / p} .

$r = (1 - (1/2)^{1/N})^{1/p}.$

De plus , votre question sur la dépendance de la taille de l' échantillon, . Pour fixe, au fur et à mesure que la balle se remplit de plus de points, la distance minimale à l'origine devrait naturellement devenir plus petite. $N$ $p$

Enfin, il y a quelque chose qui cloche dans votre rapport de volumes. Il semble que devrait être le volume de la boule unitaire dans . $k$ $R^p$

Grant Izmirlian
la source

Aussi concis mais en mots:

Nous voulons trouver la distance médiane du point le plus proche de l'origine en points uniformément répartis dans la balle à l'origine du rayon unitaire en dimensions. La probabilité que la plus petite distance dépasse , (appelons cette expression de quantité [1]) est la puissance de la probabilité qu'un seul point uniformément distribué dépasse , en raison de l'indépendance statistique. Ce dernier est un moins la probabilité qu'un seul point uniformément distribué soit inférieur à . Ce dernier est le rapport des volumes de la boule de rayon à la boule de rayon unitaire, ou . Nous pouvons maintenant écrire l'expression [1] comme $N$ $p$ $r$ $N^{th}$ $r$ $r$ $r$ $r^p$

P (min_{1 \leq i \leq N} | | X_{i} | | > r) = (1 - r^{p})^{N} .

$P( \min_{1\le i\le N} ||X_i|| > r ) = (1- r^p)^N.$

Pour trouver la médiane de la distribution du minimum des distances, définissez la probabilité ci-dessus à et résolvez pour , en obtenant la réponse. $1/2$ $r$

Grant Izmirlian
la source