Qu'est-ce que cela signifie lorsque nous disons que la plupart des points d'un hypercube sont à la frontière?

Si j'ai un hypercube à 50 dimensions. Et je définis sa limite par ou où est la dimension de l'hypercube. Ensuite, le calcul de la proportion de points sur la limite de l'hypercube sera de . Qu'est-ce que ça veut dire? Cela signifie-t-il que le reste de l'espace est vide? Si des points sont à la frontière, alors les points à l'intérieur du cube ne doivent pas être uniformément répartis? $0<x_j<0.05$ $0.95<x_j<1$ $x_j$ $0.995$ $99\%$

machine-learning math Rohit Kumar Singh
la source

Non, cela signifie que la périphérie est plus spacieuse et que l'effet est proportionnel à la dimensionnalité. C'est quelque peu contre-intuitif. Ce phénomène a des conséquences sur la distribution de la distance entre des paires aléatoires de nœuds qui deviennent pertinentes lorsque vous souhaitez regrouper ou calculer des voisins les plus proches dans des espaces de grande dimension.

Emre

Calculez la proportion des points sur un segment de ligne près de sa limite. Puis pointe dans un carré. Puis pointe dans un cube. Que pouvez-vous en dire?

user253751

Réponses:

Parler de « des points dans un hypercube » est un peu trompeur car un hypercube contient une infinité de points. Parlons plutôt du volume. $99\%$

Le volume d'un hypercube est le produit de ses longueurs latérales. Pour l'hypercube d'unité à 50 dimensions, nous obtenons

Total volume = \underset{50 times}{\underset{⏟}{1 \times 1 \times \dots \times 1}} = 1^{50} = 1.

$\text{Total volume} = \underbrace{1 \times 1 \times \dots \times 1}_{50 \text{ times}} = 1^{50} = 1.$

Excluons maintenant les limites de l'hypercube et regardons «l' intérieur » (je mets cela entre guillemets parce que le terme mathématique intérieur a une signification très différente). Nous ne gardons que les points qui satisfont $x = (x_1, x_2, \dots, x_{50})$

0.05 < x_{1} < 0.95 and 0.05 < x_{2} < 0.95 and \dots and 0.05 < x_{50} < 0.95.

$0.05 < x_1 < 0.95 \,\text{ and }\, 0.05 < x_2 < 0.95 \,\text{ and }\, \dots \,\text{ and }\, 0.05 < x_{50} < 0.95.$ Quel est le volume de cet «intérieur»? Eh bien, `` l'intérieur'' est à nouveau un hypercube, et la longueur de chaque côté est de

0.9

$0.9$ (

= 0.95 - 0.05

$=0.95 - 0.05$ ... cela aide à l'imaginer en deux et trois dimensions). Le volume est donc Volume

Interior volume = \underset{50 times}{\underset{⏟}{0.9 \times 0.9 \times \dots \times 0.9}} = {0.9}^{50} \approx 0.005.

$\text{Interior volume} = \underbrace{0.9 \times 0.9 \times \dots \times 0.9}_{50 \text{ times}} = 0.9^{50} \approx 0.005.$ Conclure que le volume de la «frontière» (défini comme l'hypercube unitaire sans le «intérieur « ) est

1 - {0.9}^{50} \approx 0.995.

$1 - 0.9^{50} \approx 0.995.$

Cela montre que $99.5\%$ du volume d'un hypercube à 50 dimensions est concentré sur sa « frontière ».

Suivi: ignatius a soulevé une question intéressante sur la façon dont cela est lié à la probabilité. Voici un exemple.

Imaginons que vous ayez créé un modèle (d'apprentissage automatique) qui prédit les prix des logements sur la base de 50 paramètres d'entrée. Les 50 paramètres d'entrée sont indépendants et uniformément répartis entre $0$ et $1$ .

$0.05$ $0.95$ $0.05$ $0.95$

$10\%$ $50$ $1 - 0.9^{50} \approx 0.995.$ $99.5\%$

Règle générale: dans les dimensions élevées, les observations extrêmes sont la règle et non l'exception.

Elias Strehle
la source

Cela vaut la peine d'utiliser la citation du PO "Est-ce que cela signifie que le reste de l'espace est vide?" et répondre: Non, cela signifie que le reste de l'espace est relativement petit . . . Ou similaire dans vos propres mots. . .

Neil Slater

Explication vraiment agréable du terme "malédiction de la dimensionnalité"

ignatius

Je me demande si ce qui suit est correct: en prenant cet exemple, si un ensemble de fonctionnalités est réparti uniformément le long de [0,1] dans chacune des 50 dimensions, le (99,5% -0,5%) = 99% du volume (fonction hypercube espace) capture uniquement les valeurs de 10% de chaque

entité

"Tout paramètre d'entrée donné est extrême avec une probabilité de seulement 5%." Je pense que cette probabilité est de 10%.

Rodvi

@Rodvi: Vous avez bien sûr raison, merci! A corrigé.

Elias Strehle

Vous pouvez voir clairement le motif même dans les dimensions inférieures.

1ère dimension. Prenez une ligne de longueur 10 et une limite de 1. La longueur de la limite est 2 et le rapport intérieur 8, 1: 4.

2ème dimension. Prenez à nouveau un carré du côté 10 et la frontière 1. L'aire de la frontière est de 36, l'intérieur de 64, 9:16.

3ème dimension. Même longueur et limite. Le volume de la frontière est de 488, l'intérieur est de 512, 61:64 - déjà la frontière occupe presque autant d'espace que l'intérieur.

4ème dimension, maintenant la frontière est 5904 et l'intérieur 4096 - la frontière est maintenant plus grande.

Même pour des longueurs de limite de plus en plus petites, à mesure que la dimension augmente, le volume de limite dépassera toujours l'intérieur.

HP Williams
la source

La meilleure façon de le "comprendre" (bien qu'il soit impossible à mon humble avis pour un humain) est de comparer les volumes d'une boule à n dimensions et d'un cube à n dimensions. Avec la croissance de n (dimensionnalité) tout le volume de la balle "s'échappe" et se concentre dans les coins du cube. Il s'agit d'un principe général utile à retenir dans la théorie du codage et ses applications.

La meilleure explication des manuels se trouve dans le livre de Richard W. Hamming "Coding and Information Theory" (3.6 Geometric Approach, p 44).

Le court article de Wikipedia vous en donnera un bref résumé si vous gardez à l'esprit que le volume d'un cube à n dimensions est toujours 1 ^ n.

J'espère que cela aidera.

Alex Fedotov
la source