Utilisation de cartes auto-organisées pour réduire la dimensionnalité

8

Au cours des derniers jours, j'ai mené des recherches sur les cartes auto-organisées pour un projet à l'école. J'en suis venu à comprendre que les cartes auto-organisées peuvent être utilisées pour réduire la dimensionnalité de vos données. Cependant, je ne comprends pas comment cela fonctionne. Par exemple, supposons que vous ayez un réseau 10x10 de neurones dans un SOM et que votre entrée soit à 25 dimensions. Donc, à ma connaissance, vous créeriez un vecteur caractéristique pour chaque neurone qui est également 25D. Au moment où la formation est terminée, vous vous retrouvez avec 100 vecteurs 25D. Comment cela réduit-il exactement les dimensions des données? Suis-je censé m'inquiéter de l'emplacement des neurones?

EDIT: J'ai déjà lu la question Réduction de la dimensionnalité en utilisant une carte auto-organisée, mais je ne pense pas qu'elle réponde à la question que j'ai.

user1231745
la source

Réponses:

12

La carte auto-organisatrice (SOM) est une grille remplissant l'espace qui fournit une réduction de dimensionnalité discrétisée des données.

Vous commencez avec un espace de grande dimension de points de données et une grille arbitraire qui se trouve dans cet espace. La grille peut être de n'importe quelle dimension, mais elle est généralement plus petite que la dimension de votre jeu de données et est généralement 2D, car elle est facile à visualiser.

Pour chaque donnée de votre ensemble de données, vous trouvez le point de grille le plus proche et vous "tirez" ce point de grille vers l'ensemble de données. Vous tirez également chacun des points de grille voisins vers la nouvelle position du premier point de grille. Au début du processus, vous tirez beaucoup de voisins vers le point de données. Plus tard dans le processus, lorsque votre grille commence à remplir l'espace, vous déplacez moins de voisins, et cela agit comme une sorte de réglage fin. Ce processus se traduit par un ensemble de points dans l'espace de données qui correspondent assez bien à la forme de l'espace, mais peuvent également être traités comme une grille de dimension inférieure.

Ce processus est bien expliqué par deux images de la page 1468 du document de 1990 de Kohonen :

Cette image montre une carte unidimensionnelle dans une distribution uniforme dans un triangle. La grille commence comme un gâchis au centre, et est progressivement tirée dans une courbe qui remplit assez bien le triangle, compte tenu du nombre de points de la grille:

SOM unidimensionnel

La partie gauche de cette deuxième image montre une grille 2D SOM remplissant étroitement l'espace défini par la forme de cactus à gauche:

2D cactus SOM

Il y a une vidéo du processus SOM utilisant une grille 2D dans un espace 2D et dans un espace 3D sur YouTube.

Désormais, chacun des points de données d'origine dans l'espace a un voisin le plus proche auquel il est affecté. La grille est donc le centre de grappes de points de données. La grille fournit la réduction de dimensionnalité.

Voici une comparaison de la réduction de dimensionnalité à l'aide de l'analyse en composantes principales (ACP), à partir de la page SOM sur wikipedia :

Réduction de la dimensionnalité SOM à partir de en.wikipedia.org/wiki/File:SOMsPCA.PNG

On voit immédiatement que le SOM unidimensionnel offre un bien meilleur ajustement aux données, expliquant plus de 93% de la variance, contre 77% pour l'ACP. Cependant, pour autant que je sache, il n'y a pas de moyen facile d'expliquer la variance restante, comme c'est le cas avec PCA (en utilisant des dimensions supplémentaires), car il n'y a pas de façon ordonnée de dérouler les données autour de la grille SOM discrète.

rien101
la source
2

Malgré le fait que vous vous retrouvez avec plus de nœuds que de dimensions d'entité, vous réduisez toujours la dimensionnalité. Gardez à l'esprit qu'au départ, vous aviez un espace à 25 dimensions et, maintenant, vous avez ces 25 dimensions projetées en seulement 2 dimensions. Au lieu de représenter l'espace complet continu en 25 dimensions, le SOM vous fournit les points «les plus importants» de cet espace.

Felipeduque
la source