La carte auto-organisatrice (SOM) est une grille remplissant l'espace qui fournit une réduction de dimensionnalité discrétisée des données.
Vous commencez avec un espace de grande dimension de points de données et une grille arbitraire qui se trouve dans cet espace. La grille peut être de n'importe quelle dimension, mais elle est généralement plus petite que la dimension de votre jeu de données et est généralement 2D, car elle est facile à visualiser.
Pour chaque donnée de votre ensemble de données, vous trouvez le point de grille le plus proche et vous "tirez" ce point de grille vers l'ensemble de données. Vous tirez également chacun des points de grille voisins vers la nouvelle position du premier point de grille. Au début du processus, vous tirez beaucoup de voisins vers le point de données. Plus tard dans le processus, lorsque votre grille commence à remplir l'espace, vous déplacez moins de voisins, et cela agit comme une sorte de réglage fin. Ce processus se traduit par un ensemble de points dans l'espace de données qui correspondent assez bien à la forme de l'espace, mais peuvent également être traités comme une grille de dimension inférieure.
Ce processus est bien expliqué par deux images de la page 1468 du document de 1990 de Kohonen :
Cette image montre une carte unidimensionnelle dans une distribution uniforme dans un triangle. La grille commence comme un gâchis au centre, et est progressivement tirée dans une courbe qui remplit assez bien le triangle, compte tenu du nombre de points de la grille:
La partie gauche de cette deuxième image montre une grille 2D SOM remplissant étroitement l'espace défini par la forme de cactus à gauche:
Il y a une vidéo du processus SOM utilisant une grille 2D dans un espace 2D et dans un espace 3D sur YouTube.
Désormais, chacun des points de données d'origine dans l'espace a un voisin le plus proche auquel il est affecté. La grille est donc le centre de grappes de points de données. La grille fournit la réduction de dimensionnalité.
Voici une comparaison de la réduction de dimensionnalité à l'aide de l'analyse en composantes principales (ACP), à partir de la page SOM sur wikipedia :
On voit immédiatement que le SOM unidimensionnel offre un bien meilleur ajustement aux données, expliquant plus de 93% de la variance, contre 77% pour l'ACP. Cependant, pour autant que je sache, il n'y a pas de moyen facile d'expliquer la variance restante, comme c'est le cas avec PCA (en utilisant des dimensions supplémentaires), car il n'y a pas de façon ordonnée de dérouler les données autour de la grille SOM discrète.