Je comprends comment artificial neural network (ANN)
, peut être formé de manière supervisée à l’aide de backpropogation pour améliorer l’ajustement en diminuant l’erreur dans les prédictions. J'ai entendu dire qu'un ANN peut être utilisé pour un apprentissage non supervisé, mais comment peut-on le faire sans une fonction de coût quelconque pour guider les étapes d'optimisation? Avec k-means ou l'algorithme EM, il existe une fonction pour laquelle chaque itération cherche à augmenter.
- Comment pouvons-nous regrouper avec un ANN et quel mécanisme utilise-t-il pour regrouper des points de données dans la même localité?
(et quelles fonctionnalités supplémentaires apportent l'ajout de couches supplémentaires?)
Réponses:
Les réseaux de neurones sont largement utilisés dans l'apprentissage non supervisé afin d'apprendre de meilleures représentations des données d'entrée. Par exemple, avec un ensemble de documents texte, NN peut apprendre à mapper un document sur un vecteur à valeur réelle de telle sorte que les vecteurs résultants soient similaires pour des documents ayant un contenu similaire, c'est-à-dire préservant la distance. Ceci peut être réalisé en utilisant, par exemple, des auto-encodeurs - un modèle formé pour reconstruire le vecteur d'origine à partir d'une représentation plus petite (activations de couche cachée) avec une erreur de reconstruction (distance de la fonction ID) en tant que fonction de coût. Ce processus ne vous donne pas de clusters, mais crée des représentations significatives pouvant être utilisées pour le clustering. Vous pouvez, par exemple, exécuter un algorithme de clustering sur les activations de la couche masquée.
Mise en cluster: Il existe un certain nombre d'architectures NN différentes spécialement conçues pour la mise en cluster. Le plus connu est probablement les cartes auto-organisatrices. Une MOS est un NN ayant un ensemble de neurones connectés pour former une grille topologique (généralement rectangulaire). Lorsqu'un modèle est présenté à une MOS, le neurone avec le vecteur de poids le plus proche est considéré comme un gagnant et ses poids sont adaptés au modèle, ainsi que les poids de son voisinage. De cette manière, une MOS trouve naturellement des clusters de données. Un algorithme quelque peu lié est la croissance du gaz neuronal (il ne se limite pas à un nombre prédéfini de neurones).
Une autre approche est la théorie de la résonance adaptative où nous avons deux couches: "champ de comparaison" et "champ de reconnaissance". Le champ de reconnaissance détermine également la meilleure correspondance (neurone) avec le vecteur transféré du champ de comparaison et possède également des connexions inhibitrices latérales. Les détails de la mise en œuvre et les équations exactes peuvent être facilement trouvés en googlant les noms de ces modèles, je ne les mettrai donc pas ici.
la source
Vous voulez examiner des cartes auto-organisatrices . Kohonen (qui les a inventés) a écrit un livre à leur sujet. Il existe des packages pour cela dans R ( som , kohonen ) et des implémentations dans d'autres langages tels que MATLAB .
la source