Ajustement dynamique de l'architecture NN: inventer l'inutile?

9

Je commence mon voyage de doctorat et l'objectif ultime que je me suis fixé est de développer des RNA qui surveilleraient l'environnement dans lequel ils travaillent et adapteraient dynamiquement leur architecture au problème en cours. L'implication évidente est la temporalité des données: si l'ensemble de données n'est pas continu et ne change pas avec le temps, pourquoi s'ajuster du tout?

La grande question est: avec la montée récente du deep learning, est-ce toujours un sujet pertinent? Les FFNN ont-ils une chance de se trouver une niche dans les problèmes de dérive de concept?

Je crains de surcharger le fil avec trop de questions, mais celle-ci n'est pas entièrement hors sujet: je connais les RNN, mais j'ai une expérience limitée (ok, aucune ou purement théorique) avec eux; Je pense que l'adaptation de l'architecture dynamique doit être un sujet pertinent dans le contexte des RNN. La question est, a-t-on déjà répondu, et vais-je réinventer la roue?

Post-Posté sur MetaOptimize

Anna-Earwen
la source
Quand vous dites "ajuster leur architecture", parlez-vous des paramètres (poids, biais) ou de la mise à jour de la structure réelle du réseau (nœuds cachés, fonction d'activation, connectivité, etc.)? De plus, dans de nombreuses applications d'apprentissage en profondeur, le résultat final est un réseau de neurones à action directe, un seul avec des poids initialisés par un processus non supervisé.
alto
@alto, je fais référence à la structure NN réelle - nombre d'unités cachées et (éventuellement) de couches - je suis sûr qu'elle peut être mise en œuvre à différents niveaux de complexité. Je sens que je dois commencer à lire sur l'apprentissage profond si je veux aller quelque part.
anna-earwen
@ anna-earwen sujet de thèse intéressant, comment ça se passe, des publications pour le moment?
Dikran Marsupial
1
@Dikran Marsupial, je vais bientôt me rendre à l'IJCNN 2014 pour expliquer comment et pourquoi PSO ne parvient pas à former des NN de grande dimension. La réponse est donc oui et je sais: j'ai pris un grand détour par rapport au vecteur de recherche d'origine, et je me demande si je reviendrai toujours sur les architectures ajustables. Seuls le temps et les résultats empiriques nous le diront!
anna-earwen
Je le rechercherai dans les délibérations - comprendre pourquoi les choses ne fonctionnent pas est quelque chose dont la science a davantage besoin (et de solides études empiriques).
Dikran Marsupial

Réponses:

6

Les réseaux de neurones en cascade-corrélation ajustent leur structure en ajoutant des nœuds cachés pendant le processus de formation, donc cela peut être un point de départ. La plupart des autres travaux que j'ai vus qui ajustent automatiquement le nombre de couches, le nombre de nœuds cachés, etc., d'un réseau de neurones utilisent des algorithmes évolutifs.

Malheureusement, ce travail est hors de mon domaine, donc je ne peux pas recommander de documents ou de références en particulier pour vous aider à démarrer. Je peux vous dire que je n'ai vu aucun travail qui tente d'optimiser conjointement la structure et les paramètres du réseau simultanément au sein de la communauté d'apprentissage en profondeur. En fait, la plupart des architectures d'apprentissage en profondeur sont basées sur l'apprentissage goulu d'une seule couche à la fois, ce qui fait même de l'apprentissage en ligne des réseaux de neurones profonds un domaine plutôt intact (le travail de Martens et al. Sur Hessian Free Optimization étant une exception notable).

alto
la source
Merci beaucoup, vous m'avez déjà donné suffisamment d'informations pour commencer à chercher de l'or. :)
anna-earwen
2

Une autre raison d'envisager de développer de nouvelles approches pour les réseaux de neurones constructifs (tels que l'algorithme CC @alto mentionné) est dans les applications en dehors des statistiques . En particulier, dans les neurosciences théoriques et les sciences cognitives, les réseaux de neurones constructifs sont souvent utilisés en raison d'une similitude métaphorique avec le développement et la neurogenèse. Pour un exemple d'utilisation intensive de la corrélation en cascade pour cela, jetez un œil aux publications de Thomas R. Shultz . Malheureusement, l'approche de corrélation en cascade est irréaliste sur le plan biologique et si vous avez un virage en neurosciences, il convient de considérer comment de nouveaux NN avec une architecture réglable pourraient être utilisés comme de meilleurs modèles de développement et / ou de neurogenèse.

Artem Kaznatcheev
la source
1
Merci, Artem! En fait, je suis plus un pur informaticien qu'autre chose, donc ma connaissance des sciences neuro et congnitives est moins que rare. Cela semble excitant, cependant, et comme toutes les routes sont encore ouvertes, je pourrais aussi m'y plonger - du moins dans une certaine mesure. En ce moment, je suis particulièrement intéressé par les applications à des problèmes réels d'ingénierie et d'analyse de données qui pourraient fonctionner pour l'analyse comparative.
anna-earwen