Je réfléchis, implémente et utilise le paradigme ELM (Extreme Learning Machine) depuis plus d'un an maintenant, et plus je le fais, plus je doute que ce soit vraiment une bonne chose. Mon opinion, cependant, semble être en contraste avec la communauté scientifique où - lors de l'utilisation de citations et de nouvelles publications comme mesure - cela semble être un sujet brûlant.
L'ELM a été introduit par Huang et. Al. vers 2003. L'idée sous-jacente est assez simple: commencer par un réseau neuronal artificiel à 2 couches et assigner au hasard les coefficients de la première couche. Ceci transforme le problème d'optimisation non linéaire qui est généralement traité par rétropropagation en un problème de régression linéaire simple. Plus détaillé, pour , le modèle est
Maintenant, seuls les sont ajustés (afin de minimiser la perte d'erreur quadratique), tandis que les sont tous choisis au hasard. En compensation de la perte de degrés de liberté, la suggestion habituelle est d'utiliser un nombre assez important de nœuds cachés (c'est-à-dire des paramètres libres ).
D'un autre point de vue (pas celui généralement promu dans la littérature, qui vient du côté du réseau neuronal), toute la procédure est simplement une régression linéaire, mais une où vous choisissez vos fonctions de base au hasard, par exemple
(De nombreux autres choix à côté du sigmoïde sont possibles pour les fonctions aléatoires. Par exemple, le même principe a également été appliqué en utilisant des fonctions de base radiales.)
De ce point de vue, toute la méthode devient presque trop simpliste, et c'est aussi le point où je commence à douter que la méthode est vraiment bonne (... alors que sa commercialisation scientifique l'est certainement). Donc, voici mes questions:
L'idée de tramer l'espace d'entrée à l'aide de fonctions de base aléatoires est, à mon avis, bonne pour les faibles dimensions. Dans les dimensions élevées, je pense qu'il n'est tout simplement pas possible de trouver un bon choix en utilisant une sélection aléatoire avec un nombre raisonnable de fonctions de base. Par conséquent, l'ELM se dégrade-t-il dans les dimensions élevées (en raison de la malédiction de la dimensionnalité)?
Connaissez-vous des résultats expérimentaux soutenant / contredisant cette opinion? Dans l'article lié, il n'y a qu'un seul ensemble de données de régression à 27 dimensions (PYRIM) où la méthode fonctionne de manière similaire aux SVM (alors que je préférerais voir une comparaison avec une annulation de rétropropagation)
Plus généralement, je voudrais ici vos commentaires sur la méthode ELM.
la source
Réponses:
Votre intuition sur l'utilisation de l'ELM pour les problèmes de grande dimension est correcte, j'ai quelques résultats à ce sujet, que je prépare pour publication. Pour de nombreux problèmes pratiques, les données ne sont pas très non linéaires et l'ELM fonctionne assez bien, mais il y aura toujours des ensembles de données où la malédiction de la dimensionnalité signifie que la chance de trouver une bonne fonction de base avec une courbure là où vous en avez besoin devient plutôt petit, même avec de nombreux vecteurs de base.
Personnellement, j'utiliserais quelque chose comme une machine à vecteur de support des moindres carrés (ou un réseau de fonctions de base radiale) et j'essaierais de choisir les vecteurs de base parmi ceux de l'ensemble de formation de manière gourmande (voir par exemple mon article , mais il y en avait d'autres / mieux) approches publiées à peu près à la même époque, par exemple dans le très bon livre de Scholkopf et Smola sur "Learning with Kernels"). Je pense qu'il vaut mieux calculer une solution approximative au problème exact, plutôt qu'une solution exacte à un problème approximatif, et les machines du noyau ont un meilleur fondement théorique (pour un noyau fixe; o).
la source
L'ELM "apprend" des données en résolvant analytiquement les poids de sortie. Ainsi, plus les données introduites dans le réseau sont grandes, plus les résultats seront bons. Cependant, cela nécessite également plus de nombres de nœuds cachés. Si l'ELM est entraîné avec peu ou pas d'erreur, lorsqu'il reçoit un nouvel ensemble d'entrée, il ne peut pas produire la sortie correcte.
Le principal avantage de l'ELM par rapport au réseau neuronal traditionnel, une telle propagation arrière, est son temps d'entraînement rapide. La plupart du temps de calcul est consacré à la résolution du poids de la couche de sortie, comme mentionné dans le document Huang.
la source