Pourquoi les gens n'utilisent-ils pas des RBF plus profonds ou des RBF en combinaison avec MLP?

12

Donc, en regardant les réseaux de neurones à fonction de base radiale, j'ai remarqué que les gens ne recommandent que l'utilisation d'une seule couche cachée, alors qu'avec les réseaux de neurones perceptron multicouches, plus de couches sont considérées comme meilleures.

Étant donné que les réseaux RBF peuvent être entraînés avec une version de rétropropagation, y a-t-il des raisons pour lesquelles les réseaux RBF plus profonds ne fonctionneraient pas, ou qu'une couche RBF ne pourrait pas être utilisée comme avant-dernière ou première couche dans un réseau MLP profond? (Je pensais à l'avant-dernière couche pour qu'elle puisse essentiellement être entraînée sur les fonctionnalités apprises par les couches MLP précédentes)

user1646196
la source
Je ne suis pas un expert NN, mais j'ai l'impression qu'avec les NN à action directe standard, plusieurs couches cachées n'ajoutent généralement pas grand-chose.
gung - Reinstate Monica
1
C'était dans les premiers jours de la recherche NN, mais maintenant plus de couches sont généralement la recette pour de meilleures performances (apprentissage en profondeur). Je pense que l'approche préférée actuelle est une initialisation intelligente, autant de couches que possible, une régularisation via dropout et softmax au lieu d'activations sigmoïdales pour éviter la saturation. (Mais je peux me tromper sur les techniques). Je pense que certaines personnes utilisent également l'approfondissement itératif pour obtenir de meilleurs résultats. En outre, Google a obtenu l'état de l'art sur imageNet en 2014 avec un réseau de 100 couches.
user1646196

Réponses:

4

Le problème fondamental est que les RBF sont a) trop non linéaires, b) ne font pas de réduction de dimension.

à cause de a) les RBF ont toujours été formés par k-moyennes plutôt que par descente de gradient.

Je dirais que le principal succès dans les NN profonds est les réseaux de convection, où l'un des éléments clés est la réduction de dimension: bien que travaillant avec, disons, 128x128x3 = 50 000 entrées, chaque neurone a un champ récepteur restreint et il y a beaucoup moins de neurones dans chaque couche Dans une couche donnée d'un MLP, chaque neurone représente une caractéristique / dimension) de sorte que vous réduisez constamment la dimensionnalité (en passant d'une couche à l'autre).

Bien que l'on puisse rendre la matrice de covariance RBF adaptative, tout comme la réduction de dimension, cela rend la formation encore plus difficile.

seanv507
la source
J'ai récemment lu un article qui proposait un algorithme de rétropropagation pour la formation des réseaux RBF. Étant donné que cela pourrait-il être un avantage d'avoir un RBF comme couche finale dans un réseau profond? Je suppose que sous cette forme, le reste du réseau profond détecterait essentiellement les fonctionnalités que le RBF peut classer
user1646196
vous devriez peut-être créer un lien vers le document et les gens pourront alors donner des réponses plus éclairées. Je ne vois aucun avantage ... étant donné que le RBF est trop non linéaire (et par exemple, les sigmoides ont été remplacés par relu parce qu'ils étaient trop non linéaires - un gradient de fuite ...). Ce que les gens font, c'est s'entraîner avec un filet de convection avec mlp standard sur le dessus, puis jeter mlp et utiliser svm
seanv507
Le papier est "Formation des réseaux RBF avec rétropropagation sélective" je ne sais pas si vous pouvez le lire ici ou s'il y a un paywall sciencedirect.com/science/article/pii/S0925231203005411 . Je ne savais pas que les sigmoïdes avaient été remplacés par relu à cause de la non-linéarité, mais étant donné que je peux voir comment une non-linéarité accrue serait évitée. Je marquerai la réponse comme acceptée :)
user1646196