Quelle est l'importance de l'expansion de la base pour les filets profonds?

8

Si les réseaux de neurones profonds sont considérés comme des approximateurs de fonctions universelles, l'expansion de la base est-elle vraiment nécessaire? Ou serait-ce spécifique au cas? Par exemple, si l'on a trois variables X quantitatives, y aurait-il un avantage à augmenter le nombre de variables en introduisant des interactions, des polynômes, etc.? Cela semble avoir une bonne utilité par exemple dans les RF et SVM, mais je ne suis pas sûr que ce soit une bonne stratégie pour les réseaux neuronaux.

Si c'est peut-être trop large ou trop vague, quelqu'un pourrait-il m'indiquer des informations pertinentes sur l'expansion de la base et l'ingénierie des fonctionnalités dans le contexte des réseaux profonds?

srhoades10
la source

Réponses:

8

L'idée du réseau de neurones profond est qu'il peut faire l'ingénierie des fonctionnalités automatiquement pour nous. (Voir le premier chapitre du livre d'apprentissage en profondeur .) Je vous recommande fortement de lire le premier chapitre.

Faire une expansion de base n'est pas vraiment nécessaire et rarement utilisé. Gardez à l'esprit que, le réseau profond prend généralement des caractéristiques brutes comme entrées, pour les images qui ont (au moins) des milliers de pixels, il n'est également pas possible de faire l'expansion de base (par exemple, une expansion polynomiale d'ordre supérieur) efficacement avant d'alimenter le neurone réseau.


En fait, certaines opérations dans le réseau neuronal profond peuvent être considérées comme une expansion de base.

Haitao Du
la source
1
D'accord. J'ajouterais que si le modélisateur a une certaine idée a priori de la forme fonctionnelle de la relation prédicteur-réponse, il serait probablement préférable d'éviter simplement les couches cachées; c'est-à-dire régression ou classification "vanille". De plus, je pense que l'ajout de paramètres d'expansion de base rend une telle approche très sujette au sur-ajustement, et les techniques de régularisation typiques des réseaux de neurones ne feront rien contre l'extraction de bruit (intentionnelle ou non) de ces paramètres.
Josh
Merci @ hxd1011 et Josh, ce sont des points utiles. J'avais su que les fonctions d'activation introduisaient la non-linéarité aux NN, mais je suppose que je ne pensais pas vraiment à la façon dont cela répondait aux préoccupations communes dans les paramètres de régression de routine en essayant "manuellement" d'introduire des effets non linéaires.
srhoades10
6

De nombreux modèles d'apprentissage en profondeur apprennent leurs propres caractéristiques à partir des données d'entrée brutes pendant la formation (par exemple, les réseaux neuronaux convolutionnels 2D pour les images). Ainsi, dans de nombreux cas, vous n'avez même pas à vous soucier de transmettre explicitement des variables à votre modèle. Dans certains autres cas, vous avez toujours besoin de fonctionnalités, mais uniquement des fonctionnalités de base (par exemple, des mots en PNL). Ces caractéristiques sont représentées comme des vecteurs dans un espace d'intégration qui capture la similitude (par exemple, ce «président» est proche de «Obama»). L'espace d'intégration est issu d'une pré-formation non supervisée (word2vec, gant) ou est initialisé de manière aléatoire, et les vecteurs sont réglés pendant la formation via une rétropropagation. L'architecture du réseau est responsable de l'apprentissage des combinaisons de fonctionnalités, comme la différence entre «pas mal, assez bien» et «pas bon,

Le paragraphe `` Combinaisons de fonctionnalités '' de la section 3 de Goldberg, Y. (2015). Une introduction aux modèles de réseaux de neurones pour le traitement du langage naturel. Journal of Artificial Intelligence Research, 57, 345-420. explique très bien cela (je recommande vraiment de lire toute la section 3, c'est excellent):

Les caractéristiques de combinaison sont cruciales dans les modèles linéaires car elles introduisent plus de dimensions à l'entrée, la transformant en un espace où les points de données sont plus près d'être séparables linéairement. D'un autre côté, l'espace des combinaisons possibles est très grand et le concepteur de fonctionnalités doit passer beaucoup de temps à trouver un ensemble efficace de combinaisons de fonctionnalités. L'une des promesses des modèles de réseaux de neurones non linéaires est qu'il suffit de définir uniquement les caractéristiques centrales. La non-linéarité du classificateur, telle que définie par la structure du réseau, devrait permettre de trouver les combinaisons de caractéristiques indicatives, allégeant ainsi le besoin d'ingénierie de combinaison de fonctionnalités.

Antoine
la source