Dans " Réseaux de croyances profondes convolutionnelles pour un apprentissage évolutif et non supervisé des représentations hiérarchiques " par Lee et. ( PDF ) Des DBN convolutifs sont proposés. La méthode est également évaluée pour la classification des images. Cela semble logique, car il existe des caractéristiques naturelles de l'image locale, comme les petits coins et bords, etc.
Dans " L'apprentissage des fonctionnalités non supervisé pour la classification audio en utilisant des réseaux de croyances profondes convolutionnelles " par Lee et. Al. cette méthode est appliquée pour l'audio dans différents types de classifications. Identification du locuteur, identification du genre, classification du téléphone et aussi une classification de genre / artiste musical.
Comment la partie convolutionnelle de ce réseau peut-elle être interprétée pour l'audio, comme elle peut être expliquée pour les images comme des bords?
Réponses:
L'application audio est une simplification unidimensionnelle du problème de classification d'images bidimensionnelles. Un phonème (par exemple) est l'analogue audio d'une fonction d'image telle qu'un bord ou un cercle. Dans les deux cas, ces caractéristiques ont une localité essentielle: elles sont caractérisées par des valeurs dans un voisinage relativement petit d'un emplacement d'image ou d'un moment de parole. Les convolutions sont une forme contrôlée et régulière de moyenne pondérée des valeurs dans les quartiers locaux. De là découle l'espoir qu'une forme convolutionnelle d'un DBN puisse réussir à identifier et à discriminer des caractéristiques significatives.
la source
Dans le cas des RBM convolutifs appliqués aux données audio, les auteurs ont d'abord pris la transformée de Fourier à court terme, puis défini des bandes d'énergie sur le spectre. Ensuite, ils ont appliqué des RBM convolutifs sur cet audio transformé.
la source