J'essaie d'extraire des fonctionnalités d'un fichier son et de classer le son comme appartenant à une catégorie particulière (par exemple: aboiement de chien, moteur de véhicule, etc.). J'aimerais avoir des éclaircissements sur les choses suivantes:
1) Est-ce que c'est faisable du tout? Il existe des programmes qui peuvent reconnaître la parole et différencier les différents types d'écorces de chiens. Mais est-il possible d'avoir un programme qui puisse recevoir un échantillon sonore et simplement dire de quel type de son il s'agit? (Supposons qu'il existe une base de données contenant un grand nombre d'échantillons sonores à consulter). Les échantillons sonores d'entrée peuvent être un peu bruyants (entrée microphone).
2) Je suppose que la première étape est l'extraction des fonctionnalités audio. Cet article suggère d'extraire les MFCC et de les alimenter vers un algorithme d'apprentissage automatique. Le MFCC est-il suffisant? Y a-t-il d'autres fonctionnalités généralement utilisées pour la classification du son?
Merci pour votre temps.
la source
L'audio non verbal (sans parler de l'environnement) semble être le petit frère des principaux types de médias d'apprentissage automatique comme les images, la parole, le texte.
Pour répondre à votre question, est-il possible de former un réseau pour identifier un son donné? Oui, ça l'est! Mais c'est difficile pour les mêmes raisons que l'apprentissage automatique est difficile.
Cependant, ce qui retient vraiment Audio, et pourquoi je l'appelle le petit frère des images et de la parole, c'est en raison du manque d'Audio d'un ensemble de données étiqueté à grande échelle. Pour la parole, il y a TIMIT, pour les images, il y a plusieurs ImagenNet, CIFAR, Caltech, pour le traitement du texte et du langage naturel, il y a de vastes volumes de littérature, etc.
À ma connaissance, les deux plus grands ensembles de données audio non verbaux étiquetés humains * sont les ensembles de données UrbanSounds et ESC-100, qui sont prohibitifs pour les approches d'apprentissage en profondeur. Il existe des résultats mitigés publiés sur ces ensembles de données utilisant des ConvNet à 2 couches.
Les fonctions MFCC sont une représentation de base bien établie de la reconnaissance vocale et de l'analyse audio en général. Mais il y a des tonnes d'autres représentations de fonctionnalités audio! Cet article donne une belle taxonomie des types de fonctionnalités audio.
Le travail le plus excitant sur la classification du son que j'ai vu récemment est effectué par des gens de DeepMind, appelés WaveNet .
la source
Voici une solution de classification sonore pour 10 classes: chien qui aboie, klaxon de voiture, enfants qui jouent etc. Elle est basée sur une bibliothèque tensorflow utilisant des réseaux de neurones. Les fonctionnalités sont extraites en convertissant des extraits sonores en spectrogramme
la source
Oui, c'est extrêmement faisable. Bien que les NN soient excellents dans ce type de formation en classification, ils ne sont peut-être même pas nécessaires - avec un ensemble de fonctionnalités bien choisies, seuls les algorithmes de clustering classiques tels qu'un modèle de mélange gaussien, ou l'analyse des composants principaux, feraient probablement aussi bien . Les bibliothèques modernes peuvent corriger ce problème environ 95% du temps ou plus.
la source