Une technique de traitement du signal, la fréquence de Mel Cepstrum , est souvent utilisée pour extraire des informations d'une pièce musicale pour une utilisation dans une tâche d'apprentissage automatique. Cette méthode donne un spectre de puissance à court terme et les coefficients sont utilisés en entrée.
Lors de la conception de systèmes de récupération de musique, ces coefficients sont considérés comme caractéristiques d'une pièce (évidemment pas nécessairement uniques, mais distinctifs). Y a-t-il des caractéristiques qui conviendraient mieux à l'apprentissage avec un réseau? Est-ce que des caractéristiques variant dans le temps comme la progression des basses de la pièce utilisée dans quelque chose comme un réseau Elman fonctionneraient plus efficacement?
Quelles caractéristiques formeraient un ensemble suffisamment étendu sur lequel la classification pourrait avoir lieu?
Réponses:
Nous avons fait un peu de travail là-dessus à un moment donné. L'ensemble des fonctionnalités que nous avons extraites sont données dans ce document d'atelier NIPS . Je dois admettre que nous n'avons pas pu reproduire les résultats de certains autres auteurs sur le terrain, bien qu'il y ait eu des doutes sur les ensembles de données utilisés dans ces derniers (notez que les ensembles de données utilisés par les auteurs dans ce domaine ont tendance à être triés sur le volet et non publiés. au public, pour des raisons de droit d'auteur, bien que ce ne soit pas toujours le cas). Il s'agissait essentiellement de caractéristiques spectrales à court termeavec des coefficients d'autorégression ajoutés également. Nous examinions la classification des genres, qui, nous le savons, peut être effectuée par les humains (mais pas avec une précision remarquable, et pas avec un accord cohérent ...) dans des délais très courts (<1s), ce qui valide l'utilisation de fonctionnalités à court terme . Si vous êtes intéressé à faire des choses plus compliquées que la classification typique de genre / artiste / album / producteur, vous aurez peut-être besoin de plus de fonctionnalités à long terme, sinon ces fonctionnalités spectrales à court terme ont tendance à mieux fonctionner.
la source