Les MFCC sont-ils la méthode optimale pour représenter la musique dans un système de récupération?

10

Une technique de traitement du signal, la fréquence de Mel Cepstrum , est souvent utilisée pour extraire des informations d'une pièce musicale pour une utilisation dans une tâche d'apprentissage automatique. Cette méthode donne un spectre de puissance à court terme et les coefficients sont utilisés en entrée.

Lors de la conception de systèmes de récupération de musique, ces coefficients sont considérés comme caractéristiques d'une pièce (évidemment pas nécessairement uniques, mais distinctifs). Y a-t-il des caractéristiques qui conviendraient mieux à l'apprentissage avec un réseau? Est-ce que des caractéristiques variant dans le temps comme la progression des basses de la pièce utilisée dans quelque chose comme un réseau Elman fonctionneraient plus efficacement?

Quelles caractéristiques formeraient un ensemble suffisamment étendu sur lequel la classification pourrait avoir lieu?

jonsca
la source
Travaillez-vous sur la récupération, où vous recherchez des qualités uniques d'un clip audio particulier? ou voulez-vous identifier une musique similaire?
Andrew Rosenberg
@AndrewRosenberg Plus dans le sens d'identifier une musique similaire.
jonsca
(Des années plus tard), il existe de nombreuses façons de bricoler avec le MFCC; Kinunnen et al., Frequency Warping and Robust Speaker Verifications: A Comparison of Alternative Mel-Scale Representations 2013, 5p, utilisent 60 coefficients. Et, optimiser quoi? Sur quelle base de données non ouverte? Je dirais donc (non expert) que la question est trop large pour être répondue.
denis
@denis Merci pour l'information. Cela est venu de la malheureuse Beta Machine Learning (la première fois). J'apprécie que c'est un peu vague.
jonsca

Réponses:

8

Nous avons fait un peu de travail là-dessus à un moment donné. L'ensemble des fonctionnalités que nous avons extraites sont données dans ce document d'atelier NIPS . Je dois admettre que nous n'avons pas pu reproduire les résultats de certains autres auteurs sur le terrain, bien qu'il y ait eu des doutes sur les ensembles de données utilisés dans ces derniers (notez que les ensembles de données utilisés par les auteurs dans ce domaine ont tendance à être triés sur le volet et non publiés. au public, pour des raisons de droit d'auteur, bien que ce ne soit pas toujours le cas). Il s'agissait essentiellement de caractéristiques spectrales à court termeavec des coefficients d'autorégression ajoutés également. Nous examinions la classification des genres, qui, nous le savons, peut être effectuée par les humains (mais pas avec une précision remarquable, et pas avec un accord cohérent ...) dans des délais très courts (<1s), ce qui valide l'utilisation de fonctionnalités à court terme . Si vous êtes intéressé à faire des choses plus compliquées que la classification typique de genre / artiste / album / producteur, vous aurez peut-être besoin de plus de fonctionnalités à long terme, sinon ces fonctionnalités spectrales à court terme ont tendance à mieux fonctionner.

tdc
la source
Quel était le but de l'introduction des coefficients AR?
jonsca
1
@jonsca Étant donné que nous utilisions des méthodes de stimulation, qui fonctionnent en combinant de nombreux apprenants "faibles", nous avons décidé d'utiliser toutes les fonctionnalités faciles à calculer qui pourraient apporter certains avantages. Tout ce qui est exigé d'un apprenant faible pour qu'il soit utile, c'est qu'il peut classer à des niveaux supérieurs au hasard. Les coefficients AR sont équivalents à une compression de l'enveloppe spectrale, ce qui donne une certaine idée de la complexité de l'information à court terme de la musique dans cette fenêtre, bien que de façon très lâche.
tdc
@tdc, "les ensembles de données ne sont généralement pas rendus publics ...": connaissez-vous des ensembles de données vocales en ligne gratuits, avec des phonèmes étiquetés?
denis
@denis le seul que je connaisse est celui-ci: orange.biolab.si/datasets/phoneme.htm
tdc
@tdc, merci, mais ce ne sont que 11 voyelles de Elements of stat learning, ~ 1000 x 11 fonctionnalités (ancien LPC).
denis