Ma question est la suivante: quel modèle mathématique du son polyphonique peut permettre le changement (c.-à-d. Le pitch shifting) de notes musicales individuelles dans un enregistrement audio multi-voix sur un seul canal d'un instrument de musique acoustique polyphonique? Par `` changer les notes en audio polyphonique '', je veux dire faire quelque chose comme éditer le son avec la fonction dite `` Direct Note Access '' dans le logiciel Melodyne de celeony.
Selon wikipedia , ce que Melodyne utilise pour modéliser le signal audio d'une mélodie à une seule ligne jouée sur un instrument de musique acoustique (et donc chronologiquement complexe) est quelque chose comme ce que Henning Thielemann décrit dans son article intitulé `` Démêler la phase et le temps dans les sons monophoniques ''. Je ne trouve aucune référence à des modèles de signaux audio d'instruments de musique polyphoniques; selon une interview sur Youtube de Peter Neubacker (transcrite ci-dessous), la fonctionnalité de Melodyne pour traiter le montage audio polyphonique nécessite une approche différente de celle décrite par Thielemann.
Un indice d' un autre clip YouTube est que le modèle de Neubacker fonctionne mieux avec l'enregistrement audio d'un seul type d'instrument (c'est-à-dire uniquement le piano, uniquement la guitare, uniquement les cordes, uniquement les vents, etc.). Un autre indice est un autre clip montrant la capacité non seulement de changer la hauteur d'une note, mais aussi le moment (de début et de fin) de celle-ci.
Vous trouverez ci-dessous la transcription d'une vidéo sur YouTube qui mentionnait que «les matériaux polyphoniques appellent une approche différente» (au cas où vous n'auriez pas le temps de la regarder à partir de 22h00).
La question, d'où Melodyne est née: comment puis-je obtenir un son d'une forme tridimensionnelle comme celle-ci [gestes avec la pierre à la main]? Par quel moyen le son peut-il alors être libéré de sa dépendance au temps continu? Cette sculpture est en fait ce qui en est ressorti ... C'est un morceau de plastique ... Cela a été dérivé directement de données musicales. Cet objet [plume une note sur le luth] cette note. Il est mieux visualisé comme ceci, de gauche à droite. Le temps passe dans cette direction [faisant des gestes de gauche à droite]. Et c'est l'amplitude [gestes grands et petits avec le doigt opposé au pouce]. Si je le tourne, il ... représente le timbre de ce son à un moment donné. Vous pouvez voir très clairement ici une structure [pointant vers la section transversale au bas de la sculpture] qui est quelque peu triangulaire; c'est parce que dans ce son,
Puisque Melodyne n'existait pas encore et que j'expérimentais simplement avec la traduction du son dans cette forme, j'ai travaillé pendant presque un an avec ce seul son. ... Je connais ce son à l'intérieur et à l'extérieur et par cœur. Cela fournit également une bonne illustration du son local. Je peux non seulement reproduire le son [en cliquant sur la souris], mais je peux également saisir le son de n'importe quel point et le parcourir aussi lentement ou rapidement que je le souhaite. Je peux même m'attarder dans le son, ou avancer et reculer, donc si j'examine un endroit ici ... le contourner. ... Il y a dix ans, c'était nouveau.
Récemment, l'adn (accès direct aux notes) a été ajouté. Avec lui, je peux également éditer de la musique polyphonique. En d'autres termes, je peux éditer individuellement des notes qui sonnent simultanément, comme par exemple un enregistrement de guitare. Si je joue maintenant un petit accord [sélection Poly -> Notes séparées à l'écran], nous voyons ici les 3 notes que je viens de jouer en tant qu'entités distinctes. Écoutons à nouveau [l'ordinateur joue un accord mineur]. Et maintenant, comme si en déplaçant mon doigt sur une case plus haute, je pouvais augmenter cette seule note [en faisant glisser une note à l'écran vers le haut; l'ordinateur joue un accord majeur]. Pour l'audio divisé, je peux isoler cette seule note et la déplacer maintenant à volonté vers le haut ou vers le bas, à n'importe quelle hauteur qui me plaît.
Pourquoi personne n'était-il capable auparavant d'isoler des tons individuels dans un matériau complexe de cette manière? Honnêtement, je ne sais pas. En science, la tendance naturelle est de commencer par quelque chose de simple, une onde sinusoïdale par exemple, ou des notes individuelles, et d'analyser cela d'abord, seulement pour découvrir quand le matériau devient plus complexe, ou doit être traité dans son intégralité, que le système ne fonctionne pas. Mon approche est différente. En fait, je commence par des signaux complexes, et ce n'est que lorsque je veux examiner quelque chose en détail que je reviens à des signaux plus simples, mais d'abord, je dois avoir une impression globale de ce qui se passe réellement dans la réalité.
Le secret réside peut-être dans ce rôle? Heheh, c'est en fait un rouleau de toilettes. La question posée à l'origine par la pierre était de savoir comment traduire un son donné en une forme tridimensionnelle. Ici, j'ai disposé les individus échantillonnant les valeurs du son, indiquées ici par un deux trois et ainsi, en spirale. Et il s'avère que si vous interpolez entre les points [faisant des gestes à travers la spirale], un paysage émerge qui représente également les coupes individuelles dans le son [coupes gestuelles de la sculpture].
Quel âge a le rouleau? 12 ans. Cette idée est donc la source de Melodyne, de tout ce que nous avons vu aujourd'hui ...? Oui, mais cette manière d'enrouler le son ne serait plus utile pour les matériaux polyphoniques, ce qui appelle une approche différente.
Réponses:
TL; DR? Google Scholar pour la séparation partielle harmonique .
Un bon point de départ serait des techniques de modélisation sinusoïdale qui séparent le signal en composantes sinus + bruit (déterministes et stochastiques). La composante déterministe, constituée de sinus, peut être resynthétisée de manière convaincante:
http://mtg.upf.edu/files/projectsweb/sms-piano-original.wav
http://mtg.upf.edu/files/projectsweb/sms-piano-deterministic.wav
Les sinus sont soustraits du signal et la partie bruyante / stochastique reste.
http://mtg.upf.edu/files/projectsweb/sms-piano-stochastic.wav
La partie stochastique est synthétisée en faisant passer le bruit à travers un filtre de mise en forme du bruit. Certains autres l'ont étendu à un modèle sinus + bruit + transitoires qui aide à préserver les caractéristiques stochastiques transitoires dans l'étirement temporel.
https://ccrma.stanford.edu/~jos/sasp/Sines_Noise_Modeling.html
http://mtg.upf.edu/technologies/sms
Une fois que vous avez les paramètres sinusoïdaux d'un signal, il est possible de séparer les sinus des notes qui se chevauchent en recherchant des rapports harmoniques et en les groupant par début, etc. Le suivi partiel donne beaucoup de résultats sur Google Scholar.
http://recherche.ircam.fr/equipes/analyse-synthese/lagrange/research/papers/lagrangeIcassp05.pdf
http://dream.cs.bath.ac.uk/software/sndan/mqan.html
Les modèles de Markov cachés , les polynômes et Macaulay-Quatieri sont quelques-unes des méthodes. Je suis perplexe quant à la séparation des restes stochastiques en deux notes. Je ne sais pas comment Melodyne aborde cela.
la source
L'approche utilisée dans melodyne nécessite 2 opérations distinctes dans le domaine fréquentiel. Tout d'abord, les techniques de transcription polyphonique sont utilisées pour regrouper les composantes de fréquence (à partir d'une transformation de fréquence standard) de l'audio polyphonique en activations de notes. En d'autres termes, groupez les sous-ensembles harmoniques en fonction des activations de notes les plus probables. Voir ma réponse au message "Reconnaissance d'accords polyphoniques inverses" sur ce forum pour des références et des modèles mathématiques.
La deuxième opération est celle du décalage de pas du domaine fréquentiel des sous-ensembles harmoniques extraits ci-dessus. Je ne suis pas certain, mais je garantirais presque que Melodyne utilise une approche de vocodeur de phase pour y parvenir. Vous pouvez également effectuer des étirements temporels en utilisant cette technique . Nous utilisons des techniques similaires à celles de Riffstation et elles fonctionnent assez bien.
la source
Une possibilité pourrait être l'analyse / re-synthèse en utilisant une approche d'appariement de modèles statistiques. Si vous connaissez ou pouvez raisonnablement deviner le mélange d'instruments impliqués et avez des modèles (y compris les transitoires initiaux, le spectre et l'évolution spectrale, etc.) pour les sons d'instruments pour toutes les notes attendues, vous pouvez essayer une correspondance statistique d'un grand nombre d'accords sains combinaisons utilisant les modèles sonores pour estimer la ou les combinaisons polyphoniques les plus probables. Il s'agirait très probablement d'une recherche très intensive en calcul de minima globaux, où diverses techniques de recherche de type «IA» pourraient être utiles. Vous pouvez ensuite prendre les différentes probabilités d'accord individuelles, puis utiliser les théories de décision pour choisir les séquences polyphoniques les plus probables dans le temps.
Prenez ensuite les notes estimées et recréez-les à la hauteur et à la durée de votre choix.
la source