Quelle transformation imite le plus étroitement le système auditif humain?

12

La transformée de Fourier est couramment utilisée pour l'analyse fréquentielle des sons. Cependant, il présente certains inconvénients lorsqu'il s'agit d'analyser la perception humaine du son. Par exemple, ses cellules de fréquence sont linéaires, tandis que l'oreille humaine répond à la fréquence de façon logarithmique, et non linéaire .

Les transformées en ondelettes peuvent modifier la résolution pour différentes gammes de fréquences , contrairement à la transformée de Fourier. Les propriétés de la transformée en ondelettes permettent de grands supports temporels pour les basses fréquences tout en conservant de courtes largeurs temporelles pour les fréquences plus élevées.

L' ondelette de Morlet est étroitement liée à la perception humaine de l'audition. Il peut être appliqué à la transcription musicale et produit des résultats très précis qui ne sont pas possibles en utilisant des techniques de transformation de Fourier. Il est capable de capturer de courtes rafales de notes de musique répétitives et alternées avec une heure de début et de fin claire pour chaque note.

La transformée en Q constant (étroitement liée à la transformée en ondelettes de Morlet) est également bien adaptée aux données musicales . Comme la sortie de la transformée est effectivement amplitude / phase par rapport à la fréquence logarithmique, moins de cellules spectrales sont nécessaires pour couvrir efficacement une plage donnée, et cela s'avère utile lorsque les fréquences s'étendent sur plusieurs octaves.

La transformée présente une réduction de la résolution en fréquence avec des bacs de fréquence plus élevée, ce qui est souhaitable pour les applications auditives. Il reflète le système auditif humain, ce qui améliore la résolution spectrale aux basses fréquences, tandis que la résolution temporelle s'améliore aux fréquences plus élevées.

Ma question est la suivante: existe-t-il d'autres transformations qui imitent étroitement le système auditif humain? Quelqu'un a-t-il tenté de concevoir une transformation qui corresponde le plus possible anatomiquement / neurologiquement au système auditif humain?

Par exemple, il est connu que les oreilles humaines ont une réponse logarithmique à l'intensité sonore . Il est également connu que les contours de l'intensité sonore varient non seulement avec l'intensité, mais avec l'espacement en fréquence des composantes spectrales . Les sons contenant des composantes spectrales dans de nombreuses bandes critiques sont perçus comme plus forts même si la pression acoustique totale reste constante.

Enfin, l'oreille humaine a une résolution temporelle limitée en fonction de la fréquence . Peut-être pourrait-on également en tenir compte.

user76284
la source
Imposez-vous des restrictions mathématiques à la "transformation"?
Olli Niemitalo
2
Bravo pour tous les liens!
Gilles
Aucune transformation unique ne peut imiter adéquatement un système aussi complexe qu'un système auditif humain. Les modèles HAS existants utilisent des architectures de traitement du signal complexes et des transformations multiples modélisant chacune un autre aspect de l'audition. Peut-être souhaitez-vous envisager la modélisation pièce par pièce.
Fat32

Réponses:

9

Lors de la conception de telles transformations, il faut tenir compte des intérêts concurrents:

  • fidélité au système auditif humain (qui varie selon les personnes), y compris les aspects non linéaires ou même chaotiques (acouphènes)
  • facilité de la formulation mathématique pour la partie analyse
  • possibilité de le discrétiser ou de permettre des implémentations rapides
  • existence d'un inverse stable approprié

Deux conceptions récentes ont récemment attiré mon attention: Transformation en ondelettes de Gammatone à motivation auditive , Traitement du signal, 2014

La capacité de la transformée en ondelettes continue (CWT) à fournir une bonne localisation temporelle et fréquentielle en a fait un outil populaire dans l'analyse temps-fréquence des signaux. Les ondelettes présentent une propriété Q constante, qui est également possédée par les filtres à membrane basilaire dans le système auditif périphérique. Les filtres à membrane basilaire ou filtres auditifs sont souvent modélisés par une fonction Gammatone, qui fournit une bonne approximation des réponses déterminées expérimentalement. Le banc de filtres dérivé de ces filtres est appelé banc de filtres Gammatone. En général, l'analyse en ondelettes peut être assimilée à une analyse de banc de filtres et donc le lien intéressant entre l'analyse d'ondelettes standard et le banc de filtres de Gammatone. Cependant, la fonction Gammatone ne se qualifie pas exactement comme une ondelette car sa moyenne temporelle n'est pas nulle. Nous montrons comment des ondelettes de bonne foi peuvent être construites à partir des fonctions de Gammatone. Nous analysons des propriétés telles que l'admissibilité, le produit de la largeur de bande temporelle, les moments de fuite, qui sont particulièrement pertinentes dans le contexte des ondelettes. Nous montrons également comment les ondelettes auditives proposées sont produites comme la réponse impulsionnelle d'un système linéaire invariant au décalage gouverné par une équation différentielle linéaire avec des coefficients constants. Nous proposons des implémentations de circuits analogiques du CWT proposé. Nous montrons également comment les ondelettes dérivées de Gammatone peuvent être utilisées pour la détection de singularité et l'analyse temps-fréquence des signaux transitoires. Nous montrons également comment les ondelettes auditives proposées sont produites comme la réponse impulsionnelle d'un système linéaire invariant au décalage gouverné par une équation différentielle linéaire avec des coefficients constants. Nous proposons des implémentations de circuits analogiques du CWT proposé. Nous montrons également comment les ondelettes dérivées de Gammatone peuvent être utilisées pour la détection de singularité et l'analyse temps-fréquence des signaux transitoires. Nous montrons également comment les ondelettes auditives proposées sont produites comme la réponse impulsionnelle d'un système linéaire invariant au décalage gouverné par une équation différentielle linéaire avec des coefficients constants. Nous proposons des implémentations de circuits analogiques du CWT proposé. Nous montrons également comment les ondelettes dérivées de Gammatone peuvent être utilisées pour la détection de singularité et l'analyse temps-fréquence des signaux transitoires.

La transformée ERBlet: une représentation temps-fréquence auditive avec une reconstruction parfaite , ICASSP 2013

Cet article décrit une méthode pour obtenir une représentation temps-fréquence parfaitement motivée et parfaitement inversible d'un signal sonore. Sur la base de la théorie des trames et de la récente transformée de Gabor non stationnaire, une représentation linéaire avec une résolution évoluant à travers la fréquence est formulée et implémentée comme un banc de filtres non uniforme. Pour correspondre à la résolution temps-fréquence auditive humaine, la transformée utilise des fenêtres gaussiennes équidistamment espacées sur l'échelle de fréquence psychoacoustique «ERB». De plus, la transformation offre une résolution et une redondance adaptables. Les simulations ont montré qu'une reconstruction parfaite peut être obtenue en utilisant des méthodes itératives rapides et un préconditionnement, même en utilisant un filtre par ERB et une très faible redondance (1,08).

Et je mentionnerai également:

Une transformation auditive pour le traitement du signal audio , WASPAA 2009

Une transformation auditive est présentée dans cet article. Grâce à un processus d'analyse, la transformation recouvre les signaux du domaine temporel en un ensemble de sorties de banc de filtres. Les réponses en fréquence et les distributions du banc de filtres sont similaires à celles de la membrane basilaire de la cochlée. Le traitement du signal peut être effectué dans le domaine du signal décomposé. Grâce à un processus de synthèse, les signaux décomposés peuvent être synthétisés de nouveau au signal d'origine grâce à un calcul simple. En outre, des algorithmes rapides pour les signaux à temps discret sont présentés pour les transformées directe et inverse. La transformation a été approuvée en théorie et validée expérimentalement. Un exemple d'application de réduction du bruit est présenté. La transformation proposée est robuste aux bruits de fond et de calcul et est exempte d'harmoniques de hauteur.

Laurent Duval
la source
1
Ceci est exactement ce que je cherchais. Je vous remercie.
user76284