Lorsque vous mettez quelque chose à votre oreille reproduisant des enregistrements stéréo standard, vous ne voulez pas d'une réponse en fréquence plate car la fonction de transfert liée à la tête qui entre normalement en jeu pour une source sonore beaucoup plus éloignée semble très différente lorsque la source est contre votre oreille .
Permettez-moi de vous citer quelques paragraphes d'un livre :
De tous les composants de la chaîne de transmission électroacoustique, les écouteurs sont les plus controversés. La haute fidélité dans son vrai sens, impliquant non seulement le timbre mais aussi la localisation spatiale, est davantage associée à la stéréophonie des haut-parleurs en raison de la localisation bien connue des écouteurs. Et pourtant, les enregistrements binauraux avec une tête factice, qui sont les plus prometteurs pour une haute fidélité fidèle à la réalité, sont destinés à la reproduction du casque. Même à leur apogée, ils n'ont trouvé aucune place dans l'enregistrement et la diffusion de routine. À cette époque, les causes étaient une localisation frontale peu fiable, une incompatibilité avec la reproduction des haut-parleurs, ainsi que leur tendance à être inesthétique. Étant donné que le traitement numérique du signal (DSP) peut filtrer régulièrement en utilisant des fonctions de transfert liées à la tête binaurale, HRTF, les têtes factices ne sont plus nécessaires.
L'application la plus courante des écouteurs est toujours de les alimenter avec des signaux stéréo destinés à l'origine aux haut-parleurs. Cela pose la question de la réponse en fréquence idéale. Pour les autres appareils de la chaîne de transmission (Fig. 14.1), tels que les microphones, les amplificateurs et les haut-parleurs, une réponse plate est généralement l'objectif de conception, avec des écarts facilement définissables par rapport à cette réponse dans des cas particuliers. Un haut-parleur est nécessaire pour produire une réponse SPL plate à une distance généralement de 1 m. Le SPL en champ libre à ce stade reproduit le SPL à l'emplacement du microphone dans le champ sonore, disons, d'un concert en cours d'enregistrement. En écoutant l'enregistrement devant un LS, la tête de l'auditeur déforme le SPL linéairement par diffraction. Ses signaux d'oreille ne montrent plus une réponse plate. cependant, cela ne concerne pas nécessairement le fabricant de haut-parleurs, car cela se serait également produit si l'auditeur avait été présent lors de la représentation en direct. D'autre part, le fabricant d'écouteurs est directement concerné par la production de ces signaux auditifs. Les exigences fixées dans les normes ont conduit au casque calibré en champ libre, dont la réponse en fréquence reproduit les signaux de l'oreille pour un haut-parleur à l'avant, ainsi que l'étalonnage en champ diffus, dans lequel l'objectif est de reproduire le SPL dans l'oreille de un auditeur pour le son venant de toutes les directions. On suppose que de nombreux haut-parleurs ont des sources incohérentes avec chacune une réponse en tension plate. le fabricant d'écouteurs est directement concerné par la production de ces signaux auditifs. Les exigences fixées dans les normes ont conduit au casque calibré en champ libre, dont la réponse en fréquence reproduit les signaux de l'oreille pour un haut-parleur à l'avant, ainsi que l'étalonnage en champ diffus, dans lequel l'objectif est de reproduire le SPL dans l'oreille de un auditeur pour le son venant de toutes les directions. On suppose que de nombreux haut-parleurs ont des sources incohérentes avec chacune une réponse en tension plate. le fabricant d'écouteurs est directement concerné par la production de ces signaux auditifs. Les exigences fixées dans les normes ont conduit au casque calibré en champ libre, dont la réponse en fréquence reproduit les signaux de l'oreille pour un haut-parleur à l'avant, ainsi que l'étalonnage en champ diffus, dans lequel l'objectif est de reproduire le SPL dans l'oreille de un auditeur pour le son venant de toutes les directions. On suppose que de nombreux haut-parleurs ont des sources incohérentes avec chacune une réponse en tension plate. dans lequel le but est de reproduire le SPL dans l'oreille d'un auditeur pour un son venant de toutes les directions. On suppose que de nombreux haut-parleurs ont des sources incohérentes avec chacune une réponse en tension plate. dans lequel le but est de reproduire le SPL dans l'oreille d'un auditeur pour un son venant de toutes les directions. On suppose que de nombreux haut-parleurs ont des sources incohérentes avec chacune une réponse en tension plate.
(a) Réponse en champ libre: à défaut de meilleure référence, les diverses normes internationales et autres ont établi l'exigence suivante pour les écouteurs haute fidélité: la réponse en fréquence et l'intensité sonore perçue pour une entrée de signal mono à tension constante doivent se rapprocher de d'un haut-parleur à réponse plate devant l'auditeur dans des conditions anéchoïques. La fonction de transfert en champ libre (FF) d'un casque à une fréquence donnée (1000 Hz choisie comme référence 0 dB) est égale à la quantité en dB par laquelle le signal du casque doit être amplifié pour donner un volume égal. Une moyenne sur un nombre minimum de sujets (généralement huit) est requise. [...] La figure 14.76 montre un champ de tolérance typique.
b) Réponse en champ diffus: au cours des années 80, un mouvement a commencé pour remplacer les exigences de la norme en champ libre par une autre, où le champ diffus (DF) est la référence. Il s'est avéré qu'il a fait son chemin dans les normes, mais sans remplacer l'ancien. Les deux se tiennent maintenant côte à côte. L'insatisfaction à l'égard de la référence FF provient principalement de l'amplitude du pic de 2 kHz. Il a été tenu pour responsable de la coloration de l'image, car la localisation frontale n'est pas réalisée même pour un signal mono. La manière dont le mécanisme auditif perçoit la coloration est décrite par le modèle d'association de Theile (Fig. 14.62). Une comparaison des réponses de l'oreille pour le champ diffus et le champ libre est présentée sur la figure 14.77. [...] Le test d'écoute subjectif étant celui qui compte, Les écouteurs FF ont jusqu'à présent été plus l'exception que la règle. Une palette de réponses en fréquence différentes est disponible pour répondre aux préférences individuelles, et chaque fabricant a sa propre philosophie de casque avec des réponses en fréquence allant du plat au champ libre et au-delà.
Ce problème de différence HRTF explique également pourquoi les pilotes coudés (dans les écouteurs) sonnent mieux à suffisamment de personnes que des entreprises comme Sennheiser en vendent. Les pilotes inclinés ne font pas complètement sonner les écouteurs comme des haut-parleurs.
En usine ou en laboratoire, une oreille artificielle est utilisée pour mesurer la réponse en fréquence. Celui ci-dessous est un niveau de laboratoire; celles de niveau usine sont un peu plus simples.
J'ai également trouvé la méthodologie utilisée par ce site HeadRoom :
Comment nous testons la réponse en fréquence: Pour effectuer ce test, nous pilotons les écouteurs avec une série de 200 tonalités à la même tension et de fréquence toujours croissante. Nous mesurons ensuite la sortie à chaque fréquence à travers les oreilles du microphone Head Acoustics hautement spécialisé (et cher!). Après cela, nous appliquons une courbe de correction audio qui supprime la fonction de transfert liée à la tête et produit avec précision les données à afficher.
Le microphone utilisé est probablement celui-ci . Il semble qu'ils inversent en fait la fonction de transfert de la tête / des oreilles factices via un logiciel, car ils disent juste avant que "Théoriquement, ce graphique devrait être une ligne plate à 0 dB." ... mais je ne suis pas tout à fait sûr de ce qu'ils font ... car après cela, ils disent "Un casque" au son naturel "devrait être légèrement plus haut dans les basses (environ 3 ou 4 dB) entre 40 Hz et 500 Hz." et "Les écouteurs doivent également être retirés dans les aigus pour compenser les conducteurs si proches de l'oreille; une ligne plate en pente douce de 1 kHz à environ 8-10 dB à 20 kHz est à peu près la bonne." Ce qui ne compile pas tout à fait pour moi par rapport à leur déclaration précédente sur l'inversion / la suppression du HRTF.
En regardant certains certificats que les gens ont obtenus du fabricant (Sennheiser) pour le modèle de casque (HD800) utilisé dans cet exemple HeadRoom, il semble que HeadRoom affiche les données sans aucun modèle de correction supposé pour le casque lui-même (ce qui expliquerait pourquoi ils donnent leur suggestions d'interprétation ultérieures, de sorte que leur suggestion initiale "plate" est trompeuse), alors que Sennheiser utilise la correction DF (champ diffus) de sorte que leurs graphiques semblent presque plats.
Ce n'est qu'une supposition cependant, les différences dans l'équipement de mesure (et / ou entre les échantillons de casque) pourraient bien expliquer ces différences car elles ne sont pas si grandes.
Quoi qu'il en soit, c'est un domaine de recherche active et continue (comme vous l'avez probablement deviné à partir des dernières phrases citées ci-dessus à propos de DF). Il y a pas mal de choses faites par certains chercheurs de Hong Kong; Je n'ai pas accès (gratuitement) à leurs articles AES, mais certains résumés assez détaillés peuvent être lus sur le blog innerfidelity 2013 , 2014 ainsi que les liens suivants du blog de l'auteur principal de Hong Kong, Sean Olive ; en tant que raccourci, voici quelques diapositives gratuites de leur présentation la plus récente (novembre 2015). C'est un peu de matériel ... Je ne l'ai regardé que brièvement, mais le thème semble être que DF n'est pas assez bon.
Voici quelques diapositives intéressantes de l'une de leurs présentations précédentes . Premièrement, la réponse en fréquence complète (non tronquée à 12 KHz) du HD800 et sur un équipement plus clairement divulgué:
Et peut-être le plus intéressant pour l'OP, le son bassy des Beats n'est pas si attrayant, accordé en comparaison avec des écouteurs qui coûtent quatre à six fois plus.
La réponse simple est qu'un système de réponse en fréquence plat construit avec des amplificateurs opérationnels pour corriger la réponse du conducteur aura nécessairement une réponse de phase très plate dans la bande passante. Cette non-planéité signifie que les fréquences des composants des sons transitoires sont retardées de manière inégale, ce qui entraîne une distorsion transitoire subtile qui empêche la bonne reconnaissance des composants sonores, ce qui signifie que moins de sons distincts peuvent être discernés.
Par conséquent, cela semble terrible. Comme si tout le son venait d'une boule floue centrée exactement entre les oreilles.
Le problème HRTF dans la réponse ci-dessus n'est qu'une partie de cela - l'autre est qu'un circuit de domaine analogique réalisable ne peut avoir qu'une réponse temporelle causale, et pour corriger correctement le pilote, il faut un filtre causal.
Cela peut être approximé numériquement avec un filtre de réponse aux impulsions finies adapté au pilote, mais cela nécessite un petit délai qui est suffisant pour rendre les films très désordonnés.
Et il semble toujours que cela vient de l'intérieur de votre tête, à moins que le HRTF ne soit également ajouté.
Donc, ce n'est pas si simple après tout.
Pour rendre un système "transparent", vous n'avez pas simplement besoin d'une bande passante plate sur la plage d'audition humaine, vous avez également besoin d'une phase linéaire également - un tracé de retard de groupe plat - et il existe des preuves suggérant que cette phase linéaire a besoin pour continuer jusqu'à une fréquence étonnamment élevée afin que les signaux directionnels ne soient pas perdus.
Ceci est facile à vérifier par expérience: ouvrez un .wav d'une musique que vous connaissez dans un éditeur de fichiers audio comme Audacity ou snd, et supprimez un seul échantillon de 44100 Hz d'un seul canal et réalignez l'autre canal de sorte que le premier L'échantillon se produit maintenant avec le second canal édité et le reproduit.
Vous entendrez une différence très sensible, même si la différence est un retard de seulement 1 / 44100e de seconde.
Considérez ceci: le son va environ 340 mm / ms, donc à 20 kHz, c'est une erreur de temps de plus moins un retard d'échantillonnage, ou 50 microsecondes. C'est 17 mm de voyage sonore, mais vous pouvez entendre la différence avec les 22,67 microsecondes manquantes, ce qui ne représente que 7,7 mm de voyage sonore.
La coupure absolue de l'audition humaine est généralement considérée comme étant d'environ 20 kHz, alors que se passe-t-il?
La réponse est que les tests auditifs sont effectués avec des tonalités de test qui consistent principalement en une seule fréquence à la fois, pendant une période assez longue à chaque partie du test. Mais nos oreilles internes sont constituées d'une structure physique qui effectue une sorte de FFT sur le son tout en lui exposant des neurones, de sorte que les neurones à différentes positions correspondent à différentes fréquences.
Les neurones individuels ne peuvent se ré-allumer que si rapidement, donc dans certains cas, quelques-uns sont utilisés l'un après l'autre pour suivre ... mais cela ne fonctionne que jusqu'à environ 4 kHz environ ... Ce qui est juste là où notre la perception du ton se termine. Pourtant, il n'y a rien dans le cerveau pour arrêter le déclenchement d'un neurone à chaque fois qu'il se sent si incliné, alors quelle est la fréquence la plus élevée qui compte?
Le fait est que la minuscule différence de phase entre les oreilles est perceptible, mais plutôt que de changer la façon dont nous identifions les sons (par leur structure spectrographique), cela affecte la façon dont nous percevons leur direction. (que le HRTF change également!) Même s'il semble qu'il devrait être "retiré" de notre gamme d'audition.
La réponse est que le point -3dB ou même -10dB est encore trop bas - vous devez aller à environ le point -80 dB pour tout obtenir. Et si vous voulez gérer un son fort aussi bien que silencieux, vous devez être bon jusqu'à -100 dB. Ce qu'un test d'écoute à une seule tonalité ne verra probablement jamais, en grande partie parce que ces fréquences ne "comptent" que lorsqu'elles arrivent en phase avec leurs autres harmoniques dans le cadre d'un son transitoire aigu - leur énergie dans ce cas s'additionne, atteignant suffisamment une concentration pour déclencher une réponse neuronale, même si en tant que composantes de fréquence individuelles isolées, elles peuvent être trop petites pour être comptées.
Un autre problème est que nous sommes constamment bombardés par de nombreuses sources de bruit ultrasonique, probablement en grande partie par des neurones cassés dans nos propres oreilles internes, endommagés par un niveau sonore excessif à un moment antérieur de notre vie. Il serait difficile de discerner la tonalité de sortie isolée d'un test d'écoute sur un bruit "local" aussi fort!
Cela nécessite donc une conception de système "transparente" pour utiliser une fréquence passe-bas beaucoup plus élevée afin qu'il y ait de la place pour que le passe-bas humain disparaisse (avec sa propre modulation de phase à laquelle votre cerveau est déjà "calibré") avant le système la modulation de phase commence à changer la forme des transitoires et à les déplacer dans le temps de sorte que le cerveau ne puisse plus reconnaître à quel son il appartient.
Avec les écouteurs, il est beaucoup plus facile de les construire simplement pour avoir un seul pilote à large bande avec une bande passante suffisante, et de compter sur la réponse en fréquence naturelle très élevée du pilote `` non corrigé '' pour éviter la distorsion temporelle. Cela fonctionne beaucoup mieux avec les écouteurs, car la petite masse du conducteur se prête bien à cette condition.
La raison d'avoir besoin de la linéarité de phase est profondément enracinée dans la dualité domaine-fréquence-domaine temporel, tout comme la raison pour laquelle vous ne pouvez pas construire un filtre à retard nul qui puisse "parfaitement corriger" n'importe quel système physique réel.
La raison pour laquelle c'est la «linéarité de phase» qui importe et non la «planéité de phase» est que la pente globale de la courbe de phase n'a pas d'importance - par dualité, toute pente de phase équivaut à un retard constant.
L'oreille externe de chacun a une forme différente, et donc une fonction de transfert différente se produisant à des fréquences légèrement différentes. Votre cerveau est habitué à ce qu'il a, avec ses propres résonances distinctes. Si vous utilisez le mauvais, cela sonnera juste pire, car les corrections que votre cerveau a l'habitude de faire ne correspondront plus à celles de la fonction de transfert des écouteurs, et vous aurez quelque chose de pire qu'un manque d'annulation de résonance - vous aurez deux fois plus de pôles / zéros déséquilibrés encombrant votre retard de phase et réduisant complètement les retards de groupe et les relations temporelles d'arrivée des composants.
Cela ne semblera pas très clair et vous ne pourrez pas distinguer l'imagerie spatiale encodée par l'enregistrement.
Si vous faites un test d'écoute aveugle A / B, tout le monde sélectionnera les écouteurs non corrigés qui, au moins, ne modifient pas tellement les retards de groupe, afin que leur cerveau puisse s'y accorder.
Et c'est vraiment pourquoi les écouteurs actifs n'essaient pas d'égaliser. C'est trop difficile de bien faire les choses.
C'est aussi la raison pour laquelle la correction numérique de la pièce est le créneau: parce que l'utiliser correctement nécessite des mesures fréquentes, difficiles / impossibles à réaliser en direct, et que les consommateurs ne veulent généralement pas connaître.
Principalement parce que les résonances acoustiques dans la pièce en cours de correction, qui font principalement partie de la réponse des basses, continuent de se déplacer légèrement à mesure que la pression de l'air, la température et l'humidité changent toutes, changeant ainsi légèrement la vitesse du son, changeant ainsi les résonances loin de ce qu'elles étaient lorsque la mesure a été prise.
la source
Un article et une discussion intéressants. Nous avons tendance à penser que le théorème de Nyquist est une règle qui s'applique partout, et nous découvrons ensuite que ce n'est pas le cas. Vous mesurez la limite de l'audition humaine à 20 kHz en utilisant des ondes sinusoïdales, puis échantillonnez à 44,1 ou 48 kHz avec la certitude que vous avez capturé tout ce que l'oreille peut entendre. Pourtant, le décalage d'un canal par un échantillon provoque un changement significatif, bien que la différence, dans le temps, soit supérieure à 20 kHz.
Dans les images en mouvement, nous pensons que l'œil intègre des images avec une fréquence d'images supérieure à 20 images par seconde. Le film est donc tourné à 24 ips et lu avec un obturateur 2x pour réduire le scintillement (48 ips); Le téléviseur a une fréquence d'images de 50 ou 60 Hz selon la région. Certains d'entre nous peuvent voir le scintillement de la fréquence d'images à 50 Hz, surtout si nous avons grandi avec 60 Hz. Mais c'est là que ça devient intéressant. Lors des conférences Tech Retreat et SMPTE de la Hollywood Professional Association au cours des dernières années, il a été démontré qu'un spectateur moyen voit une amélioration significative de la qualité lorsque la trame native est étendue de 60 Hz à 120 Hz. Encore plus surprenant, les mêmes téléspectateurs ont constaté une amélioration similaire lors de l'augmentation de la fréquence d'images de 120 à 240 Hz. Nyquist nous dirait que si nous ne pouvons pas voir la fréquence d'images à 24, il suffit de doubler la fréquence d'images pour garantir la capture de tout ce que l'œil peut résoudre; Pourtant, nous sommes ici à 10 fois la fréquence d'images et nous observons toujours des différences notables.
De toute évidence, il se passe plus de choses ici. Dans le cas de l'imagerie animée, le mouvement dans l'image a un impact sur la fréquence d'images requise. Et en audio, je m'attendrais à ce que la complexité et la densité du paysage sonore déterminent la résolution audio nécessaire. Tous ces sons dépendent beaucoup plus de leur cohérence de phase que de leur réponse en fréquence pour fournir l'articulation nécessaire à l'imagerie.
la source