Pourquoi choisissons-nous 44,1 kHz comme fréquence d'échantillonnage d'enregistrement?
21
Les oreilles des gens peuvent entendre un son dont les fréquences vont de 20 Hz à 20 kHz. Sur la base du théorème de Nyquist, la fréquence d'enregistrement devrait être d'au moins 40 kHz. Est-ce la raison du choix de 44,1 kHz?
Les fréquences supérieures à environ 12-15 k ajoutent peu ou pas de valeur. La plupart des personnes de plus de 40 ans auront peu d'audience utile au-dessus de ce niveau.
Chris Heath
Réponses:
32
Il est vrai que, comme toute convention, le choix de 44,1 kHz est en quelque sorte un accident historique. Il y a quelques autres raisons historiques.
Bien sûr, la fréquence d'échantillonnage doit dépasser 40 kHz si vous voulez un son de haute qualité avec une bande passante de 20 kHz.
Il a été question de le rendre à 48,0 kHz (il correspond bien aux films à 24 images / seconde et aux ostensibles 30 images / seconde à la télévision nord-américaine), mais étant donné la taille physique de 120 mm, il y avait une limite à la quantité de données Le CD pourrait contenir, et étant donné qu'un schéma de détection et de correction des erreurs était nécessaire et nécessitait une certaine redondance des données, la quantité de données logiques que le CD pouvait stocker (environ 700 Mo) était environ la moitié de la quantité de données physiques. Compte tenu de tout cela, à la fréquence de 48 kHz, on nous a dit qu'il ne pouvait pas contenir la totalité du 9e de Beethoven, mais qu'il pouvait contenir la totalité du 9e sur un disque à une vitesse légèrement plus lente. Donc, 48 kHz est sorti.
Mais pourquoi 44,1 et non 44,0 ou 45,0 kHz ou un joli chiffre rond?
À l'époque, il existait à la fin des années 1970 un produit appelé Sony F1 , conçu pour enregistrer de l'audio numérique sur une bande vidéo facilement accessible (Betamax, pas VHS). C'était à 44,1 kHz (ou plus précisément 44,056 kHz). Cela faciliterait donc le transfert des enregistrements, sans rééchantillonnage ni interpolation, du F1 vers le CD ou dans l'autre sens.
D'après ce que je comprends, le taux de balayage horizontal du téléviseur NTSC était de 15,750 kHz et 44,1 kHz est exactement 2,8 fois plus élevé. Je ne suis pas tout à fait sûr, mais je pense que cela signifie que vous pouvez avoir trois paires d'échantillons stéréo par ligne horizontale, et pour toutes les 5 lignes, où vous auriez normalement 15 échantillons, il y a 14 échantillons plus un échantillon supplémentaire pour certains contrôle de parité ou redondance dans la F1. 14 échantillons pour 5 lignes équivalent à 2,8 échantillons par ligne horizontale et avec 15 750 lignes par seconde, soit 44 100 échantillons par seconde.
Maintenant, depuis que la télévision couleur a été introduite, ils ont dû baisser légèrement le taux de ligne horizontale à 15734 lignes par seconde. Cet ajustement conduit à 44 056 échantillons par seconde dans le Sony F1.
Regardez http://www1.cs.columbia.edu/~hgs/audio/44.1.html par exemple. Vous devez utiliser un taux d'échantillonnage supérieur à 40 kHz en raison des filtres anti-aliasing. Vous devriez avoir une certaine réserve de fréquence pour éviter la distorsion du signal due à la pente de réponse du filtre. La valeur réelle de 44,1 kHz a été suggérée par Sony corp lorsque la norme d'enregistrement audio était en discussion en 1979. Ils ont largement utilisé ce taux pour le moment.
Dans la transition vers les formats numériques, l'audio a été stocké dans une forme d'onde pseudo-vidéo qui pouvait être vue soit en noir soit en blanc (représentant le format binaire).
Le débit et la structure de champ utilisés par la norme de télévision sont les suivants pour la vidéo à 60 Hz: 245 lignes par champ (à l'exclusion des 35 premières lignes supprimées). Avec trois échantillons par ligne, cela fait 60 x 245 x 3 = 44100 = 44,1 KHz.
Cette convention a ensuite été utilisée pour le format CD, en raison de problèmes de compatibilité des équipements (le tout premier équipement utilisé pour produire des CD maîtres utilisés pour la réplication de CD était basé sur la vidéo).
si c'est ce que fait la F1, je dois dire "je suis corrigé". j'ai supposé que le F1 utilisait les lignes blanches.
robert bristow-johnson
salut, je viens de lire ici que "le codage couleur NTSC est utilisé avec le signal de télévision du système M, qui se compose de 30 / 1,001 (environ 29,97) images entrelacées de vidéo par seconde. Chaque image est composée de deux champs, chacun composé de 262,5 lignes de balayage, pour un total de 525 lignes de balayage. 483 lignes de balayage constituent le raster visible. Le reste (l'intervalle de suppression verticale) permet la synchronisation verticale et le retour. "
donc même 490 lignes utilisent certaines des lignes vierges (NTSC d'origine).
robert bristow-johnson
0
Il semble que la limite auditive pour les humains puisse être bien supérieure à 20 kHz si elle est considérée du point de vue de la résolution temporelle "dynamique" plutôt que des ondes sinusoïdales statiques typiques. Commentaires également intéressants sur la marge entre 20 kHz et 22 kHz pour le filtrage de reconstruction. En fait, il y a eu un travail intéressant de Peter Craven sur le filtrage optimisé dans le domaine temporel qui plaide pour au moins 96 kHz pour la lecture hi-fi.
eh bien, il y a un moyen de le savoir. cela s'appelle Blind AB Testing . n'a pas besoin d'être en double aveugle (mais l'est normalement). et les tests AB sont meilleurs que les tests ABX à mon avis.
robert bristow-johnson
0
https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
Le théorème d'échantillonnage de Nyquist – Shannon dit que la fréquence d'échantillonnage doit être supérieure au double de la fréquence maximale que l'on souhaite reproduire. Étant donné que la plage auditive humaine est d'environ 20 Hz à 20 000 Hz, la fréquence d'échantillonnage devait être supérieure à 40 kHz.
De plus, les signaux doivent être filtrés passe-bas avant l'échantillonnage pour éviter le repliement. Alors qu'un filtre passe-bas idéal passerait parfaitement des fréquences inférieures à 20 kHz (sans les atténuer) et couperait parfaitement les fréquences supérieures à 20 kHz, un tel filtre idéal est théoriquement impossible (il n'est pas causal), donc en pratique une bande de transition est nécessaire, où les fréquences sont partiellement atténuées. Plus cette bande de transition est large, plus il est facile et économique de réaliser un filtre anti-crénelage. La fréquence d'échantillonnage de 44,1 kHz permet une bande de transition de 2,05 kHz.
De plus, 44,100 est le produit des carrés des quatre premiers nombres premiers (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) et a donc de nombreux petits facteurs utiles.
donc si nous changeons notre unité de temps du second au "farg" , qui est de 1,001 seconde, alors qu'est-ce que cela fait au 44100 et ses nombreux petits facteurs utiles?
robert bristow-johnson
-2
Regardez [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone pour la description. Un théorème appelé le théorème d'échantillonnage de Nyquist déclare que pour échantillonner un signal de X Hz sans perte significative de qualité, vous devez échantillonner à 2 fois la fréquence. La limite de l'audition humaine est d'environ 20 kHz, ce qui nécessite donc une fréquence d'échantillonnage d'environ 40 kHz. C'est pourquoi les CD sont échantillonnés à 44 kHz. c'est-à-dire que chaque seconde d'enregistrement sur un CD contient 44 000 mesures de la fréquence la plus élevée possible contenue dans l'enregistrement.
C'est en partie à cause de cela. il est rare qu'un humain entende au-dessus de 20k, donc une plage audiophile est raisonnablement légèrement supérieure à 40kHz, c'est-à-dire 42, 43, 44. si vous faites exploser quelqu'un avec d'énormes ondes sinusoïdales à 22k, seul un enfant a une chance de l'entendre. les chauves-souris sont à 115 kHz et certains dauphins sont à 150 kHz, sauf que c'est dans l'eau, ce qui semble plus clair. Testez votre perception des hautes fréquences en ligne avec des enregistrements ... c'est-à-dire ici audiocheck.net/audiotests_frequencycheckhigh.php
Réponses:
Il est vrai que, comme toute convention, le choix de 44,1 kHz est en quelque sorte un accident historique. Il y a quelques autres raisons historiques.
Bien sûr, la fréquence d'échantillonnage doit dépasser 40 kHz si vous voulez un son de haute qualité avec une bande passante de 20 kHz.
Il a été question de le rendre à 48,0 kHz (il correspond bien aux films à 24 images / seconde et aux ostensibles 30 images / seconde à la télévision nord-américaine), mais étant donné la taille physique de 120 mm, il y avait une limite à la quantité de données Le CD pourrait contenir, et étant donné qu'un schéma de détection et de correction des erreurs était nécessaire et nécessitait une certaine redondance des données, la quantité de données logiques que le CD pouvait stocker (environ 700 Mo) était environ la moitié de la quantité de données physiques. Compte tenu de tout cela, à la fréquence de 48 kHz, on nous a dit qu'il ne pouvait pas contenir la totalité du 9e de Beethoven, mais qu'il pouvait contenir la totalité du 9e sur un disque à une vitesse légèrement plus lente. Donc, 48 kHz est sorti.
Mais pourquoi 44,1 et non 44,0 ou 45,0 kHz ou un joli chiffre rond?
À l'époque, il existait à la fin des années 1970 un produit appelé Sony F1 , conçu pour enregistrer de l'audio numérique sur une bande vidéo facilement accessible (Betamax, pas VHS). C'était à 44,1 kHz (ou plus précisément 44,056 kHz). Cela faciliterait donc le transfert des enregistrements, sans rééchantillonnage ni interpolation, du F1 vers le CD ou dans l'autre sens.
D'après ce que je comprends, le taux de balayage horizontal du téléviseur NTSC était de 15,750 kHz et 44,1 kHz est exactement 2,8 fois plus élevé. Je ne suis pas tout à fait sûr, mais je pense que cela signifie que vous pouvez avoir trois paires d'échantillons stéréo par ligne horizontale, et pour toutes les 5 lignes, où vous auriez normalement 15 échantillons, il y a 14 échantillons plus un échantillon supplémentaire pour certains contrôle de parité ou redondance dans la F1. 14 échantillons pour 5 lignes équivalent à 2,8 échantillons par ligne horizontale et avec 15 750 lignes par seconde, soit 44 100 échantillons par seconde.
Maintenant, depuis que la télévision couleur a été introduite, ils ont dû baisser légèrement le taux de ligne horizontale à 15734 lignes par seconde. Cet ajustement conduit à 44 056 échantillons par seconde dans le Sony F1.
la source
Regardez http://www1.cs.columbia.edu/~hgs/audio/44.1.html par exemple. Vous devez utiliser un taux d'échantillonnage supérieur à 40 kHz en raison des filtres anti-aliasing. Vous devriez avoir une certaine réserve de fréquence pour éviter la distorsion du signal due à la pente de réponse du filtre. La valeur réelle de 44,1 kHz a été suggérée par Sony corp lorsque la norme d'enregistrement audio était en discussion en 1979. Ils ont largement utilisé ce taux pour le moment.
C'est donc une raison généralement historique.
la source
Dans la transition vers les formats numériques, l'audio a été stocké dans une forme d'onde pseudo-vidéo qui pouvait être vue soit en noir soit en blanc (représentant le format binaire).
Le débit et la structure de champ utilisés par la norme de télévision sont les suivants pour la vidéo à 60 Hz: 245 lignes par champ (à l'exclusion des 35 premières lignes supprimées). Avec trois échantillons par ligne, cela fait 60 x 245 x 3 = 44100 = 44,1 KHz.
Cette convention a ensuite été utilisée pour le format CD, en raison de problèmes de compatibilité des équipements (le tout premier équipement utilisé pour produire des CD maîtres utilisés pour la réplication de CD était basé sur la vidéo).
Source: L'art de la reproduction sonore, p. 228
la source
Il semble que la limite auditive pour les humains puisse être bien supérieure à 20 kHz si elle est considérée du point de vue de la résolution temporelle "dynamique" plutôt que des ondes sinusoïdales statiques typiques. Commentaires également intéressants sur la marge entre 20 kHz et 22 kHz pour le filtrage de reconstruction. En fait, il y a eu un travail intéressant de Peter Craven sur le filtrage optimisé dans le domaine temporel qui plaide pour au moins 96 kHz pour la lecture hi-fi.
Pawel
la source
https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Le théorème d'échantillonnage de Nyquist – Shannon dit que la fréquence d'échantillonnage doit être supérieure au double de la fréquence maximale que l'on souhaite reproduire. Étant donné que la plage auditive humaine est d'environ 20 Hz à 20 000 Hz, la fréquence d'échantillonnage devait être supérieure à 40 kHz.
De plus, les signaux doivent être filtrés passe-bas avant l'échantillonnage pour éviter le repliement. Alors qu'un filtre passe-bas idéal passerait parfaitement des fréquences inférieures à 20 kHz (sans les atténuer) et couperait parfaitement les fréquences supérieures à 20 kHz, un tel filtre idéal est théoriquement impossible (il n'est pas causal), donc en pratique une bande de transition est nécessaire, où les fréquences sont partiellement atténuées. Plus cette bande de transition est large, plus il est facile et économique de réaliser un filtre anti-crénelage. La fréquence d'échantillonnage de 44,1 kHz permet une bande de transition de 2,05 kHz.
De plus, 44,100 est le produit des carrés des quatre premiers nombres premiers (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) et a donc de nombreux petits facteurs utiles.
la source
Regardez [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone pour la description. Un théorème appelé le théorème d'échantillonnage de Nyquist déclare que pour échantillonner un signal de X Hz sans perte significative de qualité, vous devez échantillonner à 2 fois la fréquence. La limite de l'audition humaine est d'environ 20 kHz, ce qui nécessite donc une fréquence d'échantillonnage d'environ 40 kHz. C'est pourquoi les CD sont échantillonnés à 44 kHz. c'est-à-dire que chaque seconde d'enregistrement sur un CD contient 44 000 mesures de la fréquence la plus élevée possible contenue dans l'enregistrement.
la source