Si les humains ne peuvent entendre que les fréquences sonores allant jusqu'à 20 kHz, pourquoi l'échantillonnage audio de la musique est-il à 44,1 kHz?

60

J'ai lu dans certains endroits que la musique est principalement échantillonnée à 44,1 kHz alors que nous n'entendons que 20 kHz. Pourquoi c'est

Soham De
la source
1
Les plus jeunes peuvent entendre des fréquences plus élevées. D'autres techniques d'enregistrement utilisent jusqu'à 48 kHz.
Thorbjørn Ravn Andersen
15
Théorème de Nyquist: vous avez besoin de deux échantillons à chaque swing pour indiquer la fréquence d'une onde.
mathreadler
Parce que les processeurs sont plus rapides, la mémoire est bon marché, mais les bons filtres analogiques restent délicats, des fréquences d'échantillonnage plus élevées peuvent également avoir un sens (96 ou 192 kHz)
Nick T
2
@ ThorbjørnRavnAndersen Je pense que 48 kHz est commun car il est divisible en 24, 25 et 30 fps utilisé dans la production vidéo. 24 n'entre pas uniformément dans 44100. C'est ce que Wikipedia mentionne.
Nick T
4
@ SohamDe C'est parce que si vous échantillonniez un signal audio de 20 kHz à exactement 20 kHz, vous n'entendriez plus rien . Imaginez-le, une onde sinusoïdale qui atteint son maximum tous les 1/20 000 de secondes. Eh bien, si vous échantillonnez exactement au même taux, vous échantillonnerez uniquement les pics (ou les nœuds, ou le niveau que vous aurez utilisé). Ainsi, lorsque vous recréez le signal numérique, vous n’obtenez qu’une ligne plate. Ce concept s'appelle aliasing et fait en sorte que vous devez échantillonner au moins deux fois la fréquence maximale que vous voulez pouvoir entendre. 44 100 Hz est pratique car divisible par une puissance de 2.
MichaelK

Réponses:

89
  1. Le taux d'échantillonnage d'un signal réel doit être supérieur à deux fois la largeur de bande du signal. L’audio commence pratiquement à 0 Hz. La fréquence la plus élevée de l’audio enregistrée à 44,1 kHz est donc de 22,05 kHz (largeur de bande de 22,05 kHz).
  2. Les filtres de mur de briques parfaits sont mathématiquement impossibles, nous ne pouvons donc pas couper parfaitement les fréquences supérieures à 20 kHz. Le supplément de 2 kHz sert à la suppression des filtres; c'est une "marge de manœuvre" dans laquelle l'audio peut être associé à des filtres imparfaits, mais nous ne pouvons pas l'entendre.
  3. La valeur spécifique de 44,1 kHz était compatible avec les taux de trame vidéo PAL et NTSC utilisés à l'époque.

Notez que la justification est publiée dans de nombreux endroits: Wikipedia: Pourquoi 44,1 kHz?

endolithe
la source
9
Bonjour, je suis vraiment d’accord avec votre réponse, mais la chose ".. deux fois la plus haute fréquence" mord très vite aux débutants, parce que Nyquist concerne la bande passante et non la fréquence la plus élevée; Je suis allé de l'avant et légèrement modifié votre réponse. S'il vous plaît vérifier si ça va avec vous.
Marcus Müller
2
@Ruslan: Wikipedia est très bon à ce sujet.
jojek
2
@BrianDrummond Alors, éditez-le?
endolith
3
@ MarcusMüller, le débutant piqué par «Nyqvist est la fréquence maximale autorisée» sera quand même piqué par des aliasing ... Après cela, ils comprendront également comment toute plage de fréquences de la bande passante est démodulée à un entre et . Δf0Δf=fs/2
leftaroundabout
1
On pourrait ne pas être en mesure de faire la différence entre un son de 19 999,9 Hz avec dix harmoniques ou un son de 20 000,1Hz avec neuf si on les entendait séparément, mais cela ne signifie pas qu'une transition entre les deux ne serait pas audible. Avoir un filtre avec une coupure plus graduelle éviterait de tels problèmes.
Supercat
72

Sony a choisi 44.100 car il est le produit des carrés des quatre premiers nombres premiers. Cela le rend divisible par de nombreux autres nombres entiers , ce qui est une propriété utile dans l'échantillonnage numérique.

44100 = 2^2 * 3^2 * 5^2 * 7^2

Comme vous l'avez remarqué, le 44100 est également juste au-dessus de la limite d'audience humaine doublée. La partie juste au-dessus donne aux filtres une marge de manœuvre, les rendant ainsi moins chers (moins de puces rejetées).

Comme le souligne Russell dans les commentaires, le fait que l’ aspect divisible par de nombreux autres nombres entiers ait un avantage immédiat au moment où le taux d’échantillonnage a été choisi. Les premières données audio numériques étaient enregistrées sur des supports d’enregistrement vidéo analogiques existants qui prenaient en charge, selon la région, les spécifications vidéo NTSC ou PAL . NTSC et PAL avaient différents taux de lignes par champ et de champs par seconde, dont le LCM (avec les échantillons par ligne) est de 44100 .

dotancohen
la source
12
Le choix ne consistait pas simplement à obtenir de nombreux facteurs premiers, mais plus précisément à faire bon usage des équipements d’enregistrement vidéo NTSC et PAL pour stocker des masters numériques. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove
3
@ RussellBorogove: Merci. Selon le lien Wiki, 44100 est le LCM des taux d'échantillonnage des taux des fonctionnalités vidéo NTSC et PAL . C’est une conséquence assez directe d’être un nombre avec tant de facteurs, et je pense que vous avez raison de dire que le cheval a mené la charrette pour cette épreuve.
dotancohen
1
Divisible en plusieurs nombres, mais pas par 8. :)
Bogdan Alexandru
(Wikipedia aurait dit satisfait à ces critères et 44,1 kHz a été choisi une variété de taux de 40,5 à 46,8 kHz pour fournir une bande de transition pour le filtre antiliasing)
endolith
2
@BogdanAlexandru Également divisible par 1 ms USB: D
endolithe
13

Le taux de Nyquist est supérieur à deux fois la bande passante du signal en bande de base que vous souhaitez capturer sans ambiguïté (par exemple, le repliement de spectre).

Échantillonnez à un taux inférieur à deux fois 20kHz, et vous ne pourrez pas faire la différence entre les très hautes et très basses fréquences simplement en regardant les échantillons, en raison du repliement du spectre.

Ajouté: Notez que tout signal de longueur finie a un support infini dans le domaine de la fréquence, il n'est donc pas strictement limité à la bande. C'est encore une autre raison pour laquelle il est nécessaire d' échantillonner toute source audio non infinie un peu au-dessus de deux fois le spectre de fréquence le plus élevé (dans un signal en bande de base) afin d'éviter un repliement significatif (au-delà des seules raisons de l'atténuation de transition par filtre fini).

hotpaw2
la source
Bonjour, je suis vraiment d’accord avec votre réponse, mais la chose ".. deux fois la plus haute fréquence" mord très vite aux débutants, parce que Nyquist concerne la bande passante et non la fréquence la plus élevée; Je suis allé de l'avant et légèrement modifié votre réponse. S'il vous plaît vérifier si ça va avec vous.
Marcus Müller
6
@ MarcusMüller, parce que "les débutants" pour l'échantillonnage commencent par échantillonner les signaux en bande de base et non les signaux en bande passante, il s'agit en fait de la fréquence la plus élevée (parfois appelée "bande passante") et non de la bande passante (qui présente une ambiguïté supplémentaire concernant les signaux unilatéraux ou bilatéraux) bande passante).
robert bristow-johnson
@ robertbristow-johnson n'a pas examiné cette ambiguïté. Hm; J'aime l'approche bandlimit!
Marcus Müller
3
dans l'article de Wikipedia, nous l'appelons " " et, bien que Shannon ait déclaré que suffisait, il assumait une énergie finie, donc pas de sinusoïdes (qui ont une énergie infinie et peuvent également placer des deltas de dirac à ) Si vous autorisez une sinusoïde droite à la fréquence , c’est le plus souvent déclaré . Bfs2B±BBfs>2B
robert bristow-johnson
10

Fondamentalement, un double de la largeur de bande est une exigence commune pour l'échantillonnage du signal, donc kHz est un minimum. Ensuite, un peu plus est utile pour faire face au filtrage et à la quantification imparfaits . Les détails suivent.2×20=40

Ce dont vous avez besoin en théorie n'est pas ce qui est requis dans la pratique. Cela va le long de la citation (attribuée à beaucoup):

En théorie, il n'y a pas de différence entre théorie et pratique. En pratique, il y en a.

Je ne suis pas un expert en audio, mais j’ai été formé par des techniciens d’échantillonnage / compression audio de haute qualité. Mes connaissances pourraient être rouillées, prenez-le avec prudence.

Premièrement, la théorie de l'échantillonnage standard fonctionne sous certaines hypothèses: systèmes linéaires et invariance temporelle. Ensuite, on sait théoriquement qu’il est possible d’échantillonner un phénomène à environ deux fois la largeur de bande (ou deux fois la fréquence maximale pour les signaux en bande de base) sans perte. Le "taux de Nyquist" est souvent défini comme suit:

le taux minimum auquel un signal peut être échantillonné sans introduire d'erreurs

C'est la partie analyse du "théorème d'échantillonnage". Le "peut être" est important. Il y a une partie synthèse: le signal continu " peut être reconstruit" de manière analogue en utilisant des sinus cardinaux. Ce n'est pas la seule technique, et elle ne prend pas en compte le préfiltrage passe-bas, non linéaire (comme la quantification, la saturation) et d'autres facteurs variant dans le temps.

L'audience humaine n'est pas un sujet simple. Il est admis que les humains entendent des fréquences comprises entre 20 Hz et 20 000 Hz. Mais des limites aussi précises en hertz ne sont pas un trait de la nature pour tous les humains. Une perte progressive de sensibilité aux fréquences plus élevées est fréquente avec l'âge. D'un autre côté:

Dans des conditions de laboratoire idéales, les humains peuvent entendre des sons aussi bas que 12 Hz et aussi élevés que 28 kHz, bien que le seuil augmente brusquement à 15 kHz chez l'adulte.

L'audience n'est pas linéaire: il existe des seuils d'audition et de souffrance . Ce n'est pas invariant dans le temps. Il y a des effets de masquage dans le temps et la fréquence.

Si la bande de fréquences allant de 20 Hz à 20 000 Hz est une plage commune et qu’une fréquence de 40 000 Hz devrait théoriquement suffire, un peu plus est nécessaire pour faire face à une distorsion supplémentaire. En règle générale, 10% de plus est acceptable ( largeur de bande du signal ) et 44 100 Hz le fait. Cela remonte à la fin des années 1970. Pourquoi n'utilise-t-on pas 44 000 Hz? Principalement à cause de normes, définies par la popularité des CD, dont la technologie est toujours basée sur un compromis. De plus, 44.100 est le produit de carrés de quatre premiers nombres premiers ( ), donc présente de petits facteurs bénéfiques pour les calculs (comme la FFT).2.2×22×32×52×72

Ainsi, de à (et de multiples), nous avons un équilibre entre sécurité, quantification, utilisabilité, calculs et normes.2×2044.1

D'autres options existent: le format DAT, par exemple, a été publié avec un échantillonnage de 48 kHz, avec une conversion initialement difficile. 96 kHz est discuté en ce qui concerne la quantification (ou la profondeur de bits) dans Quelle fréquence d’échantillonnage et quelle profondeur dois-je utiliser? Ceci est un sujet controversé, voir 24 bits 48kHz vers 24 bits 96kHz . Vous pouvez par exemple vérifier les taux d'échantillonnage Audacity .

Laurent Duval
la source
2
1. La réponse à la question est que le théorème de Nyquist impose> 40 kHz et non> 20 kHz. 2. Ni l'audience humaine, ni le format du CD ne sont limités à 20 Hz à l'extrémité inférieure. Un orgue à tuyaux assez grand peut produire un son de 16 Hz et un CD peut le reproduire facilement. Certains organes descendent à 8Hz, ce qui commence à être perçu comme des vibrations individuelles, mais que CD peut reproduire.
user207421
Je suis d'accord avec votre commentaire, sauf pour "dicter" (c'est une condition "si"). Pourriez-vous indiquer où j'en ai dévié?
Laurent Duval
1
Je n'ai qu'un supplément à la réponse de @LaurentDuval. La parole, la musique et le son en général sont des signaux non stationnaires. Bien que ceux-ci soient effectivement limités à la bande, nous ne savons pas encore comment l'oreille humaine convertit le signal temporel continu en déclenchements nerveux, ce qui facilite notre perception du son. On dit souvent que certaines personnes ont des "oreilles d'or" et peuvent faire la différence entre les enregistrements à 44,1 kHz et les enregistrements à 96 kHz. En outre, je n’ai pas encore de confirmation sur ce qui suit, il semble que des taux d’échantillonnage plus élevés soient bénéfiques pour la perception d’indices supplémentaires, tels que la localisation dans les enregistrements binauraux.
Neeks
0

On a déjà répondu à la question de savoir pourquoi on utilise exactement 44,1 kHz - mais pour en revenir à l’aspect de votre question qui porte sur la limite de la perception humaine, la raison est assez simple.

La résolution dans le temps doit être suffisamment fine pour pouvoir générer toutes les formes d'onde possibles jusqu'à la limite perceptible. Selon le théorème d'échantillonnage , la résolution doit être telle que la fréquence d'échantillonnage est au moins deux fois supérieure à cette fréquence. Intuitivement, à la fréquence la plus élevée, vous avez besoin d'au moins 2 points pour représenter le maximum et le minimum de votre signal - ce qui donne cette onde carrée Ascii-art:

_   _
 |_| |_
meduz
la source
-1

Afin de reproduire fidèlement un signal, plus le taux d'échantillonnage sera rapide, mieux ce sera. ~ 40 kHz a été choisi, car il s'agissait d'un taux d'échantillonnage faible pour lequel la plupart des gens ne peuvent pas faire la différence (reconstitué). Lorsque l'échantillonnage audio a été introduit, la mémoire et le stockage étaient coûteux et des taux d'échantillonnage plus élevés n'étaient pas possibles à moindre coût.

À deux fois la limite supérieure de l'audition humaine, deux échantillons par cycle constituent une reconstruction très médiocre, même si elle répond aux critères de Nyquist pour l'échantillonnage des signaux, un simple graphique représentant une onde sinusoïdale à deux échantillons par cycle vous indiquera la pauvreté de deux échantillons par cycle. en reproduisant une forme d'onde. Vous pouvez littéralement transformer une onde sinusoïdale en onde carrée; c'est une bonne chose à 20 kHz, personne ne peut le dire. Je parie qu'un chien pourrait bien.

Mike
la source