Y a-t-il des avantages mathématiques pour des taux d'échantillonnage plus élevés?

18

Étant donné que la plupart des gens ne peuvent pas entendre autant de fréquences supérieures à 20 kHz, je n'ai jamais compris les arguments exacts pour utiliser des taux d'échantillonnage supérieurs à 48 kHz. À 48 kHz, je comprends qu'il est plus facile de construire un filtre passe-bas avec un peu de bande passante plus élevée pour supprimer l'aliasing, mais je ne comprends pas pourquoi quelqu'un voudrait enregistrer à 96 kHz.

Pour les projets strictement numériques, c'est-à-dire utilisant une synthèse numérique pure et n'enregistrant aucun matériel qui serait converti de l'analogique -> numérique, y a-t-il un avantage à utiliser des taux d'échantillonnage supérieurs à 44,1 kHz?

Pour tout le reste, y a-t-il un avantage à utiliser 96 kHz? Est-il avantageux d'appliquer ultérieurement un type particulier d'opération DSP? Ou est-ce purement un effet placebo pour l'oreille?

Remarque: Il y a d'autres questions ici concernant les taux d'échantillonnage à utiliser pour différents types de projets d'enregistrement, mais ici, je demande des faits réels pour des raisons mathématiques ou liées au DSP soutenant l'utilisation de taux d'échantillonnage plus élevés.

Nik Reiman
la source

Réponses:

19

J'utilise toujours des taux d'échantillonnage doubles si possible, pour deux raisons importantes.

Première raison: se débarrasser des caractéristiques du filtre anti-imagerie lors de l'utilisation de sources sonores analogiques. Qu'est-ce qu'un filtre anti-imagerie?

Disons que j'enregistre sur 44100 Hz.
Si j'enregistrais une onde sinusoïdale inférieure à 10 KHz, vous pouviez clairement voir l'onde sinusoïdale lorsque vous représentez les valeurs d'échantillon dans un graphique.
Si j'échantillonne une onde sinusoïdale de 0 dB FS avec une fréquence de 22,5 KHz, les échantillons lisent alternativement 1 et -1.

Maintenant, voici le problème. Si j'enregistre une onde sinusoïdale de 0 dB FS avec une fréquence de 30 kHz et que je trace les échantillons, chaque échantillon prend plus d'une demi-période sinusoïdale et - si vous jouez les échantillons - il retournerait une onde sinusoïdale de 11 kHz. (Si vous ne me croyez pas, faites simplement un dessin simple.) Ce comportement est appelé «effet d'imagerie».

Cela signifie qu'avant d'échantillonner le signal, nous devons nous assurer qu'il n'y a AUCUNE fréquence présente au-dessus de la soi-disant "fréquence de nyquist" (qui est la moitié de la fréquence d'échantillonnage). Lorsque vous utilisez des sources sonores numériques qui fournissent leurs sons déjà échantillonnés, ce n'est pas vraiment un problème, car ils peuvent parfois simplement être programmés pour ne jamais générer un signal supérieur à la moitié de la fréquence d'échantillonnage, ou ils peuvent tout filtrer à l'aide d'une phase linéaire filtre brickwall qui n'a aucun effet sur le reste.

Mais, si vous échantillonnez le signal d'une source analogique, ce filtrage est effectué avant l'échantillonnage du signal. La seule façon de filtrer le son analogique est d'utiliser un circuit électronique. Et puisque le filtre est censé avoir une courbe très raide, cela affectera les fréquences dans la plage audible , même si le filtre n'a pas été conçu pour cela. Maintenant, il y a de bons filtres à l'intérieur des convertisseurs A / N, donc le problème est minime, mais il devient relativement irritant d'écouter lorsque vous travaillez plusieurs jours sur du son à 44,1 KHz, par rapport à l'utilisation de 96KHz. Le filtre qui sera appliqué lorsque vous sous-échantillonnerez 96 à 44,1 est bien sûr un filtre numérique et est probablement de bien meilleure qualité. Et, il n'est appliqué que lorsque vous avez complètement terminé tout le travail, donc cela ne vous dérangera pas.

Deuxième raison: se débarrasser des caractéristiques du signal de tramage.

Lorsque vous enregistrez en résolution 24 bits et que vous prévoyez d'avoir votre maître à 16 bits, vous aurez besoin d'un signal de tramage pour masquer les erreurs d'arrondi. Maintenant, le bruit n'est pas une jolie chose à avoir dans votre enregistrement et bien que le bruit à large bande soit le meilleur pour masquer les erreurs d'arrondi, la mise en forme du bruit peut être une grande amélioration appliquée au signal de tramage afin de le rendre moins dérangeant. Maintenant, si l'enregistrement a été effectué à 96 kHz, vous pouvez créer du bruit pour former la plupart du signal de tramage à des fréquences supérieures à 24 kHz, afin que personne ne les entende. Le bruit de tramage est à la fin de l'enregistrement finalement filtré, au moment où vous sous-échantillonnez votre projet à 44,1 KHz.

Donc, lignes de fond: est-ce utile pour enregistrer des trucs analogiques:

  • Oui définitivement. Vous avez moins de perturbation du filtre anti-imagerie et moins de perturbation du signal de tramage lorsqu'il est utilisé avec une mise en forme du bruit appropriée.

Est-ce utile lorsque je travaille avec des trucs numériques qui venaient juste de mon softsynth?

  • Oui, toujours utile si vous prévoyez de travailler avec 24 bits et de le maîtriser jusqu'à 16 bits. Vous pouvez gagner beaucoup avec le bruit qui façonne le signal de tramage.
Le Pellmeister
la source
"car ils peuvent parfois être simplement programmés pour ne jamais générer un signal supérieur à la moitié du taux d'échantillonnage" Certainement vrai, cependant: "ou ils peuvent tout filtrer à l'aide d'un filtre brickwall à phase linéaire qui n'a aucun effet sur le reste" Je ne suis pas sûr que c'est possible. Afin de filtrer les ultrasons d'une onde générée numériquement, vous auriez besoin de la générer à une fréquence d'échantillonnage plus élevée en premier lieu (ce qui serait toujours alias, mais pas autant dans la bande audible). Vous ne pouvez pas filtrer les fréquences qui sont déjà aliasées.
endolith
3
"Maintenant, si l'enregistrement a été fait à 96 KHz, vous pouvez créer du bruit sur la plupart des signaux de tramage à des fréquences supérieures à 24 KHz, donc personne ne les entendra. Le bruit de tramage est à la fin de l'enregistrement finalement filtré, au moment où vous sous-échantillonnez votre projet à 44,1 KHz. " Je ne pense pas que ce soit vrai non plus. Si vous filtrez tous les tramages, alors votre sortie n'a plus de tramage? Cela reviendra à avoir une distorsion de quantification?
endolith
Re premier commentaire: vous avez absolument raison. Je pense que ce que je voulais dire, c'est que lorsque vous utilisez un effet numérique, vous pouvez vous attendre à ce que la plage de fréquences de sa sortie soit prise en compte. En d'autres termes, si la sortie sort en premier alias, l'augmentation de votre propre fréquence d'échantillonnage ne changera pas cela. Quant à votre deuxième commentaire: intéressant; cela dépend totalement des filtres utilisés avant le sous-échantillonnage. Si le bruit était imagé en arrière, il masquerait évidemment le bruit de quantification, mais il ne sonnerait pas exactement de la même manière. Je pense que je façonnerais mon bruit autour de la dernière fréquence nyquist.
The Pellmeister
1
Certains types d'opérations peuvent transformer des composantes de fréquence supérieures à 24 KHz en composantes de fréquence inférieures à 20 KHz et vice versa. Si l'audio n'est pas maintenu à un taux d'échantillonnage plus élevé entre la première et la dernière opération de ce type, la perte d'informations aux étapes intermédiaires peut avoir un effet audible sur la sortie finale.
supercat
12

Pour les projets strictement numériques, c'est-à-dire utilisant une synthèse numérique pure et n'enregistrant aucun matériel qui serait converti de l'analogique -> numérique, y a-t-il un avantage à utiliser des taux d'échantillonnage supérieurs à 44,1 kHz?

Oui. Quelques exemples:

Création de fréquences dont vous ne voulez pas

Aliasing de synthèse numérique

De nombreux générateurs d'ondes carrées / en dents de scie / triangulaires sont naïvement écrits, en ce qu'ils produisent un nombre infini d'harmoniques, qui sont aliasées et sonnent clairement mauvais . ( ..., +1, +1, +1, +1, −1, −1, −1, −1, ...n'est pas une onde carrée correcte, et les harmoniques repliées produiront des sons de réglage radio en arrière-plan pendant le portamento.)

Si la fréquence d'échantillonnage est plus élevée, cet effet est réduit, car la fréquence de repliement est plus éloignée de la bande audio.

Bien sûr, il serait préférable que le générateur soit écrit d'une manière qui élimine complètement l'aliasing , mais vous ne pouvez pas toujours contrôler cela en tant qu'utilisateur. Même ceux qui sont bien écrits sont généralement compromis, avec un aliasing "réduit" , pas complètement limité en bande, donc un taux d'échantillonnage plus élevé est toujours utile.

Aliasing de la distorsion numérique

De même, lorsque vous utilisez n'importe quel type de distorsion numérique non linéaire, elle produit un nombre infini d'harmoniques ou de produits d' intermodulation . Celles qui seraient produites au-dessus de la fréquence de Nyquist sont en fait replacées dans la gamme audible.

Bien qu'il soit théoriquement possible de déformer de manière limitée en bande , il n'est pas courant que les codeurs de plugins le fassent. Chaque plugin de distorsion de guitare que j'ai testé a un aliasing, même un traitement à 96 kHz.

Je ne suis pas sûr de l'ampleur du problème dans la pratique. Beaucoup de choses provoquent de petites quantités de distorsion, comme un compresseur ou un fondu de volume, mais la quantité est déjà négligeable, donc la quantité aliasée est encore plus négligeable. Pour les fortes distorsions, les fréquences aliasées peuvent également ne pas être visibles car elles sont enfouies dans le bruit. Quoi qu'il en soit, un taux d'échantillonnage plus élevé aidera à minimiser les effets nocifs.

Le manque de fréquences que vous faites défaut

Une autre préoccupation possible est que les fréquences ultrasonores synthétisées pourraient devenir utiles plus tard dans le traitement, même si vous ne pouvez pas les entendre directement dans l'enregistrement:

Décalage de fréquence des changements de temps

Si vous rééchantillonnez une onde pour la ralentir, comme dans un lecteur Soundfont, ces fréquences ultrasoniques deviendront des fréquences audibles. Si vous les aviez filtrés pour éviter le repliement à une fréquence d'échantillonnage inférieure, le son ralenti manquerait le haut de gamme.

Distorsion / Modulation

Comme indiqué précédemment, la distorsion créera de nouvelles fréquences d'intermodulation à des emplacements de somme et de différence par rapport aux fréquences de l'enregistrement d'origine. Cette fois, nous sommes préoccupés par les fréquences audibles souhaitables produites par la distorsion / modulation des fréquences ultrasonores (non liées à l'aliasing). Si ces fréquences ultrasonores ne sont pas dans l'enregistrement avant la distorsion, la sortie manquera des fréquences audibles qu'elles produisent et elle n'émulera pas exactement un effet analogique équivalent.

Encore une fois, je ne sais pas si c'est pratiquement un problème, mais c'est au moins plausible, et des taux d'échantillonnage plus élevés qui incluent l'échographie vont l'améliorer.

En général, travailler à des taux d'échantillonnage plus élevés donne une "marge" pour éviter les problèmes d'effets et de choses qui peuvent ne pas être implémentés correctement. Comme la photocopie d'une photocopie, meilleure est la qualité de chaque copie, moins il y aura de dégradation dans le produit final.

Inutile pour la lecture

Cela ne veut pas dire que des taux d'échantillonnage plus élevés sont une bonne idée pour la lecture du mix final. Ils ne sont pas. Comme décrit ci-dessus, la distorsion des ultrasons peut produire un son audible et les haut-parleurs sont la chose la moins linéaire de la chaîne audio, vous devez donc éliminer les ultrasons du mixage final pour éviter qu'ils ne soient déformés par le haut-parleur.

Il n'y a aucun avantage à des taux d'échantillonnage plus élevés pour la lecture de musique; ils ne doivent être utilisés que lors des étapes d'enregistrement et de traitement. Voir Téléchargements de musique 24/192 ... et pourquoi ils n'ont aucun sens .

endolith
la source
1
+1 pour avoir mentionné des générateurs d'ondes carrées incorrects. En outre, la même chose peut être dite pour les ondes en dents de scie et triangulaires ...
Nom d'affichage
Le suréchantillonnage numérique à un taux de 96 kHz ou plus est souvent utile pour la lecture car la sortie audio peut facilement être gardée exempte de tout contenu indésirable dans la plage de 22 kHz à 48 kHz. Construire un filtre analogique pour tuer quoi que ce soit autour de 48Khz sans blesser quoi que ce soit en dessous de 22Khz est beaucoup plus facile que de construire un jusqu'à tuer tout au-dessus de 26Khz sans rien blesser en dessous de 22Khz. Si l'audio sera converti en 96Khz pour la lecture, et que l'on l'a à 96Khz, on peut aussi bien le garder à 96Khz plutôt que de le convertir et de le convertir.
supercat
@supercat C'est pour l'enregistrement, pas pour la lecture. Il est facile de créer un filtre numérique super raide pour supprimer tout ce qui dépasse 20 kHz avant la lecture. Faire un filtre analogique pour éliminer les ultrasons avant l'échantillonnage est difficile / coûteux, c'est pourquoi les ADC utilisent un suréchantillonnage à des taux beaucoup plus élevés (MHz), puis utilisent des filtres numériques pour éliminer les ultrasons et reconvertir à un taux normal comme 96 kHz.
endolith
5

Avoir une marge pour les effets est une raison théoriquement (et pratiquement) valable d'avoir un taux d'échantillonnage supérieur à deux fois la limite d'audition humaine.

La raison de cela est facilement visible en comparant avec la retouche d'image - si vous ne disposez que d'une image de 800x600 px avec une photo d'ensemble d'un mur de briques à contraste élevé, d'une résille, de textiles rayés ou d'une autre texture à contraste élevé finement espacée, vous ne pouvez faire pivoter que Multiples à 45 ° sans provoquer d' effet moiré et brouiller les détails. Avec l'audio, les distorsions qui se produisent lors de l'édition ont des termes différents, mais les mêmes principes du théorème d'échantillonnage de Nyquist-Shannon s'appliquent. Le repliement est un terme plus couramment utilisé que «effet d'imagerie», pour le cas où le son échantillonné a un contenu en fréquence supérieur à la moitié du taux d'échantillonnage (appelé fréquence de Nyquist).

En pratique, comme Pelle ten Cate l'a déjà expliqué, un filtre passe-bas de mur de briques n'est pas réalisable, mais il y a toujours un certain gradient (pente) sur la coupure.

Une autre bonne raison d'enregistrer avec des taux d'échantillonnage plus élevés est d'obtenir une image stéréo plus précise, car l'audition humaine dépend en grande partie de petites différences de temps (environ 5-20 ms, et physiquement ce sont des différences de phase) entre les oreilles pour localiser les sources sonores. Les têtes "ombre" et d'autres aspects jouent également un rôle.

Avec un taux d'échantillonnage de CD audio de 44100 Hz, chaque échantillon représente 22,6 microsecondes, et par exemple une période d'une fréquence de 882 Hz a 50 échantillons. De plus, un retard assez long de 20 ms dure 50 échantillons. Ainsi, seulement 25 échantillons à cette fréquence moyenne signifient une annulation de phase de 180 °.

Ainsi, le taux d'échantillonnage de 44,1 KHz est juste assez bon, mais n'a pas vraiment beaucoup de marge pour l'édition.

Une autre chose à garder à l'esprit est d'utiliser le tramage (tout comme dans l'édition d'image) pour éviter le bruit de quantification. Et ensuite, vous vous demanderez, dois-je utiliser la quantification 24 bits au lieu de 16 bits ...?

peterhil
la source
A-t-il été démontré que l'échographie a toujours un effet sur notre perception stéréo même si nous ne pouvons pas l'entendre consciemment?
endolith
1
Non, l'effet des différences de temps interaurales sur l'image stéréo a le plus d'effet sur les basses fréquences (inférieures à 1500 Hz), où la distance des oreilles est plus courte que la longueur d'onde, il y a donc une différence de phase. Sur les fréquences plus élevées, la différence de niveau sonore a plus d'effet sur la localisation du son. Voir: en.wikipedia.org/wiki/Interaural_time_difference#Duplex_theory
peterhil
4

Une autre bonne raison d'utiliser un taux d'échantillonnage plus élevé est de contourner les lacunes des implémentations des plugins. De nombreux rédacteurs de plugins ne prennent pas correctement en compte les effets d'extension de bande passante des opérations de signaux non linéaires et, par conséquent, vous pouvez obtenir des effets d'alias avant de quitter la boîte.

Par exemple, un compresseur est essentiellement un amplificateur commandé en tension ... il multiplie un signal (le signal audio) par un autre signal (le gain). La multiplication de 2 signaux est également connue sous le nom de modulation en anneau ou d'hétérodynage; il a pour effet de produire des signaux de somme et de différence des 2 entrées. Si vous multipliez un sinus de 15 kHz par un sinus de 10 kHz, vous obtenez un signal de sortie qui a une composante de 5 kHz et 25 kHz. Si le gain de votre compresseur a une attaque très rapide et que le signal d'entrée a une large bande passante, le signal de composante "somme" pourrait facilement dépasser la limite Fs / 2 sur une base transitoire, ce qui entraînerait des parasites de basse fréquence faussés et faussés dans votre sortie signal.

Le vrai correctif est que le plugin soit implémenté en utilisant un suréchantillonnage en interne, mais si vous ne pouvez pas l'obtenir, la meilleure chose à faire est d'exécuter le système à un F aussi élevé que possible. Vous n'aurez pas de contenu audio réel dans la stratosphère, mais vous êtes protégé contre certains plugins qui dépassent les limites.

Bill Gribble
la source
2

Pour ce qu'elle vaut, la justification mathématique, au moins pour les besoins du monde audio, est généralement décrite par le théorème d'échantillonnage de Nyquist-Shannon , parfois simplement appelé théorème de Nyquist, qui dans le langage de base indique simplement que pour reproduire pleinement un forme d'onde avec une fréquence max n Hz, vous avez besoin de 2n échantillons par seconde.

Marc Bollinger
la source
1
Oui, mais Nyquist-Shannon utilise des filtres brickwall, qui sont physiquement impossibles.
endolith
1

Lors de l'enregistrement avec plusieurs pistes, je pense que la profondeur de bits est plus importante que la fréquence d'échantillonnage.

Ainsi, par exemple, 24 bits serait mieux que 16 bits. Cela a à voir avec la façon dont vos pistes sont mixées et ce que l'on appelle des "erreurs d'arrondi" lorsqu'il n'y a pas suffisamment de bits.

La plupart du matériel et des logiciels peuvent désormais facilement prendre en charge 96k et 24bit, il n'y a donc pas vraiment besoin de se contenter de moins.

Cela dit, vous pouvez évidemment faire un enregistrement de haute qualité en utilisant un ancien équipement 16 / 44.1.

Il s'agit plus du talent que de l'équipement.

Corey
la source
2
Bien que ce ne soit pas «faux», travailler avec 24 bits présente l'inconvénient que vous devez utiliser le tramage si vous souhaitez revenir à 16 bits. Le bruit de tramage peut être considérablement réduit s'il est appliqué à un signal à 96 kHz lors de l'utilisation de la mise en forme du bruit. (voir autre réponse pour plus de détails)
The Pellmeister
1
Tous les logiciels audio professionnels fonctionnent en virgule flottante 32 ou 64 bits en interne pendant le mixage, quelle que soit la profondeur de bits utilisée pendant l'enregistrement.
leftaroundabout
3
@PelletenCate si vous travaillez avec 16 bits, vous êtes déjà foutu, car vous ajoutez du bruit de quantification à chaque étape d'édition non triviale. C'est très faux d'impliquer que travailler avec 24 bits ou plus introduit un tel inconvénient.
Afficher le nom le
J'ai attribué +1 à cela. Je ne devrais pas décrire cela comme un inconvénient, car ce n'est pas le cas. Je dois cependant dire que le bruit de quantification et le bruit de tramage non façonné sont audibles sur un mixage 44/16. Mon point est qu'en passant à 24 bits, vous vous donnez la possibilité de changer un problème (bruit de quantification) pour un autre (bruit de tramage) qui peut effectivement être diminué en enregistrant à un taux d'échantillonnage plus élevé.
Le Pellmeister du
0

"... des faits réels et réels pour toute raison mathématique ou liée au DSP justifiant l'utilisation de taux d'échantillonnage plus élevés.".

Les soi-disant faits réels proviennent de vrais ingénieurs du son, il est possible d'en trouver plusieurs ici, mais il est probablement plus rapide de rechercher sur Internet des articles écrits par de vrais ingénieurs. Demander ici signifie que vous vous contentez de nous, je ne suis pas ingénieur audio mais je peux utiliser les outils de recherche.

Quelque chose à considérer est votre bruit de fond. D'autres réponses mentionnent comment vous pouvez ajouter du bruit et mentionnent des erreurs de tramage et de quantification, mais la plus proche des autres réponses est venue de mentionner le plancher était cette friandise: "... les fréquences aliasées peuvent également ne pas être perceptibles car elles sont enfouies dans le bruit. ".

Si vous enregistrez sur un chantier de construction, une gare ou un chantier naval, vous pouvez être bon marché et enregistrer à 44,1 si vous ne recherchez pas la perfection - sinon, tout comme la vidéo est 4: 2: 2 et non 4: 2: 0, donc c'est pour Audio plus de bits mais pas plus de 32 (pour VOUS, en interne dans le logiciel plus de 32) et une fréquence d'échantillonnage plus élevée mais pas plus de 96 kHz (encore une fois, pour vous, utilisez en interne des logiciels et du matériel qui fonctionnent à une fréquence d'échantillonnage plus élevée).

Essayez ces articles pour commencer à rechercher des conseils d'ingénieur - vous ne consulteriez pas les conseils juridiques. stackexchange pour des informations critiques, alors apprenez à apprendre, c'est finalement combien vous vous souciez, combien votre public se soucie, votre niveau de compétence et ce que vous pouvez vous permettre.

Pourquoi 88.2 - http://www.soundonsound.com/sound-advice/q-why-882khz-best-sample-rate-recording

Pourquoi 24/96? - http://www.premiersoundfactory.com/modules/pico/content0035.html

Beaucoup d'endroits sur Internet, y compris des cours en ligne gratuits.

La version courte est oui, il y a une raison et c'est un fait difficile - ne jetez pas d'erreurs au début et espérez les supprimer plus tard, vous ne voudriez pas que quelqu'un parle pendant que vous essayez d'enregistrer ou que des étrangers parcourent le Shot - Pourtant, il y a des vidéos qui ont à la fois cela et de nombreux pouces vers le haut.

Le hack à retenir est d'enregistrer fort sans couper à des taux aussi élevés que vous pouvez vous permettre (temps, espace de stockage, compétence, argent et type d'entrée (IE: chantier de construction), public) et hacher les nuances les plus silencieuses avec la suppression du bruit pour débarrasser le quantification moche et bruit de tramage (que vous n'avez peut-être jamais remarqué jusqu'à ce que nous le mentionnions).

[Écrit avec l'intention d'être une réponse simple sans erreurs factuelles et non destiné à offenser les aficionados de l'audio ou les ingénieurs du son professionnels]

Rob
la source