Feuille de route d'apprentissage pour le débutant du traitement du signal audio

13

Je voudrais commencer à apprendre le traitement du signal audio. Il existe de nombreux livres en ligne et des articles académiques qui semblent tous sauter les principes fondamentaux du sujet.

Je voudrais connaître une feuille de route approximative, pour ainsi dire, à suivre afin d'apprendre avec succès le traitement du signal audio.

J'ai lu que le calcul est la première étape avant de commencer l'analyse du signal.

J'ai l'impression que l'analyse du signal audio n'est qu'une partie des connaissances globales nécessaires. Là où d'autres sujets sont la théorie musicale, l'ingénierie audio et la programmation.

Si je peux demander à des personnes ayant des connaissances dans ce domaine de suggérer des étapes possibles pour comprendre comment analyser et manipuler / créer des signaux audio.

Jarryd
la source
Je suis d'accord pour dire qu'une formation en calcul (au minimum) va être importante pour vous d'avoir une chance de comprendre les mathématiques que vous pourriez rencontrer dans un texte ou un cours sur la théorie des signaux et des systèmes. Je ferais en sorte que tu sois le premier à y fumer.
Jason R
1
Ces diapositives pourraient vous aider. Ils apprennent quelques notions de base non mathématiques / techniques du traitement audio et de la programmation audio. blog.bjornroche.com/2011/11//
Bjorn Roche

Réponses:

9

Je ne pense pas qu'il soit utile de plonger dans la complexité de DFT / FFT / IIR / FIR et des ondelettes sans d'abord comprendre ce qu'est l'audio fondamentalement et quelles sont les différentes façons de représenter l'audio numériquement.

Qu'est-ce que l'audio en général (dans l'air, pas l'eau ou d'autres matériaux):

  • L'audio est composé d'ondes de pression acoustique
  • Ils provoquent une compression et une raréfaction de l'air
  • Ces ondes se propagent vers l'extérieur depuis le point d'origine
  • Les vagues peuvent interférer entre elles, provoquant des pics et des creux
  • Les vagues peuvent être absorbées et réfléchies par les matériaux

Comment l'audio est représenté électriquement:

  • Un microphone et un préamplificateur convertissent les ondes de pression acoustique en un signal électrique
  • En règle générale, ce signal a une tension positive et négative (comme les tensions CA)
  • Les bandes magnétiques stockent ces différences telles qu'elles apparaissent, d'où le terme analogique
  • La saturation se produit lorsque la force du signal d'entrée est égale aux limites du système (plus aucune augmentation de tension ne peut être représentée avec précision)
  • L'écrêtage se produit lorsque le signal d'entrée est supérieur à ce qui peut être représenté par le système, de sorte que le signal devient écrêté (ou plafonné aux extrémités)

Comment l'audio est représenté numériquement:

  • Le son doit d'abord être échantillonné à l'aide d'un ADC (convertisseur analogique-numérique)
  • L'échantillonnage consiste à mesurer électriquement un signal audio périodiquement
  • Cette période est appelée fréquence d'échantillonnage et détermine la fréquence la plus élevée pouvant être représentée (limite de nyquist)
  • La limite de nyquist est le taux d'échantillonnage / 2 (plus on se rapproche de la limite, plus le signal est mal représenté)
  • La plage de bits détermine le bruit de fond (-96 dB pour 16 bits vs -48 dB pour 8 bits)
  • Un seul échantillon audio de 16 bits peut avoir une valeur (signée) comprise entre -32768 et 32767 (cela peut représenter à la fois le swing négatif et le swing positif du signal analogique)
  • Il n'y a que 8 bits autorisés par octet (en termes de stockage informatique), donc un échantillon de 16 bits doit être représenté par au moins 2 octets
  • L'ordre dans lequel ces octets sont stockés est appelé leur type endian (grand ou petit)
  • Les échantillons stéréo nécessitent un échantillon séparé pour chaque canal, un pour la gauche et un autre pour la droite

Quelles sont les différentes méthodes utilisées pour stocker l'audio numérique:

  • Le PCM (impulsion code modulé) est le moyen non compressé le plus courant de stocker l'audio numériquement
  • De nombreuses compressions existent pour réduire la quantité de données utilisées, certaines sans perte, d'autres avec perte
  • Les fichiers WAV ne sont pas compressés et peuvent être mono ou stéréo (échantillons entrelacés)
  • Les fichiers MP3 sont compressés, avec perte et utilisent la psychoacoustique pour atteindre des taux de compression des données très élevés
  • Même la plage de bits la plus faible (1 bit) peut être utile en fonction de leur utilisation, généralement des cartes-cadeaux qui diffusent de l'audio stocké en 1 bit

Comment se familiariser avec l'audio dans le domaine numérique:

  • Faites et faites plus! Téléchargez un programme tel qu'audacity et créez différents fichiers audio en utilisant différentes fréquences d'échantillonnage et plages de bits
  • Créez des tons sinus / triangulaires / carrés et en dents de scie et écoutez les différences
  • Apprenez à entendre la différence entre des types tels qu'un fichier 8 bits à 10 kHz et un fichier 16 bits à 44,1 kHz (qualité CD)
  • Expérimentez avec des filtres passe-haut / passe-bas / passe-bande et écoutez les différences
  • Poussez les signaux au-delà de leur limite de saturation pour comprendre comment l'écrêtage affecte le signal audio
  • Appliquez des enveloppes aux signaux si votre logiciel a cette capacité
  • Il y a une différence entre la distorsion inharmonique et harmonique, expérimentez avec les deux
  • Utilisez un spectrogramme (FFT) pour voir ces signaux et d'autres pour vous familiariser avec eux
  • Utilisez des tracés linéaires et logarithmiques pour voir les différences
  • Sous-échantillonner et suréchantillonner les signaux et entendre comment cela affecte l'audio
  • Utilisez différentes méthodes de tramage (lors de la conversion des plages de bits) et écoutez les différences

J'espère que cela vous donnera une idée de ce qu'est l'audio représenté numériquement et à quoi ressemblent les différences avant d'essayer un DSP. Il est toujours plus facile de savoir que quelque chose ne va pas avec votre analyse FFT si vous pouvez reconnaître que vous avez entré un signal 8 bits contre un signal 16 bits par exemple ou que la fréquence d'échantillonnage a été corrompue par une erreur de calcul erronée dans une transformation.

ronnied
la source
Merci d'avoir répondu. Je suis conscient de ces choses et j'aimerais entrer dans le côté de codage DSP maintenant.
jarryd