Un DCT pourrait-il être utilisé pour un spectre de magnitude audio plutôt que DFT?

13

D'après ce que je comprends, le DCT a la moitié de la taille du bac comme un DFT de la même taille N. Le DFT comprend également des informations de phase, mais souvent cela n'est pas nécessaire lorsque seul le spectre d'amplitude est souhaité.

  • Le DCT pourrait-il être utilisé pour fournir un spectre de magnitude avec deux fois la densité (la moitié de l'espacement des cases) du DFT ou les informations déphasées seraient-elles perdues?
  • Que diriez-vous d'un chevauchement de 50%?
Jacob
la source
4
Je crois que le DCT comprend également des informations de phase, il n'utilise simplement pas de nombres complexes. La "FFT réelle" utilise également la moitié de la mémoire et la moitié du temps de calcul pour la même information, en jetant les fréquences négatives identiques. "la partie réelle d'une FFT à double longueur est la même que la DCT à l'exception du déphasage d'un demi-échantillon dans les fonctions de la base sinusoïdale"
endolith
En effet, au minimum le signe d'un coefficient peut être considéré comme une phase de pauvre
Laurent Duval

Réponses:

3

Oui, le DCT peut être utilisé pour fournir un spectre de magnitude avec deux fois la densité. Je ne comprends pas très bien le chevauchement, mais je suppose que puisque DCT couvre moins, vous pensiez qu'il y aurait un chevauchement. Pour fournir une réponse éligible à la question, permettez-moi de faire un bref examen de l'utilisation de DCT dans le traitement d'image principalement.

Premièrement, nous devons faire quelques hypothèses. Pour utiliser DCT, vous devez avoir un vrai signal. C'est par définition. Pendant que vous dites que le DCT a la moitié de la taille du bac par rapport au DFT de la taille N, vous supposez que le signal est un signal basse fréquence. Sinon, pas tellement.

Pour l'utilisation du DCT en compression, puisque le DFT de l'image sera symétrique, il produit des informations redondantes (un miroir latéral sera suffisant pour reproduire le signal). Par conséquent, le noyau de DCT est utilisé afin de produire des informations plus denses par rapport à DFT. Cela est également vrai pour les signaux audio basse fréquence, il peut être utilisé de la même manière. Alors qu'il le rend plus dense, les coefficients augmentent, car le noyau de DCT couvre les deux côtés (parties réelles et imaginaires) du signal.

Ma spécialité est le traitement d'image, j'ai donc essayé de cartographier les concepts et explications DCT et DFT en traitement d'image. Cependant, une différence entre l'image et l'audio pourrait être la taille. Dans le traitement d'image, vous connaissez les tailles (ligne et colonnes pour FFT et autres fins de traitement). Je suppose que vous devez diviser le vecteur de données audio d'une manière ou d'une autre afin de poursuivre le processus. Sans connaître les données, cela pourrait être gênant (je ne suis pas sûr).

Voici une image prise sur le Web, mais je ne l'ai pas écrite où je l'ai prise, pourrait être wikipedia .;

Traitement d'image

Comme vous pouvez le voir, l'image transformée est représentée en DCT par un spectre de magnitude sans problème. De manière plus compacte et plus dense, et regardez l'ampleur des coefficients. Il est supérieur à deux fois la DFT. DFT est symétrique, vous pouvez simplement le diviser en deux. Une partie est redondante. Et encore une chose, DCT peut stocker les informations n'est pas seulement la moitié de DFT mais près du quart de DFT. C'est généralement le cas du DCT qui l'emporte sur le DFT dans les images.

Héphaïstos
la source
La FFT ne peut-elle pas être divisée en quarts, car elle est redondante dans les dimensions X et Y?
endolith
Pourquoi la FFT contient-elle plus d'informations et le DCT contient-il plus de zéros?
endolith
Première question, je ne comprends pas très bien, que voulez-vous dire par les dimensions X et Y? Pour la deuxième question, c'est à cause de la différence dans leurs noyaux. Il ne semble pas que DCT contienne plus de zéros, il contient en fait plus de zéros que la transformée de Fourier (DFT) normale. Cela est dû à nouveau à leur différence dans leurs grains.
Hephaestus
Je veux dire que l'image est un vrai signal, donc la FFT contient des informations redondantes. La moitié négative de la FFT n'est qu'un miroir de la moitié positive, dans les deux dimensions.
endolith
0
  • Que diriez-vous d'un chevauchement de 50%?

A partir de cette question, je comprends que vous songez à effectuer un traitement localisé, par blocs, à la manière d'un Fourier glissant ou d'un spectrogramme.

  • Le DCT pourrait-il être utilisé pour fournir un spectre de magnitude avec deux fois la densité (la moitié de l'espacement des cases) du DFT ou les informations déphasées seraient-elles perdues?

Si vous parlez de spectre d'amplitude, bien sûr, une partie de la phase (que ce soit l'argument d'un coefficient de Fourier complexe ou le signe d'un coefficient DCT) sera de toute façon perdue .

Donc, bien sûr, vous pouvez brancher un grand nombre de noyaux en remplacement de la transformée de Fourier fenêtrée à l'intérieur de la formulation de Fourier à court terme pour l'analyse uniquement. Les différentes races de DCT, leurs versions superposées (LOT, MDCT), avec de belles propriétés orthogonales et fenêtre, peuvent même être inversées (synthèse).

En audio, les versions DCT (non complexes) ou superposées sont souvent utilisées pour l'analyse, la détection de début et de hauteur (séparation aveugle des sources), il y a par exemple la boîte à outils STFT, MDCT et Matlab inverses par A. Liutkus. La boîte à outils d'analyse de fréquence à grande échelle (LTFAT) possède également:

  • Transformations TF rapides avec une échelle temps-fréquence linéaire: Gabor (STFT), Wilson et MDCT fenêtré
  • Régression clairsemée dans le domaine Gabor et WMDCT

Je ne connais pas très bien l'audio. Cependant, un chevauchement de 50% ou 75% est très courant et très peu de personnes utilisent d'autres paramètres. Cependant, il est très courant d' utiliser au moins deux tailles de fenêtre , une longue de partie fixe, une courte pour les transitoires, pour aider à surmonter la limitation temps-fréquence "une fenêtre".

Laurent Duval
la source