D'après ce que je comprends, le DCT a la moitié de la taille du bac comme un DFT de la même taille N. Le DFT comprend également des informations de phase, mais souvent cela n'est pas nécessaire lorsque seul le spectre d'amplitude est souhaité.
- Le DCT pourrait-il être utilisé pour fournir un spectre de magnitude avec deux fois la densité (la moitié de l'espacement des cases) du DFT ou les informations déphasées seraient-elles perdues?
- Que diriez-vous d'un chevauchement de 50%?
Réponses:
Oui, le DCT peut être utilisé pour fournir un spectre de magnitude avec deux fois la densité. Je ne comprends pas très bien le chevauchement, mais je suppose que puisque DCT couvre moins, vous pensiez qu'il y aurait un chevauchement. Pour fournir une réponse éligible à la question, permettez-moi de faire un bref examen de l'utilisation de DCT dans le traitement d'image principalement.
Premièrement, nous devons faire quelques hypothèses. Pour utiliser DCT, vous devez avoir un vrai signal. C'est par définition. Pendant que vous dites que le DCT a la moitié de la taille du bac par rapport au DFT de la taille N, vous supposez que le signal est un signal basse fréquence. Sinon, pas tellement.
Pour l'utilisation du DCT en compression, puisque le DFT de l'image sera symétrique, il produit des informations redondantes (un miroir latéral sera suffisant pour reproduire le signal). Par conséquent, le noyau de DCT est utilisé afin de produire des informations plus denses par rapport à DFT. Cela est également vrai pour les signaux audio basse fréquence, il peut être utilisé de la même manière. Alors qu'il le rend plus dense, les coefficients augmentent, car le noyau de DCT couvre les deux côtés (parties réelles et imaginaires) du signal.
Ma spécialité est le traitement d'image, j'ai donc essayé de cartographier les concepts et explications DCT et DFT en traitement d'image. Cependant, une différence entre l'image et l'audio pourrait être la taille. Dans le traitement d'image, vous connaissez les tailles (ligne et colonnes pour FFT et autres fins de traitement). Je suppose que vous devez diviser le vecteur de données audio d'une manière ou d'une autre afin de poursuivre le processus. Sans connaître les données, cela pourrait être gênant (je ne suis pas sûr).
Voici une image prise sur le Web, mais je ne l'ai pas écrite où je l'ai prise, pourrait être wikipedia .;
Comme vous pouvez le voir, l'image transformée est représentée en DCT par un spectre de magnitude sans problème. De manière plus compacte et plus dense, et regardez l'ampleur des coefficients. Il est supérieur à deux fois la DFT. DFT est symétrique, vous pouvez simplement le diviser en deux. Une partie est redondante. Et encore une chose, DCT peut stocker les informations n'est pas seulement la moitié de DFT mais près du quart de DFT. C'est généralement le cas du DCT qui l'emporte sur le DFT dans les images.
la source
A partir de cette question, je comprends que vous songez à effectuer un traitement localisé, par blocs, à la manière d'un Fourier glissant ou d'un spectrogramme.
Si vous parlez de spectre d'amplitude, bien sûr, une partie de la phase (que ce soit l'argument d'un coefficient de Fourier complexe ou le signe d'un coefficient DCT) sera de toute façon perdue .
Donc, bien sûr, vous pouvez brancher un grand nombre de noyaux en remplacement de la transformée de Fourier fenêtrée à l'intérieur de la formulation de Fourier à court terme pour l'analyse uniquement. Les différentes races de DCT, leurs versions superposées (LOT, MDCT), avec de belles propriétés orthogonales et fenêtre, peuvent même être inversées (synthèse).
En audio, les versions DCT (non complexes) ou superposées sont souvent utilisées pour l'analyse, la détection de début et de hauteur (séparation aveugle des sources), il y a par exemple la boîte à outils STFT, MDCT et Matlab inverses par A. Liutkus. La boîte à outils d'analyse de fréquence à grande échelle (LTFAT) possède également:
Je ne connais pas très bien l'audio. Cependant, un chevauchement de 50% ou 75% est très courant et très peu de personnes utilisent d'autres paramètres. Cependant, il est très courant d' utiliser au moins deux tailles de fenêtre , une longue de partie fixe, une courte pour les transitoires, pour aider à surmonter la limitation temps-fréquence "une fenêtre".
la source