J'ai un signal de parole de trente secondes qui a été échantillonné à 44,1 kHz. Maintenant, je voudrais montrer quelles fréquences le discours a. Cependant, je ne sais pas quelle serait la meilleure façon de procéder. Il semble parfois que l'on calcule la valeur absolue d'une transformée de Fourier, et parfois la densité spectrale de puissance. Si je comprends bien, ce dernier fonctionne de sorte que je divise mon signal en parties, que je fasse la FFT partie par partie et que je les additionne d'une manière ou d'une autre. Les fonctions de la fenêtre sont en quelque sorte impliquées. Pouvez-vous clarifier cela un peu pour moi? Je suis nouveau sur DSP.
12
Réponses:
Si vous souhaitez attacher une signification physique à votre analyse, optez pour la densité spectrale de puissance (PSD). En effet, cela vous donnera simplement la puissance de votre signal, dans chaque bande de fréquence. D'un autre côté, si vous ne voulez pas vous soucier d'une signification physique, mais voulez savoir comment les amplitudes de Fourier de chaque bande varient les unes par rapport aux autres, vous pouvez vous en tenir à une amplitude absolue.
Non, ce n'est pas vrai. Ce dont vous parlez ici se réfère à la transformée de Fourier à court terme (STFT). Il s'agit simplement de découper votre signal dans le domaine temporel, de l'élargir, puis de prendre la forme de Fourier. À la fin de la journée, vous aurez toujours une matrice complexe. Si vous choisissez de prendre sa magnitude absolue, vous aurez une matrice de transformation de Fourier de magnitude absolue. Si vous prenez sa magnitude absolue au carré, vous aurez une matrice de densité spectrale de puissance.
la source
La chose importante à comprendre à propos de quelque chose comme un signal vocal est que ses composantes de fréquence varient dans le temps . Afin de représenter la parole dans le domaine fréquentiel, nous prenons généralement une fenêtre suffisamment courte du signal à l'intérieur de laquelle nous pouvons supposer que le spectre de la parole ne varie pas de manière significative (généralement 10 ms). Nous calculons donc le spectre de puissance pour chaque fenêtre successive de 10 ms en utilisant le STFT (souvent avec un certain chevauchement entre les fenêtres) et traitons chaque spectre successif comme un "instantané" des composantes de fréquence de la parole à ce moment particulier. Souvent, les spectres successifs sont tracés dans un tracé 3D tel qu'un spectrogramme, avec le temps sur l'axe X, la fréquence sur l'axe Y et la magnitude tracée comme une fausse couleur ou une intensité d'échelle de gris à chaque emplacement X, Y.
la source