J'ai enregistré une prononciation de 2 secondes d'un son de voyelle. Les 0,12 premières secondes environ du signal sont indiquées ci-dessous.
Maintenant, j'ai construit un modèle de 8e ordre auto-régressif (AR) pour compresser ce signal. (En fait, je ne fais que modéliser 160 échantillons ou 0,02 s à la fois.) La ar
fonction de la boîte à outils d'identification système de Matlab peut estimer les paramètres pour un ajustement de spectre "optimal".
Mon problème est de choisir l'entrée stochastique du filtre de modèle. Je suppose qu'il y a quelque chose de mieux que le bruit blanc. La périodicité (14 périodes par 0,02 seconde) m'amène à penser qu'un train d'impulsions avec la même période conviendrait.
Si oui, comment choisirais-je l'amplitude et comment trouverais-je la périodicité? Les estimations ACF et PSD sont assez bruyantes. Suis-je même sur la bonne voie?
Réponses:
Un estimateur de hauteur est couramment utilisé pour trouver la périodicité vocale. Les estimateurs de pas courants incluent l'analyse cepstrum / cepstral, le spectre de produit harmonique et les algorithmes composites, tels que YAAPT .
la source
Je pense que votre meilleur pari est le détecteur de hauteur "YIN", décrit dans cet article: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . C'est assez simple et fonctionne très bien. Ils le présentent par étapes, ou améliorations par rapport à l'idée précédente, et même la simple mise en œuvre des premières étapes devrait être suffisante.
La plupart des détecteurs de tangage actuellement utilisés sont liés à l'autocorrélation. Le plus gros problème avec la plupart des algorithmes de détection de hauteur est celui des erreurs d'octave - soit la détection d'une hauteur inférieure ou supérieure. Il est intéressant que vous disiez que votre fonction d'autocorrélation est bruyante. Vous devriez voir un tas de bruit, avec des pics à des multiples entiers et des diviseurs de la fréquence fondamentale. Espérons que le décalage temporel correspondant à la fréquence fondamentale a la plus grande valeur, mais souvent ce sera à une sous-octave (parce que les signaux ne sont pas parfaitement périodiques), ou à une octave plus élevée (à cause d'un fort formant provoquant l'un des plus élevés harmoniques pour être vraiment fort). Je recommanderais une taille de fenêtre qui est à peu près aussi grande que deux de vos périodes de pas les plus basses possibles.
Ce signal semble également avoir une composante très basse fréquence - la parole ne monte et ne descend généralement pas comme ça. Je pourrais recommander de le traiter avec, disons, un filtre passe-haut de 24 dB / oct à environ 50 Hz.
la source