Quelle entrée utiliser pour un modèle AR d'un son de voyelle?

8

J'ai enregistré une prononciation de 2 secondes d'un son de voyelle. Les 0,12 premières secondes environ du signal sont indiquées ci-dessous.

Maintenant, j'ai construit un modèle de 8e ordre auto-régressif (AR) pour compresser ce signal. (En fait, je ne fais que modéliser 160 échantillons ou 0,02 s à la fois.) La arfonction de la boîte à outils d'identification système de Matlab peut estimer les paramètres pour un ajustement de spectre "optimal".

Mon problème est de choisir l'entrée stochastique du filtre de modèle. Je suppose qu'il y a quelque chose de mieux que le bruit blanc. La périodicité (14 périodes par 0,02 seconde) m'amène à penser qu'un train d'impulsions avec la même période conviendrait.

Si oui, comment choisirais-je l'amplitude et comment trouverais-je la périodicité? Les estimations ACF et PSD sont assez bruyantes. Suis-je même sur la bonne voie?

entrez la description de l'image ici

digital-communications autoregressive-model speech Andreas
la source

1

Pour info, j'ai fini par mettre à l'échelle le train d'impulsions de telle sorte que son énergie de signal (mesurée dans le domaine temporel) soit la même que celle du signal enregistré.

Andreas

5

Un estimateur de hauteur est couramment utilisé pour trouver la périodicité vocale. Les estimateurs de pas courants incluent l'analyse cepstrum / cepstral, le spectre de produit harmonique et les algorithmes composites, tels que YAAPT .

hotpaw2
la source

Merci. Comment choisir l'amplitude d'impulsion?

Andreas

4

Je pense que votre meilleur pari est le détecteur de hauteur "YIN", décrit dans cet article: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . C'est assez simple et fonctionne très bien. Ils le présentent par étapes, ou améliorations par rapport à l'idée précédente, et même la simple mise en œuvre des premières étapes devrait être suffisante.

La plupart des détecteurs de tangage actuellement utilisés sont liés à l'autocorrélation. Le plus gros problème avec la plupart des algorithmes de détection de hauteur est celui des erreurs d'octave - soit la détection d'une hauteur inférieure ou supérieure. Il est intéressant que vous disiez que votre fonction d'autocorrélation est bruyante. Vous devriez voir un tas de bruit, avec des pics à des multiples entiers et des diviseurs de la fréquence fondamentale. Espérons que le décalage temporel correspondant à la fréquence fondamentale a la plus grande valeur, mais souvent ce sera à une sous-octave (parce que les signaux ne sont pas parfaitement périodiques), ou à une octave plus élevée (à cause d'un fort formant provoquant l'un des plus élevés harmoniques pour être vraiment fort). Je recommanderais une taille de fenêtre qui est à peu près aussi grande que deux de vos périodes de pas les plus basses possibles.

Ce signal semble également avoir une composante très basse fréquence - la parole ne monte et ne descend généralement pas comme ça. Je pourrais recommander de le traiter avec, disons, un filtre passe-haut de 24 dB / oct à environ 50 Hz.

schnarf
la source

Merci à vous deux, je vais vérifier ces détecteurs de hauteur. Lorsque la période est estimée, comment puis-je trouver quelle amplitude est appropriée pour le train d'impulsions?

Andreas

Quelle entrée utiliser pour un modèle AR d'un son de voyelle?

Réponses: