Comment gérer les fondamentaux faibles lors de l'utilisation d'AMDF pour l'extraction de pitch?

C'est ce que nous appelons le biz de détection de hauteur, le " problème d'octave ".

Tout d'abord, je changerais l'AMDF en ASDF. Et je ne réduirais pas la taille de la fenêtre à mesure que le décalage augmente. (De plus, je change la notation pour ce que je considère comme plus conventionnel. " " est un signal à temps discret.) $x[n]$

La fonction de différence quadratique moyenne (ASDF) de au voisinage de l'échantillon est: $x[n]$ $x[n_0]$

Q_{x} [k, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} {(x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋] - x [n + n_{0} - ⌊ \frac{N + k}{2} ⌋ + k])}^{2}

$Q_x[k, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \left(x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor] \ - \ x[n+n_0-\left\lfloor \tfrac{N+k}{2}\right\rfloor + k] \right)^2$

$\left\lfloor \cdot \right\rfloor$ est la floor()fonction et, si est pair alors . $k$ $\left\lfloor \frac{k}{2}\right\rfloor = \left\lfloor \frac{k+1}{2}\right\rfloor = \frac{k}{2}$

Maintenant, développez la place et d' examiner ce que les sommations ressemblent comme (pas que est va à l' infini, mais pour vous donner une idée si est grand). L'ASDF est directement lié à l'autocorrélation. Il s'agit essentiellement de l'autocorrélation renversée. Je vous laisse ces étapes. jetez un oeil à cette réponse. $N \to \infty$ $N$ $N$

Considérons maintenant cette "autocorrélation" de longueur finie (au voisinage de l'échantillon ) définie à partir de l'ASDF: $x[n_0]$

R_{x} [k, n_{0}] = R_{x} [0, n_{0}] - \frac{1}{2} Q_{x} [k, n_{0}]

$R_x[k,n_0] = R_x[0,n_0] - \tfrac12 Q_x[k, n_0]$

où

R_{x} [0, n_{0}] ≜ \frac{1}{N} \sum_{n = 0}^{N - 1} (x [n + n_{0} - ⌊ \frac{N}{2} ⌋])^{2}

$R_x[0, n_0] \triangleq \frac{1}{N} \sum\limits_{n=0}^{N-1} \Big(x[n+n_0-\left\lfloor \tfrac{N}{2}\right\rfloor]\Big)^2$

Puisque et pour tous les décalages , cela signifie que pour tous les décalages . $Q_x[0, n_0] = 0$ $Q_x[k, n_0] \ge 0$ $k$ $R_x[k, n_0] \le R_x[0, n_0]$ $k$

Supposons pendant une minute que soit périodique avec la période (et se trouve être un entier), puis $x[n]$ $P$ $P$

x [n + P] = x [n] \forall n

$x[n+P] = x[n] \quad \forall n$

et et pour tout nombre entier de périodes ( est un entier). Vous obtenez donc un pic à et à égal à tout autre multiple de si est périodique. Si n'est pas parfaitement périodique, ce à quoi nous pourrions nous attendre est le plus grand pic à , un autre pic (mais légèrement plus petit) à (la période que nous recherchons) et des pics progressivement plus petits pour des multiples plus grands de . $Q_x[mP, n_0] = 0$ $R_x[mP, n_0] = R_x[0, n_0] \ge R_x[k, n_0]$ $m$ $k=0$ $k$ $P$ $x[n]$ $x[n]$ $k=0$ $k=P$ $P$

Le problème d'octave survient donc pour deux raisons. Tout d'abord, n'est pas nécessairement un entier. C'est un problème d'interpolation, pas grave. $P$

La deuxième raison et le problème le plus difficile est celui des sous - harmoniques . Considérez que vous écoutez une belle tonalité périodique à exactement A-440 Hz et cela ressemble à un A qui est 9 demi-tons au-dessus du milieu C. Supposons maintenant que quelqu'un ajoute à cette tonalité une très petite amplitude (comme vers le bas 60 dB) A -220? À quoi cela ressemblera-t-il et mathématiquement quelle est la "vraie" période?

Choisir le "bon" pic pour la période.

Supposons que vous exécutez votre note à travers un filtre de blocage DC, de sorte que la moyenne de soit nulle. Il s'avère que la moyenne de l'autocorrélation pour chaque également nulle (ou proche si est grand). Cela signifie que doit (sur ) pour être environ zéro, ce qui signifie qu'il y a autant d'aire au-dessus de zéro qu'en-dessous. $x[n]$ $R_x[k, n_0]$ $n_0$ $N$ $R_x[k, n_0]$ $k$

D'accord, donc représente la puissance de au voisinage de et doit être non négatif. ne dépasse jamais mais peut devenir aussi grand que lorsque est périodique. si . Donc, si est périodique avec la période et que vous avez un tas de pics espacés par et que vous avez une idée de la hauteur de ces pics. Et si la composante continue de est nulle, cela signifie entre les pics, elle doit avoir des valeurs négatives. $R_x[0, n_0]$ $x[n]$ $n=n_0$ $R_x[k, n_0]$ $R_x[0, n_0]$ $x[n]$ $R_x[P, n_0] = R_x[0, n_0]$ $x[n+P]=x[n]$ $x[n]$ $P$ $P$ $R_x[k, n_0]$

Si était "quasi-périodique", un cycle de ressemblera beaucoup à un cycle adjacent, mais pas tellement à un cycle de plus bas dans le temps. Cela signifie que le premier pic sera plus élevé que le second à ou le troisième . On pourrait utiliser la règle pour toujours choisir le pic le plus élevé et s'attendre à ce que le pic le plus élevé soit toujours le premier. Mais, à cause de sous-harmoniques inaudibles, parfois ce n'est pas le cas. parfois le deuxième ou peut-être le troisième pic est oh-tellement-légèrement plus élevé. De plus, parce que la période n'est probablement pas un nombre entier d'échantillons mais dans $x[n]$ $x[n]$ $x[n]$ $R_x[P, n_0]$ $R_x[2P, n_0]$ $R_x[3P, n_0]$ $P$ $k$ $R_x[k, n_0]$ est toujours un entier, donc le vrai pic sera probablement entre les valeurs entières de . Même si vous deviez interpoler où se trouve le pic lisse (ce que je recommande et l'interpolation quadratique est assez bonne), et à quel point il est vraiment entre l'entier , votre interpolation alg pourrait faire un pic légèrement plus haut ou légèrement plus bas qu'il ne l'est vraiment. Ainsi, le choix du pic le plus élevé peut entraîner un choix fallacieux du second sur le premier pic (ou vice versa) lorsque vous vouliez vraiment l'autre. $k$ $k$

Donc, d'une manière ou d'une autre, vous devez handicaper les pics à l'augmentation de pour que le premier pic ait un léger avantage sur le second, et le second sur le quatrième (la prochaine octave vers le bas), etc. Comment faites-vous cela? $k$

Vous faites cela en multipliant avec une fonction décroissante de de telle sorte que le pic à est réduite par un facteur, par rapport à un pic identique à . Il s'avère que la fonction de puissance (pas l'exponentielle) fait cela. alors calculez $R_x[k, n_0]$ $k$ $k=2P$ $k=P$

k^{- α} R_{x} [k, n_{0}]

$k^{-\alpha} \ R_x[k, n_0]$

Donc, si était parfaitement périodique avec la période , et en ignorant les problèmes d'interpolation pour non entier , alors $x[n]$ $P$ $P$

R_{x} [2 P, n_{0}] = R_{x} [P, n_{0}]

$R_x[2P, n_0] = R_x[P, n_0]$

mais

\begin{aligned} (2 P)^{- α} R_{x} [2 P, n_{0}] & = \\ (2 P)^{- α} R_{x} [P, n_{0}] & < P^{- α} R_{x} [P, n_{0}] \end{aligned}

$\begin{align} (2P)^{-\alpha} R_x[2P, n_0] & = \\ (2P)^{-\alpha} R_x[P, n_0] & < P^{-\alpha} R_x[P, n_0] \\ \end{align}$

Le facteur par lequel le pic pour une hauteur d'une octave inférieure est réduit est le rapport

\frac{(2 P)^{- α} R_{x} [2 P, n_{0}]}{P^{- α} R_{x} [P, n_{0}]} = \frac{(2 P)^{- α}}{P^{- α}} = 2^{- α}

$\frac{(2P)^{-\alpha} R_x[2P, n_0]}{P^{-\alpha} R_x[P, n_0]} = \frac{(2P)^{-\alpha}}{P^{-\alpha}} = 2^{-\alpha}$

Donc, si vous voulez donner à votre premier pic un boost de 1% par rapport au deuxième pic, ce qui signifie que vous ne choisirez pas le pitch comme étant le pitch sous-harmonique, à moins que l'autocorrélation de la hauteur du sub-harmonique soit au moins 1% plus élevée que la première pic, vous résoudriez pour de $\alpha$

2^{- α} = 0.99

$2^{-\alpha} = 0.99$

C'est la manière cohérente de pondérer ou de désaccentuer ou de handicaper le pic correspondant à la hauteur subharmonique une octave plus bas.

Cela vous laisse toujours avec un problème de seuil. Vous devez bien choisir . Mais c'est une manière cohérente de souligner le premier pic par rapport au second, qui est une octave plus basse, mais pas tellement que si la note est vraiment une octave plus basse, mais l'énergie dans toutes les harmoniques paires était forte, par rapport à l'impaire harmoniques, cela laissera toujours la possibilité de choisir le deuxième pic. $\alpha$

robert bristow-johnson
la source

Pour répondre à votre dernière question: si vous ajoutez une amplitude de 220 Hz, alors la hauteur sera de 220 Hz où 440 Hz est la première harmonique après la fondamentale (mathématiquement parlant). Mon cas est similaire mais il y a aussi des harmoniques plus élevées, donc le fondamental manquant n'est pas un problème d'un point de vue perceptuel. Je ne comprends pas comment le remplacement d'AMDF par ASDF pourrait résoudre le problème d'octave

firion

mais l'autre moitié de la question est * "à quoi cela ressemblera-t-il"? Répondez à cela et voyons ce que vous voulez que votre détecteur de hauteur fasse.

robert bristow-johnson

essayez de calculer et de tracer pour le même morceau de ton que vous avez fait pour l'AMDF. devrait ressembler à quelque chose comme l'AMDF à l'envers.

R_{x} [k, n_{0}]

$R_x[k,n_0]$

robert bristow-johnson

Si vous n'avez pas d'autres harmoniques plus élevées mais juste celle de 440 Hz et que la tonalité de 220 Hz est suffisamment basse, vous entendrez une hauteur de 440 Hz. Au-dessus d'un certain niveau (je ne sais pas lequel), vous entendrez également la tonalité de 220 Hz et donc une hauteur de 220 Hz.

firion

il y a une raison pour laquelle j'ai dit -60 dB. maintenant que voulez-vous que votre détecteur de hauteur dise, que ce soit une note de 220 Hz ou 440 Hz ou autre chose?

robert bristow-johnson

Comment gérer les fondamentaux faibles lors de l'utilisation d'AMDF pour l'extraction de pitch?

Réponses: