Comment Siri me reconnaît-il en disant «Hey Siri»?

8

Je suis en train de comprendre comment mon iPhone peut écouter sans cesse pour me dire Hey Siri, Alexa, Hey Cortanaou Okay Googlesans vider rapidement ma batterie vers le bas.

J'ai imaginé deux types d'algorithmes. Celui qui enregistre une tranche de temps telle que des tranches larges de 10 ms toutes les 200 ms et effectue une détection synchrone sur des fréquences spécifiques. Cependant, ces paramètres dépendent fortement des caractéristiques de ma voix. De plus, il consommera toujours beaucoup de puissance CPU pour essayer continuellement de faire correspondre un Hey Siriau milieu de nulle part.

Quel type d'algorithme / implémentation efficace à faible puissance (matériel ou logiciel) peut effectuer une telle tâche?

Ceci est en quelque sorte lié à ce brevet, je pense: https://www.google.com/patents/US20160253997

J'ai lu quelques articles qui parlent de modèles Markov cachés, mais je doute que ce soit une approche à très faible puissance.

nowox
la source

Réponses:

6

"Ok Google" est décrit dans de nombreuses publications de Google

Contrôle automatique du gain et formation multi-style pour un repérage de mots clés robuste à faible encombrement avec des réseaux de neurones profonds

Réseaux de neurones convolutifs pour le repérage de mots clés à faible encombrement

Il est basé sur DNN spécialement formé pour la phrase clé et fonctionne très rapidement. Il ne consomme pas beaucoup d'énergie même sur mobile.

Alexa spotting est implémenté par les mêmes gars et disponible en tant que Snowboy

MISE À JOUR: Apple décrit leur implémentation ici .

Nikolay Shmyrev
la source
1

Pour développer la réponse @ hotpaw2, "Hey Siri" fonctionne sur la puce de coprocesseur M9 à faible puissance , qui fait également des choses comme la surveillance des pas, etc. pour l'application Santé. Par conséquent, dans les appareils plus anciens sans puce M9, vous avez besoin que votre iDevice soit branché pour que "Hey Siri" fonctionne.

Je pense que l'implémentation matérielle basse consommation est la clé (plutôt que le génie algorithmique agnostique uniquement matériel)

Références:

ruoho ruotsi
la source
0

Juste quelques suppositions sauvages:

Le matériel dédié (puce "M" supplémentaire ou bloc logique SOC avec son propre domaine d'alimentation isolé), fonctionnant à des fréquences d'horloge de traitement audio ou des cycles de service, sur de minuscules tampons de données, consomme beaucoup moins d'énergie que les processeurs compatibles GHz avec de vastes hiérarchies de mémoire. Le processeur principal ne doit se réveiller que si un ID probable initial est suffisamment élevé, de sorte que l'algorithme de détection initial n'a pas besoin d'être bon, juste assez bon. Considérez également la minuscule batterie de l'oreillette Bluetooth intra-auriculaire par rapport à un smartphone ayant la même autonomie. Un traitement audio simple ne décharge pas rapidement les énormes batteries de téléphones portables.

hotpaw2
la source