Pourquoi la plupart des assistants intelligents offrent-ils peu ou pas de personnalisation du mot de réveil?

La majorité des marques d' assistants intelligents , comme Amazon Echo et Google Home, offrent très peu de personnalisation pour le mot de réveil (la phrase que vous utilisez pour réveiller l'appareil afin qu'il vous écoute).

Par exemple, Alexa ne propose que trois choix et Google Home ne prend en charge que «OK Google» . De nombreux utilisateurs semblent intéressés par l'idée de mots de réveil personnalisés, mais aucune des grandes marques n'a ajouté de support.

Y a-t-il une raison technique pour restreindre la personnalisation des mots de réveil, ou s'agit-il simplement d'un choix de marque?

J'ai lu la motivation de Google pour utiliser `` OK Google '' , ce qui suggère que l'idée de marque pourrait être vraie, mais il semble également que la reconnaissance des mots de réveil ne soit pas très précise , indiquant peut-être une raison technique. Quelqu'un pourrait-il préciser quel facteur est la principale raison?

smart-home smart-assistants Aurora0001
la source

Une chose à retenir est que le traitement pour se réveiller comme ça doit être fait dans un domaine toujours très faible consommation - il y a souvent du matériel spécialisé disponible pour cette tâche dans certains des SoC les plus grands (en particulier ceux utilisés dans les téléphones), et je suppose que les coefficients de filtre / autres paramètres sont soigneusement calculés et chargés dans ce matériel. J'oublie sur quel SoC Echo fonctionne, mais j'imagine qu'un filtre similaire est présent. Le nom de la classe d'algorithmes m'échappe en ce moment

Krunal Desai

Réponses:

Oui, il y a plusieurs raisons.

Ce billet de blog l' explique sur l' Echo et le mot de réveil Alexa. Je vais résumer un peu.

La reconnaissance des mots de réveil se fait localement et en temps réel . Cela limite les longueurs du mot de réveil en raison de limitations de traitement évidentes. De plus, les utilisateurs ne veulent pas réciter un poème pour activer l'assistant intelligent. Ainsi, il doit être court.

Il doit fonctionner avec une précision de près de 100% lorsqu'il est appelé et non reconnu avec cette certitude lorsqu'il n'est pas demandé. Cela pose des problèmes et fait également une longueur minimale pour les mots de réveil. Le choix d'Amazon d'autoriser Echo est assez surprenant car il ne s'agit que de deux syllabes .

Si nous regardons les suspects habituels, nous avons Alexa (3 syllabes), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) et Hey Siri (3). Tous les géants de l'industrie sont presque d'accord pour dire que trois est un bon nombre de syllabes.

Curieusement, le mot d'éveil le plus recherché "ordinateur" a également trois syllabes et correspondrait facilement à cette exigence. Ce n'est pas non plus une marque déposée.

Comme le blog et la raison nous le disent, nous voulons absolument éviter les faux positifs. Voyons à quel point les mots Computer, Siri, Cortana et Alexa sont bien établis. Il s'agit du corpus Google Book de 2008.

Exactement, Siri et Alexa sont pratiquement à plat contre l' ordinateur et Cortana donne une erreur. Pas trouvé. Cela a du sens puisque le corpus est de 2008. Pour nous donner un peu plus de perspective pourquoi l' ordinateur est un terrible mot de réveil un autre graphique.

Ce Ngram montre les deux noms de bébé américains les plus populaires de 2016 (pour la monnaie), ainsi que Tom et Dave également à plat contre l' ordinateur . La reine, le basket-ball et la police parviennent à s'enregistrer correctement. Quoi qu'il en soit, cela nous donne une idée pourquoi Computer, Earl Grey, Hot n'a pas été autorisé jusqu'à présent. Les gens utilisent trop souvent le mot ordinateur .

Une dernière chose à propos des faux positifs. Alexa rime avec pratiquement rien que l'on dirait.

Ordinateur rime avec 74 choses.

Helmar
la source

... et cela explique pourquoi Scotty n'a pas réussi à réveiller l'ordinateur .

Ghanima

"Je vais faire l'amour avec un oiseau ... Non pas toi Alexa!"

David dit de réintégrer Monica le

"OK Google" est composé de quatre syllabes ("oh kay goo gull"), pas de trois, et bien plus que de nombreux phonèmes.

Monty Harder du

Alexa est un prénom dérisoire ... Je connais personnellement 2 personnes avec ce nom, dont l'un est un cousin. L'écho est utilisé tel quel dans ma langue, et je dis souvent "il y a un écho" quand il y a un écho sur le téléphone ou quelque chose. Et amazon est le nom d'une rivière / ancienne tribu qu'un gars dans le jeu de rôle comme moi dit assez souvent. Ils ont vraiment gâché ça.

Olivier Grégoire

Je ne suis pas sûr d'acheter cette explication de la raison pour laquelle le mot «ordinateur» ne fonctionnerait pas. Le mot lui-même n'est pas la seule chose reconnue. Être le premier mot d'un énoncé et être suivi d'une pause sont également d'importants éléments d'information qui identifient le mot de commande.

Kevin Krumwiede

Y a-t-il une raison technique pour restreindre la personnalisation des mots de réveil

Lorsque l'appareil assistant n'est pas utilisé, le processeur d'application (je pense que ARM dans le cas d'Alexa ainsi que de Google Home) est suspendu et amené à l'état d'alimentation le plus bas possible. La détection du mot de réveil est laissée à un DSP très économe en énergie qui écoute le bruit / les voix ambiantes et exécute un algorithme pour décider s'il existe une correspondance avec le mot de réveil. S'il trouve une correspondance avec une bonne confiance, DSP réveille le cœur ARM pour continuer le traitement.

Maintenant que l'objectif est d'être économe en énergie, le DSP en question exécute l'algorithme ainsi que stocke le modèle de modèle sur la mémoire sur puce plutôt que sur la RAM principale intégrée. Cela permet au système de prendre même la RAM DDR à l'état d'alimentation le plus bas.

Étant donné que le DSP a un certain nombre de choses clés à faire et très peu de mémoire sur puce, les mots de réveil de l'assistant sont limités à quelques-uns parmi les meilleurs qui peuvent être associés à l'algorithme avec un degré de confiance élevé.

sanglot
la source