Pourquoi les humains peuvent-ils isoler l'audio dans une foule? Que faudrait-il pour qu'un robot fasse de même?

8

J'étais à une conférence sur la robotique plus tôt dans la journée et l'un des orateurs a mentionné que les robots ne pouvaient pas fonctionner aussi bien dans une foule parce qu'ils ne pouvaient pas distinguer l'audio comme une personne le peut.

Pourquoi les gens peuvent-ils si bien distinguer l’audio? Et que faudrait-il pour qu'un robot fasse de même?

Je connais la réduction active du bruit (ANR) comme sur le casque Bose Aviation, mais ce n'est pas ce dont je parle. Je pense à la capacité de tout assimiler, mais je ne traite que ce qui me semble important.

Bob l'éponge
la source

Réponses:

7

Ce que l'orateur a dit lors de la conférence n'était pas exact. Peut-être qu'ils voulaient dire que " notre robot ne peut pas distinguer l'audio comme une personne", mais la déclaration "[les robots] ne peuvent pas distinguer l'audio comme une personne" est fausse.

Voici une liste partielle des systèmes qui peuvent déterminer la source d'un signal audio et le suivre:

Le terme que vous recherchez est un "réseau phasé" de microphones (voir aussi: Boîte à outils Matlab phased array ). La NASA utilise des réseaux phasés pour localiser le bruit provenant des pales de ventilateur de rotor en rotation .

Ian
la source
Cela fait un moment que je n'ai pas suivi ce cours audio, mais je pense aussi qu'une voix donnée devrait avoir des caractéristiques qui pourraient raisonnablement être considérées comme uniques dans une foule.
Erik Reppen
2
Pour ajouter à votre liste, le capteur Kinect pour Windows dispose d'un réseau de microphones qu'il peut utiliser pour déterminer de quel lecteur provient l'audio.
WildCrustacean
C'est excellent, avez-vous un lien sur la façon d'accéder à ces informations depuis le Kinect?
Ian
+1. Mais un robot peut-il prendre des décisions en temps réel sur ce qui est important et filtrer en fonction de cela? Il me semble que votre liste ne comprend que des sons que le robot peut apprendre à l'avance.
Adrian Keister
Certainement. La technique est appelée formation de faisceau . En supposant que vous ayez des critères de filtrage pour ce qui compte comme "important", une fois que vous aurez capté ce signal, vous suivriez son mouvement à partir de cet emplacement spatial.
Ian
2

Je pense qu'il y a au moins trois choses en cours:

  1. Filtrage dépendant de l'emplacement d'où provient le son. Notre audition stéréo combinée à certains attributs de la façon dont nos oreilles sont construites nous aide à isoler le son provenant d'un endroit / d'une direction particulière.
  2. Filtrage qui dépend de la fréquence / amplitude de l'audio.
  3. La redondance de l'audio nous permet de reconstruire l'entrée. Si plusieurs personnes se parlent les unes aux autres (ou généralement en présence de bruit), il suffit de capter une fraction de ce qui se dit (ou parfois même d'observer visuellement) pour savoir ce qui se dit.

Je pense qu'un robot peut surpasser les humains sur # 1 et # 2. Avec un réseau de microphones, on pourrait penser que vous pouvez vous concentrer efficacement sur un seul point dans l'espace et éliminer toutes les autres interférences. Cela peut être rendu plus compliqué par les réflexions et diverses autres perturbations. # 3 est probablement quelque chose de plus difficile à faire pour les ordinateurs.

Guy Sirton
la source
Le mot secret pour ce soir est stereo hearing. Demandez à tout humain qui a perdu cette capacité pour une raison quelconque. Ainsi, un programme ou même un robot avec 2 micros ou plus aura cette capacité - si le programmeur sait comment gérer l'entrée.
ott--