Algorithmes de vision par ordinateur (comment est-ce possible?)

9

J'ai récemment rencontré une entreprise qui a créé ce qui semble être une technologie de vision par ordinateur capable de détecter automatiquement le vol à l'étalage et d'alerter ses utilisateurs.

LIEN

Regarder certaines des vidéos et des exemples fournis par la société m'a laissé complètement déconcerté et étonné de voir comment diable ils ont pu atteindre cette fonctionnalité.

Je comprends que personne ici ne pourra me dire exactement comment cela a pu être réalisé, mais est-ce que quelqu'un est au courant - et pourrait me diriger vers - des recherches dans ce domaine ou peut-être peut-être fournir des détails sur la façon dont quelque chose comme cela pourrait être mis en œuvre ou des conseils sur où on pourrait commencer?

Ma compréhension était que les algorithmes de vision par ordinateur étaient loin d'être aussi sophistiqués. Ce type d'application est-il vraiment possible? Quiconque est prêt à tenter de deviner comment ils y sont parvenus?

Maxim Gershkovich
la source
2
Cela ne semble pas si difficile. Les jeux détectent tout le temps les collisions entre les objets; pourquoi ne pourriez-vous pas détecter les collisions entre une personne et une étagère d'articles, puis déclencher une alarme lorsque cette personne se dirigeait vers la porte sans payer?
Robert Harvey
Exactement. C'est juste une reconnaissance d'objet et une détection de collision. À moins qu'ils ne le connectent au scanner, il est facile de le surmonter en déplaçant les objets sur le scanner mais juste légèrement au-dessus. L'objet est apparu ou est entré en collision avec le scanner, mais il ne l'a pas fait.
Andrew T Finnell
Quoi qu'il en soit, aucun des mécanismes de détection décrits sur le site (chérie, perte de panier et auto-paiement) ne nécessite quoi que ce soit même à distance aussi sophistiqué. Ils vérifient dans une zone très confinée (le comptoir de la caisse) et peuvent contre-vérifier les articles vus dans le panier par rapport à ce que le lecteur de codes à barres dit avoir été réellement scanné.
Robert Harvey
1
Je suis désolé, je suis confus. Prenons l'exemple du sweathearting. J'ai deux articles, un à bas prix et un à prix élevé. J'ai placé l'article à faible coût sous celui à coût élevé et je l'ai numérisé. À ce stade, nous pouvons comparer ce qui a été scanné dans le système de point de vente à ce qui est visible sur la caméra dans la main du caissier, mais cela nécessite que le système soit capable de "comprendre ce qui est mis dans le sac" contre des centaines de milliers de potentiels articles à travers une caméra de qualité marginale. Cela semble extrêmement compliqué. Qu'est-ce que je rate?
Maxim Gershkovich
6
Je pense que vous en supposez trop sur la façon dont cela fonctionne. Je parie qu'il y a un taux d'erreur décent, et il est probablement très facile de jouer avec le système. Je vois cela comme un système de type dénonciateur, où il identifie simplement les endroits potentiels de la vidéo qui nécessitent une révision humaine. À ce titre, l'inexactitude est bien tolérée.
chris

Réponses:

5

Vous êtes mal informé sur l'état de l'art. Il y a plusieurs années, j'ai travaillé pour une entreprise qui construisait de tels systèmes à des fins diverses. L'un était un système de contrôle de sortie d'aéroport extrêmement efficace, qui pouvait facilement faire la différence entre une personne qui marche dans le mauvais sens dans le couloir de sortie et des choses comme des balles en mouvement ou des personnes qui se dirigent dans la bonne direction. Reconnaître des objets dans une scène en temps réel n'est pas facile, mais nous le faisions sur des processeurs intégrés, pas sur des superordinateurs.

Je n'y ai rien vu qui n'était pas crédible il y a quelques années.

Ross Patterson
la source
4

En fait, cette entreprise utilise un hybride de vision par ordinateur et d'examen manuel en Inde. Ce n'est pas de la pure vision par ordinateur, en particulier pour des éléments comme le cœur. En fait, je connais un détaillant qui a tout à fait un problème avec ce système non pas en raison des performances du système que je stocke, mais de la bande passante expédiant la vidéo en Inde. Ce codage manuel explique comment ils réduisent les erreurs et est une enquête technique typique auprès de certains fournisseurs maintenant.

Mike MacMillan
la source