Utilisez l'IA ou le réseau neuronal pour la détection de logo

10

J'essaie de détecter un logo de chaîne de télévision dans un fichier vidéo, il suffit donc de donner une .mp4vidéo d' entrée , de détecter s'il a ce logo présent dans une image spécifique, disons la première image, ou non.

Nous avons ce logo à l'avance (bien que ce ne soit peut-être pas le% 100 de la même taille) et l'emplacement est toujours fixe.

J'ai déjà une approche basée sur la correspondance de modèles. Mais cela nécessite que le motif soit de 100% de la même taille. J'aimerais utiliser Deep Learning et Neural Network pour y parvenir. Comment puis je faire ça? Je crois que CNN peut avoir une efficacité plus élevée?

Tina J
la source
1
Bienvenue chez AI! Grand sujet.
DukeZhou
1
@DukeZhou Tnx! J'espère que j'obtiens des réponses correctes avec des pointeurs vers quelques exemples de codes.
Tina J

Réponses:

5

Pour effectuer la reconnaissance d'image, vous devez trouver un moyen de représenter une image avec certaines fonctionnalités.

L'une des caractéristiques déterminantes d'un bon algorithme de reconnaissance d'image est sa capacité à détecter les régions saillantes, c'est-à-dire les régions qui contiennent le plus d'informations

Il y a actuellement beaucoup d'attention sur l'apprentissage en profondeur pour la classification d'images basée sur le contenu. Vous pouvez obtenir des résultats décents en implémentant un apprentissage en profondeur ayant trois couches ou plus de CNN où chaque couche est responsable de l'extraction d'une ou plusieurs fonctionnalités de l'image.

Seth Simba
la source
Merci. Je ne suis pas moi-même un gars de CNN. Mais existe-t-il un pointeur vers un code source qui, étant donné une image de logo, peut détecter s'il existe ou non?
Tina J
3
Hé, veuillez vérifier DeepLogo sur Github par Satoj Kovic. Il est écrit sur Python et utilise CNN pour reconnaître les logos de marque. J'ai posté le lien ci-dessous. À votre santé. github.com/satojkovic/DeepLogo
Seth Simba
3

Parce qu'il s'agit d'une entrée vidéo et que les logos sont généralement immobiles car ils sont superposés sur les images en direct ou enregistrées par du matériel ou des logiciels, la tâche n'est pas difficile. Les logos ont également généralement des palettes de couleurs limitées et des bords nets. Les caractéristiques de leurs polices, lorsqu'elles épelent des mots ou des acronymes, sont généralement également cohérentes. Ce sont des généralités qui peuvent être exploitées dans l'apprentissage profond.

Comme pour l'autre question similaire posée par cet auteur, une combinaison de couches LSTM et CNN peut être formée pour trouver et isoler le logo. Avec quelques astuces d'image, l'image derrière le logo peut également être reconstruite avec une précision et une fiabilité raisonnables à partir des pixels autour du logo grâce à un ensemble similaire de techniques d'apprentissage.

Ce sont quelques points de départ pour le développement.

Douglas Daseeco
la source