J'essaie de détecter un logo de chaîne de télévision dans un fichier vidéo, il suffit donc de donner une .mp4
vidéo d' entrée , de détecter s'il a ce logo présent dans une image spécifique, disons la première image, ou non.
Nous avons ce logo à l'avance (bien que ce ne soit peut-être pas le% 100 de la même taille) et l'emplacement est toujours fixe.
J'ai déjà une approche basée sur la correspondance de modèles. Mais cela nécessite que le motif soit de 100% de la même taille. J'aimerais utiliser Deep Learning et Neural Network pour y parvenir. Comment puis je faire ça? Je crois que CNN peut avoir une efficacité plus élevée?
neural-networks
convolutional-neural-networks
pattern-recognition
detecting-patterns
Tina J
la source
la source
Réponses:
Pour effectuer la reconnaissance d'image, vous devez trouver un moyen de représenter une image avec certaines fonctionnalités.
L'une des caractéristiques déterminantes d'un bon algorithme de reconnaissance d'image est sa capacité à détecter les régions saillantes, c'est-à-dire les régions qui contiennent le plus d'informations
Il y a actuellement beaucoup d'attention sur l'apprentissage en profondeur pour la classification d'images basée sur le contenu. Vous pouvez obtenir des résultats décents en implémentant un apprentissage en profondeur ayant trois couches ou plus de CNN où chaque couche est responsable de l'extraction d'une ou plusieurs fonctionnalités de l'image.
la source
Parce qu'il s'agit d'une entrée vidéo et que les logos sont généralement immobiles car ils sont superposés sur les images en direct ou enregistrées par du matériel ou des logiciels, la tâche n'est pas difficile. Les logos ont également généralement des palettes de couleurs limitées et des bords nets. Les caractéristiques de leurs polices, lorsqu'elles épelent des mots ou des acronymes, sont généralement également cohérentes. Ce sont des généralités qui peuvent être exploitées dans l'apprentissage profond.
Comme pour l'autre question similaire posée par cet auteur, une combinaison de couches LSTM et CNN peut être formée pour trouver et isoler le logo. Avec quelques astuces d'image, l'image derrière le logo peut également être reconstruite avec une précision et une fiabilité raisonnables à partir des pixels autour du logo grâce à un ensemble similaire de techniques d'apprentissage.
Ce sont quelques points de départ pour le développement.
la source