J'ai lu ces mots dans de nombreuses publications et j'aimerais avoir de belles définitions pour ces termes qui montrent clairement quelle est la différence entre la détection d'objet et la segmentation sémantique et la localisation. Ce serait bien si vous pouviez donner des sources pour vos définitions.
terminology
computer-vision
Martin Thoma
la source
la source
Réponses:
J'ai lu beaucoup d'articles sur la détection d'objets, la reconnaissance d'objets, la segmentation d'objets, la segmentation d'images et la segmentation d'images sémantique et voici mes conclusions qui pourraient ne pas être vraies:
Reconnaissance d'objets: dans une image donnée, vous devez détecter tous les objets (une classe restreinte d'objets dépend de votre jeu de données), les localiser avec un cadre de sélection et étiqueter ce cadre de sélection avec une étiquette. Dans l'image ci-dessous, vous verrez une sortie simple d'une reconnaissance d'objet de pointe.
Détection d'objets: c'est comme la reconnaissance d'objets, mais dans cette tâche, vous n'avez que deux classes de classification d'objets, ce qui signifie des zones de délimitation d'objet et des zones de délimitation sans objet. Par exemple Détection de voiture: vous devez Détecter toutes les voitures dans une image donnée avec leurs boîtes englobantes.
Segmentation des objets: comme la reconnaissance d'objets, vous reconnaîtrez tous les objets d'une image, mais votre sortie devrait montrer cet objet classant les pixels de l'image.
Segmentation de l'image: dans la segmentation de l'image, vous segmenterez les régions de l'image. votre sortie ne marquera pas les segments et la région d'une image qui doivent être cohérents les uns avec les autres dans le même segment. L'extraction de super pixels d'une image est un exemple de cette tâche ou de la segmentation de premier plan-arrière-plan.
Segmentation sémantique: Dans la segmentation sémantique, vous devez étiqueter chaque pixel avec une classe d'objets (voiture, personne, chien, ...) et non-objets (eau, ciel, route, ...). En d'autres termes, dans la segmentation sémantique, vous étiqueterez chaque région de l'image.
la source
Étant donné que ce problème n'est toujours pas tout à fait clair même en 2019 et qu'il pourrait aider les nouveaux apprenants ML à choisir, voici une très bonne image montrant les différences:
(la localisation est le cadre de délimitation autour de la classe "moutons", après une classification de l'image) source: Towardsdatascience.com
la source
Je crois que juste "localisation" signifie "classification d'objet unique + localisation à l'aide d'un cadre de délimitation 2D ou 3D".
La "détection d'objets" consiste à localiser + classer toutes les instances des classes d'objets connues en question.
La segmentation sémantique est essentiellement une classification par pixel.
Également des métriques impliquées (source: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )
La précision est le rapport des objets identifiés avec précision sur le nombre total d'objets prédits (rapport des vrais positifs aux vrais positifs plus les faux positifs).
Le rappel est le rapport des objets identifiés avec précision au nombre total d'objets réels dans les images (rapport des vrais positifs aux vrais positifs plus les vrais négatifs).
mAP: un score moyen de précision moyenne simplifié basé sur le produit de la précision et du rappel pour DetectNet. C'est une bonne mesure combinée de la sensibilité du réseau aux objets d'intérêt et de la façon dont il évite les fausses alarmes.
la source
Le terme localisation n'est pas clair. Je vais donc discuter des termes détection d'objet et segmentation sémantique.
Dans la détection d'objets, chaque pixel d'image est classé, qu'il appartienne ou non à une classe particulière (par exemple le visage). En pratique, cela est simplifié en regroupant les pixels pour former des cadres de délimitation, réduisant ainsi le problème à décider si le cadre de délimitation est bien ajusté autour de l'objet. Comme les pixels peuvent appartenir à plusieurs objets (par exemple, le visage, les yeux), ils peuvent contenir plusieurs étiquettes en même temps.
D'autre part, la segmentation sémantique implique l'attribution d'étiquettes de classe à chaque pixel d'image. Bien qu'ils permettent une meilleure précision de localisation car ils n'intègrent pas la simplification du cadre de sélection, ils appliquent strictement une seule étiquette par pixel.
la source
Segmentation sémantique: il s'agit de regrouper des parties d'images qui appartiennent à la même classe d'objets. ex: détection des panneaux routiers
la source