Quelle est la différence entre la détection d'objets, la segmentation sémantique et la localisation?

23

J'ai lu ces mots dans de nombreuses publications et j'aimerais avoir de belles définitions pour ces termes qui montrent clairement quelle est la différence entre la détection d'objet et la segmentation sémantique et la localisation. Ce serait bien si vous pouviez donner des sources pour vos définitions.

Martin Thoma
la source
1
Découvrez les diapositives ici: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu

Réponses:

18

J'ai lu beaucoup d'articles sur la détection d'objets, la reconnaissance d'objets, la segmentation d'objets, la segmentation d'images et la segmentation d'images sémantique et voici mes conclusions qui pourraient ne pas être vraies:

Reconnaissance d'objets: dans une image donnée, vous devez détecter tous les objets (une classe restreinte d'objets dépend de votre jeu de données), les localiser avec un cadre de sélection et étiqueter ce cadre de sélection avec une étiquette. Dans l'image ci-dessous, vous verrez une sortie simple d'une reconnaissance d'objet de pointe.

reconnaissance d'objets

Détection d'objets: c'est comme la reconnaissance d'objets, mais dans cette tâche, vous n'avez que deux classes de classification d'objets, ce qui signifie des zones de délimitation d'objet et des zones de délimitation sans objet. Par exemple Détection de voiture: vous devez Détecter toutes les voitures dans une image donnée avec leurs boîtes englobantes.

Détection d'objets

Segmentation des objets: comme la reconnaissance d'objets, vous reconnaîtrez tous les objets d'une image, mais votre sortie devrait montrer cet objet classant les pixels de l'image.

segmentation d'objets

Segmentation de l'image: dans la segmentation de l'image, vous segmenterez les régions de l'image. votre sortie ne marquera pas les segments et la région d'une image qui doivent être cohérents les uns avec les autres dans le même segment. L'extraction de super pixels d'une image est un exemple de cette tâche ou de la segmentation de premier plan-arrière-plan.

segmentation d'image

Segmentation sémantique: Dans la segmentation sémantique, vous devez étiqueter chaque pixel avec une classe d'objets (voiture, personne, chien, ...) et non-objets (eau, ciel, route, ...). En d'autres termes, dans la segmentation sémantique, vous étiqueterez chaque région de l'image.

segmentation sémantique

e_soroush
la source
Bonne réponse. Je noterai que cs231n.stanford.edu/slides/winter1516_lecture8.pdf slide 8 utilise une définition différente de la détection d'objets qui détecte plusieurs classes et plusieurs instances au sein de la même classe (je ne sais pas s'il existe une seule définition acceptée ou non, cela peut donc être dû à une ambiguïté).
Keith
1
la segmentation d'instance, comme la segmentation sémantique mais il faut étiqueter les vaches comme séparées
titus
2
Les diapositives du premier commentaire sont ici maintenant: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf
Shatu
5

Étant donné que ce problème n'est toujours pas tout à fait clair même en 2019 et qu'il pourrait aider les nouveaux apprenants ML à choisir, voici une très bonne image montrant les différences:

(la localisation est le cadre de délimitation autour de la classe "moutons", après une classification de l'image) source: https://towardsdatascience.com/detection-and-segmentation-through-convnets-47aa42de27ea source: Towardsdatascience.com

fogx
la source
3

Je crois que juste "localisation" signifie "classification d'objet unique + localisation à l'aide d'un cadre de délimitation 2D ou 3D".

La "détection d'objets" consiste à localiser + classer toutes les instances des classes d'objets connues en question.

La segmentation sémantique est essentiellement une classification par pixel.

Également des métriques impliquées (source: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

La précision est le rapport des objets identifiés avec précision sur le nombre total d'objets prédits (rapport des vrais positifs aux vrais positifs plus les faux positifs).

Le rappel est le rapport des objets identifiés avec précision au nombre total d'objets réels dans les images (rapport des vrais positifs aux vrais positifs plus les vrais négatifs).

mAP: un score moyen de précision moyenne simplifié basé sur le produit de la précision et du rappel pour DetectNet. C'est une bonne mesure combinée de la sensibilité du réseau aux objets d'intérêt et de la façon dont il évite les fausses alarmes.

Andrei Pokrovsky
la source
2

Le terme localisation n'est pas clair. Je vais donc discuter des termes détection d'objet et segmentation sémantique.

Dans la détection d'objets, chaque pixel d'image est classé, qu'il appartienne ou non à une classe particulière (par exemple le visage). En pratique, cela est simplifié en regroupant les pixels pour former des cadres de délimitation, réduisant ainsi le problème à décider si le cadre de délimitation est bien ajusté autour de l'objet. Comme les pixels peuvent appartenir à plusieurs objets (par exemple, le visage, les yeux), ils peuvent contenir plusieurs étiquettes en même temps.

D'autre part, la segmentation sémantique implique l'attribution d'étiquettes de classe à chaque pixel d'image. Bien qu'ils permettent une meilleure précision de localisation car ils n'intègrent pas la simplification du cadre de sélection, ils appliquent strictement une seule étiquette par pixel.

détecteur de visages
la source
-2

Segmentation sémantique: il s'agit de regrouper des parties d'images qui appartiennent à la même classe d'objets. ex: détection des panneaux routiers

Gan
la source
2
Mais détecter des panneaux routiers, c'est détecter des objets. Pouvez-vous expliquer la différence?
reinierpost