Liste des fonctionnalités d'image possibles pour la récupération d'image basée sur le contenu

15

J'essaie de trouver une liste des caractéristiques d'image possibles comme la couleur, les bords orientés, etc. pour mesurer leur utilisabilité en cas de trouver des objets identiques / similaires dans les images. Quelqu'un connaît-il une telle liste ou au moins certaines fonctionnalités?

jstr
la source
Ceci est hors du sujet, mais CBIR peut-il extraire une fonctionnalité d'un jeu de données Open Image? Est-il possible d'extraire la fonctionnalité d'une image même si l'image n'est pas enregistrée sur le disque local?
Quix0te

Réponses:

25

Le champ lui-même est trop vaste. Je doute donc que vous puissiez avoir une liste entièrement exhaustive ici. Cependant, MPEG 7 est l'un des principaux efforts de normalisation de ce domaine. Ce qui est inclus ici n'est donc pas universel - mais au moins le plus primaire.

Voici quelques fonctionnalités clés identifiées dans MPEG7 (je ne peux vraiment parler que des descripteurs visuels, pas d'autres voient cela pour toute la portée).

Il existe 4 catégories de descripteurs visuels:

1. Descripteurs de couleurs qui incluent:
Couleur dominante,
Disposition des couleurs (essentiellement la couleur primaire bloc par bloc)
Couleur évolutive (essentiellement l'histogramme des couleurs),
Structure des couleurs (essentiellement l'histogramme des couleurs local)
et des espaces colorimétriques pour rendre les choses interopérables.

2. Descripteurs de texture (voir aussi ceci ) qui comprend:
Descripteur de navigation de texture - qui définit la granularité / grossièreté, la régularité et la direction. Descripteur de texture homogène - basé sur la banque de filtres de Gabor. et
histogramme de bord

3. Descripteurs de forme qui incluent: Les
descripteurs basés sur la région sont des attributs scalaires de la forme considérée - tels que l'aire, les excentricités, etc. Basé sur le
contour qui capture les caractéristiques de forme réelles et
les descripteurs 3D

4. Descripteurs de mouvement pour le
mouvement de la caméra vidéo (paramètres de mouvement de la caméra 3D)
Trajectoire du mouvement (des objets dans la scène) [par exemple, extraite par des algorithmes de suivi] Mouvement paramétrique (par exemple, les vecteurs de mouvement, qui permettent de décrire le mouvement de la scène. Mais il peut être des modèles plus complexes sur divers objets).
Activité qui est plus un descripteur sémantique.


MPEG 7 ne définit pas «comment ceux-ci sont extraits» - il définit uniquement ce qu'ils signifient et comment les représenter / stocker. Il existe donc des recherches sur la façon de les extraire et de les utiliser.

Voici un autre bon article qui donne un aperçu de ce sujet.

Mais oui, beaucoup de ces fonctionnalités sont plutôt basiques et peut-être que plus de recherches créeront un ensemble de fonctionnalités plus sophistiqué (et complexe).

Dipan Mehta
la source
8

Ok je pense avoir trouvé une liste appropriée en cherchant juste un peu plus. Il y a un article de Deselaers etc. al. qui semble être ce que je cherchais!

jstr
la source
6

Il existe également un livre qui regroupe un ensemble de documents liés à ce sujet. C'est ce qu'on appelle les principes de récupération visuelle des informations .

Geerten
la source
Google sur les livres ne révèle pas beaucoup de critiques positives. Plus de plaintes que de points positifs en fait. Pensez-vous toujours que c'est une bonne référence, et si oui, peut-être pourriez-vous nous dire quand cela vous a été utile? :)
penelope
La principale raison de le mettre ici n'est pas que je l'ai beaucoup utilisé, mais mon professeur l'a recommandé (et j'apprécie son avis). Google à ce sujet montre que c'est vraiment un paquet de papiers, et pas vraiment un livre. Il montre également son assez vieux, mais pourtant l'un des rares livres sur le sujet. Par conséquent, je pense que ma réponse est toujours appropriée.
Geerten
3

@Dipan Mehta a couvert les descripteurs de fonctionnalités qui peuvent être utilisés. Permettez-moi maintenant d'essayer de couvrir l'autre côté de la médaille en mentionnant certaines méthodes de détection de fonctionnalités qui extraient des fonctionnalités bonnes pour CBIR .

Ma référence pour mes recherches CBIR était les articles de Sivic, Zisserman et Nister, Stewenius . Il existe des articles plus récents de ces auteurs, mais ceux-ci présentent toutes les idées pertinentes.

Ils soutiennent que pour mettre en œuvre des méthodes CBIR efficaces , des caractéristiques de propriétés complémentaires devraient être utilisées:

  • Forme adaptée régions - ont tendance à être centrée au coin comme caractéristiques

    exemples: coins Harris, Harris multi-échelles, DoG (différence des gaussiens - mais répond également aux bords!)

  • Stable maximalement régions - ont tendance à être centré sur blob comme caractéristiques

    exemples: MSER (régions externes maximales stables), DoG

Étonnamment, Wikipédia propose également une bonne classification des types d' entités (détecteurs), indiquant le type de régions d'intérêt qu'ils détectent pour la plupart des entités largement utilisées actuellement:

  • détecteurs de bord
  • détecteurs de coin
  • détecteurs de blob
  • détecteurs de faîtage

La plupart des articles actuels que j'ai lus jurent que les descripteurs SIFT (Scale-invariant feature transform) sont solides et suffisamment robustes pour être utilisés en combinaison avec les détecteurs de caractéristiques choisis. Les références comprennent:

  • liens déjà fournis
  • Mikolajczyk, Schmid traite de la comparaison des descripteurs locaux
  • Dahl évalue les combinaisons détecteur-descripteur

Remarque! que ces articles ne traitent pas strictement du CBIR mais sont utilisés comme références dans les travaux liés au CBIR .

Enfin, il est inutile de mentionner que les méthodes CBIR réussies ne dépendent pas seulement des détecteurs de caractéristiques et des descripteurs utilisés, mais aussi:

  • une structure de recherche efficace (quantification des caractéristiques visuelles)
  • moyen de construire des descripteurs d'images - soit sur la base des caractéristiques visuelles communes (descripteurs locaux), soit en comparant des descripteurs d'images globaux (c'est une toute nouvelle idée, donc pas de références actuellement)
  • mesure de la distance entre les descripteurs d'image

De plus, j'ai déjà répondu à quelques questions concernant CBIR sur DSP et stackoverflow , les deux sont accompagnés de références et d'explications et je pense qu'ils pourraient être pertinents, vous pouvez donc y jeter un coup d'œil:

  • DSP: 1
  • stackoverflow: 1 , 2
Pénélope
la source