Quelle est l'histoire derrière l'histoire du descripteur SIFT?

Ce qui suit est tiré de l'article de Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Une approche évidente serait d'échantillonner les intensités d'image locales autour du point clé à l'échelle appropriée, et de les faire correspondre en utilisant une mesure de corrélation normalisée. Cependant, la simple corrélation des patchs d'image est très sensible aux changements qui provoquent un mauvais repérage des échantillons, tels qu'un changement de point de vue fin ou 3D ou des déformations non rigides. Une meilleure approche a été démontrée par Edelman, Intrator et Poggio (1997). Leur représentation proposée était basée sur un modèle de vision biologique, en particulier de neurones complexes dans le cortex visuel primaire.Ces neurones complexes répondent à un gradient à une orientation et à une fréquence spatiale particulières, mais l'emplacement du gradient sur la rétine peut se déplacer sur un petit champ récepteur plutôt que d'être localisé précisément. Edelman et al. a émis l'hypothèse que la fonction de ces neurones complexes était de permettre la mise en correspondance et la reconnaissance d'objets 3D à partir d'une gamme de points de vue.

J'essaie de comprendre le descripteur SIFT. Je comprends l'étape précédente (détecteur de point-clé).

Je ne sais pas pourquoi il est mis en œuvre de cette façon. Je veux connaître l'histoire derrière l'histoire.

sift jakeoung
la source

Réponses:

$64\times 64$

$64\times 64$ $16\times 16$

Pour chaque patch, nous calculons les gradients, puis trouvons la direction dominante des gradients (qui a quelques détails), puis en prenant la direction dominante comme direction de référence, nous diviserons les 360 degrés à 8, la région angulaire a chacun 45 degrés, puis additionner sur la amplitude de chaque gradients qui se trouvent dans chaque région angulaire.

Nous pourrions considérer cela comme une distribution ou un histogramme à 8 cases de la direction du gradient (étant donné que les gradients forts ont plus d'informations, nous devons les utiliser avec un poids plus élevé dans le calcul de la distribution, nous utilisons donc leur amplitude comme leur poids, ce qui conduit à additionner leur amplitude). Ensuite, nous normaliserons ces histogrammes.

À la fin de chaque patch, nous avons un histogramme à 8 cases et nous avons 16 patchs, ce qui conduit à un descripteur de 128 numéros.

En trouvant la direction dominante, notre descripteur devient également invariant en rotation. En utilisant des gradients, notre descripteur devient invariant par rapport à l'illumination de base et en normalisant les histogrammes obtenus, notre descripteur devient invariant par rapport au contraste de l'image.

Mohammad M
la source