Je vais utiliser l' algorithme de transformation de caractéristique invariant à l' échelle comme exemple ici. SIFT crée un espace d'échelle basé sur le filtrage gaussien à l'échelle d'une image, puis calcule la différence des gaussiens pour détecter les points d'intérêt potentiels. Ces points sont définis comme les minima et maxima locaux à travers la différence des gaussiens.
On prétend que cette approche est invariante d'échelle (entre autres invariances déroutantes). Pourquoi est-ce? Je ne comprends pas pourquoi c'est le cas.
Réponses:
Le terme «invariant d'échelle» signifie ce qui suit ici. Disons que vous avez l'image I et que vous avez détecté une entité (alias un point d'intérêt) f à un endroit (x, y) et à un niveau d'échelle s . Supposons maintenant que vous ayez une image I ' , qui est une version réduite de I (sous-échantillonnée, par exemple). Ensuite, si votre détecteur de caractéristiques est invariant à l'échelle, vous devriez être en mesure de détecter la caractéristique correspondante f ' dans I' à l'emplacement correspondant (x ', y') et à l'échelle correspondante s ' , où (x, y, s) et (x ', y', s ') sont liés par la transformation d'échelle appropriée.
En d'autres termes, si votre détecteur invariant d'échelle a détecté un point caractéristique correspondant au visage de quelqu'un, puis que vous effectuez un zoom avant ou arrière avec votre appareil photo sur la même scène, vous devez toujours détecter un point caractéristique sur ce visage.
Bien sûr, vous voudriez également un "descripteur de fonctionnalité" qui vous permettrait de faire correspondre les deux fonctionnalités, ce qui est exactement ce que SIFT vous offre.
Donc, au risque de vous embrouiller davantage, il y a deux choses qui sont invariantes d'échelle ici. L'un est le détecteur de points d'intérêt DoG, qui est invariant à l'échelle, car il détecte un type particulier de caractéristiques d'image (taches), quelle que soit leur échelle. En d'autres termes, le détecteur DoG détecte les gouttes de n'importe quelle taille. L'autre élément invariant à l'échelle est le descripteur d'entité, qui est un histogramme d'orientation du gradient, qui reste plus ou moins similaire pour la même entité d'image malgré un changement d'échelle.
Soit dit en passant, la différence des gaussiens est utilisée ici comme approximation du filtre laplacien-de-gaussiens.
la source
La différence des gaussiens n'est pas invariante à l'échelle. Échelle SIFT (à un degré limité) invariante car elle recherche des extrema DoG à travers l'échelle-espace - c'est-à-dire trouver une échelle avec DoG extremal à la fois spatialement et relativement aux échelles voisines. Étant donné que le DoG de sortie est obtenu pour cette échelle fixe (qui n'est pas fonction de l'échelle d'entrée), le résultat est indépendant de l'échelle, c'est-à-dire invariant de l'échelle.
la source