Wikipedia fournit l'exemple suivant lors de la description du hachage des fonctionnalités ; mais le mappage ne semble pas cohérent avec le dictionnaire défini
Par exemple, to
doit être converti en 3
fonction du dictionnaire, mais il est codé comme à la 1
place.
Y a-t-il une erreur dans la description? Comment fonctionne le hachage des fonctionnalités?
Les textes:
John likes to watch movies. Mary likes too. John also likes to watch football games.
peut être converti en utilisant le dictionnaire
{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also": 6, "football": 7, "games": 8, "Mary": 9, "too": 10}
à la matrice
[[1 2 1 1 1 0 0 0 1 1] [1 1 1 1 0 1 1 1 0 0]]
Comme l'a souligné Steffen, l'exemple de matrice code le nombre de fois qu'un mot apparaît dans un texte. La position de l'encodage dans la matrice est donnée par le mot (position de colonne sur la matrice) et par le texte (position de ligne sur la matrice).
Maintenant, l'astuce de hachage fonctionne de la même manière, bien que vous n'ayez pas à définir initialement le dictionnaire contenant la position de la colonne pour chaque mot.
En fait, c'est la fonction de hachage qui vous donnera la plage de positions de colonne possibles (la fonction de hachage vous donnera une valeur minimale et maximale possible) et la position exacte du mot que vous souhaitez encoder dans la matrice. Ainsi, par exemple, imaginons que le mot "likes" soit haché par notre fonction de hachage dans le nombre 5674, alors la colonne 5674 contiendra les encodages relatifs au mot "likes".
De cette façon, vous n'aurez pas besoin de créer un dictionnaire avant d'analyser le texte. Si vous utiliserez une matrice clairsemée comme matrice de texte, vous n'aurez même pas à définir exactement la taille de la matrice. Juste en scannant le texte, à la volée, vous convertirez les mots en positions de colonne par la fonction de hachage et votre matrice de texte sera remplie de données (fréquences, c'est-à-dire) en fonction du document que vous analysez progressivement (position de la ligne).
la source