La réponse est très simple: TF-IDF peut obtenir de meilleurs résultats que les fréquences à terme simples lorsqu'il est combiné avec certaines méthodes supervisées.
L'exemple canonique utilise la similitude cosinus comme mesure de la similitude entre les documents. Prendre le cosinus de l'angle entre la représentation vectorielle TF-IDF des documents peut récupérer avec succès des documents similaires pertinents avec une précision plus élevée que TF seul.
En effet, IDF réduit le poids accordé aux mots courants et met en évidence les mots rares dans un document. La plupart des articles de presse ne concernent pas les autruches, donc un article contenant "autruche" est inhabituel, et nous aimerions le savoir lorsque vous essayez de trouver des documents similaires.
Mais dans le cas d'une catégorisation de texte utilisant des techniques de ML standardisées supervisées, pourquoi se préoccuper de la sous-pondération par la fréquence des documents dans le corpus? L'apprenant ne décidera-t-il pas lui-même de l'importance à attribuer à chaque mot / combinaison de mots?
Cela illustre un point clé de l'apprentissage automatique: les meilleures fonctionnalités ont tendance à battre un algorithme plus intelligent. Un outil ML essaie simplement d'apprendre une fonction pour mapper les entrées aux sorties . Si notre représentation de est si bonne qu'elles sont déjà fondamentalement (ou, dans un cas idéal, sont littéralementXyXyy), alors nous avons rendu la tâche beaucoup plus facile pour nous-mêmes et nos pauvres ordinateurs surmenés! Je pense que c'est une composante sous-estimée du domaine - les gens passent beaucoup de temps à étudier et à considérer les algorithmes car ils sont indépendants du domaine, mais en savoir plus sur vos données et le problème que vous essayez de résoudre peut suggérer des chemins vers amélioration de la collecte ou de la représentation des données qui rendent la tâche tellement plus facile - et si facile qu'un modèle de sophistication ornée n'est pas nécessaire.
Un certain nombre de ressources peuvent être trouvées ici , que je reproduis pour plus de commodité.
K. Sparck Jones. "Une interprétation statistique de la spécificité du terme et son application dans la recherche". Journal of Documentation, 28 (1). 1972.
G. Salton et Edward Fox et Wu Harry Wu. "Récupération d'informations booléenne étendue". Communications de l'ACM, 26 (11). 1983.
G. Salton et MJ McGill. "Introduction à la recherche moderne d'informations". 1983
G. Salton et C. Buckley. "Approches de pondération terminologique dans la recherche automatique de texte". Traitement et gestion de l'information, 24 (5). 1988.
H. Wu et R. Luk et K. Wong et K. Kwok. "Interpréter les pondérations des termes TF-IDF comme des décisions pertinentes". ACM Transactions on Information Systems, 26 (3). 2008.
Dans le cas typique, vous pourriez avoir beaucoup plus de documents dans votre corpus que de documents étiquetés. Cela signifie que l'IDF peut être calculé beaucoup plus précisément et complètement lors de l'utilisation de l'ensemble du corpus.
Considérons ensuite le cas où le corpus sur lequel vous pouvez mettre la main jusqu'à présent est entièrement étiqueté ou le sous-ensemble étiqueté est "assez grand". Dans ce cas, le nombre d'itérations nécessaires à la formation pourrait être plus petit lors de l'utilisation de TfIDF car l'algorithme d'apprentissage n'aurait pas besoin d'en apprendre autant.
Enfin, dans ce même cas, vous pouvez également fournir tf uniquement, ou tf et idf séparément (ou même inclure tfidf également). Je pense que cela pourrait potentiellement générer de meilleurs résultats, par exemple, lors de l'utilisation d'une fonction de noyau sophistiquée.
la source