Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les mots de quatre caractères et plus. J'utilise ensuite cela comme caractéristique de chaque échantillon de formation. Maintenant, je veux que mon algorithme puisse regrouper les ensembles de formation en fonction de leurs caractéristiques, qui est ici la fréquence de chaque mot dans l'article. (Notez que dans cet exemple, chaque article aurait sa propre caractéristique unique puisque chaque article a une caractéristique différente, par exemple un article a 10 "eau et 23" pur "et un autre a 8" politique "et 14" effet de levier "). Pouvez-vous suggérer le meilleur algorithme de clustering possible pour cet exemple?
la source