Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte?
Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander un contenu engageant en obtenant ses commentaires sur un nombre aléatoire de messages déjà classés. avant.
Nous pouvons utiliser cette information pour lui recommander des légumineuses étiquetées avec ces classes. Mais nous avons trouvé que si nous avons utilisé un sac de mots prédéfinis sans rapport avec notre contenu, le vecteur de fonctionnalité sera plein de zéros, également les catégories peuvent ne pas être pertinentes pour notre contenu. pour ces raisons, nous avons essayé une autre solution qui regroupera notre contenu sans le classer.
Merci :)
Réponses:
Certains ensembles de données standard pour la classification de texte sont le groupe 20-News, Reuters (avec 8 et 52 classes) et WebKb. Vous pouvez tous les trouver ici .
la source
L'une des collections de tests les plus utilisées pour la recherche de catégorisation de texte (lien ci-dessous). J'en ai utilisé plusieurs fois. Bonne exploration :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ ou http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
la source
Il y a un tas d'ensembles de données rendus gratuits par UC Irvine pour jouer avec ici . Parmi ces jeux de données, il existe quelques dizaines de jeux de données textuels qui pourraient vous aider dans votre tâche.
Ce sont des types de jeux de données génériques, donc en fonction de votre objectif, ils ne devraient pas être utilisés comme seules données pour former vos modèles, sinon votre modèle - alors qu'il pourrait fonctionner - ne produira pas de résultats de qualité.
la source
Outre les suggestions ci-dessus, il existe un pdf extrêmement utile - Benchmarking Text Collections for Classification and Clustering Tasks qui contient divers ensembles de données ainsi que les repères afin de tester nos modèles. Cela comprend 20ng Collection, Reuters et bon nombre des ensembles de données suggérés ci-dessus. J'espère que ça aide!
la source