Suggérer des ensembles de données de formation sur le classificateur de texte

9

Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte?

Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander un contenu engageant en obtenant ses commentaires sur un nombre aléatoire de messages déjà classés. avant.

Nous pouvons utiliser cette information pour lui recommander des légumineuses étiquetées avec ces classes. Mais nous avons trouvé que si nous avons utilisé un sac de mots prédéfinis sans rapport avec notre contenu, le vecteur de fonctionnalité sera plein de zéros, également les catégories peuvent ne pas être pertinentes pour notre contenu. pour ces raisons, nous avons essayé une autre solution qui regroupera notre contenu sans le classer.

Merci :)

Abdelmawla
la source
1
Je pense que plus de détails sur votre problème sont nécessaires avant que quiconque puisse recommander un ensemble de données.
Neil Slater
3
Dans quel but? Filtrage anti-spam? Analyse des sentiments? Sans objectif clair, il est très difficile de suggérer un ensemble de données.
lsdr
@lsdr En regardant les réponses, il semble que la question n'a pas nécessairement besoin de plus de détails.
Amir Ali Akbari
@AmirAliAkbari Je pense qu'ils sont venus après un montage. J'ai quand même retiré mon vote serré.
Rubens
Un endroit plus approprié pour cette question est opendata.stackexchange.com
sheldonkreger

Réponses:

14

Certains ensembles de données standard pour la classification de texte sont le groupe 20-News, Reuters (avec 8 et 52 classes) et WebKb. Vous pouvez tous les trouver ici .

Debasis
la source
Merci :), je l'ai déjà visité auparavant mais j'ai trouvé que ses classifications sont faibles pas assez abstraites ou cela peut ne pas être lié à mon contenu
Abdelmawla
5

Il y a un tas d'ensembles de données rendus gratuits par UC Irvine pour jouer avec ici . Parmi ces jeux de données, il existe quelques dizaines de jeux de données textuels qui pourraient vous aider dans votre tâche.

Ce sont des types de jeux de données génériques, donc en fonction de votre objectif, ils ne devraient pas être utilisés comme seules données pour former vos modèles, sinon votre modèle - alors qu'il pourrait fonctionner - ne produira pas de résultats de qualité.

lsdr
la source
1

Outre les suggestions ci-dessus, il existe un pdf extrêmement utile - Benchmarking Text Collections for Classification and Clustering Tasks qui contient divers ensembles de données ainsi que les repères afin de tester nos modèles. Cela comprend 20ng Collection, Reuters et bon nombre des ensembles de données suggérés ci-dessus. J'espère que ça aide!

Hima Varsha
la source