Questions marquées «text-mining»

Fait référence à un sous-ensemble d'exploration de données concerné par l'extraction d'informations à partir de données sous forme de texte en reconnaissant des modèles. Le but de l'exploration de texte est souvent de classer un document donné dans l'une des nombreuses catégories de manière automatique, et d'améliorer ces performances de manière dynamique, ce qui en fait un exemple d'apprentissage automatique. Les filtres anti-spam utilisés pour les e-mails sont un exemple de ce type d'exploration de texte.

29
Pourquoi xgboost est-il tellement plus rapide que sklearn GradientBoostingClassifier?

J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine...

16
agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen d'imprimer...

13
Échelle éthique et rentable Scrapes de données

Peu de choses dans la vie me font plaisir comme gratter des données structurées et non structurées d'Internet et les utiliser dans mes modèles. Par exemple, le Data Science Toolkit (ou RDSTKpour les programmeurs R) me permet d'extraire de nombreuses bonnes données géolocalisées en utilisant des...

11
Utilisation du clustering dans le traitement de texte

Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les...