Science des données

8
Classification des e-mails dans R

Je travaille sur un projet dans R où j'ai environ 1200 e-mails d'une entreprise, dont la plupart sont étiquetés classe11_{1} ou classe22_{2}, qui sont les types de demandes. Environ 1000 e-mails sont étiquetés classe11_{1}et 200 sont étiquetés classe22_{2}Mon objectif est d'utiliser l'apprentissage...

8
Conseils pour un nouveau data scientist

Je suis sur le point de commencer un travail dans lequel je travaillerai avec de grands ensembles de données et je devrais trouver des tendances, etc ... J'ai trouvé beaucoup de ressources sur où apprendre le ML et d'autres compétences techniques et me sentir ) compétent à cet effet. Je souhaite...

8
Comment évaluer le clustering de texte?

Quelles mesures peuvent être utilisées pour évaluer les modèles de clustering de texte? J'ai utilisé tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Comment décider quel modèle est le...

8
Compter les index chez les pandas

Je pense que c'est une question rudimentaire, mais je suis très nouveau dans ce domaine et je n'ai tout simplement pas été en mesure de la résoudre / de trouver la réponse. En fin de compte, ce que j'essaie de faire ici, c'est de compter les valeurs uniques sur une certaine colonne, puis de...