Je travaille sur un petit corpus de texte (200M), que je veux explorer avec une analyse de cluster. Quels livres ou articles sur ce sujet recommanderiez-vous?
Je travaille sur un petit corpus de texte (200M), que je veux explorer avec une analyse de cluster. Quels livres ou articles sur ce sujet recommanderiez-vous?
Il peut être utile de consulter les livres de MW Berry:
Ils consistent en une série de documents appliqués et de synthèse. La dernière semble être disponible en PDF à l'adresse suivante: http://bit.ly/deNeiy .
Voici quelques liens liés à l'autorité de certification appliquée à l'exploration de texte:
Vous pouvez également consulter l' analyse sémantique latente , mais voyez ma réponse ici: Travailler à travers un problème de clustering .
Recherche de groupes dans les données. Une introduction à l'analyse des grappes des professeurs Leonard Kaufman et Peter J. Rousseeuw.
Je lis le livre et je le trouve très utile car:
Notre but était d'écrire un livre appliqué pour l'utilisateur général. Nous voulions mettre l'analyse des grappes à la disposition de personnes n'ayant pas nécessairement une solide formation mathématique ou statistique.
Il fournit un contenu théorique pour comprendre les fonctions disponibles dans le R
package Cluster .
Les chapitres peuvent être lus individuellement selon la méthode de cluster d'intérêt.
l'exception est le chapitre 3, qui est construit sur le chapitre 2
Les chapitres du livre sont:
Les références:
Kaufman, L. et Rousseeuw, PJ (2005). Recherche de groupes dans les données. Une introduction à l'analyse des clusters (p. 342). John Wiley & Sons Inc.
Maechler, M. (2013). Analyse en grappes Extended Rousseeuw et al. CRAN.
Ce chapitre d' introduction à l'exploration de données est disponible en ligne et donne un bon aperçu.
la source
Analyse de cluster par Brian S. Everitt est un traitement appliqué d'une belle longueur de l'analyse de cluster.
la source
Pas spécifiquement sur le text-mining, mais j'ai bien aimé "Exploratory Data Analysis with MATLAB" de Martinez et Martinez.
la source
Un autre livre approfondi mérite d'être examiné: Handbook of Cluster Analysis par Hennig et al. (2015)
la source