Mon entreprise cherche à créer une visualisation PivotViewer des articles de blog Wordpress 2 d'un client au cours des 11 dernières années. Pour ce faire, cependant, nous devons modifier les balises quelque peu aléatoires, incomplètes et généralement médiocres pour les utiliser comme catégories triables. Je suis à la recherche d'un outil qui analysera les entrées de leur blog et effectuera le comptage de mots, pour nous donner une idée de ce que nous traitons.
Idéalement, il aurait toutes ces fonctionnalités:
- Liste noire des mots (ignorer)
- Mot dérivant
- Fusion de synonymes personnalisés
- Compter toutes les utilisations
- Compter le nombre de messages dans lesquels un mot apparaît.
J'aurais pensé que ce type d'analyse textuelle serait extrêmement courant, mais je n'ai pas pu trouver de logiciel qui fasse ce genre de chose sur des blogs entiers. Existe-t-il un logiciel disponible pour ce faire?
software-rec
statistics
blogging
word-count
Brian Bauman
la source
la source
Réponses:
Le logiciel que vous recherchez peut avoir de nombreux titres, tels que "Analyse de contenu" , "Nuage de mots-clés" ou "Balises méta" et bien d'autres encore comme "analyse de texte" et "exploration de texte".
Il existe de très nombreux outils logiciels à ces fins, à la fois gratuits et commerciaux.
Je n'ai pas d'expérience personnelle avec de tels outils, mais un bon point de départ est Text Analysis Tools qui répertorie des dizaines de ces outils, à la fois gratuits et commerciaux.
Une autre liste de ce type est le logiciel d'analyse de texte, d'exploration de texte et de récupération d'informations .
la source
Jetez un œil à Rapidminer ou Weka
Vu que c'est un blog de clients, vous avez probablement un accès à la base de données. Téléchargez tous les articles en texte clair et utilisez l'un des programmes ci-dessus pour traiter les questions de traitement du langage naturel (1, 2, 3 et 5).
Le nombre d'utilisations est difficile à automatiser véritablement car il s'agit de déterminer automatiquement la signification des mots en utilisant le contexte.
la source
l'un des logiciels d'analyse de contenu le plus utilisé est WordStat conçu par Provalis Research
WordStat est un module d'analyse de texte pour QDA Miner ou SimStat. WordStat combine la méthode d'analyse de contenu en utilisant l'approche par dictionnaire et de nombreuses explorations d'algorithmes ou diverses méthodes d'exploration de texte. WordStat peut appliquer des dictionnaires de catégorisation existants à un nouveau corpus de texte. Il peut également être utilisé dans le développement et la validation de nouveaux dictionnaires de catégorisation. Lorsqu'il est utilisé en conjonction avec un codage manuel, ce module peut fournir une assistance pour une application plus systématique des règles de codage, aider à découvrir les différences d'utilisation des mots entre les sous-groupes d'individus et aider à la révision du codage existant à l'aide des tables KWIC (Keyword In Context). WordStat est spécialement conçu pour étudier des informations textuelles telles que les réponses à des questions ouvertes, des interviews, des titres, des articles de revues, des discours publics, des communications électroniques, etc.
http://provalisresearch.com/products/content-analysis-software/
la source
Vous voudrez peut-être essayer Mathematica de Wolfram . Vous devrez faire de la programmation, mais tous les outils dont vous avez besoin sont là:
la source
Certaines de ces questions pourraient être répondues de manière rapide et sale en utilisant la recherche Google sur votre blog (le plus simple s'il a son propre domaine).
la source
Zemanta fait des analyses et peut suggérer des balises et des liens. C'est aussi un plugin wordpress.
Seul problème: dans sa forme actuelle, il nécessite une ouverture et une sélection et une sauvegarde manuelles de chaque message.
Il existe cependant un grand nombre de plugins de marquage automatique pour wordpress. Vous devriez rechercher le plugin finder et essayer quelques-uns.
la source