Existe-t-il un logiciel qui effectue une analyse textuelle sur les blogs? [fermé]

8

Mon entreprise cherche à créer une visualisation PivotViewer des articles de blog Wordpress 2 d'un client au cours des 11 dernières années. Pour ce faire, cependant, nous devons modifier les balises quelque peu aléatoires, incomplètes et généralement médiocres pour les utiliser comme catégories triables. Je suis à la recherche d'un outil qui analysera les entrées de leur blog et effectuera le comptage de mots, pour nous donner une idée de ce que nous traitons.

Idéalement, il aurait toutes ces fonctionnalités:

  1. Liste noire des mots (ignorer)
  2. Mot dérivant
  3. Fusion de synonymes personnalisés
  4. Compter toutes les utilisations
  5. Compter le nombre de messages dans lesquels un mot apparaît.

J'aurais pensé que ce type d'analyse textuelle serait extrêmement courant, mais je n'ai pas pu trouver de logiciel qui fasse ce genre de chose sur des blogs entiers. Existe-t-il un logiciel disponible pour ce faire?

Brian Bauman
la source
3
Intéressant. En cas de doute, Python vous soutient.
James T Snell
Ouais ... J'espère vraiment que je n'aurai pas à rouler moi-même sur celui-ci, cependant.
Brian Bauman
il y a quelque chose qui fait ça ... Je me souviens qu'un ami a analysé wikipedia ... Je vérifierai avec lui demain
Keltari

Réponses:

3

Le logiciel que vous recherchez peut avoir de nombreux titres, tels que "Analyse de contenu" , "Nuage de mots-clés" ou "Balises méta" et bien d'autres encore comme "analyse de texte" et "exploration de texte".

Il existe de très nombreux outils logiciels à ces fins, à la fois gratuits et commerciaux.

Je n'ai pas d'expérience personnelle avec de tels outils, mais un bon point de départ est Text Analysis Tools qui répertorie des dizaines de ces outils, à la fois gratuits et commerciaux.

Une autre liste de ce type est le logiciel d'analyse de texte, d'exploration de texte et de récupération d'informations .

harrymc
la source
J'ai filtré mon chemin à travers la première liste, mais aucune des options gratuites n'inclut beaucoup plus que l'analyse linguistique. Je n'ai pas encore parcouru la deuxième liste - je pourrais finir par rouler la mienne.
Brian Bauman
2

Jetez un œil à Rapidminer ou Weka

Vu que c'est un blog de clients, vous avez probablement un accès à la base de données. Téléchargez tous les articles en texte clair et utilisez l'un des programmes ci-dessus pour traiter les questions de traitement du langage naturel (1, 2, 3 et 5).

Le nombre d'utilisations est difficile à automatiser véritablement car il s'agit de déterminer automatiquement la signification des mots en utilisant le contexte.

suweller
la source
En comptant toutes les utilisations, pas les utilisateurs. Merci pour les suggestions.
Brian Bauman
J'ai mal lu, monbad. Vous devez toujours vérifier Rapidminer ou Weka pour le traitement du langage naturel. Autrement dit, à moins que l'ensemble de données ne soit énorme, car les deux essaient de le mettre en mémoire
suweller
2

l'un des logiciels d'analyse de contenu le plus utilisé est WordStat conçu par Provalis Research

WordStat est un module d'analyse de texte pour QDA Miner ou SimStat. WordStat combine la méthode d'analyse de contenu en utilisant l'approche par dictionnaire et de nombreuses explorations d'algorithmes ou diverses méthodes d'exploration de texte. WordStat peut appliquer des dictionnaires de catégorisation existants à un nouveau corpus de texte. Il peut également être utilisé dans le développement et la validation de nouveaux dictionnaires de catégorisation. Lorsqu'il est utilisé en conjonction avec un codage manuel, ce module peut fournir une assistance pour une application plus systématique des règles de codage, aider à découvrir les différences d'utilisation des mots entre les sous-groupes d'individus et aider à la révision du codage existant à l'aide des tables KWIC (Keyword In Context). WordStat est spécialement conçu pour étudier des informations textuelles telles que les réponses à des questions ouvertes, des interviews, des titres, des articles de revues, des discours publics, des communications électroniques, etc.

http://provalisresearch.com/products/content-analysis-software/

Laurence
la source
0

Certaines de ces questions pourraient être répondues de manière rapide et sale en utilisant la recherche Google sur votre blog (le plus simple s'il a son propre domaine).

Jürgen Strobel
la source
0

Zemanta fait des analyses et peut suggérer des balises et des liens. C'est aussi un plugin wordpress.

Seul problème: dans sa forme actuelle, il nécessite une ouverture et une sélection et une sauvegarde manuelles de chaque message.

Il existe cependant un grand nombre de plugins de marquage automatique pour wordpress. Vous devriez rechercher le plugin finder et essayer quelques-uns.

music2myear
la source