J'ai une chaîne HTML et je veux savoir si un mot que je fournis est pertinent dans cette chaîne.
La pertinence pourrait être mesurée en fonction de la fréquence dans le texte.
Un exemple pour illustrer mon problème:
this is an awesome bike store
bikes can be purchased online.
the bikes we own rock.
check out our bike store now
Maintenant, je veux tester quelques autres mots:
bike repairs
dog poo
bike repairs
doivent être marqués comme pertinents alors dog poo
qu'ils ne doivent pas être marqués comme pertinents.
Des questions:
- Comment cela pourrait-il être fait?
- Comment filtrer les mots ambigus comme
in
ouor
Merci pour vos idées!
Je suppose que c'est quelque chose que Google fait pour déterminer quels mots clés sont pertinents pour un site Web. J'essaie essentiellement de reproduire leur classement sur la page.
machine-learning
data-mining
Hendrik
la source
la source
Réponses:
C'est un aperçu du processus de recherche d'informations
Introduction à la recherche d'informations par Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze est un très bon livre pour commencer en IR.
Ou utilisez simplement Apache Solr pour obtenir tout ce dont vous avez besoin (ou Apache Lucene , qui est utilisé par Solr, pour créer votre propre application)
la source
Je me souviens il y a longtemps de jouer avec Elastic Search (le site Web est très différent de ce dont je me souviens). Il y a des trucs sur le traitement du langage humain ici: http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/languages.html
Soyez averti que la recherche élastique est comme un gros bazooka à votre problème. Si votre problème est très simple, vous voudrez peut-être recommencer à zéro. Il existe quelques documents sur le Web à ce sujet.
la source