Relation et différence entre la recherche et l'extraction d'informations?

11

De Wikipédia

La récupération d'informations est l'activité consistant à obtenir des ressources d'informations pertinentes pour un besoin d'informations à partir d'une collection de ressources d'informations. Les recherches peuvent être basées sur des métadonnées ou sur une indexation en texte intégral.

De Wikipédia

L'extraction d'informations (IE) consiste à extraire automatiquement des informations structurées à partir de documents lisibles par machine non structurés et / ou semi-structurés. Dans la plupart des cas, cette activité concerne le traitement de textes en langage humain au moyen du traitement du langage naturel (PNL). Les activités récentes dans le traitement de documents multimédias comme l'annotation automatique et l'extraction de contenu à partir d'images / audio / vidéo peuvent être considérées comme une extraction d'informations.

Quelles sont les relations et les différences entre la recherche et l'extraction d'informations?

Merci!

Tim
la source

Réponses:

9

La récupération d'informations est basée sur une requête - vous spécifiez les informations dont vous avez besoin et elles sont renvoyées sous une forme compréhensible par l'homme.

L'extraction d'informations consiste à structurer des informations non structurées - étant donné certaines sources, toutes les informations (pertinentes) sont structurées sous une forme qui sera facile à traiter. Cela ne sera pas nécessairement sous une forme compréhensible par l'homme - cela ne peut être que pour l'utilisation de programmes informatiques.

Quelques sources:

Anton
la source
7

http://gate.ac.uk/ie/ donne une distinction très agréable et concise:

L'extraction d'informations n'est pas la récupération d'informations: l'extraction d'informations diffère des techniques traditionnelles en ce qu'elle ne récupère pas d'une collection un sous-ensemble de documents qui, espérons-le, sont pertinents pour une requête, sur la base d'une recherche par mots clés (peut-être complétée par un thésaurus). Au lieu de cela, l'objectif est d'extraire des documents (qui peuvent être dans une variété de langues) des faits saillants sur des types d'événements, d'entités ou de relations prédéfinis. Ces faits sont ensuite généralement saisis automatiquement dans une base de données, qui peut ensuite être utilisée pour analyser les données des tendances, pour donner un résumé en langage naturel, ou simplement pour servir d'accès en ligne.

Pour le mettre en images:

La recherche d'informations obtient des ensembles de documents pertinents:

entrez la description de l'image ici

L'extraction d'informations extrait des faits des documents:

entrez la description de l'image ici

Franck Dernoncourt
la source
2

Du point de vue de la modélisation, la recherche d'informations est un domaine profond fondé sur plusieurs disciplines, notamment les statistiques, les mathématiques, la linguistique, l'intelligence artificielle et maintenant la science des données. En pratique, ces modèles sont appliqués contre du texte dans des corpus pour découvrir des modèles dans les données. Non seulement les modèles IR se chevauchent dans leur utilisation, ils peuvent "s'associer" avec d'autres modèles tels que les modèles k-means ou k-voisin le plus proche, puis d'autres modèles peuvent être appliqués du point de vue de la linguistique informatique comme LDA / LDI et modélisation du sujet Ensuite, le jeu final est une sorte de visualisation d'informations de cette découverte - après le classement, le regroupement et l'agrégation du travail. La recherche d'informations peut sembler être une discipline cryptique, mais un effort sérieux, qui est grandement apprécié, va ouvrir la zone pour une meilleure compréhension de chaque modèle et l'interaction entre les modèles. Je cite la série «Synthesis Lectures on Information Concepts, Retrieval, and Services» comme le meilleur endroit pour se plonger dans les fondements de l'IR.

Bien que je ne sépare pas entièrement l'IR et l'extraction d'informations, peut-être un sous-ensemble d'IE, l'extraction au niveau du concept, applique des modèles IR ainsi que des règles d'inférence basées sur l'IA pour extraire les ontologies associées. La nature graphique de ces relations est renforcée par la modélisation ontologique en OWL et RDF, et par les bases de données graphiques, qui permettent un ensemble moins strict ou rigoureux de modélisation des relations, et permettent plus de relations à la surface, plutôt que d'être contrôlées en soi. La capacité de développer de manière dynamique l'extraction d'informations conserve sa «discipline» très intéressante pour les chercheurs.

IR et IE jouent tous deux dans nos propres «entités du moment» importantes - certaines ont appelé des «ontologies dynamiques» - certaines étant Palantir - nous avons besoin des modèles, des modèles, des simulations et des visualisations de ces entités importantes pour faire des affaires dans face à la transformation de nouvelles sources d'information et à la modification des informations existantes. La modélisation conceptuelle, relationnelle, définitionnelle, modèle et ontologique doit être flexible et leurs visualisations les mêmes. La levée de poids des moteurs d'IA tels que Watson dans les domaines de l'extraction et de l'inférence d'informations a mis en lumière les champs IE et franchement IR. L'omniprésence du traitement du langage naturel et de l'apprentissage automatique attire également l'attention sur les modèles et moteurs IR et IE. L'impact des modèles IR sur la recherche et le référencement, ainsi que sur la modélisation Web sémantique en fait partie "

MethodyM
la source
1

La récupération d'informations consiste à renvoyer les informations pertinentes pour une requête ou un domaine d'intérêt spécifique. Notez que ces informations peuvent également être sous la forme de documents généraux, bien sûr, les moteurs de recherche sont un exemple notable d'une telle tâche. Je dirais que les entités les plus importantes reconnaissables pour la recherche d'informations sont l'ensemble initial de documents / informations et la requête qui spécifie "ce qu'il faut rechercher".

D'un autre côté , l'extraction d'informations consiste davantage à extraire (ou à déduire) des connaissances (ou relations) générales à partir d'un ensemble de documents ou d'informations. A noter qu'ici tout le contenu des documents pourrait être considéré comme un ensemble de données dont extraire les connaissances. Bien sûr, dans ce cas également, vous pouvez en quelque sorte spécifier ce que vous voulez extraire, mais il s'agit davantage de propriétés / relations que de sujets / sujets spécifiques. Les propriétés sont plus spécifiques au domaine, tandis que les relations couvrent généralement des scénarios plus génériques.

Encore une fois, avec les moteurs de recherche, vous demandez à obtenir les sites les plus susceptibles de contenir des informations sur ce sujet spécifique. Ceci est un exemple de récupération d'informations .

Pour l' extraction d'informations, vous pouvez par exemple demander d'extraire tous les noms de villes ou adresses e-mail qui apparaissent dans un corpus de documents. Vous pourriez même devenir beaucoup plus générique, en demandant simplement d'extraire des connaissances. Comme vous pouvez le voir, c'est vraiment générique, mais cela peut être accompli, par exemple, en obtenant des triplets de la forme sujet-action-objet pour chaque phrase valide d'un texte (cela convient mieux aux textes en langage naturel).

Si vous êtes intéressé, ces sujets (et d'autres) sont expliqués en détail dans le chapitre Traitement du langage naturel du livre Intelligence artificielle: une approche moderne .

5agado
la source