Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web

Christophe Chotteau

Thèse Année : 2003

A new semantic relative pages algorithm

Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web

(1)

Christophe Chotteau

Fonction : Auteur

Centre de Recherche en Informatique

Résumé

There are many ways to find information on the Web and search engines are the most frequently used tools. In this context, relative pages algorithms are complementary techniques providing more information about on specific document without asking any question. The goal of our work is to define a new semantic relative page algorithm to perform search on a law oriented corpus. To reach the goal, we defined a method that applies linguistic tools and techniques on previously selected documents. Relevant text units are extracted from our documents'corpus and are called lexical signatures. We use those lexical signatures as requests to search engine; the results correspond to the pool of relative pages. Our relative pages algorithm is used and evaluated in an information retrieval context, being included in the development of a search engine. The main contribution of our work are (1) a new perspective for building lexical signatures to perform relative pages searches, (2) the definition and evaluation of a new relative pages algorithm calles Tifr, (3) a discussion on the semantic aspect of our method and finally, (4) a practical answer to the challenge of information retrieval in a law oriented context.

Parmi les nombreuses méthodes d'accès à l'information présentes sur Internet, la corrélation de divers documents apparaît comme un outil complémentaire permettant aux internautes d'enrichir leurs connaissances sur un document sans avoir à formuler de question. L'objectif de nos travaux est de réaliser une méthode de corrélation sémantique dédiée à la recherche d'information juridique. La méthode que nous dégageons vise à appliquer des outils et techniques d'ingénierie linguistique sur des textes préalablement choisis. Les unités textuelles saillantes les constituant sont alors dégagées, définissant pour chaque document analysé ce que nous appelons une signature lexicale. Ces signatures lexicales servent ensuite d'éléments clefs pour interroger un moteur de recherche dont les résultats représentent l'ensemble des documents corrélés. Cette méthode de corrélation est utilisée et évaluée dans un contexte de recherche d'information sur Internet et plus spécifiquement est intégrée aux développements d'un moteur de recherche. Les principaux apports de nos travaux sont (1) un renouvellement des méthodes de recherche de documents corrélés par l'optimisation des signatures lexicales dédiées, (2) l'élaboration et l'évaluation d'un nouvel indice de pondération statistique noté Tifr, (3) une réflexion sur l'aspect sémantique de la méthode de corrélation exposée, et enfin (4) une proposition concrète de réponse à la problématique de l'accès à l'information dans un contexte juridique.

Mots clés

Information retrieval Relative pages algorithms Lexical signatures Tifr weight

indice Tifr Ingénierie des connaissances Recherche d'information Corrélation de documents Signature lexicale Pondération statistique

Domaines

Informatique et langage [cs.CL]

Fichier principal

These_Chotteau_Christophe.pdf (130.55 Mo)

Ecole Mines ParisTech : Connectez-vous pour contacter le contributeur

https://pastel.hal.science/pastel-00001080

Soumis le : vendredi 6 août 2010-16:02:12

Dernière modification le : vendredi 19 avril 2024-16:18:57

Archivage à long terme le : lundi 8 novembre 2010-15:13:58

Dates et versions

pastel-00001080 , version 1 (06-08-2010)

Identifiants

HAL Id : pastel-00001080 , version 1

Citer

Christophe Chotteau. Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web. Informatique et langage [cs.CL]. École Nationale Supérieure des Mines de Paris, 2003. Français. ⟨NNT : 2003ENMP1185⟩. ⟨pastel-00001080⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM ENSMP PASTEL ENSMP_CRI PARISTECH PSL ENSMP_DR

520 Consultations

204 Téléchargements

A new semantic relative pages algorithm

Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager