A new semantic relative pages algorithm - Archive ouverte HAL Access content directly
Theses Year : 2003

A new semantic relative pages algorithm

Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web

(1)
1

Abstract

There are many ways to find information on the Web and search engines are the most frequently used tools. In this context, relative pages algorithms are complementary techniques providing more information about on specific document without asking any question. The goal of our work is to define a new semantic relative page algorithm to perform search on a law oriented corpus. To reach the goal, we defined a method that applies linguistic tools and techniques on previously selected documents. Relevant text units are extracted from our documents'corpus and are called lexical signatures. We use those lexical signatures as requests to search engine; the results correspond to the pool of relative pages. Our relative pages algorithm is used and evaluated in an information retrieval context, being included in the development of a search engine. The main contribution of our work are (1) a new perspective for building lexical signatures to perform relative pages searches, (2) the definition and evaluation of a new relative pages algorithm calles Tifr, (3) a discussion on the semantic aspect of our method and finally, (4) a practical answer to the challenge of information retrieval in a law oriented context.
Parmi les nombreuses méthodes d'accès à l'information présentes sur Internet, la corrélation de divers documents apparaît comme un outil complémentaire permettant aux internautes d'enrichir leurs connaissances sur un document sans avoir à formuler de question. L'objectif de nos travaux est de réaliser une méthode de corrélation sémantique dédiée à la recherche d'information juridique. La méthode que nous dégageons vise à appliquer des outils et techniques d'ingénierie linguistique sur des textes préalablement choisis. Les unités textuelles saillantes les constituant sont alors dégagées, définissant pour chaque document analysé ce que nous appelons une signature lexicale. Ces signatures lexicales servent ensuite d'éléments clefs pour interroger un moteur de recherche dont les résultats représentent l'ensemble des documents corrélés. Cette méthode de corrélation est utilisée et évaluée dans un contexte de recherche d'information sur Internet et plus spécifiquement est intégrée aux développements d'un moteur de recherche. Les principaux apports de nos travaux sont (1) un renouvellement des méthodes de recherche de documents corrélés par l'optimisation des signatures lexicales dédiées, (2) l'élaboration et l'évaluation d'un nouvel indice de pondération statistique noté Tifr, (3) une réflexion sur l'aspect sémantique de la méthode de corrélation exposée, et enfin (4) une proposition concrète de réponse à la problématique de l'accès à l'information dans un contexte juridique.
Fichier principal
Vignette du fichier
These_Chotteau_Christophe.pdf (130.55 Mo) Télécharger le fichier

Dates and versions

pastel-00001080 , version 1 (06-08-2010)

Identifiers

  • HAL Id : pastel-00001080 , version 1

Cite

Christophe Chotteau. Corrélation sémantique entre documents : application à la recherche d'information juridique sur le Web. Informatique et langage [cs.CL]. École Nationale Supérieure des Mines de Paris, 2003. Français. ⟨NNT : 2003ENMP1185⟩. ⟨pastel-00001080⟩
496 View
203 Download

Share

Gmail Facebook Twitter LinkedIn More