Advanced information extraction by example - Archive ouverte HAL Access content directly
Theses Year : 2018

Advanced information extraction by example

Techniques avancées pour l'extraction d'information par l'exemple

(1)
1

Abstract

Searching for information on the Web is generally achieved by constructing a query from a set of keywords and firing it to a search engine. This traditional method requires the user to have a relatively good knowledge of the domain of the targeted information to come up with the correct keywords. The search results, in the form of Web pages, are ranked based on the relevancy of each Web page to the given keywords. For the same set of keywords, the Web pages returned by the search engine would be ranked differently depending on the user. Moreover, finding specific information such as a country and its capital city would require the user to browse through all the documents and reading its content manually. This is not only time consuming but also requires a great deal of effort. We address in this thesis an alternative method of searching for information, i.e. by giving examples of the information in question. First, we try to improve the accuracy of the search by example systems by expanding the given examples syntactically. Next, we use truth discovery paradigm to rank the returned query results. Finally, we investigate the possibility of expanding the examples semantically through labelling each group of elements of the examples.
La recherche d’information sur le Web requiert généralement la création d’une requête à partir d’un ensemble de mots-clés et de la soumettre à un moteur de recherche. Le résultat de la recherche, qui est une liste de pages Web, est trié en fonction de la pertinence de chaque page par rapport aux mots clés donnés. Cette méthode classique nécessite de l’utilisateur une connaissance relativement bonne du domaine de l’information ciblée afin de trouver les bons mots-clés. Étant donné une même requête, i.e. liste de mots-clés, les pages renvoyées par le moteur de recherche seraient classées différemment selon l’utilisateur. Sous un autre angle, la recherche d’informations trés précises telles qu’un pays et sa capitale obligerait, sans doute, l’utilisateur à parcourir tous les documents retournées et à lire chaque contenu manuellement. Cela prend non seulement du temps, mais exige également beaucoup d’efforts. Nous abordons dans cette thèse une méthode alternative de recherche d’informations, c’est-à-dire en donnant des exemples parmi les informations recherchées. Tout d’abord, nous essayons d’améliorer la précision de la recherche des méthodes existantes en étendant syntaxiquement les exemples donnés. Ensuite, nous utilisons le paradigme de découverte de la vérité pour classer les résultats renvoyés. Enfin, nous étudions la possibilité d’élargir les exemples sémantiquement en annotant (ou étiquetant) chaque groupe d’éléments des exemples.
Fichier principal
Vignette du fichier
thesisAgus.pdf (6.01 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03194624 , version 1 (09-04-2021)

Identifiers

  • HAL Id : tel-03194624 , version 1

Cite

Ngurah Agus Sanjaya Er. Advanced information extraction by example. Information Retrieval [cs.IR]. Télécom ParisTech, 2018. English. ⟨NNT : 2018ENST0060⟩. ⟨tel-03194624⟩
162 View
180 Download

Share

Gmail Facebook Twitter LinkedIn More