Advanced information extraction by example

Ngurah Agus Sanjaya Er

Thèse Année : 2018

Advanced information extraction by example

Techniques avancées pour l'extraction d'information par l'exemple

(1)

Ngurah Agus Sanjaya Er

Fonction : Auteur

Laboratoire Traitement et Communication de l'Information

Résumé

Searching for information on the Web is generally achieved by constructing a query from a set of keywords and firing it to a search engine. This traditional method requires the user to have a relatively good knowledge of the domain of the targeted information to come up with the correct keywords. The search results, in the form of Web pages, are ranked based on the relevancy of each Web page to the given keywords. For the same set of keywords, the Web pages returned by the search engine would be ranked differently depending on the user. Moreover, finding specific information such as a country and its capital city would require the user to browse through all the documents and reading its content manually. This is not only time consuming but also requires a great deal of effort. We address in this thesis an alternative method of searching for information, i.e. by giving examples of the information in question. First, we try to improve the accuracy of the search by example systems by expanding the given examples syntactically. Next, we use truth discovery paradigm to rank the returned query results. Finally, we investigate the possibility of expanding the examples semantically through labelling each group of elements of the examples.

La recherche d’information sur le Web requiert généralement la création d’une requête à partir d’un ensemble de mots-clés et de la soumettre à un moteur de recherche. Le résultat de la recherche, qui est une liste de pages Web, est trié en fonction de la pertinence de chaque page par rapport aux mots clés donnés. Cette méthode classique nécessite de l’utilisateur une connaissance relativement bonne du domaine de l’information ciblée afin de trouver les bons mots-clés. Étant donné une même requête, i.e. liste de mots-clés, les pages renvoyées par le moteur de recherche seraient classées différemment selon l’utilisateur. Sous un autre angle, la recherche d’informations trés précises telles qu’un pays et sa capitale obligerait, sans doute, l’utilisateur à parcourir tous les documents retournées et à lire chaque contenu manuellement. Cela prend non seulement du temps, mais exige également beaucoup d’efforts. Nous abordons dans cette thèse une méthode alternative de recherche d’informations, c’est-à-dire en donnant des exemples parmi les informations recherchées. Tout d’abord, nous essayons d’améliorer la précision de la recherche des méthodes existantes en étendant syntaxiquement les exemples donnés. Ensuite, nous utilisons le paradigme de découverte de la vérité pour classer les résultats renvoyés. Enfin, nous étudions la possibilité d’élargir les exemples sémantiquement en annotant (ou étiquetant) chaque groupe d’éléments des exemples.

Mots clés

Set of tuples expansion Ranking Graph of entities Truth finding Set labelling Topic labelling

Extension de n-uplets Tri Graphe des entités Recherche de la vérité Annotation d’ensembles Etiquetage de sujets

Domaines

Recherche d'information [cs.IR] Algorithme et structure de données [cs.DS]

Fichier principal

thesisAgus.pdf (6.01 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://pastel.hal.science/tel-03194624

Soumis le : vendredi 9 avril 2021-16:13:07

Dernière modification le : mardi 28 février 2023-15:36:24

Archivage à long terme le : lundi 12 juillet 2021-09:22:58

Dates et versions

tel-03194624 , version 1 (09-04-2021)

Identifiants

HAL Id : tel-03194624 , version 1

Citer

Ngurah Agus Sanjaya Er. Advanced information extraction by example. Information Retrieval [cs.IR]. Télécom ParisTech, 2018. English. ⟨NNT : 2018ENST0060⟩. ⟨tel-03194624⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM PASTEL STAR PARISTECH LTCI IDS DIG

211 Consultations

346 Téléchargements

Advanced information extraction by example

Techniques avancées pour l'extraction d'information par l'exemple

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager