Proposal of an information retrieval system in a distributed and heterogeneous digital environment : application to the manufacturing industry - Archive ouverte HAL Access content directly
Theses Year : 2021

Proposal of an information retrieval system in a distributed and heterogeneous digital environment : application to the manufacturing industry

Proposition d'un système de recherche d'information dans un environnement numérique distribué et hétérogène : application à l'industrie manufacturière

(1)
1

Abstract

The value of information in the manufacturing industry is an important issue. It enables informed decisions to be made and new value-added opportunities to be detected. When it is digitally transcribed, this information is composed of heterogeneous data and distributed in the different silos of the company, making it difficult to have a holistic view of the information. The thesis proposes to access the heterogeneous and distributed information of the company through an information retrieval system. The originality of the proposal consists in considering and modelling all the structured and unstructured data of the company in a single graph. On the other hand, the information retrieval is expressed by a query composed of two variables, the 'what' and the 'about what' and allows to provide as a result a list of documents or records, a list of property values or a list of sentences. The application of the approach to a case study has identified a list of key issues to be addressed in order to improve the usual performance criteria in information retrieval, namely its ability to provide all relevant results (recall) and only relevant results (precision). The four issues to be considered are: (i) the treatment of syntactic specificities of the data, (ii) the semantic extension of the terms used in the search, (iii) the filtering of irrelevant results and (iv) the detection of implicit links between the data. An enrichment of the proposal is then presented to address all these issues, including the transformation of tables in unstructured documents into a graph, a semantic extension of the search terms thanks to a knowledge graph, as well as additional filtering for the evaluation of the relevance of results. Finally, the enriched approach is confronted with a second case study in order to validate the proposal.
La valorisation du patrimoine informationnel dans l’entreprise de l’industrie manufacturière est un enjeu important. Elle permet la prise de décisions éclairées et de détecter de nouvelles opportunités à valeur ajoutée. Lorsqu’il est retranscrit numériquement, ce patrimoine informationnel est composé de données hétérogènes et distribuées dans les différents silos de l’entreprise rendant la vision holistique de l’information difficile. La thèse propose d’accéder à l’information hétérogène et distribuée de l’entreprise par un système de recherche d’information. L’originalité de la proposition consiste à considérer et modéliser l’ensemble des données structurées et non structurées de l’entreprise dans un graphe unique. D'autre part, la recherche d'information est exprimée par une requête composée de deux variables, le 'quoi' et le 'à propos de quoi' et permet de fournir en résultat une liste de documents ou enregistrements, une liste de valeurs de propriétés ou une liste de phrases. L’application de l’approche sur un cas d’étude a permis de détecter une liste d’enjeux clés à traiter pour améliorer les critères de performances usuels en recherche d’information, à savoir sa capacité à fournir tous les résultats pertinents (le rappel) et uniquement des résultats pertinents (la précision). Les quatre enjeux à considérer sont : (i) le traitement des spécificités syntaxiques des données, (ii) l’extension sémantiquement des termes utilisés dans la recherche, (iii) le filtrage les résultats peu pertinents et (iv) la détection de liens implicites entre les données. Un enrichissement de la proposition est alors proposé pour répondre à l'ensemble de ces enjeux comprenant notamment la transformation des tableaux dans les documents non structurés en graphe, une extension sémantique des termes de la recherche grâce à un graphe de connaissance ainsi que des filtrages complémentaires pour l'évaluation de la pertinence des résultats. Enfin, l’approche ainsi enrichie est confrontée à un second cas d’étude afin de valider la proposition.
Fichier principal
Vignette du fichier
kim.pdf (47.37 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-03675187 , version 1 (23-05-2022)

Identifiers

  • HAL Id : tel-03675187 , version 1

Cite

Lise Kim. Proposition d'un système de recherche d'information dans un environnement numérique distribué et hétérogène : application à l'industrie manufacturière. Génie des procédés. HESAM Université, 2021. Français. ⟨NNT : 2021HESAE051⟩. ⟨tel-03675187⟩
39 View
8 Download

Share

Gmail Facebook Twitter LinkedIn More