Annotation sémantique floue de tableaux guidée par une ontologie - Archive ouverte HAL Access content directly
Theses Year : 2007

Annotation sémantique floue de tableaux guidée par une ontologie

Gaëlle Hignette
  • Function : Author

Abstract

This thesis presents a new method for annotating data tables using the know- ledge of an application domain described in an ontology. We first present our applicative context and a bibliographic study of other works about semantic an- notation and information extraction. Then we present the different steps of our annotation process, in which we annotate the cells, the columns and the relations of a given data table. Data are not annotated in the same way according to whe- ther they are symbolic or numeric. Thus, our first step is to distinguish between columns containing numeric or symbolic data. Symbolic data are annotated with the terms of the ontology, using a word to word comparison between the terms used in the data table and the terms defined in the ontology. Numeric data are extracted, along with the units in which those data are expressed : they are com- pared with the units and range defined in the ontology for numeric data types. The data type for each column is then identified using both the column contents (in a different way according to whether the column is symbolic or numeric) and the column title. When the data type of each column has been recognized, the se- mantic relations represented by the table are found using both the table title and the table signature which is compared to the signature of the relations defined in the ontology. The relations that are recognized in the table are then instanciated for each line in the table. Our annotation is fuzzy, that is, instead of linking a part of the table directly to its correspondant in the ontology, we give several values for the annotation, each with a confidence degree. The different steps of our annotation method have been evaluated during an experiment on the food microbiology domain.
Nous pr´esentons dans ce m´emoire une m´ethode d'annotation de tableaux guid´ee par les connaissances d'un domaine d'application formalis´ees dans une on- tologie. Apr`es avoir pr´esent´e le contexte applicatif et une ´etude bibliographique sur l'annotation s´emantique et l'extraction d'information, nous pr´esentons les diff´erentes ´etapes de notre syst`eme : annotation des cellules, des colonnes puis des relations repr´esent´ees par le tableau. Nous traitons diff´eremment les donn´ees selon qu'elles sont num´eriques ou symboliques. Nous commen¸cons par d´eterminer si une colonne d'un tableau contient des donn´ees num´eriques ou symboliques. Les donn´ees symboliques sont annot´ees avec les termes de l'ontologie, en utilisant une comparaison mot `a mot des termes employ´es dans le tableau avec ceux d´efinis dans l'ontologie. Les donn´ees num´eriques sont extraites, ainsi que les unit´es de mesure employ´ees, et compar´ees avec les unit´es et intervalles de valeurs possibles d´efinis dans l'ontologie pour les types de donn´ees num´eriques. Le type de donn´ees repr´esent´e par chaque colonne du tableau est alors d´etermin´e, en utilisant `a la fois le contenu de la colonne (deux m´ethodes diff´erentes sont employ´ees suivant que la colonne contient des donn´ees num´eriques ou symboliques) et le titre de la colonne. Une fois le type des colonnes reconnu, les relations s´emantiques repr´esent´ees par le tableau sont identifi´ees en utilisant `a la fois le titre du tableau et la signature du tableau, qui est compar´ee avec la signature des relations s´emantiques d´efinies dans l'ontologie. Les relations reconnues sont ensuite instanci´ees pour chaque ligne du tableau. Les annotations que nous manipulons sont floues, c'est-`a-dire qu'au lieu de faire un lien direct entre un ´el´ement du tableau et un ´el´ement de l'ontologie, nous proposons plusieurs valeurs possibles pour l'annotation, en as- sociant `a chaque valeur un degr´e repr´esentant la confiance que l'on accorde `a cette valeur. Les diff´erentes ´etapes de notre m´ethode d'annotation de tableaux ont ´et´e ´evalu´ees exp´erimentalement, en prenant comme domaine d'application la microbiologie alimentaire.

Domains

Fichier principal
Vignette du fichier
rapportThese.pdf (1.81 Mo) Télécharger le fichier
Loading...

Dates and versions

pastel-00003799 , version 1 (05-06-2008)

Identifiers

  • HAL Id : pastel-00003799 , version 1

Cite

Gaëlle Hignette. Annotation sémantique floue de tableaux guidée par une ontologie. domain_other. AgroParisTech, 2007. English. ⟨NNT : 2007AGPT0052⟩. ⟨pastel-00003799⟩

Collections

PASTEL PARISTECH
171 View
390 Download

Share

Gmail Facebook Twitter LinkedIn More