Extending semantic nets using concept-proximity   - PASTEL - Thèses en ligne de ParisTech Accéder directement au contenu
Thèse Année : 2008

Extending semantic nets using concept-proximity  

Enrichissement de réseaux sémantiques par la proximité de concepts

Résumé

The past few years has witnessed tremendous upsurge in information availability in the electronic form, attributed to the ever mounting use of the World Wide Web (WWW). For many people, the World Wide Web has become an essential means of providing and searching for information leading to large amount of data accumulation. Searching web in its present form is however an infuriating experience for the fact that the data available is both superfluous and diverse in form. Web users end up finding huge number of answers to their simple queries, consequentially investing more time in analyzing the output results due to its immenseness. Yet many results here turn out to be irrelevant and one can find some of the more interesting links left out from the result set. Chapter1 Introduces our motivation behind the research: One of the principal explanations for the unsatisfactory condition in information retrieval is the reason that majority of the existing data resources in its present form are designed for human comprehension. When using these data with machines, it becomes highly infeasible to obtain good results without human interventions at regular levels. So, one of the major challenges faced by the users as providers and consumers of web era is to imagine intelligent tools and theories in knowledge representation and processing for making the present data, machine understandable. Chapter 2 evaluates and studies the existing methods and their short falls: Several researches has been carried out in enable machines to understand data and some of the most interesting solutions proposed are the semantic web based ontology to incorporate data understanding by machines. The objective here is to intelligently represent data, enabling machines to better understand and enhance capture of existing information. Here the main emphasis is given to the thought for constructing meaning related concept networks for knowledge representation. Eventually the idea is to direct machines in providing output results of high quality with minimum or no human intervention. In recent years the development of ontology is fast gaining attention from various research groups across the globe. There are several definitions of ontology purely contingent on the application or task it is intended for. Chapter 3 presents the platform ToxNuc-E and positioning of our research around this platform: Given the practical and theoretical importance of ontology development, it is not surprising to find a large number of enthusiastic and committed research groups in this field. Extended Semantic Network is one such innovative approach proposed by us for knowledge representation and ontology like network construction, which looks for sets of associations between nodes semantically and proximally. Our objective here is to achieve semi-supervised knowledge representation technique with good accuracy and minimum human intervention, using the heuristically developed information processing and integration methods. The main goal of our research is to find an approach for automatic knowledge representation that can eventually be used in classification and search algorithms in the platform ToxNuc-E. Chapter 4 elaborates on the concept of Proximal Network modeling, generated by mathematical models: As stated earlier the basic idea of Extended Semantic Network is to identify an efficient knowledge representation and ontology construction method to overcome the existing constraints in information retrieval and classification problems. To realize this we put our ideas into practice via a two phase approach. The first phase consists in processing large amount of textual information using mathematical models to make our proposal of automatic ontology construction scalable. This phase of our proposal is carried out by realising a network of words mathematically computed using different statistical and clustering algorithms. Thus creating a proximal network computationally developed, depending essentially on word proximity in documents. The proximal network is basically representing the recall part of our approach. Chapter 5 investigates the semantic network modelling and introduces a design model proposed by us to enable efficient cost effective design: Semantic Network is basically a labelled, directed graph permitting the use of generic rules, inheritance, and object-oriented programming. It is often used as a form of knowledge representation where concepts represented by nodes are connected to one another using the relational links represented by arcs. Semantic network is constructed with the help of expert knowledge and understanding of a domain. Hence it is mainly a human constructed network with very good precision. Chapter 6 in effect details the extended semantic network: The second phase of our research mainly consists in examining carefully and efficiently the various possibilities of integrating information obtained from our mathematical model with that of the manually developed mind model. This phase is ensured by a heuristically developed method of network extension using the outputs from the mathematical approach. This is achieved by considering the manually developed semantic mind model as the entry point of our concept network. Here, the primary idea is to develop a innovative approach obtained by combining the features of man and machine theory of concepts, whose results can be of enormous use in the latest knowledge representation, classification, retrieval, pattern matching and ontology development research fields. In this research work we illustrate the methods used by us for information processing and integration aimed at visualising a novel method for knowledge representation and ontology construction. Chapter 7 illustrates some of the experiments carried out using our extended semantic network and opens directions for future perspectives: The question on knowledge representation, management, sharing and retrieval are both fascinating and complex, essentially with the co-emergence between man and machine. This research presents a novel collaborative working method, specifically in the context of knowledge representation and retrieval. The proposal is to attempt at making ontology construction faster and easier. The advantages of our methodology with respect to the previous work, is our innovative approach of integrating machine calculations with human reasoning abilities. The resulting network so obtained is later used in several tools ex: document classifier to illustrate our research approach. We use the precise, non estimated results provided by human expertise in case of semantic network and then merge it with the machine calculated knowledge from proximal results. The fact that we try to combine results from two different aspects forms one of the most interesting features of our current research. We view our result as structured by mind and calculated by machines. One of the main future perspectives of this research is finding the right balance for combining the concept networks of semantic network with the word network obtained from the proximal network. Our future work would be to identify this accurate combination between the two vast methods and setting up a benchmark to measure our prototype efficiency.
Ces dernières années ont vu le déferlement d'une vague d'information sous forme électronique liée à l'usage croissant du World Wide Web (WWW). Pour beaucoup, le World Wide Web est devenu un moyen essentiel pour mettre à disposition ou rechercher de l'information, conduisant à une forte accumulation de données. La recherche sur Internet dans sa forme présente devient vite exaspérante car les données disponibles peuvent être superficielles et de formes très diverses. Les utilisateurs du Web en ont assez d'obtenir des ensembles gigantesques de réponses à leurs requêtes simples, ce qui les oblige à investir de plus en plus de temps pour analyser les résultats. De nombreux résultats s'avèrent non pertinents et les liens les plus intéressants restent souvent en dehors de l'ensemble des résultats. Le chapitre1 introduit la motivation de notre travail de recherche. L'une des principales explications concernant la difficulté à effectuer une recherche d'information efficace est que les ressources existantes sur le web sont exprimées sous une forme destinée à la compréhension humaine. En d'autres termes, ces données sont difficilement utilisables par la machine et l'intervention humaine s'avère indispensable. Ainsi, l'un des principaux challenges est d'imaginer des outils intelligents fondés sur les concepts et méthodes autour de la représentation et du traitement des connaissances pour créer des données exploitables par la machine et obtenir de meilleurs résultats. Le chapitre 2 évalue et étudie les méthodes existantes et leurs limitations. De nombreux chercheurs ont travaillé sur la problématique de la compréhension des données par la machine et certaines des solutions les plus intéressantes sont les ontologies basées sur le « web sémantique ». Les ontologies permettent une meilleure « compréhension » des documents et facilitent à l'aide d'outils appropriés la qualité des recherches dans l'information existante. L'accent est mis sur la réflexion nécessaire à la construction de la signification du concept relié aux réseaux pour la représentation des connaissances. L'idée est de tendre vers la production semi-automatique voire complètement automatique de résultats de grande qualité. Autrement dit, l'objectif est de minimiser l'intervention humaine est de maximiser la qualité des résultats obtenus. Le chapitre 3 présente la plate-forme ToxNuc-E et le positionnement de notre recherche autour de cette plate-forme. Etant donné l'importance pratique et théorique du développement d'ontologies, il n'est pas surprenant de retrouver un grand nombre de chercheurs, fervents et engagés dans ce domaine de recherche. Dans le cadre de notre travail de recherche nous proposons une approche nouvelle, dite ESN (« Extended Semantic Network »), qui contrairement aux approches classiques, basées sur les mots clés, fonde la construction d'ontologie sur la convergence d'associations entre concepts ou nœuds sémantiques sur un ensemble de thèmes et la proximité des termes dans un ensemble de documents. Notre terrain d'application est le programme de toxicologie nucléaire environnementale français : ToxNuc-E. Le chapitre 4 précise le concept de « réseau de proximité », généré par des modèles mathématiques. L'idée de base de notre approche ESN est de construire efficacement une ontologie adaptée à la recherche d'information dans de larges corpus. La première phase consiste à traiter une grande quantité d'information textuelle en utilisant des modèles mathématiques pour automatiser la construction d'un embryon d'ontologie. L'objectif est d'obtenir un réseau de mots qui peut être assez volumineux. Celui-ci est calculé en utilisant des outils mathématiques venant de l'analyse de données et la classification automatique. Ainsi, la création d'un réseau de proximité repose alors sur la proximité des mots dans un document. Le chapitre 5 présente la construction des « réseaux sémantiques » et introduit notre modèle de conception pour gagner en efficacité. Le réseau sémantique est essentiellement un graphe orienté étiqueté permettant l'utilisation de règles génériques, de l'héritage, et de la représentation orientée objet. Il est souvent utilisé comme une forme de représentation des connaissances, où les concepts représentés par les nœuds sont connectés l'un à l'autre en utilisant les liens relationnels représentés par des arcs. Le réseau sémantique est construit de façon manuelle avec l'aide d'experts de la connaissance possédants la compréhension d'un domaine. Il est donc principalement construit par les hommes, dans notre approche de taille assez réduite, et d'une très bonne précision. Le chapitre 6 détaille le « réseau sémantique étendu ». La deuxième phase de traitement consiste à examiner attentivement et de manière efficace les différentes possibilités d'intégrer les informations issues du modèle mathématique (réseau de proximité) et du modèle cognitif développé manuellement (réseau sémantique). Cette phase se base sur une méthode heuristique développée dans l'extension des réseaux et utilisant les résultats de la méthode mathématique. Cette phase se termine en considérant le modèle humain (développé manuellement) comme le point d'entrée de notre réseau de concepts. L'idée principale est de développer une approche novatrice combinant les caractéristiques humaines et la théorie des concepts utilisée par la machine. Les résultats peuvent présenter un grand intérêt dans différents champs de recherche tels que la représentation des connaissances, la classification, l'extraction, ainsi que le filtrage des données. Le chapitre 7 illustre quelques expérimentations réalisées à l'aide de notre réseau sémantique étendu et ouvre des orientations pour les perspectives d'avenir. Les questions concernant la représentation des connaissances, la gestion, le partage et l'extraction d'information sont passionnantes et complexes. Cet attrait est en toute évidence essentiellement du aux rapports entre l'homme et la machine. Le fait que nous essayons de combiner les résultats de deux aspects différents constitue l'une des caractéristiques les plus intéressantes de notre recherche actuelle. Notre proposition peut faciliter la construction d'ontologies de manière plus rapide et plus simple. Le réseau sémantique étendu peut être utilisé, à la place d'une ontologie plus classique, par des outils comme par exemple : un classificateur de documents. Nous considérons notre résultat comme étant structuré par l'esprit et calculé par la machine. L'une des principales perspectives pour le travail à suivre est de trouver un bon compromis entre concepts du réseau sémantique et graphes de mot issus du réseau de proximité. D'autres perspectives à ce travail consistent à mettre en place des benchmarks dans différents contextes pour mesurer l'efficacité de notre prototype.
Fichier principal
Vignette du fichier
PhD_Reena_SHETTY_.pdf (1.87 Mo) Télécharger le fichier
Loading...

Dates et versions

pastel-00005840 , version 1 (26-02-2010)

Identifiants

  • HAL Id : pastel-00005840 , version 1

Citer

Reena Shetty. Extending semantic nets using concept-proximity  . domain_other. École Nationale Supérieure des Mines de Paris, 2008. English. ⟨NNT : ⟩. ⟨pastel-00005840⟩
236 Consultations
578 Téléchargements

Partager

Gmail Facebook X LinkedIn More