Pattern-oriented Algorithmic Complexity: Towards Compression-based Information Retrieval

Daniele Cerra

Résumé

The assimilation of informational content to computational complexity is more than 50 years old, but a way of exploiting practically this idea came only recently with the definition of compression-based similarity measures, which estimate the amount of shared information between any two objects. These techniques are effectively employed in applications on diverse data types with a universal and basically parameter-free approach; nevertheless, the difficulties in applying them to large datasets have been seldom addressed. This thesis proposes a novel similarity measure based on compression with dictionaries which is faster compared to known solutions, with no degradations in performance; this increases the applicability of these notions, allowing testing them on datasets with size up to 100 times larger than the ones previously analyzed in literature. These results have been achieved by studying how the classical coding theory in relation with data compression and the Kolmogorov notion of complexity allows decomposing the objects in an elementary source alphabet captured in a dictionary, regarded as a set of rules to generate a code having semantic meaning for the image structures: the extracted dictionaries describe the data regularities, and are compared to estimate the shared information between any two objects. This allows defining a content-based image retrieval system which requires minimum supervision on the user's side, since it skips typical feature extraction steps, often parameter-dependant; this avoids relying on subjective assumptions which may bias the analysis, adopting instead a data-driven, parameter-free approach. Applications are presented where these methods are employed with no changes in settings to different kinds of images, from digital photographs to infrared and Earth Observation (EO) images, and to other data types, from texts and DNA genomes to seismic signals.

L'assimilation du contenu informatif à la complexité de calcul a plus de 50 ans, mais une manière d'exploiter pratiquement cette idée est venue plus récemment, avec la définition de mesures de similarité basées sur la compression des données, qui permettent d'estimer la quantité d'information partagée entre deux objets. Ces techniques sont effectivement utilisées dans des applications sur divers types de données avec une approche universelle et pratiquement sans paramètres. Toutefois, les difficultés de les appliquer à des grands ensembles de données ont été rarement abordées. Cette thèse propose une nouvelle mesure de similarité basée sur la compression des dictionnaires qui est plus rapide comparativement aux solutions connues, sans perte de performance. Cela augmente l'applicabilité de ces notions, ce qui permet de les tester sur des ensembles de données de taille jusqu'à 100 fois plus grande que ceux précédemment analysés dans la littérature. Ces résultats ont été obtenus par l'étude des relations entre la théorie du codage classique, la compression des données et la notion de complexité par Kolmogorov. Les objets sont décomposés dans un dictionnaire, qui est considéré comme un ensemble de règles pour générer un code ayant une signification sémantique de la structure de l'image: les dictionnaires extraits décrivent les régularités des données, et sont comparés pour estimer l'information partagée entre deux objets. Cela permet de définir un système de recherche des images qui nécessite une supervision minimale par l'utilisateur, car il saute les étapes d'extraction de caractéristiques typiques, souvent dépendantes de paramètres. Ainsi, les hypothèses subjectives qui peuvent fausser l'analyse sont enlevées, et a leur place une approche guidée par les données est adoptée. Diverses applications sont présentées, et ces méthodes sont employées sans aucun changement des paramètres à différents types de données: photographies numériques, images radar, textes, génomes d'ADN, et signaux sismiques.

Pattern-oriented Algorithmic Complexity: Towards Compression-based Information Retrieval

Contribution à la théorie algorithmique de la complexité : méthodes pour la reconnaissance de formes et la recherche d'information basées sur la compression des données

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager