Quality & Privacy in User-generated Big Data: Algorithms & Techniques

Manos Katsomallos

Résumé

Sensors, portable devices, and location-based services, generate massive amounts of geo-tagged, and/or location- and user-related data on a daily basis. The manipulation of such data is useful in numerous application domains, e.g., healthcare, intelligent buildings, and traffic monitoring. A high percentage of these data carry information of user activities and other personal details, and thus their manipulation and sharing raise concerns about the privacy of the individuals involved. To enable the secure—from the user privacy perspective—data sharing, researchers have already proposed various seminal techniques for the protection of user privacy. However, the continuous fashion in which data are generated nowadays, and the high availability of external sources of information, pose more threats and add extra challenges to the problem. It is therefore essential to design solutions that not only guarantee privacy protection but also provide configurability and account the preferences of the users.In this thesis, we investigate the literature regarding data privacy in continuous data publishing, and report on the proposed solutions, with a special focus on solutions concerning location or geo-referenced data. As a matter of fact, a wealth of algorithms has been proposed for privacy-preserving data publishing, either for microdata or statistical data. In this context, we seek to offer a guide that would allow readers to choose the proper algorithm(s) for their specific use case accordingly. We provide an insight into time-related properties of the algorithms, e.g., if they work on infinite, real-time data, or if they take into consideration existing data dependence.Having discussed the literature around continuous data publishing, we continue to propose a novel type of data privacy, called landmark privacy. We argue that in continuous data publishing, events are not equally significant in terms of privacy, and hence they should affect the privacy-preserving processing differently. Differential privacy is a well-established paradigm in privacy-preserving time series publishing. Different schemes exist, protecting either a single timestamp, or all the data per user or per window in the time series, considering however all timestamps as equally significant. The novel scheme that we propose, landmark privacy, is based on differential privacy, but also takes into account significant events (landmarks) in the time series and allocates the available privacy budget accordingly. We design three privacy schemes that guarantee landmark privacy and further extend them in order to provide more robust privacy protection to the landmark set. We evaluate our proposal on real and synthetic data sets and assess the impact on data utility with emphasis on situations under the presence of temporal correlation. The results of the experimental evaluation and comparative analysis of landmark privacy validate its applicability to several use case scenarios with and without the presence of temporal correlation.

Les capteurs, les appareils portables et les services basés sur la localisation génèrent quotidiennement des quantités massives de données géolocalisées et/ou liées à la localisation et aux utilisateurs. La manipulation de ces données est utile dans de nombreux domaines d’application, e.g., les soins de santé, les bâtiments intelligents, et la surveillance du trafic. Un pourcentage élevé de ces données contientdes informations sur les activités des utilisateurs et d’autres détails personnels, et donc leur manipulation et leur partage soulèvent des inquiétudes quant à la confidentialité des personnes concernées. Cependant, la manière continue avec laquelle les données sont générées de nos jours et la haute disponibilité de sources d’information externes posent davantage de menaces et ajoutent des défis supplémentaires au problème. Il est donc essentiel de concevoir des solutions qui non seulement garantissent la protection de la confidentialité, mais offrent également une configurabilité et tiennent compte des préférences des utilisateurs.Dans cette thèse, nous étudions la littérature concernant la confidentialité des données dans la publication de données en continu, et rapportons les solutions proposées, avec un accent particulier sur les solutions concernant la localisation ou les données géo-référencées. En fait, une multitude d’algorithmes ont été proposés pour la publication de données préservant la confidentialité, que ce soit pour des microdonnées ou des données statistiques. Dans ce contexte, nous cherchons à offrir un guide qui permettrait aux lecteurs de choisir en conséquence le ou les algorithmes appropriés pour leur cas d’utilisation spécifique. Nous donnons un aperçu des propriétés temporelles des algorithmes, e.g., s’ils fonctionnent sur des données infinies en temps réel, ou s’ils prennent en considération la dépendancedes données existantes.Après avoir discuté de la littérature sur la publication continue des données, nous continuons à proposer un nouveau type de confidentialité des données, appelé confidentialité landmark. Nous soutenons que dans la publication continue de données, les événements ne sont pas aussi importants en termes de confidentialité et, par conséquent, ils devraient affecter différemment le traitement préservant la confidentialité. La confidentialité différentielle est un paradigme bien établi dans la publication de séries chronologiques préservant la confidentialité. Différents schémas existent, protégeant soit un seul horodatage, soit toutes les données par utilisateur ou par fenêtre dans la série temporelle, considérant cependant tous les horodatages comme également significatifs. Le nouveau schéma que nous proposons, confidentialité landmark, est basé sur une confidentialité différentielle, mais prend également en compte les événements significatifs (landmarks) dans la série chronologique et alloue le budget de confidentialité disponible en conséquence.Nous concevons trois schémas de confidentialité qui garantissent la confidentialité landmark et les étendons davantage afin de fournir une protection de confidentialité plus robuste à l’ensemble landmark. Nous évaluons notre proposition sur des ensembles de données réelles et synthétiques et évaluons l’impact sur l’utilité des données en mettant l’accent sur les situations en présence de corrélation temporelle. Les résultats de l’évaluation expérimentale et de l’analyse comparative de la confidentialité landmark valident son applicabilité à plusieurs scénarios de cas d’utilisation avec et sans la présence de corrélation temporelle.

Quality & Privacy in User-generated Big Data: Algorithms & Techniques

Qualité et confidentialité des données générées par l'utilisateur dans le cadre de données massives : algorithmes et techniques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager