Skip to Main content Skip to Navigation
Theses

Résumé de flux de données ditribués

Résumé : Ces dernières années, sont apparues de nombreuses applications, utilisant des données en nombre potentiellement illimité, provenant de façon continue de capteurs distribués afin d'alimenter un serveur central. Les données sont utilisées à des fins de surveillance, de supervision, de déclenchement d'alarmes en temps réel, ou plus généralement à la production de synthèses d'aide à la décision à partir de plusieurs flux. Le volume des données collectées est généralement trop grand pour être entièrement stocké. Les systèmes de gestion de flux de données (SGFD) permettent de gérer facilement, et de façon générique les flux de données : les données sont traitées au fil de l'eau sans les archiver. Toutefois, dans certaines applications, on ne souhaite pas perdre complètement l'ensemble des flux de données afin de pouvoir analyser les données du passé et du présent. Il faut donc prévoir un stockage de l'historique du flux. Nous considérons dans cette thèse, un environnement distribué décrit par une collection de plusieurs capteurs distants qui envoient des flux de données numériques et unidimensionnelles à un serveur central unique. Ce dernier a un espace de stockage limité mais doit calculer des agrégats, comme des sommes ou des moyennes, à partir des données de tout sous-ensemble de capteurs et sur un large horizon temporel. Deux approches sont étudiées pour construire l'historique des flux de données :(1) Echantillonnage spatial en ne considérant qu'un échantillon aléatoire des sources qu'on observe dans le temps ; (2) Echantillonnage temporel en considérant toutes les sources mais en échantillonnant les instants observés de chaque capteur. Nous proposons une méthode générique et optimisée de construction de résumés à partir de flux de données distribués : A partir des flux de données observés à une période de temps t -1, nous déterminons un modèle de collecte de données à appliquer aux capteurs de la période t. Le calcul des agrégats se base sur l'inférence tatistique dans le cas de l'échantillonnage spatial et sur l'interpolation dans le cas de l'échantillonnage temporel. A notre connaissance, il n'existe pas de méthodes d'interpolation qui estiment les erreurs à tout instant et qui prennent en compte le flux de données ou courbe à interpoler et son intégrale. Nous proposons donc deux approches : la première se base sur le passé des courbes pour l'interpolation (approche naive) ; et la seconde utilise à un processus stochastique pour modéliser l'évolution des courbes (approche stochastique).
Document type :
Theses
Domain :
Complete list of metadatas

Cited literature [102 references]  Display  Hide  Download

https://pastel.archives-ouvertes.fr/pastel-00005137
Contributor : Ecole Télécom Paristech <>
Submitted on : Thursday, August 13, 2009 - 8:00:00 AM
Last modification on : Friday, July 31, 2020 - 10:44:05 AM
Long-term archiving on: : Friday, September 10, 2010 - 1:39:55 PM

Identifiers

  • HAL Id : pastel-00005137, version 1

Collections

Citation

Raja Chiky. Résumé de flux de données ditribués. domain_other. Télécom ParisTech, 2009. English. ⟨pastel-00005137⟩

Share

Metrics

Record views

442

Files downloads

2298