Size-based disciplines for job scheduling in data-intensive scalable computing systems

Résumé : La dernière décennie a vu l’émergence de systèmes parallèles pour l’analyse de grosse quantités de données (DISC) , tels que Hadoop, et la demande qui en résulte pour les politiques de gestion des ressources, pouvant fournir des temps de réponse rapides ainsi qu’équité. Actuellement, les schedulers pour les systèmes de DISC sont axées sur l’équité, sans optimiser les temps de réponse. Les meilleures pratiques pour surmonter ce problème comprennent une intervention manuelle et une politique de planification ad-hoc , qui est sujette aux erreurs et qui est difficile à adapter aux changements. Dans cette thèse, nous nous concentrons sur la planification basée sur la taille pour les systèmes DISC. La principale contribution de ce travail est le scheduler dit Hadoop Fair Sojourn Protocol (HFSP), un ordonnanceur préemptif basé sur la taille qui tient en considération le vieillissement, ayant comme objectifs de fournir l’équité et des temps de réponse réduits. Hélas, dans les systèmes DISC, les tailles des job d’analyse de données ne sont pas connus a priori, donc, HFSP comprends un module d’estimation de taille, qui calcule une approximation et qui affine cette estimation au fur et a mesure du progrès d’un job. Nous démontrons que l’impact des erreurs d’estimation sur les politiques fondées sur la taille n’est pas significatif. Pour cette raison, et en vertu d’être conçu autour de l’idée de travailler avec des tailles estimées, HFSP est tolérant aux erreurs d’estimation de la taille des jobs. Nos résultats expérimentaux démontrent que, dans un véritable déploiement Hadoop avec des charges de travail réalistes, HFSP est plus performant que les politiques de scheduling existantes, a la fois en terme de temps de réponse et d’équité. En outre, HFSP maintiens ses bonnes performances même lorsque le cluster de calcul est lourdement chargé, car il focalises les ressources sur des jobs ayant priorité. HFSP est une politique préventive: la préemption dans un système DISC peut être mis en œuvre avec des techniques différentes. Les approches actuellement disponibles dans Hadoop ont des lacunes qui ont une incidence sur les performances du système. Par conséquence, nous avons mis en œuvre une nouvelle technique de préemption, appelé suspension, qui exploite le système d’exploitation pour effectuer la préemption d’une manière qui garantie une faible latence sans pénaliser l’avancement des jobs a faible priorité.
Type de document :
Thèse
Distributed, Parallel, and Cluster Computing [cs.DC]. Télécom ParisTech, 2014. English. 〈NNT : 2014ENST0048〉
Liste complète des métadonnées

https://pastel.archives-ouvertes.fr/tel-01415094
Contributeur : Abes Star <>
Soumis le : lundi 12 décembre 2016 - 18:05:06
Dernière modification le : mardi 23 janvier 2018 - 11:56:21
Document(s) archivé(s) le : lundi 27 mars 2017 - 23:46:22

Fichier

ThesePastorelli2.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-01415094, version 1

Citation

Mario Pastorelli. Size-based disciplines for job scheduling in data-intensive scalable computing systems. Distributed, Parallel, and Cluster Computing [cs.DC]. Télécom ParisTech, 2014. English. 〈NNT : 2014ENST0048〉. 〈tel-01415094〉

Partager

Métriques

Consultations de la notice

344

Téléchargements de fichiers

138