Mod�le de Programmation Et Frameworks Pour de la Tol�rance Aux Pannes

Bok av Makassikis-C
Les grappes de PCs sont des architectures distribuées dont l'adoption se répand vu leur faible coût et leur extensibilité en termes de noeuds. Cependant, le nombre croissant de pannes par arrêt qui en découle compromet les exécutions d'applications distribuées, et l'absence de solutions efficaces et portables confine leur utilisation à des applications non critiques ou sans contraintes de temps. MoLOToF est un modèle de programmation pour de la tolérance aux pannes (TaP) de niveau applicatif et fondée sur la réalisation de sauvegardes. Pour faciliter l'ajout de la TaP, MoLOToF propose une structuration de l'application avec des squelettes tolérants aux pannes, et favorise les collaborations entre l'utilisateur et le système de TaP pour gagner en efficacité. L'application de MoLOToF à des familles d'algorithmes parallèles SPMD et Maître-Travailleur a mené aux frameworks FT-GReLoSSS en C++/MPI et ToMaWork en Java/JavaSpaces. Avec ou sans TaP, leur évaluation sur une grappe de 256 PCs bi-coeurs affiche un surcoût en temps de développement raisonnable; et des surcoûts en temps d'exécution négligeables face aux solutions de niveau système LAM/MPI et DMTCP.