Articles sur la gestion des pannes dans les systèmes distribués

Quels articles sur la gestion des erreurs dans les systèmes distribués recommandez-vous?

reference-request dc.distributed-comp Alexandru
la source

Je ne connais pas le sujet, mais n'y en a-t-il pas trop? Aussi, recommander quoi?

Tsuyoshi Ito

La question semble beaucoup trop large; Je suppose que la moitié de tous les articles en informatique distribuée sont liés à la tolérance aux pannes.

Jukka Suomela

certainement trop large. voter pour fermer ...

Suresh Venkat

Peut-être que la question n'est pas si mauvaise. J'ai essayé de recommander quelques travaux ci-dessous.

Dai Le

La question aurait été meilleure si vous aviez initialement inclus ces informations comme motivation.

Dave Clarke

Réponses:

Vous voudrez peut-être jeter un œil aux œuvres qui ont remporté Tushar D. Chandra, Vassos Hadzilacos et Sam Toueg le prix Edsger W. Dijkstra en 2010 :

Tushar D. Chandra et Sam Toueg. Détecteurs de défaillance non fiables pour des systèmes distribués fiables , Journal of the ACM, 43 (2): 225-267, 1996
Tushar D. Chandra, Vassos Hadzilacos et Sam Toueg. The Weakest Failure Detector for Solving Consensus , Journal of the ACM, 43 (4): 685-722, 1996.

Ces articles introduisent la notion de détecteurs de défaillance dans un système distribué dans un cadre général et précis. Intuitivement, ils ont essayé d'étudier la quantité minimale d'informations sur les défaillances nécessaires pour résoudre le consensus. Il s'avère que vous n'avez pas besoin d'un détecteur de panne parfait pour résoudre un consensus. Même des détecteurs de défaillance non fiables satisfaisant à certaines conditions minimales suffiront pour la tâche. Ces articles ont été très influents sur la façon de gérer les défaillances des systèmes distribués.

Dai Le
la source

Quel type de défauts dans le système? Vous cherchez des solutions pour gérer les défauts byzantins ou simplement le modèle classique de fail-stop? Les solutions en présence de nœuds byzantins dans un système distribué sont le problème le plus intrigant. Le problème a été officialisé par Leslie Lamport (le problème des généraux byzantins »et le document de 1999 de Barbara Liskov et Miguel Castro présente la solution pratique de travail la plus proche« Tolérance aux pannes byzantine pratique ». Les modèles formels originaux pour gérer la tolérance aux pannes incluent l'état approche machine de Fred Schneider et réplication horodatée Je suis d'accord que la question est très générale, le champ est immense et la théorie constitue la base de la plupart des systèmes fonctionnant aujourd'hui en ligne. Peut-être qu'un modèle de défaut plus spécifique et le domaine du problème aideraient à obtenir meilleures réponses

kryptos
la source

Voici une collection de modèles pour traiter les erreurs de gestion dans les systèmes distribués:

Patterns for Generation, Handling and Management of Errors par Andy Longshaw et Eoin Woods, EuroPlop 2004.

Alternativement, pour des travaux plus génériques, il y a le livre Introduction to Reliable Distributed Programming de Rachid Guerraoui et Luis Rodrigues, qui possède une vaste gamme d'algorithmes pratiques, y compris de nombreuses variantes de récupération après défaillance. Le texte plus classique Algorithmes distribués de Nancy Lynch couvre un terrain similaire d'un point de vue plus théorique.

Dave Clarke
la source