Sûreté de fonctionnement - Tolérance aux pannes
Tolérance aux pannes
Puisqu'il est impossible d'empêcher totalement les pannes, une solution consiste à
mettre en place des mécanismes de redondance, en dupliquant
les ressources critiques.
La capacité d'un système à fonctionner malgré
une défaillance d'une de ses composantes est appelée tolérance aux pannes
(parfois nommée tolérance aux fautes », en anglais fault tolerance).
Lorsqu'une des ressources tombe en panne, les autres ressources prennent
le relais afin de laisser le temps aux administrateurs du système de remédier à l'avarie.
En anglais le terme de « Fail-Over Service » (noté FOS)
est ainsi utilisé.
Idéalement, dans le cas d'une panne matérielles, les éléments matériels fautifs
devront pouvoir être « extractibles à chaud » (en anglais
« hot swappable »), c'est-à-dire pouvoir être extraits puis remplacés, sans
interruption de service.
Trucs & astuces pertinents trouvés dans la base de connaissances
Discussions pertinentes trouvées dans le forum