🔒
Aucune donnée enregistrée Tous les calculs s'effectuent localement dans votre navigateur. Aucune information n'est transmise à un serveur, aucun cookie n'est créé. Vos données restent strictement confidentielles.

🏢 Contexte organisationnel

Utilisé pour calculer le coût horaire d'une interruption globale
Coût moyen de mobilisation de l'équipe en cas d'incident

🖥️ Systèmes à évaluer

Ajoutez chaque système critique. Définissez ses objectifs RTO et RPO cibles, et estimez son impact financier horaire en cas d'interruption.

Système Criticité RTO cible RPO cible Impact $/h

Analyse de résilience

💸 Impact financier estimé par système (interruption = 1× RTO cible)

Niveaux DR recommandés

Basé sur vos RTO cibles, voici les niveaux de disaster recovery (DR) recommandés selon le modèle à 5 niveaux (Chapitre 20 — Architecture Technologique).

Niveau DRStratégieRTO typiqueRPO typiqueCoût relatifSystèmes applicables

Vocabulaire de la résilience

Définitions tirées du Chapitre 20 — Architecture Technologique, Rolando del Cid, M. Sc.

RTO
Objectif de temps de récupération
Recovery Time Objective
Temps maximum acceptable entre une perturbation et la restauration du service. Le RTO est une exigence d'affaires — il exprime combien de temps l'organisation peut tolérer que le système soit indisponible. Exemple : un RTO de 4 heures signifie que le service doit être rétabli en moins de 4 heures après l'incident.
RPO
Objectif de point de récupération
Recovery Point Objective
Quantité maximale acceptable de perte de données mesurée en temps. Le RPO exprime combien de données l'organisation peut se permettre de perdre. Exemple : un RPO de 1 heure signifie qu'au maximum 1 heure de transactions peut être perdue lors d'un sinistre.
MTTR
Temps moyen de récupération
Mean Time To Recovery
Temps moyen pour restaurer un système après une panne. Métrique opérationnelle la plus actionnable. Les organisations qui réduisent leur MTTR obtiennent un avantage concurrentiel même si les pannes sont fréquentes. Cible : MTTR < RTO.
MTBF
Temps moyen entre pannes
Mean Time Between Failures
Temps moyen entre deux pannes successives d'un même système. Un MTBF élevé indique un système fiable. Combiné au MTTR, il détermine la disponibilité réelle : Disponibilité = MTBF / (MTBF + MTTR).

6 principes d'architecture de résilience

Extraits du Chapitre 20 — le cadre de référence de cet outil.

Principe 1
Concevoir pour la défaillance
Chaque composant tombera éventuellement en panne. Concevez le système pour continuer à fonctionner — possiblement en mode dégradé — quand une composante individuelle tombe en panne.
Principe 2
Échouer vite, échouer visiblement
Une composante qui échoue silencieusement propage les erreurs en aval. Préférez une panne bruyante et rapide à une dégradation lente et invisible.
Principe 3
Dégrader gracieusement
Quand le service complet ne peut être maintenu, fournissez une fonctionnalité réduite plutôt qu'une indisponibilité complète. Définissez les modes dégradés explicitement.
Principe 4
Récupérer automatiquement
Les processus de récupération manuels sont lents, sujets aux erreurs, et indisponibles à 3h du matin. Concevez les systèmes pour détecter les pannes et initier la récupération automatiquement.
Principe 5
Tester les pannes en continu
Les systèmes qui ne sont jamais testés dans des conditions de panne échouent de manière inattendue. L'ingénierie du chaos valide que les mécanismes de résilience fonctionnent.
Principe 6
Limiter le rayon d'explosion
Les cloisons étanches, disjoncteurs et l'isolation des ressources empêchent les pannes dans une composante de se cascader vers les autres.

Table de disponibilité

Correspondance entre le pourcentage de disponibilité et les temps d'interruption annuel et mensuel. Source : Chapitre 20.

DisponibilitéInterruption / annéeInterruption / moisInterruption / semaineNiveau DR suggéré
99 %3 j 15 h 36 min7 h 18 min1 h 41 minDR Niveau 0–1
99,5 %1 j 19 h 48 min3 h 39 min50 minDR Niveau 1
99,9 %8 h 45 min43 min 49 s10 min 5 sDR Niveau 2
99,95 %4 h 22 min21 min 54 s5 min 2 sDR Niveau 2–3
99,99 %52 min 35 s4 min 22 s1 minDR Niveau 3
99,999 %5 min 15 s26 s6 sDR Niveau 4
99,9999 %31 s2,6 s< 1 sDR Niveau 4 (actif-actif)

Stratégies de disaster recovery

NiveauNomRTO typiqueRPO typiqueCoût relatifDescription
DR 0Aucune repriseHeures à joursHeures à joursPas de plan de reprise. Restauration ad hoc. Acceptable uniquement pour les systèmes non critiques.
DR 1Sauvegarde & restauration2–24 h1–24 hFaibleSauvegardes automatisées hors site, restauration manuelle. Testé trimestriellement.
DR 2Veilleuse pilote30–60 minMinutesMoyenInfrastructure minimale active en région DR. Mis à l'échelle via IaC lors d'un sinistre.
DR 3Veille chaude5–30 minSecondesÉlevéEnvironnement réduit mais entièrement fonctionnel actif en région DR. Mis à l'échelle à la capacité de production en cas de sinistre.
DR 4Actif-actif~0~0Très élevéTrafic distribué simultanément sur plusieurs régions. Une panne régionale est absorbée sans interruption de service visible.

🔒
No data recorded All calculations run locally in your browser. No information is sent to a server, no cookies are created. Your data remains strictly confidential.

🏢 Organizational Context

Used to estimate hourly cost of a full-organization outage
Average cost of mobilizing incident response team

🖥️ Systems to Evaluate

Add each critical system. Define its target RTO and RPO, and estimate its financial impact per hour of downtime.

SystemCriticalityTarget RTOTarget RPOImpact $/h

Resilience Analysis

💸 Estimated financial impact per system (outage = 1× target RTO)

Recommended DR Levels

Based on your target RTOs, here are the recommended disaster recovery levels according to the 5-level model (Chapter 20 — Technology Architecture).

DR LevelStrategyTypical RTOTypical RPORelative CostApplicable Systems

Resilience Vocabulary

Definitions from Chapter 20 — Technology Architecture, Rolando del Cid, M. Sc.

RTO
Recovery Time Objective
The maximum acceptable time between a disruption and service restoration. RTO is a business requirement — it expresses how long the organization can tolerate system unavailability. Example: an RTO of 4 hours means the service must be restored within 4 hours of the incident.
RPO
Recovery Point Objective
The maximum acceptable amount of data loss measured in time. RPO expresses how much data the organization can afford to lose. Example: an RPO of 1 hour means at most 1 hour of transactions can be lost during a disaster.
MTTR
Mean Time To Recovery
Average time to restore a system after a failure. The most actionable resilience metric. Organizations that reduce MTTR gain competitive advantage even if failures are frequent. Target: MTTR < RTO.
MTBF
Mean Time Between Failures
Average time between successive failures of the same system. A high MTBF indicates a reliable system. Combined with MTTR, it determines actual availability: Availability = MTBF / (MTBF + MTTR).

Availability Table

Correspondence between availability percentage and annual/monthly downtime. Source: Chapter 20.

AvailabilityDowntime / yearDowntime / monthDowntime / weekSuggested DR Level
99%3d 15h 36m7h 18m1h 41mDR Level 0–1
99.5%1d 19h 48m3h 39m50mDR Level 1
99.9%8h 45m43m 49s10m 5sDR Level 2
99.95%4h 22m21m 54s5m 2sDR Level 2–3
99.99%52m 35s4m 22s1mDR Level 3
99.999%5m 15s26s6sDR Level 4
99.9999%31s2.6s<1sDR Level 4 (active-active)

Disaster Recovery Strategies

LevelNameTypical RTOTypical RPORelative CostDescription
DR 0No recoveryHours to daysHours to daysNo recovery plan. Ad hoc restoration. Acceptable only for non-critical systems.
DR 1Backup & restore2–24 h1–24 hLowAutomated off-site backups, manual restoration. Tested quarterly.
DR 2Pilot light30–60 minMinutesMediumMinimal infrastructure active in DR region. Scaled via IaC during a disaster.
DR 3Warm standby5–30 minSecondsHighReduced but fully functional environment active in DR region. Scaled to production capacity during disaster.
DR 4Active-active~0~0Very highTraffic distributed simultaneously across multiple regions. A regional failure is absorbed without visible service interruption.

🔒
Ningún dato registrado Todos los cálculos se realizan localmente en su navegador. Ninguna información se envía a un servidor, no se crean cookies. Sus datos permanecen estrictamente confidenciales.

🏢 Contexto organizacional

Usado para estimar el costo horario de una interrupción general
Costo promedio de movilización del equipo en caso de incidente

🖥️ Sistemas a evaluar

Agregue cada sistema crítico. Defina su RTO y RPO objetivo y estime su impacto financiero por hora de interrupción.

SistemaCriticidadRTO objetivoRPO objetivoImpacto $/h

Análisis de Resiliencia

💸 Impacto financiero estimado por sistema (interrupción = 1× RTO objetivo)

Niveles DR recomendados

Basado en sus RTO objetivo, estos son los niveles de disaster recovery recomendados según el modelo de 5 niveles (Capítulo 20 — Arquitectura Tecnológica).

Nivel DREstrategiaRTO típicoRPO típicoCosto relativoSistemas aplicables

Vocabulario de resiliencia

Definiciones del Capítulo 20 — Arquitectura Tecnológica, Rolando del Cid, M. Sc.

RTO
Objetivo de Tiempo de Recuperación
Tiempo máximo aceptable entre una interrupción y la restauración del servicio. El RTO es un requisito de negocio. Ejemplo: un RTO de 4 horas significa que el servicio debe restablecerse en menos de 4 horas tras el incidente.
RPO
Objetivo de Punto de Recuperación
Cantidad máxima aceptable de pérdida de datos medida en tiempo. Ejemplo: un RPO de 1 hora significa que se puede perder como máximo 1 hora de transacciones durante un desastre.
MTTR
Tiempo Medio de Recuperación
Tiempo promedio para restaurar un sistema tras una falla. La métrica de resiliencia más accionable. Objetivo: MTTR < RTO.
MTBF
Tiempo Medio Entre Fallos
Tiempo promedio entre fallas sucesivas de un mismo sistema. Disponibilidad = MTBF / (MTBF + MTTR).

Tabla de disponibilidad

DisponibilidadInterrupción / añoInterrupción / mesInterrupción / semanaNivel DR sugerido
99 %3 d 15 h 36 min7 h 18 min1 h 41 minDR Nivel 0–1
99,5 %1 d 19 h 48 min3 h 39 min50 minDR Nivel 1
99,9 %8 h 45 min43 min 49 s10 min 5 sDR Nivel 2
99,95 %4 h 22 min21 min 54 s5 min 2 sDR Nivel 2–3
99,99 %52 min 35 s4 min 22 s1 minDR Nivel 3
99,999 %5 min 15 s26 s6 sDR Nivel 4
99,9999 %31 s2,6 s< 1 sDR Nivel 4 (activo-activo)