Calcul RTO / RPO · RTO / RPO Calculator — technology-architecture.com

🏢 Contexte organisationnel

Revenu annuel de l'organisation (CAD $) Utilisé pour calculer le coût horaire d'une interruption globale

Heures d'opération par jour

Jours ouvrables par année

Coût horaire de l'équipe de reprise ($/h) Coût moyen de mobilisation de l'équipe en cas d'incident

🖥️ Systèmes à évaluer

Ajoutez chaque système critique. Définissez ses objectifs RTO et RPO cibles, et estimez son impact financier horaire en cas d'interruption.

Système	Criticité	RTO cible	RPO cible	Impact $/h

Résultats

Analyse de résilience

💸 Impact financier estimé par système (interruption = 1× RTO cible)

Stratégie de reprise

Niveaux DR recommandés

Basé sur vos RTO cibles, voici les niveaux de disaster recovery (DR) recommandés selon le modèle à 5 niveaux (Chapitre 20 — Architecture Technologique).

Niveau DR	Stratégie	RTO typique	RPO typique	Coût relatif	Systèmes applicables

Définitions

Vocabulaire de la résilience

Définitions tirées du Chapitre 20 — Architecture Technologique, Rolando del Cid, M. Sc.

RTO

Objectif de temps de récupération
Recovery Time Objective

Temps maximum acceptable entre une perturbation et la restauration du service. Le RTO est une exigence d'affaires — il exprime combien de temps l'organisation peut tolérer que le système soit indisponible. Exemple : un RTO de 4 heures signifie que le service doit être rétabli en moins de 4 heures après l'incident.

RPO

Objectif de point de récupération
Recovery Point Objective

Quantité maximale acceptable de perte de données mesurée en temps. Le RPO exprime combien de données l'organisation peut se permettre de perdre. Exemple : un RPO de 1 heure signifie qu'au maximum 1 heure de transactions peut être perdue lors d'un sinistre.

MTTR

Temps moyen de récupération
Mean Time To Recovery

Temps moyen pour restaurer un système après une panne. Métrique opérationnelle la plus actionnable. Les organisations qui réduisent leur MTTR obtiennent un avantage concurrentiel même si les pannes sont fréquentes. Cible : MTTR < RTO.

MTBF

Temps moyen entre pannes
Mean Time Between Failures

Temps moyen entre deux pannes successives d'un même système. Un MTBF élevé indique un système fiable. Combiné au MTTR, il détermine la disponibilité réelle : Disponibilité = MTBF / (MTBF + MTTR).

Principes

6 principes d'architecture de résilience

Extraits du Chapitre 20 — le cadre de référence de cet outil.

Principe 1

Concevoir pour la défaillance

Chaque composant tombera éventuellement en panne. Concevez le système pour continuer à fonctionner — possiblement en mode dégradé — quand une composante individuelle tombe en panne.

Principe 2

Échouer vite, échouer visiblement

Une composante qui échoue silencieusement propage les erreurs en aval. Préférez une panne bruyante et rapide à une dégradation lente et invisible.

Principe 3

Dégrader gracieusement

Quand le service complet ne peut être maintenu, fournissez une fonctionnalité réduite plutôt qu'une indisponibilité complète. Définissez les modes dégradés explicitement.

Principe 4

Récupérer automatiquement

Les processus de récupération manuels sont lents, sujets aux erreurs, et indisponibles à 3h du matin. Concevez les systèmes pour détecter les pannes et initier la récupération automatiquement.

Principe 5

Tester les pannes en continu

Les systèmes qui ne sont jamais testés dans des conditions de panne échouent de manière inattendue. L'ingénierie du chaos valide que les mécanismes de résilience fonctionnent.

Principe 6

Limiter le rayon d'explosion

Les cloisons étanches, disjoncteurs et l'isolation des ressources empêchent les pannes dans une composante de se cascader vers les autres.

Référence

Table de disponibilité

Correspondance entre le pourcentage de disponibilité et les temps d'interruption annuel et mensuel. Source : Chapitre 20.

Disponibilité	Interruption / année	Interruption / mois	Interruption / semaine	Niveau DR suggéré
99 %	3 j 15 h 36 min	7 h 18 min	1 h 41 min	DR Niveau 0–1
99,5 %	1 j 19 h 48 min	3 h 39 min	50 min	DR Niveau 1
99,9 %	8 h 45 min	43 min 49 s	10 min 5 s	DR Niveau 2
99,95 %	4 h 22 min	21 min 54 s	5 min 2 s	DR Niveau 2–3
99,99 %	52 min 35 s	4 min 22 s	1 min	DR Niveau 3
99,999 %	5 min 15 s	26 s	6 s	DR Niveau 4
99,9999 %	31 s	2,6 s	< 1 s	DR Niveau 4 (actif-actif)

Niveaux DR

Stratégies de disaster recovery

Niveau	Nom	RTO typique	RPO typique	Coût relatif	Description
DR 0	Aucune reprise	Heures à jours	Heures à jours	—	Pas de plan de reprise. Restauration ad hoc. Acceptable uniquement pour les systèmes non critiques.
DR 1	Sauvegarde & restauration	2–24 h	1–24 h	Faible	Sauvegardes automatisées hors site, restauration manuelle. Testé trimestriellement.
DR 2	Veilleuse pilote	30–60 min	Minutes	Moyen	Infrastructure minimale active en région DR. Mis à l'échelle via IaC lors d'un sinistre.
DR 3	Veille chaude	5–30 min	Secondes	Élevé	Environnement réduit mais entièrement fonctionnel actif en région DR. Mis à l'échelle à la capacité de production en cas de sinistre.
DR 4	Actif-actif	~0	~0	Très élevé	Trafic distribué simultanément sur plusieurs régions. Une panne régionale est absorbée sans interruption de service visible.

Autres outils

Boîte à outils de l'architecte

📊 Maturité EA 🌐 Subnetting ⚖️ Décision Architecture ☁️ Coûts Cloud 📖 Glossaire EA

🏢 Organizational Context

Annual organizational revenue ($) Used to estimate hourly cost of a full-organization outage

Operating hours per day

Working days per year

Recovery team hourly cost ($/h) Average cost of mobilizing incident response team

🖥️ Systems to Evaluate

Add each critical system. Define its target RTO and RPO, and estimate its financial impact per hour of downtime.

System	Criticality	Target RTO	Target RPO	Impact $/h

Results

Resilience Analysis

💸 Estimated financial impact per system (outage = 1× target RTO)

Recovery Strategy

Recommended DR Levels

Based on your target RTOs, here are the recommended disaster recovery levels according to the 5-level model (Chapter 20 — Technology Architecture).

DR Level	Strategy	Typical RTO	Typical RPO	Relative Cost	Applicable Systems

Definitions

Resilience Vocabulary

Definitions from Chapter 20 — Technology Architecture, Rolando del Cid, M. Sc.

RTO

Recovery Time Objective

The maximum acceptable time between a disruption and service restoration. RTO is a business requirement — it expresses how long the organization can tolerate system unavailability. Example: an RTO of 4 hours means the service must be restored within 4 hours of the incident.

RPO

Recovery Point Objective

The maximum acceptable amount of data loss measured in time. RPO expresses how much data the organization can afford to lose. Example: an RPO of 1 hour means at most 1 hour of transactions can be lost during a disaster.

MTTR

Mean Time To Recovery

Average time to restore a system after a failure. The most actionable resilience metric. Organizations that reduce MTTR gain competitive advantage even if failures are frequent. Target: MTTR < RTO.

MTBF

Mean Time Between Failures

Average time between successive failures of the same system. A high MTBF indicates a reliable system. Combined with MTTR, it determines actual availability: Availability = MTBF / (MTBF + MTTR).

Reference

Availability Table

Correspondence between availability percentage and annual/monthly downtime. Source: Chapter 20.

Availability	Downtime / year	Downtime / month	Downtime / week	Suggested DR Level
99%	3d 15h 36m	7h 18m	1h 41m	DR Level 0–1
99.5%	1d 19h 48m	3h 39m	50m	DR Level 1
99.9%	8h 45m	43m 49s	10m 5s	DR Level 2
99.95%	4h 22m	21m 54s	5m 2s	DR Level 2–3
99.99%	52m 35s	4m 22s	1m	DR Level 3
99.999%	5m 15s	26s	6s	DR Level 4
99.9999%	31s	2.6s	<1s	DR Level 4 (active-active)

DR Levels

Disaster Recovery Strategies

Level	Name	Typical RTO	Typical RPO	Relative Cost	Description
DR 0	No recovery	Hours to days	Hours to days	—	No recovery plan. Ad hoc restoration. Acceptable only for non-critical systems.
DR 1	Backup & restore	2–24 h	1–24 h	Low	Automated off-site backups, manual restoration. Tested quarterly.
DR 2	Pilot light	30–60 min	Minutes	Medium	Minimal infrastructure active in DR region. Scaled via IaC during a disaster.
DR 3	Warm standby	5–30 min	Seconds	High	Reduced but fully functional environment active in DR region. Scaled to production capacity during disaster.
DR 4	Active-active	~0	~0	Very high	Traffic distributed simultaneously across multiple regions. A regional failure is absorbed without visible service interruption.

More Tools

Architect's Toolkit

📊 EA Maturity 🌐 Subnetting ⚖️ Architecture Decision ☁️ Cloud Costs 📖 EA Glossary

🏢 Contexto organizacional

Ingresos anuales de la organización ($) Usado para estimar el costo horario de una interrupción general

Horas de operación por día

Días laborables por año

Costo horario del equipo de recuperación ($/h) Costo promedio de movilización del equipo en caso de incidente

🖥️ Sistemas a evaluar

Agregue cada sistema crítico. Defina su RTO y RPO objetivo y estime su impacto financiero por hora de interrupción.

Sistema	Criticidad	RTO objetivo	RPO objetivo	Impacto $/h

Resultados

Análisis de Resiliencia

💸 Impacto financiero estimado por sistema (interrupción = 1× RTO objetivo)

Estrategia de recuperación

Niveles DR recomendados

Basado en sus RTO objetivo, estos son los niveles de disaster recovery recomendados según el modelo de 5 niveles (Capítulo 20 — Arquitectura Tecnológica).

Nivel DR	Estrategia	RTO típico	RPO típico	Costo relativo	Sistemas aplicables

Definiciones

Vocabulario de resiliencia

Definiciones del Capítulo 20 — Arquitectura Tecnológica, Rolando del Cid, M. Sc.

RTO

Objetivo de Tiempo de Recuperación

Tiempo máximo aceptable entre una interrupción y la restauración del servicio. El RTO es un requisito de negocio. Ejemplo: un RTO de 4 horas significa que el servicio debe restablecerse en menos de 4 horas tras el incidente.

RPO

Objetivo de Punto de Recuperación

Cantidad máxima aceptable de pérdida de datos medida en tiempo. Ejemplo: un RPO de 1 hora significa que se puede perder como máximo 1 hora de transacciones durante un desastre.

MTTR

Tiempo Medio de Recuperación

Tiempo promedio para restaurar un sistema tras una falla. La métrica de resiliencia más accionable. Objetivo: MTTR < RTO.

MTBF

Tiempo Medio Entre Fallos

Tiempo promedio entre fallas sucesivas de un mismo sistema. Disponibilidad = MTBF / (MTBF + MTTR).

Referencia

Tabla de disponibilidad

Disponibilidad	Interrupción / año	Interrupción / mes	Interrupción / semana	Nivel DR sugerido
99 %	3 d 15 h 36 min	7 h 18 min	1 h 41 min	DR Nivel 0–1
99,5 %	1 d 19 h 48 min	3 h 39 min	50 min	DR Nivel 1
99,9 %	8 h 45 min	43 min 49 s	10 min 5 s	DR Nivel 2
99,95 %	4 h 22 min	21 min 54 s	5 min 2 s	DR Nivel 2–3
99,99 %	52 min 35 s	4 min 22 s	1 min	DR Nivel 3
99,999 %	5 min 15 s	26 s	6 s	DR Nivel 4
99,9999 %	31 s	2,6 s	< 1 s	DR Nivel 4 (activo-activo)

Más herramientas

Caja de herramientas del arquitecto

📊 Madurez EA 🌐 Subnetting ⚖️ Decisión Arquitectura ☁️ Costos Cloud 📖 Glosario EA