Budget de Fiabilité pour Agents IA : SLO, TSR et Gouvernance

Formalisez vos SLO et TSR, implémentez observabilité avec OpenTelemetry/Prometheus, pilotez le budget de fiabilité par RACI et déployez tests golden et…

Damien Larquey

December 9, 2025

4 min read

Budget de Fiabilité pour Agents IA : SLO, TSR et Gouvernance

Summary

Formalisez vos SLO et TSR, implémentez observabilité avec OpenTelemetry/Prometheus, pilotez le budget de fiabilité par RACI et déployez tests golden et…

Budget de Fiabilité pour Agents IA : formaliser SLO, TSR et gouvernance

Les agents IA multi-étapes soulèvent un défi : concilier expérimentation rapide et garantie de confiance. La solution consiste à transposer le modèle SRE – avec SLO, TSR et Budget de Fiabilité explicite – pour transformer ces prototypes en systèmes robustes et pilotables.

1. Définition formelle du TSR et méthode de mesure

Le Task Success Rate (TSR) se définit ainsi sur une fenêtre temporelle W :

TSR(W) = (Nombre de tâches conformes dans W) / (Nombre total de tâches dans W)

Critères de réussite : chaque tâche doit satisfaire un jeu de règles métier validées (ex. extraction de champs obligatoires, respect de schéma JSON). On mesure sur fenêtres glissantes (rolling windows) de 24 h, 7 jours ou 30 jours, par échantillonnage aléatoire ou exhaustif selon le volume.

Exemple chiffré sur une fenêtre de 7 jours :

Volume total : 10 000 tâches
Tâches réussies : 9 600
TSR(7j) = 96 %

À partir du TSR cible (ex. ≥ 95 %), on déduit un budget de fiabilité : 5 % d’échecs tolérés sur chaque période W.

2. Observabilité et outils pratiques

Pour que les SLO et le Budget de Fiabilité aient du sens, il faut une observabilité granulaire et automatisée.

2.1. Tracing distribué avec OpenTelemetry et Jaeger

Instrumenter chaque étape de l’agent (appel LLM, enrichissement, API métier) avec un identifiant de corrélation.
Exporter les spans vers Jaeger pour visualiser les latences p50/p95/p99 par scénario.

import opentelemetry.sdk.trace as trace_sdk  
tracer = trace_sdk.get_tracer(__name__)  
with tracer.start_as_current_span("call_llm"):  
    response = llm_client.generate(prompt)

2.2. Métriques avec Prometheus et Grafana

Exposer un compteur agent_tasks_total et une jauge agent_tasks_success.
Calculer le TSR dans Grafana : success / total * 100, avec alertes si < 95 %.

2.3. Pipeline de logs et schéma d’événements

Structurer les logs en JSON : { "task_id": "...", "step": "extract", "status": "ok"/"error", "error_type": "timeout" }.
Centraliser avec Elasticsearch/Kibana ou Loki pour diagnostiquer les erreurs métier vs techniques.

3. Gouvernance opérationnelle du Budget de Fiabilité

Un budget de fiabilité n’est utile que si ses conséquences opérationnelles sont formalisées.

3.1. Rôles et responsabilités (RACI)

Responsable (R) : Product Owner (définit les SLO et seuils TSR).
Accountable (A) : SRE (pilote le budget, déclenche gel/rollback).
Consulté (C) : Développeurs, Data Scientists (valident les métriques métier).
Informé (I) : Support, Métiers (suivi des incidents et KPIs).

3.2. Playbook de rollback et gel de déploiements

Déclencheur : TSR sur 1 h < SL0 de 95 % → gel immédiat des déploiements.
Étapes :
1. Analyser les spans Jaeger et logs d’erreur.
2. Identifier le commit ou la configuration impactante.
3. Rollback automatique ou manuel vers la version stable.
Critères de levée du gel :
- Retour du TSR > 95 % sur 3 heures consécutives.
- Validation manuelle via revue post-mortem.

3.3. SLA vs SLO et mapping coût-business

Indicateur	SLO	SLA	Impact business
TSR	≥ 95 %	≥ 93 %	Coût 100 €/point perdu
Latence p99	< 3 s	< 5 s	Perte satisfaction – 1 %/s au-delà

4. Tests et validation continue

La fiabilité se construit en amont grâce à des tests systématiques.

4.1. Datasets « golden » et tests synthétiques

Constituer un référentiel de cas métier validés par l’expert (input + output attendu).
Exécuter ces cas dans la CI/CD pour détecter toute régression de précision ou TSR.

4.2. Tests end-to-end et monitoring des hallucinations

Simuler des parcours complets (extraction → décision → action) avec des données de test.
Détecter automatiquement les réponses hors-scope via scripts de validation (JSON schema, regex).

4.3. Boucle de feedback humain

Mettre en place une interface de revue manuelle pour labelliser les échecs et hallucinations.
Intégrer ces retours dans un pipeline d’entraînement continu ou de rules-based fallback.

En combinant définition formelle du TSR, observabilité robuste, gouvernance claire et tests continus, vous transformez votre Budget de Fiabilité en levier d’innovation contrôlée pour vos agents IA.

Damien Larquey

Building digital products with AI, modern architecture, and product strategy at Codolie.

Back to blog