Ai

Budget de Fiabilité pour Agents IA : SLO, TSR et Gouvernance

Damien LarqueyDamien Larquey
December 9, 2025
4 min read
Budget de Fiabilité pour Agents IA : SLO, TSR et Gouvernance

Budget de Fiabilité pour Agents IA : formaliser SLO, TSR et gouvernance

Les agents IA multi-étapes soulèvent un défi : concilier expérimentation rapide et garantie de confiance. La solution consiste à transposer le modèle SRE – avec SLO, TSR et Budget de Fiabilité explicite – pour transformer ces prototypes en systèmes robustes et pilotables.

1. Définition formelle du TSR et méthode de mesure

Le Task Success Rate (TSR) se définit ainsi sur une fenêtre temporelle W :

TSR(W) = (Nombre de tâches conformes dans W) / (Nombre total de tâches dans W)

Critères de réussite : chaque tâche doit satisfaire un jeu de règles métier validées (ex. extraction de champs obligatoires, respect de schéma JSON). On mesure sur fenêtres glissantes (rolling windows) de 24 h, 7 jours ou 30 jours, par échantillonnage aléatoire ou exhaustif selon le volume.

Exemple chiffré sur une fenêtre de 7 jours :

  • Volume total : 10 000 tâches
  • Tâches réussies : 9 600
  • TSR(7j) = 96 %

À partir du TSR cible (ex. ≥ 95 %), on déduit un budget de fiabilité : 5 % d’échecs tolérés sur chaque période W.

2. Observabilité et outils pratiques

Pour que les SLO et le Budget de Fiabilité aient du sens, il faut une observabilité granulaire et automatisée.

2.1. Tracing distribué avec OpenTelemetry et Jaeger

  • Instrumenter chaque étape de l’agent (appel LLM, enrichissement, API métier) avec un identifiant de corrélation.
  • Exporter les spans vers Jaeger pour visualiser les latences p50/p95/p99 par scénario.
import opentelemetry.sdk.trace as trace_sdk  
tracer = trace_sdk.get_tracer(__name__)  
with tracer.start_as_current_span("call_llm"):  
    response = llm_client.generate(prompt)  

2.2. Métriques avec Prometheus et Grafana

  • Exposer un compteur agent_tasks_total et une jauge agent_tasks_success.
  • Calculer le TSR dans Grafana : success / total * 100, avec alertes si < 95 %.

2.3. Pipeline de logs et schéma d’événements

  • Structurer les logs en JSON : { "task_id": "...", "step": "extract", "status": "ok"/"error", "error_type": "timeout" }.
  • Centraliser avec Elasticsearch/Kibana ou Loki pour diagnostiquer les erreurs métier vs techniques.

3. Gouvernance opérationnelle du Budget de Fiabilité

Un budget de fiabilité n’est utile que si ses conséquences opérationnelles sont formalisées.

3.1. Rôles et responsabilités (RACI)

  • Responsable (R) : Product Owner (définit les SLO et seuils TSR).
  • Accountable (A) : SRE (pilote le budget, déclenche gel/rollback).
  • Consulté (C) : Développeurs, Data Scientists (valident les métriques métier).
  • Informé (I) : Support, Métiers (suivi des incidents et KPIs).

3.2. Playbook de rollback et gel de déploiements

  • Déclencheur : TSR sur 1 h < SL0 de 95 % → gel immédiat des déploiements.
  • Étapes :
    1. Analyser les spans Jaeger et logs d’erreur.
    2. Identifier le commit ou la configuration impactante.
    3. Rollback automatique ou manuel vers la version stable.
  • Critères de levée du gel :
    • Retour du TSR > 95 % sur 3 heures consécutives.
    • Validation manuelle via revue post-mortem.

3.3. SLA vs SLO et mapping coût-business

Indicateur SLO SLA Impact business
TSR ≥ 95 % ≥ 93 % Coût 100 €/point perdu
Latence p99 < 3 s < 5 s Perte satisfaction – 1 %/s au-delà

4. Tests et validation continue

La fiabilité se construit en amont grâce à des tests systématiques.

4.1. Datasets « golden » et tests synthétiques

  • Constituer un référentiel de cas métier validés par l’expert (input + output attendu).
  • Exécuter ces cas dans la CI/CD pour détecter toute régression de précision ou TSR.

4.2. Tests end-to-end et monitoring des hallucinations

  • Simuler des parcours complets (extraction → décision → action) avec des données de test.
  • Détecter automatiquement les réponses hors-scope via scripts de validation (JSON schema, regex).

4.3. Boucle de feedback humain

  • Mettre en place une interface de revue manuelle pour labelliser les échecs et hallucinations.
  • Intégrer ces retours dans un pipeline d’entraînement continu ou de rules-based fallback.

En combinant définition formelle du TSR, observabilité robuste, gouvernance claire et tests continus, vous transformez votre Budget de Fiabilité en levier d’innovation contrôlée pour vos agents IA.

Damien Larquey

Damien Larquey

Author at Codolie

Passionate about technology, innovation, and sharing knowledge with the developer community.

Back to Blog