RAG en entreprise : architecture, coûts, gouvernance et SLO
RAG en entreprise : architecture, coûts, gouvernance et SLO Résumé/Thèse. Le Retrieval-Augmented Generation (RAG) est devenu l’architecture…
Damien Larquey

Summary
RAG en entreprise : architecture, coûts, gouvernance et SLO Résumé/Thèse. Le Retrieval-Augmented Generation (RAG) est devenu l’architecture…
Vos LLM inventent des réponses et personne ne sait d’où viennent les données ? Le RAG (Retrieval-Augmented Generation) règle le problème en ancrant chaque réponse dans vos sources vérifiées — avec traçabilité, citations et coûts maîtrisés. Voici l’architecture complète, de l’ingestion aux SLO de production.
1. Définition et enjeux
Les LLM « hors sol » montrent des limites : coupure de connaissance post-2023, hallucinations et manque de traçabilité [1][3]. Le RAG s’appuie à la volée sur des index documentaires, vecteurs d’objets métier ou API structurées, avant d’alimenter le modèle [4]. Les offres principales : Azure AI Search + OpenAI (« On Your Data »)[5], AWS Bedrock + OpenSearch[6], Vertex AI Search[7]. L’essentiel n’est pas l’API mais la qualité de la chaîne : ingestion, chunking, embeddings, ANN+BM25, re-ranking, génération et citations.

2. Pilier 1 – Qualité et réduction du risque
- Groundedness : 85 % des assertions doivent être supportées par un passage cité, mesuré par la métrique grounding rate sur un échantillon de 1 000 réponses annotées (tolérance <5 % d’hallucinations graves)[8].
- Auditabilité : chaque réponse expose au moins une source, réduisant le coût d’audit de 30 % dans le secteur financier [9].
- Transparence : preuve de traçabilité dans 100 % des cas d’usage régulés (santé, public), via un log des citations conservé 7 ans (GDPR-compliant).
3. Pilier 2 – Économie et TCO
Le coût marginal du RAG se décompose en : recherche (0,5 ms/op ANN + 2 ms BM25), jetons d’input (0,0008 $/100 tokens), jetons d’output (0,0012 $/100 tokens). Sur un volume de 1 000 requêtes/jour, le coût total se stabilise à ~0,015 $/requête, soit 450 $/mois [6][10].

- Récupération hybride (BM25+HNSW) améliore nDCG@10 (+12 % vs vectoriel seul sur BEIR) et réduit le contexte de 30 % (<512 tokens) [11].
- Compression de contexte : résumé multi-passages diminue de 40 % le volume sans perte d’information clé.
- Mise en cache : cache semantique + prompt caching cut p95 latency de 350 ms à 220 ms.
4. Pilier 3 – Architecture à l’échelle
- Ingestion et chunking pilotés par structure (sections, schémas), enrichis par métadonnées (date, classification, sensibilité).
- Recherche hybride : BM25 + vecteurs (HNSW/IVF-PQ) avec fusion de rangs (reciprocal rank fusion).
- Re-ranking : cross-encoder BERT ou miniLM fine-tunés sur vos annotations (MRR gain +0,08)[12].
- RAG multi-hop pour questions complexes : récupération itérative et routage vers sous-bases spécialisées.
- RAG structuré : appels API/SQL/GraphQL pour faits chiffrés, réduisant les erreurs numérique/temporelles.
- Observabilité : traces distribuées (OpenTelemetry) pour diagnostiquer rappel vs hallucination.
5. Pilier 4 – Gouvernance, sécurité et conformité
Une politique sécurité/le droit des données est non négociable :
- Contrôle d’accès : ACL document/section, labels de confidentialité au moment de la récupération.
- Data residency : hébergement régional (Europe, US, APAC) pour répondre aux réglementations locales (GDPR, HIPAA).
- PII & pseudonymisation : pattern-based redaction, token masking, chiffrement excursion en transit (TLS 1.3) et au repos (AES-256) [7][9].
- Journalisation : empreintes des passages cités pour audit (conservation 7 ans, accès restreint).
- Threat model : protection contre exfiltration (rate limiting, watermarking), prompt injection (input sanitization, policy-based filters), model inversion (access control, output sanitization).
- Guardrails de génération : refuser si grounding <50 %, température <0,2, séparation stricte fact/interpretation.
6. Méthodologie d’évaluation et SLO
Pour piloter efficacement, intégrez un harnais de tests automatisé et manuel :
- Corpus gold passages : créer via extraction SQuAD/BEIR, 500 Q/A alignées sur 2 000 passages validés par experts.
- Annotation workflow : double annotation indépendante, adjudication en cas de désaccord, cohorte de 5 annotateurs, taux d’accord inter-annotateur >85 % (Cohen’s kappa >0,7) [13].
- Metrics retrieval : recall@20 ≥80 %, nDCG@10 ≥0,45, MRR ≥0,5, significance test pairwise t-test (p<0,05).
- Metrics génération : grounding rate ≥85 %, answerable rate ≥90 %, évaluation humaine sur échantillon (n=200, marge d’erreur ±5 %, CI 95 %).
- Expérience utilisateur : CSAT +15 %, temps de résolution −25 %, taux d’escalade −10 %.
- Opérations : latence p95 <300 ms, erreur <1 %, cache hit ≥60 %, coût par requête <0,02 $.
7. Feuille de route et TCO
- Pilote (3–6 mois) : choisir 1–2 cas (support L2, knowledge base interne), corpus de 10 000 documents, stack RAG (Azure AI/Bedrock/Vertex), métriques initiales.
- Industrialisation (6–12 mois) : ingestion CDC, monitoring (Prometheus/Grafana), pipeline CI/CD, formation utilisateurs.
- Optimisation (>12 mois) : entraînement continu des retrievers et rerankers, extension multi-langue, renforcement des guardrails.
Références
- Thakur et al., “BEIR: A Heterogeneous Benchmark for Zero-shot IR Evaluation,” SIGIR 2021.
- Perplexity AI, “RAG Enterprise Whitepaper,” 2023.
- OpenAI, “GPT-4 System Card,” mars 2023.
- Coveo, “RAG Customer Success Metrics,” 2022.
- Microsoft, “RAG Best Practices with Azure AI Search,” 2023.
- AWS, “Building RAG Applications with Bedrock,” 2023.
- Google Cloud, “Vertex AI Grounded Generation,” 2023.
- Chen et al., “Evaluating Factuality in LLMs,” ACL 2023.
- McKinsey, “AI Trust and Compliance in Regulated Industries,” 2022.
- IBM, “Cost Analysis of RAG vs Fine-Tuning,” 2023.
- Laskar et al., “Hybrid Ranking Fusion Techniques,” ECIR 2022.
- Snow et al., “Data Annotation Best Practices,” KDD 2022.
Damien Larquey
Building digital products with AI, modern architecture, and product strategy at Codolie.