RAG en entreprise : comment ça marche et à quoi s'attendre ?
Le RAG permet de faire répondre un LLM à partir de vos documents internes. Principes, architecture, cas d'usage et retours d'expérience sur les projets RAG en entreprise.
Le principe simple du RAG
Un LLM classique (GPT, Claude, Mistral) répond à partir de ce qu'il a appris pendant son entraînement. Il ne connaît pas vos documents internes. Le RAG (Retrieval Augmented Generation) résout cette limite : avant de générer la réponse, le système cherche dans vos documents les passages pertinents, et les fournit au LLM comme contexte. Le LLM répond ensuite en citant ces sources. C'est l'architecture de la grande majorité des projets IA en entreprise en 2026.
Les 5 étapes d'une requête RAG
Étape 1 : l'utilisateur pose une question. Étape 2 : la question est transformée en vecteur mathématique (embedding). Étape 3 : le système cherche dans la base vectorielle les documents les plus proches sémantiquement. Étape 4 : les meilleurs passages sont envoyés au LLM avec la question originale. Étape 5 : le LLM génère une réponse basée sur ces passages et la renvoie avec les sources citées.
L'importance du chunking
Les documents doivent être découpés en morceaux (chunks) pour être indexés. Un chunk typique fait 500 à 1500 caractères. Mal chunker un document, c'est détruire sa recherchabilité. Un chunk trop court perd le contexte ; trop long, il dilue l'information pertinente. Pour un document structuré (PDF avec titres), on chunke par section. Pour un document narratif, par paragraphes sémantiquement cohérents. Le chunking est un art qui fait la différence entre un RAG qui marche et un qui déçoit.
Embedding : le choix du modèle
L'embedding est ce qui transforme le texte en vecteur. Les modèles courants : OpenAI text-embedding-3, Mistral Embed, Cohere, BGE-M3 (open source). Pour le français, Mistral Embed est particulièrement performant. Critères de choix : qualité sémantique, taille du vecteur (512 à 3072 dimensions), coût, disponibilité en on-premise.
Base vectorielle : quelle option choisir
Plusieurs options solides en 2026. pgvector (extension PostgreSQL) : excellent si vous avez déjà PostgreSQL, pas de nouveau service à gérer. Qdrant : spécialisé, très performant, open source, hébergeable en France. Pinecone : cloud managé, très simple. Weaviate : open source, riche en fonctionnalités. Pour 90 % des projets en entreprise, pgvector ou Qdrant suffisent largement.
La recherche hybride
La recherche purement vectorielle manque parfois les résultats exacts sur des mots-clés techniques précis. La solution : combiner recherche vectorielle (sémantique) et recherche textuelle (lexicale, BM25). Cette approche hybride améliore sensiblement la qualité des résultats, surtout sur des corpus techniques avec beaucoup de terminologie spécifique.
Le reranking : la touche finale
Après la première recherche qui remonte 20-50 candidats, un modèle de reranking fait une analyse plus fine et identifie les meilleurs 3-5 passages. Modèles populaires : Cohere Rerank, BGE Reranker. Le reranking ajoute quelques centaines de millisecondes mais améliore significativement la pertinence. À utiliser systématiquement en production.
Les cas d'usage qui marchent bien
Recherche dans la documentation interne (procédures, normes, référentiels). Assistance commerciale (répondre à partir du catalogue et des fiches produits). Support interne (répondre aux questions des collaborateurs sur la politique RH, les outils). Aide juridique interne (chercher dans les contrats types, la jurisprudence). Analyse de documents entrants (extraire l'information structurée à partir d'emails, de rapports).
Les cas où le RAG déçoit
Questions qui demandent de synthétiser l'ensemble du corpus (le RAG voit des extraits, pas le tout). Questions très ouvertes sans réponse précise dans les documents. Corpus trop petits (moins de 100 documents). Corpus trop hétérogènes sans structure. Documents mal préparés (scans non OCR, tableaux complexes, images avec texte). Gérer ces limites avant le développement évite les déceptions.
Le contrôle d'accès : un point critique
Tous les utilisateurs ne doivent pas voir tous les documents. Un RAG d'entreprise doit filtrer les documents accessibles selon l'utilisateur connecté. Techniquement : métadonnées sur chaque chunk indiquant qui peut y accéder, filtrage au moment de la recherche. Ce point est souvent sous-estimé au départ et complexe à rajouter après.
Le coût d'un projet RAG
POC RAG (1 cas d'usage, 1000-5000 documents) : 15 000 à 40 000 €, 4 à 8 semaines. RAG en production (plusieurs cas d'usage, 10 000 à 100 000 documents) : 50 000 à 150 000 €, 3 à 5 mois. RAG d'entreprise (millions de documents, multi-équipes) : 150 000 à 500 000 €, 6 à 12 mois. Coût d'exploitation ensuite : 500 € à 5 000 € par mois selon volume d'usage.
Notre conseil méthodologique
Commencer par un cas d'usage précis (pas 'faire un RAG' mais 'répondre aux questions des commerciaux sur le catalogue produit'). Valider avec un POC sur données réelles. Mesurer la qualité avec des indicateurs concrets (taux de réponses correctes, taux de citations pertinentes, satisfaction utilisateur). Industrialiser ensuite en élargissant les cas d'usage et le corpus.
Un projet similaire en tête ?
Parlons-en concrètement. Cadrage gratuit, chiffrage transparent, méthode éprouvée.