Vous entendez « LLM », « RAG » ou « Agent IA » en réunion sans oser demander ce que ça veut dire ? Vous n'êtes pas seul. Le vocabulaire de l'IA générative s'est imposé en deux ans dans tous les comités de direction, et pourtant la plupart des définitions disponibles en ligne sont soit incompréhensibles, soit creuses. Ce glossaire reprend les 20 termes que vous croisez vraiment au travail et les explique avec des analogies concrètes, des exemples d'usage et ce qu'il faut retenir en une phrase.
Depuis 2023, le vocabulaire de l'intelligence artificielle s'est invité partout : dans les comités de direction, sur LinkedIn, dans les appels d'offres, et même au déjeuner. Le problème, c'est que la plupart des termes circulent sans définition. On parle de « LLM » comme si c'était évident, de « RAG » comme d'une formalité, et « d'agents » comme s'ils allaient remplacer des équipes entières demain matin.
Ces concepts ne sont pas si compliqués. Ce qui les rend opaques, c'est qu'on les explique généralement avec d'autres termes techniques tout aussi obscurs. Ici, on définit chaque mot avec des analogies du quotidien, un exemple concret, et la phrase à retenir si vous ne deviez en garder qu'une.
Les fondations
IA générative
L'IA générative regroupe les systèmes capables de produire du contenu nouveau : texte, image, son, code, vidéo. Elle s'oppose à l'IA classique qui se contentait de classer, prédire ou recommander.
L'IA classique reconnaît une chanson. L'IA générative en compose une nouvelle.
Exemples : ChatGPT, Mistral Le Chat, Midjourney, Suno.
LLM (Large Language Model, ou « grand modèle de langage »)
Un LLM est un modèle d'IA entraîné sur d'énormes quantités de texte (souvent l'équivalent de plusieurs millions de livres) pour apprendre à manipuler le langage. Il peut répondre à des questions, résumer un document, traduire, rédiger un email, écrire du code.
Imaginez quelqu'un qui aurait lu pratiquement tout ce qui existe sur internet et qui aurait une mémoire associative parfaite. Il ne « comprend » pas comme un humain, mais il a vu tellement d'exemples qu'il sait quel mot vient logiquement après un autre dans presque tous les contextes.
Exemples : ChatGPT, Claude, Mistral, Gemini.
Prompt
Un prompt, c'est tout simplement la consigne que vous donnez à l'IA. Une question, une instruction, un contexte, ou les trois à la fois.
Exemple : « Résume ce document en cinq points pour un dirigeant non-technique » est un prompt.
La qualité de la réponse dépend directement de la qualité du prompt. D'où le métier émergent de prompt engineer.
Prompt engineering
Le prompt engineering, c'est l'art de formuler des consignes efficaces pour obtenir des réponses précises d'un LLM. Cela inclut le choix des mots, la structure, le format demandé, les exemples fournis.
C'est comme briefer un nouveau collaborateur. Si vous lui dites « fais quelque chose de bien », il fera n'importe quoi. Si vous lui dites « rédige un email de relance client en trois paragraphes, ton chaleureux mais ferme, sans mentionner les pénalités », il y a quand même plus de chances que le résultat soit utilisable.
Hallucination
Une hallucination, c'est quand un LLM invente une information avec aplomb, comme si elle était vraie. Citation inexistante, chiffre fabriqué, biographie fantaisiste, jurisprudence imaginaire.
Pourquoi ça arrive : un LLM ne « sait » pas ce qui est vrai, il prédit le mot suivant le plus probable. Quand il manque d'information, il comble les trous avec ce qui semble plausible.
Exemple : demandez à un LLM les références d'un livre obscur. Il vous donnera souvent un titre crédible, un auteur crédible, un éditeur crédible, et un ISBN totalement inventé.
À retenir : un LLM seul, sans accès à des sources fiables, n'est jamais une source de vérité. C'est pour ça qu'on a inventé le RAG.
Comment l'IA apprend à consulter vos documents
RAG (Retrieval-Augmented Generation)
Le RAG, c'est une technique qui permet à un LLM de consulter une base documentaire avant de répondre. Au lieu de répondre uniquement avec ce qu'il a appris à l'entraînement (et qu'il risque d'halluciner), le système va d'abord chercher les passages pertinents dans vos documents, puis les transmet au LLM avec la question.
Imaginez la différence entre un consultant qui répond de mémoire et un consultant qui dit « attendez, je vérifie dans le dossier client ». Le second se trompe beaucoup moins.
Exemple : un chatbot interne qui répond aux questions des employés sur la convention collective, en allant chercher les bons articles avant de formuler la réponse.
Le RAG, c'est ce qui transforme un LLM bavard en assistant fiable connecté à vos données. C'est aujourd'hui la technique la plus utilisée en entreprise.
Embeddings
Les embeddings sont des représentations numériques du sens des mots et des phrases. Concrètement, chaque texte est transformé en une longue suite de chiffres (un vecteur) qui capture sa signification. Deux phrases qui veulent dire à peu près la même chose auront des embeddings très proches numériquement.
C'est comme attribuer des coordonnées GPS au sens. « Comment annuler mon abonnement » et « je veux résilier mon contrat » se retrouveront sur la même rue, alors que « combien coûte la livraison » sera dans un autre quartier.
Vector database (base de données vectorielle)
Une vector database, c'est une base de données conçue pour stocker et retrouver rapidement des embeddings. Quand vous posez une question, le système transforme votre question en embedding, puis cherche dans la base les documents dont les embeddings sont les plus proches.
Exemples : PGVector (extension de PostgreSQL), Pinecone, Weaviate, FAISS, Qdrant.
C'est une bibliothèque où les livres ne sont pas rangés par ordre alphabétique mais par proximité de sens. Si vous cherchez un livre sur la cuisine italienne, vous tombez automatiquement sur les rayons « pâtes », « pizza » et « œnologie italienne » sans avoir à connaître les titres exacts.
Chunking
Le chunking, c'est découper vos documents en morceaux exploitables avant de les indexer. Un PDF de 200 pages ne peut pas être envoyé d'un bloc à un LLM, donc on le coupe en passages cohérents (paragraphes, sections, pages).
Pourquoi c'est crucial : un mauvais découpage casse le sens et dégrade complètement la qualité des réponses. Un bon découpage préserve le contexte et améliore la précision.
La qualité d'un système RAG dépend autant de la stratégie de chunking que du choix du LLM. C'est un détail technique souvent sous-estimé.
Adapter un modèle à votre métier
Fine-tuning
Le fine-tuning, c'est réentraîner un modèle existant sur vos données spécifiques pour qu'il adopte un style, un vocabulaire ou une expertise particulière. On part d'un LLM générique et on le spécialise.
Un médecin généraliste qui ferait une spécialisation en cardiologie. Il garde toutes ses connaissances de base, mais devient bien meilleur sur un domaine précis.
Quand c'est utile : ton de marque très spécifique, langue rare, jargon métier hyper-pointu, formats de sortie strictement définis.
Quand ce n'est PAS utile : dans 90% des cas en entreprise, un bon prompt + du RAG donnent de meilleurs résultats que du fine-tuning, pour un coût bien moindre.
Contexte (context window)
Le contexte d'un LLM, c'est la quantité de texte qu'il peut traiter en une seule fois, mesurée en tokens (à peu près des fragments de mots). Plus le contexte est large, plus on peut lui donner de documents, d'historique de conversation, ou d'instructions.
Ordres de grandeur (2026) : les modèles courants traitent entre 128 000 et 2 millions de tokens, soit l'équivalent de plusieurs centaines à plusieurs milliers de pages.
Le piège : avoir un grand contexte ne veut pas dire que le modèle utilise bien tout. La qualité d'attention chute souvent au milieu des longs documents.
Token
Un token est l'unité de base que manipule un LLM. Ce n'est pas exactement un mot ni un caractère, plutôt un fragment de mot. En français, un mot fait en moyenne 1,5 token. En anglais, environ 1,3.
Pourquoi ça compte : la facturation des LLM se fait au token, et la taille du contexte se mesure en tokens. Comprendre ça vous aide à estimer les coûts et les limites.
1000 tokens, c'est environ 750 mots en français. Si quelqu'un vous dit « le modèle a un contexte de 128k tokens », c'est environ 200 pages de texte.
De l'IA qui parle à l'IA qui agit
Agent IA
Un agent IA, c'est un système qui ne se contente pas de répondre, mais qui agit. Il peut décomposer une tâche complexe, utiliser des outils (envoyer un email, consulter une base, appeler une API, lancer une recherche), évaluer ses résultats et ajuster son plan.
Différence clé avec un chatbot : un chatbot répond, un agent fait. Un chatbot dit « voici comment annuler votre commande ». Un agent annule la commande, génère le bon de retour, envoie l'email de confirmation, et vous dit « c'est fait ».
Exemples : un agent vocal qui prend un rendez-vous médical réel dans le calendrier, un agent commercial qui qualifie un prospect, l'enrichit dans le CRM et programme une relance, un agent administratif qui traite une facture de bout en bout.
Orchestration multi-agents
L'orchestration multi-agents, c'est faire collaborer plusieurs agents spécialisés pour accomplir une mission complexe. Plutôt qu'un seul super-agent qui fait tout mal, on a plusieurs agents qui font chacun bien leur partie, coordonnés par un chef d'orchestre.
Une équipe projet. Un agent fait l'analyse, un autre rédige, un troisième vérifie, un quatrième publie. Chacun a son rôle, ses outils, sa responsabilité.
Exemple : dans un système de support client, un premier agent qualifie la demande, un deuxième cherche dans la documentation, un troisième rédige la réponse, un quatrième vérifie qu'elle est conforme aux engagements contractuels.
La complexité réelle des projets IA en entreprise se loge dans l'orchestration. C'est rarement « un » agent, c'est presque toujours un système d'agents.
Tool use (utilisation d'outils)
Le tool use, c'est la capacité d'un LLM à appeler des fonctions externes plutôt que de tout faire lui-même. Au lieu d'inventer la météo, il appelle une API météo. Au lieu de calculer mentalement, il lance une calculatrice. Au lieu d'halluciner un numéro de commande, il interroge votre base.
Pourquoi c'est important : ça transforme le LLM d'un « moulin à texte » en orchestrateur de systèmes informatiques.
Sans tool use, pas d'agent. C'est le mécanisme qui fait passer l'IA du chat à l'action.
MCP (Model Context Protocol)
Le MCP est un standard ouvert qui définit comment connecter des LLM à des outils et des données. Lancé par Anthropic en 2024 et adopté largement depuis, il joue pour l'IA le rôle qu'a joué l'USB pour l'informatique : un connecteur universel.
Avant MCP : chaque intégration était sur mesure, longue à développer, fragile.
Avec MCP : un agent peut se brancher sur Slack, GitHub, votre CRM, votre base de données, votre calendrier, en utilisant des connecteurs standardisés.
MCP, c'est l'infrastructure qui rend les agents IA réellement déployables en entreprise. Si on vous parle d'intégrations IA en 2026, ce mot doit faire partie de la conversation.
Les mots qu'on n'explique jamais vraiment
Inférence
L'inférence, c'est le moment où le modèle est utilisé pour produire une réponse, par opposition à l'entraînement (où il apprend). Quand vous tapez un prompt et obtenez une réponse, c'est de l'inférence.
Pourquoi ça compte : le coût d'usage d'un LLM en production, c'est essentiellement du coût d'inférence. Et c'est ce qui détermine la rentabilité d'un projet.
STT et TTS (Speech-to-Text et Text-to-Speech)
STT, c'est la transformation de la voix en texte (« reconnaissance vocale »). TTS, c'est l'inverse : la transformation du texte en voix (« synthèse vocale »).
Ce sont les briques nécessaires à tous les agents vocaux. Quand quelqu'un parle d'un « agent qui répond au téléphone », il y a forcément du STT en entrée et du TTS en sortie.
Open source vs propriétaire
Un modèle open source (comme Mistral, Qwen, DeepSeek) peut être téléchargé, hébergé sur vos serveurs, modifié et audité. Un modèle propriétaire (comme GPT, Claude, Gemini) n'est accessible qu'à travers une API : vous envoyez vos données, vous recevez la réponse, mais vous ne contrôlez pas le modèle.
Enjeu majeur : pour beaucoup d'entreprises européennes, la souveraineté des données est devenue un critère de choix décisif. D'où l'intérêt croissant pour les modèles open source hébergés en France ou en Europe.
Souveraineté IA
La souveraineté IA, c'est garder le contrôle sur où sont vos données, quels modèles vous utilisez, et qui a accès à quoi. Pour beaucoup d'organisations (santé, finance, défense, secteur public), envoyer leurs données à un fournisseur américain ou chinois est devenu inacceptable.
Concrètement : héberger un modèle Mistral sur un cloud français comme OVHcloud ou Scaleway, plutôt que d'utiliser GPT-5.5 via l'API OpenAI.
À retenir : la souveraineté n'est plus un débat philosophique, c'est devenu un critère contractuel.
POC, MVP, mise en production
Trois mots qui reviennent en permanence dans les projets IA, et qu'on confond beaucoup.
- POC (Proof of Concept) : une démo qui prouve qu'une idée est faisable techniquement. Souvent jolie, rarement utilisable.
- MVP (Minimum Viable Product) : une première version utilisable par de vrais utilisateurs, avec un périmètre réduit mais fonctionnel.
- Mise en production : le système est utilisé en conditions réelles, supervisé, monitoré, corrigé en continu. C'est là que se joue 80% du travail réel.
Beaucoup de projets IA s'arrêtent au POC. La vraie valeur est dans la mise en production.
Comment utiliser ce glossaire en réunion
Trois réflexes utiles.
Posez la question « pourquoi pas du RAG ? ». Quand quelqu'un propose du fine-tuning, demandez si du RAG ne suffirait pas. Dans la majorité des cas, c'est moins cher, plus rapide, plus maintenable.
Distinguez chatbot et agent. Si quelqu'un vend un « agent IA » mais que le système se contente de répondre à des questions sans rien faire dans vos systèmes, ce n'est pas un agent, c'est un chatbot avec du marketing.
Demandez où sont les données. « Le modèle est hébergé où ? Les requêtes passent par quels serveurs ? Les données d'entrée sont-elles utilisées pour entraîner d'autres modèles ? » Ces trois questions changent souvent l'orientation d'un projet.
Les termes qui ne devraient pas vous impressionner
Quelques mots que vous entendrez beaucoup mais qui ne valent pas qu'on s'y attarde trop.
« IA » tout court. Ce mot ne veut plus rien dire. Demandez toujours de quel type d'IA on parle : générative, prédictive, classification, vision par ordinateur ?
« Algorithme magique ». Personne ne devrait jamais utiliser cette expression dans un cadre professionnel. Si quelqu'un le fait, c'est qu'il ne sait pas vous expliquer ce qu'il vend.
« L'IA va tout révolutionner ». Peut-être, peut-être pas. Concentrez-vous sur ce que vous voulez résoudre, et l'IA sera un outil parmi d'autres.
Pour aller plus loin
Le vocabulaire de l'IA évolue vite. Les agents d'aujourd'hui ne ressemblent pas à ceux d'il y a un an, et MCP n'existait même pas il y a deux ans. Le bon réflexe n'est pas d'apprendre un glossaire par cœur, mais de garder le mécanisme de base : derrière chaque mot compliqué, il y a une idée simple. Si on ne peut pas vous l'expliquer simplement, c'est généralement qu'on ne la maîtrise pas.
La prochaine fois qu'un terme nouveau surgit, posez la question : « tu peux me l'expliquer comme à un ado de 15 ans ? ». Si la réponse est claire, le concept est solide. Si la réponse est confuse, méfiez-vous : il y a souvent du vide derrière le buzzword.
Veille IA
Un email par semaine, sans esbroufe
Tendances IA, décryptages sans jargon, et convictions sur la souveraineté technologique, directement dans votre boîte.
