Uber a brûlé son budget IA 2026 en 4 mois. Microsoft a coupé Claude Code à ses devs. Voici comment éviter le même piège dans une PME française.
Uber a brûlé l’intégralité de son budget IA 2026 en quatre mois. Microsoft vient d’annuler la plupart de ses licences Claude Code pour ses ingénieurs et de les rabattre sur GitHub Copilot, moins cher. Chez Amazon, un tableau de bord interne attribuait le titre de « Token Legend » aux employés qui consommaient le plus de tokens. Chez Meta, même chose.
On parle de boîtes qui pèsent des milliards. Et elles se font surprendre par la facture.
Si les géants de la tech n’arrivent pas à maîtriser leurs coûts d’IA agentique, une ETI de 50 personnes qui déploie des agents sans y réfléchir va dans le mur.
Le basculement que personne n’a vu venir
Pendant deux ans, l’IA s’est vendue en abonnement. 20 euros par mois, accès illimité, tout le monde est content. Ça ressemblait à un forfait téléphone.
C’est fini. GitHub Copilot passe à la facturation à l’usage en juin 2026. Les agents IA sont facturés au token, pas au mois. Et un agent agentique consomme beaucoup plus de tokens par tâche qu’un simple chatbot, parce qu’il raisonne, planifie, exécute et vérifie en boucle.
Le rapport Gartner est clair : le coût unitaire du token va baisser de 90 % d’ici 2030. Mais la consommation va exploser encore plus vite. Goldman Sachs estime que la consommation mondiale de tokens pourrait être multipliée par 24 d’ici 2030. La facture totale monte, même si chaque token coûte moins cher.
Bryan Catanzaro, vice-président deep learning chez Nvidia : « Pour mon équipe, le coût de la puissance de calcul dépasse de loin celui des salaires. »
Le piège du tokenmaxxing
On mesure mal, et ça coûte cher.
Un terme circule depuis quelques semaines dans la Silicon Valley : le « tokenmaxxing ». Des développeurs qui gonflent artificiellement leur consommation de tokens pour avoir l’air productifs. Amazon suit la consommation IA de ses équipes avec un objectif de 80 % d’adoption hebdomadaire. Meta récompensait ses plus gros consommateurs.
C’est comme mesurer la productivité d’un développeur au nombre de lignes de code. Plus il en écrit, plus il est « performant ». On sait tous comment ça finit.
En mission chez mes clients, je vois la même dérive commencer. Un dirigeant qui découvre l’IA agentique, distribue des licences, et mesure le succès au volume d’utilisation. Trois mois plus tard, la facture tombe et personne ne sait expliquer ce que ça a produit concrètement. C'est d'ailleurs souvent le même problème que le « on veut de l'IA » sans cadrage
Ce que je fais en mission (et sur mes propres systèmes)
Je construis des systèmes IA en production pour des entreprises françaises. Mon premier réflexe quand j’architecture un système, c’est le routage de modèles.
Tous les modèles ne se valent pas, et surtout ils ne coûtent pas la même chose. Le coût par tâche varie de x1 à x50 selon le modèle choisi. Pas besoin d’un V12 pour aller chercher le pain.
En pratique :
- Le tri, la classification, le parsing de documents : un modèle léger (Haiku, Mistral Small). Rapide, pas cher, suffisant.
- La rédaction courante, l’analyse de données, les synthèses : un modèle intermédiaire (Sonnet, Mistral Medium).
- L’architecture complexe, le raisonnement multi-étapes, les décisions critiques : le gros modèle (Opus, Mistral Large). Uniquement quand c’est nécessaire.
Sur mon propre système de production de contenu, j’ai un serveur MCP qui expose des outils fins à Claude. Quand l’IA a besoin de contexte, elle appelle un outil qui interroge la base et renvoie un résultat compact. Elle ne raisonne pas sur 2 000 lignes de texte brut. Chaque token est justifié.
5 réflexes pour ne pas cramer votre budget IA
- Ne mesurez jamais l’adoption au volume de tokens. Mesurez les résultats produits. Un agent qui consomme peu mais livre un livrable concret vaut mieux qu’un agent qui tourne en boucle.
- Routez chaque tâche vers le bon modèle. Listez vos cas d’usage IA. Pour chacun, identifiez le modèle le moins cher qui fait le travail. Testez. Vous allez diviser votre facture sans perdre en qualité.
- Filtrez ce qui entre dans le LLM. La moitié du coût vient du contexte inutile. Nettoyez les inputs, compressez, ne balancez pas 50 pages quand 10 lignes suffisent.
- Fixez un budget par équipe avant de déployer. Pas après. Un plafond mensuel par service force les équipes à prioriser les cas d’usage qui comptent.
- Considérez l’open source français. Mistral tourne en local ou sur des infrastructures françaises pour une fraction du coût des API américaines. La contrainte budgétaire pousse à mieux construire.
Ce que ça change pour les PME françaises
Les géants de la tech ont les moyens de cramer des millions en tokens avant de réagir. Pas une PME de 50 personnes. La contrainte oblige à penser le système avant de le déployer, à choisir le bon modèle plutôt que le plus gros. Les entreprises qui vont s’en sortir sont celles qui dépensent mieux, pas plus.
Veille IA
Un email par semaine, sans esbroufe
Tendances IA, décryptages sans jargon, et convictions sur la souveraineté technologique, directement dans votre boîte.
