Consommation de ressources

Veridi, Pragma et Praxis fonctionnent tous au-dessus d’un grand modèle de langage (actuellement Claude, d’Anthropic). Ce modèle consomme de l’électricité et — selon l’emplacement du centre de données — de l’eau de refroidissement. Les lecteurs devraient pouvoir mettre ces coûts en balance avec la valeur que les méthodologies apportent. Cette page documente donc ce que nous pouvons estimer et signale ce que nous ne pouvons pas.

Ces chiffres sont dérivés de sources externes à partir des divulgations publiques des grands fournisseurs et de la littérature plus large sur l’énergie consommée par l’IA. Anthropic n’a pas publié de chiffres par jeton sur l’énergie ou l’eau. Si l’entreprise le fait un jour, attendez-vous à ce que les chiffres ci-dessous soient révisés d’un facteur de 1,5 à 2×.

Une référence empirique plus récente

En 2026, des chercheurs de Microsoft ont publié Oviedo et al., « Energy use of AI inference, efficiency pathways, and test-time scaling » dans la revue Joule (préimpression en libre accès sur arXiv). À partir de télémétrie de production plutôt que d’extrapolations à partir de bancs d’essai, ils rapportent :

  • Inférence typique : médiane d’environ 0,34 Wh par requête (intervalle interquartile 0,18–0,67) pour des modèles de pointe sur du matériel de classe H100
  • Inférence avec mise à l’échelle au moment du test (15× plus de jetons par requête) : médiane d’environ 4,3 Wh
  • Leur thèse principale : les estimations hors production de l’énergie d’inférence des grands modèles de langage surestiment l’énergie réelle de production d’un facteur de 4 à 20×

Note sur les conflits d’intérêts. Microsoft a un intérêt commercial direct à ce que le public perçoive la consommation de ressources de l’IA comme faible. Microsoft est un investisseur majeur dans OpenAI, exploite l’infrastructure Azure qui dessert une part substantielle du trafic des modèles de pointe, et bénéficierait d’environnements réglementaires et grand public qui considéreraient la consommation d’énergie et d’eau de l’IA comme surestimée. Cela n’invalide pas la méthodologie — la télémétrie de production reste une meilleure preuve que les bancs d’essai extrapolés — mais le cadrage spécifique « surestimation d’un facteur de 4 à 20× » s’aligne sur les incitations commerciales de l’employeur des auteurs et mérite un examen supplémentaire. Une réplication indépendante sur l’infrastructure d’Anthropic, d’AWS ou de GCP par des chercheurs sans intérêt commercial dans la réponse renforcerait considérablement le résultat.

Les chiffres de cette page sont des estimations hors production — ils appliquent les fourchettes par MJet de la littérature plus large aux décomptes de jetons mesurés de Veridi, plutôt que de mesurer directement le matériel de production. Selon le raisonnement d’Oviedo et al., les estimations centrales ci-dessous pourraient être trop élevées d’environ 4×. Avec la mise en garde sur les conflits d’intérêts ci-dessus, le cadrage le plus honnête est que la valeur réelle se situe vraisemblablement quelque part entre les estimations centrales actuelles de cette page et les chiffres de Microsoft. Nous n’avons pas encore recalibré cette page, et nous présentons les fourchettes existantes comme des estimations externes à borne supérieure plutôt que comme une vérité fondamentale.

La bibliographie de l’article constitue également un excellent point d’entrée vers la littérature plus large sur l’énergie d’inférence de l’IA, et est recommandée à tout lecteur qui souhaite consulter des sources primaires au-delà de celles citées ici.


Par million de jetons

MesureEntrée (par MJet)Sortie (par MJet)
Énergie (IC 80 %)40–280 Wh300–1 800 Wh
Énergie (estimation centrale)~80–150 Wh~550–1 000 Wh
Eau de refroidissement (IC 80 %)0,004–0,22 L0,03–1,4 L
Eau de refroidissement (estimation centrale)~0,02–0,06 L~0,10–0,40 L

« MJet » = un million de jetons. Un jeton correspond approximativement aux trois quarts d’un mot anglais. Une évaluation Veridi de niveau Standard produit typiquement plusieurs milliers de jetons en sortie ; une évaluation de niveau Complet ou Forensique peut en produire des dizaines de milliers.

La sortie est nettement plus coûteuse que l’entrée parce que le modèle effectue plus de calculs par jeton produit que par jeton ingéré. Le rapport sortie/entrée en énergie observé dans la littérature se situe entre 5 et 10× ; nos estimations centrales se situent autour de 6 à 7×, ce qui correspond au rapport de prix d’Anthropic de 3 $ en entrée / 15 $ en sortie. Cette correspondance est un test de cohérence, pas une preuve : la tarification reflète aussi la marge et la demande, pas seulement le coût de calcul.


Ce que cela représente par évaluation

Les chiffres ci-dessus sont exprimés par million de jetons, mais une évaluation Veridi individuelle n’en représente qu’une petite fraction. Un lot réel de 49 évaluations en production a produit la consommation suivante :

Par évaluation (échantillon de 49 affirmations)Jetons (moyenne)
Entrée fraîche~23 500
Sortie~2 400
Lecture de cache~582 700
Écriture de cache~47 300
Coût d’API direct~0,46 $ US

L’essentiel du volume provient des lectures de cache. Les fichiers de la méthodologie — arbres de décision, hiérarchie des sources, contre-mesures anti-manipulation, Indice de fiabilité institutionnelle — sont volumineux ; ils sont chargés une seule fois dans le cache de requêtes d’Anthropic, puis réutilisés pour de nombreuses requêtes. Sans la mise en cache, la même charge de travail coûterait environ 4 fois plus cher en dollars et en énergie (~2,00 $ par évaluation, ~55–100 Wh).

Les lectures de cache consomment beaucoup moins de calcul que l’entrée fraîche — il s’agit surtout de récupération en mémoire plutôt que d’un préremplissage complet. Nous estimons leur coût énergétique à environ 10 % de celui de l’entrée fraîche (correspondant à leur ratio de prix de 10 %) et celui des écritures de cache à environ 125 % (correspondant aussi au ratio de prix). En multipliant les jetons mesurés par les fourchettes par MJet :

Par évaluationIntervalle de confiance 80 %Estimation centrale
Énergie6–44 Wh~13–24 Wh
Eau de refroidissement1–34 mL~3–10 mL

Pour donner un ordre de grandeur : 18 Wh (point médian central pour l’énergie) correspond à environ trois heures et demie d’usage d’une ampoule DEL de 5 W, ou environ 1,5 charge complète de téléphone intelligent. 6 mL d’eau de refroidissement (point médian central) équivaut à environ une cuillère à thé — même si une requête routée vers un centre de données en zone hydriquement tendue (l’Arizona, par exemple) peut facilement multiplier ce chiffre par dix.

Ces chiffres doivent être interprétés comme des ordres de grandeur. À elle seule, l’hypothèse sur l’énergie du cache peut faire varier le total énergétique de 30 à 50 %, et la géographie du routage peut multiplier le chiffre d’eau par 10.

Les requêtes de suivi coûtent beaucoup moins cher. Dans le même lot, quatre requêtes de suivi (raffinements d’évaluations existantes) ont consommé en moyenne ~6 000 jetons d’entrée, ~330 jetons de sortie, et environ 0,02 $ en coût d’API direct — parce qu’elles réutilisent un contexte méthodologique déjà mis en cache et ne rechargent pas l’arbre de décision complet.


D’où vient le chiffre de l’eau

L’eau de refroidissement dépend de deux facteurs : la quantité d’électricité consommée par le modèle, et l’efficacité avec laquelle le centre de données convertit cette électricité en travail utile sans pertes par évaporation. Ce second facteur est le Water Usage Effectiveness (WUE), exprimé en litres par kWh.

WUE sur site rapporté par les grands fournisseurs auxquels Anthropic est le plus susceptible de recourir :

Catégorie de centre de donnéesWUE sur site (L/kWh)
Meilleures installations récentes (circuit fermé, immersion, refroidissement par plaque froide)~0,05–0,20
Moyenne de la flotte typique~0,15–0,40
Anciens centres refroidis par air avec tours d’évaporation~0,5–1,8
AWS, moyenne mondiale (rapportée 2023)0,18
Microsoft, flotte mondiale~0,30
Google, flotte mondiale (2024)~0,91

Le chiffre de Google est plus élevé parce que Google s’appuie davantage sur le refroidissement par évaporation. La répartition de la charge de calcul d’Anthropic entre AWS, GCP et d’autres fournisseurs n’étant pas publique, nous utilisons une fourchette de 0,10 à 0,80 L/kWh pour le WUE effectif sur site, avec une estimation centrale de 0,20 à 0,40 L/kWh. La confiance dans cette seule hypothèse de WUE est d’environ 55 %.

Les chiffres d’eau de refroidissement du tableau ci-dessus sont obtenus en multipliant les chiffres d’énergie par cette fourchette de WUE.


Confiance

AffirmationConfiance que l’intervalle contient la valeur réelle
Énergie (IC 80 %)~75 %
Eau de refroidissement (IC 80 %)~65 %

L’intervalle de l’eau est moins fiable que celui de l’énergie parce que (a) le WUE varie davantage que l’efficacité énergétique, et (b) l’attribution précise des centres de données d’Anthropic est opaque, de sorte que la population sur laquelle nous établissons la moyenne est elle-même incertaine.


Mises en garde à connaître

Les jetons de raisonnement adaptatif comptent comme des jetons de sortie. Quand le modèle produit un raisonnement interne avant la réponse visible par l’utilisateur, ces jetons de raisonnement sont facturés et comptabilisés comme des jetons de sortie. Une requête qui produit 500 jetons de raisonnement avant 300 jetons de sortie visibles paie le coût énergétique de la sortie sur 800 jetons. Cela ne change pas les chiffres par MJet, mais cela signifie que la consommation totale de ressources par requête est plus élevée que ce que les estimations naïves laissent penser.

L’eau de refroidissement varie fortement selon la géographie. Une requête routée vers un centre de données de l’Oregon (climat frais, énergie hydroélectrique, refroidissement économe en eau) plutôt que vers un centre de l’Arizona (chaud, refroidissement par évaporation, région en stress hydrique) peut différer d’environ 10× sur la mesure de l’eau. Les fourchettes ci-dessus tentent de couvrir cette variation, mais le chiffre réel pour une requête donnée dépend d’un routage que nous ne pouvons pas observer.

Le rapport sortie/entrée est lui-même une estimation. Si le rapport réel pour un modèle donné se situe à l’extrémité haute de la fourchette de 5 à 12× rapportée dans la littérature, les chiffres de sortie augmentent d’environ 15 % et les chiffres d’entrée diminuent d’environ 30 %. Les intervalles à 80 % cherchent à absorber cette incertitude.

Ces chiffres ne sont pas validés par Anthropic. Aucune divulgation de première main d’Anthropic ne les confirme. La référence d’Oviedo et al. ci-dessus (télémétrie de production de Microsoft) constitue l’ancrage empirique le plus proche actuellement disponible, et elle tire l’estimation centrale vers le bas d’un facteur d’environ 4× — voir toutefois la mise en garde sur les conflits d’intérêts à cet endroit. Si Anthropic publie elle-même des chiffres par jeton, attendez-vous à un nouveau décalage dans une direction ou l’autre, dont l’ampleur dépendra de la mesure dans laquelle le déploiement d’Anthropic diffère de celui de Microsoft. Cette page sera mise à jour lorsque de meilleurs chiffres seront disponibles.


Ce qui resserrerait ces estimations

Les données manquantes qui nous permettraient de remplacer des fourchettes par des estimations ponctuelles sont :

  • La répartition matérielle réelle d’Anthropic entre les accélérateurs H100, H200, Blackwell et Trainium
  • Le nombre exact de paramètres du modèle servant chaque requête (les niveaux Sonnet, Opus et Haiku diffèrent)
  • La distribution géographique du trafic d’inférence entre les centres de données

Aucune de ces informations n’est publique au moment où ces lignes sont écrites. Si elles le deviennent, cette page sera mise à jour et la version sera notée dans le journal des modifications.


Sources et méthodologie

Les chiffres ci-dessus sont synthétisés à partir de :

  • Oviedo, Kazhamiaka, Choukse, Kim, Luers, Nakagawa, Bianchini et Lavista Ferres (Microsoft), « Energy use of AI inference, efficiency pathways, and test-time scaling », Joule (2026) — chiffres énergétiques par requête fondés sur des données de production et bibliographie substantielle sur l’énergie d’inférence de l’IA. Préimpression en libre accès sur arXiv
  • Rapports de durabilité d’AWS, Google et Microsoft (années de référence 2023–2024) pour le WUE à l’échelle des flottes
  • Divulgations publiques des grands fournisseurs sur l’efficacité du refroidissement en circuit fermé, par immersion et par plaque froide
  • Littérature universitaire et industrielle publiée sur l’énergie d’inférence par jeton pour les grands modèles de langage de type Transformer
  • Tarification publique d’Anthropic comme signal corroborant (et non comme source primaire) sur le rapport de calcul entrée/sortie

Cette page ne cite pas délibérément une source unique faisant autorité, parce qu’aucune source unique faisant autorité n’existe pour la question précise « combien coûte un million de jetons d’inférence d’Anthropic en énergie et en eau ». Il s’agit d’une synthèse assortie de bornes de confiance divulguées, dans le même esprit que le reste de la méthodologie.