LLM Bastion Logo
LLMBastion Blog
Performances

Account Stacking : L'art de gérer le pooling de clés d'API LLM sans se faire ban

G

Gary Gitton

5 min read
Account Stacking : L'art de gérer le pooling de clés d'API LLM sans se faire ban

Account Stacking : L’art de gérer le pooling de clés d’API LLM sans se faire ban

Faire du “Vibe Coding” ou lancer un agent autonome de temps en temps pour écrire un script, c’est facile. Mais lorsque vous commencez à déployer de véritables flottes d’agents autonomes qui collaborent en parallèle sur un projet (comme notre architecture avec Antigravity), vous vous heurtez très vite à un mur de briques invisible : les Rate Limits (erreurs HTTP 429).

Chaque agent envoie des dizaines de requêtes de contexte volumineuses par minute. En moins de deux minutes, vos quotas mensuels ou vos limites de requêtes par minute (RPM) s’effondrent. C’est là qu’intervient la technique de l’Account Stacking (ou pooling de clés d’API).

1. Le Problème : La Limite Physique du Compte Unique

Les fournisseurs de LLM (OpenAI, Anthropic) brident les comptes de manière stricte, surtout sur les paliers de démarrage (Tier 1 ou Tier 2). Les limites s’appliquent à la fois au nombre de requêtes (RPM) et au nombre de tokens par minute (TPM).

Si 5 agents autonomes analysent simultanément une base de code de 50 fichiers, ils saturent instantanément les TPM alloués. La réponse standard d’un fournisseur est de vous renvoyer une erreur 429, paralysant le travail de vos agents en plein milieu de leur réflexion. Payer un plan Enterprise dédié pour chaque conteneur d’agent est hors de prix.

La solution pragmatique consiste à mutualiser et distribuer la charge sur plusieurs clés d’API réparties sur différents comptes : c’est le clés-pooling.

2. L’Architecture d’un Pool de Clés (Account Stacking)

L’implémentation de la rotation de clés au niveau de l’application cliente est une mauvaise pratique qui complique le code et éparpille les secrets. Ce mécanisme doit être déporté et géré de manière autonome par votre LLM Gateway.

Une architecture d’Account Stacking efficace repose sur quatre piliers :

A. Le Registre de Clés Virtuelles

La Gateway n’expose jamais les vraies clés d’API aux agents. Ces derniers utilisent une clé virtuelle unique émise par la Gateway (ex: sk-bastion-prod-xyz). C’est la Gateway qui gère en interne la correspondance avec le pool de clés physiques réelles.

B. Algorithmes de Rotation

Lorsqu’une requête arrive, la Gateway choisit la clé d’API physique la plus adaptée selon différentes stratégies :

  • Least-Recently-Used (LRU) : Sélectionne la clé qui a le plus “dormi” pour maximiser les chances qu’elle soit en dessous des limites TPM du fournisseur.
  • Least-Token-Used (LTU) : Calcule en temps réel le nombre cumulé de tokens envoyés par clé sur la dernière minute glissante pour éviter activement les dépassements.
  • Round-Robin simple : Répartit équitablement le nombre d’appels.

C. La Surcharge Dynamique (Precedence Routing)

Toutes les requêtes n’ont pas la même importance. Un agent en tâche de fond sur la génération de documentation peut tolérer un délai de traitement, alors qu’une action synchrone initiée par l’utilisateur final exige une latence minimale. La Gateway doit être capable d’attribuer dynamiquement les clés les plus haut de gamme (Tier supérieur) aux requêtes prioritaires.

3. Éviter le Bannissement : L’Élasticité Responsable

Le danger du multi-account stacking est de violer les conditions d’utilisation des fournisseurs si le pooling est utilisé de façon malveillante pour contourner des sanctions. Une Gateway responsable doit intégrer ces règles :

  1. Backoff exponentiel centralisé : Si une clé du pool reçoit une erreur 429, elle doit être immédiatement marquée comme “en quarantaine” pour une durée déterminée, et la requête doit être rejouée sur une autre clé saine de façon transparente.
  2. Lissage du trafic (Rate Limiting sortant) : Mettre en attente asynchrone les requêtes secondaires des agents plutôt que de forcer le passage et de risquer un blocage d’IP.

En centralisant la gestion des quotas au niveau de votre gateway LLMBastion, vous offrez à vos agents autonomes une puissance de calcul virtuellement illimitée, tout en gardant une visibilité totale sur l’utilisation et les coûts de vos jetons.

#Account Stacking #Rate Limits #Routing #FinOps