Produit · Coût et FinOps
Voyez, attribuez et gouvernez vos dépenses en modèles
Deux modules au même endroit : un catalogue déclaré des modèles de votre parc — capacités, prix de liste, politique de routage — et une vue FinOps qui ventile les dépenses en tokens et en coût par modèle, fournisseur, agent, session, équipe et projet. Définissez des budgets et des seuils, lisez une projection au rythme actuel, et laissez les signaux de budget contrôler la résolution des modèles. Voir et gouverner le coût — sans qu’Olivares exécute votre inférence.
Dans le produit
Le tableau de bord des coûts
Une véritable capture d’écran, avec des données d’exemple. La vue exécutive : dépense cumulée, une projection au rythme actuel, le volume de tokens, les modèles gouvernés actifs, et un graphique de tendance des dépenses — ventilé pour que vous voyiez où va l’argent.
Ce que vous obtenez
Deux modules : le parc de modèles, et l’argent
Un catalogue des modèles que vous gouvernez et la politique qui les résout, associés à une vue des coûts qui attribue chaque micro-dollar.
Un catalogue déclaré de modèles
Les modèles de votre parc avec leurs capacités et leurs prix de liste, gouvernés de façon centralisée. Le prix est une référence déclarée et datée que vous éditez — vérifiez-la auprès du fournisseur ; nous ne la présentons jamais comme une vérité immuable.
Une politique de routage avec chaîne de repli
Définissez comment une requête se résout vers un modèle — par coût, latence, capacité ou modèle épinglé — avec une chaîne de repli /resolve. C’est la politique qui décide ; l’exécution de l’inférence est une étape distincte, provisionnée de façon explicite.
Les dépenses, attribuées
Dépenses en tokens et en coût ventilées par modèle, fournisseur, agent, session, équipe et projet. En interne, l’argent est exprimé en micro-USD entiers, si bien que les totaux tombent juste au centime près. Les ventilations par modèle et par fournisseur sont toujours présentes ; l’attribution plus fine dépend du connecteur raccordé.
Des budgets qui peuvent contrôler la résolution
Des budgets avec seuils, alertes et recommandations. Un budget dépassé peut contrôler la résolution des modèles — la bloquer ou la limiter — pour que les plafonds de coût s’appliquent au point de décision plutôt que de se découvrir sur la facture.
Ce qui est réel
Live pour voir et gouverner le coût — pas pour exécuter votre inférence
Nous sommes précis sur ce qu’est chaque chiffre, parce que les décisions financières en dépendent :
- Live : lecture, analyse et signalement de budget. Dépenses par modèle, fournisseur, agent, session, équipe et projet ; budgets avec seuils, alertes et recommandations ; et application des budgets, qui peut contrôler la résolution des modèles par blocage ou par limitation. Les ventilations par modèle et par fournisseur sont toujours alimentées.
- Lacunes honnêtes dans les données : le prix de liste est une référence déclarée et datée que vous maintenez — vérifiez-la auprès du fournisseur avant de vous en servir. La prévision est une projection linéaire au rythme actuel, pas un modèle prédictif. L’attribution par agent, par session et par équipe peut apparaître vide tant qu’un connecteur attribuant la session n’est pas raccordé — et un agrégat tronqué est affiché comme partiel, jamais comme un total exact. Nous ne déduisons aucun chiffre d’économies de cache à partir du flux de coût, donc nous n’en affichons aucun.
- Roadmap / jointure : la politique de routage se définit ici, mais l’exécution du routage — la passerelle qui appelle réellement un modèle — est un composant distinct. Le /execute des modèles est fermé par défaut et renvoie 503 sans provisionnement explicite. Olivares vous aide à voir et à gouverner le coût ; il n’exécute pas votre inférence à votre place.
Coût et FinOps — questions
D’où viennent les prix — sont-ils en direct depuis les fournisseurs ?
Non. Le prix du catalogue est un prix de liste déclaré : une référence datée que vous éditez et maintenez, pas un flux en direct. Il est là pour que les estimations de coût restent cohérentes, pas pour que vous le traitiez comme la vérité actuelle du fournisseur. Vérifiez-le auprès du fournisseur avant de prendre une décision sur cette base.
La prévision est-elle une prédiction de ce que nous allons dépenser ?
C’est une projection linéaire au rythme actuel — elle prolonge votre rythme de dépense présent, rien de plus. Ce n’est pas un modèle prédictif et elle ne tient compte ni de la saisonnalité, ni des changements planifiés, ni de quoi que ce soit que vous n’avez pas encore fait. Lisez-la comme « si rien ne change, voici la trajectoire ».
Pourquoi certains coûts par agent ou par équipe apparaissent-ils vides ?
Parce que cette attribution nécessite un connecteur qui rattache la dépense à la session, à l’agent ou à l’équipe dont elle relève. Tant que ce connecteur n’est pas raccordé, la ventilation reste honnêtement vide plutôt que devinée — et là où un agrégat est incomplet, il est signalé comme partiel, jamais présenté comme un total exact. Les ventilations par modèle et par fournisseur n’en dépendent pas et sont toujours présentes.
Olivares route-t-il et exécute-t-il mes appels aux modèles ?
Non. Vous définissez ici la politique de routage — par coût, latence, capacité ou modèle épinglé, avec une chaîne de repli /resolve — mais l’exécution de l’appel relève d’une passerelle distincte. Le /execute des modèles est fermé par défaut et renvoie 503 en l’absence de provisionnement explicite. Cette surface concerne le fait de voir et de gouverner le coût, pas qu’Olivares s’interpose sur votre chemin d’inférence.
Prenez le contrôle de vos dépenses en modèles
Déployez Olivares sur votre propre infrastructure, déclarez votre parc de modèles, attribuez chaque micro-dollar, et laissez les budgets contrôler la résolution avant que le coût ne soit engagé.