Naar inhoud

Product · Cost & FinOps

Uw modelkosten zien, toewijzen en beheersen

Twee modules op één plek: een gedeclareerde catalogus van de modellen in uw landschap — capaciteiten, lijstprijzen, routeringsbeleid — en een FinOps-weergave die token- en kostenverbruik uitsplitst naar model, provider, agent, sessie, team en project. Stel budgetten en drempelwaarden in, lees een run-rate-projectie en laat budgetsignalen de modelresolutie reguleren. Kosten zien en beheersen — niet Olivares die uw inference draait.

In het product

Het kostendashboard

Een echte schermafbeelding, met voorbeeldgegevens. De executive-weergave: kosten tot nu toe, een run-rate-projectie, tokenvolume, de actieve beheerde modellen en een grafiek met de kostentrend — uitgesplitst zodat u kunt zien waar het geld naartoe gaat.

Echte screenshot
Olivares-kostendashboard: totale kosten en tokentotalen in het oog springend, een run-rate-projectie, een telling van actieve beheerde modellen en een grafiek met de kostentrend in de tijd, gevuld met voorbeeldgegevens.

Wat u krijgt

Twee modules: het modellandschap en het geld

Een catalogus van de modellen die u beheert en het beleid dat ze resolveert, gekoppeld aan een kostenweergave die elke micro-dollar toewijst.

Een gedeclareerde modelcatalogus

De modellen in uw landschap met hun capaciteiten en lijstprijzen, centraal beheerd. De prijs is een gedeclareerde, gedateerde referentie die u zelf bewerkt — verifieer deze bij de provider; we presenteren haar nooit als onveranderlijke waarheid.

Routeringsbeleid met een fallback-keten

Bepaal hoe een verzoek naar een model wordt geresolveerd — op basis van kosten, latency, capaciteit of vastgepind — met een /resolve fallback-keten. Dit is het beleid dat beslist; het draaien van de inference is een aparte, expliciet ingerichte stap.

Kosten, toegewezen

Token- en kostenverbruik uitgesplitst naar model, provider, agent, sessie, team en project. Geldbedragen zijn intern integer micro-USD, zodat totalen exact kloppen. Uitsplitsingen naar model en provider zijn altijd aanwezig; fijnere toewijzing hangt af van de aangesloten connector.

Budgetten die resolutie kunnen reguleren

Budgetten met drempelwaarden, waarschuwingen en aanbevelingen. Een overschreden budget kan de modelresolutie reguleren — blokkeren of afknijpen — zodat kostenlimieten worden afgedwongen op het beslismoment, en niet pas op de factuur worden ontdekt.

Wat echt is

Live om kosten te zien en te beheersen — niet om uw inference te draaien

We zijn precies over wat elk cijfer is, omdat financiële beslissingen ervan afhangen:

  • Live: lezen, analyse en budgetsignalering. Kosten naar model, provider, agent, sessie, team en project; budgetten met drempelwaarden, waarschuwingen en aanbevelingen; en budgethandhaving die de modelresolutie kan reguleren door te blokkeren of af te knijpen. Uitsplitsingen naar model en provider zijn altijd gevuld.
  • Eerlijke hiaten in de data: de lijstprijs is een gedeclareerde, gedateerde referentie die u zelf onderhoudt — verifieer deze bij de provider voordat u ernaar handelt. De voorspelling is een lineaire projectie op de huidige run-rate, geen voorspellend model. Toewijzing per agent, per sessie en per team kan leeg blijven totdat een sessie-toewijzende connector is aangesloten — en een afgekapt aggregaat wordt als gedeeltelijk getoond, nooit als een exact totaal. We leiden geen cache-besparingscijfer af uit de kostenstroom, dus tonen we er ook geen.
  • Roadmap / overgang: het routeringsbeleid wordt hier gedefinieerd, maar de routeringsuitvoering — de gateway die daadwerkelijk een model aanroept — is een aparte component. Model /execute is deny-closed en geeft 503 terug zonder expliciete inrichting. Olivares helpt u kosten te zien en te beheersen; het draait uw inference niet voor u.

Cost & FinOps — vragen

Waar komen de prijzen vandaan — zijn ze live van de providers?

Nee. De prijsstelling in de catalogus is een gedeclareerde lijstprijs: een gedateerde referentie die u zelf bewerkt en onderhoudt, geen live feed. Die staat er zodat kostenramingen consistent zijn, niet zodat u haar als de actuele waarheid van de provider kunt beschouwen. Verifieer haar bij de provider voordat u er een beslissing op baseert.

Is de voorspelling een prognose van wat we gaan uitgeven?

Het is een lineaire projectie op de huidige run-rate — die trekt uw huidige kostentempo door, meer niet. Het is geen voorspellend model en houdt geen rekening met seizoensinvloeden, geplande wijzigingen of iets wat u nog niet heeft gedaan. Lees het als “als er niets verandert, is dit de koers”.

Waarom worden sommige kosten per agent of per team als leeg weergegeven?

Omdat die toewijzing een connector vereist die kosten labelt met de sessie, agent of het team waartoe ze behoren. Zolang die niet is aangesloten, is de uitsplitsing eerlijk leeg in plaats van geraden — en waar een aggregaat onvolledig is, wordt het als gedeeltelijk gelabeld, nooit als een exact totaal gepresenteerd. Uitsplitsingen naar model en provider zijn hier niet van afhankelijk en zijn altijd aanwezig.

Verzorgt Olivares de routering en uitvoering van mijn modelaanroepen?

Nee. U definieert hier het routeringsbeleid — op basis van kosten, latency, capaciteit of vastgepind, met een /resolve fallback-keten — maar het uitvoeren van de aanroep is een aparte gateway-component. Model /execute is deny-closed en geeft 503 terug tenzij het expliciet is ingericht. Dit onderdeel gaat over het zien en beheersen van kosten, niet over Olivares die in uw inference-pad zit.

Neem controle over uw modelkosten

Implementeer Olivares op uw eigen infrastructuur, declareer uw modellandschap, wijs elke micro-dollar toe en laat budgetten de resolutie reguleren voordat de kosten worden gemaakt.