Zum Inhalt springen

Produkt · Cost & FinOps

Ihre Modellausgaben sehen, zuordnen und steuern

Zwei Module an einem Ort: ein deklarierter Katalog der Modelle in Ihrem Bestand — Fähigkeiten, Listenpreise, Routing-Policy — und eine FinOps-Sicht, die Token- und Kostenausgaben nach Modell, Anbieter, Agent, Session, Team und Projekt aufschlüsselt. Legen Sie Budgets und Schwellenwerte fest, lesen Sie eine Run-Rate-Hochrechnung und lassen Sie Budget-Signale die Modellauflösung steuern. Kosten sehen und steuern — nicht Olivares, das Ihre Inferenz betreibt.

Im Produkt

Das Kosten-Dashboard

Ein echter Screenshot, Beispieldaten. Die Management-Sicht: Ausgaben bis heute, eine Run-Rate-Hochrechnung, das Token-Volumen, die aktiv gesteuerten Modelle und ein Ausgabentrend-Diagramm — so aufgeschlüsselt, dass Sie sehen, wohin das Geld fließt.

Echter Screenshot
Olivares Kosten-Dashboard: Hauptausgaben und Token-Summen, eine Run-Rate-Hochrechnung, die Anzahl aktiv gesteuerter Modelle und ein Ausgabentrend-Diagramm über die Zeit, befüllt mit Beispieldaten.

Was Sie erhalten

Zwei Module: der Modellbestand und das Geld

Ein Katalog der Modelle, die Sie steuern, und die Policy, die sie auflöst — gepaart mit einer Kostensicht, die jeden Mikro-Dollar zuordnet.

Ein deklarierter Modellkatalog

Die Modelle in Ihrem Bestand mit ihren Fähigkeiten und Listenpreisen, zentral gesteuert. Die Preise sind eine deklarierte, datierte Referenz, die Sie selbst pflegen — verifizieren Sie sie beim Anbieter; wir geben sie niemals als unveränderliche Wahrheit aus.

Routing-Policy mit Fallback-Kette

Definieren Sie, wie eine Anfrage zu einem Modell aufgelöst wird — nach Kosten, Latenz, Fähigkeit oder fest verankert — mit einer /resolve-Fallback-Kette. Dies ist die Policy, die entscheidet; das Ausführen der Inferenz ist ein separater, ausdrücklich bereitgestellter Schritt.

Ausgaben, zugeordnet

Token- und Kostenausgaben aufgeschlüsselt nach Modell, Anbieter, Agent, Session, Team und Projekt. Geldbeträge werden intern als ganzzahlige Mikro-USD geführt, sodass Summen exakt aufgehen. Aufschlüsselungen nach Modell und Anbieter sind stets vorhanden; eine feinere Zuordnung hängt vom angebundenen Connector ab.

Budgets, die die Auflösung steuern können

Budgets mit Schwellenwerten, Alerts und Empfehlungen. Ein überschrittenes Budget kann die Modellauflösung steuern — blockieren oder drosseln — sodass Kostengrenzen am Entscheidungspunkt durchgesetzt werden, statt erst auf der Rechnung aufzutauchen.

Was real ist

Live zum Sehen und Steuern von Kosten — nicht zum Betreiben Ihrer Inferenz

Wir benennen präzise, was jede Zahl ist, denn Finanzentscheidungen hängen davon ab:

  • Live: Lesen, Analyse und Budget-Signalisierung. Ausgaben nach Modell, Anbieter, Agent, Session, Team und Projekt; Budgets mit Schwellenwerten, Alerts und Empfehlungen; sowie eine Budget-Durchsetzung, die die Modellauflösung per Blockieren oder Drosseln steuern kann. Aufschlüsselungen nach Modell und Anbieter sind stets befüllt.
  • Ehrliche Lücken in den Daten: Listenpreise sind eine deklarierte, datierte Referenz, die Sie selbst pflegen — verifizieren Sie sie beim Anbieter, bevor Sie darauf reagieren. Die Prognose ist eine lineare Hochrechnung der aktuellen Run-Rate, kein Vorhersagemodell. Die Zuordnung pro Agent, pro Session und pro Team kann leer erscheinen, bis ein Session-zuordnender Connector angebunden ist — und ein abgeschnittener Aggregatwert wird als unvollständig ausgewiesen, niemals als exakte Summe. Wir leiten keine Cache-Einsparungskennzahl aus dem Kostenstrom ab und zeigen daher auch keine an.
  • Roadmap / Schnittstelle: Die Routing-Policy wird hier definiert, doch die Routing-Ausführung — das Gateway, das ein Modell tatsächlich aufruft — ist eine separate Komponente. Model /execute ist deny-closed und liefert ohne ausdrückliche Bereitstellung 503 zurück. Olivares hilft Ihnen, Kosten zu sehen und zu steuern; es betreibt Ihre Inferenz nicht für Sie.

Cost & FinOps — Fragen

Woher stammen die Preise — kommen sie live von den Anbietern?

Nein. Die Preise im Katalog sind ein deklarierter Listenpreis: eine datierte Referenz, die Sie selbst bearbeiten und pflegen, kein Live-Feed. Sie ist dafür da, dass Kostenschätzungen konsistent sind, nicht damit Sie sie als den aktuellen Stand beim Anbieter behandeln. Verifizieren Sie sie beim Anbieter, bevor Sie eine Entscheidung darauf stützen.

Ist die Prognose eine Vorhersage dessen, was wir ausgeben werden?

Es ist eine lineare Hochrechnung der aktuellen Run-Rate — sie schreibt Ihre gegenwärtige Ausgabenrate fort, mehr nicht. Es ist kein Vorhersagemodell und berücksichtigt weder Saisonalität noch geplante Änderungen oder etwas, das Sie noch nicht getan haben. Lesen Sie sie als „wenn sich nichts ändert, ist dies der Verlauf“.

Warum werden manche Kosten pro Agent oder pro Team als leer angezeigt?

Weil diese Zuordnung einen Connector benötigt, der Ausgaben mit der Session, dem Agent oder dem Team kennzeichnet, zu der sie gehören. Solange dieser nicht angebunden ist, bleibt die Aufschlüsselung ehrlich leer, statt geraten zu werden — und wo ein Aggregatwert unvollständig ist, wird er als unvollständig ausgewiesen, nie als exakte Summe. Aufschlüsselungen nach Modell und Anbieter hängen nicht davon ab und sind stets vorhanden.

Routet und betreibt Olivares meine Modellaufrufe?

Nein. Sie definieren hier die Routing-Policy — nach Kosten, Latenz, Fähigkeit oder fest verankert, mit einer /resolve-Fallback-Kette — doch das Ausführen des Aufrufs ist eine separate Gateway-Komponente. Model /execute ist deny-closed und liefert 503 zurück, sofern es nicht ausdrücklich bereitgestellt wird. Bei dieser Oberfläche geht es darum, Kosten zu sehen und zu steuern, nicht darum, dass Olivares in Ihrem Inferenzpfad sitzt.

Übernehmen Sie die Kontrolle über Ihre Modellausgaben

Betreiben Sie Olivares auf Ihrer eigenen Infrastruktur, deklarieren Sie Ihren Modellbestand, ordnen Sie jeden Mikro-Dollar zu und lassen Sie Budgets die Auflösung steuern, bevor die Kosten anfallen.