コンテンツへスキップ

プロダクト · コストとFinOps

モデル支出を可視化し、帰属させ、ガバナンスする

2つのモジュールを一箇所に集約します。一つは、自社環境内のモデルを宣言型でカタログ化したもの(機能、表示価格、ルーティングポリシー)。もう一つは、トークンとコストの支出をモデル・プロバイダー・エージェント・セッション・チーム・プロジェクト別に内訳化するFinOpsビューです。予算としきい値を設定し、ランレート予測を読み取り、予算シグナルでモデル解決にゲートを設けられます。これはコストを可視化しガバナンスするものであり、推論の実行はOlivaresの役割ではありません。

プロダクト内で

コストダッシュボード

実際のスクリーンショット、サンプルデータです。エグゼクティブ向けビューには、現時点までの支出、ランレート予測、トークン量、アクティブなガバナンス対象モデル、そして支出トレンドのグラフが表示されます。お金がどこに流れているかが見えるよう、内訳化されています。

実際のスクリーンショット
Olivaresのコストダッシュボード:支出とトークンの主要合計、ランレート予測、アクティブなガバナンス対象モデルの数、そして時系列の支出トレンドグラフを、サンプルデータで表示。

得られるもの

2つのモジュール:モデル資産と、お金

ガバナンス対象のモデルと、それを解決するポリシーをカタログ化し、すべてのマイクロドルを帰属させるコストビューと組み合わせます。

宣言型のモデルカタログ

自社環境内のモデルを、その機能と表示価格とともに中央で一元的にガバナンスします。価格はお客様が編集する、日付付きの宣言型リファレンスです。プロバイダーと照合して検証してください。私たちはこれを不変の真実として提示することはありません。

フォールバックチェーンを備えたルーティングポリシー

リクエストがどのモデルに解決されるかを、コスト・レイテンシ・機能・固定指定によって定義し、/resolve のフォールバックチェーンを設けます。これは決定を行うポリシーであり、推論の実行は明示的にプロビジョニングされる別個のステップです。

帰属された支出

トークンとコストの支出を、モデル・プロバイダー・エージェント・セッション・チーム・プロジェクト別に内訳化します。お金は内部的に整数のマイクロUSDで扱われるため、合計は正確に一致します。モデル別とプロバイダー別の内訳は常に存在します。より細かい帰属は、接続されたコネクターに依存します。

解決にゲートを設けられる予算

しきい値・アラート・推奨事項を備えた予算です。超過した予算はモデル解決にゲートを設けられ(ブロックまたはスロットリング)、コスト上限が請求書で発覚するのではなく、意思決定の時点で強制されます。

実際にできること

コストの可視化とガバナンスは稼働中 — お客様の推論を実行するものではありません

財務上の意思決定がそれに依存するため、私たちは各数値が何であるかを正確にお伝えします。

  • 稼働中:読み取り・分析・予算シグナリング。モデル・プロバイダー・エージェント・セッション・チーム・プロジェクト別の支出、しきい値・アラート・推奨事項を備えた予算、そしてブロックまたはスロットリングによってモデル解決にゲートを設けられる予算強制です。モデル別とプロバイダー別の内訳は常に値が入っています。
  • データにおける正直なギャップ:表示価格はお客様が保守する、日付付きの宣言型リファレンスです。それに基づいて行動する前に、プロバイダーと照合して検証してください。予測は現在のランレートでの線形射影であり、予測モデルではありません。エージェント別・セッション別・チーム別の帰属は、セッションを帰属させるコネクターが接続されるまで空のまま表示される場合があります。また、限定的な集計は正確な合計としてではなく、部分的なものとして表示されます。私たちはコストストリームからキャッシュ節約額を導出しないため、それを表示することもありません。
  • ロードマップ/接続ポイント:ルーティングポリシーはここで定義しますが、ルーティングの実行 — 実際にモデルを呼び出すゲートウェイ — は別個のコンポーネントです。モデルの /execute はデフォルトで拒否(deny-closed)され、明示的なプロビジョニングがなければ503を返します。Olivaresはコストの可視化とガバナンスを支援するものであり、お客様に代わって推論を実行するものではありません。

コストとFinOps — よくある質問

価格はどこから来るのですか — プロバイダーからのライブ価格ですか?

いいえ。カタログ内の価格は宣言型のリスト価格です。お客様が編集・保守する日付付きのリファレンスであり、ライブフィードではありません。これはコスト見積もりの一貫性を保つために存在するものであり、プロバイダーの現在の真実として扱うためのものではありません。それに基づいて意思決定を行う前に、プロバイダーと照合して検証してください。

予測は当社が支出する金額の予言ですか?

それは現在のランレートでの線形射影です — 現在の支出ペースを先に延長したものにすぎません。予測モデルではなく、季節変動・計画中の変更・まだ実施していない事柄を考慮しません。「何も変わらなければ、これが軌道である」と読んでください。

なぜエージェント別やチーム別のコストの一部が空で表示されるのですか?

その帰属には、支出が属するセッション・エージェント・チームをタグ付けするコネクターが必要だからです。それが接続されるまで、内訳は推測されるのではなく正直に空のままになります。そして集計が不完全な場合は、正確な合計として提示されるのではなく部分的と表示されます。モデル別とプロバイダー別の内訳はこれに依存せず、常に存在します。

Olivaresは私のモデル呼び出しをルーティングし、実行しますか?

いいえ。ルーティングポリシーはここで定義します — コスト・レイテンシ・機能・固定指定によって、/resolve のフォールバックチェーンとともに — が、呼び出しの実行は別個のゲートウェイコンポーネントです。モデルの /execute はデフォルトで拒否(deny-closed)され、明示的にプロビジョニングされない限り503を返します。この画面はコストの可視化とガバナンスに関するものであり、Olivaresがお客様の推論経路に介在することではありません。

モデル支出を掌握する

Olivaresをお客様自身のインフラに展開し、モデル資産を宣言し、すべてのマイクロドルの帰属を実現し、コストが発生する前に予算で解決にゲートを設けましょう。