コンテンツへスキップ

プロダクト · Evals & サンドボックス

エージェント品質を測定し、ゲートする 場所

Evals は、エージェント出力の品質・リグレッション・ドリフトをスコアリングし、リリースを出荷前にゲートできる画面です。フレームワーク、スコアカード、コンソールは実在し、接続済みです。まだ稼働していないのは、それを実トラフィックで意味あるものにする部分、すなわちサンプリング用に接続されたセッションソースと、サンドボックスでの順序付きセッションリプレイです。これは完成した主張ではなく次の一手であるため、ここでは率直にそう述べています。

プロダクトの中身

Evals コンソール

本物のスクリーンショット、サンプルデータです。エージェント出力に対するスコアカード、リグレッション実行、プロンプトの A/B、ドリフト検知に加え、デプロイ前後の比較のための隔離されたサンドボックスを備えています。表示されているデータはシードされたもので、実際のセッションから取得したものではありません。

実際のスクリーンショット
Olivares の Evals コンソール:エージェント出力品質のスコアカード、リグレッションテストの実行、プロンプトの A/B 比較、ドリフト検知に加え、デプロイ前後の比較とセッションリプレイのための隔離されたサンドボックスパネルを備え、サンプルデータが投入された状態。

できること

エージェント品質のためのフレームワーク

出力品質のモニタリング、リグレッションテスト、隔離されたサンドボックス。変更の前後でエージェントの挙動をスコアリングする場所です。

スコアカードと出力品質のモニタリング

定義したチェックに照らしてエージェント出力をスコアリングし、品質を時系列で監視します。フレームワーク、スコアカード、コンソールは接続済みで、セッションソースが接続された時点で測定結果が実データになります。

リグレッションテストとプロンプトの A/B

変更に対してスイートを再実行し、出荷前にリグレッションを検出します。さらに同一の入力でプロンプトのバリアント A と B を比較し、変更を直感ではなく証拠に基づいて評価します。

ドリフト検知

エージェント出力が時間の経過とともに期待されるベースラインから逸脱したことを検知し、品質の劣化を本番で発見するのではなく、事前に可視化します。

隔離されたサンドボックス

デプロイ前後の比較のための隔離されたテスト環境で、セッションリプレイに対応します。環境は接続済みですが、順序付きリプレイには順序付きの履歴ソースが必要であり、これは後述のロードマップ項目です。

今、本当にできること

フレームワークとコンソールは実在し、実トラフィックのサンプリングと順序付きリプレイが次の一手です

この画面はプロダクトの中で最も接ぎ目が多いため、率直にお伝えします。この正直さこそが機能であり、言い訳ではありません。

  • 稼働中:Evals フレームワーク、スコアカード、コンソール、リグレッション実行、プロンプトの A/B、ドリフト検知は構築済みで接続されており、サンドボックスはデプロイ前後の比較のための隔離された環境です。
  • ロードマップ段階(未稼働):実際の Evals サンプリングには接続されたセッションソースが必要で、それがなければ実サンプリングはまだ存在せず、その周囲のフレームワークがあるだけです。また、サンドボックスのセッションリプレイは、再生元となる順序付きの履歴ソースがないため現状では機能が低下しています。いずれも近い将来の一段階の作業であり、完成した機能ではありません。出荷前にこれらを主張することはしません。
  • 姿勢:適応型レッドチーミングエンジンは v1 以降です。v1 では、まだ存在しないエンジンを誇張するのではなく、補完的なコントロールとともに姿勢を記述します。

Evals & サンドボックス — よくある質問

今日、実際のエージェントトラフィックに対して Evals を実行できますか?

まだできません。フレームワーク、スコアカード、コンソールは接続済みで、シードされたサンプルデータに対して動作しますが、実際の Evals サンプリングには接続されたセッションソースが必要であり、そのソースは今日時点では接続されていません。接続されるまでは実サンプリングは存在せず、その周囲のフレームワークがあるだけです。そのセッションソースの接続は近い将来の一段階の作業であり、出荷前にライブサンプリングを主張することはしません。

サンドボックスのセッションリプレイは動作しますか?

現状では機能が低下しています。リプレイにはセッションを順番どおりに再構成するための順序付きの履歴ソースが必要ですが、そのソースはまだ接続されていないため、順序付きリプレイは利用できません。サンドボックスそのもの、すなわちデプロイ前後の比較のための隔離された環境は実在します。順序付きリプレイは、セッションソースとあわせてロードマップに載っています。

自動化されたレッドチーミングエンジンはありますか?

v1 にはありません。適応型レッドチーミングエンジンは v1 以降です。v1 では、まだ構築されていない適応型エンジンを示唆するのではなく、補完的なコントロールとともにセキュリティ姿勢を記述します。

では、今すぐ実際に使えるのは何ですか?

Evals フレームワークとコンソール、すなわちスコアカード、リグレッション実行、プロンプトの A/B、ドリフト検知に加え、デプロイ前後の比較のための隔離されたサンドボックスです。これらが実トラフィックに対して機能するために必要なのは、接続されたセッションソースと順序付きリプレイであり、いずれもロードマップ段階です。ここは、エージェント品質とリグレッションが測定されゲートされる場所であり、ライブサンプリングの接続が次の一手です。

エージェント品質がゲートされる場所をご覧ください

Olivares を自社インフラにデプロイし、Evals フレームワークとサンドボックス、すなわちスコアカード、リグレッションテスト、デプロイ前後の比較を試してみてください。実トラフィックのセッションサンプリングと順序付きリプレイは次の一手として登場します。