Zum Inhalt springen

Produkt · Evals & Sandbox

Wo Agentenqualität gemessen und kontrolliert freigegeben wird

Evals ist die Oberfläche, auf der Qualität, Regressionen und Drift von Agenten-Ausgaben bewertet werden — und auf der ein Release vor der Auslieferung kontrolliert freigegeben werden kann. Das Framework, die Scorecards und die Konsole existieren und sind angebunden. Was noch nicht live ist, ist der Teil, der den Unterschied auf echtem Traffic ausmacht: eine angebundene Session-Quelle für das Sampling und ein geordnetes Session-Replay in der Sandbox. Wir sagen das hier offen, denn es ist der nächste Schritt, kein abgeschlossenes Versprechen.

Im Produkt

Die Evals-Konsole

Ein echter Screenshot mit Beispieldaten. Scorecards, Regressionsläufe, Prompt-A/B-Tests und Drift-Erkennung über Agenten-Ausgaben — dazu eine isolierte Sandbox für den Vergleich vor und nach dem Deploy. Die dargestellten Daten sind eingespielt, nicht aus einer echten Session.

Echter Screenshot
Olivares Evals-Konsole: Scorecards zur Qualität von Agenten-Ausgaben, Regressionstestläufe, Prompt-A/B-Vergleich und Drift-Erkennung, daneben ein isoliertes Sandbox-Panel für den Vergleich vor und nach dem Deploy sowie Session-Replay — mit Beispieldaten befüllt.

Was es leistet

Ein Framework für Agentenqualität

Überwachung der Ausgabequalität, Regressionstests und eine isolierte Sandbox — der Ort, an dem das Verhalten von Agenten vor und nach einer Änderung bewertet wird.

Scorecards und Überwachung der Ausgabequalität

Bewerten Sie Agenten-Ausgaben anhand der von Ihnen definierten Prüfungen und verfolgen Sie die Qualität über die Zeit. Das Framework, die Scorecards und die Konsole sind angebunden; was sie messen, wird real, sobald eine Session-Quelle verbunden ist.

Regressionstests und Prompt-A/B-Tests

Lassen Sie eine Suite gegen eine Änderung erneut laufen, um Regressionen vor der Auslieferung zu erkennen, und vergleichen Sie Prompt-Varianten A gegen B auf denselben Eingaben — damit eine Änderung anhand von Belegen beurteilt wird, nicht nach Bauchgefühl.

Drift-Erkennung

Erkennen Sie, wenn Agenten-Ausgaben im Laufe der Zeit von ihrer erwarteten Baseline abweichen, sodass eine Qualitätserosion sichtbar wird, statt erst in der Produktion entdeckt zu werden.

Isolierte Sandbox

Eine isolierte Testumgebung für den Vergleich vor und nach dem Deploy, mit Session-Replay. Die Umgebung ist angebunden; geordnetes Replay benötigt eine Quelle mit geordnetem Verlauf — das ist der unten beschriebene Roadmap-Punkt.

Was real ist

Framework und Konsole existieren; echtes Sampling und geordnetes Replay sind der nächste Schritt

Diese Oberfläche weist im Produkt die meisten Nahtstellen auf, daher sind wir hier unmissverständlich — die Ehrlichkeit ist das Feature, keine Entschuldigung:

  • Live: das Evals-Framework, die Scorecards, die Konsole, Regressionsläufe, Prompt-A/B-Tests und die Drift-Erkennung sind gebaut und angebunden, und die Sandbox ist eine isolierte Umgebung für den Vergleich vor und nach dem Deploy.
  • Roadmap, nicht live: echtes Eval-Sampling benötigt eine angebundene Session-Quelle — ohne sie gibt es noch kein echtes Sampling, nur das Framework darum herum. Und das Session-Replay der Sandbox ist heute eingeschränkt, weil es keine Quelle mit geordnetem Verlauf gibt, von der aus sich abspielen ließe. Beides ist kurzfristig anstehende Arbeit, keine fertige Funktion, und wir behaupten sie nicht, bevor sie ausgeliefert ist.
  • Sicherheitslage: die adaptive Red-Teaming-Engine kommt nach v1. Für v1 dokumentieren wir die Sicherheitslage mit kompensierenden Kontrollen, statt eine Engine zu überzeichnen, die es noch nicht gibt.

Evals & Sandbox — Fragen

Kann ich Evals heute gegen meinen echten Agenten-Traffic laufen lassen?

Noch nicht. Das Framework, die Scorecards und die Konsole sind angebunden und laufen gegen eingespielte Beispieldaten, aber echtes Eval-Sampling benötigt eine angebundene Session-Quelle — und diese Quelle ist heute nicht verbunden. Bis dahin gibt es kein echtes Sampling, nur das Framework darum herum. Diese Session-Quelle anzubinden ist kurzfristig anstehende Arbeit, und wir behaupten kein Live-Sampling, bevor es ausgeliefert ist.

Funktioniert das Session-Replay in der Sandbox?

Es ist heute eingeschränkt. Replay benötigt eine Quelle mit geordnetem Verlauf, um eine Session in ihrer Abfolge zu rekonstruieren, und diese Quelle ist noch nicht angebunden, sodass geordnetes Replay nicht verfügbar ist. Die Sandbox selbst — die isolierte Umgebung für den Vergleich vor und nach dem Deploy — existiert; geordnetes Replay steht zusammen mit der Session-Quelle auf der Roadmap.

Gibt es eine automatisierte Red-Teaming-Engine?

In v1 nicht. Die adaptive Red-Teaming-Engine kommt nach v1. Für v1 dokumentieren wir die Sicherheitslage mit kompensierenden Kontrollen, statt eine adaptive Engine anzudeuten, die noch nicht gebaut ist.

Was ist also gerade tatsächlich nutzbar?

Das Evals-Framework und die Konsole — Scorecards, Regressionsläufe, Prompt-A/B-Tests und Drift-Erkennung — sowie die isolierte Sandbox für den Vergleich vor und nach dem Deploy. Was sie brauchen, um auf echtem Traffic zu wirken, sind die angebundene Session-Quelle und geordnetes Replay, beides Roadmap. Hier werden Agentenqualität und Regressionen gemessen und kontrolliert freigegeben; die Anbindung des Live-Samplings ist der nächste Schritt.

Sehen Sie, wo Agentenqualität kontrolliert freigegeben wird

Deployen Sie Olivares auf Ihrer eigenen Infrastruktur und erkunden Sie das Evals-Framework und die Sandbox — Scorecards, Regressionstests und Vergleiche vor und nach dem Deploy — wobei echtes Session-Sampling und geordnetes Replay als nächster Schritt folgen.