Product · Evals & sandbox

Waar agentkwaliteit wordt gemeten en afgeschermd

Evals is het vlak waar de outputkwaliteit, regressies en drift van agents worden gescoord — en waar een release kan worden afgeschermd voordat hij live gaat. Het framework, de scorecards en de console bestaan en zijn aangesloten. Wat nog niet live is, is juist het deel dat het waardevol maakt op echt verkeer: een aangesloten sessiebron voor sampling en geordende sessie-replay in de sandbox. Dat zeggen we hier ronduit, want het is de volgende stap, geen afgeronde claim.

Bekijk de repository Wat vandaag echt is

In het product

De evals-console

Een echte schermafbeelding, met voorbeelddata. Scorecards, regressieruns, prompt-A/B en driftdetectie over agentoutput — plus een geïsoleerde sandbox voor vergelijking vóór en na deploy. De getoonde data is geseed, niet afkomstig uit een echte sessie.

Olivares evals-console: scorecards voor de outputkwaliteit van agents, regressietestruns, prompt-A/B-vergelijking en driftdetectie, naast een geïsoleerd sandbox-paneel voor vergelijking vóór en na deploy en sessie-replay — gevuld met voorbeelddata.

Wat het doet

Een framework voor agentkwaliteit

Bewaking van de outputkwaliteit, regressietests en een geïsoleerde sandbox — de plek waar het gedrag van agents wordt gescoord vóór en na een wijziging.

Scorecards en bewaking van outputkwaliteit

Scoor agentoutput tegen de checks die u zelf definieert en volg de kwaliteit in de tijd. Het framework, de scorecards en de console zijn aangesloten; wat ze meten wordt echt zodra er een sessiebron is gekoppeld.

Regressietests en prompt-A/B

Voer een suite opnieuw uit tegen een wijziging om regressies te onderscheppen voordat ze live gaan, en vergelijk promptvarianten A tegen B op dezelfde inputs — zodat een wijziging wordt beoordeeld op bewijs, niet op intuïtie.

Driftdetectie

Detecteer wanneer agentoutput in de tijd afdrijft van zijn verwachte baseline, zodat kwaliteitsverlies aan het licht komt in plaats van pas in productie te worden ontdekt.

Geïsoleerde sandbox

Een geïsoleerde testomgeving voor vergelijking vóór en na deploy, met sessie-replay. De omgeving is aangesloten; geordende replay vereist een bron met geordende historie, en dat is het roadmap-item dat hieronder wordt beschreven.

Wat echt is

Het framework en de console bestaan; echte sampling en geordende replay zijn de volgende stap

Dit vlak kent de meeste naden in het product, dus zijn we er onomwonden over — de eerlijkheid is de feature, geen excuus:

Live: het evals-framework, de scorecards, de console, regressieruns, prompt-A/B en driftdetectie zijn gebouwd en aangesloten, en de sandbox is een geïsoleerde omgeving voor vergelijking vóór en na deploy.
Roadmap, niet live: echte eval-sampling vereist een aangesloten sessiebron — zonder die bron is er nog geen echte sampling, alleen het framework eromheen. En sessie-replay in de sandbox is vandaag beperkt omdat er geen bron met geordende historie is om vanaf te replayen. Beide vergen op korte termijn werk, geen afgeronde mogelijkheid, en we claimen ze niet voordat ze live zijn.
Houding: de adaptieve red-teaming-engine komt na v1. Voor v1 documenteren we de houding met compenserende maatregelen in plaats van een engine te overdrijven die er nog niet is.

Evals & sandbox — vragen

Kan ik vandaag evals draaien tegen mijn echte agentverkeer?

Nog niet. Het framework, de scorecards en de console zijn aangesloten en draaien tegen geseede voorbeelddata, maar echte eval-sampling vereist een aangesloten sessiebron — en die bron is vandaag niet gekoppeld. Tot dat zo is, is er geen echte sampling, alleen het framework eromheen. Het koppelen van die sessiebron vergt op korte termijn werk, en we claimen geen live sampling voordat die live is.

Werkt sessie-replay in de sandbox?

Die is vandaag beperkt. Replay vereist een bron met geordende historie om een sessie in volgorde te reconstrueren, en die bron is nog niet aangesloten, dus geordende replay is niet beschikbaar. De sandbox zelf — de geïsoleerde omgeving voor vergelijking vóór en na deploy — bestaat wel; geordende replay staat op de roadmap, naast de sessiebron.

Is er een geautomatiseerde red-teaming-engine?

Niet in v1. De adaptieve red-teaming-engine komt na v1. Voor v1 documenteren we de beveiligingshouding met compenserende maatregelen in plaats van een adaptieve engine te suggereren die nog niet is gebouwd.

Wat is op dit moment dan daadwerkelijk bruikbaar?

Het evals-framework en de console — scorecards, regressieruns, prompt-A/B en driftdetectie — plus de geïsoleerde sandbox voor vergelijking vóór en na deploy. Wat ze nodig hebben om op echt verkeer te kunnen werken, is de aangesloten sessiebron en geordende replay, beide roadmap. Dit is de plek waar agentkwaliteit en regressies worden gemeten en afgeschermd; het aansluiten van live sampling is de volgende stap.

Zie waar agentkwaliteit wordt afgeschermd

Deploy Olivares op uw eigen infrastructuur en verken het evals-framework en de sandbox — scorecards, regressietests en vergelijking vóór en na deploy — met echte sessiesampling en geordende replay die als volgende stap volgen.

Bekijk de repository Bekijk de toegangskaart