Producto · Evals y sandbox

Donde se mide y se filtra la calidad del agente

Evals es la superficie donde se puntúan la calidad de salida, las regresiones y la deriva del agente — y donde se puede filtrar una release antes de que salga. El framework, los scorecards y la consola existen y están cableados. Lo que aún no está live es la parte que lo hace contar sobre tráfico real: una fuente de sesiones cableada para el sampling, y la repetición ordenada de sesiones en el sandbox. Lo decimos sin rodeos aquí, porque es el siguiente paso, no una afirmación ya cerrada.

Ver el repositorio Qué es real hoy

En el producto

La consola de evals

Una captura real, con datos de ejemplo. Scorecards, ejecuciones de regresión, A/B de prompts y detección de deriva sobre la salida del agente — más un sandbox aislado para comparación pre y post-deploy. Los datos mostrados son sembrados, no de ninguna sesión real.

Consola de evals de Olivares: scorecards de calidad de salida del agente, ejecuciones de test de regresión, comparación A/B de prompts y detección de deriva, junto a un panel de sandbox aislado para comparación pre/post-deploy y repetición de sesiones — poblada con datos de ejemplo.

Qué hace

Un framework para la calidad del agente

Monitorización de calidad de salida, test de regresión y un sandbox aislado — el sitio donde se puntúa el comportamiento del agente antes y después de un cambio.

Scorecards y monitorización de calidad de salida

Puntúa la salida del agente contra los checks que defines y observa la calidad a lo largo del tiempo. El framework, los scorecards y la consola están cableados; lo que miden se vuelve real en cuanto se conecta una fuente de sesiones.

Test de regresión y A/B de prompts

Reejecuta una suite contra un cambio para detectar regresiones antes de que salgan, y compara variantes de prompt A frente a B sobre las mismas entradas — para que un cambio se juzgue por evidencia, no por intuición.

Detección de deriva

Detecta cuándo la salida del agente se desvía de su baseline esperada con el tiempo, para que la erosión de calidad se muestre en lugar de descubrirse en producción.

Sandbox aislado

Un entorno de prueba aislado para comparación pre y post-deploy, con repetición de sesiones. El entorno está cableado; la repetición ordenada necesita una fuente de historial ordenado, que es el elemento del roadmap descrito abajo.

Qué es real

El framework y la consola existen; el sampling real y la repetición ordenada son el siguiente paso

Esta superficie es la más llena de costuras del producto, así que somos tajantes al respecto — la honestidad es la característica, no una disculpa:

Live: el framework de evals, los scorecards, la consola, las ejecuciones de regresión, el A/B de prompts y la detección de deriva están construidos y cableados, y el sandbox es un entorno aislado para comparación pre/post-deploy.
Roadmap, no live: el sampling real de evals necesita una fuente de sesiones cableada — sin ella no hay sampling real todavía, solo el framework a su alrededor. Y la repetición de sesiones del sandbox está degradada hoy porque no hay una fuente de historial ordenado desde la que repetir. Ambas son trabajo a corto plazo, no una capacidad terminada, y no las afirmamos antes de que existan.
Postura: el motor adaptativo de red-teaming es post-v1. Para v1 documentamos la postura con controles compensatorios en lugar de sobrevender un motor que aún no está aquí.

Evals y sandbox — preguntas

¿Puedo ejecutar evals contra mi tráfico real de agente hoy?

Aún no. El framework, los scorecards y la consola están cableados y corren sobre datos de ejemplo sembrados, pero el sampling real de evals necesita una fuente de sesiones cableada — y esa fuente no está conectada hoy. Hasta que lo esté, no hay sampling real, solo el framework a su alrededor. Conectar esa fuente de sesiones es trabajo a corto plazo, y no afirmamos sampling en vivo antes de que exista.

¿Funciona la repetición de sesiones en el sandbox?

Hoy está degradada. La repetición necesita una fuente de historial ordenado para reconstruir una sesión en secuencia, y esa fuente aún no está cableada, así que la repetición ordenada no está disponible. El sandbox en sí — el entorno aislado para comparación pre y post-deploy — existe; la repetición ordenada está en el roadmap junto con la fuente de sesiones.

¿Hay un motor automatizado de red-teaming?

No en v1. El motor adaptativo de red-teaming es post-v1. Para v1 documentamos la postura de seguridad con controles compensatorios en lugar de insinuar un motor adaptativo que aún no está construido.

Entonces, ¿qué es usable ahora mismo?

El framework y la consola de evals — scorecards, ejecuciones de regresión, A/B de prompts y detección de deriva — más el sandbox aislado para comparación pre/post-deploy. Lo que necesitan para actuar sobre tráfico real es la fuente de sesiones cableada y la repetición ordenada, ambas en el roadmap. Este es el sitio donde se medirán y filtrarán la calidad y las regresiones del agente; el cableado del sampling en vivo es el siguiente paso.

Mira dónde se filtra la calidad del agente

Despliega Olivares en tu propia infraestructura y explora el framework de evals y el sandbox — scorecards, test de regresión y comparación pre/post-deploy — con el sampling real de sesiones y la repetición ordenada llegando como siguiente paso.

Ver el repositorio Ver el mapa de acceso