Produto · Evals e sandbox

Onde a qualidade dos agentes é medida e controlada

Evals é a superfície onde a qualidade do output dos agentes, as regressões e o drift são pontuados — e onde uma release pode ser bloqueada antes de ser lançada. A framework, os scorecards e a consola existem e estão ligados. O que ainda não está ativo é a parte que a torna relevante no tráfego real: uma origem de sessões ligada para amostragem e a reprodução ordenada de sessões no sandbox. Dizemo-lo de forma clara aqui, porque é o próximo passo, não uma afirmação concluída.

Ver o repositório O que já é real hoje

No produto

A consola de evals

Uma captura de ecrã genuína, com dados de exemplo. Scorecards, execuções de regressão, A/B de prompts e deteção de drift sobre o output dos agentes — além de um sandbox isolado para comparação pré e pós-implementação. Os dados apresentados são semeados, não provêm de qualquer sessão real.

Consola de evals da Olivares: scorecards para a qualidade do output dos agentes, execuções de testes de regressão, comparação A/B de prompts e deteção de drift, a par de um painel de sandbox isolado para comparação pré/pós-implementação e reprodução de sessões — preenchida com dados de exemplo.

O que faz

Uma framework para a qualidade dos agentes

Monitorização da qualidade do output, testes de regressão e um sandbox isolado — o lugar onde o comportamento dos agentes é pontuado antes e depois de uma alteração.

Scorecards e monitorização da qualidade do output

Pontue o output dos agentes em função das verificações que define e acompanhe a qualidade ao longo do tempo. A framework, os scorecards e a consola estão ligados; aquilo que medem torna-se real assim que uma origem de sessões for ligada.

Testes de regressão e A/B de prompts

Volte a executar uma suite contra uma alteração para apanhar regressões antes de serem lançadas e compare as variantes de prompt A com B com os mesmos inputs — para que uma alteração seja avaliada por evidências, não por intuição.

Deteção de drift

Detete quando o output dos agentes se afasta da sua baseline esperada ao longo do tempo, para que a erosão da qualidade seja revelada em vez de descoberta em produção.

Sandbox isolado

Um ambiente de teste isolado para comparação pré e pós-implementação, com reprodução de sessões. O ambiente está ligado; a reprodução ordenada precisa de uma origem de histórico ordenado, que é o item do roadmap descrito abaixo.

O que já é real

A framework e a consola existem; a amostragem real e a reprodução ordenada são o próximo passo

Esta superfície é a que tem mais costuras em todo o produto, por isso somos diretos quanto a ela — a honestidade é a funcionalidade, não um pedido de desculpas:

Ativo: a framework de evals, os scorecards, a consola, as execuções de regressão, o A/B de prompts e a deteção de drift estão construídos e ligados, e o sandbox é um ambiente isolado para comparação pré/pós-implementação.
No roadmap, não ativo: a amostragem real de evals precisa de uma origem de sessões ligada — sem ela, ainda não há amostragem real, apenas a framework que a rodeia. E a reprodução de sessões no sandbox está degradada hoje porque não existe uma origem de histórico ordenado a partir da qual reproduzir. Ambas são um ciclo de trabalho de curto prazo, não uma capacidade concluída, e não as reivindicamos antes de chegarem a produção.
Postura: o motor adaptativo de red-teaming é pós-v1. Para a v1, documentamos a postura com controlos compensatórios em vez de exagerar um motor que ainda não existe.

Evals e sandbox — perguntas

Posso hoje executar evals contra o tráfego real dos meus agentes?

Ainda não. A framework, os scorecards e a consola estão ligados e executam contra dados de exemplo semeados, mas a amostragem real de evals precisa de uma origem de sessões ligada — e essa origem não está ligada hoje. Até que esteja, não há amostragem real, apenas a framework que a rodeia. Ligar essa origem de sessões é um ciclo de trabalho de curto prazo, e não reivindicamos amostragem ativa antes de a lançarmos.

A reprodução de sessões no sandbox funciona?

Está com funcionamento reduzido hoje. A reprodução precisa de uma origem de histórico ordenado para reconstruir uma sessão em sequência, e essa origem ainda não está ligada, pelo que a reprodução ordenada não está disponível. O sandbox em si — o ambiente isolado para comparação pré e pós-implementação — existe; a reprodução ordenada está no roadmap, a par da origem de sessões.

Existe um motor automatizado de red-teaming?

Não na v1. O motor adaptativo de red-teaming é pós-v1. Para a v1, documentamos a postura de segurança com controlos compensatórios em vez de dar a entender um motor adaptativo que ainda não está construído.

Então o que é que está efetivamente utilizável neste momento?

A framework e a consola de evals — scorecards, execuções de regressão, A/B de prompts e deteção de drift — mais o sandbox isolado para comparação pré/pós-implementação. O que lhes falta para atuar sobre o tráfego real é a origem de sessões ligada e a reprodução ordenada, ambas no roadmap. Este é o lugar onde a qualidade dos agentes e as regressões serão medidas e controladas; a ligação da amostragem ativa é o próximo passo.

Veja onde a qualidade dos agentes é controlada

Implemente a Olivares na sua própria infraestrutura e explore a framework e o sandbox de evals — scorecards, testes de regressão e comparação pré/pós-implementação — com amostragem real de sessões e reprodução ordenada como próximo passo.

Ver o repositório Veja o mapa de acessos