Produto · Custos e FinOps

Veja, atribua e governe o seu gasto em modelos

Dois módulos num só lugar: um catálogo declarado dos modelos do seu parque — capacidades, preços de tabela, política de encaminhamento — e uma visão FinOps que discrimina o gasto em tokens e custo por modelo, fornecedor, agente, sessão, equipa e projeto. Defina orçamentos e limiares, leia uma projeção de run-rate e deixe que os sinais de orçamento condicionem a resolução de modelos. Ver e governar o custo — não a Olivares a executar a sua inferência.

Ver o repositório Como os números são obtidos

No produto

O painel de custos

Uma captura de ecrã genuína, com dados de exemplo. A visão executiva: gasto até à data, uma projeção de run-rate, volume de tokens, os modelos governados ativos e um gráfico de tendência de gasto — discriminado para que consiga ver para onde vai o dinheiro.

Painel de custos da Olivares: totais de gasto e de tokens em destaque, uma projeção de run-rate, uma contagem de modelos governados ativos e um gráfico de tendência de gasto ao longo do tempo, preenchido com dados de exemplo.

O que obtém

Dois módulos: o parque de modelos e o dinheiro

Um catálogo dos modelos que governa e da política que os resolve, a par de uma visão de custos que atribui a despesa governada até ao micro-dólar.

Um catálogo de modelos declarado

Os modelos do seu parque com as suas capacidades e preços de tabela, governados de forma centralizada. O preço é uma referência declarada e datada que você edita — verifique-a junto do fornecedor; nunca a apresentamos como verdade imutável.

Política de encaminhamento com uma cadeia de fallback

Defina como um pedido se resolve para um modelo — por custo, latência, capacidade ou fixado — com uma cadeia de fallback /resolve. Esta é a política que decide; executar a inferência é um passo separado e explicitamente aprovisionado.

Gasto, atribuído

Gasto em tokens e custo discriminado por modelo, fornecedor, agente, sessão, equipa e projeto. Internamente, o dinheiro é guardado em micro-USD inteiros, pelo que os totais são exatos. As discriminações por modelo e por fornecedor estão sempre presentes; a atribuição mais fina depende do conector que estiver ligado.

Orçamentos que podem condicionar a resolução

Orçamentos com limiares, alertas e recomendações. Um orçamento ultrapassado pode condicionar a resolução de modelos — bloquear ou limitar — para que os limites de custo sejam impostos no ponto de decisão, e não descobertos na fatura.

O que é real

Ativa para ver e governar o custo — não para executar a sua inferência

Somos rigorosos quanto ao que cada número significa, porque as decisões financeiras dependem disso:

Ativa: leitura, análise e sinalização de orçamento. Gasto por modelo, fornecedor, agente, sessão, equipa e projeto; orçamentos com limiares, alertas e recomendações; e imposição de orçamento que pode condicionar a resolução de modelos por bloqueio ou limitação. As discriminações por modelo e por fornecedor estão sempre preenchidas.
Lacunas honestas nos dados: o preço de tabela é uma referência declarada e datada que você mantém — verifique-a junto do fornecedor antes de agir sobre ela. A previsão é uma projeção linear ao run-rate atual, não um modelo preditivo. A atribuição por agente, por sessão e por equipa pode aparecer vazia até que um conector que atribua por sessão esteja ligado — e um agregado truncado é mostrado como parcial, nunca como um total exato. Não derivamos um valor de poupança por cache a partir do fluxo de custos, pelo que não o apresentamos.
Roadmap / costura: a política de encaminhamento define-se aqui, mas a execução do encaminhamento — o gateway que chama efetivamente um modelo — é um componente separado. O /execute de modelo está deny-closed e devolve 503 sem aprovisionamento explícito. A Olivares ajuda-o a ver e a governar o custo; não executa a sua inferência por si.

Custos e FinOps — perguntas

De onde vêm os preços — são obtidos em direto dos fornecedores?

Não. O preço no catálogo é um preço de tabela declarado: uma referência datada que você edita e mantém, não um feed em direto. Existe para que as estimativas de custo sejam consistentes, não para que o trate como a verdade atual do fornecedor. Verifique-o junto do fornecedor antes de tomar uma decisão com base nele.

A previsão é uma estimativa do que vamos gastar?

É uma projeção linear ao run-rate atual — prolonga o seu ritmo de gasto presente para a frente, nada mais. Não é um modelo preditivo e não tem em conta sazonalidade, alterações planeadas ou seja o que for que ainda não fez. Leia-a como «se nada mudar, esta é a trajetória».

Porque é que algum custo por agente ou por equipa aparece vazio?

Porque essa atribuição precisa de um conector que etiquete o gasto com a sessão, o agente ou a equipa a que pertence. Até isso estar ligado, a discriminação aparece honestamente vazia em vez de adivinhada — e quando um agregado está incompleto, é rotulado como parcial, nunca apresentado como um total exato. As discriminações por modelo e por fornecedor não dependem disto e estão sempre presentes.

A Olivares encaminha e executa as chamadas dos meus modelos?

Não. Você define aqui a política de encaminhamento — por custo, latência, capacidade ou fixado, com uma cadeia de fallback /resolve — mas executar a chamada é um componente de gateway separado. O /execute de modelo está deny-closed e devolve 503 a menos que seja explicitamente aprovisionado. Esta superfície trata de ver e governar o custo, não de a Olivares se colocar no seu caminho de inferência.

Assuma o controlo do seu gasto em modelos

Implemente a Olivares na sua própria infraestrutura, declare o seu parque de modelos, atribua a despesa governada até ao micro-dólar e deixe que os orçamentos condicionem a resolução antes de o custo ser incorrido.

Ver o repositório Veja o mapa de acessos