Producto · Coste y FinOps
Ve, atribuye y gobierna tu gasto en modelos
Dos módulos en un solo sitio: un catálogo declarado de los modelos de tu parque — capacidades, precios de lista, política de enrutado — y una vista de FinOps que desglosa el gasto en tokens y coste por modelo, proveedor, agente, sesión, equipo y proyecto. Define presupuestos y umbrales, lee una proyección al ritmo actual, y deja que las señales de presupuesto controlen la resolución de modelos. Ver y gobernar el coste — no que Olivares ejecute tu inferencia.
En el producto
El panel de coste
Una captura real, con datos de ejemplo. La vista ejecutiva: gasto acumulado, una proyección al ritmo actual, volumen de tokens, los modelos gobernados activos y un gráfico de tendencia de gasto — desglosado para que veas a dónde va el dinero.
Qué obtienes
Dos módulos: el parque de modelos, y el dinero
Un catálogo de los modelos que gobiernas y la política que los resuelve, junto a una vista de coste que atribuye cada micro-dólar.
Un catálogo declarado de modelos
Los modelos de tu parque con sus capacidades y precios de lista, gobernados de forma centralizada. El precio es una referencia declarada y fechada que tú editas — verifícalo contra el proveedor; nunca lo presentamos como verdad inmutable.
Política de enrutado con cadena de fallback
Define cómo se resuelve una petición a un modelo — por coste, latencia, capacidad o fijado (pinned) — con una cadena de fallback /resolve. Esta es la política que decide; ejecutar la inferencia es un paso separado y provisionado de forma explícita.
Gasto, atribuido
Gasto en tokens y coste desglosado por modelo, proveedor, agente, sesión, equipo y proyecto. El dinero es micro-USD entero internamente, así que los totales cuadran exactamente. Los desgloses por modelo y proveedor están siempre presentes; la atribución más fina depende del conector cableado.
Presupuestos que pueden controlar la resolución
Presupuestos con umbrales, alertas y recomendaciones. Un presupuesto superado puede controlar la resolución de modelos — bloquear o limitar (throttle) — para que los límites de coste se apliquen en el punto de decisión, no se descubran en la factura.
Qué es real
Live para ver y gobernar el coste — no para ejecutar tu inferencia
Somos precisos sobre qué es cada número, porque las decisiones financieras dependen de ello:
- Live: lectura, análisis y señalización de presupuesto. Gasto por modelo, proveedor, agente, sesión, equipo y proyecto; presupuestos con umbrales, alertas y recomendaciones; y aplicación de presupuesto que puede controlar la resolución de modelos por bloqueo o limitación. Los desgloses por modelo y proveedor están siempre poblados.
- Lagunas honestas en los datos: el precio de lista es una referencia declarada y fechada que tú mantienes — verifícala contra el proveedor antes de actuar sobre ella. La previsión es una proyección lineal al ritmo actual, no un modelo predictivo. La atribución por agente, por sesión y por equipo puede aparecer vacía hasta que se cablee un conector que atribuya la sesión — y un agregado truncado se muestra como parcial, nunca como total exacto. No derivamos una cifra de ahorro por caché del flujo de coste, así que no la mostramos.
- Roadmap / costura: la política de enrutado se define aquí, pero la ejecución del enrutado — el gateway que de verdad llama a un modelo — es un componente separado. El /execute de modelo está denegado por defecto y devuelve 503 sin provisión explícita. Olivares te ayuda a ver y gobernar el coste; no ejecuta tu inferencia por ti.
Coste y FinOps — preguntas
¿De dónde salen los precios — son en vivo desde los proveedores?
No. El precio del catálogo es un precio de lista declarado: una referencia fechada que tú editas y mantienes, no un feed en vivo. Está ahí para que las estimaciones de coste sean consistentes, no para que lo trates como la verdad actual del proveedor. Verifícalo contra el proveedor antes de tomar una decisión sobre él.
¿La previsión es una predicción de lo que vamos a gastar?
Es una proyección lineal al ritmo actual — extiende hacia adelante tu ritmo de gasto presente, nada más. No es un modelo predictivo y no tiene en cuenta estacionalidad, cambios planificados ni nada que aún no hayas hecho. Léela como «si nada cambia, esta es la trayectoria».
¿Por qué algún coste por agente o por equipo aparece vacío?
Porque esa atribución necesita un conector que etiquete el gasto con la sesión, el agente o el equipo al que pertenece. Hasta que eso se cablea, el desglose está honestamente vacío en lugar de adivinado — y donde un agregado está incompleto se etiqueta como parcial, nunca se presenta como total exacto. Los desgloses por modelo y proveedor no dependen de esto y están siempre presentes.
¿Olivares enruta y ejecuta mis llamadas a modelos?
No. Aquí defines la política de enrutado — por coste, latencia, capacidad o fijado, con una cadena de fallback /resolve — pero ejecutar la llamada es un componente de gateway separado. El /execute de modelo está denegado por defecto y devuelve 503 salvo que se provisione de forma explícita. Esta superficie va de ver y gobernar el coste, no de que Olivares se interponga en tu ruta de inferencia.
Toma el control de tu gasto en modelos
Despliega Olivares en tu propia infraestructura, declara tu parque de modelos, atribuye cada micro-dólar, y deja que los presupuestos controlen la resolución antes de incurrir en el coste.