La maggior parte delle conversazioni sulla protezione dei dati relative alla governance dell’AI parte dal punto sbagliato. Si chiede quali certificazioni possieda un fornitore, quali sub-responsabili elenchi, in quale regione si trovi il suo cloud. Sono domande reali. Ma per la categoria specifica di strumenti che osservano i tuoi AI agent — individuando ogni agente, sessione, modello e MCP server sulla tua infrastruttura e mappando cosa ciascuno può raggiungere — sotto la superficie si nasconde una domanda più fondamentale: lo strumento di governance riceve mai, di per sé, i tuoi dati?
Se la risposta è sì, hai appena creato un nuovo responsabile del trattamento, una nuova copia di materiale sensibile, un nuovo luogo che può essere violato, sottoposto a ingiunzione o indotto a fare phone-home. Se la risposta è no — strutturalmente, per progettazione — allora la maggior parte delle domande GDPR a valle si ridimensiona enormemente. Questo è il caso dell’AI platform in self-hosting, e vale la pena argomentarlo con precisione, senza esagerare.
La garanzia di privacy che conta è strutturale, non un certificato
Un report SOC 2 o un certificato ISO 27001 ti dice che un fornitore ha processi attorno ai dati che custodisce. È utile, ma è un’affermazione sulla governance dell’accesso ai tuoi dati. Una garanzia molto più forte è non custodire affatto i dati in partenza. Non puoi divulgare, gestire male o essere costretto a comunicare ciò che non hai mai ricevuto.
Il self-hosting offre esattamente questo. Quando il control plane gira all’interno dei tuoi host, cluster o cloud — anche completamente isolato da rete (air-gapped), senza egress — il materiale sensibile che osserva non attraversa mai il tuo perimetro. Il fornitore non è un sub-responsabile dei tuoi dati operativi, perché il fornitore non li vede mai. È un dato di fatto architetturale, non una promessa di policy da sottoporre ad audit.
Per essere chiari su dove si colloca questo prodotto: Olivares AI è pre-release. Non è certificata secondo SOC 2, ISO/IEC 27001, l’EU AI Act (Regolamento sull’IA dell’UE) o qualsiasi altra normativa, e nessun audit è in corso. Il prodotto è progettato verso gli obiettivi di controllo che tali normative esaminano — registro di audit, controllo degli accessi, integrità, cifratura, gestione delle modifiche — così da essere pronto per un audit quando sarà il momento. L’argomento sulla residenza che segue non dipende da alcuna certificazione, ed è proprio questo il punto.
Edge (relazioni di accesso), non payload
La decisione di progettazione centrale riguarda cosa viene memorizzato. Uno strumento di governance dell’AI deve capire chi può toccare cosa. Non gli servono i contenuti delle query, i corpi dei prompt, i segreti o i dati personali che transitano attraverso quei contatti.
Per questo il grafo memorizza edge (relazioni di accesso), non payload: la relazione di accesso tra un agente e una risorsa, e se quell’accesso è in lettura (R) o lettura/scrittura (RW). data-export-job → prod-postgres (RW) è un edge (una relazione di accesso). Le righe lette da quel job non vengono memorizzate. La mappa registra che un agente ha raggiunto un oggetto in s3://billing-exports; non copia l’export.
| Memorizzato (la mappa degli accessi) | Non memorizzato |
|---|---|
| Identità dell’agente (ruolo / nome applicazione) | Valori delle credenziali, token, chiavi |
Risorsa raggiunta (prod-postgres) | Corpi delle query, righe dei risultati |
| Tipo di accesso — R o RW | Payload di prompt e risposte |
| Timestamp, esito, livello di confidenza | Segreti, dati personali in transito |
Gli input che potrebbero contenere segreti o dati personali vengono oscurati e sottoposti a secret-scanning prima che qualsiasi cosa venga scritta, così l’oscuramento avviene al margine della raccolta anziché come pulizia successiva. Ciò che non memorizzi non puoi divulgarlo — e ciò che non puoi divulgare non amplia la tua impronta di trattamento ai sensi del GDPR.
Come i dati restano dentro il perimetro
Tre proprietà mantengono onesto tutto questo in esercizio:
Osservazione a priorità di lettura (read-first). Il collector osserva attraverso segnali che già produci — log applicativi e di audit, OpenTelemetry ed eBPF come backstop di ground-truth a livello di kernel. Non è un proxy nel data path dell’agente, quindi vede la forma dell’accesso, non i contenuti, e se va in errore non interrompe mai la produzione. Non esiste un man-in-the-middle obbligatorio che copia il tuo traffico.
Nessuna telemetria verso casa. Secure-by-default significa nessun phone-home. La telemetria del fornitore è disattivata a meno che tu non la attivi esplicitamente. Nulla del tuo ambiente IT — né i nomi degli agenti, né la mappa degli accessi, né i conteggi di utilizzo — viene rimandato al fornitore per impostazione predefinita.
Funzionamento isolato da rete (air-gapped) con egress pari a zero. In reti disconnesse, regolamentate o classificate il control plane gira interamente in locale, con la validazione delle licenze offline. Non esiste una via d’uscita, punto. Per un requisito di residenza dei dati che imponga che i dati UE restino su infrastruttura UE sotto il tuo controllo, un deployment in self-hosting isolato da rete (air-gapped) è la risposta più letterale possibile: i dati non si spostano perché non c’è alcun luogo in cui spostarli.
La conservazione e la cancellazione sono configurabili, quindi controlli per quanto tempo persiste persino la mappa degli accessi.
Mappatura all’articolo 28 del GDPR — onestamente
L’articolo 28 del GDPR disciplina il rapporto titolare–responsabile del trattamento e cosa deve coprire un accordo sul trattamento dei dati. L’osservazione rilevante è che in un deployment in self-hosting il consueto rapporto fornitore-come-responsabile per i tuoi dati operativi si dissolve in gran parte: poiché lo strumento gira nella tua infrastruttura e non riceve mai quei dati, nella maggior parte dei deployment resti titolare e responsabile del trattamento dei tuoi dati all’interno del tuo ambiente.
Questo non rende inutile un DPA. Un rapporto commerciale beneficia comunque della formalizzazione delle responsabilità — per la supply chain del software, per l’accesso del supporto, per qualsiasi futuro componente gestito. Un accordo sul trattamento dei dati ai sensi dell’articolo 28 è disponibile su richiesta per gli approvvigionamenti enterprise. Ciò che cambia è l’ambito: non esiste un elenco di luoghi in cui i tuoi dati personali sono stati spediti, perché non sono mai stati spediti. È una conversazione molto più breve e molto più difendibile con un DPO o un team di approvvigionamento rispetto a «fidati del nostro elenco di sub-responsabili».
Questo è un argomento strutturale, quindi tratta i confini con la stessa onestà. Il self-hosting sposta su di te la responsabilità di residenza e trattamento; non la elimina. Devi comunque mettere in sicurezza l’host, controllare la conservazione e governare chi può leggere la mappa degli accessi — e quella mappa è di per sé sensibile, ed è per questo che ogni accesso privilegiato a essa viene registrato in un audit e i componenti si autenticano reciprocamente con mutual TLS. Il prodotto riduce la superficie del fornitore quasi a zero; non assolve l’operatore.
In sintesi
Se un’autorità di controllo, un DPO o il tuo stesso team di sicurezza chiede «dove vanno i nostri dati quando adottiamo questo strumento di governance dell’AI», la risposta più forte possibile è «da nessuna parte — non escono mai, e lo strumento non li vede mai». Quella risposta nasce dall’architettura: esecuzione in self-hosting, archiviazione di edge (relazioni di accesso) e non di payload, oscuramento prima della scrittura, nessuna telemetria verso casa e funzionamento isolato da rete (air-gapped) con egress pari a zero. Un certificato può corroborare un buon processo; non può eguagliare la garanzia di dati che non sono mai stati ricevuti.
Se vuoi la versione completa e onesta di questa postura — inclusa la posizione di conformità non-ancora-certificata e come si inserisce un DPA ai sensi dell’art. 28 del GDPR — consulta /security. Se preferisci leggere il codice che sostiene questa affermazione, il prodotto completo è ospitabile in self-hosting sotto AGPL-3.0 nella pagina /open-source.