Zum Inhalt springen

data-residency

Selbstgehostete KI-Governance und Datenresidenz: das überzeugendste DSGVO-Argument

Von Olivares AI 6 min Lesezeit

Die meisten Datenschutzdiskussionen über KI-Governance beginnen an der falschen Stelle. Sie fragen, welche Zertifizierungen ein Anbieter hält, welche Unterauftragsverarbeiter er aufführt, in welcher Region seine Cloud steht. Das sind berechtigte Fragen. Aber für die spezielle Kategorie von Werkzeugen, die Ihre KI-Agenten überwachen — die jeden Agenten, jede Session, jedes Modell und jeden MCP-Server in Ihrer Infrastruktur erkennen und abbilden, was jeder einzelne erreichen kann —, verbirgt sich darunter eine grundlegendere Frage: Erhält das Governance-Werkzeug selbst jemals Ihre Daten?

Lautet die Antwort ja, haben Sie soeben einen neuen Verarbeiter geschaffen, eine neue Kopie sensiblen Materials, einen neuen Ort, der kompromittiert, per Gerichtsbeschluss herausverlangt oder zum Nach-Hause-Telefonieren gebracht werden kann. Lautet die Antwort nein — strukturell, by design —, dann werden die meisten nachgelagerten DSGVO-Fragen deutlich kleiner. Genau das ist das Argument für das Self-Hosting einer KI-Plattform, und es lohnt sich, es präzise zu formulieren, ohne zu übertreiben.

Die entscheidende Datenschutzgarantie ist strukturell, kein Zertifikat

Ein SOC-2-Bericht oder ein ISO-27001-Zertifikat sagt Ihnen, dass ein Anbieter über Prozesse rund um die Daten verfügt, die er vorhält. Das ist nützlich, aber es ist eine Aussage über die Governance des Zugriffs auf Ihre Daten. Eine weitaus stärkere Garantie besteht darin, die Daten gar nicht erst vorzuhalten. Sie können nichts leaken, falsch behandeln oder zur Offenlegung gezwungen werden, das Sie nie erhalten haben.

Genau das leistet das Self-Hosting. Wenn die Control Plane innerhalb Ihrer eigenen Hosts, Cluster oder Clouds läuft — auch vollständig air-gapped, ohne jeglichen Egress —, verlässt das sensible Material, das sie beobachtet, niemals Ihren Perimeter. Der Anbieter ist kein Unterauftragsverarbeiter Ihrer operativen Daten, weil der Anbieter sie nie zu Gesicht bekommt. Das ist eine architektonische Tatsache, kein Richtlinienversprechen, das Sie auditieren müssten.

Um klar zu sein, wo dieses Produkt steht: Olivares AI befindet sich in der Pre-Release-Phase. Es ist nicht nach SOC 2, ISO/IEC 27001, der EU-KI-Verordnung oder einem anderen Rahmenwerk zertifiziert, und es läuft kein Audit. Das Produkt ist darauf ausgelegt, die Kontrollziele zu erfüllen, die diese Rahmenwerke prüfen — Audit-Logging, Zugriffskontrolle, Integrität, Verschlüsselung, Change Management —, sodass es auditbereit ist, wenn die Zeit gekommen ist. Das Residenz-Argument weiter unten hängt von keiner Zertifizierung ab, und genau das ist der Punkt.

Kanten, nicht Nutzdaten

Die zentrale Designentscheidung betrifft das, was gespeichert wird. Ein KI-Governance-Werkzeug muss verstehen, wer was berühren kann. Es benötigt nicht die Inhalte der Abfragen, die Prompt-Inhalte, die Secrets oder die personenbezogenen Daten, die durch diese Berührungen fließen.

Der Graph speichert also Kanten, nicht Nutzdaten: die Zugriffsbeziehung zwischen einem Agenten und einer Ressource sowie die Information, ob dieser Zugriff lesend (R) oder lesend/schreibend (RW) ist. data-export-job → prod-postgres (RW) ist eine Kante. Die Zeilen, die dieser Job gelesen hat, werden nicht gespeichert. Die Karte erfasst, dass ein Agent ein Objekt in s3://billing-exports erreicht hat; sie kopiert den Export nicht.

Gespeichert (die Access Map)Nicht gespeichert
Agenten-Identität (Rolle / Anwendungsname)Anmeldedaten, Tokens, Schlüssel
Erreichte Ressource (prod-postgres)Abfrageinhalte, Ergebniszeilen
Zugriffsart — R oder RWPrompt- und Antwort-Nutzdaten
Zeitstempel, Ergebnis, KonfidenzniveauSecrets, PII während der Übertragung

Eingaben, die Secrets oder personenbezogene Daten enthalten könnten, werden geschwärzt und einem Secret-Scanning unterzogen, bevor irgendetwas geschrieben wird, sodass die Schwärzung am Rand der Erfassung erfolgt und nicht als nachgelagerte Bereinigung. Was Sie nicht speichern, können Sie nicht leaken — und was Sie nicht leaken können, vergrößert Ihren DSGVO-Verarbeitungsumfang nicht.

Wie die Daten innerhalb des Perimeters bleiben

Drei Eigenschaften halten dies im Betrieb ehrlich:

Read-first-Beobachtung. Der Collector beobachtet über Signale, die Sie ohnehin erzeugen — Anwendungs- und Audit-Logs, OpenTelemetry sowie eBPF als Ground-Truth-Backstop auf Kernel-Ebene. Er ist kein Proxy im Datenpfad des Agenten, sieht also die Form des Zugriffs, nicht die Inhalte, und falls er ausfällt, beeinträchtigt er niemals die Produktion. Es gibt keine obligatorische Man-in-the-Middle-Instanz, die Ihren Traffic kopiert.

Keine Telemetrie nach Hause. Secure-by-default bedeutet kein Phone-Home. Anbieter-Telemetrie ist deaktiviert, sofern Sie sie nicht ausdrücklich einschalten. Nichts über Ihre Umgebung — weder die Agentennamen noch die Access Map noch Nutzungszahlen — wird standardmäßig an den Anbieter zurückgesendet.

Air-gapped mit null Egress. In getrennten, regulierten oder klassifizierten Netzwerken läuft die Control Plane vollständig lokal, mit offline validierter Lizenzierung. Es gibt keinen Weg nach draußen, Punkt. Für eine Datenresidenz-Anforderung, die besagt, dass EU-Daten auf EU-Infrastruktur unter Ihrer Kontrolle verbleiben müssen, ist ein air-gapped, selbstgehostetes Deployment die buchstäblichste mögliche Antwort: Die Daten bewegen sich nicht, weil es keinen Ort gibt, an den sie sich bewegen könnten.

Aufbewahrung und Löschung sind konfigurierbar, sodass Sie steuern, wie lange selbst die Access Map bestehen bleibt.

Abbildung auf Art. 28 DSGVO — ehrlich

Art. 28 DSGVO regelt das Verhältnis zwischen Verantwortlichem und Auftragsverarbeiter und legt fest, was ein Auftragsverarbeitungsvertrag abdecken muss. Die relevante Beobachtung ist, dass sich in einem selbstgehosteten Deployment das übliche Anbieter-als-Verarbeiter-Verhältnis für Ihre operativen Daten weitgehend auflöst: Weil das Werkzeug in Ihrer Infrastruktur läuft und diese Daten nie erhält, bleiben Sie in den meisten Deployments Verantwortlicher und Verarbeiter Ihrer eigenen Daten innerhalb Ihrer eigenen Umgebung.

Das macht einen Auftragsverarbeitungsvertrag (AV-Vertrag) nicht überflüssig. Eine kommerzielle Beziehung profitiert weiterhin davon, Verantwortlichkeiten zu formalisieren — für die Software-Lieferkette, für den Support-Zugriff, für jede künftige verwaltete Komponente. Ein AV-Vertrag gemäß Art. 28 ist für die Beschaffung im Enterprise-Umfeld auf Anfrage verfügbar. Was sich ändert, ist der Umfang: Es gibt keine Liste von Orten, an die Ihre personenbezogenen Daten versendet wurden, weil sie nie versendet wurden. Das ist ein deutlich kürzeres, deutlich besser verteidigbares Gespräch mit einem Datenschutzbeauftragten oder einem Beschaffungsteam als „Vertrauen Sie unserer Liste der Unterauftragsverarbeiter“.

Dies ist ein strukturelles Argument, also behandeln Sie die Grenzen mit derselben Ehrlichkeit. Self-Hosting verlagert die Residenz- und Verarbeitungsverantwortung auf Sie; es nimmt sie nicht weg. Sie sichern weiterhin den Host, steuern die Aufbewahrung und regeln, wer die Access Map lesen darf — und diese Karte ist selbst sensibel, weshalb jeder privilegierte Zugriff darauf auditiert wird und sich die Komponenten gegenseitig per mutual TLS authentifizieren. Das Produkt reduziert die Anbieter-Angriffsfläche auf nahezu null; es entlastet den Betreiber nicht.

Das Fazit

Wenn ein Regulierer, ein Datenschutzbeauftragter oder Ihr eigenes Sicherheitsteam fragt „Wohin gehen unsere Daten, wenn wir dieses KI-Governance-Werkzeug einführen?“, lautet die überzeugendste mögliche Antwort „nirgendwohin — sie verlassen nie das System, und das Werkzeug sieht sie nie“. Diese Antwort ergibt sich aus der Architektur: selbstgehostete Ausführung, Speicherung nach dem Prinzip Kanten-statt-Nutzdaten, Schwärzung vor dem Schreiben, keine Telemetrie nach Hause und air-gapped-Betrieb mit null Egress. Ein Zertifikat kann gute Prozesse belegen; es kann nicht mit der Garantie von Daten mithalten, die nie erhalten wurden.

Wenn Sie die vollständige, ehrliche Version dieser Position möchten — einschließlich der noch nicht zertifizierten Compliance-Haltung und der Frage, wie ein AV-Vertrag nach Art. 28 DSGVO hineinpasst —, sehen Sie sich /security an. Wenn Sie lieber den Code lesen möchten, der die Aussage untermauert: Das vollständige Produkt ist unter AGPL-3.0 selbsthostbar und auf der Seite /open-source verfügbar.

Häufige Fragen

Reduziert ein selbstgehostetes KI-Governance-Werkzeug das DSGVO-Risiko?

Ja, strukturell. Wenn die Control Plane innerhalb Ihres eigenen Perimeters läuft und ausschließlich Zugriffsbeziehungen speichert (welcher Agent welche Ressource erreicht, lesend vs. lesend/schreibend) statt Nutzdaten, Secrets oder personenbezogener Daten, wird das Werkzeug niemals zum anbieterseitigen Auftragsverarbeiter Ihrer personenbezogenen Daten. Es gibt nichts, das nach Hause telefoniert, und im air-gapped-Betrieb keinerlei Egress. In der Regel bleiben Sie Verantwortlicher und Verarbeiter innerhalb Ihrer eigenen Infrastruktur gemäß Art. 28 DSGVO.

Ist Olivares AI nach SOC 2 oder ISO 27001 zertifiziert?

Nein. Das Produkt befindet sich in der Pre-Release-Phase und ist weder nach SOC 2, ISO/IEC 27001, der EU-KI-Verordnung noch einem anderen Rahmenwerk zertifiziert, und es läuft kein Audit. Es ist so konzipiert, dass es auf die Kontrollziele abbildet, die diese Rahmenwerke prüfen, sodass es später auditbereit ist. Ein Auftragsverarbeitungsvertrag (Art. 28 DSGVO) ist für die Beschaffung im Enterprise-Umfeld auf Anfrage verfügbar.

Sehen Sie, worauf Ihre Agenten zugreifen können

Olivares AI ist die offene, selbstgehostete Plattform für Ihre KI-Landschaft. Betreiben Sie sie auf Ihrer eigenen Infrastruktur und erhalten Sie die Zugriffskarte, nach der Ihre Security- und Platform-Teams seit Langem fragen.