Większość rozmów o ochronie danych w kontekście nadzoru nad AI zaczyna się w niewłaściwym miejscu. Pytają, jakie certyfikaty posiada dostawca, jakich podwykonawców przetwarzania wymienia, w którym regionie znajduje się jego chmura. To realne pytania. Jednak dla konkretnej kategorii narzędzi, które obserwują Państwa agentów AI — wykrywając każdego agenta, sesję, model i serwer MCP w Państwa infrastrukturze i odwzorowując, do czego każde z nich może sięgnąć — pod spodem kryje się pytanie bardziej fundamentalne: czy samo narzędzie nadzoru kiedykolwiek otrzymuje Państwa dane?
Jeżeli odpowiedź brzmi „tak”, to właśnie powstał nowy podmiot przetwarzający, nowa kopia wrażliwego materiału, nowe miejsce, które może zostać naruszone, objęte wezwaniem sądowym albo zmuszone do odsyłania danych. Jeżeli odpowiedź brzmi „nie” — strukturalnie, z założenia — to większość dalszych pytań związanych z RODO znacznie się kurczy. Tak właśnie wygląda argumentacja za samodzielnym hostowaniem platformy AI i warto przedstawić ją precyzyjnie, bez przesady.
Gwarancja prywatności, która ma znaczenie, jest strukturalna, a nie certyfikatowa
Raport SOC 2 lub certyfikat ISO 27001 mówi, że dostawca ma procesy wokół danych, które przechowuje. To przydatne, ale jest to oświadczenie o zarządzaniu dostępem do Państwa danych. Znacznie mocniejszą gwarancją jest w ogóle nieprzechowywanie tych danych. Nie da się ujawnić, niewłaściwie obsłużyć ani zostać zmuszonym do wyjawienia czegoś, czego nigdy się nie otrzymało.
Samodzielne hostowanie zapewnia dokładnie to. Gdy warstwa sterowania działa wewnątrz Państwa własnych hostów, klastrów lub chmur — w tym w trybie w pełni air-gapped, bez ruchu wychodzącego — wrażliwy materiał, który obserwuje, nigdy nie przekracza Państwa perymetru. Dostawca nie jest podwykonawcą przetwarzania Państwa danych operacyjnych, ponieważ dostawca nigdy ich nie widzi. To fakt architektoniczny, a nie obietnica zapisana w polityce, którą trzeba audytować.
Żeby jasno określić, na jakim etapie jest ten produkt: Olivares AI jest w fazie przedpremierowej. Nie posiada certyfikacji w ramach SOC 2, ISO/IEC 27001, unijnego aktu w sprawie AI ani żadnych innych ram, a żaden audyt nie jest w toku. Produkt jest projektowany pod kątem celów kontrolnych badanych przez te ramy — rejestrowanie audytu, kontrola dostępu, integralność, szyfrowanie, zarządzanie zmianą — dzięki czemu jest gotowy do audytu, gdy nadejdzie ku temu pora. Poniższy argument dotyczący rezydencji nie zależy od żadnej certyfikacji i o to właśnie chodzi.
Krawędzie, a nie ładunki
Kluczową decyzją projektową jest to, co zostaje zapisane. Narzędzie do nadzoru nad AI musi rozumieć, kto może czego dotknąć. Nie potrzebuje treści zapytań, ciał promptów, sekretów ani danych osobowych przepływających przez te dotknięcia.
Dlatego graf przechowuje krawędzie, a nie ładunki: relację dostępu między agentem a zasobem oraz to, czy ten dostęp ma charakter odczytu (R), czy odczytu/zapisu (RW). data-export-job → prod-postgres (RW) to krawędź. Wiersze odczytane przez to zadanie nie są przechowywane. Mapa odnotowuje, że agent sięgnął do obiektu w s3://billing-exports; nie kopiuje samego eksportu.
| Przechowywane (mapa dostępu) | Nieprzechowywane |
|---|---|
| Tożsamość agenta (rola / nazwa aplikacji) | Wartości poświadczeń, tokeny, klucze |
Osiągnięty zasób (prod-postgres) | Ciała zapytań, wiersze wyników |
| Typ dostępu — R lub RW | Ładunki promptów i odpowiedzi |
| Znacznik czasu, wynik, poziom pewności | Sekrety, dane osobowe w tranzycie |
Dane wejściowe, które mogą zawierać sekrety lub dane osobowe, są redagowane i skanowane pod kątem sekretów zanim cokolwiek zostanie zapisane, więc redakcja następuje na krawędzi zbierania danych, a nie jako późniejsze porządkowanie. Czego nie przechowują Państwo, tego nie ujawnią — a czego nie mogą ujawnić, to nie powiększa Państwa śladu przetwarzania w rozumieniu RODO.
Jak dane pozostają wewnątrz perymetru
Trzy właściwości utrzymują tę uczciwość w działaniu:
Obserwacja w pierwszej kolejności przez odczyt. Kolektor obserwuje za pośrednictwem sygnałów, które i tak Państwo wytwarzają — dzienników aplikacji i audytu, OpenTelemetry oraz eBPF jako mechanizmu stanowiącego źródło prawdy na poziomie jądra. Nie jest proxy w ścieżce danych agenta, więc widzi kształt dostępu, a nie treść, a jeśli zawiedzie, nigdy nie zatrzyma produkcji. Nie ma obowiązkowego pośrednika kopiującego Państwa ruch.
Brak odsyłania telemetrii. Zasada bezpieczeństwa domyślnie oznacza brak odsyłania danych do dostawcy. Telemetria dostawcy jest wyłączona, chyba że jawnie zostanie włączona. Nic na temat Państwa infrastruktury — ani nazwy agentów, ani mapa dostępu, ani liczniki użycia — nie jest domyślnie odsyłane do dostawcy.
Air-gapped z zerowym ruchem wychodzącym. W sieciach odłączonych, regulowanych lub niejawnych warstwa sterowania działa w całości lokalnie, a licencjonowanie jest weryfikowane offline. Nie ma drogi na zewnątrz, kropka. Dla wymogu rezydencji danych mówiącego, że dane z UE muszą pozostać na infrastrukturze unijnej pod Państwa kontrolą, hostowane samodzielnie wdrożenie w trybie air-gapped jest najbardziej dosłowną możliwą odpowiedzią: dane się nie przemieszczają, bo nie ma dokąd ich przenieść.
Retencja i czyszczenie są konfigurowalne, więc to Państwo kontrolują, jak długo utrzymuje się nawet sama mapa dostępu.
Odwzorowanie na art. 28 RODO — uczciwie
Art. 28 RODO reguluje relację administrator–podmiot przetwarzający oraz to, co musi obejmować umowa powierzenia przetwarzania danych. Istotna obserwacja jest taka, że w przypadku wdrożenia hostowanego samodzielnie typowa relacja „dostawca jako podmiot przetwarzający” w odniesieniu do Państwa danych operacyjnych w dużej mierze zanika: ponieważ narzędzie działa w Państwa infrastrukturze i nigdy nie otrzymuje tych danych, w większości wdrożeń pozostają Państwo administratorem i podmiotem przetwarzającym własne dane we własnym środowisku.
Nie czyni to umowy powierzenia bezprzedmiotową. Relacja handlowa wciąż korzysta na sformalizowaniu odpowiedzialności — za łańcuch dostaw oprogramowania, za dostęp do wsparcia, za wszelkie przyszłe komponenty zarządzane. Umowa powierzenia przetwarzania danych na podstawie art. 28 jest dostępna na życzenie na potrzeby procesów zakupowych klientów korporacyjnych. Zmienia się zakres: nie ma listy miejsc, do których wysłano Państwa dane osobowe, ponieważ nigdy nie zostały wysłane. To znacznie krótsza i znacznie łatwiejsza do obrony rozmowa z inspektorem ochrony danych lub działem zakupów niż „proszę zaufać naszej liście podwykonawców”.
To argument strukturalny, więc do jego granic należy podejść z taką samą uczciwością. Samodzielne hostowanie przenosi odpowiedzialność za rezydencję i przetwarzanie na Państwa; nie usuwa jej. Nadal Państwo zabezpieczają host, kontrolują retencję i nadzorują, kto może odczytać mapę dostępu — a sama ta mapa jest wrażliwa, dlatego każdy uprzywilejowany wgląd w nią jest audytowany, a komponenty uwierzytelniają się wzajemnie za pomocą mutual TLS. Produkt redukuje powierzchnię po stronie dostawcy do niemal zera; nie zwalnia operatora.
Wniosek
Jeżeli organ regulacyjny, inspektor ochrony danych albo Państwa własny zespół ds. bezpieczeństwa zapyta: „dokąd trafiają nasze dane po wdrożeniu tego narzędzia do nadzoru nad AI”, najmocniejszą możliwą odpowiedzią jest „donikąd — nigdy go nie opuszczają, a narzędzie nigdy ich nie widzi”. Ta odpowiedź wynika z architektury: hostowane samodzielnie wykonywanie, przechowywanie krawędzi zamiast ładunków, redakcja przed zapisem, brak odsyłania telemetrii oraz działanie w trybie air-gapped z zerowym ruchem wychodzącym. Certyfikat może potwierdzić dobry proces; nie dorówna gwarancji wynikającej z danych, których nigdy nie otrzymano.
Jeżeli chcą Państwo zapoznać się z pełną, uczciwą wersją tej postawy — w tym z jeszcze niecertyfikowanym stanowiskiem w zakresie zgodności oraz tym, jak wpisuje się w nią umowa powierzenia z art. 28 RODO — proszę zajrzeć na stronę /security. Jeżeli wolą Państwo przeczytać kod, który stoi za tym twierdzeniem, kompletny produkt można hostować samodzielnie na licencji AGPL-3.0 na stronie /open-source.