关于 AI 治理的多数数据保护讨论,起点都选错了地方。它们追问厂商持有哪些认证、列出了哪些子处理者、其云部署在哪个区域。这些都是切实的问题。但对于这一类专门监管您的 AI agent 的工具而言——发现您基础设施上的每一个 agent、会话、模型和 MCP server,并映射出每一个能触达什么——其下还潜藏着一个更根本的问题:治理工具本身是否会接触到您的数据?
如果答案是会,那么您刚刚就制造出了一个新的处理者、一份新的敏感材料副本、一处可能被攻破、被传票调取或被迫回传的新位置。如果答案是不会——从结构上、由设计决定地不会——那么下游绝大多数 GDPR 问题都会大幅缩小。这正是自托管 AI 平台的意义所在,值得精确地说清楚,而不夸大其词。
真正要紧的隐私保障是结构性的,而非一纸证书
一份 SOC 2 报告或一张 ISO 27001 证书表明厂商围绕其所持有的数据建立了流程。这有用,但它陈述的是对您数据访问的治理。一种远为有力的保障是从一开始就不持有这些数据。您无法泄露、错误处理或被强制披露您从未接收过的东西。
自托管恰恰提供了这一点。当控制平面运行在您自己的主机、集群或云中——包括完全 air-gapped、零出口流量——它所观测到的敏感材料从不越过您的边界。厂商不是您运营数据的子处理者,因为厂商从来看不到它。这是一项架构事实,而非一条您还得去审计的政策承诺。
把本产品的现状讲清楚:Olivares AI 处于预发布阶段。它尚未通过 SOC 2、ISO/IEC 27001、EU AI Act 或任何其他框架的认证,也没有正在进行的审计。本产品在设计上对齐这些框架所考察的控制目标——审计日志、访问控制、完整性、加密、变更管理——因此在时机到来时随时可接受审计。下文的驻留论证并不依赖任何认证,而这恰恰是关键所在。
只记录边,而非负载
核心的设计决策在于存储什么。一个 AI 治理工具必须搞清楚谁能触达什么。它并不需要查询的内容、prompt 正文、密钥,或在这些触达中流动的个人数据。
因此该图只存储边,而非负载:agent 与资源之间的访问关系,以及该访问是读(R)还是读/写(RW)。data-export-job → prod-postgres (RW) 就是一条边。该任务读取的行不会被存储。访问地图记录的是某个 agent 触达了 s3://billing-exports 中的一个对象;它不会复制那份导出文件。
| 已存储(访问地图) | 未存储 |
|---|---|
| Agent 身份(角色 / 应用名称) | 凭据值、token、密钥 |
触达的资源(prod-postgres) | 查询正文、结果行 |
| 访问类型——R 或 RW | prompt 与响应负载 |
| 时间戳、结果、置信度 | 传输中的密钥、PII |
可能携带密钥或个人数据的输入会在写入任何内容之前被脱敏并经过密钥扫描,因此脱敏发生在采集的边缘,而非作为事后的清理。不存储的东西,就无法泄露——而无法泄露的东西,不会扩大您的 GDPR 处理足迹。
数据如何留在边界之内
有三项特性让这一点在运行中保持诚实可靠:
读优先观测。 采集器通过您已经产生的信号进行观测——应用与审计日志、OpenTelemetry,以及作为内核级最可靠备份方案(ground truth)的 eBPF。它不是 agent 数据路径上的代理,因此它看到的是访问的形态,而非内容,并且即便它出故障也绝不会拖垮生产。不存在强制性的中间人来复制您的流量。
无遥测回传。 默认安全意味着不回传。除非您显式开启,否则厂商遥测处于关闭状态。关于您的环境的任何信息——无论是 agent 名称、访问地图还是使用计数——默认都不会回传给厂商。
Air-gapped 且零出口流量。 在断网、受监管或涉密网络中,控制平面完全在本地运行,许可证离线校验。没有任何出去的路径,到此为止。对于「欧盟数据必须保留在您掌控的欧盟基础设施上」这类数据驻留要求,air-gapped 自托管部署是最字面意义上的答案:数据不会移动,因为它根本无处可移。
保留与清除均可配置,因此即便是访问地图,您也能掌控它保留多久。
与 GDPR 第 28 条对齐——诚实地
GDPR 第 28 条规范控制者与处理者之间的关系,以及数据处理协议必须涵盖的内容。要紧的观察在于:在自托管部署中,针对您运营数据的那种常规「厂商即处理者」关系基本上被大幅弱化了——因为工具运行在您的基础设施中且从不接收这些数据,在大多数部署里,您仍然是您自己环境中、对您自己数据的控制者与处理者。
这并不意味着 DPA 毫无意义。一段商业关系仍然受益于将责任形式化——针对软件供应链、针对支持访问、针对任何未来的托管组件。面向企业采购,可应要求提供第 28 条下的数据处理协议。改变的是其范围:不存在一份「您的个人数据被运往何处」的清单,因为它从未被运出去过。与一位 DPO 或采购团队进行的这场对话,会比「请信任我们的子处理者清单」短得多、也好辩护得多。
这是一个结构性论证,因此请以同样的诚实对待其边界。自托管把驻留与处理的责任移交给您;它并不消除这份责任。您仍要保护主机、控制保留、并治理谁能读取访问地图——而这份地图本身就是敏感的,这正是为什么对它的每一次特权查看都会被审计、且各组件之间以双向 TLS 相互认证。本产品把厂商侧的暴露面降到接近于零;但它并不免除运营者的责任。
结论
如果一位监管者、一位 DPO,或您自己的安全团队问「我们采用这个 AI 治理工具后,数据会去哪里」,最有力的答案就是「哪儿都不去——它从不离开,而工具也从不看到它」。这个答案源自架构:自托管执行、只记录边而非负载的存储、写入前脱敏、无遥测回传,以及零出口流量的 air-gapped 运行。证书可以印证良好的流程;但它无法比肩「从未接收过的数据」所带来的保障。
如果您想要这一态势完整而诚实的版本——包括尚未认证的合规立场,以及 GDPR 第 28 条下的 DPA 如何契合——请参见 /security。如果您更愿意直接阅读支撑这一主张的代码,完整产品在 /open-source 页面以 AGPL-3.0 形式自托管可用。