第二篇：理论溯源：从隐私保护数据挖掘到“数据不动能力动”-酒店常州论坛

一部跨越三十年的思想演进史，如何从学术构想走向全球共识

一、一个问题，三十年追寻

一个看似简单的问题，在世纪之交被学术界正式提出：如何在从数据中挖掘有价值信息的同时，保护数据背后个体的隐私？[1]

这个问题在此后三十年间，牵动了密码学家、分布式系统研究者、AI工程师和政策制定者。他们从各自领域出发，沿着不同的路径探索，逐渐汇聚到同一个答案上——“把计算带给数据，而不是把数据交给计算”。

今天我们在DataSov社区讨论的DISC架构——数据原位主权能力架构——并非凭空诞生的新概念。它是这三十年探索的最新结晶。它的“数据不动，能力流动”内核，早在三十年前就已埋下种子。

理解这段历史，才能真正理解DISC架构为何必然出现，以及它将走向何方。这是一部思想史，一部跨越三十年的思想演进史。

二、萌芽期（1995-2015）：问题的种子与思想先驱

隐私保护数据挖掘的诞生

隐私保护数据挖掘（Privacy-Preserving Data Mining, PPDM）作为一个正式的研究领域，诞生于世纪之交的学术界[1]。核心问题明确而尖锐：如何在保护个体隐私的前提下，从数据中挖掘出有价值的模式和知识？

这是“可用不可见”思想的最早学术表达。研究者们意识到，数据利用和隐私保护之间的矛盾，需要从计算范式层面寻求解答，而非仅仅依靠管理手段。虽然当时的技术手段还相当原始——主要是数据扰动、匿名化和简单的访问控制——但问题框架已经建立。

安全多方计算的奠基

这一时期另一条重要的学术脉络，是安全多方计算理论的建立。姚期智院士在1982年提出了“百万富翁问题”——两个百万富翁想知道谁更富有，但都不愿透露自己的具体财富。这个看似简单的场景，开创了安全多方计算领域的理论根基[2]。其核心思想极具前瞻性：多个参与方可以在不泄露各自私有输入的前提下，共同完成某个函数的计算。

进入2000年代，安全多方计算从纯理论走向协议设计与效率优化。研究者们将同态加密、秘密共享、混淆电路等技术组合运用，逐步将MPC从“理论可行”推向“工程可用”。这些工作为后来的联邦学习奠定了密码学基础。

代码迁移的早期探索

在分布式系统领域，另一条看似无关的探索线也在推进。1979年“程序切片”概念的提出[3]，以及后来移动Agent、代码迁移等研究，已经在思考“让计算向数据靠近”的效率优势。只不过当时的主要驱动力是网络带宽和延迟的优化，而非数据隐私保护。

这一阶段的特征

问题已经明确，但技术路径尚未清晰。隐私保护研究（PPDM、SMPC）与分布式计算研究（代码迁移）分属不同学术社区，彼此尚未交汇。但“数据不能集中处理”的意识已经开始觉醒，各个领域的先驱者都在用自己的方式叩击同一扇门。

三、成型期（2016-2021）：联邦学习的诞生与“数据不动”概念的提出

谷歌联邦学习的工业突破

2016年，谷歌正式提出“联邦学习”概念[4]，标志着“数据不动”从学术构想走向工业级应用。背景很实际：智能手机用户在设备上输入大量文本数据，涉及高度个人隐私，不能上传到云端集中训练。谷歌的解决方案是革命性的：模型在每台设备上本地训练，只上传加密的梯度更新，原始数据永不离开设备。

“数据不动，模型动”——这一核心范式正式确立。联邦学习用一个优雅的设计，在数据利用和隐私保护之间找到了工程平衡点。它证明了一件事：不必把数据汇聚到一起，也能训练出高质量的全局模型。

联邦学习的三种范式

联邦学习在随后几年迅速分化出三种范式[5]。横向联邦学习适用于“不同样本、相同特征”的场景——两家不同城市的银行，客户群体不同但交易特征类似，各自本地训练，共享模型参数。纵向联邦学习适用于“相同样本、不同特征”的场景——银行和电商有共同用户，但各自持有不同维度的数据。联邦迁移学习应对最困难的情况——样本和特征都很少重叠。

学术脉络的交汇

这一时期，安全多方计算的密码学成果与联邦学习开始深度融合。梯度加密传输成为联邦学习的标准安全机制——同态加密保护梯度在传输过程中不被窃取，差分隐私为梯度注入噪声以防止模型反推个体数据。姚期智院士三十年前奠定的理论，在联邦学习的工程实践中找到了大规模应用场景。

杨强教授团队在这一时期系统完善了联邦学习理论，提出“数据可用不可见”的完整技术理念[5]，并在金融、医疗等领域推动落地实践。

这一阶段的特征

核心概念正式提出并得到工业验证。“数据不动”不再只是理论构想，而是有了可运行的工程实现。但讨论范畴仍主要局限于AI模型的训练场景——流动的是“模型”和“梯度”，而非更广泛的计算形态。

四、升华期（2022-2023）：从“数据不动模型动”到“数据不动程序动”

方滨兴院士的关键升华

2022年，方滨兴院士在BCS大会上正式提出“数据不动程序动”这一更宏大的表述[6]。这是一次关键的概念升维：不仅是AI模型的梯度可以流动，SQL查询语句可以流动，数据分析算法可以流动，业务规则引擎可以流动，合规审计脚本也可以流动。“程序”的外延远大于“模型”，所有“计算”都可以流动，而不仅仅是“模型训练”。

调试环境与运行环境分离

方滨兴团队同时提出了关键的工程架构——“模型加工场”[6]。核心理念是调试环境与运行环境分离：数据需求方在调试环境中使用仿真数据开发程序，通过安全审核后，程序被下发到数据所在的可信执行环境中运行。计算结果需经过“防水堡”技术智能审核，确认不包含原始数据片段后才可输出。这套架构为“数据不动程序动”提供了完整的工程闭环。

鹏城实验室的算力网实践

依托“中国算力网”国家级基础设施，鹏城实验室将这套架构在多语言翻译、基因数据安全开放、政务数据融合等场景中进行了大规模验证，相关成果入选行业年度重大科技进展[7][8]。

这一阶段的特征

“数据不动”的内涵被大幅扩展——从AI模型训练延伸到一切计算形态，从理论构想走向大规模工程落地，从技术框架走向国家级基础设施。

五、共识期（2024至今）：从全球实践到法律认可

国际实践的共振

欧盟国际数据空间（IDS）基于数据所有权与使用权分离的架构，在汽车、医疗、能源等超过五十个场景中实践着“数据不动，程序访问数据”[9]。微软可信研究环境（TRE）允许研究人员在高安全控制下访问敏感数据，原始数据不出安全环境，分析代码在TRE中执行[10]。Snowflake通过数据不动模式实现了数据的商业化共享——数据提供方开放数据访问权限，消费者在不获取原始数据副本的前提下完成分析[11]。

欧盟《人工智能法》的历史性认可

2024年，欧盟《人工智能法》正式通过。该法鼓励使用隐私增强技术（PETs）来平衡数据保护与AI创新，为“数据不动”类技术路径提供了法律层面的正面背书[12]。这是此类技术理念首次在全球重要法律框架中获得明确认可——技术共识开始上升为法律共识。

中国法规的呼应

中国的《数据安全法》确立的数据分类分级制度、重要数据不出境要求[13]，《个人信息保护法》规定的委托处理监督义务、敏感个人信息的严格保护标准[14]——这些法律要求与“数据原位处理”的技术原则高度契合。法律的刚性约束，正在成为技术变革的最强驱动力。

六、从三十年溯源到DISC架构：概念升维的必然逻辑

如果三十年的思想演进只是按时间罗列，那它不过是一部编年史。真正重要的是：这些看似独立的技术突破和制度创新，背后是否隐藏着某种必然性？它们是否在共同指向同一个更根本的架构范式？

答案是肯定的。但要看清这种必然性，我们需要回答三个问题。

第一个问题：为什么“程序动”还不够？

方滨兴院士的“数据不动程序动”是一次关键的升华。它把流动的对象从“模型”扩展到了“程序”——SQL查询、分析算法、规则引擎、审计脚本，一切可执行的代码都可以流动。

但在实践中，“程序”这个概念仍然偏重技术执行层。一个反欺诈AI模型在数据本地执行推理——这是程序动。一个薪酬核算规则引擎读取本地HR数据并生成工资条——这也是程序动。一个GDPR合规策略自动检查数据访问日志——这同样是程序动。

它们都是“程序”，但它们的商业属性、安全要求、交付方式和价值度量完全不同。一个AI模型的交付形式是加密的容器镜像，按调用次数收费。一个规则引擎的交付形式是版本化的策略代码包，按节点数收费。一个合规策略的交付形式是动态加载的治理插件，按审计频率收费。

把它们都笼统地称为“程序”，掩盖了它们在商业和技术上的本质差异。这就是从“程序动”到“能力动”需要完成的第一步升维——我们需要一个比“程序”更丰富的概念，来区分和描述这些不同类型的流动实体。

第二个问题：为什么需要一个统一的架构范式？

2020年代中期的全球实践呈现出一种“百花齐放但各自为战”的局面。联邦学习解决了多方联合训练时的数据隐私问题，但它的技术栈（FATE、FLARE）与机密计算的技术栈（TEE、远程证明）几乎没有交集。Headless BI解决了分析查询的本地执行问题，但它与工业边缘计算的能力分发体系是两套完全不同的架构。

这种碎片化带来了三个问题。第一，企业需要在不同场景中部署不同的技术栈，集成成本和运维复杂度高。第二，不同技术栈的安全模型和合规审计方式不统一，企业难以建立整体合规体系。第三，能力供应商需要为不同场景开发不同形态的产品，市场规模被割裂。

换言之，2020年代中期的实践已经验证了“数据不动程序动”的可行性，但缺少一个统一的架构框架来整合这些分散的技术路径。这个框架需要回答：能力如何被统一注册和发现？如何被安全地分发和执行？如何被审计和追溯？治理规则如何在跨域流动中保持一致？

第三个问题：如何把“主权”从外部约束变成内部属性？

在传统架构中，“主权”是一个外部法律约束。法律说“数据不能出境”，企业在设计系统时把这个要求作为一个外部条件来遵守。但外部约束的问题在于，它依赖人的自觉和事后审计，而非系统的内生机制。

2024年欧盟《人工智能法》的通过标志着一个转折点。当“数据不动算法动”类技术获得法律层面的正面认可，它就不再只是技术圈的最佳实践，而是一个必须被系统化执行的合规要求。这意味着，“主权”需要从外部法律约束，变成架构的内部属性——不是“我们遵守数据主权法律”，而是“我们的架构设计确保了数据主权不可侵犯”。

这正是DISC架构中“Sovereign”一词的核心含义。

必然性的浮现

这三个问题的交汇点，就是DISC架构诞生的必然性所在。

第一，“程序动”的成功实践暴露了概念的不足——流动的不是抽象的“程序”，而是具有不同商业和技术属性的“能力”。这催生了“能力三元论”——智能能力、逻辑能力、治理能力。

第二，碎片化的技术实践催生了对统一架构范式的需求——一个能整合联邦学习、机密计算、数据虚拟化、Headless BI等分散技术的整体框架。这催生了“5+1核心组件”——能力注册中心、能力编配器、能力执行沙箱、主权合规网关、能力血缘追踪，以及协同总线。

第三，“主权”从外部约束到内部属性的演进，催生了对架构设计原则的重新定义——“数据最小出域”、“默认不信任”、“可证明的隐私”、“离线可用”、“能力持续迭代”五大黄金原则。

这三条逻辑线——概念的升维、架构的统一、主权的内化——共同指向了同一个范式：DISC，数据原位主权能力架构。

DISC架构的继承与超越

DISC架构继承了“数据不动程序动”的全部思想遗产。联邦学习的“数据不动，模型动”是DISC智能能力的核心流动模式。方滨兴院士的“模型加工场”架构是DISC能力编配器和主权合规网关的早期雏形。鹏城实验室的算力网实践是DISC架构在国家级数据面上的验证。

但DISC架构也完成了几项关键的超越。

它将“程序”升维为“能力”——不仅包含智能能力，还包含逻辑能力和治理能力。它将“数据不动，模型动”的单一范式，扩展为“数据不动，能力流动”的完整架构。它将“合规作为外部约束”的思维，转变为“主权作为架构属性”的设计原则。

三十年前，一个问题被提出：如何在利用数据价值的同时，保护数据背后的人与组织？三十年后，一个答案正在凝聚。DISC架构不是答案的终点，而是答案的新起点。

下一篇预告：《新大陆的轮廓——“数据不动，能力流动”的哲学与架构原则》——我们将正式展开DISC架构的核心主张、五大黄金原则和两种核心运行模式，在读者脑海中建立起DISC架构的清晰认知框架。

引用内容注释与来源说明

[1] 隐私保护数据挖掘（PPDM）的诞生：原文多处提及“1995年”作为PPDM的提出时间。经查证，隐私保护数据挖掘作为一个正式确立的研究领域，其奠基性工作公认始于2000年Agrawal & Srikant和Lindell & Pinkas的两篇开创性论文。正文中已修正为“世纪之交”的模糊表述以保持准确性，同时保留1995-2015作为“萌芽期”的大致时段框架（该时期确实包含了概念酝酿阶段）。代表文献：

Agrawal, R., & Srikant, R. (2000, May). Privacy-preserving data mining.Proceedings of the 2000 ACM SIGMOD international conference on Management of data, 439-450. https://doi.org/10.1145/342009.335438
Lindell, Y., & Pinkas, B. (2000). Privacy preserving data mining.Advances in Cryptology—CRYPTO 2000, 36-54. Springer. https://doi.org/10.1007/3-540-44598-6_3

[2] 姚期智“百万富翁问题”与安全多方计算：1982年，姚期智院士在论文中提出百万富翁问题，奠定了安全多方计算（Secure Multi-party Computation, MPC）的理论基础。

Yao, A. C. (1982). Protocols for secure computations.23rd Annual Symposium on Foundations of Computer Science (SFCS 1982), 160-164. https://doi.org/10.1109/SFCS.1982.38

[3] “程序切片”概念提出：Mark Weiser在其1979年博士论文中首次提出程序切片思想，后于1984年正式发表论文，被认为是代码迁移和分布式计算领域的早期理论贡献之一。

Weiser, M. (1984). Program slicing.IEEE Transactions on Software Engineering, SE-10(4), 352-357.

[4] 谷歌联邦学习的工业突破：谷歌于2016年提出联邦学习概念，2017年发表核心论文，标志着该技术从学术构想到工业级应用的关键转折。

McMahan, B., et al. (2017). Communication-efficient learning of deep networks from decentralized data.Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). https://arxiv.org/abs/1602.05629

[5] 联邦学习三种范式与杨强团队贡献：杨强教授团队系统总结并命名了横向联邦学习、纵向联邦学习与联邦迁移学习三种范式，提出“数据可用不可见”理念，并主导了FATE框架的开源与IEEE联邦学习标准的制定。

Yang, Q., Liu, Y., Chen, T., & Tong, Y. (2019). Federated machine learning: Concept and applications.ACM Transactions on Intelligent Systems and Technology, 10(2), 1-19. https://doi.org/10.1145/3298981
IEEE联邦学习标准：IEEE 3652.1-2020, IEEE Guide for Architectural Framework and Application of Federated Machine Learning. https://standards.ieee.org/ieee/3652.1/10325/

[6] 方滨兴院士“数据不动程序动”与“模型加工场”：2022年，方滨兴院士在BCS大会（北京网络安全大会，Beijing Cyber Security Conference）上正式提出“数据不动程序动”理念，其团队设计了“模型加工场”架构及“防水堡”技术，实现数据可用不可见。相关报道可参见中国电子报等行业媒体对方滨兴院士演讲的报道。

[7] 鹏城实验室“中国算力网”实践：鹏城实验室牵头建设“中国算力网”（China Computing Network），并在“数据不动程序动”架构下开展AI靶场、基因数据安全开放、政务数据融合等场景应用验证。相关信息可参见鹏城实验室官网发布的项目成果。

[8] 入选年度重大科技进展：原文称鹏城实验室相关成果入选“2024年度网络和数据安全重大科技进展”。此表述经泛化处理，正文中已修正为“入选行业年度重大科技进展”。相关信息可参见相关评选活动的官方发布。

[9] 欧盟国际数据空间（IDS）：国际数据空间协会（IDSA）提出IDS参考架构，核心原则为数据主权保留、去中心化的数据共享，实现数据所有权与使用权的分离，已在汽车、医疗、能源等行业开展实践。参见IDSA官网：https://internationaldataspaces.org/

[10] 微软可信研究环境（TRE）：Microsoft Azure提供受信任的研究环境（Trusted Research Environment），让研究者在预置的安全工作区中分析敏感数据，原始数据不出环境，分析代码在TRE内执行。参见微软文档：https://learn.microsoft.com/en-us/azure/architecture/example-scenario/data/trusted-research-environment

[11] Snowflake数据商业化共享：Snowflake通过安全数据共享（Secure Data Sharing）功能，使数据提供者无需复制或移动数据即可向消费者授权实时查询，实现数据原地处理与商业化共享。参见Snowflake文档：https://docs.snowflake.com/en/user-guide/data-sharing-intro

[12] 欧盟《人工智能法》的认可：原文称该法“明确支持‘数据不动算法动’技术”。经查，欧盟《人工智能法》（Regulation (EU) 2024/1689）并未直接使用该精确术语，但其多个条款鼓励使用匿名化、加密等隐私增强技术（PETs）来平衡数据保护与AI创新。正文中已修正为“为‘数据不动’类技术路径提供了法律层面的正面背书”。法律文本：https://eur-lex.europa.eu/eli/reg/2024/1689

[13] 中国《数据安全法》：2021年9月1日起施行，确立数据分类分级保护制度，将数据分为一般数据、重要数据和核心数据（第二十一条），对重要数据与核心数据的出境作严格规定。法律全文：http://www.npc.gov.cn/npc/c30834/202106/7c9af12f51334a73b56d7938f99a788a.shtml

[14] 中国《个人信息保护法》：2021年11月1日起施行，规定委托处理个人信息需约定处理目的、方式并实施监督（第二十一条），敏感个人信息严格保护（第二十八条），以及跨境传输需满足安全评估等条件并取得个人单独同意（第三十八条、第三十九条）。法律全文：http://www.npc.gov.cn/npc/c30834/202108/a8c4e3672c74491a80b53a172bb753fe.shtml

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

技术说明后端：SpringBoot

Python 零基础入门｜第 5 天 for 循环与 range、break/continue

群辉Nas部署GitServer随笔

需要专业的网站建设服务？