一部跨越三十年的思想演进史,如何从学术构想走向全球共识
一、一个问题,三十年追寻
一个看似简单的问题,在世纪之交被学术界正式提出:如何在从数据中挖掘有价值信息的同时,保护数据背后个体的隐私?[1]
这个问题在此后三十年间,牵动了密码学家、分布式系统研究者、AI工程师和政策制定者。他们从各自领域出发,沿着不同的路径探索,逐渐汇聚到同一个答案上——“把计算带给数据,而不是把数据交给计算”。
今天我们在DataSov社区讨论的DISC架构——数据原位主权能力架构——并非凭空诞生的新概念。它是这三十年探索的最新结晶。它的“数据不动,能力流动”内核,早在三十年前就已埋下种子。
理解这段历史,才能真正理解DISC架构为何必然出现,以及它将走向何方。这是一部思想史,一部跨越三十年的思想演进史。
二、萌芽期(1995-2015):问题的种子与思想先驱
隐私保护数据挖掘的诞生
隐私保护数据挖掘(Privacy-Preserving Data Mining, PPDM)作为一个正式的研究领域,诞生于世纪之交的学术界[1]。核心问题明确而尖锐:如何在保护个体隐私的前提下,从数据中挖掘出有价值的模式和知识?
这是“可用不可见”思想的最早学术表达。研究者们意识到,数据利用和隐私保护之间的矛盾,需要从计算范式层面寻求解答,而非仅仅依靠管理手段。虽然当时的技术手段还相当原始——主要是数据扰动、匿名化和简单的访问控制——但问题框架已经建立。
安全多方计算的奠基
这一时期另一条重要的学术脉络,是安全多方计算理论的建立。姚期智院士在1982年提出了“百万富翁问题”——两个百万富翁想知道谁更富有,但都不愿透露自己的具体财富。这个看似简单的场景,开创了安全多方计算领域的理论根基[2]。其核心思想极具前瞻性:多个参与方可以在不泄露各自私有输入的前提下,共同完成某个函数的计算。
进入2000年代,安全多方计算从纯理论走向协议设计与效率优化。研究者们将同态加密、秘密共享、混淆电路等技术组合运用,逐步将MPC从“理论可行”推向“工程可用”。这些工作为后来的联邦学习奠定了密码学基础。
代码迁移的早期探索
在分布式系统领域,另一条看似无关的探索线也在推进。1979年“程序切片”概念的提出[3],以及后来移动Agent、代码迁移等研究,已经在思考“让计算向数据靠近”的效率优势。只不过当时的主要驱动力是网络带宽和延迟的优化,而非数据隐私保护。
这一阶段的特征
问题已经明确,但技术路径尚未清晰。隐私保护研究(PPDM、SMPC)与分布式计算研究(代码迁移)分属不同学术社区,彼此尚未交汇。但“数据不能集中处理”的意识已经开始觉醒,各个领域的先驱者都在用自己的方式叩击同一扇门。
三、成型期(2016-2021):联邦学习的诞生与“数据不动”概念的提出
谷歌联邦学习的工业突破
2016年,谷歌正式提出“联邦学习”概念[4],标志着“数据不动”从学术构想走向工业级应用。背景很实际:智能手机用户在设备上输入大量文本数据,涉及高度个人隐私,不能上传到云端集中训练。谷歌的解决方案是革命性的:模型在每台设备上本地训练,只上传加密的梯度更新,原始数据永不离开设备。
“数据不动,模型动”——这一核心范式正式确立。联邦学习用一个优雅的设计,在数据利用和隐私保护之间找到了工程平衡点。它证明了一件事:不必把数据汇聚到一起,也能训练出高质量的全局模型。
联邦学习的三种范式
联邦学习在随后几年迅速分化出三种范式[5]。横向联邦学习适用于“不同样本、相同特征”的场景——两家不同城市的银行,客户群体不同但交易特征类似,各自本地训练,共享模型参数。纵向联邦学习适用于“相同样本、不同特征”的场景——银行和电商有共同用户,但各自持有不同维度的数据。联邦迁移学习应对最困难的情况——样本和特征都很少重叠。
学术脉络的交汇
这一时期,安全多方计算的密码学成果与联邦学习开始深度融合。梯度加密传输成为联邦学习的标准安全机制——同态加密保护梯度在传输过程中不被窃取,差分隐私为梯度注入噪声以防止模型反推个体数据。姚期智院士三十年前奠定的理论,在联邦学习的工程实践中找到了大规模应用场景。
杨强教授团队在这一时期系统完善了联邦学习理论,提出“数据可用不可见”的完整技术理念[5],并在金融、医疗等领域推动落地实践。
这一阶段的特征
核心概念正式提出并得到工业验证。“数据不动”不再只是理论构想,而是有了可运行的工程实现。但讨论范畴仍主要局限于AI模型的训练场景——流动的是“模型”和“梯度”,而非更广泛的计算形态。
四、升华期(2022-2023):从“数据不动模型动”到“数据不动程序动”
方滨兴院士的关键升华
2022年,方滨兴院士在BCS大会上正式提出“数据不动程序动”这一更宏大的表述[6]。这是一次关键的概念升维:不仅是AI模型的梯度可以流动,SQL查询语句可以流动,数据分析算法可以流动,业务规则引擎可以流动,合规审计脚本也可以流动。“程序”的外延远大于“模型”,所有“计算”都可以流动,而不仅仅是“模型训练”。
调试环境与运行环境分离
方滨兴团队同时提出了关键的工程架构——“模型加工场”[6]。核心理念是调试环境与运行环境分离:数据需求方在调试环境中使用仿真数据开发程序,通过安全审核后,程序被下发到数据所在的可信执行环境中运行。计算结果需经过“防水堡”技术智能审核,确认不包含原始数据片段后才可输出。这套架构为“数据不动程序动”提供了完整的工程闭环。
鹏城实验室的算力网实践
依托“中国算力网”国家级基础设施,鹏城实验室将这套架构在多语言翻译、基因数据安全开放、政务数据融合等场景中进行了大规模验证,相关成果入选行业年度重大科技进展[7][8]。
这一阶段的特征
“数据不动”的内涵被大幅扩展——从AI模型训练延伸到一切计算形态,从理论构想走向大规模工程落地,从技术框架走向国家级基础设施。
五、共识期(2024至今):从全球实践到法律认可
国际实践的共振
欧盟国际数据空间(IDS)基于数据所有权与使用权分离的架构,在汽车、医疗、能源等超过五十个场景中实践着“数据不动,程序访问数据”[9]。微软可信研究环境(TRE)允许研究人员在高安全控制下访问敏感数据,原始数据不出安全环境,分析代码在TRE中执行[10]。Snowflake通过数据不动模式实现了数据的商业化共享——数据提供方开放数据访问权限,消费者在不获取原始数据副本的前提下完成分析[11]。
欧盟《人工智能法》的历史性认可
2024年,欧盟《人工智能法》正式通过。该法鼓励使用隐私增强技术(PETs)来平衡数据保护与AI创新,为“数据不动”类技术路径提供了法律层面的正面背书[12]。这是此类技术理念首次在全球重要法律框架中获得明确认可——技术共识开始上升为法律共识。
中国法规的呼应
中国的《数据安全法》确立的数据分类分级制度、重要数据不出境要求[13],《个人信息保护法》规定的委托处理监督义务、敏感个人信息的严格保护标准[14]——这些法律要求与“数据原位处理”的技术原则高度契合。法律的刚性约束,正在成为技术变革的最强驱动力。
六、从三十年溯源到DISC架构:概念升维的必然逻辑
如果三十年的思想演进只是按时间罗列,那它不过是一部编年史。真正重要的是:这些看似独立的技术突破和制度创新,背后是否隐藏着某种必然性?它们是否在共同指向同一个更根本的架构范式?
答案是肯定的。但要看清这种必然性,我们需要回答三个问题。
第一个问题:为什么“程序动”还不够?
方滨兴院士的“数据不动程序动”是一次关键的升华。它把流动的对象从“模型”扩展到了“程序”——SQL查询、分析算法、规则引擎、审计脚本,一切可执行的代码都可以流动。
但在实践中,“程序”这个概念仍然偏重技术执行层。一个反欺诈AI模型在数据本地执行推理——这是程序动。一个薪酬核算规则引擎读取本地HR数据并生成工资条——这也是程序动。一个GDPR合规策略自动检查数据访问日志——这同样是程序动。
它们都是“程序”,但它们的商业属性、安全要求、交付方式和价值度量完全不同。一个AI模型的交付形式是加密的容器镜像,按调用次数收费。一个规则引擎的交付形式是版本化的策略代码包,按节点数收费。一个合规策略的交付形式是动态加载的治理插件,按审计频率收费。
把它们都笼统地称为“程序”,掩盖了它们在商业和技术上的本质差异。这就是从“程序动”到“能力动”需要完成的第一步升维——我们需要一个比“程序”更丰富的概念,来区分和描述这些不同类型的流动实体。
第二个问题:为什么需要一个统一的架构范式?
2020年代中期的全球实践呈现出一种“百花齐放但各自为战”的局面。联邦学习解决了多方联合训练时的数据隐私问题,但它的技术栈(FATE、FLARE)与机密计算的技术栈(TEE、远程证明)几乎没有交集。Headless BI解决了分析查询的本地执行问题,但它与工业边缘计算的能力分发体系是两套完全不同的架构。
这种碎片化带来了三个问题。第一,企业需要在不同场景中部署不同的技术栈,集成成本和运维复杂度高。第二,不同技术栈的安全模型和合规审计方式不统一,企业难以建立整体合规体系。第三,能力供应商需要为不同场景开发不同形态的产品,市场规模被割裂。
换言之,2020年代中期的实践已经验证了“数据不动程序动”的可行性,但缺少一个统一的架构框架来整合这些分散的技术路径。这个框架需要回答:能力如何被统一注册和发现?如何被安全地分发和执行?如何被审计和追溯?治理规则如何在跨域流动中保持一致?
第三个问题:如何把“主权”从外部约束变成内部属性?
在传统架构中,“主权”是一个外部法律约束。法律说“数据不能出境”,企业在设计系统时把这个要求作为一个外部条件来遵守。但外部约束的问题在于,它依赖人的自觉和事后审计,而非系统的内生机制。
2024年欧盟《人工智能法》的通过标志着一个转折点。当“数据不动算法动”类技术获得法律层面的正面认可,它就不再只是技术圈的最佳实践,而是一个必须被系统化执行的合规要求。这意味着,“主权”需要从外部法律约束,变成架构的内部属性——不是“我们遵守数据主权法律”,而是“我们的架构设计确保了数据主权不可侵犯”。
这正是DISC架构中“Sovereign”一词的核心含义。
必然性的浮现
这三个问题的交汇点,就是DISC架构诞生的必然性所在。
第一,“程序动”的成功实践暴露了概念的不足——流动的不是抽象的“程序”,而是具有不同商业和技术属性的“能力”。这催生了“能力三元论”——智能能力、逻辑能力、治理能力。
第二,碎片化的技术实践催生了对统一架构范式的需求——一个能整合联邦学习、机密计算、数据虚拟化、Headless BI等分散技术的整体框架。这催生了“5+1核心组件”——能力注册中心、能力编配器、能力执行沙箱、主权合规网关、能力血缘追踪,以及协同总线。
第三,“主权”从外部约束到内部属性的演进,催生了对架构设计原则的重新定义——“数据最小出域”、“默认不信任”、“可证明的隐私”、“离线可用”、“能力持续迭代”五大黄金原则。
这三条逻辑线——概念的升维、架构的统一、主权的内化——共同指向了同一个范式:DISC,数据原位主权能力架构。
DISC架构的继承与超越
DISC架构继承了“数据不动程序动”的全部思想遗产。联邦学习的“数据不动,模型动”是DISC智能能力的核心流动模式。方滨兴院士的“模型加工场”架构是DISC能力编配器和主权合规网关的早期雏形。鹏城实验室的算力网实践是DISC架构在国家级数据面上的验证。
但DISC架构也完成了几项关键的超越。
它将“程序”升维为“能力”——不仅包含智能能力,还包含逻辑能力和治理能力。它将“数据不动,模型动”的单一范式,扩展为“数据不动,能力流动”的完整架构。它将“合规作为外部约束”的思维,转变为“主权作为架构属性”的设计原则。
三十年前,一个问题被提出:如何在利用数据价值的同时,保护数据背后的人与组织?三十年后,一个答案正在凝聚。DISC架构不是答案的终点,而是答案的新起点。
下一篇预告:《新大陆的轮廓——“数据不动,能力流动”的哲学与架构原则》——我们将正式展开DISC架构的核心主张、五大黄金原则和两种核心运行模式,在读者脑海中建立起DISC架构的清晰认知框架。
引用内容注释与来源说明
[1] 隐私保护数据挖掘(PPDM)的诞生:原文多处提及“1995年”作为PPDM的提出时间。经查证,隐私保护数据挖掘作为一个正式确立的研究领域,其奠基性工作公认始于2000年Agrawal & Srikant和Lindell & Pinkas的两篇开创性论文。正文中已修正为“世纪之交”的模糊表述以保持准确性,同时保留1995-2015作为“萌芽期”的大致时段框架(该时期确实包含了概念酝酿阶段)。代表文献:
Agrawal, R., & Srikant, R. (2000, May). Privacy-preserving data mining.Proceedings of the 2000 ACM SIGMOD international conference on Management of data, 439-450. https://doi.org/10.1145/342009.335438
Lindell, Y., & Pinkas, B. (2000). Privacy preserving data mining.Advances in Cryptology—CRYPTO 2000, 36-54. Springer. https://doi.org/10.1007/3-540-44598-6_3
[2] 姚期智“百万富翁问题”与安全多方计算:1982年,姚期智院士在论文中提出百万富翁问题,奠定了安全多方计算(Secure Multi-party Computation, MPC)的理论基础。
Yao, A. C. (1982). Protocols for secure computations.23rd Annual Symposium on Foundations of Computer Science (SFCS 1982), 160-164. https://doi.org/10.1109/SFCS.1982.38
[3] “程序切片”概念提出:Mark Weiser在其1979年博士论文中首次提出程序切片思想,后于1984年正式发表论文,被认为是代码迁移和分布式计算领域的早期理论贡献之一。
Weiser, M. (1984). Program slicing.IEEE Transactions on Software Engineering, SE-10(4), 352-357.
[4] 谷歌联邦学习的工业突破:谷歌于2016年提出联邦学习概念,2017年发表核心论文,标志着该技术从学术构想到工业级应用的关键转折。
McMahan, B., et al. (2017). Communication-efficient learning of deep networks from decentralized data.Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). https://arxiv.org/abs/1602.05629
[5] 联邦学习三种范式与杨强团队贡献:杨强教授团队系统总结并命名了横向联邦学习、纵向联邦学习与联邦迁移学习三种范式,提出“数据可用不可见”理念,并主导了FATE框架的开源与IEEE联邦学习标准的制定。
Yang, Q., Liu, Y., Chen, T., & Tong, Y. (2019). Federated machine learning: Concept and applications.ACM Transactions on Intelligent Systems and Technology, 10(2), 1-19. https://doi.org/10.1145/3298981
IEEE联邦学习标准:IEEE 3652.1-2020, IEEE Guide for Architectural Framework and Application of Federated Machine Learning. https://standards.ieee.org/ieee/3652.1/10325/
[6] 方滨兴院士“数据不动程序动”与“模型加工场”:2022年,方滨兴院士在BCS大会(北京网络安全大会,Beijing Cyber Security Conference)上正式提出“数据不动程序动”理念,其团队设计了“模型加工场”架构及“防水堡”技术,实现数据可用不可见。相关报道可参见中国电子报等行业媒体对方滨兴院士演讲的报道。
[7] 鹏城实验室“中国算力网”实践:鹏城实验室牵头建设“中国算力网”(China Computing Network),并在“数据不动程序动”架构下开展AI靶场、基因数据安全开放、政务数据融合等场景应用验证。相关信息可参见鹏城实验室官网发布的项目成果。
[8] 入选年度重大科技进展:原文称鹏城实验室相关成果入选“2024年度网络和数据安全重大科技进展”。此表述经泛化处理,正文中已修正为“入选行业年度重大科技进展”。相关信息可参见相关评选活动的官方发布。
[9] 欧盟国际数据空间(IDS):国际数据空间协会(IDSA)提出IDS参考架构,核心原则为数据主权保留、去中心化的数据共享,实现数据所有权与使用权的分离,已在汽车、医疗、能源等行业开展实践。参见IDSA官网:https://internationaldataspaces.org/
[10] 微软可信研究环境(TRE):Microsoft Azure提供受信任的研究环境(Trusted Research Environment),让研究者在预置的安全工作区中分析敏感数据,原始数据不出环境,分析代码在TRE内执行。参见微软文档:https://learn.microsoft.com/en-us/azure/architecture/example-scenario/data/trusted-research-environment
[11] Snowflake数据商业化共享:Snowflake通过安全数据共享(Secure Data Sharing)功能,使数据提供者无需复制或移动数据即可向消费者授权实时查询,实现数据原地处理与商业化共享。参见Snowflake文档:https://docs.snowflake.com/en/user-guide/data-sharing-intro
[12] 欧盟《人工智能法》的认可:原文称该法“明确支持‘数据不动算法动’技术”。经查,欧盟《人工智能法》(Regulation (EU) 2024/1689)并未直接使用该精确术语,但其多个条款鼓励使用匿名化、加密等隐私增强技术(PETs)来平衡数据保护与AI创新。正文中已修正为“为‘数据不动’类技术路径提供了法律层面的正面背书”。法律文本:https://eur-lex.europa.eu/eli/reg/2024/1689
[13] 中国《数据安全法》:2021年9月1日起施行,确立数据分类分级保护制度,将数据分为一般数据、重要数据和核心数据(第二十一条),对重要数据与核心数据的出境作严格规定。法律全文:http://www.npc.gov.cn/npc/c30834/202106/7c9af12f51334a73b56d7938f99a788a.shtml
[14] 中国《个人信息保护法》:2021年11月1日起施行,规定委托处理个人信息需约定处理目的、方式并实施监督(第二十一条),敏感个人信息严格保护(第二十八条),以及跨境传输需满足安全评估等条件并取得个人单独同意(第三十八条、第三十九条)。法律全文:http://www.npc.gov.cn/npc/c30834/202108/a8c4e3672c74491a80b53a172bb753fe.shtml