AI 视频生成与检测的巨大鸿沟
过去两年,视频生成模型飞速演进,从 24 年底 Sora 发布时的惊艳效果,到 Google Veo、Sora 2、Kling 系列模型,再到今年年初的 Seedance 2.0 等,AI 生成视频质量有了质的飞跃,能生成电影级别的逼真视频。然而,研究界对 AI 视频检测的关注却不温不火。现实中,AI 生成的虚假视频频出,数量、质量和覆盖广度都在激增,用户询问基座模型视频是否为 AI 生成,得到的答案往往缺乏可解释性和可信度,而真实拍摄的视频还常被标注为 “疑似 AI 生成”。这就引出了问题:在 AI 视频生成快速迭代的今天,AI 生成视频检测的研究发展到了哪一步、正在经历怎样的范式转变、未来需要向哪些方向发展?
五十页综述梳理检测技术路径
来自 MBZUAI、中国人民大学和哈佛大学的研究者共同撰写并发布了五十页综述,首次从视觉和语言两个方向梳理出从低层视觉感知到高层世界级推理的技术路径,分析了目前迫切需要的多层证据耦合的动态、可溯源、可解释的可信检测体系,该综述已被 ACL 2026 录用。
重新界定检测目标
在生成式 AI 爆发之前,AI 生成视频会留下明显视觉伪迹,早期以换脸为代表的 Deepfake 场景中,帧级的视觉感知侧核验有效。但近两年,生成式 AI 时代的视频质量提升,人眼难以判断视频真假,只输出二分类判断的检测已不能满足需求。综述将检测问题的边界前推,指出检测输出要从 “真假二分类走向可解释、可信的结构化判断”,把检测对象推进到面向视频中的 “虚拟世界” 与 “现实世界” 之间的间隙进行核验,重新界定检测目标为 “事实保真度验证”,即核查视频内容中关于 “谁、何时、何地、发生了什么” 的命题是否在感知和认知上与真实世界一致对齐,还要判断视频内容与外部 “事实、物理规律与世界知识等” 是否存在冲突。
AI 生成视频的三种范式
2020 年至今,AI 生成视频经历了范式迁移,综述将其分为三种范式:
1. 保留真实载体的局部操控视频(Local Manipulation Video, LMV):长期是传统 Deepfake 检测最典型、成熟的范式,视频对真实拍摄视频的局部区域处理,如换脸、换背景等,但大部分结构保留。早期方法围绕局部伪迹等检测,随着生成模型能力增强,检测重点更关注不同场景下的鲁棒性。
2. 跨模态耦合约束下的音视频编辑(Audio - Visual Editing, AVE):兴起于 2024 年,这类视频改动画面与声音等的对应关系,检测端需从看视觉伪迹转向检查视频内部模态间的关系。
3. 端到端生成式视频合成(Generative Video Synthesis, GVS):2025 年爆发,模型直接依靠条件信息生成整段视频,给检测端带来新挑战。这类视频单帧或短时间内逼真,但长时空序列上有漏洞,检测思路需走向更高层,核查内容在真实世界是否成立。
视觉 - 语言双视角下的四层检测方法谱系
当前,AI 生成视频检测的模态视角分化为两类核心科学问题:一类从视觉模态出发,聚焦底层信号取证和画面时空一致性;另一类从语言模态出发,关注视频跨模态语言信息和与世界知识、事实相关的推理。综述提出从视觉 - 语言双视角组织研究方法和评估范式,并提出四层方法图景:
1. 底层视觉线索(Intrinsic Cues Analysis):关注底层视觉信号上视频是否符合真实视频的统计规律,以及是否存在 AI 生成或编辑操作引入的底层线索,通过建模、抽取并放大底层信号进行取证。
2. 时空一致性(Spatiotemporal Consistency):针对视频多帧在时空上的序列组合,关注视频图像流是否满足真实视频中物体运动的特征,检测时空上的不连续性。
3. 跨模态一致性(Cross - Modal Consistency):检测进入视频内部的多模态核验,关注各模态是否对齐讲相同内容,对模态间的一致性进行细粒度多角度分析。
4. 语言引导的世界级推理(Language - Guided World - Level Reasoning):检测视角提升到与外部真实世界规则、知识是否一致,关注视频内容在语义和事实维度上在真实世界是否可能存在、是否合理。
生成侧和检测端的演进图谱
生成侧威胁不断抬高 “假视频” 的逼真上限,检测技术依赖的基座模型经历了从深度卷积网络与循环网络,到视觉 Transformer,再到具备推理能力的视觉语言大模型与智能体系统的演进。检测端从视觉取证逐步走向多模态验证与高层推理检测。检测方法的重心持续上移,早期集中在第一层和第二层,随着生成视频更逼真,检测更多进入第三层和第四层。
检测方法评测
面对事实保真度检测的目标,对检测方法的评测需要回答:模型是否掌握可迁移的视觉线索,是否能识别时空和跨模态的不一致,是否能对事实、知识和世界约束作出有效判断。综述系统梳理了检测评估指标、数据集的演进:
1. 视觉 - 语言双视角下的评测指标:
共享指标 Acc / AUC 必要但不够,无法承载可解释、可信的评测要求。视觉视角下的指标评估真实环境干扰下线索能否成立;语言视角下的指标覆盖范围宽,分层进行评测。
2. 数据集:按检测对象的三类范式重新组织,不同范式的数据集评测重点不同。
3. 面向视频生成模型诊断的相关评测:检测相关的评估侧资源不局限于面向检测本身的数据集,CV 和世界模型相关研究中的一些评测可作为检测的重要参照。
从 “能分辨” 到 “能举证”
高保真 AI 生成视频抬高了伪造内容的逼真上限,检测任务需进行事实保真度检测,评测段和检测系统也需拓展:
1. 证据优先的动态评测体系:面对新涌现的复杂视频,评测要回答模型依赖的线索,将视频拆回可核验的命题单元组,以便进行因果与约束验证,还需借鉴持续更新机制弥补长期鲁棒性缺口。
2. 协同双视角的可信、可解释检测系统:为实现可解释检测,需兼顾感知 - 认知两条链路,打通四层方法图景,建立 “识别 - 定位 - 解释” 的显式推理路径,将内容侧检测体系与来源侧认证信号交叉校验,形成跨层次、多模态的检测体系和可信、可解释的证据空间。
结语
AI 视频检测是越来越难的任务。该综述为未来的 AIGC - V 检测研究和实际应用提供了接近落地需求的地图,重新界定了检测任务,提出 “视觉 — 语言双视角” 的四层框架,梳理了已有方法、基准和评测指标,并联系了真实部署中的挑战、现有评测中的缺口和发展方向。指出可信检测需具备以证据为先、结论可追溯,以及在跨生成器和真实场景条件下保持稳健等关键要求。未来,可信的 AI 视频检测将成为 CV、NLP、多模态理解和世界模型相关研究的交叉议题,只有结合各领域能力,视频检测才能走向更严格的 “真实观”。