1. 越南语图文检索的挑战与机遇
在当今多模态人工智能快速发展的背景下,图文检索技术已经成为连接视觉与语言的重要桥梁。主流模型如CLIP和ALIGN通过在海量英文数据上训练双编码器架构,已经展现出强大的跨模态理解能力。然而,当我们把目光转向越南语等低资源语言时,情况就变得复杂起来。
越南语作为东南亚地区的重要语言,拥有近1亿使用者,但在人工智能领域却面临着独特的挑战。最突出的问题是缺乏大规模高质量的图文配对数据集。目前可用的越南语图像描述数据集如UIT-OpenViIC、KTVIC等,规模通常只有数万级别,与英文动辄上亿的数据量相比差距悬殊。这种数据稀缺性直接限制了传统CLIP式训练方法的应用效果。
常见的变通方案是将越南语描述翻译成英文,然后使用现有的英文预训练模型进行处理。但这种方法存在明显缺陷:首先,翻译过程不可避免地会引入噪声,特别是越南语中丰富的文化特定表达很难在翻译中完整保留;其次,这种间接处理方式无法真正理解和捕捉越南语特有的语言结构和语义细微差别。
2. ViCLIP-OT架构设计理念
2.1 双编码器基础架构
ViCLIP-OT的核心是一个精心设计的双编码器架构,包含独立的图像编码器和文本编码器。这种设计源于一个关键观察:在图文检索任务中,两个模态的处理需求存在本质差异。
图像编码器采用了基于DINOv3的视觉Transformer。DINOv3通过自蒸馏(self-distillation)方式在大规模图像数据上预训练,具有出色的视觉特征提取能力。具体实现中,输入图像首先被分割为16×16的patch,通过Transformer层处理后,使用均值池化(mean pooling)获得全局图像表示,最后通过一个线性投影层映射到共享嵌入空间。
文本编码器则选择了专门针对越南语优化的Sentence-BERT模型。该模型在大量越南语文本上进行了预训练,能够有效处理越南语复杂的语言特性,如:
- 六声调系统带来的丰富语音语义变化
- 大量单音节词和复合词构成
- 受汉语、法语影响的特殊词汇体系
2.2 共享嵌入空间优化
两个编码器的输出被投影到同一768维的共享嵌入空间,并通过ℓ2归一化处理。这种设计使得不同模态的相似性可以直接通过余弦相似度计算:
sim(x_i, t_j) = (z_image_i · z_text_j) / (||z_image_i|| * ||z_text_j||)
在训练过程中,模型通过对比学习目标函数来优化这个共享空间。与传统方法不同,ViCLIP-OT创新性地引入了最优传输理论来增强模态对齐效果。
3. 相似性图正则化最优传输(SIGROT)
3.1 最优传输理论基础
最优传输(Optimal Transport)是数学中研究如何以最小成本将一种概率分布转换为另一种概率分布的框架。在跨模态学习中,它可以被理解为寻找图像和文本嵌入之间最有效的对齐方式。
给定两个离散概率分布μ∈R^n和ν∈R^m,以及成本矩阵C∈R^(n×m),最优传输问题可形式化为:
γ* = argmin_(γ∈Π(μ,ν)) 〈γ,C〉_F
其中γ是传输计划,Π(μ,ν)是满足边际约束的传输多面体。
3.2 SIGROT创新设计
ViCLIP-OT提出的SIGROT损失函数通过三个关键创新解决了传统对比学习的局限性:
相似性图构建:使用预训练的Qwen3-VL-Embedding模型计算批次内样本间的四类相似度矩阵:
- 文本-文本相似度(G_text)
- 图像-图像相似度(G_image)
- 文本-图像交叉相似度(G_text-image)
- 图像-文本交叉相似度(G_image-text)
这些矩阵通过加权平均融合为综合相似性图G_cross,全面捕获批次内的模态内外关系。
不平衡最优传输:采用松弛边际约束的UOT(Unbalanced OT)公式: γ* = argmin_γ 〈γ,C〉_F - εH(γ) + τ_m1KL(γ1_m||μ) + τ_m2KL(γ^T1_n||ν)
这种设计允许部分匹配,能有效处理图像中的背景干扰和文本中的非视觉词汇。
相似性图正则化:将最优传输计划与相似性图分布通过KL散度对齐: L_SIGROT = 1/2 [KL(Nγ*_i2t || softmax(G_cross)) + KL(Nγ*_t2i || softmax(G_cross))]
3.3 混合训练目标
ViCLIP-OT最终采用混合损失函数,将SIGROT与两种对比损失结合:
- CLIP-SIGROT:L = λL_CLIP + L_SIGROT
- SigLIP-SIGROT:L = λL_SigLIP + L_SIGROT
其中λ=0.1是平衡超参数。这种设计既保持了对比学习在样本对对齐上的优势,又通过SIGROT引入了批次级的结构信息。
4. 实验设置与实施细节
4.1 数据集配置
实验使用了三个越南语图文数据集构建了全面的评估体系:
| 数据集 | 图像数 | 文本数 | 特点 | 用途 |
|---|---|---|---|---|
| UIT-OpenViIC | 13,100 | 61,241 | 开放域复杂场景 | 主训练/测试集 |
| KTVIC | 4,327 | 21,635 | 越南日常生活 | 零样本测试 |
| Crossmodal-3600 | 3,600 | 7,350 | 多语言地理多样性 | 零样本测试 |
特别值得注意的是,为避免数据泄露,我们使用SSCD算法检测并移除了KTVIC中与UIT-OpenViIC训练集接近的重复图像,确保了评估的公正性。
4.2 模型训练配置
所有实验在单块NVIDIA RTX 4090 GPU上完成,关键训练参数如下:
- 图像处理:224×224分辨率,随机旋转/翻转/颜色抖动
- 优化器:AdamW(ε=1e-10, β=(0.9,0.999))
- 学习率:编码器5e-5,投影头2e-4,余弦退火调度
- 批次大小:128(配合梯度累积)
- 训练轮次:30
- 正则化系数:ε=0.05, τ_m1=τ_m2=0.5
5. 实验结果与分析
5.1 主数据集性能
在UIT-OpenViIC测试集上,ViCLIP-OT取得了显著优于基线模型的表现:
| 模型 | Text→Image R@1 | Image→Text R@1 | 平均R@K |
|---|---|---|---|
| CLIP基线 | 31.19 | 46.60 | 61.59 |
| SigLIP基线 | 34.75 | 50.10 | 64.77 |
| ViCLIP-OT | 37.57 | 54.35 | 67.34 |
| ViSigLIP-OT | 39.19 | 57.21 | 68.96 |
值得注意的是,ViCLIP-OT甚至超越了参数量大数十倍的通用多语言模型:
| 模型 | 参数量 | 平均R@K |
|---|---|---|
| Qwen3-VL-2B | 20亿 | 55.40 |
| ViCLIP-OT | 2.21亿 | 67.34 |
5.2 零样本泛化能力
在KTVIC和Crossmodal-3600上的零样本测试进一步验证了模型的泛化性:
| 数据集 | 模型 | Text→Image R@1 | Image→Text R@1 |
|---|---|---|---|
| KTVIC-test | CLIP | 50.32 | 63.06 |
| KTVIC-test | ViCLIP-OT | 56.69 | 70.06 |
| XM3600 | CLIP | 22.52 | 26.22 |
| XM3600 | ViCLIP-OT | 28.90 | 42.56 |
特别是在Crossmodal-3600上,ViCLIP-OT相比CLIP基线实现了11.72个百分点的平均R@K提升,证明了SIGROT损失在跨域迁移中的有效性。
5.3 嵌入空间分析
通过UMAP可视化和定量指标,我们可以直观看到SIGROT对嵌入空间的改善:
| 模型 | 对齐度(↑) | 模态鸿沟(↓) |
|---|---|---|
| SigLIP | 0.3637 | 0.5843 |
| ViSigLIP-OT | 0.3928 | 0.3177 |
| CLIP | 0.4112 | 0.1258 |
| ViCLIP-OT | 0.4285 | 0.1026 |
可视化结果显示,添加SIGROT后,图像和文本嵌入在共享空间中呈现出更紧密的混合分布,证实了该方法在缓解模态鸿沟方面的优势。
6. 关键实现技巧与注意事项
在实际实现ViCLIP-OT时,我们总结出以下宝贵经验:
相似性图构建:
- 使用强大的预训练嵌入模型(Qwen3-VL)计算相似度
- 适当调整四种相似度矩阵的融合权重
- 对相似性图进行温度缩放(temperature scaling)可以调节分布锐度
最优传输优化:
- 采用Sinkhorn算法加速计算,迭代次数通常设为50-100
- 熵正则系数ε影响传输计划的稀疏性,需小心调节
- 边际约束松弛系数τ_m1、τ_m2控制对齐严格度
训练稳定性:
- 对比损失的温度参数τ需要单独优化
- SigLIP变体需要额外的偏置项b调节
- 梯度裁剪(最大范数1.0)防止数值不稳定
计算效率:
- 使用混合精度训练(bfloat16)节省显存
- 梯度累积实现更大的有效批次
- 相似性图可以预计算并缓存
特别值得注意的是,在处理越南语文本时,需要确保Sentence-BERT模型能够正确处理越南语特有的Unicode字符和音调标记。我们建议在文本预处理阶段进行严格的标准化处理,包括:
- 统一音调标记规范
- 处理特殊字符如"đ"、"ơ"等
- 对复合词进行适当分割
7. 扩展应用与未来方向
ViCLIP-OT的技术路线不仅适用于越南语图文检索,还可以扩展到以下方向:
其他低资源语言:该框架可适配泰语、缅甸语等东南亚语言,只需替换对应的文本编码器
多模态生成:结合扩散模型,实现基于越南语描述的图像生成
细粒度检索:引入区域-单词对齐机制,提升对图像细节的检索能力
高效部署:通过知识蒸馏将模型轻量化,适应移动端应用
在实际业务场景中,我们建议根据具体需求对模型进行针对性优化:
- 电商场景:加强时尚、家居等垂直领域的检索能力
- 社交媒体:优化对非正式表达和网络用语的理解
- 文化保护:增强对传统服饰、建筑等文化元素的识别