YellowLabTools深度解析:从规则检查到分数计算的核心机制
2026/4/15 7:22:09
视觉问答(VQA)作为多模态AI的核心应用场景,对模型的图像理解和语言生成能力提出了双重挑战。本次测试聚焦两款轻量级开源多模态模型——mPLUG-Owl3-2B与CogVLM2,在中文环境下的实际表现对比。
测试重点考察三个维度:
构建包含200张图片的中文VQA测试集,覆盖:
每张图片配套5个问题,共计1000个测试样本,问题类型分布:
采用官方推荐的FP16精度加载,关键优化点:
model = AutoModelForCausalLM.from_pretrained( "MAGAer13/mplug-owl3-2b", torch_dtype=torch.float16, device_map="auto" ) processor = AutoProcessor.from_pretrained("MAGAer13/mplug-owl3-2b")使用4-bit量化降低显存占用:
model = AutoModelForCausalLM.from_pretrained( "THUDM/cogvlm2-llama3-chinese-chat-19B", load_in_4bit=True, device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained("THUDM/cogvlm2-llama3-chinese-chat-19B")| 指标 | mPLUG-Owl3-2B | CogVLM2 |
|---|---|---|
| 总体准确率 | 78.2% | 82.7% |
| 物体识别准确率 | 85.1% | 88.3% |
| 场景描述准确率 | 76.5% | 80.2% |
| 逻辑推理准确率 | 68.3% | 75.6% |
| 文字识别准确率 | 72.4% | 79.1% |
案例1:商品标签识别
案例2:逻辑推理
| 指标 | mPLUG-Owl3-2B | CogVLM2 |
|---|---|---|
| 显存占用 | 8.2GB | 10.5GB |
| 平均响应时间 | 2.3s | 3.1s |
| 峰值内存 | 12GB | 15GB |
测试表明,两款模型在中文VQA任务中各有优势。CogVLM2整体准确率更高,但mPLUG-Owl3-2B在资源效率上表现更好,开发者可根据实际需求选择。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。