这项由中国人民大学高岭人工智能学院与美团、武汉大学联合开展的研究,于2026年4月发布在预印本平台arXiv,编号为arXiv:2604.10425v1。研究成果以DiningBench这一全新评测基准为核心,系统性地检验了当前最先进的视觉语言模型在食物识别与理解领域的真实能力。
你有没有想过,当你打开外卖软件,看着那张色泽金黄、摆盘精致的"招牌红烧肉"图片时,如果换成一个AI来看这张照片,它能真正明白这道菜是什么、有多少热量、适不适合正在减肥的你吗?这个问题听起来简单,但背后藏着一个AI领域长期没有被认真回答的难题。
近年来,视觉语言模型(简称VLM,你可以把它理解为一种"既能看图又能说话"的AI)发展得相当迅猛。GPT-4o、Gemini这些名字你可能已经耳熟能详。它们能看图回答问题、理解场景、甚至创作诗歌。然而,当这些AI被拉到餐桌前,面对一道普普通通的家常菜时,它们的表现却让人大跌眼镜——或者说,至少在这项研究出现之前,我们根本不知道它们到底表现如何,因为一直缺少一把合适的"尺子"来量。
这把"尺子",就是DiningBench。
---
一、为什么我们需要一套专门测试AI吃货能力的考题?
以往用来测试AI认识食物能力的数据集,就像一套已经用了十年的老教材。Food-101是其中最有名的一个,顾名思义,里面有101种食物的照片,让AI来分类。UEC-Food也是类似的思路。这些数据集帮助AI学会了区分汉堡和比萨,但问题在于,它们的"考题"太简单了。
打个比方,这就好比考一个厨师,只问他"这是牛肉还是猪肉",却从不考"这道红烧肉用的是五花肉还是梅花肉"、"这碗汤的热量大概是多少"、"这道菜适不适合高血压患者吃"。旧的考题之所以太容易,原因有四个层面。
第一,任务太单一。大多数旧数据集只考"这是什么食物",完全不涉及更深入的问题,比如营养含量或烹饪分析。第二,都是单张照片。现实中,当你想搞清楚一道菜的份量和配料,你会从多个角度拍几张照片;而旧数据集只给AI看一张图,信息量严重不足。第三,干扰选项太容易排除。旧数据集的多选题,正确答案往往是"红烧肉",错误选项却是"草莓蛋糕",AI根本不需要真正看懂图,靠猜都能答对。第四,营养数据不靠谱。现有的营养估算数据集,要么图片质量太差,要么只覆盖标准化的食堂或快餐连锁,根本不能代表真实世界里五花八门的餐厅菜品。
正是为了填补这四个空缺,研究团队建立了DiningBench。
---
二、DiningBench长什么样?它是怎么建起来的?
DiningBench的原材料来自美团——中国最大的本地生活服务平台。这个平台上有海量的餐厅菜品图片,既有商家精心拍摄的宣传照,也有用户从各种角度随手拍的真实照片,还附带菜品名称、份量、食材描述等文字信息。这是一座数据金矿。
但金矿不能直接用,必须经过严格的筛选和加工。研究团队从大约2000万张用户上传图片出发,经过一套多阶段的自动化筛选流程。他们先用知识蒸馏的方式,基于Qwen-2.5-VL-7B训练了两个专用的AI判断器:一个负责评估图片质量,另一个负责核验用户照片是否与商家宣传图对应同一道菜。这两个AI把数据从2000万张筛到了68.5万张。
接下来,按菜品分组后,用户照片不足三张的菜品被剔除,保留了9万道菜。再验证商家宣传图的质量,剩下4.1万道。又进一步筛选出含有详细食材列表描述的菜品,得到1.5万个候选。最终,经过按菜系类别去重、均衡,加上人工质量抽查,最终形成了包含6057道高质量菜品的基础数据集,每道菜平均配有5.27张来自不同用户、不同角度的照片。这个"5.27张"的数字,正是DiningBench区别于其他单张图片数据集的关键特征之一。
在这个基础上,研究团队按三种不同难度的任务分别构建了测试集。
精细分类任务的测试集包含2884道菜品、15330张图片、覆盖1977个菜品类别。营养估算任务的测试集包含1650道菜品、8856张图片。视觉问答任务则包含804对高质量问答,涵盖了烹饪技法识别、饮食建议、多图对比分析和反事实推理四大类型。
---
三、三关考题:从认脸到算营养,再到当营养师
DiningBench的考题设计采用了递进式的认知复杂度,从最基础的"认出它是什么",到需要数字推断的"算出它有多少热量",再到需要综合判断的"回答关于它的复杂问题",层层递进,测的不只是AI"看"的能力,更是AI"理解"的能力。
第一关是精细分类,也是让AI感受最深的一关。具体做法是:给AI看一张或多张菜品图片,同时提供8个选项,其中一个是正确答案,其余7个是"陷阱"。这7个陷阱不是从整个食物库里随机挑的,而是从同一家餐厅的同一类菜单里挑选出来的视觉上最相似的菜品。比如,正确答案是"烟熏三文鱼沙拉",干扰选项里就有"新鲜三文鱼牛油果沙拉"——两道菜都有三文鱼,都是沙拉,颜色也差不多,但用的食材和做法不同。AI要从这8个选项里找出正确答案,不能靠大概猜,必须真正看出细节差异。
第二关是营养估算。给AI看一张或多张食物图片,让它直接估算这道菜的热量(千卡)、碳水化合物(克)、蛋白质(克)和脂肪(克)这四个数字。这是纯粹的回归问题——AI必须从视觉信息中推断出食物的重量、体积、食材构成,然后计算出营养值。这对任何AI来说都极具挑战性,因为同样看起来是一碗面,实际份量可能差一倍,营养值也就差一倍。
第三关是视觉问答。这一关的问题更加开放和多元,比如"这道菜用的是煎还是炸的方式烹饪的?"、"假设一个素食者想吃这道菜,它符合要求吗?"、"对比这两张来自不同顾客的照片,实际端上桌的菜和宣传图相比,份量有什么差异?"这些问题需要AI综合运用视觉感知、食物知识和逻辑推理能力。
营养数据的来源经过了双重保障。一部分来自商家直接提供的营养标注,另一部分通过Gemini-3-Pro-Preview模型结合菜品图片、食材列表和份量信息进行智能估算,全部生成结果再与美国农业部的USDA FoodData Central数据库交叉比对,并经过人工逐一核验,最终保留1650条合格样本。
---
四、29个AI选手上场,结果出乎意料
研究团队把市面上29个最主流的视觉语言模型全部拉进了考场,其中10个是收费的商业模型(包括Claude、Gemini、GPT系列),19个是可以免费使用的开源模型(包括InternVL、Qwen-VL系列,以及Gemma、Keye-VL、MiniCPM等)。
先说精细分类。成绩最好的是Gemini-3-Flash-Preview,正确率达到81.83%,排在第二的是Gemini-3-Pro-Preview,正确率81.55%。这两个成绩已经相当不错——毕竟这是8选1,纯猜的话正确率只有12.5%。但排在后面的模型表现就开始令人担忧:GPT-4o的正确率只有65.26%,GPT-5也只有70.18%。开源模型里,InternVL-3.5-4B更是只有43.76%,比抛硬币随机猜的表现好不了多少。这说明,在真正需要分辨细节的食物识别任务上,即便是目前最强大的AI,也还有相当大的进步空间。
再看营养估算。这一关直接暴露了所有模型的软肋。评估指标使用的是"平均绝对百分比误差"(MAPE),数字越低代表预测越准。Gemini-3-Pro-Preview在这关的表现最好,平均误差仍然高达24.45%。换句话说,哪怕是最厉害的模型,它估算出来的热量、蛋白质等数值,平均误差仍接近四分之一。其他模型的表现更差,GPT-4o的平均误差达到42.43%,相当于预测一碗600千卡的米饭,误差可能超过250千卡——这个误差程度,用来指导减肥饮食的话,几乎是不可用的。
视觉问答相对好一些,但离"满分"仍然很远。Gemini-3-Pro-Preview以90.42%的正确率领跑,GPT-4o达到80.60%,最差的开源小模型Qwen-2.5-VL-3B-Instruct只有47.64%,表现非常有限。
贯穿三关,没有任何一个模型能在所有任务上都表现优秀。这个结论本身就很有价值——它说明食物理解对AI来说是一个复杂的多维挑战,并非一两个聪明的大模型就能轻松解决的。
---
五、多看几张图,真的有帮助吗?
DiningBench的一大特色是每道菜配有多张不同角度的用户照片。研究团队专门设计了实验,让AI分别只看1张、2张、3张、4张图,观察成绩如何变化。
结论是:多看确实有帮助,但这个好处很快就到头了。从1张图增加到2张图时,所有模型的表现都有一个明显的提升——特别是精细分类的正确率和营养估算的误差都改善明显。这说明,第二个角度提供的新信息确实帮助AI解决了遮挡或视角不全的问题。
然而,当图片数量从2张继续增加到3张、4张时,大模型(如GPT-4o和Qwen-3-VL-30B)的表现继续缓慢改善,但小模型的表现开始出现波动甚至下滑。研究团队的解释是:对于参数量较少、处理能力有限的小模型来说,过多的视觉信息不但帮不上忙,反而成了一种干扰噪声,让模型更难做出准确判断。
这个发现对AI应用开发者来说很有参考价值:给AI看更多图片并不总是更好,特别是当使用的是轻量级模型时,精选2张最有代表性的图片可能比提供4张效果更好。
---
六、让AI"先想想再回答",是好事还是坏事?
在AI研究里,有一种叫做"思维链"(Chain-of-Thought,简称CoT)的技巧,意思是让AI在给出最终答案之前,先一步步写出自己的分析过程——就像做数学题要写解题步骤一样。这种方法在很多推理任务上被证明有效。
DiningBench的研究测试了这种方法在食物理解任务上是否同样有效。结果相当反直觉:在精细分类和营养估算这两个任务上,让AI"先想再答"往往反而更差。尤其是在营养估算任务上,一些小型开源模型在使用思维链提示后,误差急剧扩大,出现了研究团队所称的"性能崩塌"——原本估计还过得去,加了分析步骤后反而越估越离谱。
原因可能在于:这类任务本质上需要直接的视觉感知,而不是语言逻辑推理。当AI被要求先用文字描述食物的颜色、形状、食材,再据此推算热量时,文字描述阶段的偏差或"想象力过度"会传导并放大到最终数字上。就好比,你本来用眼睛估摸一个西瓜大概几斤还差不多,但如果你先把它形容为"一个大概直径30厘米的球形绿皮果实",再从这个文字描述倒推重量,最终结果可能反而更离谱。
视觉问答任务上,思维链的效果更加混杂:部分商业大模型确实因为思维链而提升了正确率,但GPT-4o-mini和一些小型Qwen变体的表现反而下降。归根结底,思维链能不能帮上忙,高度依赖于模型本身的视觉理解基础是否扎实。如果AI基础上就看不清楚图,让它多想几步,只会把错误的推理链拉得更长。
---
七、AI在食物理解上究竟卡在哪里了?
通过大量分析错误案例,研究团队归纳出了五个主要的失败模式,这五个问题不仅解释了为什么AI在这些任务上表现不理想,也为未来的研究指出了方向。
第一个问题是精细区分能力不足。AI在识别食物时,往往像是在用"大块归类"的方式工作——它能认出"这是一道有红色食材的炖菜",却分不清"番茄炖牛肉锅"和"麻辣牛肉锅",因为两者颜色相近、摆盘类似。对于细微的食材组合差异、切法差异、酱汁状态差异,AI的感知能力明显不足。
第二个问题是过度依赖"背下来的知识"。当AI遇到不确定的情况时,它倾向于回答自己见过最多次的常见菜名,而不是真正根据图片中的细节判断。比如,同样一道鸡肉菜,图片里明明有葱油的光泽和质感,AI却把它认成更常见的"烤鸡",完全忽略了图片里与烤鸡截然不同的视觉特征。
第三个问题是缺乏空间和体积感知能力。要准确估算一道菜的热量,AI必须理解这道菜实际的重量和体积——但这需要从二维图片里推断三维的空间信息,比如碗有多深、食材堆得多厚。目前的AI在这方面能力很弱,经常把一份小食和一份主餐估算出差不多的热量,仅仅因为它们在图片上看起来占据相近的面积。
第四个问题是多图融合能力不成熟。前文已经提到,多张图片并不总能带来提升,因为AI还不擅长从多个角度的照片中提取互补信息、过滤重复信息。结果是,更多的图片有时带来更多的困惑,而非更清晰的判断。
第五个问题出现在那些带有"深度思考"功能的推理模型上。部分小型推理模型在面对视觉不确定性时,会陷入一种"无限循环思考"的状态——它们持续生成分析步骤,却始终无法收敛到一个确定的答案,就像一个过于谨慎的人站在餐厅门口想了半天要点什么,最后却还是没点。
---
八、把菜单从中文翻成英文,AI的表现会变吗?
为了让DiningBench能被全球研究者使用,研究团队还用Gemini-3-Pro-Preview把整个数据集翻译成了英文版,并进行了人工校对。随后对比了同一批模型在中文版和英文版上的表现差异。
结果揭示了一个有趣的语言偏差现象。在精细分类任务上,所有模型在英文版上的表现都比中文版更差。Qwen系列模型的下降幅度最明显,以Qwen-3-VL-8B-Instruct为例,中文版正确率64.15%,英文版只有58.56%。原因可能在于:这些模型在预训练时接触了大量中文菜名和中文食物描述,对"葱油鸡"、"东坡肉"等名称有更深的视觉-语言关联;一旦换成翻译后的英文名,这种关联就变弱了。
反过来,营养估算任务在英文版上对部分模型(特别是Gemini-2.5系列和GPT-4o系列)的表现有所提升。研究团队推测,这些模型的定量推理能力在英文环境下更强,可能是因为它们在英文语料上进行的数值计算训练更充分。
这个发现对AI开发者是一个提醒:语言版本对模型表现的影响不可忽视,特别是在涉及文化知识密集型的任务上。
---
归根结底,DiningBench这项研究做了一件看似简单却很重要的事情:它认认真真地测了AI认菜的能力,发现了一堆之前没人系统记录过的短板。AI确实能认出食物,但要真正做到"像懂行的营养师一样看菜识营养",当前最好的模型还差得相当远。热量估算误差24%是最好成绩,大多数模型的误差在40%以上;精细分类的最高成绩也不过82%,很多模型勉强超过50%。
这意味着,用AI来做饮食日记、营养追踪、健康管理,在准确度上目前仍有明显局限。不过,这些局限被清晰地量化和描述出来,本身就是进步——有了这把尺子,才知道哪里需要改进。
DiningBench数据集已在Hugging Face平台公开发布,在CC BY-NC-ND 4.0许可证下供非商业研究使用。有兴趣深入了解的读者可以通过arXiv:2604.10425查阅完整论文。下次拍下你的外卖照片时,或许可以想一想:这张图里藏着多少连最聪明的AI都还没真正看懂的信息。
---
Q&A
Q1:DiningBench和之前的食物数据集相比,最大的不同是什么?
A:DiningBench最核心的区别在于三点:每道菜平均配有5.27张不同角度的多视角图片;分类任务的干扰选项来自同一家餐厅同一类别的相似菜品,而非随机抽取,难度大幅提升;营养数据经过与美国农业部数据库交叉核验加人工审核,可靠性更高。旧数据集如Food-101只有单张图片、分类任务较简单,完全不涉及营养估算。
Q2:营养估算任务上表现最好的AI误差有多大?
A:即便是表现最好的Gemini-3-Pro-Preview,四种营养成分的平均绝对百分比误差也达到24.45%。换句话说,如果一道菜实际热量是600千卡,这个模型的预测误差平均约为147千卡。大多数其他模型的误差在40%左右,实际使用价值相当有限,目前还不足以支撑精准的饮食健康管理应用。
Q3:为什么让AI"先推理再回答"在食物识别上反而更差?
A:思维链提示要求AI先用文字描述食物特征,再从文字推导答案,但食物分类和营养估算本质上需要直接的视觉感知。当AI把图片转换成文字描述时,描述阶段产生的偏差会被后续推理过程放大,导致最终答案比直接回答更不准确,部分小模型甚至出现误差急剧扩大的"性能崩塌"现象。