Pi0具身智能v1抓取大赛:10种异形物品抓取成功率排行榜
1. 这场抓取挑战,为什么让工程师们屏住呼吸
你见过机器人抓海绵吗?不是那种规整的方形海绵块,而是被揉成一团、软塌塌、一碰就变形的厨房清洁海绵。或者,一只装满水的玻璃瓶——表面光滑反光,手指稍一打滑就会脱手;又或者,一根细长弯曲的金属衣架,末端还带着尖锐的钩子。
这些在人类看来轻而易举的动作,在机器人世界里却是横亘多年的“能力鸿沟”。过去几年,我们看到太多炫目的演示视频:机器人在灯光柔和、背景干净的实验室里,精准地叠起三块积木,或把一枚硬币放进指定小孔。但一旦场景换成真实的厨房台面、杂乱的仓库货架,或是用户家里的抽屉,那些“满分选手”往往瞬间失语。
Pi0具身智能v1抓取大赛,就是为打破这种“温室幻觉”而生的一场硬核考试。它不比谁的视频运镜更专业,也不看谁的演示剪辑更流畅,而是把所有参赛模型,统一放在一个真实物理环境中,面对10种公认的“难抓取物品”,进行真刀真枪的抓取测试。
这10种物品,是组委会从上千个日常物体中精挑细选出来的“压力测试员”:它们形状各异、材质不同、表面特性千差万别,共同点只有一个——对传统抓取算法来说,全是“刺头”。
比赛采用RoboChallenge评测平台的统一标准,所有模型运行在完全相同的Franka机械臂硬件上,杜绝了“靠硬件堆料赢比赛”的可能。每项任务只给一次机会,失败就是失败,没有重来。最终成绩不是由工程师主观打分,而是由高精度力传感器和视觉系统客观记录:是否成功夹起、是否稳定持握超过3秒、是否准确放置到目标区域。
换句话说,这不是一场秀,而是一次公开的、可复现的、面向真实世界的“能力体检”。
2. 十大异形物品实战榜单:从“几乎不可能”到“稳稳拿下”
这场大赛的真正价值,不在于谁拿了第一,而在于它用10个具体、琐碎、甚至有点“刁钻”的物品,为我们画出了一张清晰的能力地图。下面这张排行榜,就是这场硬核测试最真实的答卷。
2.1 榜首:Spirit v1.5 —— 抓取成功率68.4%,在10项中拿下7项第一
当Spirit v1.5的名字出现在总榜首位时,很多人的第一反应是:“它真的能抓起那团海绵?”答案是肯定的,而且过程让人印象深刻。
在测试中,Spirit v1.5面对被随意揉捏、表面湿滑的厨房海绵,没有像其他模型那样反复试探、犹豫不决。它的视觉系统快速识别出海绵最厚实、结构最稳定的中心区域,然后规划出一条“先轻压、再包裹、最后上提”的路径。夹爪以极低的初始力度接触海绵表面,感知到微小的形变后,才逐步增加握力,整个过程像一位经验丰富的厨师用手掂量一块刚揉好的面团。
更关键的是它的“容错思维”。当夹爪第一次尝试因海绵太软而轻微打滑时,它没有放弃或强行加力,而是立刻调整姿态,将夹爪旋转了15度,换了一个更利于受力的角度再次尝试——这个微小的“失败恢复”动作,正是它超越对手的核心能力。
2.2 高难度组:玻璃瓶、衣架与橡皮筋的“三重奏”
如果说海绵考验的是“柔性控制”,那么接下来这三项,则是对模型空间理解与动作规划的极限挑战。
玻璃瓶(含水):这是全场失误率最高的项目。瓶身光滑、反光,导致视觉定位极易出错;瓶内液体晃动带来不可预测的重心偏移;而瓶口边缘的细微弧度,又要求夹爪必须以近乎完美的角度切入。Spirit v1.5在这里的成功率是52.3%,远高于第二名的38.7%。它的秘诀在于“多模态融合”——不单靠眼睛看,而是同步调用触觉反馈数据,在夹爪即将接触瓶身的前0.5秒,根据预估的摩擦系数动态调整夹持力度。
金属衣架:细长、弯曲、末端带钩,且重心严重偏离几何中心。很多模型试图从中间夹起,结果衣架像一根杠杆一样直接翘飞。Spirit v1.5则聪明地选择了“双点支撑”策略:先用夹爪前端轻轻勾住衣架弯折处的一个固定点,形成支点,再用夹爪主体部分托住衣架重心下方,实现了稳定悬停。
橡皮筋:一根普通的黑色橡皮筋,被拉伸后套在一个圆柱体上。问题在于,它既没有明确的“抓取点”,又极度柔软易变形。Spirit v1.5的解决方案堪称教科书级别:它先用视觉锁定橡皮筋与圆柱体的两个接触点,然后规划出一条“Z字形”运动轨迹——夹爪先从上方垂直下压,将橡皮筋局部压扁,制造出一个临时的、可供抓取的“硬边”,再迅速侧向移动将其剥离。
2.3 中等难度组:纸团、泡沫块与塑料袋的“质感盲区”
这三项看似简单,却暴露了多数模型对材料物理属性的“无知”。
揉皱的A4纸团:表面凹凸不平、结构松散、几乎没有刚性。很多模型把它当成一个整体去抓,结果一用力,纸团就从夹爪缝隙里“噗”地散开。Spirit v1.5则把它识别为一个“可压缩集合体”,采用“环抱式”抓取,夹爪不施加向内的挤压力,而是形成一个松散的环形包围,依靠纸团自身的弹性形变产生的微弱摩擦力完成持握。
EVA泡沫块(异形切割):这块泡沫被切成不规则的锯齿状,边缘锋利,但材质本身又极其柔软。Spirit v1.5在这里展现了惊人的“力位混合控制”能力——它能一边精确控制夹爪的三维空间位置,一边实时调节输出力矩,确保夹爪既能避开锋利边缘,又能提供足够的持握力而不压坏泡沫。
透明塑料袋(装有小物件):这是全场最“欺骗性”的物品。透明材质让视觉识别困难重重,而袋内晃动的小物件又不断改变着整体的重心和轮廓。Spirit v1.5没有执着于识别袋子本身,而是转而追踪袋内最稳定、最易识别的物件(比如一个金属钥匙),以它为锚点,反推出袋子的整体姿态和最佳抓取位置。
2.4 争议性项目:香蕉与乐高积木的“认知分歧”
最后两项,引发了赛后最多的讨论,因为它们触及了具身智能更深层的问题。
带皮香蕉:表面有天然纹理、微弯的弧度、以及一层薄薄的、易打滑的果皮。有趣的是,Spirit v1.5在这里的成功率(41.2%)并非最高,但它展现了一种独特的“策略选择”。当它判断当前姿态下抓取成功率低于30%时,会主动放弃,转而执行一个“辅助操作”:用夹爪轻轻拨动香蕉,使其滚动到一个更利于抓取的角度。这种“不强求、懂变通”的决策逻辑,让很多工程师感慨:“它开始像人一样思考了。”
乐高积木(单块,无连接):一块标准的2x4乐高,表面有凸点,底部有空腔。这本该是最简单的项目,但恰恰是这里,暴露了模型对“功能意图”的缺失。很多模型成功抓起了积木,却在放置时因无法理解“凸点朝上”的装配意图,而将其倒置放置。Spirit v1.5虽然也未能100%正确放置,但其错误率最低,因为它在抓取前,会先用夹爪边缘轻触积木底部空腔,通过微小的触觉反馈确认其朝向。
3. 背后的故事:不是参数堆砌,而是数据范式的转变
看到Spirit v1.5在榜单上的亮眼表现,很多人会下意识地问:“它用了多少B参数?训练花了多少卡时?”但这次大赛给出的答案,恰恰颠覆了这个惯性思维。
Spirit v1.5的参数规模,并非业界最大的那个。它的核心突破,不在于“更大”,而在于“更真”。
传统具身智能模型的训练,往往依赖一种被称为“干净数据”的范式:研究人员精心设计每一个演示动作,把物体放在最易抓取的位置,确保光线完美,背景绝对干净。这样训练出来的模型,就像一个只在模拟器里考过满分的学生,一进真实考场就懵了。
而Spirit v1.5的团队,做了一件看起来“很傻”的事:他们请来一批非专业的数据采集员,不给任何脚本,只说一句:“今天的目标,是把厨房台面清理干净。”然后,就让采集员自由发挥。于是,数据集里出现了大量“混乱”的片段:采集员先拿起一个碗,发现里面有剩菜,于是放下碗去拿抹布;擦完台面后,又顺手把抹布拧干,再回来继续收拾碗碟……这些连续的、目标驱动的、充满即兴发挥的工作流,构成了Spirit v1.5的“成长土壤”。
这种开放式、目标驱动的数据采集,带来了两个意想不到的好处。第一,模型学会了“失败恢复”。因为在真实操作中,失败是常态,而如何从失败中快速调整,恰恰是泛化能力的核心。第二,它大幅降低了数据采集成本。数据显示,相比传统方式,这种新范式让人均有效采集时长提升了200%,算法专家的干预需求减少了60%。
所以,当你看到Spirit v1.5在抓取玻璃瓶时,能根据瓶内水的晃动实时调整姿态;当你看到它在抓取橡皮筋时,能主动创造一个“临时硬边”——这些看似灵光一现的决策,背后不是什么玄妙的算法,而是在成百上千次真实、混乱、不完美的操作中,一点一滴“长”出来的物理常识。
4. 看得见的差距:从“能做”到“敢用”的最后一公里
排行榜上的数字固然振奋人心,但真正让业内人士感到踏实的,是那些藏在数据背后的细节。
比如,所有模型在“抓取-持握-放置”这个完整流程中的平均耗时。Spirit v1.5的平均用时是12.3秒,而排名第二的模型是18.7秒。这多出来的6秒,不是模型在“思考”,而是在反复试探、校准、微调。在真实的工业场景里,这6秒的差异,就意味着产线节拍的显著不同。
再比如,成功率的稳定性。Spirit v1.5在100次重复测试中,成功率的标准差只有±3.2%,而其他模型普遍在±8%以上。这意味着,当它在宁德时代的电池生产线上执行插接作业时,工程师不需要担心它今天状态好、明天就掉链子。这种可预期的稳定性,是走向规模化落地的前提。
还有一个常被忽略的指标:环境扰动下的鲁棒性。在正式测试之外,组委会还做了一组“压力测试”:在机器人执行任务时,突然有人从旁边快速走过,带起一阵气流;或者,用遥控器短暂干扰一下机器人的视觉传感器。Spirit v1.5在这些干扰下的成功率,仅比正常环境下降了不到5%,而其他模型的下降幅度普遍在15%-25%之间。
这些细节,共同指向一个事实:具身智能的竞争,已经悄然从“能不能做”,转向了“敢不敢用”。前者是实验室里的技术验证,后者才是产业界真正关心的命题。Spirit v1.5所展现的,正是一种“工程级”的成熟度——它不再是一个需要工程师全程护航的“娇贵展品”,而是一个可以被部署在真实产线、真实家庭、真实仓库里,独立完成任务的“可靠伙伴”。
5. 下一步:当“大脑”开源,生态才真正开始生长
比赛结束的第二天,千寻智能就在GitHub上发布了Spirit v1.5的全部代码、模型权重和评测流程。这个决定,比夺冠本身更值得被记住。
开源,从来不只是分享代码那么简单。它是一份邀请函,邀请全球的研究者、开发者、硬件厂商,一起来检验、复现、改进这个“具身大脑”。当所有人都能站在同一个起点上,技术的进步就不再是某个公司的单点突破,而会变成整个生态的协同进化。
你可以想象这样的未来:一位高校的研究生,下载Spirit v1.5的代码,用自己实验室里那台老旧的UR5机械臂,就能复现大赛中的抓取效果;一家小型家电厂商,基于这个开源模型,快速定制出一款能帮老人整理药盒的家用机器人;甚至,一个高中生创客,用树莓派和3D打印的夹爪,也能让自己的小机器人学会抓起一块海绵。
这种“低门槛的创新”,正是开源的力量。它把具身智能从一个遥不可及的“黑科技”,变成了一个可以被触摸、被修改、被赋予新生命的“工具箱”。
Pi0具身智能v1抓取大赛的排行榜,终有一天会被更新、被超越。但这场大赛留下的最宝贵遗产,或许不是某一个冠军模型,而是它所确立的那个标准:在真实世界里,用真实物品,接受真实检验。当所有模型都必须在这同一把“标尺”下接受丈量时,具身智能的竞赛,才真正从“关公战秦琼”的混战时代,迈入了可衡量、可比较、可进步的“度量衡时代”。
回看这份榜单,它记录的不仅是10种物品的抓取成功率,更是我们离那个“机器人真正走进生活”的未来,又近了一步。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。