透过ICRA 2026,我看懂了机器人跨本体泛化的三条主流技术路线

发布时间:2026/7/2 0:11:12
透过ICRA 2026,我看懂了机器人跨本体泛化的三条主流技术路线 跨本体泛化的能力越强或许我们对“通用”的定义应该越谨慎——每一次突破都在抬高“通用”的门槛目录01 跨本体泛化的核心挑战02 路线一隐空间对齐——在抽象层寻找共性03 路线二视频模型统一——用世界预测指导动作04 路线三动作空间标准化——从基础设施做起05 一套大脑走天下是现实还是愿景在 ICRA 2026 等顶级学术会议期间跨本体泛化Cross-Embodiment Generalization成为具身智能领域受到高度关注的议题之一。“有的展示了约 1 小时后训练数据适配新本体的能力有的通过约 1.6 万小时跨本体预训练展现了强大的泛化表现还有仅用 30 分钟游玩数据便完成了新本体适配。但恰恰是这些数字让一个问题变得尖锐起来过去跨本体泛化能力弱的时候“通用”是一个模糊的远方目标如今能力越强我们对“通用”的定义反而越谨慎。快速适配证明了形态鸿沟的真实尺度精细的能力边界让「在什么条件下通用」取代了「通不通用」的二元判断而每一次突破实际上都在抬高“通用”的门槛。这正是本文的出发点从核心挑战出发梳理三条主流技术路线看清机器人跨本体泛化的进展与边界给出一个客观的判断。01 跨本体泛化的核心挑战跨本体泛化之难本质上在于任务目标相同与控制实现相同之间并不存在天然的一一对应关系。这一问题至少横跨以下四个维度。形态与动力学差异是最直观的挑战不同机器人的关节数量、自由度、末端执行器结构各不相同质量分布与控制频率的差异意味着即使是相同的运动轨迹在不同本体上产生的物理效果也大相径庭。动作与观测空间的不一致则更为深层不同厂商的控制接口关节位置、速度、末端位姿和传感器配置千差万别哪怕相机安装位置偏移几厘米对依赖视觉的策略来说都可能是灾难性的。任务可行域的根本变化意味着同一指令在不同本体上可能对应完全不同的动作序列灵巧手可以捏取细小物体而简单夹爪只能推挤或侧面夹取。某些任务对特定本体而言在物理上根本无解。数据分布的严重不均衡则是长期被忽视的结构性问题现有训练数据高度集中在少数主流平台上大量长尾本体的数据极为稀缺导致模型在非主流本体上的泛化能力往往大打折扣。面对这些挑战学术界和工业界目前形成了三条主流技术路线分别从不同的抽象层次尝试解决这一问题。02 路线一隐空间对齐——在抽象层寻找共性既然在原始像素空间和底层动作空间里难以实现对齐不如将视觉和动作映射到统一的隐空间Latent Space中在这个抽象的中间层学习跨本体共享的交互动力学。不同机器人虽然形态各异但它们与物理世界的交互在更抽象的表示层面上是共通的。这一路线的代表性工作如银河通用机器人Galbot联合北京大学等机构提出的 LDA-1BLatent Dynamics Action Model。该模型构建多模态扩散框架在语义一致性较强的视觉特征空间如 DINO 隐空间中联合建模策略、正向动力学、逆动力学和视觉预测。DINO 特征能够过滤掉不同本体外观上的冗余差异让模型更聚焦于任务相关的物理规律而不是被外观差异所干扰。▲图1 | 隐空间对齐路线的典型框架这类方法的另一个关键设计是按数据质量分配不同的训练目标低质量数据主要参与动力学预测高质量数据才参与策略学习。这使得模型能够充分利用现实中大量存在的次优轨迹乃至无动作标签的人类视频而不是只依赖昂贵的专家演示。训练数据集往往包含数万小时的异构具身数据任务覆盖范围从常见的抓取放置延伸至接触密集型操作、精细操作和长时程双臂操作等多类高难度场景。▲图2 | 隐空间对齐路线覆盖的多类任务案例包括用夹子摆蛋糕、扫碎屑、双臂开盖、擦白板、锤子拔钉和翻盒等覆盖接触密集、精细操作和长时程任务在跨本体实验中这类方法在配备标准夹爪、高自由度灵巧手等多种本体配置上均展示了适配能力在接触密集型任务、灵巧操作和长时程任务上相比此前方法有显著提升。部分工作公开表述能够实现约 1 小时后训练数据适配新本体。由于模型已在大规模数据上预学习了丰富的动力学先验新本体的适配只需少量数据来校准本体特定的控制接口。▲图3 | 隐空间对齐路线在低自由度夹爪与高自由度灵巧手上的跨本体实验结果对比在抓瓶子、开MacBook、拔钉子等多数任务上显著优于对比方法但这一路线的局限在于隐空间的对齐效果高度依赖预训练数据的覆盖广度一旦新本体形态与预训练数据差异过大对齐效果可能大幅下降。此外隐空间的黑箱特性也使得调试和理解模型失败原因变得更加困难。03 路线二视频模型统一——用世界预测指导动作这条路线把跨本体的共享层直接上移到视觉世界变化层即备受关注的世界动作模型World Action Model, WAM路线。其核心逻辑是不同机器人的动作接口千差万别但它们完成任务时世界的视觉变化是共通的。这类方法通常将动作学习从密集状态-动作模仿转变为逆动力学范式先预测未来的视觉变化再从中反推应执行的动作。这使得模型能够从非重复性的异构轨迹中有效学习而无需大量针对特定任务的重复演示。这一路线的代表性工作例如 NVIDIA 等机构推出的 DreamZero。其模型参数量达到 14B基于预训练的图像到视频扩散模型Wan 2.1构建通过自回归扩散 Transformer 联合生成未来视频帧和动作序列。▲图4 | WAM路线的典型架构模型以语言指令和当前观测为条件通过自回归扩散Transformer联合生成未来帧序列与动作块并通过解耦视频/动作去噪调度、系统级并行与缓存等推理优化实现约7Hz的闭环控制这类方法展现出了令人关注的跨本体适配效率。真实世界训练数据规模约为 500 小时但仅使用目标机器人 30 分钟的随机游玩数据便能完成跨本体适配并保留零样本泛化能力。仅需 12 分钟人类视频或 20 分钟其他机器人视频作为参考就能在未见任务上带来超过 42% 的相对性能提升。其零样本泛化能力覆盖堆碗、拔线、递物、开关灯、擦白板等多类训练时未见过的日常操作任务。▲图5 | WAM路线在完全未见任务上的零样本执行案例涵盖堆碗、拔线、递物给人类、提托盘、开关灯、丢垃圾、装袋、擦白板、探箱抓取等多类日常操作另一条相近的路线是蚂蚁集团提出的 LingBot-VA走向更大规模的预训练。以 Wan 2.2-5B 视频模型为基础使用约 1.6 万小时的大规模跨本体机器人操作数据预训练数据来源涵盖 Agibot、RoboMind、OXE 等多个公开数据集。其核心设计是通过混合专家 Transformer 架构将视频和动作 token 交织在同一自回归序列中并结合因果注意力掩码、KV 缓存持久化和异步协调推理实现因果一致的长时程闭环控制。▲图6 | 大规模跨本体预训练的WAM框架语言模型、视频模型与动作模型交替运行将视频token与动作token交织在同一自回归序列中通过因果掩码实现时间一致的闭环控制在多个操作基准上这类工作展现出了较强的泛化表现在双臂操作任务和长时程任务上均优于此前方法。▲图7 | 大规模跨本体预训练WAM的系统概览在野外视频和机器人动作数据上预训练支持视觉动力学预测和逆动力学推断展现出长时程记忆和强少样本适配能力而视频模型统一路线的局限在于视觉上相似的动作结果在底层可能需要完全不同的力矩控制高频视频-动作联合生成对推理延迟提出了极高的工程挑战视频生成模型在高精度操作如毫米级精度的插拔任务上的控制精度目前仍有待进一步验证。04 路线三动作空间标准化——从基础设施做起如果说前两条路线是在算法架构上做文章那么第三条路线则从最基础的数据层入手——通过统一数据格式和动作表达从根本上解决数据碎片化问题。这一路线的基石是由 Google DeepMind 牵头、联合多家机构发起的 Open X-Embodiment 项目。汇集了来自 22 种不同机器人本体、包含 527 种技能和超过 100 万条轨迹的数据集覆盖从单臂机械臂到双臂机器人、四足机器人等多种形态。▲图8 | 动作空间标准化路线的数据集总览60个数据集分布在22种机器人本体上Franka机器人因数据集数量最多而具有最丰富的场景多样性xArm和Google Robot贡献了最多的轨迹数量为了让同一个模型能够控制不同的机器人这类方法采用了粗粒度对齐策略将不同机器人的动作空间映射到统一的 6 自由度末端执行器位姿加夹爪开合状态的表示中并使用统一的数据格式。基于这一数据集训练的模型展示了正迁移效应——在看到其他机器人的操作数据后能提升其在目标机器人上的表现。▲图9 | 动作空间标准化路线的模型输入输出形式以图像和文本指令为输入输出离散化的末端执行器动作通过统一的动作接口实现对多种机器人的控制这种标准化的代价是不可避免地丢失各机器人独有的控制细节和动力学特性。数据分布的严重不均衡也使得模型对长尾本体的泛化能力有限。它解决的是能不能一起训练的问题并不等同于完全解决了能不能自然泛化的问题。05 一套大脑走天下是现实还是愿景综观隐空间对齐、视频世界模型与动作空间标准化三条路线跨本体泛化已推进至高效的少样本适配阶段。未来最有可能的突破方向或许正是三者的有机融合以动作空间标准化构建统一的数据协议以视频模型统一路线提供丰富的视觉世界先验再以隐空间对齐实现精细的动力学建模。然而要实现任意形态间开箱即用的零样本精准操控目前仍受制于物理动力学建模的精度极限与跨形态数据分布的结构性偏斜。当下最有价值的进展并非一个已能“通吃”所有本体的通用大脑而是操控策略正逐步习得形态共通的物理规律并借由结构化先验与快速微调持续逼近形态无关的操控能力。正是这种深层先验与高效适配的结合界定了通用操作智能的当前边界也标示着下一步突破的方向。这依然是一条充满挑战但也令人期待的探索之路。参考文献Lyu, J., Liu, K., et al. (2026). LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion. arXiv:2602.12215. https://arxiv.org/abs/2602.12215Team DreamZero. (2026 ). World Action Models are Zero-shot Policies. arXiv:2602.15922. https://arxiv.org/abs/2602.15922Li, Z., Zhang, Y., et al. (2026 ). Causal World Modeling for Robot Control. arXiv:2601.21998. https://arxiv.org/abs/2601.21998Padalkar, A., Pooley, A., et al. (2023 ). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. arXiv:2310.08864. https://arxiv.org/abs/2310.08864