具身智能GPT-2时刻到了!这家国内公司已做出全球最大规模的端到端统一具身大模型——专访自变量机器人团队

近日,关于 Open AI 被投企业 Physical Intelligence (PI) 的一系列报道,让人们关注到具身智能大模型引发的机器人时代变革。目光转回国内,我们同样在中国公司中发现了这场变革浪潮的先行者。


据机器之心了解,国内初创公司自变量机器人(X Square),是国内唯一一家从第一天就选择了端到端统一大模型技术路线的公司,与 PI 的技术路线不谋而合。这家公司正在训练的 Great Wall 操作大模型系列的 WALL-A 甚至从参数规模上已经超过了 PI。今年 4 月,机器之心曾对自变量机器人公布的 Demo 进行报道,其中基于他们自研的端到端统一具身大模型,双臂机器人可利用低成本硬件即实现对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务,展现出相当程度的泛化性能。当前,自变量机器人的模型效果已达到惊人水准,体现在包括处理长序列复杂任务,以及泛化性、通用性等方面。图1 拉拉链对机器人来说极为困难,机器人除了仅依靠位置控制来完成微小拉链头的插入,滑块与链齿的精准对齐和适度力度的拉动,还需要实时应对布料变形带来的干扰,并能够准确判断拉链的咬合状态以及处理布料卡住等异常情况。图2 图3织物操作是操作任务中最困难和复杂的任务之一。织物是柔性无序物体,晾晒/整理/折叠衣物任务面临识别并理解柔性物体的拓扑结构的挑战(比如衣物展开要从完全无序状态中识别领口/袖子等结构;衣架插入要理解衣物的前后层次;衣物折叠要理解折叠的结构),对模型的感知和理解能力要求很高。其次,在叠衣服的过程中,织物的运动和摩擦有大量随机性,形态极难预测,需要模型进行实时感知和修正,要求极强的鲁棒性。这种处理复杂任务以及「泛化」的能力,正是自变量机器人团队对机器人「Scaling Law」的探索成果,他们希望用单一的大模型来驱动端到端的机器人 manipulation。目前,这家成立不到一年的中国初创企业,已经做出了世界上最大规模的端到端统一具身大模型「WALL-A」,并在多个维度上超过了所有已知模型。自变量机器人认为,目前 Great Wall 系列的 WALL-A 类似于「GPT-2」,伴随着模型的不断迭代,机器人领域的「ChatGPT」时刻可能会在不久后来到。令大家好奇的是,这家年轻的初创公司,将会如何实现这一宏伟目标?近日,自变量机器人接受了机器之心的采访,介绍了他们正在进行的有关于技术边界的探索,以及这场机器人浪潮下的一些思考。世界上最大规模的端到端统一具身大模型 机器之心:X Square 正在训练的 WAll-A 是一个怎样的模型? WALL-A 是世界上最大规模的端到端统一具身大模型。在多个维度上,我们的模型都超过了目前已知的所有模型的能力。 比如,从任务复杂度层面来说,我们能够做拉拉链、扣扣子、整理衣物等精细、随机且涉及复杂拓扑结构的任务;从通用性、泛化性层面来说,我们可以做到用极少的样本,完成各种物理环境变量、动作模式的泛化和迁移。 「通用性」和「泛化性」是定义这一代具身智能技术最核心的要素。只有达到足够的通用性、泛化性和可迁移性,才能实现在自由环境中,不受预设环境和预设物体限制的自由操作,才是真正区别于「自动化」及以往专用机器人的新一代机器人。机器之心:为什么将其定义为机器人领域的「大统一」模型? 第一个维度,是我们实现了端到端的纵向统一。从最原始的视频、传感器信号,到最后机器人的速度、位姿、力矩,完全用一个模型解决,中间没有任何切分的步骤,排除了分层所带来的噪声。 第二个维度,是我们实现了任务的横向统一,所有的任务放在同一个模型中训练,推理的时候也用同一模型进行操作。 对于一切操作任务,一个单一的模型即可解决所有问题,因此称之为「大统一」模型。 据我们所知,不只是 PI,海外的明星创业公司目前都在走这条路线,但国内只有我们在走。机器之心:这种「大统一」模型与大语言模型、多模态大模型以及之前的机器人模型的关系是? 统一具身模型的技术方向,既完全不同于传统机器人学习的小模型技术,也完全不同于以往语言、多模态大模型的技术。 首先,大模型的技术栈和小模型完全不同,两者之间没有什么可迁移性。和大模型背景的同学们讨论的更多是计算图优化、混合精度训练如何收敛、并行调度之类的问题;和做机器人或者小模型的同学们讨论的更多是模型的某个设计能够起到什么样的作用或者某个 Bound 是否太松。即使都聊起模型,大模型和小模型的同学们视角也完全不同:大模型最重视的是否方便 Scale Up,小模型更重视「可分析」和「结构设计」。 其次,这件事在数据工程方面有着更高的要求。目前有几十个模型在支撑我们的数据系统。同时,公司自研了一系列数据采集设备。 此外,在所有 AI 领域的细分赛道中,机器人的门槛几乎是最高的,因为和语言或者视觉有明显区别的一点是,机器人领域中的 Domain Knowledge 实在太多,怎么站在大模型的语境下看这些 Domain Knowledge 很重要。另外机器人模型涉及的模态空前的多和复杂,对模型要求的重点也和以往的语言或多模态模型很不一样,如果不是同时有两方面的背景,可能很难把这件事完成好。机器之心:所以你们的技术团队是按照怎样的思路组建的?目前是怎样一个构成? 创始人兼 CEO 王潜本硕毕业于清华大学,是全球最早在神经网络中引入注意力机制的学者之一。博士期间,王潜在美国顶级机器人实验室参与了多项 Robotics Learning 的研究,方向覆盖了机器人多个前沿领域。 联合创始人兼 CTO 王昊博士毕业于北京大学,在粤港澳大湾区数字经济研究院(IDEA 研究院)期间担任封神榜大模型团队负责人,发布了国内首个多模态大模型「太乙」,首批百亿级大语言模型「燃灯 / 二郎神」及千亿级大语言模型「姜子牙」,模型累计下载量数百万。 王潜:面对机器人大模型这波潮流,很多团队可能因为「沉没成本」和「路径依赖」而止步不前。我自己是全球最早引入 Attention 机制的学者之一,在人工智能浪潮兴起的时候,我意识到纯 AI 在落地方面的天花板,所以我出国去搞机器人;在机器人方面,我研究过当时最前沿的 topic,因而非常了解许多技术路径的瓶颈和天花板,把该经历和纠结的都经历了;从 20 年左右自己就看得很清楚通用机器人这事做成只有统一大模型这一条路;所以我们从第一天开始团队的组建和技术的探索就是完全为这个方向设置的,包括我们的技术框架和方向从第一天开始就没有改过。 王昊:我觉得王潜在这里的作用是决定性的,我还真没见过这样既懂机器人又真懂大模型的人。我自己切身的感受是机器人这个领域门槛实在太高了,而懂机器人的人里又确实几乎没人有过 scaling up 的经验,即使像原来 Google 的那批人离开了大平台的基础设施支持,能否做到以前的事情也是一个很大的问号。 原生的「Robotics Learning + 大模型」的创业组合,让 X Square 从第一天起就具备原始创新、对技术路径本质思考的基因。机器之心:端到端和统一模型是唯一的路径吗? 王潜:首先解释下「端到端」。从 2016 年开始,我已经认定,端到端是解决 manipulation 问题唯一可行的路径,本质上是因为 manipulation 和所有其他 AI / 机器人任务都有本质的区别,即涉及到的物理过程的复杂性远远超过其他任务。 这个特点决定了任何分层分步的方法都很难彻底解决这一问题,因为模型不是完美的,每分出一个步骤,都一定会引入不准确的中间结果,即不可控的噪声。 拿最常见的分层方法中的 3D 重建来说,经常出现很多毛刺空洞之类缺陷,有时缺陷很小,人肉眼看的时候都不太能注意得到,但在物理接触中,哪怕一点点的毛刺都会导致结果完全不同。这类问题在每个步骤中都会叠加,最后得到的东西完全不可控。另外,每一个步骤都会丢弃掉大量的信息,而往往在最后控制的时候这些信息反而是重要的。 这也是我们团队与很多 CV / 自动驾驶背景团队最大的不同。很多人会觉得 manipulation 的核心在于 Spatial Intelligence(空间智能),只要能理解三维空间关系,这个问题自然迎刃而解,但据我们所知,做到这里只是问题的一半而已。 但在去年的时候,甚至直到今天,很多人并不真正相信端到端,或者说不认为统一是长期的趋势。去年只有我们在说端到端,大家普遍是不信的,但现在不说端到端都不好意思出门了(笑)。 2017 年,一个非常有名的机器人教授当面跟我说:「你搞的这种端到端的路线永远只能是 Toy Model,永远不可能走通。」我到今天还记得很清楚。一直到今年初,端到端在国内都仍然是非主流的判断,我们去年下半年说要做端到端,大家还是以不信为主,说实话我们得谢谢马斯克,特斯拉 FSDv12 给了大家很大的冲击。到了今年年中,端到端就已经「泛

感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

具身智能GPT-2时刻到了!这家国内公司已做出全球最大规模的端到端统一具身大模型——专访自变量机器人团队

https://www.gptnb.com/2024/11/08/2024-11-07-auto5_2-IwL9zM/

作者

ByteAILab

发布于

2024-11-08

更新于

2025-03-21

许可协议