“下周智元机器人有好东西发布。”华为离职天才少年、智元联合创始人“稚晖君”(彭志辉)在社交媒体预告道。
周一(3月10日)上午,“好东西”如约而至,智元机器人官方账号宣布正式发布首个通用具身基座模型——智元启元大模型GO-1(Genie Operator-1),这也是国内首个通用具身基座大模型。
消息一出,喜提两个热搜。
根据官方介绍,智元的GO-1大模型开创的提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,拥有人类视频学习,小样本快速泛化、一脑多形、持续进化等优势。可以说是让机器在拓展了运动能力之外,具备了AI的能力,让机器具备了真正的价值。
智元官方在五种不同复杂度任务上测试了GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。
其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。
Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划。智元单独验证了Latent Planner在ViLLA 架构中的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。
智元认为,GO-1的推出让具身智能从单一任务走向了多种任务,从封闭环境走向了开放世界;从预设程序走向了指令泛化,将具身智能推上了一个新台阶。
智元还将在2025年Q2推出首个基于强化学习的Foundation Model。
在GO-1大模型发布之后,智元合伙人,具身业务部总裁,研究院执行院长姚卯青以及智元具身研究中心常务主任任广辉接受了网易科技采访。
对于发布具身基座大模型的初衷,姚卯青非常肯定地表示,AI能力将来会是区分机器人产品竞争力的核心环节,机器人发展到最后,比拼的就是AI能力。而机器人公司不做大模型是没有未来的。
对于智元来说,AI的投入可以说是战略级别的,而且是坚定的。
不仅如此,智元在发布基座大模型的同时,还将相应的论文进行了公开发表,这已经算是一种变相的开源。据姚卯青透露,智元将在Q1末面向核心用户开源整个大模型。
在采访中,姚卯青还提到了行业中热议的“9.9万人形机器人”的话题,他认为,硬件的基础也决定了机器人能力的上限。在这个阶段,智元还是坚定地认为需要以价值为导向,让机器人的硬件软件协同配合产生一个好的效果,而不是说买一个大号的电动玩具。
姚卯青认为,人形机器人的应用会是渐进式的,未来1-2年将会在局部场景应用落地,大家期待的机器人进入家庭场景的情况,还需要5年左右的时间。
智元机器人成立于2023年,创始人之一彭志辉曾是华为天才少年,人称“稚晖君”“野生钢铁侠”。公司成立不久就发布了首款人形机器人,截至目前已经下线1000台机器人产品,智元机器人已经完成多轮融资,募资总额超过16亿元。
值得一提的是,稚晖君还是“B站百大UP主”,他于2017年11月26日开始在B站上传视频。2020年凭借在B站发布自制硬核小电视内容走红。2024年陈睿在公开演讲中盛赞其“从野生钢铁侠到70亿估值企业CTO”的成长路径。
以下为对话智元合伙人,具身业务部总裁,研究院执行院长姚卯青以及智元具身研究中心常务主任任广辉的部分内容:
提问:智元具身基座大模型的研发初衷是什么?
姚卯青:这和我们公司的使命是紧密相连的。我们公司的使命是希望利用通用机器人来创造无限生产力。我们认为机器人只有硬件本体,肯定是不够的,这也是最近一些机构,或者说国外的公司对机器人行业的评论,觉得中国人形机器人公司硬件做得比较好,但AI能力没有看到显著的进展。
我们认为AI能力将来一定是区分机器人产品竞争力的核心环节,就像今天的新能源车、手机一样,硬件大家会逐渐收敛,供应链也会高度地整合,最后大家比拼的一定是AI的能力。
AI对于机器人来讲,一定是更为重要的。因为机器人如果没有自主作业的能力,那它价值是非常有限的。基于这样的初衷,我们将具身智能的AI研发,作为了公司战略级的投入,我们也是第一个在行业内走完了机器人大规模的量产,然后用量产的机器人编队去采集百万级高质量的数据。同时又能把这批数据用来自研大模型,还把大模型能够部署回自己的硬件本体上。
我们是第一个做到这样闭环的研发迭代。
提问:大模型将应用于什么场景,如何应用?
姚卯青:我们觉得大模型在机器人行业的应用会经历渐进式的变化,会从一些较为容易、结构化场景较为明确的地方,先去进行落地探索,然后逐渐演化到半结构化和半开放的任务和场景,最终通过在各个行业,各个场景落地过程中收集到的海量的数据和交互的数据,真正地实现通用人工智能,实现AGI在物理世界的应用,可能到那个时候,是真正走入千家万户,在家庭中执行各类开放式的指令任务。
从这个角度来讲,我们在近两年的时间内会集中在工业、服务业和商业领域的应用,同时也会坚定地为最终走向AGI, 走进家庭这样开放式场景,不断做技术的摸高。
提问:智元的具身基座大模型GO1可以降低成本,大概能够降低多少幅度?
任广辉:我们可以讲一下之前做的实验,我们在一些场景上,可能一个任务大概需要万条规模才能达到比较好的成功率,而现在只需要千条或者大几百条就能做到最好,可以说是降低了一个数量级的数据采集量。
提问:智元的具身基座大模型开源的前景如何?
姚卯青:其实我们今天在发布的同时,不仅仅发布了视频,还把技术博客以及对应的论文都已经公开出来了。一定程度上我觉得也算是一种开源了。同时我们会对智元的核心用户,在Q1对他们进行模型的整个开源。他们可以使用我们的模型部署到智元的机器人上。
提问:机器人在基座模型上是否已经进入到技术收敛阶段?
姚卯青:机器人的技术我们认为还比较早期,还没有到收敛的程度,因为本身这个行业受制于数据的问题,还没法去进行Scaling Low的完整验证。这也是为什么我们之前要去主动开源AgiBot World。
提问:对应到机器人智能等级标准里,从G1到G5,智元的GO1算是哪个等级的呢?
姚卯青:我们目前发布的这个技术应该是处于G3到G4的过渡过程。
提问:未来数据集采会不会单独剥离出来形成一个产业?
姚卯青:这个是有可能的。我们看到AI的发展也是有明确的产业分工,像数据的采集、标注,审核,甚至是数据的交易,都是有一些平台型的机构出现的。在机器人领域,我认为这也是有机会的。
提问:未来机器人的必争之地是AI,路线和发展趋势是怎样的?
姚卯青:我觉得算法目前不能说已经完全走向收敛,还是在百花齐放的状态。但是在这个发展过程中,我们也看到了一些挑战,比如说偏科的公司比较多,有一些特别擅长算法的,包括像国外的一些公司,没有很好的机器人硬件,也没有大规模的机器人本体,这其实是会严重限制他们对算法的整个研发验证。反过来也有大量的机械本体公司在AI上的投入是比较受限的。
所以我们希望能够看到更多的像智元这样的,能够完整地从硬件、数据、算法端到端,具备研发能力的公司、玩家来涌现。
提问:您认为大概什么时候可以进入家庭场景?
姚卯青:我们判断的话需要比较长一点的时间,五年左右能够走入家庭,去实际创造一些价值。
提问:之前宇树的9.9万以下的机器人其实在行业还是引起了比较大的争议,您也曾经说过卷9.9万的价格是没有意义的,这次大模型发布之后,对机器人在终端售价上是否会有影响?
姚卯青:定价9.9万元的机器人,确实在市场上受到了很大的关注。但是行业的从业人员也知道,现在质量好的零部件是怎样的一个成本,如果特别低的价格,那是可以想象用的是什么料的。同时,硬件的基础也决定了机器人能力的上限。在这个阶段的话,我们还是坚定地认为需要以价值为导向,真正能够让机器人的硬件软件协同做协同配合产生一个好的效果,才是给用户的价值,而不是说买一个大号的电动玩具,长期来讲是不具备很好的商业价值的。
提问:智元今年的商业计划是怎样的?
姚卯青:今年我们的商业化目标是在营收层面,比去年的营收会有一个数倍的增长。在出货量上面,应该会达到数千台的规模。
提问:智元成立了两三年,如何与成立八九年甚至十年左右的公司竞争?优势是什么?
姚卯青:我个人觉得成立时间较短的公司有比较大的优势。因为整个人形机器人产业从技术上来讲是一个比较新的行业。我们也看到,今天大模型成功的公司,他们的整个组织人才方向是非常年轻化的。
在经营方向或者技术规划方面,我们要去所谓的unlearned去学习,如果有太多的历史包袱,就很难很暴力地做一些战略上的调整,同时发展到一定程度的公司从资本的层面、经营层面都会去变得相对的更加保守,更加务实一些。
智元作为一家只有刚刚满两年的公司,我们平均的研发现在是30岁以下的,无论是出货量还是营收,也是一个非常快速的过程。
相信今年我们有比较大的机会,可以在经营上做到国内的头部,就是真正的龙头企业。我们用两年时间走完了别人可能八年九年没有走完的路,而且是在一个快速上升的趋势中。(转载自网易科技)
