美国国家工程院院士、斯坦福大学教授李飞飞团队于近日发布了具身智能的最新研究成果,大模型接入机器人,可将复杂指令转化成具体行动规划,人类可以很随意地用自然语言给机器人下达指令,机器人也无需额外数据和训练。
该项目名为“VoxPoser”,相比传统方法需要进行额外的预训练,该项目用大模型指导机器人如何与环境进行交互,所以直接解决了机器人训练数据稀缺的问题。
《科创板日报》记者从官网到采访多位业内人士,一探这位全球顶尖AI科学家具身智能项目“VoxPoser”的真面目。
(资料图片)
▍具身智能=?
《科创板日报》记者在VoxPoser官网看到,大模型接入机器人后,人类可以随意用自然语言给机器人下达指令,就像这样:
大语言模型+视觉语言模型,可以在3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划,就像这样:
更重要的是,真实世界中的机器人在未经“培训”的情况下,可以直接执行任务,就像这样:
接入大模型后,机器人是如何“听懂人话”的呢?根据李飞飞团队阐述的工作原理:
首先,给定环境信息(用相机采集RGB-D图像)和人类要执行的自然语言指令。
随后,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map(包括在哪里行动,怎么行动)。
最后,运动规划器合成6-DoF动作(上下、左右、前后,6自由度)。
对于VoxPoser项目,北京智谱华章科技有限公司AMiner项目团队在官方微博表示,他们指出了机器人操作中的一个主要瓶颈,即大多数模型仍依赖预定义的运动原语来进行与环境的物理交互。
机器人要灵活运动,依赖预先输入的数据来训练,但后者稀缺且昂贵,所以直到目前为止,机器人也只能实现工程师们预先定义的有限功能。
根据李飞飞团队成员Wenlong Huang在社交媒体的阐述,VoxPoser的原理是不需要对机器人进行预训练,即可有效解决原本的数据难题。
李飞飞团队的研究成果,在国内外社交媒体上引起了广泛的讨论。《科创板日报》记者注意到,一名前微软研究员和亚马逊云专家评价称,“这项研究走在了人工智能系统最重要、最复杂的前沿”,私募大佬但斌也在微博上转发了相关文章。
▍更智能的机器人,AI能力是关键
由于AI的加持,打开了人们对于机器人技术发展和应用场景的想象空间,近期机器人板块热度再次袭来,涨势明显。
一名机械行业券商研究员告诉《科创板日报》记者,近期他们正在密集调研机器人公司,尤其是人形机器人企业,并组织交流,要求是“调研50家机器人企业,交流100场”。
该研究员表示,但市场目前还是在炒作零部件供应商,AI+机器人,现在核心矛盾是AI能力,也即大模型、算法、操作系统等软件层面的构建方案,而真正具备这些能力的机器人企业并不多。
中国通信工业协会两化融合委员会副会长吴高斌接受《科创板日报》记者采访时表示,接入大模型,对整个机器人软件和硬件系统提出了许多新要求。一方面,大模型需要更强大的计算和存储能力。机器人厂商需要投入更多的资源来提升硬件设备的性能,以满足大模型的需求。
另一方面,大模型对软件系统的要求也更高。机器人厂商需要开发更加复杂和高效的算法和软件架构,以支持大模型的训练和应用。此外,大模型的使用还需要更多的数据集和标注,机器人厂商需要建立更完善的数据采集和管理系统。
因此,不同量级的公司对大模型的需求也存在一定的差异。吴高斌告诉记者,大型机器人厂商通常具有强大的研发实力和资源,对于他们而言,接入大模型几乎是必选项,小型机器人厂商的市场需求相对较小,可能更注重成本和性能的平衡,则并不一定要接入大模型。
前述研究员也告诉记者,AI+机器人方向,他们现在最关注的是特斯拉、小米、达闼、优必选这些头部企业的最新动向。
在刚刚结束的2023年世界人工智能大会上,特斯拉、达闼是位数不多展出人形机器人实物的厂商,在两个展区,挤满了前来观展的人员。在AI+机器人的概念下,产业链上哪种类型的公司将更具竞争力也成为了一个关注的焦点。
吴高斌认为,从整个产业链来看,与大模型相关的公司可能更具竞争力。这包括大型机器人厂商、人工智能技术提供商、数据服务提供商等。这些公司能够提供更先进的技术和更完善的解决方案,从而在市场上占据更有竞争力的地位。
本文源自:科创板日报
标签: