首页 > 能力资质 >

全球顶级AI科学家李飞飞领衔的具身智能项目到底长啥样？

2023-07-11 21:02:42 来源：金融界

美国国家工程院院士、斯坦福大学教授李飞飞团队于近日发布了具身智能的最新研究成果，大模型接入机器人，可将复杂指令转化成具体行动规划，人类可以很随意地用自然语言给机器人下达指令，机器人也无需额外数据和训练。

该项目名为“VoxPoser”，相比传统方法需要进行额外的预训练，该项目用大模型指导机器人如何与环境进行交互，所以直接解决了机器人训练数据稀缺的问题。

《科创板日报》记者从官网到采访多位业内人士，一探这位全球顶尖AI科学家具身智能项目“VoxPoser”的真面目。

(资料图片)

▍具身智能=？

《科创板日报》记者在VoxPoser官网看到，大模型接入机器人后，人类可以随意用自然语言给机器人下达指令，就像这样：

大语言模型+视觉语言模型，可以在3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划，就像这样：

更重要的是，真实世界中的机器人在未经“培训”的情况下，可以直接执行任务，就像这样：

接入大模型后，机器人是如何“听懂人话”的呢？根据李飞飞团队阐述的工作原理：

首先，给定环境信息（用相机采集RGB-D图像）和人类要执行的自然语言指令。

随后，LLM（大语言模型）根据这些内容编写代码，所生成代码与VLM（视觉语言模型）进行交互，指导系统生成相应的操作指示地图，即3D Value Map（包括在哪里行动，怎么行动）。

最后，运动规划器合成6-DoF动作（上下、左右、前后，6自由度）。

对于VoxPoser项目，北京智谱华章科技有限公司AMiner项目团队在官方微博表示，他们指出了机器人操作中的一个主要瓶颈，即大多数模型仍依赖预定义的运动原语来进行与环境的物理交互。

机器人要灵活运动，依赖预先输入的数据来训练，但后者稀缺且昂贵，所以直到目前为止，机器人也只能实现工程师们预先定义的有限功能。

根据李飞飞团队成员Wenlong Huang在社交媒体的阐述，VoxPoser的原理是不需要对机器人进行预训练，即可有效解决原本的数据难题。

李飞飞团队的研究成果，在国内外社交媒体上引起了广泛的讨论。《科创板日报》记者注意到，一名前微软研究员和亚马逊云专家评价称，“这项研究走在了人工智能系统最重要、最复杂的前沿”，私募大佬但斌也在微博上转发了相关文章。

▍更智能的机器人，AI能力是关键

由于AI的加持，打开了人们对于机器人技术发展和应用场景的想象空间，近期机器人板块热度再次袭来，涨势明显。

一名机械行业券商研究员告诉《科创板日报》记者，近期他们正在密集调研机器人公司，尤其是人形机器人企业，并组织交流，要求是“调研50家机器人企业，交流100场”。

该研究员表示，但市场目前还是在炒作零部件供应商，AI+机器人，现在核心矛盾是AI能力，也即大模型、算法、操作系统等软件层面的构建方案，而真正具备这些能力的机器人企业并不多。

中国通信工业协会两化融合委员会副会长吴高斌接受《科创板日报》记者采访时表示，接入大模型，对整个机器人软件和硬件系统提出了许多新要求。一方面，大模型需要更强大的计算和存储能力。机器人厂商需要投入更多的资源来提升硬件设备的性能，以满足大模型的需求。

另一方面，大模型对软件系统的要求也更高。机器人厂商需要开发更加复杂和高效的算法和软件架构，以支持大模型的训练和应用。此外，大模型的使用还需要更多的数据集和标注，机器人厂商需要建立更完善的数据采集和管理系统。

因此，不同量级的公司对大模型的需求也存在一定的差异。吴高斌告诉记者，大型机器人厂商通常具有强大的研发实力和资源，对于他们而言，接入大模型几乎是必选项，小型机器人厂商的市场需求相对较小，可能更注重成本和性能的平衡，则并不一定要接入大模型。

前述研究员也告诉记者，AI+机器人方向，他们现在最关注的是特斯拉、小米、达闼、优必选这些头部企业的最新动向。

在刚刚结束的2023年世界人工智能大会上，特斯拉、达闼是位数不多展出人形机器人实物的厂商，在两个展区，挤满了前来观展的人员。在AI+机器人的概念下，产业链上哪种类型的公司将更具竞争力也成为了一个关注的焦点。

吴高斌认为，从整个产业链来看，与大模型相关的公司可能更具竞争力。这包括大型机器人厂商、人工智能技术提供商、数据服务提供商等。这些公司能够提供更先进的技术和更完善的解决方案，从而在市场上占据更有竞争力的地位。

本文源自：科创板日报

标签：

珠宝头条

全球顶级AI科学家李飞飞领衔的具身智能项目到底长啥样？

顺应趋势，拥抱趋势，短线操作铁律分享

全球顶级AI科学家李飞飞领衔的具身智能项目到底长啥样？

能力资质