21世纪经济报道记者张梓桐 上海报道

人工智能大模型的火热,也催热了人形机器人。

“简单来说,目前做人形机器人,包括AI应用,只要把现有大模型的技术拿过来移植或者裁减一下,对人形机器人来说就已经足够了。”近日,宇树科技创始人兼首席执行官王兴兴日前对记者作出了如上判断。


(相关资料图)

在他看来,人形机器人已经经历了各种高校、科研院所几十年的研发,过去有高潮也有低谷,但是随着AI迭代速度越来越快,目前人类的控制技术已经有希望驾驭人形机器人这么复杂的机器人形态,而今年AI的进展速度已经远超机器人所需的技术。

事实上,行业内秉持着如此观点的人并非少数。在8月18日下午举办的2023世界机器人大会-通用人形机器人技术与产业创新论坛上,中国科学院院士、清华大学交叉信息研究院院长姚期智在现场表示,ChatGPT的能力目前仅主要体现于对语言的处理之上,而如果未来真正让通用人工智能发挥出它的价值,AGI一定需要有具身实体来和真实的物理世界相交互完成各种任务。而人形机器人就是具身智能落地的最理想形态之一。

硬件、算法与模型

在多位业内专家看来,人形机器人基本上具备三个部分,第一部分是身体,第二部分是小脑,第三部分则是大脑。身体的具身必须要有足够的硬件,例如传感器和执行器,小脑会主导视觉、触觉各种感知来控制身体,完成复杂的任务,最后大脑主导上层的逻辑推理、决策、长时间的规划,以及与其他的智能体和环境进行自然语言交流。

在身体形态方面,姚期智表示,由于人形能够适应各种环境,同时人类社会环境主要是为人类而定制,例如楼梯的结构、门把手的高度、被子的形状等等,因此如果能够打造一个有泛应用的通用机器人,人形是最合适的形态。

而在人形机器人小脑方面,姚期智指出,搭建在机器人实体上、扮演小脑角色的是一套机器人运动控制算法。上层是固态规划层,下层则是基于动力学的实时全身运动控制,其可以计算发给电机关节精确的指令并搭配对应状态的固定器。

但他同时表示,在构建小脑的算法端上行业还未实现对于机器人的更好控制,因此行业也在利用人工智能、强化学习的方法研究灵活度更高的对应策略。

在这其中,运用强化学习框架的好处在于没有了模型的限制,因此它在复杂与不确定的环境下能够展现出更强的适应能力,同时它能够利用人体运动实际的数据,给予深度学习更好的引导。

“通过强化学习,机器人能够用自然的方式来模拟人态的行走,这样也使它消耗更低的能耗,但强化学习应用的难题就是其所需要的样本非常多,这也成为一直困扰着行业的一大挑战。”姚期智说道。

因此,如何通过创新算法的架构,实现更高效率的样本学习能力是行业需要持续探索的方向。

此外,在姚期智看来,另一个困扰强化学习的难题则是人形机器人的泛化性,即系统对于这些任务及其环境中间的不确定性和干扰,能不能够泛化的更好。

“谷歌日前推出的palm-e是行业非常重要的技术路线,但这一框架也存在着问题,即它的下一层不一定能够很好执行上一层的规划,尤其是中间如果发生一些意外的干扰。而解决的方法在于首先需要像大语言模型一样,给机器人描述一下他所需要的任务,机器人就按照这个任务来执行,比如一个搬箱子的工作,它的右边是一个摄像头,在这里面它的视觉语言模型就通过这个视角,检测是不是有意外发生,如果有的话怎么样能够纠正,看到这个箱子掉到地上,这个机器人能够想出一个方法最后把它捡起来,最后能够完成任务。”姚期智解释称。

工业与家庭场景落地

在世界机器人大会期间,人形机器人具体的落地场景。也成为了与会者密集讨论的议题。

优必选科技创始人周剑在论坛现场接受21世纪经济报道记者采访时表示,在未来,人形机器人有两个最为理想的落地场景:“首先是制造业场景的应用。我们看到当下所有的汽车生产线上的工业机械手臂还需要几十万生产线上的工人来操作,而人形机器人有望实现对他们的替代。其次,在生活环境中那些符合人体工程学的工作也适合人形机器人发挥作用,例如‘陪伴,工作、学习与生活’。”

而这就意味着,人形机器人未来必然走向“通用化”,那么为何在已经存在一些标准化机器人的情况下,行业仍然需要通用机器人?

“这是技术走向更前瞻性、通用性的问题,行业希望有一种机器人在诞生后,可以完成所有任务。而不是每种工作都要去开发特定的机器人,因此目前通用人形机器人的形态是大家公认的最好形态。”一位业内人士在现场对记者解释称。

但值得注意的是,在当下这个硬件和软件等技术都迈向新台阶的关键节点,人形机器人技术实际上还面临许多瓶颈。

追觅科技研究院负责人喻超接受21世纪经济报道记者采访时指出,人形机器人行业公认的一个事实是,行业要向前发展,必先跨越“三座大山”,即:技术难度大,制造成本高昂,以及商业化难度高。

清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇则在现场表示,对硬件来说,行业希望机器人同时兼顾力量、速度、精度以及成本,但是目前所有技术都无法同时兼顾这几项,例如液压的技术速度和力量都很强,但是它成本太贵。

而高减速比谐波技术,可能精度比较高,但是灵巧性又降低;而新的转制期技术虽然成本比较低,但是却牺牲了载荷和精度,因此现在还没有一个能够兼顾所有达到我们满意的情况。

而在软件方面,陈建宇表示,行业目前还无法很好兼顾其泛化性和控制任务操作的精巧性,“控制的算法以及强学习算法,我们可以做到比较精准的控制,但这基本上目前还是一个任务对应一个模型或者一个特别的算法,很难做到泛化。”

在他看来,现在行业能做的就是针对不同的应用场景,选择不同的技术路线,来进行下一步的平衡。

推荐内容