4月19日消息,近日,加州大学伯克利分校的研究团队打造了一个两条腿的机器人Cassie(凯西),它可以通过AI强化学习自己学会走路,而非直接编程或模仿来学习。
相比传统经典模型法,强化学习无需建模,而是通过AI学习框架让Cassie以“试错”的方式进行自主训练,类似于婴儿学走路,主动适应环境渐渐执行敏捷、稳定、多样化的行走动作。行走之外,Cassie还会不断学习跑步、跳跃等新技能,还可实现自动调速功能。
未来,基于AI强化学习这一技术,运动机器人也将更为敏捷。
双足机器人Cassie类似我们的腿部外形,因此相比其他形状的机器人更容易进入为人类设计的城市环境之中。
为帮助Cassie像人类一样学会自主行走,研究团队将这个过程想象为如婴儿学走路一般。婴儿虽然不会直接学会站立行走,但他们能通过一次次的站立、跌倒、迈步中记住步行的步骤,最终学会直立行走。
Cassie学走路也是如此。但为防止机器人在学习过程中跌倒损坏实际硬件,研究团队利用模拟到真实的传输技术,在模拟环境中训练,在高保真度的模拟器中进行评估,最终部署到Cassie机器人上。
在模拟中,机器人接受了描述直立行走等目标的信息后,AI引擎可以帮助其记住步行步骤,以此为基础添加更多信息,最终学会直立行走。此外,它还可以学会如何在轻微滑倒时防止摔倒,或从侧面被推倒时如何恢复。
一旦机器人在模拟中学会走路,研究人员便将此知识移植给Cassie,进行实际操作。后续实践中,研究人员计划继续在机器人中进行强化学习,看看它能走多远。
研究团队基于强化学习( Reinforcement Learning;RL)方法,希望让Cassie通过系统学习法学会更敏捷的行走。强化学习又称增强学习、评价学习,是智能体以“试错”的方式进行学习,在环境交互中达成特定目的。
在此之前,研究者往往通过机械建模控制双足机器人行走,然而这种方式难以对复杂地面进行建模,机器人缺乏适应环境变化的能力和运动稳定性。
▲基于强化学习的步行控制器
RL方法训练策略可以让机器人模拟步态库中的步态,通过随机训练增加其行为的多样性。这种多样性的增加,能够让Cassie应对以往无法建模的地面摩擦变化等环境因素,在随机环境下保持灵活稳健性。
基于RL方法,研究人员建立了一种自适应调速步行控制器。
这种控制器能够通过AI追踪Cassie的步行环境,并给其适当的行走策略。
▲Cassie在不同场景下的行走策略
在实验中,Cassie能够执行各种敏捷行为,如快进和后退行走、侧身行走、改变行走高度,还能够在偏航时进行转身操作。
此外,Cassie还能够从路障等外界随机扰动中恢复。
基于步态库的参考运动,AI强化学习可以帮助两足机器人学习步行、转弯、下蹲等运动状态,跟踪其行走环境以达到自动调速、转弯等功能,让机器人在运动中更好的达到灵活性和稳健性。
未来,AI强化学习还将在此基础上,助力两足机器人及其他机器人学习更多动态、敏捷的行为,助其在复杂的未知环境下仍能应对自如。
来源:Tech Xplore