强化学习

我们专注于开发用于机器人的新型机器学习方法。未来的机器人技术将在现实中的复杂场景发挥作用,这些场景与机器人研究中通常考虑的实验环境不尽相同。现实世界中有许多环境是复杂和未知的。机器人在与这些环境交互时可能会遇到许多不同的情况,因此如果想对这些任务进行预编程,是不可能的。

我们的目标是创建数据高效且具有数学原理的机器学习算法,这些算法可以适用于我们的复杂环境机器人领域。强化学习是我们的研究重点之一,我们研究机器人如何通过与环境交互来改善其策略。我们的重点是将概率运动表示与深度强化学习联系起来,这需要在高维动作空间中进行精确的策略更新。此外,我们正在开发提高机器人所学技能的多功能性的方法。

强化学习(reinforcement learning,RL)讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decision)。然后这个动作会在环境中被执行,环境会根据智能体采取的动作,输出下一个状态以及当前这个动作带来的奖励。智能体的目的就是尽可能多地从环境中获取奖励。


阎石 发布于 2023-4-1 19:29

个人资料

搜索