CNCC2021 | “多任务多智能体强化学习技术与应用”论坛精彩回顾
12月17日,CNCC"多任务多智能体强化学习技术与应用"论坛成功召开。
本文转载自深圳市人工智能与机器人研究院
12月17日,CNCC"多任务多智能体强化学习技术与应用"论坛成功召开。本论坛由清华大学深圳国际研究生院博士生导师,副研究员袁春教授担任论坛主席,香港中文大学(深圳)校长讲座教授、理工学院副院长,AIRS副院长、群体智能中心主任黄建伟教授担任论坛共同主席。
近年来,深度强化学习开始在一系列具有挑战性的高维状态空间连续控制任务上取得巨大成功,但也有一系列问题亟待解决。本次论坛邀请国内外高校和知名企业著名学者报告和研讨了多任务多智能体强化学习理论和应用的发展状况,报告嘉宾分别是:
· 腾讯Robotics X实验室专家研究员韩磊博士
· 清华大学交叉信息研究院助理教授,博士生导师张崇洁教授
· 纽约州立大学(SUNY)宾汉姆顿分校计算机系张世琦教授
· 香港中文大学(深圳)理工学院副院长、校长讲座教授,深圳市人工智能和机器人研究院副院长、群体智能中心主任黄建伟教授
· 清华大学深圳国际研究生院博士生导师,副研究员袁春教授
以下是论坛的嘉宾演讲回顾:
大规模分布式多智能体强化学习架构及其应用
首先,腾讯Robotics X实验室专家研究员韩磊博士带来了题为“大规模分布式多智能体强化学习架构及其应用”的报告。
韩博士介绍了多智能体强化学习在诸多领域的重大进展,然后指出其面临的主要问题是巨大的计算资源和复杂的训练架构,最后分享了一种可拓展的大规模多智能体强化学习训练架构TLeague,支持任意数量的GPU和CPU资源进行混合训练。
Efficient Reinforcement Learning via Inductive Models
清华大学交叉信息研究院助理教授,博士生导师张崇洁教授的报告题目是:Efficient Reinforcement Learning via Inductive Models。
张教授指出深度强化学习的一个主要问题是采样效率不高,这限制了其在实际问题中的应用,然后提出了提高强化学习效率的归纳模型,包括广义表征模型、想象动力学模型和情景记忆模型,并在不同游戏场景中验证了算法的有效性。
带有人工指导的机器人强化学习
纽约州立大学(SUNY)宾汉姆顿分校计算机系张世琦教授带来了题为“带有人工指导的机器人强化学习”的报告。
张教授分享了有关带有人工指导的机器人强化学习的一系列工作。张教授首先介绍了强化学习在机器人领域所遇到的一些技术挑战。而后分享了三个研究工作。一是将人类知识用于指导机器人,利用自动规划来指导机器人的强化学习。二是人类和机器人相互合作的场景,强化学习将帮助人类和机器人更好的交互。最后是关于在部分可观察性下,机器人在人类的指导下学习。
多智能体联邦学习的优化和激励机制设计
香港中文大学(深圳)理工学院副院长、校长讲座教授,深圳市人工智能和机器人研究院副院长、群体智能中心主任黄建伟教授的报告题目是:多智能体联邦学习的优化和激励机制设计。
黄教授首先介绍了联邦学习的基本概念,然后指出如何激励边缘设备参与联邦学习是一个未被解决的主要问题,接着系统地提出了在多维隐私信息存在的情况下云端的最优激励机制设计方法,同时分析了不同信息不对称度对整个系统性能的影响。
自增强型连续控制强化学习
清华大学深圳国际研究生院博士生导师,副研究员袁春教授带来了题为“自增强型连续控制强化学习”的报告。
袁教授主要分享了有关自增强型连续控制强化学习相关的一些工作。首先介绍了强化学习相关的基础知识。而后重点介绍了近期的两个工作,分别是:基于双自驱架构的自适应集成强化学习算法和基于混合专家系统的自监督调度强化学习算法。两个算法从不同角度融合机器学习方法,扩充了现有连续控制强化学习算法体系,探索了高效训练、鲁棒泛化的自增强型强化学习算法。
特别鸣谢李俊伶、刘博对本文的整理与贡献。