第五届深度强化学习研讨会顺利召开

日期:2021-01-25 15:11


研讨会总结  

2021年1月23日,第五届深度强化学习理论与应用研讨会顺利举行。上午在中科院自动化所分组讨论交流了深度强化学习(DRL)与游戏,DRL与驾驶,DRL与机器人和自动机器学习。下午,邀请了几位报告人在Zoom会议室/Bilibili在线直播,分别从深度强化学习及相关的模仿学习、小样本学习、经验回放机制、智能驾驶应用,统计前向规划、联邦学习等不同角度进行了深入浅出的精彩分享。线上直播最高峰有1.2万人同时观看。报告过程中大家讨论积极,交流深入,收获良多。在征求报告人同意之后,我们将为大家带来精彩报告的回放视频,请关注后续消息。   

研讨会详情:https://mp.weixin.qq.com/s/8xwsTojX7dfOnAP5pS9r_A

会议时间:2021年1月23日

会议形式:ZOOM会议&Bilibili在线直播

主办单位:

中科院自动化所复杂系统管理与控制国家重点实验室 

中国自动化学会

承办单位:

中科院自动化所-深度强化学习团队

中国自动化学会认知计算与系统专业委员会

研讨会报告  

第一场报告:

13:30-14:10:从数学与信息处理的视角看模仿学习
报告人:孙富春,清华大学长聘教授

报告首先回顾了从控制论到人工智能的发展历史,特别强调了基于感知-动作模式的人工智能行为主义范式。进而,从数学的视角讨论了行为模仿问题,给出了智能体二阶情形下行为模仿的理论结果。接着,从控制工程和人工智能的视角讨论行为模仿,给出了智能体行为模仿和技能的理论方法。最后了从优化函数和可解释性等方面讨论了数学方法、控制工程方法以及人工智能方法的异同,给出了三种方法强强联合的理论框架。

第二场报告:

14:10-14:50:面向智能制造的认知计算与深度学习

报告人:文成林,广东石油化工学院教授

介绍了课题组在深度学习、强化学习、多级联邦学习等模型训练与收敛性分析等方面的研究与进展。介绍在面向智能制造的认知计算理论与方法方面的新思想:非结构复杂问题的统一形式化描述与度量、一体化认知分析模型与认知计算方法、多智能形态统一测试平台与评测体系等。

第三场报告:

14:50-15:30:Experience Replay in Deep Reinforcement Learning

报告人:陈春林,南京大学教授

报告介绍了在深度强化学习中广泛应用的经验回放机制设计。该机制使得在线强化学习算法可充分利用过去的经验。详细介绍了一系列用于提高采样效率,更好地平衡探索和利用的经验回放方法,包括优先经验回放(PER)、使用自节奏优先课程学习的深度课程强化学习(DCRL)和量子启发经验回放(QER)。

第四场报告: 

15:30-16:10:ApplyReinforcement Learning in Autonomous Vehicle Design

报告人:李升波,清华大学长聘教授

报告总结和回顾了主流的强化学习算法,以及在高级自动驾驶汽车应用中的工程挑战,包括稀疏奖励环境下的低收敛速度、安全约束和不可行性、不确定环境下的鲁棒性增强等问题。最后,将介绍两种最近开发的强化学习算法,即分布式Soft Actor-Critic(DSAC)和混合Actor-Critic(MAC),以及它们在自动驾驶汽车决策和运动控制中的应用。

第五场报告: 

16:20-17:00: General Game AI with Statistical Forward Planning Algorithms

报告人:Simon Lucas,QUML Professor

报告介绍了统计前向规划方法,是游戏人工智能常用的一种简单快速的求解方法,包括蒙特卡罗树搜索和滚动域演化算法。解释了为什么这些算法如此有效,即使模型是不完整的,甚至可能是不正确的,只要求预测结果与真实结果具有等级相关性即可。描述了一些关于分层统计前向规划的最近工作,改进了蒙特卡罗图搜索算法,使其具有更好的样本效率和长期学习的潜力。

第六场报告: 

17:00-17:40:Communication-efficient and privacy-preserving federated learning

报告人:Yaochu Jin (金耀初),University of Surrey Professor

报告介绍了关于高效通信联邦学习的两种最新方法,一种是基于结合时间加权平均的异步模型更新,另一种是使用训练过的三元量化。此外,提出了一种分布式附加加密方法,在不依赖可信第三方的情况下对局部模型参数进行加密,进一步增强了隐私保护。最后,简要讨论了联邦学习中仍存在的挑战和未来的工作。

来源:深度强化学习CASIA