会议详情 - 水木书荟

全国高校强化学习课程高级研修班

报名时间： 2022-07-01 09:00:00 至 2022-08-01 18:00:00

会议时间： 2022-08-05 09:00:00 至 2022-08-07 18:00:00

会议地点：昆明

会议费用信息

主会场免费

会议通知

各高校教务处、各相关院系负责人：

依据《教育部高等学校教学指导委员会章程》规定，教育部高等学校教学指导委员会的任务之一是：组织师资培训，沟通信息，交流教学建设和教学改革经验，宣传推广优秀教学成果，为高等学校的教学建设和教学改革做好服务工作。为此，教育部高等学校计算机类专业教学指导委员会和全国高等学校计算机教育研究会决定举办本系列课程高级研修班。本系列课程高级研修班面向全国高校相关院系专业负责人与教师，专注于人才培养、学科建设、课程体系与课程内容建设、授课艺术、产教融合、科研与教学、教学经验分享等。

作为引领未来的战略性前沿技术，世界各国把人工智能作为提升国家竞争力及维护国家安全的重大战略，力图在新一轮科技竞争中掌握主动权。我国国务院在2017年7月引发《新一代人工智能发展规划》，以抓住人工智能发展的重大战略机遇，构筑我国人工智能发展的重大战略机遇，加快建设创新型国家和世界科技强国的脚步。

为了加快创新步伐，全面实施创新驱动发展战略，进一步贯彻落实国家《新一代人工智能发展规划》，加快人工智能教学水平，提高人才培养层次，加强智能科学课程建设水平，提高教育水平是当务之急。为了满足国家对智能科学人才培养的需要、提高人才培养质量，师资是关键，而组织教师培训是提高师资水平的最佳途径之一。通过培训，可以使教师了解人工智能行业发展的最新动态，分享强化学习课程的优秀教学成果，提升高校教师特别是中青年教师的业务水平和教学能力，从而进一步促进机器学习课程的教学发展。同时，培训可以为教师提供了一个沟通信息的平台，交流课程建设和教学改革的经验，交流产、学、研合作的可能。

特邀请各高校相关院系选派教学主管领导、课程负责人和骨干教师参加本次研修班。

课程目标

深度强化学习环境的搭建及强化学习任务的数学建模。

学习常见的强化学习算法，如动态规划、蒙特卡洛、时序差分、模型学习、DQN、DDPG、TD3及A3C等。

掌握PyTorch实现深度强化学习的方法。

熟悉深度学习和强化学习，通过实例理解深度强化学习算法的实现。

通过实际案例的操作，学会使用强化学习解决工程问题。

了解深度强化学习目前的研究热点，学会该方向的研究方法。

给教师的锦囊：分享PyTorch强化学习课的教学经验，使教师“从零开始，上好PyTorch强化学习课”。

课程内容及时间安排

第一天 2022年8月5日（周五）
9:00-11:30	给教师的锦囊开设强化学习课，做哪些准备强化学习课程教学方法及实验平台如何通过实例深入浅出讲清楚强化学习算法教学课时与实验课时的安排 PyTorch强化学习课介绍强化学习的基本概念强化学习与其他机器学习的关系强化学习的典型应用案例强化学习的实验平台介绍强化学习实验环境的搭建实例：机器人寻宝任务仿真环境的搭建编程和案例实践 Anaconda、Jupyter Notebook、PyTorch、Gym等环境的搭建强化学习实验平台的使用及编程机器人寻宝仿真环境的程序设计
11:30-12:00	交流与讨论
14:30-17:30	强化学习任务的建模及动态规划方法 1.利用MDP对强化学习任务建模 2.强化学习任务求解 3.以n-臂赌博机为例，讲解探索和利用算法 4.动态规划算法策略迭代（案例分析：汽车租赁）值迭代（案例分析：赌博任务）案例实践 1. 利用MDP对自己搭建的环境建模 2. 利用动态规划法（策略迭代、值迭代）对自己搭建的任务求解 3. 结合算法，编写程序解决汽车租赁问题 4. 结合算法，编写程序解决赌博任务
17:30-18:00	交流与讨论
第二天 2022年8月6日（周六）
9:00-10:30	蒙特卡洛和时序差分算法 1. 蒙特卡洛预测（案例分析：21点游戏） 2. 蒙特卡洛控制（案例分析：赛车） 3. 时序差分预测（案例分析：机器人寻宝） 4. 时序差分控制（案例分析：机器人寻宝） Sarsa算法 Q-learning算法案例实践 1. 利用蒙特卡洛控制法对自己搭建的环境求解 2. 利用Sarsa法和Q-learning对自己搭建的环境求解
10:30-12:00	深度学习与PyTorch 1. 深度学习基础 2. PyTorch与神经网络 PyTorch中的Tensor 自动梯度计算神经网络的模型搭建和参数优化模型的保存与重载案例实践 1. PyTorch体验 2. 使用生成对抗网生成二次元头像 3. 卷积神经网络实现 4. 图像处理
14:00-17:30	策略梯度算法 1. 策略梯度随机策略梯度方法策略优化方法 2. Actor-Critic算法 3. 带基线REINFORCE算法 4. 确定策略梯度算法——DDPG算法案例实践 1. 基于策略梯度的月球着陆器任务的实现 2. 基于确定策略梯度的倒立摆任务实现
17:30-18:00	交流与讨论
第三天 2022年8月7日（周日）
9:00-10:30	深度强化学习 1. 深度Q网络——DQN 2. 深度Q网络算法的改进——DDQN、Prioritized DQN、Dueling DQN等案例实践 1.DQN算法的数据预处理 2.利用DQN及改进算法训练Atari游戏。
10:30-12:00	1. Floppy Bird任务的训练 2. Capstone项目——基于DQN的赛车游戏

三、授课教师

刘全，苏州大学教授，博士生导师。吉林大学博士, 南京大学软件新技术国家重点实验室博士后。苏州市人工智能学会常务理事、秘书长。2006年开始从事强化学习领域的教学和科研工作。主讲研究生、本科生《强化学习》及相关课程20次。编写《深度强化学习》、《大规模强化学习》、《基于函数逼近的动态规划方法》等教材3部。主持“深度强化学习方法研究”、“部分感知强化学习理论及方法”、“基于tableau的逻辑强化学习研究”等国家、省部级项目10余项。目前主要研究方向为：深度强化学习。

2012年获江苏省教工委优秀共产党员称号。2011年、2012年入选江苏省“六大人才”、江苏省“333”人才培养计划。

四、培训证书

对经学校有关部门推荐参加培训的教师，考评合格后可颁发“全国高校强化学习课程高级研修班”结业证书，对参加培训获得证书的教师，所在学校应承认其接受培训的经历，计入继续教育学时。

五、研修班时间及地点

会议时间：2022年8月5日—7日，8月4日下午报到。

会务费：2680元/人，住宿由会务组统一安排，交通、食宿费用自理

报到、住宿及会议地点：兰州锦江阳光酒店 住宿标准：450元·间/天

地址：兰州市城关区东岗西路589号兰州锦江阳光酒店，‭0931—5116666‬

联系人：贾斌温明洁

电话：18601290130 18811310281

邮箱：jiabin01011@163.com wenmj@tup.tsinghua.edu.cn

请各单位积极组织和推荐相关课程骨干教师参加会议。参加培训的教师请于2022年7月29日前将回执发给组委会联系人。

本次研修班课程包含实训内容, 请参加的教师自带笔记本电脑。