欢迎来到万博体育mantbex网页版!

手机版 English
首页 > 教务信息 > 正文

2018年万博体育mantbex下载研究生暑期学校课程之《随机动态规划》——“严谨治学,上下求索”

发布者:陈心茗   发布时间:2018-07-30 11:23:25   


暑期学校已经迎来了后半部分,继一门门精彩的面向应用的课程之后,香港中文大学的周翔教授给我们带来了《随机动态规划》这门更偏向技术性的课程。周翔教授,现任香港中文大学决策科学与企业经济学系教授,香港中文大学供应链研究中心主任,信息技术管理硕士项目主任。其主要研究领域为供应链管理,特别关注库存控制,生产计划,动态定价和博弈理论应用。同时,他也是IIE TransactionsOR Letters的编辑委员会成员。

《随机动态规划》这门课程共分为四节课。周翔教授从随机动态规划的要素和概念出发,之后分别介绍了有限阶段的随机动态规划和无限的随机规划模型。通过这门课,周翔教授向我们介绍了随机动态规划中的基本概念,挑选出多个典型的案例对我们进行讲解和推导,力图使我们对随机动态规划建模和求解的中心思想有更清晰的认识。

在第一堂课上,面对主要来自于商科和文科背景的同学们,周翔教授引导我们去思考和发现生活中的随机过程有哪些,并给出了随机过程的定义。根据状态空间和时间参数的不同,随机过程还能够分成有限或无限,离散或连续这几种类型。当同学们对随机过程有了初步的理解后,教授给出了马尔可夫链和MDPMarkov Decision Processes,马尔可夫决策过程)的完整定义,引出了本门课程中的几个重要概念包括转移概率、不可复归性、状态的周期性、稳态概率等以及相关的定理。虽然还没有接触到随机动态规划问题的模型,但通过对这些概念的理解我们已经能够感受到随机过程的决策问题的复杂性,也同时感受到随机动态规划作为一种建模工具的强大。


在有了基础后,我们正式进入了随机动态规划建模思想的学习。第二堂课和第三堂课上,周教授主要讲授了有限阶段的随机动态规划建模和应用。在正式进入建模前,周教授介绍了随机动态规划模型构建必需的几个要素:状态变量、决策空间、收益函数以及状态转移概率。在构建模型时,我们需要迅速剖析问题并确定这几个要素。之后,周教授使用逆推法,给出了有限阶段的MDP的最优等式,即贝尔曼等式,并逐步向我们解释了等式的构成事实上包括了当期收益和未来的最大收益两个部分。

为了更好地理解,周教授通过四个典型的例子讲授了有限阶段MDP的建模及结论证明。从最简单的赌博问题开始,周教授引导我们确定出问题的状态变量,分析不同的决策对下一期的状态变量产生的影响,从而将问题抽象成有限阶段的MDP模型。对于MDP模型,虽然我们不能直接从模型得到结果,但我们可以通过最优值的单调性、凹凸性等函数性质来判断。周教授通过逐步推导,演示了这一类型问题的解决技巧。之后教授讲解了期权选择问题和有概率变化的赌博问题,并在结论中的证明过程中引出了超模函数和次模函数的概念和性质。超模函数和次模函数可以用来刻画最优策略的单调性。库存管理是运营管理中的重要问题,报童模型就是经典的库存管理模型之一。但报童模型有个致命的缺陷,就是模型中零售商仅有一次订货机会。因此,周翔老师向我们介绍了如何使用MDP来解决动态的多阶段库存管理问题,而得到的最优策略就是基本库存策略(Base-stock Policy)。周教授告诉我们,很多企业使用的库存管理软件都是采取了这种库存管理策略。

1B82F

在最后一节课,周教授讲授了无限阶段的MDP模型中折现的动态规划模型。周教授带领我们对比了有限阶段的MDP和无限阶段的MDP在基本要素上的不同,接着引出无限阶段的MDP的三个定理,即最优等式,最优策略满足的条件和最优策略的唯一性。之后,周教授介绍了逐次逼近法、异步数值迭代等用于解决无限阶段的MDP问题的算法,并进一步介绍了强化学习Q-learning的原理。最后周教授用一个机器更替的例子,来加深我们对无限阶段的MDP模型的理解,并在讲解中为数学基础较为薄弱的我们穿插了随机变量的相关知识。

虽然只有短短四个半天的时间,我们并不能完全掌握随机动态规划,但周翔教授稳稳地把握着课堂节奏,保证我们稳步跟上他的思路,用其循循善诱的教授技巧使我们对随机动态规划问题的解决方法都有了初步的认识,也为后续的学习建立了坚实的基础。当发觉我们没有跟上时,周翔教授会暂停下来,为同学们重新捋一遍思路,确认同学们产生疑惑的部分,并耐心地进行讲解,直到同学们理解。在重难点部分,周翔教授会给同学们留一些思考和消化的时间。都说《随机动态规划》这门课程具有一定挑战性,但在周翔教授由浅入深的讲授下,同学们都掌握了基本的建模技巧,并提升了解构和解决问题的能力,锻炼了逻辑思维能力。短短的时间内,我们收获的不只是随机动态规划这一门技术,还有如何像周翔教授一般严谨、细致地做学术的心。


 注:作者系我院管理科学系2017级硕士研究生