快捷分类

动态规划多阶段决策过程最优化推广

更新时间：2016-07-05

1 引言

动态规划是用来求解多阶段决策过程的一种最优化方法.20世纪50年代初由美国数学家贝尔曼（R.Bellman）等人在研究多阶段决策过程的优化问题时提出了著名的最优化原理[1，4]，把多阶段过程转化为一系列单阶段问题，逐个求解，创立了解决这类问题的新方法——动态规划.[1-6]动态规划必须对具体问题进行具体的分析研究，去建立模型并求解.以最短路径问题为例，把一个多阶段决策问题一分为二，变成两个（甚至更多）多阶段决策问题，综合应用顺序解法和逆序解法去处理问题，[1]相比较单独使用顺序解法或逆序解法效果更好，对大型的问题具有一定的优势和可行性.

2 动态规划的推广模型

最优性定理[1，4] 设阶段数为n的多阶段决策过程，其阶段编号为 k=0，1，2，…，n-1，允许策略

我国商业银行的经济责任审计以离任审计居多，且离任审计通常是在人事任命之后受人力资源部的委托才进行的，由于时间的仓促和工作价值过低等原因，离任审计通常力度较弱且流于形式，长此以往也就成了一项缺乏实际意义的固定程序。在这种固化内部审计模式长期作用下，内部审计的作用很难得到有效发挥。

为最优策略的充要条件是对任意一个k（0＜k＜n-1）和 s0∈S0 有

式中它是由给定的初始状态s0和子策略P0，k-1所确定的k段状态.当V是效益函数时，opt取max；当V是损失函数时，opt取min.

根据第k阶段的终止状态sk+1∈Sk+1的划分，fk（sk+1），fk+1（sk+1）分别为前阶段决策过程在状态 sk+1∈Sk+1和后阶段决策过程在同一状态的最优子策略，由动态规划的最优性定理可知整个多阶段决策过程的最优策略为

一般情况，第k阶段与第k+1阶段的递推关系可写为

边界条件为f0（s1）=0，后阶段决策过程用逆序解法的基本方程为

证明设前阶段决策过程用顺序解法的基本方程为

对动态规划的方法进行推广.首先动态规划方法有逆序解法和顺序解法，其关键是写出递推关系，递推方式有逆推和顺推两种.一般当初始状态给定时用逆推；当终止状态给定时用顺序.假设初始和终止状态都给定，把多阶段决策过程以第k阶段的终止状态为界一分为二，变成两个多阶段决策过程，有下面结论.

定理1 设阶段数为n的多阶段决策过程，其阶段编号为k=1，2，…，n，以第k阶段的终止状态为界，分成两个多阶段决策过程，前阶段决策过程和后阶段决策过程各自最优子策略合并后策略的最优策略是多阶段决策过程的最优策略.

何小勇听着这些，抱着青瓷的腿痛哭失声。他说：“我知道错了，这些年，我没有一天不在忏悔，没有一天不在煎熬中度过，青瓷，给我赎罪的机会！”

例1 根据路径图（图1）求A到G的最短路径.

边界条件为fn+1（sn+1）=0.这种递推关系式称为动态规划的基本方程.[1]

在新经济政策的压力之下华人少数族群企业家在跨族群合作当中处于相对弱势的地位。他们需要与当地族群伙伴建立合作网络关系。由华人少数族群企业家创立的大企业，不得不寻求来自国家政治精英和军事精英的保护。尽管不断变化的政治环境能够轻易地打破他们与统治精英的政治网络与政治家的个人合作关系。在二战后的东南亚民族国家，大的海外华人企业不可避免地转入到裙带资本主义当中。Brown[14]的著作表明，一方面华人企业家与国家和军事领导人的密切关系能够为华人少数族群企业的发展带来特殊的垄断地位与商业优势。但在另一方面，这样的跨族群联盟也蕴含着高度的制度性缺陷，例如对于研发的较少投入、家族控制和金融风险。