人们已经认识到,社会的人在学习工作和生活实践中,对于外部各种事件和问题的刺激,会逐渐形成一种相当稳定、相当规则的想法、判断、反应。这种稳定和规则的反应,就引出了一个新概念——习惯领域[1]。20 世纪 80 年代初,美国杰出讲座教授、著名多目标决策专家游伯龙(P. L. Yu)提出并进行系统研究的一种决策分析理论——习惯领域分析(habitual domain analysis )[2]。
决策问题的表示和求解一直是习惯领域分析的关键问题之一, 已提出多种方式,如对策树[3],决策树[4]。1992 年,Shenoy[5,6]在深入分析影响图表示及求解方法的基础上,提出了贝叶斯决策问题表示和求解的一种新方法——评价网络(valuation netWorks)。笔者基于评价网络理论,对一个实际决策问题进行了表示和求解。
《1 评价网络理论[7]》
1 评价网络理论[7]
评价网络本身具有 3 个层次:第一层是图形结构,第二层是关联结构,第三层是数值结构。
《1.1 评价网络的图形结构》
1.1 评价网络的图形结构
图形层次是评价网络的直观图形表达。评图形层次价网络中的图形由两类结点构成:变量结点和评价结点。变量结点又分为决策结点和机会结点两种,其涵义同影响图,即决策结点对应决策变量,用 表示;机会结点对应随机变量,用 表示。评价结点又分为指示评价结点、效用评价结点和概率评价结点三种。指示评价结点用边与一些决策变量和机会结点相连,表示在这些决策变量和机会变量的联合状态空间上的定性约束,用 表示;效用评价结点与有关决策变量和机会变量用边相连,表示这些决策结点和机会结点的加性联合效用函数,用 表示;概率评价结点与有关的机会变量用边相连,表示这些随机变量的乘性联合概率分布,用 表示;评价网络中连接结点间的有向弧表示信息约束,可进一步分为条件弧和信息弧两种。
《1.2 评价网络的关联结构》
1.2 评价网络的关联结构
关联层次表明各变量(决策变量和机会变量)的状态空间和指示评价的具体形式。
变量 记变量 X 的可能取值集合为 Ωx ,称 Ωx 为 X 的状态空间。定义 为与所论决策问题相关的变量的集合(假定为有限集),并假定 中所有变量的状态空间有限。用大写字母表示变量,用小写字母表示变量的集合。
空间及其构造 给定变量的非空集合 s,用 Ωs 表示对所有 X ∈ s 的 Ωx 的笛卡尔乘积,即 Ωs ={ Ωx × Ωy :X,Y ∈ s },称为 s 的状态空间。 Ωs 中的元素称之为 s 的构造,用小写字母并加粗来表示,如 x,y,z 等。 特别,如果 X 为空集 ,则记 。
构造的投射 如果(w,x,y,z )是变量集合(W,X,Y,Z )的一个构造,那么称(w,x)为构造(w,x,y,z )到(W,X )的一个投射。 如果 g 和 h 为 2 个变量集合,x 是 g 的一个构造,记 为 x 到 h 的投射。 x ↓ h 总是 h 的一个构造。 如果 h =g 且 x 是 g 的一个构造,那么 x ↓ h = x 。如果 h = ,那么 =。
评价 一般地给定变量集合 s,定义 s 的评价函数 π 为 Ωx 到 R1 的一个映射,其中 R1 为实数集。s 的值域记为 πs ,πs 中的元素称为 s 的评价。 s 的所有评价的集合就是 s 的值域 πs。 评价可分为指示评价(用 δ 表示,定义为 Ωs 到{0,1}的映射)、效用评价(用 υ 表示,定义为 Ωs 到 R1 的映射)和概率评价(用 ρ 表示,定义为 Ωs 到 [ 0,1 ] 的映射 ) 3 种。
评价之间是可以运算的,运算分为 3 种,分别称为组合、边际化和条件势。
组合 设 πr 和 πs 分别是变量集 r 和 s 的评价,我们定义它们的组合运算为 。 由于评价可分为 3 种,因此组合运算牵涉到它们之间的交叉运算,具体运算定义如下。
指示评价组合 ,;
效用评价组合 ,;
概率评价组合 ,;
指示评价与效用评价组合 ,;
指示评价与概率评价组合 ,;
效用评价与概率评价组合 ,;
容易证明,上述各种运算满足交换律、结合律。
边际化 设 和 分别是变量集 r 和 s 的评价,r ,定义边际化运算为 。 由于评价可分为 3 种,因此边际化运算也有3 类,具体边际化运算定义如下。
指示评价组合 :存在 y 使 ,;
效用评价组合 :存在 y 使 ,;
概率评价组合 :存在 y 使 ,;
条件势 设 为变量集 r ∪s 的评价,且变量集 r 和变量集 s 不相交,即 =,称(s 为给定 s 时 r 的条件势,并称 r 为该条件势的势头,s 为该条件势的势尾。 评价可分为 3 种,方法中条件势运算只对概率评价有定义,具体条件势运算定义如下。
概率评价条件势 ,;
有效空间 设 ,为 的指示评价, 那么定义 s 的有效空间为 , 即定义 s 的有效空间为整个空间在 s 上的有效投射。在求解评价网络的算法时使用上述运算规则。
《1.3 评价网络的数值结构》
1.3 评价网络的数值结构
数值层次表明效用评价和概率评价的具体细节。基于以上评价网络的 3 个层次的描述,可以给出评价网络的正式定义。
评价网络 某(贝叶斯)决策问题 DP 的评价网络是 6 元组
其中 XD 为该决策问题的决策变量集,XR 为机会变量集,{ δ1 , δ2, …, δp } 为指示评价集,{ ρ1 , ρ2, …,ρm } 为概率评价集,{ υ1 , υ2 , …, υn } 为效用评价集,→ 为信息约束的紧前关系(在图中表示为弧)。
《2 反应堆建设问题[8]》
2 反应堆建设问题[8]
某电力公司决定是否建立一座反应堆 ( D2 ),有 3 种方案可选:先进设计型 ( ) 、传统设计型 ( c ) 或不建 ( n )。先进型反应堆利润较高,但风险也较大。基于过去的经验,传统型反应堆建设成功 ( cs ) 的可能性为 0.980,成功时可获利 8 ×108 元;失败 ( cf ) 的可能性为 0.020,失败时将损失 4 ×108 元。而先进型反应堆建设没问题 ( as ) 的可能性为 0.660,没问题时可获利 12×108 元;出现小问题 ( al ) 的可能性为 0.244,出现小问题时将损失 6 ×108 元;出现大问题 ( am ) 的可能性为 0.096,出现大问题时将损失 10 ×108 元。
为保证成功,公司可考虑对先进型反应堆技术作一次试验 ( D1 )。 试验结果 ( T ) 可分为好 ( e ) 、中( g )、差 ( b )或无结果( nt 表示不试验)。 试验费用为 1 ×108 元。 试验结果 ( T ) 与反应堆未来状况( A )之间有如表 1 所示统计数据:
《表1》
表 1 关于反应堆未来状况(A)的条件概率分布 P (T|A ) 试验结果( T )
Table 1 Conditional probability distribution P ( T|A ) : test results to status
如果试验结果是“差”的话,上级管理部门将不允许建设先进型反应堆 ( nr ),公司必须决定是否作试验 ( D1 )。 问题是该公司应如何进行决策以使期望利润最大。
这一问题可以用评价网络技术表示和求解。
《3 评价网络表示》
3 评价网络表示
上述反应堆建设问题可用如图 1 所示的评价网络来表示。
《图1》
图 1 反应堆建设问题的评价网络表示
Fig. 1 A valuation network presentation for the reactor problem
评价网络中有 3 个效用评价结点和 3 个概率评价结点,具体空间的细节描述如表 2 和表 3 所示。
《表2》
表 2 反应堆建设问题的效用结点数值细节
Table 2 Utility valuation fragments in the reactor problem
《表3》
表 3 反应堆建设问题的概率结点数值细节
Table 3 Probability valuation fragments in the reactor problem
反应堆建设问题的评价网络表示的一个有效删除序列为 CAD2TD1 。 问题的初始评价体系为 { δ2 ,δ1 ,υ1 ,υ2 ,υ3 ,ρ1 ,ρ2 ,ρ3 }。
关于变量 C 的融合
令 。 融合后的新的评价网络图如图 2 所示,融合过程的数值层次计算过程如表 4 所示。
《图2》
图 2 变量 C 融合后对应的评价网络表示
Fig. 2 A valuation network presentation with the combination of variable C :
《表4》
表 4 关于结点 C 融合的过程
Table 4 Combination of node C
《4 具体求解过程》
4 具体求解过程
融合后新的评价体系变为 { δ2 ,δ1 ,υ1 ,υ2 ,υ3 ,ρ1 ,ρ2 ,ρ3 }。
关于变量 A 的融合
。
令。
融合后的新的评价网络图如图 3 所示,融合过程的数值层次计算过程如表 5 所示。
《图3》
图 3 变量 A 融合后对应的评价网络表示
Fig. 3 A valuation network presentation with combination of variable A
《表5》
表 5a 关于结点 A 融合的过程 ( 1 )
Table 5a Combination of node A ( 1 )
表 5b 关于结点 A 融合的过程(2)
Table 5b Combination of node A ( 2 )
融合后新的评价体系变为 { δ2 , υ3 ,υ4 ,υ5 ,ρ4 }。
关于变量 D2 的融合
。
令 。
融合后的新的评价网络图如图 4 所示,融合过程的数值层次计算过程如表 6 所示。
《图4》
图 4 变量 D2 融合后对应的评价网络表示
Fig. 4 A valuation network presentation with combination of variable D2:
《表6》
表 6 关于结点 D2 融合的过程
Table 6 Combination of node D2
融合后新的评价体系变为 { υ3 , υ6 ,ρ4 }。
关于变量 T 的融合
令 , 融合后的新的评价网络图如图 5 所示,融合过程的数值层次计算过程如表 7 所示。
《图5》
图 5 变量 T 融合后对应的评价网络表示
Fig. 5 A valuation network presentation with combination of variable T :
《表7》
表 7 关于结点 T 融合的过程
Table 7 Combination of node T
融合后新的评价体系变为 { υ3 , υ7 }。
关于变量 D1 的融合
令 , 融合后的新的评价网络图如图 6 表示,融合过程的数值层次计算过程如表 8 所示。
《图6》
图 6 变量 D1 融合后对应的评价网络表示 。
Fig. 6 A valuation network presentation with combination of variable D1 :
《表8》
表 8 关于结点 D1 融合的过程
Table 8 Combination of node D1
决策问题求解的融合算法结束,最优策略可以从决策记录 和 得到,即做试验,如果试验结果是 b 或 g,那么应该建立传统型 ( c ) 的反应堆;如果试验结果是 e,那么就建立先进型反应堆( )。 最优策略对应的期望效用为 8.130 ×10-8 元。
《5 结语》
5 结语
评价网络方法是影响图决策技术的深入和推广,具有数学描述紧致和表达条件独立关系的优点,在表示决策问题时不需要通过概率预处理。运用评价网络方法能够有效分析和求解电力公司反应堆建设决策问题。评价网络方法作为一种新的决策分析技术,在处理大型决策问题等也存在缺点。另外,如何将概率推理推广到诸如可能性推理、证据推理、信息推理等不确定性推理情形,也是评价网络理论中值得进一步研究的问题。