《1 引言》

1 引言

1965年计算机科学专家L. A. Zadeh 教授提出了模糊集[1], 经过近40年的研究和实践, 模糊集理论已发展成为具有坚实数学基础和良好结构的概念和技术体系[2]。在诸多非经典数学中, 发展最快、应用最多的就是模糊数学[3], 但是模糊集主要着眼于知识的模糊性, 强调的是集合边界的不分明性, 模糊集是不可计算的, 没有给出数学公式描述这一含糊概念, 无法计算出它的边界线上的具体的含糊元素数目。模糊集着重研究属于同一类的不同对象的隶属程度[4]。在处理不确定问题时, 需要提供所需处理的数据集合之外的某些先验信息, 在自动控制以外的与人的认识相关的领域中成功应用很少。因此, 从认识方面探索人的信息处理过程, 完善模糊集理论以拓展其应用, 成为十分有意义的研究课题[2]

1982年波兰数学家Z. Pawlak提出了一种处理模糊和不确定性问题的新型数学工具, 1991年Z. Pawlak的专著《Rough Sets——Theoretical Aspects of Reasoning About Data》[5] 的问世, 标志着粗糙集理论及其应用的研究进入了活跃时期。目前粗糙集理论在信息科学、管理科学、金融、医学等众多学科都取得了成功的应用。无疑自粗糙集问世以来, 无论在理论或应用上都是一种新的、最重要的并且是迅速发展的一门既有理论又有应用的研究领域[6]。粗糙集理论在处理模糊和不确定性问题方面着眼于知识的粗糙 (rough) 性, 强调的是集合对象间的不可分辩性, 着重研究的是不同类中的对象组成的集合之间的关系。在处理不确定性问题时, 不需要提供问题所需处理的数据集合之外的任何先验信息。但是粗糙集理论不具备处理模糊或不精确原始数据的机制。由于模糊集和粗糙集都可以用来描述知识的不确定性, 各自的特点不同, 因此2种理论有着很强的互补性, 将这2种理论进行适当整合后来处理知识的模糊和不完全性, 比它们各自去处理知识的不确定性和不完全性会显出更强的功能。基于上述原因, 国内外已有不少学者为此而进行研究, 取得了一系列的成果[2,7,8,9,10]。粗糙集理论与模糊集等理论的融合是一个有着广阔发展前景的领域, 基于此, 笔者提出了一种模糊粗糙集决策模型, 该模型从问题领域内的部分不精确信息出发利用模糊聚类方法构造一个决策信息系统, 利用粗糙集理论关于决策算法的约简方法, 从决策信息系统中提取决策规则, 使之适用于问题的整个领域。

《2 基本概念》

2 基本概念

重点介绍与文中模型有关的粗糙集理论的基本概念

定义1 一个决策表是一个信息知识表达系统S= (U, A, V, f) , 其中U={x1, x2, …, xn}为对象的非空有限集合, 称为论域;A=PD是属性集合, 子集P={aii=1, 2, …, m} 和D={d} 分别称为条件属性集和决策属性集, D≠∅;V=aAVaVa是属性a的值域;FU×AV是一个信息函数;ai (xj) 是样本xj在属性ai上的取值。 (CD) ij表示可辨识矩阵中第i行第j列的元素, 则可辨识矩阵CD定义为

(CD)ij={{ak|akΡak(xi)ak(xj)}d(xi)d(xj)d(xi)=d(xj)

其中i, j=1, 2, …, n

定义2 称布尔函数Δ=(x,y)U×U(CD)xy为可分辨函数, 其中 (CD) xy是决策表信息系统S= (U, PD, V, f) 的可分辨矩阵CD中的任一元素。当 (CD) xy={a1, a2, …, ak}≠∅时, ∑ (CD) xy=a1a2∨…∨ak;当 (CD) xy=∅时, ∑ (CD) xy=1。

命题1 决策表信息系统S= (U, PD, V, f) 的可分辨函数Δ的极小析取范式中的所有合取式是属性集PD的所有约简。

定义3 令决策表S= (U, CD, V, f) , 其中C为条件属性集, D为决策属性集。称公式 (a1, v1) ∧ (a2, v2) ∧… ∧ (an, vn) 为P基本公式, 其中viVai, aiP (i=1, 2, …, n) , PC

定义4 如果AB为决策规则, 且AP基本公式, B= (d, di) , 则称AB为基本决策规则。又如果 φ1ψ, φ2ψ, …, φnψ是基本决策规则, 则决策规则φ1φ2∨…∨φnψ被称为基本决策规则φ1ψ, φ2ψ, …, φnψ的组合。

定义5 在决策表S= (U, CD, V, f) 中如果决策规则AB为真, 即决策表中的所有实例都满足决策规则AB, 则称决策规则AB在决策表S中是一致的;否则称决策规则AB在决策表S中是不一致的。

命题2 设 φψ 是决策表上的一条决策规则, 属性值v是一可被约去的, 当且仅当|- (φψ) → (φ\ (a, v) }→ψ) , 其中φψ均为决策表上的基本公式。

命题3 设dx是一条被消去所有过剩条件属性值的决策规则, 条件属性集C的等价类[x]C中任何最小属性A的等价类 [x]A的交集包含于相应决策类 [x]D中, 则由此而得到的最小条件属性 A组成的相应于dx的新决策规则dxdx的一个决策规则约简。

命题4 任何决策都可以分解成为一个或多个等价的基本决策规则。

《3 模糊Rough集决策方法》

3 模糊Rough集决策方法

《3.1模糊Rough集决策方法的基本思想》

3.1模糊Rough集决策方法的基本思想

模糊聚类分析有模糊等价关系法和模糊ISODATA法等。模糊聚类所处理的问题是已知待分类对象 (样本) 集X= (X1, X2, …, Xn) , 每个对象 (样本) 都有m个特征 (属性) 且每个对象的m个特征值是已知的, 按照问题的目的要求将对象划分为若干类。但是模糊聚类结果只是对已知样本作出的抉择, 不具有柔性, 不能通过已知的信息及聚类结果对问题所涉及领域内的新样本的类别作出决策。克服这一不足之处, 显然是十分有意义的。

Rough集理论的主要研究对象就是决策表, 表中包含了领域内一定数量的样本 (实例) 信息。决策表中的一个样本就代表一条基本决策规则, 如果把所有这样的决策规则罗列出来, 就可以得到一个决策规则集合。但是, 这样的决策规则集合是没有多大价值的, 因为其中的基本决策规则没有适应性, 只是机械地记录了一个样本的情况, 不能适应新的、其他的情况。为了从领域内局部 (或部分) 样本信息形成的决策表中抽取得到适应度大的规则, 需要对决策表进行约简, 使得经过约简处理的决策表中的一个记录就代表一类具有相同规律特征的样本, 这样得到的决策规则就具有较高的适应性。

当前常用的属性约简方法有数据分析方法及可分辨矩阵方法。经过决策表属性约简, 省略了对决策分类不必要的属性, 从而实现决策表的简化, 这有利于从决策表中分析发现对决策分类起作用的属性。但属性约简只是在一定程度上去掉了决策表中的冗余属性, 还没有充分去掉决策表中的冗余信息, 需要进一步对决策表进行处理得到更加简化的决策表, 这个过程就是对决策表进行属性值的约简。以命题2和命题3为依据的数据分析方法[6]是当前常用的属性值约简方法。

对于一个经过属性约简和属性值约简的决策表, 再从中消去所有过剩的决策规则。这样得到的决策表中每一个记录就代表一条基本决策规则。依据命题4将这些基本决策进行适当的组合, 即得到具有适应性的一组或多组决策规则。

《3.2模糊Rough集决策方法的步骤》

3.2模糊Rough集决策方法的步骤

归纳上述基本思想可得模糊Rough集决策方法的步骤如下:

Step 1 将已知样本 (实例) 及样本的特征 (属性) 值组成一个信息矩阵;

Step 2 特征预处理即选择最有代表性的特征, 区分出派出特征和相关特征, 然后进行无量纲化的规格化处理, 使各特征在 [0, 1] 中取值;

Step 3 对已做了特征预处理的信息矩阵建立模糊相似关系R;

Step 4 用平方法求R 的等价闭包t (R) ;

Step 5 做λ截集, 以此分类;

Step 6 选取适合聚类目标的分类, 将各个样本 (实例) 所在的类作为决策属性值与已知信息矩阵组合成决策信息系统;

Step 7 对决策信息系统进行属性约简, 对所有约简结果写出相应的决策信息系统;

Step 8 分别对Step 7中得到的每一个决策表进行决策规则约简, 即属性值的约简;

Step 9 从经过属性约简和属性值约简的决策表中消去所有过剩的决策规则;

Step 10 将Step 1得到的决策表中基本决策规则进行组合。

《4 应用实例》

4 应用实例

取文献[3]中的一个实例来说明上述决策方法。

已知环境单元分类信息:每个环境单元可以包括空气、水分、土壤、作物4个要素 (特征) 。环境单元的污染状况由污染物在4要素中含量的超限度来描写。假设有5个单元 (样本) x1, x2, x3, x4, x5, 其污染数据如表1所示。

表1 污染数据

Table 1 Contaminate data

《表1》


空气水分土壤作物

x1
5532

x2
2345

x3
5523

x4
1531

x5
2451

取论域U={x1, x2, x3, x4, x5}, 按下述公式对各单元的要素值xij0进行规格化预处理 (取C1=0.1) 。xij=C1xij0 (i=1, 2, 3, 4, 5, j=1, 2, 3, 4) , 再按公式rij=1-C2k=14xik-xjk (i, j=1, 2, 3, 4, 5, ) 求相似系数 (取C2=1) , 得模糊相似矩阵

R=(rij)5×5=[10.10.80.50.30.110.10.20.40.80.110.30.10.50.20.310.60.30.40.10.61]

利用平方法求R的传递闭包

t(R)=R8=R4=[10.40.80.50.50.410.40.40.40.80.410.50.50.50.40.510.60.50.40.50.61]

作出截集, 由此得其动态分类:

λ=1时, 分为五类 {x1}, {x2}, {x3}, {x4}, {x5};

λ=0.8时, 分为四类 {x1, x3}, {x2}, {x4}, {x5};

λ=0.6时, 分为三类 {x1, x3}, {x2}, {x4, x5};

λ=0.5时, 分为二类 {x1, x3, x4, x5}, {x2};

λ=0.4时, 分为一类 {x1, x2, x3, x4, x5}。

假设按问题的目标要求需将环境单元 (样本) 划分为三类, 则聚类结果应取为 {x1, x3}, {x2}, {x4, x5}, 由已知数据信息和聚类结果构造决策表见表2。

表2 环境单元分类决策表

Table 2 Decision table for environment cell sort

《表2》


U
空气k水分s土壤t作物z决策d

x1
55321

x2
23452

x3
55231

x4
15313

x5
24513

利用可辩识矩阵方法对决策2进行属性约简, 由定义1计算决策表2的可辨识矩阵见表3。

表3 决策表2的可辨识矩阵

Table 3 Distinguishable matrix for table 2

《表3》


x1x2x3x4x5

x1
kstzkzkstz

x2
kstzkstzstz

x3
ktzkstz

x4

x5

由定义2经计算可得表3对应的可分辨函数Δ= (kt) ∨ (ks) ∨z于是根据命题2得到属性的3个约简结果, 分别如表4、表5和表6所示 (合并重复记录后的决策表)

表4 约简结果{k, t}

Table 4 Reducing result {k, t}

《表4》


U
x1x2x3x4x5

k
52512

t
34235

d
12133

表5 约简结果{k, s}

Table 5 Reducing result {k, s}

《表5》


U
x1x2x3x4x5

k
2512

s
3554

d
2133

表6 约简结果{z}

Table 6 Reducing result {z}

《表6》


U
x1x2x3x4x5

z
2531

d
1213

用数据分析法分别对决策表4、表5、表6进行属性值约简。

对于一个经过属性约简而得到的决策表, 可以对应其中的每一个样本形成一条决策规则。因此, 可以将决策表中的样本用规则来表示, 这样, 约简后的决策表实际上就是规则集合。称这样的规则集合为决策算法。

对于决策表4其决策规则为

a. k5t3d1;b. k2t4d2;c. k5t2d1;d. k1t3d3;e. k2t5d3

首先计算第一条决策规则的约简, 其决策类 [x1]d={x1, x3}, [x1]k={x1, x3}, [x1]t={x1, x4}, 由于[x1]k⊂[x1]d, [x1]t⊄[x1]d, 得约简的决策规则, 即a. k5d1。计算第二条决策规则的约简, 其决策类[x2]d={x2}, [x2]k={x2, x5}, [x2]t={x2}, 由于[x2]k ⊄[x2]d , [x2]t⊂[x2]d, 得约简的决策规则, 即b.t4d2 。计算第三条决策规则的约简, 其决策类[x3]d={x1, x3}, [x3]k={x1, x3}, [x3]t={x3}, 由于[x3]k⊂[x3]d , [x3]t ⊂[x3]d, 所以得2条约简的决策规则, c.k5d1;t2d1 。同理可得d, e 的约简, 所有的约简决策规则列于表7。

表7 包含 (表4) 所有约简的决策规则

Table 7 All minimal solution for table 4

《表7》


U
x1x2x3x3′x4x5

k
551

t
425

d
121133

用同样的方法可计算并列出表5对应的所有约简的决策规则于表8。

表8 包含 (表5) 所有约简的决策规则

Table 8 All minimal solution for table 5

《表8》


U
x1x2x3x4x5

k
51

s
34

d
1233

决策表6中每一条规则都是由最小条件属性组成的决策规则。分别对表6、表7、表8消去所有过剩的决策规则。表6、表8中没有过剩的决策规则。对于表7, 其中第一条决策规则是冗余的, 它与第二条决策规则相同。删除表7中过剩决策规则后得表9。

表9 删去 (表7) 过剩约简决策规则的决策表

Table 9 Requiring minimal number of gates for table 7

《表9》


U
x1, x3x2x3′x4x5

k
51

t
425

d
12133

分别将表6、表8、表9中的决策规则进行组合。

表6对应的决策规则组合为

z2z3d1z5d2(1)z1d3

表8对应的决策规则组合为

k5d1s3d2(2)k1s4d3

表9对应的决策规则组合为

k5t2d1t4d2(3)k1t5d3

注:1) 本例得到由式 (1) 至式 (3) 式所示的3个决策规则组合, 在实际应用中可由决策者根据具体情况进行选择。

2) 应用模糊Rough集决策方法解决实际问题时, 须将得到的组合决策规则转换成自然语言。

《5 结论》

5 结论

分析了模糊聚类分析和粗糙决策算法约简的优势及其互补性。并给出了一种模糊粗糙决策方法, 丰富和发展了模糊决策理论, 拓展了模糊决策的适应范围。