《1 引言》

1 引言

模糊系统有广泛的应用领域, 例如, 模式识别、数据挖掘、分类、预测、非线性系统模拟和过程控制等方面[1,2,3]。模糊系统的主要优点是方便用if-then规则的形式来表达知识, 具有人脑性质。然而, 通过模糊系统从数据中得到的初始规则库, 由于存在相似或者冗余的模糊集, 导致系统可能不具有很好的可解释性。为了提高模糊系统的可解释性, 已经提出了很多解决方法。其中一些方法注重数字的精确性和语言的可解释性[4,5], 这些方法的主要缺点是当输入变量增加时, 规则库会以相应的几何级数进行增长[6]。另外一些方法注重系统的精确性和简单性[6,7], 这些方法在保证精度的前提下尽量简化系统用来提高系统的可解释性。近几年已经提出了许多模糊系统的产生和简化的方法。Chao和Chen[6] 提出了一种基于相似分析的模糊规则库的简化方法。Setnes 等[5] 提出了一种用集理论相似分析方法去减少模型中模糊集的数目, 用来简化规则库。笔者介绍了一种新的模糊规则库自提取和简化的模糊模型算法。该算法分3个步骤:首先, 通过构造一个新的判别准则来进行模糊分类, 确定样本数据的最佳分类, 从而确定最佳规则数;其次, 根据最佳规则数和神经网络来构造初始的模糊系统;第三, 通过运用模糊相似分析法, 可以得到计算2个模糊集的相似度的方程, 再根据事先确定的阈值来合并相似的模糊集, 这样就得到了一个既满足精度又简单且具有可解释性的模糊系统。最后, 用该系统提取我国全要素生产力的模糊规则。

《2 规则库的自提取》

2 规则库的自提取

众所周知, 具有相似几何分布的数据可以划分为一类。模糊分类可以确定样本数据的最佳分类数, 从而确定最佳规则数, 也就得到了初始的模糊系统的结构。用于分类的方法很多, 应用最广泛的方法是Fuzzy C-mean (FCM) [8,9], 因为该方法简单且效率高。然而, 运用该方法时分类数C必须事先确定。一个好的划分类别的判别准则必须既考虑同一类中的紧凑程度又要兼顾类与类之间的分离程度。笔者结合FCM算法, 介绍了一种新的划分类别的判别准则, 即

Vp(U,C)=1nk=1nmaxi(uik)-1Κi=1C-1j=i+1C[1nk=1nmin(uik,ujk)]Κ=i=1C-1i(1)

其中

Vi=k=1Ν(uik)mXk/k=1Ν(uik)m,i=1,2,,C(2)μik=(j=1C(dik/djk)2/(m-1))-1(3)djk2=Xk-Vj2=(Xk-Vj)Τ(Xk-Vj)(4)

可以看出, 聚类判别准则Vp由2部分组成, 第一部分反映了同一类中的紧凑程度。第k个样本Xk越接近模糊类中心, 最大隶属度maxi(uik)就越接近1。因此, 对每一个样本Xk来说, 模糊集maxi(uik)被认为是一个好的分类指标, 这个值越大, 代表同一类的紧凑程度就越好。另一方面, 式 (1) 的第二部分体现了类与类之间的分离程度。这里, 用2个模糊集的交集来评价类ViVj的分离程度。事实上, 如果Xk接近类中心Vi, min (uik, ujk) 接近于零, 结果类ViVj很明显被分开。另一方面, 如果min (uik, ujk) 接近于1/C, Xk属于所有类的隶属度相等, 此时划分的类最模糊。这个新的的判别准则Vp既考虑了同一类的紧凑程度, 又考虑了类与类之间的分离程度。这样相对于最大值Vp的聚类数C就是一个最佳聚类数。

结合FCM算法和新的判别准则Vp, 可以得到最佳类别C, 具体步骤如下:

Step 1 选取最大的聚类数Cmax (Cmaxn1/2) , 最大迭代步数T, 指数m一般取2, 精度ε>0;

Step 2 选取C (C=2, 3, …, Cmax) ;初始化类中心位置V0 (v10, v20, …, vC0, ) ;

Step 3 运用式 (2) 计算类中心, 然后由Vi和式 (3) 、式 (4) , 计算新的软分类矩阵U=[uij];

Step 4 对于预先给定的小整数ε (如10-2, 10-3) , 如果maxij[u*ij-uij]<ε, 则u*ij及相应得到的v*i即是所求结果, 否则再返回到Step 3其中ε越小, 结果越精确;

Step 5 通过式 (1) 计算判别准则Vp的值;如果C<Cmax, 返回Step 2。否则, 终止程序, 最佳的聚类数C=Cm, 这里Cm满足下面条件:

Vp(U,Cm)=max{Vp(U,C)},(C=2,3,,Cmax)(5)

有效聚类后, 规则数和类中心Vi= (vi1, vi2, …, vis, vi (s+1) ) 都得到了, 这里i=1, 2, …, Copt

《图1》

图1模糊模型的结构图

图1模糊模型的结构图  

Fig.1 The structure of fuzzy system

《3 相似分析法介绍》

3 相似分析法介绍

参数调整后, 精简的模糊系统还没有最后确定, 得到的模糊系统可能会由于隶属函数的高度重合而表现为冗余性。为了得到高效率和透明的模糊系统, 就必须剔除冗余性, 使得模糊系统尽可能的简单。一些相似分析法已经被提出用来简化模糊系统[6,7,10]。笔者介绍了一种新的基于梯形的相似测度方法, 可以应用到任何对称的模糊集。假设A和B是2个模糊集, 模糊集A和B的相似度定义为

SAB=|AB|/|AB|=|AB|/(|A|+|B|-|AB|)(6)

其中 |*|代表模糊集的大小。很明显, 计算2个模糊集的相似度就是计算2个模糊集的交集和并集的比。对高斯和钟型函数来说, 因为方程的非线性形状, 所以计算交集的大小有困难。为了使得计算式 (6) 变得可行, Chao[6]LinLee[11] 提出了相似分析方法, 采用三角函数来计算2个高斯函数的相似性。然而, 用三角函数很难产生高斯和钟型函数, 而用梯形能够很好的模拟径向基函数 (包括高斯和钟型函数) 如图2所示。这里a, b和d, e代表梯形的边界点, c代表中心点。三角隶属函数能够被看作是梯形隶属函数的一个特殊的例子, 当顶端宽度wt=0时, 也就是d=e=c时。因此, 就能够用梯形函数计算2个对称隶属函数的相似度, 对称的隶属函数包括三角函数、高斯函数和钟型函数。问题是怎样得到梯形函数使得能够模拟任何径向基函数。

《图2》

图2模拟隶属函数

图2模拟隶属函数  

Fig.2 Membership function approximation

《3.1由径向基隶属函数来生成梯形隶属函数》

3.1由径向基隶属函数来生成梯形隶属函数

为了确定梯形函数T (x) =max {min { (x-a) (d-a) , 1, (b-x) (b-e) }, 0}, 能够模拟高斯函数G (x) =exp {-[ (x-c) /σ]2}。模糊集合的α割集定义如下:

模糊集Aα割集, 用Aα来表示, 由论域X上的所有元素x所组成的水平集。这个水平集满足隶属度大于等于α, 如下

Aα={xX|μ(x)α}(7)

这里α的取值范围是0<α≤1。假设一个用高斯函数G (x) 来代表模糊集A, 能够用梯形函数T (x) 模拟, 如图3所示。这样, 在高斯函数G (x) 的基础上, 为了确定梯形函数T (x) 中的参数a, b, d, e, 介绍2个特殊的α割集Aα0Aα1, 这里α0=0.05, α1=0.95如图3所示。这样, 参数a, b, d, eAα0Aα1的基础上能够被确定, 可以表示为

Aα0=[a,b],Aα1=[d,e]

《图3》

图3模糊集的α割集

图3模糊集的α割集  

Fig.3 α cut of a fuzzy set

得到了边界点a, b, d, e, 就可以得到顶部宽度wt和底部宽度wb

wt=(e-d)/2,wb=(b-a)/2

梯形函数的中心为

c=(d+e)/2c=(a+b)/2

《3.2用相似分析法对模糊集进行分析》

3.2用相似分析法对模糊集进行分析

基于梯形隶属函数, 两个模糊集的相似性的测度分4种情况来考虑。用A1, A2来代表模糊集, 根据中心c1, c2, 边界点ai, bi, di, ei (i=1, 2) , 其中ci= (ei+di) /2。

假设在下面4种情况中c2>c1, 计算交集面积与并集面积的比例。

第一种情况a1< a2, b1 > b2, d1≤ d2, e2 ≤ e1。在这种情况中, 模糊集A2包含于模糊集A1即A2⊂A1, 如图4所示。模糊集A1和A2的相似性为

S=|A2|/|A1|=w2/w1,S=(b2-a2+e2-d2)/(b1-a1+e1-d1)(8)

其中w1=wb1+wt1, w2=wb2+wt2, 从式 (8) 可以看出A1和A2的相似度就是w2占w1的比率。

《图4》

图4第一种情况下的两个模糊集合相似性

图4第一种情况下的两个模糊集合相似性  

Fig.4 Similarity of two fuzzy sets for case 1

第二种情况|wb1-wb2|≤c2-c1≤wb1+wb2。在这种情况下, 有2种不同的重叠形式, 如图5所示。图5a代表A1和A2的梯形顶端不重合。A1和A2的相似度为

S=h/[2(w1+w2)/(b1-a2)-h](9)

其中h= (b1-a2) (b1-e1+b2-e2) 。图5b代表A1A2的梯形顶端重叠, A1A2的相似度为

S=(e1-d2+b1-a2)/(b2-a1+e2-d1)(10)

《图5》

图5第二种情况下的两个模糊集合相似性

图5第二种情况下的两个模糊集合相似性  

Fig.5 Similarity of two fuzzy sets for case 2

第三种情况c1-c2≤wb1-wb2。在这种情况中应该考虑2种不同的重叠情况, 如图6所示, 很容易得到

h1=(b1-a2)/(b1-e1+b2-e2)

如果wb1>wb2,

h2=(b1-b2)/((b1-e1)-(b2-e2))

其中l1=h1 (b2-e2) , l2=h2 (b2-e2) , l3= (b1-e1) - (l1+l2) , h3= (h1+h2) 。

A1A2的相似度为

S=(l1h1+l2h2+l3h3)/(2(w1+w2)-(l1h1+l2h2+l3h3))(11)

如果重叠部分c1-c2wt1+wt2:

wb1>wb2,

h=(b1-b2)/((b1-e1)-(b2-e2)),l1=h(b2-e2),l2=b2-e1-l1,l3=e1-d2,l4=b2-e2

wb1wb2,

h=(a2-a1)/((b1-e1)-(b2-e2)),l1=h(b1-e1),l2=d2-a1-l1,l3=e2-d1,l4=b1-e1

这样, 可以得到 H=l1h+l2 (h+1) +2l3+l4和相似性

S=Η/(2(w1+w2)-Η)(12)

《图6》

图6第三种情况下的两个模糊集合的相似性

图6第三种情况下的两个模糊集合的相似性  

Fig.6 Similarity of two fuzzy sets for case 3

第四种情况b1≤b2, 在这种情况中, A1和A2没有交集, 如图7所示, 即|A1∩A2|=0, 则S (A1, A2) =0。

《图7》

图7第四种情况下的两个模糊集合相似性

图7第四种情况下的两个模糊集合相似性  

Fig.7 Similarity of two fuzzy sets for case 4

《4 对模糊集合进行精简》

4 对模糊集合进行精简

相似模糊集的合并。针对对称的连续隶属函数, 模糊集的相似性可以由式 (8) 至式 (12) 计算得出。

如果S (Aij, Akj) >λm, 阈值λm∈ (0, 1) , 则模糊集AijAkj 合并成一个新的模糊集Apj, 新模糊集Apj的中心和宽度分别是AijAkj中心和宽度的算术平均和, 即cpj= (cij+ckj) 2, wpj= (wij+wkj) 2。阈值λm对模糊模型的性能非常明显, 较小的λm导致更多的模糊集合并而产生一个更简单的模糊模型, 但是通常精度不高, 通常λm∈[0.6, 0.85]之间。

《5 我国全要素生产力的模糊规则提取》

5 我国全要素生产力的模糊规则提取

设有n个投入要素, 则产出Y与投入要素之间的关系为[12]

Y=F(x1,x2,,xn;t)(13)

其中t为时间。根据著名的C-D函数 (柯布—道格拉斯) 将式 (13) 写成

Y=F(x1,x2,,xn;t)=AΚtαLtβΝtγ(14)

式中K, L, N分别代表资本投入、劳动投入、土地 (包括环境资源) 投入, α, β, γ是常数, 并假设α+β+γ=1 (即产出的规模效益不变) 。从式 (14) 可得到

A=YΚt-αLt-βΝt-γ(15)

式 (15) 表示一个地区的技术进步与该地区的产出、资本投入、劳动投入、土地 (包括环境资源) 投入的一定的依存关系。基于这种关系, 以我国31个省、市为样本, 指标为:GDP (104元/人) 、固定资产 (108元) 、人均耕地 (公顷/人) 、人力资本 (以湖北为参照的相对值[13,14]) , 见表1。

表1我国各地区的相关指标数据*

Table 1 The index data of each area of China

《表1》

地区GDP×104
/元·人-1
人均耕地
/公顷
固定资产值
×108/元
人力资本地区GDP×104
/元·人-1
人均耕地
/公顷
固定资产值
×108/元
人力资本
北京 2.0576 0.02487 8227.30 824.05湖北 0.7803 0.08284 8257.60 2448.01

天津
1.83280.048374046.97553.85湖南0.60390.059936049.002292.17

河北
0.83260.1027510867.732933.38广东1.36810.0420421245.704140.11

山西
0.54400.140243382.221089.20广西0.46600.092063994.391389.13

内蒙古
0.65030.345012638.26926.48海南0.68590.095741549.79327.02

辽宁
1.20010.099548519.522575.60重庆0.56500.051122516.91983.77

吉林
0.75530.207303529.011088.67四川0.51180.087708993.942410.79

黑龙江
0.93440.308925414.792067.14贵州0.28560.129072186.84606.95

上海
3.06740.0195212975.971188.82云南0.48400.149794358.041067.75

江苏
1.29330.0688216511.653857.63西藏0.52750.13787357.3755.49

浙江
1.46290.0460714318.022357.03陕西0.50400.140493771.24990.81

安徽
0.51990.094375133.122013.47甘肃0.41650.195132200.20526.47

福建
1.23650.041717059.911963.60青海0.57540.13155831.98125.26

江西
0.51980.071513136.841499.28宁夏0.53000.22536846.54144.29

山东
1.04390.0850514948.754160.06新疆0.79180.212463794.42623.60

河南
0.59030.0848818354.743517.76

* 根据1991年至2003年的中国统计年鉴资料整理

《5.1按科技水平划分最佳类别数》

5.1按科技水平划分最佳类别数

选取指标GDP、固定资产和人力资本, 根据式 (1) 和表1的数据, 计算结果如表2所示。

表2各个分类所对应的判别准则Vp的值

Table 2 The data of criterion Vp to each cluster

《表2》


划分结果
C=2C=3C=4C=5

判别准则Vp的值
0.772 00.774 40.722 90.772 0

从表2可知c=3时, 判别准则Vp的值取到最大值, 所以最优分类结果为Copt=3, 各类样本如表3所示。

表3各省市 (自治区) 科技水平分类表

Table 3 The corresponding area to each cluster by science and technology

《表3》


类别
地区名称

第一类
北京 天津 上海

第二类
河北 辽宁 黑龙江 江苏 浙江 山东 广东 福建 河南 湖北 湖南 四川

第三类
吉林 内蒙 山西 江西 安徽 云南 重庆 广西 海南 贵州 陕西 西藏 甘肃 青海 宁夏 新疆

《5.2运用简化的模糊系统提取模糊规则》

5.2运用简化的模糊系统提取模糊规则

根据式 (12) , 选取指标GDP、人力资本、固定资产和人均耕地面积, 再通过模糊系统和简化方法对我国全要素生产力进行模糊规则的提取。我国全要素生产力模糊规则见表4。

表4我国全要素生产力模糊规则

Table 4 The fuzzy rule of the productivity factor of China

《表4》


规则
结论

Rule 1
if X belongs to 第一类

then y1=0.826 985+2.730 167x1+1.140 115x2+0.598 281x3

Rule 2
if X belongs to 第二类

then y1=0.008 862+0.168 800x1+3.276 196x2+0.000 206x3

Rule 3
if X belongs to 第三类

then y1=0.116 152+4.139 537x1+2.657 706x2+0.049 274x3

《6 结论》

6 结论

用笔者介绍的算法可以得到既简单又具解释性的模糊系统, 通过实例仿真可知, 在第一类中也就是经济发达地区, 人力资本和固定资产对产出有很大的作用;在第二类中也就是东部沿海和中部地区, 固定资产对产出有很大的作用;在第三类中也就是西部地区, 人力资本和固定资产对产出有很大的作用。