《1 引言》
1 引言
模糊系统有广泛的应用领域, 例如, 模式识别、数据挖掘、分类、预测、非线性系统模拟和过程控制等方面
《2 规则库的自提取》
2 规则库的自提取
众所周知, 具有相似几何分布的数据可以划分为一类。模糊分类可以确定样本数据的最佳分类数, 从而确定最佳规则数, 也就得到了初始的模糊系统的结构。用于分类的方法很多, 应用最广泛的方法是Fuzzy C-mean (FCM)
其中
可以看出, 聚类判别准则Vp由2部分组成, 第一部分反映了同一类中的紧凑程度。第k个样本Xk越接近模糊类中心, 最大隶属度
结合FCM算法和新的判别准则Vp, 可以得到最佳类别C, 具体步骤如下:
Step 1 选取最大的聚类数Cmax (Cmax≤ n1/2) , 最大迭代步数T, 指数m一般取2, 精度ε>0;
Step 2 选取C (C=2, 3, …, Cmax) ;初始化类中心位置V0 (v10, v20, …, vC0, ) ;
Step 3 运用式 (2) 计算类中心, 然后由Vi和式 (3) 、式 (4) , 计算新的软分类矩阵U=[uij];
Step 4 对于预先给定的小整数ε (如10-2, 10-3) , 如果
Step 5 通过式 (1) 计算判别准则Vp的值;如果C<Cmax, 返回Step 2。否则, 终止程序, 最佳的聚类数C=Cm, 这里Cm满足下面条件:
有效聚类后, 规则数和类中心Vi= (vi1, vi2, …, vis, vi (s+1) ) 都得到了, 这里i=1, 2, …, Copt。
《3 相似分析法介绍》
3 相似分析法介绍
参数调整后, 精简的模糊系统还没有最后确定, 得到的模糊系统可能会由于隶属函数的高度重合而表现为冗余性。为了得到高效率和透明的模糊系统, 就必须剔除冗余性, 使得模糊系统尽可能的简单。一些相似分析法已经被提出用来简化模糊系统
其中 |*|代表模糊集的大小。很明显, 计算2个模糊集的相似度就是计算2个模糊集的交集和并集的比。对高斯和钟型函数来说, 因为方程的非线性形状, 所以计算交集的大小有困难。为了使得计算式 (6) 变得可行, Chao 等
《3.1由径向基隶属函数来生成梯形隶属函数》
3.1由径向基隶属函数来生成梯形隶属函数
为了确定梯形函数T (x) =max {min { (x-a) (d-a) , 1, (b-x) (b-e) }, 0}, 能够模拟高斯函数G (x) =exp {-[ (x-c) /σ]2}。模糊集合的α割集定义如下:
模糊集A的α割集, 用Aα来表示, 由论域X上的所有元素x所组成的水平集。这个水平集满足隶属度大于等于α, 如下
这里α的取值范围是0<α≤1。假设一个用高斯函数G (x) 来代表模糊集A, 能够用梯形函数T (x) 模拟, 如图3所示。这样, 在高斯函数G (x) 的基础上, 为了确定梯形函数T (x) 中的参数a, b, d, e, 介绍2个特殊的α割集Aα0和Aα1, 这里α0=0.05, α1=0.95如图3所示。这样, 参数a, b, d, e在Aα0和Aα1的基础上能够被确定, 可以表示为
得到了边界点a, b, d, e, 就可以得到顶部宽度wt和底部宽度wb
梯形函数的中心为
《3.2用相似分析法对模糊集进行分析》
3.2用相似分析法对模糊集进行分析
基于梯形隶属函数, 两个模糊集的相似性的测度分4种情况来考虑。用A1, A2来代表模糊集, 根据中心c1, c2, 边界点ai, bi, di, ei (i=1, 2) , 其中ci= (ei+di) /2。
假设在下面4种情况中c2>c1, 计算交集面积与并集面积的比例。
第一种情况a1< a2, b1 > b2, d1≤ d2, e2 ≤ e1。在这种情况中, 模糊集A2包含于模糊集A1即A2⊂A1, 如图4所示。模糊集A1和A2的相似性为
其中w1=wb1+wt1, w2=wb2+wt2, 从式 (8) 可以看出A1和A2的相似度就是w2占w1的比率。
第二种情况|wb1-wb2|≤c2-c1≤wb1+wb2。在这种情况下, 有2种不同的重叠形式, 如图5所示。图5a代表A1和A2的梯形顶端不重合。A1和A2的相似度为
其中h= (b1-a2) (b1-e1+b2-e2) 。图5b代表A1和A2的梯形顶端重叠, A1和A2的相似度为
第三种情况c1-c2≤wb1-wb2。在这种情况中应该考虑2种不同的重叠情况, 如图6所示, 很容易得到
如果wb1>wb2,
其中l1=h1 (b2-e2) , l2=h2 (b2-e2) , l3= (b1-e1) - (l1+l2) , h3= (h1+h2) 。
A1和A2的相似度为
如果重叠部分c1-c2≤wt1+wt2:
对 wb1>wb2,
对wb1≤wb2,
这样, 可以得到 H=l1h+l2 (h+1) +2l3+l4和相似性
第四种情况b1≤b2, 在这种情况中, A1和A2没有交集, 如图7所示, 即|A1∩A2|=0, 则S (A1, A2) =0。
《4 对模糊集合进行精简》
4 对模糊集合进行精简
相似模糊集的合并。针对对称的连续隶属函数, 模糊集的相似性可以由式 (8) 至式 (12) 计算得出。
如果S (Aij, Akj) >λm, 阈值λm∈ (0, 1) , 则模糊集Aij 和Akj 合并成一个新的模糊集Apj, 新模糊集Apj的中心和宽度分别是Aij 和Akj中心和宽度的算术平均和, 即cpj= (cij+ckj) 2, wpj= (wij+wkj) 2。阈值λm对模糊模型的性能非常明显, 较小的λm导致更多的模糊集合并而产生一个更简单的模糊模型, 但是通常精度不高, 通常λm∈[0.6, 0.85]之间。
《5 我国全要素生产力的模糊规则提取》
5 我国全要素生产力的模糊规则提取
设有n个投入要素, 则产出Y与投入要素之间的关系为
其中t为时间。根据著名的C-D函数 (柯布—道格拉斯) 将式 (13) 写成
式中K, L, N分别代表资本投入、劳动投入、土地 (包括环境资源) 投入, α, β, γ是常数, 并假设α+β+γ=1 (即产出的规模效益不变) 。从式 (14) 可得到
式 (15) 表示一个地区的技术进步与该地区的产出、资本投入、劳动投入、土地 (包括环境资源) 投入的一定的依存关系。基于这种关系, 以我国31个省、市为样本, 指标为:GDP (104元/人) 、固定资产 (108元) 、人均耕地 (公顷/人) 、人力资本 (以湖北为参照的相对值
Table 1 The index data of each area of China
《表1》
地区 | GDP×104 /元·人-1 | 人均耕地 /公顷 | 固定资产值 ×108/元 | 人力资本 | 地区 | GDP×104 /元·人-1 | 人均耕地 /公顷 | 固定资产值 ×108/元 | 人力资本 | |
北京 | 2.0576 | 0.02487 | 8227.30 | 824.05 | 湖北 | 0.7803 | 0.08284 | 8257.60 | 2448.01 | |
天津 | 1.8328 | 0.04837 | 4046.97 | 553.85 | 湖南 | 0.6039 | 0.05993 | 6049.00 | 2292.17 | |
河北 | 0.8326 | 0.10275 | 10867.73 | 2933.38 | 广东 | 1.3681 | 0.04204 | 21245.70 | 4140.11 | |
山西 | 0.5440 | 0.14024 | 3382.22 | 1089.20 | 广西 | 0.4660 | 0.09206 | 3994.39 | 1389.13 | |
内蒙古 | 0.6503 | 0.34501 | 2638.26 | 926.48 | 海南 | 0.6859 | 0.09574 | 1549.79 | 327.02 | |
辽宁 | 1.2001 | 0.09954 | 8519.52 | 2575.60 | 重庆 | 0.5650 | 0.05112 | 2516.91 | 983.77 | |
吉林 | 0.7553 | 0.20730 | 3529.01 | 1088.67 | 四川 | 0.5118 | 0.08770 | 8993.94 | 2410.79 | |
黑龙江 | 0.9344 | 0.30892 | 5414.79 | 2067.14 | 贵州 | 0.2856 | 0.12907 | 2186.84 | 606.95 | |
上海 | 3.0674 | 0.01952 | 12975.97 | 1188.82 | 云南 | 0.4840 | 0.14979 | 4358.04 | 1067.75 | |
江苏 | 1.2933 | 0.06882 | 16511.65 | 3857.63 | 西藏 | 0.5275 | 0.13787 | 357.37 | 55.49 | |
浙江 | 1.4629 | 0.04607 | 14318.02 | 2357.03 | 陕西 | 0.5040 | 0.14049 | 3771.24 | 990.81 | |
安徽 | 0.5199 | 0.09437 | 5133.12 | 2013.47 | 甘肃 | 0.4165 | 0.19513 | 2200.20 | 526.47 | |
福建 | 1.2365 | 0.04171 | 7059.91 | 1963.60 | 青海 | 0.5754 | 0.13155 | 831.98 | 125.26 | |
江西 | 0.5198 | 0.07151 | 3136.84 | 1499.28 | 宁夏 | 0.5300 | 0.22536 | 846.54 | 144.29 | |
山东 | 1.0439 | 0.08505 | 14948.75 | 4160.06 | 新疆 | 0.7918 | 0.21246 | 3794.42 | 623.60 | |
河南 | 0.5903 | 0.08488 | 18354.74 | 3517.76 |
* 根据1991年至2003年的中国统计年鉴资料整理
《5.1按科技水平划分最佳类别数》
5.1按科技水平划分最佳类别数
选取指标GDP、固定资产和人力资本, 根据式 (1) 和表1的数据, 计算结果如表2所示。
Table 2 The data of criterion Vp to each cluster
《表2》
划分结果 | C=2 | C=3 | C=4 | C=5 |
判别准则Vp的值 | 0.772 0 | 0.774 4 | 0.722 9 | 0.772 0 |
从表2可知c=3时, 判别准则Vp的值取到最大值, 所以最优分类结果为Copt=3, 各类样本如表3所示。
Table 3 The corresponding area to each cluster by science and technology
《表3》
类别 | 地区名称 |
第一类 | 北京 天津 上海 |
第二类 | 河北 辽宁 黑龙江 江苏 浙江 山东 广东 福建 河南 湖北 湖南 四川 |
第三类 | 吉林 内蒙 山西 江西 安徽 云南 重庆 广西 海南 贵州 陕西 西藏 甘肃 青海 宁夏 新疆 |
《5.2运用简化的模糊系统提取模糊规则》
5.2运用简化的模糊系统提取模糊规则
根据式 (12) , 选取指标GDP、人力资本、固定资产和人均耕地面积, 再通过模糊系统和简化方法对我国全要素生产力进行模糊规则的提取。我国全要素生产力模糊规则见表4。
Table 4 The fuzzy rule of the productivity factor of China
《表4》
规则 | 结论 |
Rule 1 | if X belongs to 第一类 |
then y1=0.826 985+2.730 167x1+1.140 115x2+0.598 281x3 | |
Rule 2 | if X belongs to 第二类 |
then y1=0.008 862+0.168 800x1+3.276 196x2+0.000 206x3 | |
Rule 3 | if X belongs to 第三类 |
then y1=0.116 152+4.139 537x1+2.657 706x2+0.049 274x3 |
《6 结论》
6 结论
用笔者介绍的算法可以得到既简单又具解释性的模糊系统, 通过实例仿真可知, 在第一类中也就是经济发达地区, 人力资本和固定资产对产出有很大的作用;在第二类中也就是东部沿海和中部地区, 固定资产对产出有很大的作用;在第三类中也就是西部地区, 人力资本和固定资产对产出有很大的作用。