《1 引言》
1 引言
知识创新的核心问题之一是如何表达已有知识, 以及如何应用已有知识进行分析、推理, 从而得到新知识, 其中尤以不确定性知识的推理和表达最为重要, 也十分困难。国内外学者利用数学方法进行的理论与实践研究重点集中在知识创新规律探索和知识获取技术两个方面, 其中知识获取的主要方法有:粗糙集、遗传算法、神经网络
《2 问题的数学表达[11]》
2 问题的数学表达[11]
设知识创新随机过程P, 输出的创新知识为有限集Y, ∀y∈Y的生成受相关已有知识的影响或约束, 定义与Y有关的已有相关知识集为X, 在给定∀x∈X条件下, 随机过程建模的目的是求出形成新知识y∈Y的条件概率 P (y|x) , 即对P (y|x) 进行估计。用P表示所有条件概率分布集合即P (y|x) ∈P。
模型的输入是从经过处理的知识库中抽取的样本集T,
∀xi∈X, ∀yi∈Y, 1≤i≤N, (x, y) 的经验分布为
其中freq (x, y) 是 (x, y) 在样本中出现的次数。
《3 特征与约束》
3 特征与约束
考虑Y的知识环境X, 分析随机过程P, 若考虑所有与Y同现的已有相关知识信息X, 模型的建立相当复杂、烦琐, 从知识创新规律角度分析, Y的生成只与X中部分信息有关, 因此, 从X中找出对Y的取值有价值的知识才是模型所要求的。这些有价值的知识正是随机最大熵模型要寻找的特征。为此, 先定义特征、特征函数、约束。
∀x∈X且x=d, d∈D, D代表x的部分信息, 若d对y∈Y的出现有表征作用, 则称 (d, y) 为模型的一个特征。同时, 事件“d出现时y∈Y出现”在模型中以“0—1”函数的形式表示, 即
称此函数为特征函数。
为了把有用的特征纳入模型, 可通过增加约束使模型满足相应特征的期望值来实现。进一步的问题是求出在限制条件下具有最一致分布的模型, 此时, 若f对模型有价值, 则期望概率值P (f) 等于经验概率值
设存在n个特征fi (i=1, 2, …, n) , 称
即
为模型的约束, 约束集合为
《4 随机过程最大熵模型[12]》
4 随机过程最大熵模型[12]
由约束集合定义可知, 满足约束条件的模型很多, 目标是产生在约束集下具有最均匀分布的模型, 即要求出最优的P (y|x) 值需要得到一个最为一致分布的模型, 测量这种一致性的方法之一是条件熵, 即
或
其中:0≤H (p) ≤lg|y|。
由以上分析可知, 概率预先未知待求, 约束条件是使条件熵H (p) 等于最大值的概率。这正是最大熵原理所解决的问题。最大熵原理最初由E.T.Jayness提出
根据最大熵原理, 应该使得P (x) 和f (x) 在已知的特征上表现出相同的统计特性, 同时又要保证不作任何过多的假设, 即要求p (x) 的熵尽可能大。
因此, 在允许的概率分布C中选择模型, 同时又保证不作任何人为的假设, 则具有最大熵的模型px∈C为所求, 即
作为被选定的值px是唯一的, 在简单的情况下, px可以通过分析得出, 但大多数情况是复杂的, 可通过寻找式 (6) 的等价函数的最优化来实现
对每个特征fi引入lagrange乘子λi, 定义lagrange函数
保持λ固定
满足
《5 特征选择》
5 特征选择
以上建立的模型可以保证不含任何额外的假设, 但不能保证所含特征是最有表征性的特征, 因此, 建立模型的重要环节是特征的选择。
进行特征选取时, 是由特征的信息增益值做标准, 一个特征对所处理的任务带来的信息越多, 该特征越适合引入模型中
Step1:设候补特征集合F, 模型选用的特征集合S, 对应模型PS初始化选用集合, S=Φ
Step2:∀f∈F, 求增益值Gf, 根据是 KL距离, 概率分布p, q的KL距离为
因此, 加入第n个特征前后, 模型分布与样本分布间的KL距离分别为:
则引入第n个特征fn后的增益值为
所以, 选择的第n个特征为
Step3:选择具有最大增益值的特征fmax n。
Step4:把特征fmax n加入集合
Step5:调整参数值, 计算模型PS。
Step6:回到Step2。
图1是模型系统流程。椭圆代表数据, 矩形代表过程。
《6 分析与结论》
6 分析与结论
创新随机过程最大熵模型是概率统计、最优化、最大熵原理的完美组合, 是随机性与因果性对立统一的数学模型, 且简洁、易移植, 应用范围广泛。模型的主要特点:
1) 模型的结构决定对不同的任务只是选择不同的特征集合嵌入模型中, 因此, 模型可以被多次利用, 模型的这种通用性和重用性允许使用者处理各种不同性质的任务。
2) 不作未经验证的假设。利用最大熵原理承认已有的事实, 对所选特征没有独立性假设。
3) 采用Kullback-Leibler距离作为特征的约束条件, 可以保证模型结论的准确性。同时, 模型的结构决定其可比照语言处理模型编程, 便于计算机实现。
4) 原始知识得到有效利用。一个特征对所处理的任务带来的信息越多, 该特征越优先引入模型中。从繁杂的原有知识中结构化选取有利于创新知识的集合, 大大降低了知识创新的盲目性。
《图1》
Fig.1 Systematic flow chart of model on maximum entropy of knowledge creating stochastic process