1 可拓信息与可拓知识概念
可拓学的理论和方法与信息科学和智能科学交叉融合的研究, 具体来说就是通过可拓信息与可拓知识来改变问题的目的或条件, 去解决矛盾问题。
《1.1 可拓知识是知识概念的扩展》
1.1 可拓知识是知识概念的扩展
可拓信息是解决矛盾问题的信息。可拓学基元理论中的基元 (物元、事元、关系元) 是可拓信息的基础信息。可拓学中的可拓变换是变化信息, 通过变换才能变矛盾问题为不矛盾问题。
可拓信息 = 基元 (基础信息) ⊕可拓变换 (变化信息) 。
目前对信息的定义, 基本上属于对信息的静态描述。可拓信息中的基元信息也属于对信息的静态描述, 而变换信息属于变化的信息, 具有变化特征。
解决矛盾问题必须通过可拓变换, 即利用变化的信息才能解决矛盾问题。可见, 可拓信息是信息概念的拓展。
知识是对信息进行加工, 或者对信息进行浓缩, 找出事物中存在的规律, 如表达式、蕴含式等。知识概念仍具有静态性。
可拓知识是解决矛盾问题的知识。可拓学的拓展原理的表达式, 即拓展式 (发散式、相关式、可扩式、蕴含式等) 是可拓知识的基础知识。可拓学的传导原理的变换蕴含式是变化知识。可拓学引入关联函数将矛盾问题进行量化处理, 称它为量化知识。
可拓知识 =拓展式 (基础知识) ⊕
变换蕴含式 (变化知识) ⊕关联函数,
其中变换蕴含式为 (Tuu=u′) → (uTvv =v′) , 简写为 (Tu→uTv) 。
可拓知识中的拓展式中的蕴含式与人工智能的产生式规则是一致的。拓展式中的发散式、相关式、可扩式等可以看成是产生式的扩展。它们仍具有静态特征。
可拓知识中的变换蕴含式是典型的变化知识。它是解决矛盾问题的更有价值的知识。可见, 可拓知识是知识概念的扩展。
《1.2 解决矛盾问题的量化知识——关联函数》
1.2 解决矛盾问题的量化知识——关联函数
关联函数公式k (x) =ρ (x, x0, X0) /D (x, X0, X) , 其中X0 =〈a, b〉, k (x) >0 是正域区间。X =〈c, d〉, k (x) <0, 是质变区间。
关联函数本身属于知识。当x从区间X0变化到区间X后, 即关联函数k (x) 由正数变为负数, 表明矛盾问题得到解决。
2 挖掘变化知识的可拓数据挖掘
数据挖掘是从数据中挖掘出知识。由于数据具有静态性, 所挖掘的知识也具有静态性。
《2.1 可拓数据挖掘概念》
2.1 可拓数据挖掘概念
提出可拓数据挖掘, 在于挖掘可拓知识, 它是数据挖掘的扩展。主要包含如下两类:
1) 挖掘关联函数的区间信息 解决矛盾问题的量化方法是建立关联函数, 通过可拓推理使变量x从区间X0变换到X, 区间参数a, b, c, d一般是运用实验或统计得到。利用数据挖掘方法, 获取区间参数信息, 是可拓数据挖掘的一类重要任务。
2) 挖掘变换蕴含式的可拓数据挖掘 数据挖掘获取知识 (条件→结论) , 对条件进行可拓变换和对结论进行传导变换, 获得的变化的知识, 即可拓知识
把这种挖掘变化的知识称为新型的可拓数据挖掘。
《2.2 可拓数据挖掘理论》
2.2 可拓数据挖掘理论
定理1 对于两类规则
一般情况 A =∧ai, B =∧bi。
若存在条件的可拓变换
并存在结论的可拓变换T结论 (它为T条件的传导变换) ,
则可拓变换规则知识 (变化知识)
成立, 即 if TB (B) =A then TN (N) = P (6)
证明:
1) 定理的已知条件表示成命题逻辑公式, 并化为子句型
a. A→P↔A∨P,
b. B→N↔B∨N,
c. TB (B) = A↔B∧A↔B, A,
d. TN (N) =P↔N∧P↔N, P。
2) 对定理的结论取非后化成子句型
(TB (B) =A→TN (N) =P) ↔
[ (B∧A) → (N∧P) ]↔
[ ( (B) ∧A) ∨ (N∧P) ]↔
[ (B∨A) ∨ (N∧P) ] ↔
(B∨A) ∧ (N∧P) ↔
B∧A∧ (N∨P) ↔
B, A, N∨P。
3) 对全部子句集进行归结
a.全部子句集为
b. 归结过程:子句A∨P与子句A归结为P, 它与子句N∨P归结为N, 再和子句N归结为空子句, 产生矛盾, 故证明定理正确。
定理2 对于两条同类规则
若存在可拓变换
则可拓变换规则知识
成立, 即 if TB (B) =A then P (11)
该定理同样可用归结原理证明 (略) 。
《2.3 可拓数据挖掘过程》
2.3 可拓数据挖掘过程
从可拓数据挖掘定理中, 可以概括可拓数据挖掘过程为:
Step 1 对分类问题利用数据挖掘方法获得分类规则, 即获得式 (1) 和式 (2) 的知识。
Step 2 确定规则的前提中存在的可拓变换以及结论中存在的可拓变换, 即找出满足式 (3) 和式 (4) 的可拓变换。
Step 3 利用定理1和定理2获得可拓知识式 (5) 或式 (10) 。
3 可拓推理是知识推理的扩展
在智能科学中, 知识推理采用了形式逻辑中的假言推理。可拓推理是对拓展式和变换蕴含式的假言推理。
1) 拓展推理 对拓展式的假言推理称为拓展推理。以发散式为例, 发散式推理表示为
2) 传导推理 变换蕴含式是可拓变换与传导变换之间的蕴含式, 它的假言推理称为传导推理, 表示为
可拓推理是在知识推理的基础上, 扩展为对变化知识的推理。
证明:
1) 将式 (13) 中推理 (├) 的左部写成等价的命题逻辑公式
2) 上式化为子句型
(u∧u′) ∧[ (u∧u′) → (v∧v′) ]↔
(u∧u′) ∧[ (u∧u′) ∨ (v∧v′) ]↔
(u∧u′) ∧[ (u∨u′) ∨ (v∧v′) ]↔
(u∧u′) ∧[ (u∨u′∨v) ∧
(u∨u′∨v′) ]↔ (u∧u′) ∧
(u∨u′∨v) ∧ (u∨u′∨v′) ↔
u, u′, (u∨u′∨v) , (u∨u′∨v′) 。
3) 将推理 (├) 的右部取非后, 化为子句型
4) 归结过程: 子句v∨v′与子句 (u∨u′∨v) 归结为v′∨u∨u′, 它与子句u归结为v′∨u′, 与u′归结为v′, 再与子句 (u∨u′∨v′) 归结为u∨u′, 与u归结为u′, 再与u′归结为空子句。产生矛盾, 证明可拓推理式 (13) 是正确的。
可拓知识只表明存在变化的可能性。可拓推理表明实际变化的发生。在式 (5) 中, 可拓知识 (Tu→Tv) 表明对u的变换Tu会引起对v的变换Tv。而可拓推理式 (13) 表明现已发生变换Tu, 按式 (13) 必然出现变换Tv。
4 可拓数据挖掘与可拓推理实例
在“脑血栓”与“脑出血”两类疾病的数据库中进行数据挖掘和可拓数据挖掘。
《4.1 在数据库中通过数据挖掘获取规则知识》
4.1 在数据库中通过数据挖掘获取规则知识
从“脑出血”和“脑血栓”两种疾病的大量实例数据库中, 通过数据挖掘的遗传算法可以获取两种疾病独立诊断的规则知识。获得的主要7条规则 (具体数据挖掘过程略) :
1) (高血压 = 有) ∧ (瞳孔不等大 = 是) ∧ (膝腱反射 = 不活跃) → 脑出血,
2) (瞳孔不等大 = 是) ∧ (语言障碍 = 是) →脑出血,
3) (高血压 = 有) ∧ (起病方式 = 快) ∧ (意识障碍 = 深度) →脑出血,
4) (高血压 = 有) ∧ (病情发展 = 快) →脑出血,
5) (高血压 = 有) ∧ (动脉硬化 =有) ∧ (起病方式 = 慢) →脑血栓,
6) (动脉硬化 = 有) ∧ (病情发展 = 慢) →脑血栓,
7) (动脉硬化 = 有) ∧ (意识障碍 = 无) →脑血栓。
《4.2 确定存在的可拓变换》
4.2 确定存在的可拓变换
在医疗中病人存在的可拓变换有:
T条件 (起病方式慢) = 起病方式快,
T条件 (无意识障碍) = 深度意识障碍,
也存在可拓变换 T结论 (脑血栓) = 脑出血。
《4.3利用可拓数据挖掘定理 获取可拓知识 (变化的知识)》
4.3利用可拓数据挖掘定理 获取可拓知识 (变化的知识)
根据定理1得到可拓变换知识 (变化知识) 为
还可以得出其他的可拓知识。
《4.4 可拓推理》
4.4 可拓推理
可拓知识中的前提一旦在现实中出现, 就可以利用可拓推理判断可拓知识中结论的出现。当发现某病人由起病方式慢变成起病方式快, 同时无意识障碍变成有深度意识障碍, 即可拓知识式 (14) 的前提已经出现, 利用可拓推理式 (13) 就可以判断可拓知识式 (14) 的结论已经出现, 即应该诊断该病人已经由“脑血栓”变成了“脑出血”。治疗方式就应改由“脑血栓”的治疗方法变成治疗“脑出血”的方法。
两种疾病的治疗方法是完全相反的, 若仍然用“脑血栓”的治疗方法治疗“脑出血”, 将会快速加重“脑出血”症状, 甚至于导致死亡。这条变化知识对医生来讲是极其重要的。
可见, 挖掘变化知识的可拓数据挖掘比挖掘静态知识的数据挖掘更有意义。
参考文献
[1] 陈文伟, 黄金才, 赵新昱.数据挖掘技术[M].北京:北京工业大学出版社, 2002
[2] 蔡文, 杨春燕, 何斌.可拓逻辑初步[M].北京:科学出版社, 2003
[3] 陈文伟.可拓学与智能科学、信息科学[A].香山科学会议 (第271次会议) [C].北京:香山科学会议第271次学术讨论会筹备组, 2005.7~50
[4] 陈文伟, 黄金才.从数据挖掘到可拓数据挖掘[A].中国人工智能进展[C], 北京:北京邮电大学出版社, 2005.844~848