期刊首页 优先出版 当期阅读 过刊浏览 作者中心 关于期刊 English

《中国工程科学》 >> 2008年 第10卷 第9期

基于非线性数据变换的离群点检测算法

南京理工大学计算机科学与技术学院,南京210094

资助项目 :国家自然科学基金资助项目(60273035) 收稿日期: 2007-03-09 修回日期: 2007-04-24 发布日期: 2008-09-18 14:52:18.000

下一篇 上一篇

摘要

为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。

图片

图1

图2

图3

参考文献

[ 1 ] 夏火松主编.数据仓库与数据挖掘技术[ M] .北京: 科学出版 社, 2004

[ 2 ] Beyer K, Goldstein J, Ramakri Shnan R, et al.When is nearest neighbor meaningful [ A] .Been C, Buneman P ed.Proceedings of the 7th Intimation Conference on Data Theory Lecture Notes In Computer Science 1 540 [ C] .Jerusalem: Spnnger, 1999.217 - 235

[ 3 ] Li Yajun.Reforming the theory of invariant moments for pattern recognition [ J] .Pattern Recognition, 1992 , 25 ( 7 ) : 723 -730 链接1

[ 4 ] Scholkopf B, Smola A, Muller K R.Nonlinear component analysisas a kernel eigenvalue problem [ J] .Neural Computation, 1998 , 10 : 1299 -1319

[ 5 ] Giudici P.Applied Data Ming: Statistical Methods for Business and Industry [ M] .Beijing: Electronics Industry Press, 2004

[ 6 ] Suykens J A K, Gestel T V, Vandewalle J, et al.A Support Vector Machine formulation to PCA Analysis and Its Kernel Ver- sion [ R] .ESAT -SCD -SISTA Technical Report 2002 -68 , Belgium: Katholieke Universiteit Leuven, 2002

[ 7 ] The third international knowledge discovery and data mining tools competition dataset KDD99 -Cup [ EB /OL ] .http: //kdd.ics. uci.edu /databases /kddcup99 /kddcup99.html, 1999

[ 8 ] Pal N R, Bezdek J C.On cluster validity for the fuzzy c -mesns model [ J] .IEEE Trans Fuzzy System 1995 , 3 ( 3 ) : 370 -379 链接1

相关研究