期刊首页 优先出版 当期阅读 过刊浏览 作者中心 关于期刊 English

《中国工程科学》 >> 2009年 第11卷 第2期

基于流形学习的离群点检测方法

1. 南京理工大学计算机科学与技术学院, 南京 210094;

2. 南京大学计算机科学与技术系, 南京 210093

收稿日期: 2007-09-18 发布日期: 2009-02-06 09:31:24.000

下一篇 上一篇

摘要

为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。

 

图片

图 1

图 2

图 3

参考文献

[ 1 ] 夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社2004

[ 2 ] Barnett V , Lewis T . Outliers in Statistical Data[M] . New York : John Wiley and Sons , Inc , 1994

[ 3 ] Preparata F , Shamos M I . Computational Geometry : an Introduction [M] . New York : Springer-Verlag , 1988

[ 4 ] Knorr E M ,Ng R T .Algorithms for mining distance-based outliers in large datasets[A] . Proceedings of the 24th International Conference on Very Large Data Bases [ C] . New York : Morgan Kaufmann , 1998 . 392 - 403

[ 5 ] Breunig Markus M B , Kriegel Hans Peter , Ng Raymond T , et al . LOF : identifying density-based local outliers [ A ] . Chen W , Naughton J F , Bernstein P A , eds . Proceedings of the ACM SIGMOD International Conference on Management of Data [ C ] . Dallas , Texas : ACM Press , 2000 :93 - 104

[ 6 ] Papadimitriou Spiros ,Kitagawa Hiroyuki ,Gibbons Phillip B . LOCI : fast outlier detection using the local correlation integral [ A ] . Proceedings of the 19th International Conference on Data Engineering [C] .2003 . 315 - 326

[ 7 ] Agrawal R , Gehrke J , Gunopulos D , et al . Automatic subspace clustering of high dimensional data for data mining applications[ A] . Haas L M , Tiwary A . Proc of the ACM SIGMOD International Conference on Management of Data[C] .Seattle :ACM Press ,1998 :94 - 105

[ 8 ] Roweis S T ,Saul L K . Nonlmensionality reduction by locally linear embedding [J ] . Science , 2000 ,290 (22) :2323 - 2325 链接1

[ 9 ] Knorr E M ,Ng R T .Finding intensional knowledge of distance-based outliers[A] .Scotland :Pruc of the 25th VLDB Conference Edinburgh [C] .1999 .21l - 222 链接1

[10] Knorr E M ,Ng R T .Algorithms for mining distance-based oufliers in large datasets[A] .New York :Proc of Int Conf Very Large Data-bases (VLDB’98)[C] . 1998 .392 - 403 链接1

[11] Olga Kouropteva , Oleg Okun , Matti Pietik惫inen . Selection of the optimal parameter value for the locally linear embedding algorithm[A] . FSDK″02 , Proc of the 1 st Int Conf on Fuzzy Systems and Knowledge Discovery[C] . 2002 . 359 - 363

相关研究