提升KPCA方法特征抽取效率的算法设计

摘要

在PCA基础上发展出的KPCA方法能抽取样本的非线性特征分量。然而, 基于KPCA的特征抽取需计算所有训练样本与待抽取特征的样本间的核函数, 因此, 训练集的大小制约着特征抽取的效率。为了提高效率，假设特征空间中变换轴可由一部分训练样本(节点)线性表出，并设计了改进的KPCA算法(IKPCA)。该算法抽取某样本特征时，只需计算该样本与节点间的核函数即可。实验结果显示，IKPCA在对应较好性能的同时，具有明显的效率上的优势。

正文

《1 引言》

1 引言

作为线性方法, PCA (主分量分析) 方法是最小均方误差意义上的最优维数压缩技术^[1]。这种方法基于数据的二阶统计信息 (基于相应协方差矩阵) 进行分析, 抽取不相关的各个特征分量.应用中, PCA方法可通过求解特征方程实现, 并选择对应较大特征值的特征向量作为变换轴。

如果原始数据的特征存在复杂的非线性关系, 相比主分量分析, 非线性主分量分析更适合用作特征抽取方法^[2]。KPCA (核主分量分析) ^[3]是成功的一种NPCA (非线性主分量分析) 方法。相比一般的NPCA方法, KPCA并不需要直接对样本数据进行非线性映射, 因而其实现是简洁高效的。KPCA方法广泛地应用于特征抽取, 人脸识别, 图像处理等问题。如同其他核方法 (譬如KFDA, KMSE等) 一样, 基于KPCA方法对某样本进行特征抽取时, 需计算该样本与所有训练样本间的核函数;训练样本集越大, 相应计算量也越大, 效率也越低^[4,5,6,7,8], 而很多实际的模式分类任务要求系统具有较高的效率。从应用角度分析, 有必要对KPCA方法进行改进, 以提高其效率。笔者假设特征空间中的变换轴可由一部分训练样本线性表出, 并据此发展了一种改进的KPCA (IKPCA) 方法。

《2 PCA与KPCA》

2 PCA与KPCA

《2.1PCA》

2.1PCA

PCA方法又称为K-L变换, 其表述如下^[9,10]。

设X是一个n维的随机变量, u₁, u₂, …, u_n是n维空间的正交归一化矢量系, 即

$(u_{i})^{Τ} (u_{j}) = {\begin{matrix} 1 & (i = j) \\ 0 & (i \neq j) \end{matrix} (1)$ $(u_{i})^{Τ} (u_{j}) = {\begin{matrix} 1 & (i = j) \\ 0 & (i \neq j) \end{matrix} (1)$

则可将X无误差地表示为

$X = \sum_{i = 1}^{n} y_{i} u_{i} (2)$ $X = \sum_{i = 1}^{n} y_{i} u_{i} (2)$

其中y_i= (u_i) ^TX, i=1, 2, …, n, 若用前r项估计X, 即

$\hat{X} = \sum_{i = 1}^{r} y_{i} u_{i} (3)$ $\hat{X} = \sum_{i = 1}^{r} y_{i} u_{i} (3)$

则由此引起的均方误差为

$ε = \sum_{i = r + 1}^{n} E (y_{i}^{2}) (4)$ $ε = \sum_{i = r + 1}^{n} E (y_{i}^{2}) (4)$

亦即

$ε = \sum_{i = r + 1}^{n} (u_{i})^{Τ} E (X X^{Τ}) (u_{i}) = \sum_{i = r + 1}^{n} (u_{i})^{Τ} \sum (u_{i}) (5)$ $ε = \sum_{i = r + 1}^{n} (u_{i})^{Τ} E (X X^{Τ}) (u_{i}) = \sum_{i = r + 1}^{n} (u_{i})^{Τ} \sum (u_{i}) (5)$

使用拉格朗日乘子法, 可以求出在满足正交归一化条件式 (1) 下, 使得均方误差ε取极值的坐标系统。换言之, 拉格朗日函数

$g = \sum_{i = r + 1}^{n} (u_{i})^{Τ} Σ (u_{i}) - \sum_{i = r + 1}^{n} λ_{i} ((u_{i})^{Τ} (u_{i}) - 1) (6)$ $g = \sum_{i = r + 1}^{n} (u_{i})^{Τ} Σ (u_{i}) - \sum_{i = r + 1}^{n} λ_{i} ((u_{i})^{Τ} (u_{i}) - 1) (6)$

取得极值时, 式 (5) 也取得极值。而式 (6) 取得极值应满足条件

$(Σ - λ_{i} Ι) (u_{i}) = 0 (i = r + 1, \dots, n) (7)$ $(Σ - λ_{i} Ι) (u_{i}) = 0 (i = r + 1, \dots, n) (7)$

令r=0, 则可得到如下结论:

以矩阵Σ的特征向量作为坐标轴来展开X时, 其截断均方误差具有极值性质, 且当取r个u_i (i=1, …, r) 来表示X时, 其均方误差为

$ε = \sum_{i = r + 1}^{n} λ_{i} (8)$ $ε = \sum_{i = r + 1}^{n} λ_{i} (8)$

式中, λ_i是矩阵Σ的相应特征值。因此, PCA方法一般求出协方差矩阵较大特征值对应的特征向量作为变换轴。

《2.2PCA中核函数的引入》

2.2PCA中核函数的引入

假设x₁, x₂, …, x_N为训练样本, 用{x_i}表示输入空间。KPCA方法的基本思想是通过某种隐式方式将输入空间映射到某个高维空间 (常称为特征空间) , 并在特征空间中实现PCA。假设相应的映射为ϕ, 并且由此映射而得的特征空间中数据满足中心化的条件, 即

$\sum_{i = 1}^{Ν} ϕ (x_{i}) = 0 (9)$ $\sum_{i = 1}^{Ν} ϕ (x_{i}) = 0 (9)$

则特征空间中协方差矩阵为

$Σ = \frac{1}{Ν} \sum_{i = 1}^{Ν} ϕ (x_{i}) ϕ (x_{i})^{Τ} (10)$ $Σ = \frac{1}{Ν} \sum_{i = 1}^{Ν} ϕ (x_{i}) ϕ (x_{i})^{Τ} (10)$

对不满足中心化的情况, 可参考文献[3]。可认为特征空间中最小均方误差意义上的最优变换轴u_i必为所有样本的线性组合, 也称u_i位于ϕ (x₁) , ϕ (x₂) , …, ϕ (x_N) 张成的子空间中, 并表示为^[3]

$u_{i} = \sum_{j = 1}^{Ν} α_{j}^{(i)} ϕ (x_{j}) (11)$ $u_{i} = \sum_{j = 1}^{Ν} α_{j}^{(i)} ϕ (x_{j}) (11)$

联合式 (6) 与式 (11) , 令r=0, 得

$\begin{array}{l} g = \frac{1}{Ν} \sum_{i = 1}^{Ν} (α^{(i)})^{Τ} Κ Κ^{Τ} α^{(i)} - \\ \sum_{i = 1}^{Ν} λ_{i} (α^{(i)})^{Τ} Κ α^{(i)} + \sum_{i = 1}^{Ν} λ_{i} (12) \end{array}$ $\begin{array}{l} g = \frac{1}{Ν} \sum_{i = 1}^{Ν} (α^{(i)})^{Τ} Κ Κ^{Τ} α^{(i)} - \\ \sum_{i = 1}^{Ν} λ_{i} (α^{(i)})^{Τ} Κ α^{(i)} + \sum_{i = 1}^{Ν} λ_{i} (12) \end{array}$

矩阵K中元素为Mercer核, 即 (K) _ij=k (x_i, x_j) =ϕ (x_i) ϕ (x_j) 。由于此处K为对称阵, 将式 (12) 对α⁽ⁱ⁾求导, 可得

$Κ^{2} α^{(i)} / Ν = λ_{i} Κ α^{(i)} (13)$ $Κ^{2} α^{(i)} / Ν = λ_{i} Κ α^{(i)} (13)$

式 (13) 可改写为特征方程

$Κ α = λ^{'} α (14)$ $Κ α = λ^{'} α (14)$

其中 λ′=Nλ_i。

《2.3基于KPCA的特征抽取》

2.3基于KPCA的特征抽取

在特征空间的训练样本集{ϕ (x_i) }上计算特征方程式 (14) 的非零特征值与相应特征向量。假设按降序排列的若干个较大非零特征值为λ₁, λ₂, …, λ_m (m≤N) , 相应特征向量为α⁽¹⁾, α⁽²⁾, …, α^(m), 并假设特征空间中相应单位特征向量分别为u⁽¹⁾, u⁽²⁾, …, u^(m), 则关系式

$u^{(i)} = λ_{i}^{- 1 / 2} \sum_{j = 1}^{Ν} α_{j}^{(i)} ϕ (x_{j}), i = 1, 2, \dots, m (15)$ $u^{(i)} = λ_{i}^{- 1 / 2} \sum_{j = 1}^{Ν} α_{j}^{(i)} ϕ (x_{j}), i = 1, 2, \dots, m (15)$

成立。据此容易给出特征空间中样本ϕ (x) 在u⁽ⁱ⁾ 上投影的计算式。若将ϕ (x) 在m个特征向量上的投影值组成矢量, 则可得

$\begin{array}{l} y = λ_{1}^{- 1 / 2} [\sum_{j = 1}^{Ν} α_{j}^{(1)} k (x_{j}, x) ‚ \\ λ_{2}^{- 1 / 2} \sum_{j = 1}^{Ν} α_{j}^{(2)} k (x_{j}, x), \dots ‚ \\ λ_{m}^{- 1 / 2} \sum_{k = 1}^{Ν} α_{j}^{(m)} k (x_{j} ‚ x)]^{Τ} (16) \end{array}$ $\begin{array}{l} y = λ_{1}^{- 1 / 2} [\sum_{j = 1}^{Ν} α_{j}^{(1)} k (x_{j}, x) ‚ \\ λ_{2}^{- 1 / 2} \sum_{j = 1}^{Ν} α_{j}^{(2)} k (x_{j}, x), \dots ‚ \\ λ_{m}^{- 1 / 2} \sum_{k = 1}^{Ν} α_{j}^{(m)} k (x_{j} ‚ x)]^{Τ} (16) \end{array}$

在实际应用中, 可根据不同情况选定m值, m也称为KPCA方法的主分量数。分类可基于式 (16) 给出的样本特征进行。

《3 提升KPCA特征抽取效率的算法设计》

3 提升KPCA特征抽取效率的算法设计

《3.1提高KPCA方法特征抽取效率的思路》

3.1提高KPCA方法特征抽取效率的思路

KPCA算法认为特征空间中的特征向量位于ϕ (x₁) , ϕ (x₂) , …, ϕ (x_N) 张成的子空间中, 特征抽取由式 (16) 规定。式 (16) 表明, 为了得出一个样本在特征空间的每一个特征分量, 均需计算该样本与所有训练样本间的核函数, 并做累加。若训练样本集较大, 特征抽取会对应很大的计算量, 使得基于KPCA的特征抽取效率较低, 其他核方法也面临这一问题。而在一些实时性要求很强的应用中, 算法的高效性是必须考虑的重要因素。鉴于此, 提升KPCA方法特征抽取效率很有重要意义。

假设, 在特征空间中训练样本集中一部分样本的线性组合即可较好地表示主分量 (或者称逼近主分量) 。换个角度分析, 虽然所有样本的线性组合可准确描述式 (15) 中的特征向量u⁽ⁱ⁾ ;但可认为特征空间中不同样本在该线性组合中的重要性不完全相同, 其中一部分样本的贡献较大, 而另一些则相反。假如能从所有样本中找出比较重要的那部分样本, 并以其线性组合的形式给出特征空间中主分量的近似表示式, 则可减少基于KPCA的特征抽取的计算代价。相似的思路曾在KFD (核Fisher鉴别分析) 中得到很好的应用^[11,12]。

根据PCA方法的特点, 提出按照相应特征值的大小判断训练样本的重要程度, PCA方法中特征值越大, 相应主分量对原数据的描述能力越强, 由此抽取出的特征包含原数据的信息越多。

假设

$u_{i} = \sum_{j = 1}^{s} α_{j}^{(i)} ϕ (x_{j}^{(0)}) ‚ s < Ν (17)$ $u_{i} = \sum_{j = 1}^{s} α_{j}^{(i)} ϕ (x_{j}^{(0)}) ‚ s < Ν (17)$

称ϕ (x_j⁽⁰⁾) 为特征空间中的节点。令α⁽ⁱ⁾=[α₁⁽ⁱ⁾α₂⁽ⁱ⁾ … α_N^(m)]^T。此时式 (12) 相应变形为

$\begin{array}{l} g = \frac{1}{Ν} \sum_{i = 1}^{Ν} (α^{(i)})^{Τ} Κ_{1} (Κ_{1})^{Τ} α^{(i)} - \\ \sum_{i = 1}^{Ν} λ_{i} (α^{(i)})^{Τ} Κ_{2} α^{(i)} + \sum_{i = 1}^{Ν} λ_{i} (18) \end{array}$ $\begin{array}{l} g = \frac{1}{Ν} \sum_{i = 1}^{Ν} (α^{(i)})^{Τ} Κ_{1} (Κ_{1})^{Τ} α^{(i)} - \\ \sum_{i = 1}^{Ν} λ_{i} (α^{(i)})^{Τ} Κ_{2} α^{(i)} + \sum_{i = 1}^{Ν} λ_{i} (18) \end{array}$

其中

$\begin{array}{l} Κ_{1} = [\begin{matrix} k (x_{1}^{(0)}, x_{1}) & \dots & k (x_{1}^{(0)} ‚ x_{Ν}) \\ k (x_{2}^{(0)}, x_{1}) & \dots & k (x_{2}^{(0)} ‚ x_{Ν}) \\ ⋮ & ⋮ \\ k (x_{s}^{(0)}, x_{1}) & \dots & k (x_{s}^{(0)} ‚ x_{Ν}) \end{matrix}] \\ Κ_{2} = [\begin{matrix} k (x_{1}^{(0)}, x_{1}^{(0)}) & \dots & k (x_{1}^{(0)} ‚ x_{s}^{(0)}) \\ k (x_{2}^{(0)}, x_{1}^{(0)}) & \dots & k (x_{2}^{(0)} ‚ x_{s}^{(0)}) \\ ⋮ & ⋮ \\ k (x_{s}^{(0)}, x_{1}^{(0)}) & \dots & k (x_{s}^{(0)} ‚ x_{s}^{(0)}) \end{matrix}] \end{array}$ $\begin{array}{l} Κ_{1} = [\begin{matrix} k (x_{1}^{(0)}, x_{1}) & \dots & k (x_{1}^{(0)} ‚ x_{Ν}) \\ k (x_{2}^{(0)}, x_{1}) & \dots & k (x_{2}^{(0)} ‚ x_{Ν}) \\ ⋮ & ⋮ \\ k (x_{s}^{(0)}, x_{1}) & \dots & k (x_{s}^{(0)} ‚ x_{Ν}) \end{matrix}] \\ Κ_{2} = [\begin{matrix} k (x_{1}^{(0)}, x_{1}^{(0)}) & \dots & k (x_{1}^{(0)} ‚ x_{s}^{(0)}) \\ k (x_{2}^{(0)}, x_{1}^{(0)}) & \dots & k (x_{2}^{(0)} ‚ x_{s}^{(0)}) \\ ⋮ & ⋮ \\ k (x_{s}^{(0)}, x_{1}^{(0)}) & \dots & k (x_{s}^{(0)} ‚ x_{s}^{(0)}) \end{matrix}] \end{array}$

将式 (18) 对α⁽ⁱ⁾ 求导, 可得广义特征方程

$Κ_{1} (Κ_{1})^{Τ} α^{(i)} / Ν = λ_{i} Κ_{2} α^{(i)} (19)$ $Κ_{1} (Κ_{1})^{Τ} α^{(i)} / Ν = λ_{i} Κ_{2} α^{(i)} (19)$

K₂可逆条件下, 令 λ′=Nλ_i, 该特征方程可改写为如下等价形式

$(Κ_{2})^{- 1} Κ_{1} (Κ_{1})^{Τ} α = λ^{'}_{i} α (20)$ $(Κ_{2})^{- 1} Κ_{1} (Κ_{1})^{Τ} α = λ^{'}_{i} α (20)$

若K₂非可逆, 则可采用 (K₂+μI) ^-1K₁ (K₁) ^Tα=λ′_iα求解α, 其中I为单位矩阵, μ为正常数。

《3.2算法设计》

3.2算法设计

Step 1 选出第一个节点:

对单个训练样本x_i, i=1, 2, …, N, 首先计算相应K₁, K₂。根据上面相应公式可知, 在该步骤中, K₂为一数量值, K₁ (K₁) ^T也为一数量值。计算λ_i=K₁ (K₁) ^T/K₂。将对应最大λ_i 的样本作为第一个节点, 并记为x₁⁽⁰⁾。将对应x₁⁽⁰⁾的K₁, K₂分别记为K₁⁽⁰⁾, K₂⁽⁰⁾。

Step 2 选出第二个节点:

称

$k_{j}^{(1)} = [k (x_{j}, x_{1}), k (x_{j}, x_{2}), \dots, k (x_{j}, x_{Ν})] (21)$ $k_{j}^{(1)} = [k (x_{j}, x_{1}), k (x_{j}, x_{2}), \dots, k (x_{j}, x_{Ν})] (21)$

为样本x_j (x_j≠x₁⁽⁰⁾) 的核向量, 且与x₁⁽⁰⁾, x_j对应的矩阵K₁, K₂分别为

$Κ_{1} = [\begin{array}{l} Κ_{1}^{(0)} \\ k_{j}^{(1)} \end{array}], Κ_{2} = [\begin{matrix} Κ_{2}^{(0)} & k (x_{1}^{(0)}, x_{j}) \\ k (x_{1}^{(0)}, x_{j}) & k (x_{j}, x_{j}) \end{matrix}] 。$ $Κ_{1} = [\begin{array}{l} Κ_{1}^{(0)} \\ k_{j}^{(1)} \end{array}], Κ_{2} = [\begin{matrix} Κ_{2}^{(0)} & k (x_{1}^{(0)}, x_{j}) \\ k (x_{1}^{(0)}, x_{j}) & k (x_{j}, x_{j}) \end{matrix}] 。$

计算相应特征方程式 (19) 的特征值λ₁, λ₂, 令v=λ₁+λ₂。考察完所有满足条件的样本后, 将对应最大v值的样本选作第二个节点, 并记为x₂⁽⁰⁾。将x₁⁽⁰⁾, x₂⁽⁰⁾对应的矩阵K₁, K₂分别记为K₁⁽⁰⁾, K₂⁽⁰⁾。

Step 3 选出第三个节点:

令样本x₁⁽⁰⁾, x₂⁽⁰⁾, x_j (x_j≠x₁⁽⁰⁾, x₂⁽⁰⁾) 对应矩阵K₁, K₂为

$Κ_{1} = [\begin{array}{l} Κ_{1}^{(0)} \\ k_{j}^{(1)} \end{array}], Κ_{2} = [\begin{matrix} Κ_{2}^{(0)} & (k_{j}^{(2)})^{Τ} \\ k (x_{j}^{(2)}) & k (x_{j}, x_{j}) \end{matrix}] ‚$ $Κ_{1} = [\begin{array}{l} Κ_{1}^{(0)} \\ k_{j}^{(1)} \end{array}], Κ_{2} = [\begin{matrix} Κ_{2}^{(0)} & (k_{j}^{(2)})^{Τ} \\ k (x_{j}^{(2)}) & k (x_{j}, x_{j}) \end{matrix}] ‚$

其中 (k_j⁽²⁾) =[k (x_j, x₁⁽⁰⁾) k (x_j, x₂⁽⁰⁾) ], k_j⁽¹⁾同式 (21) 。计算相应特征方程式 (19) 的特征值λ₁, λ₂, λ₃, 令v=λ₁+λ₂+λ₃。考察完所有满足条件的样本后, 将对应最大v值的样本选作第三个节点, 并记为x₃⁽⁰⁾。将x₁⁽⁰⁾, x₂⁽⁰⁾, x₃⁽⁰⁾ 对应的矩阵K₁, K₂分别记为K₁⁽⁰⁾, K₂⁽⁰⁾。

Step s 选出第s个节点:

假设已有s-1个节点x₁⁽⁰⁾, x₂⁽⁰⁾, …, x_s-1⁽⁰⁾ 被选出, 与其对应的矩阵K₁, K₂分别记为K₁⁽⁰⁾, K₂⁽⁰⁾。对样本x_j (x_j≠x₁⁽⁰⁾, x₂⁽⁰⁾, …, x_s-1⁽⁰⁾) 仍令

其中 (k_j⁽²⁾) =[k (x_j, x₁⁽⁰⁾) k (x_j, x₂⁽⁰⁾) … k (x_j, x_s-1⁽⁰⁾) ], k_j⁽¹⁾同式 (21) 。计算相应特征方程式 (19) 的所有特征值λ₁, λ₂, …, λ_s。若s≤p, 令v=λ₁+λ₂+ … +λ_s;若s>p, 令v=λ₁+λ₂+ … +λ_p (p为主分量分析中选取的特征向量数目) 。考察完所有满足条件的样本后, 将对应最大v值 (记为v_s) 的样本选作第s个节点, 并记为x_s⁽⁰⁾。将 x₁⁽⁰⁾, x₂⁽⁰⁾, …, x_s⁽⁰⁾对应的矩阵K₁, K₂分别记为K₁⁽⁰⁾, K₂⁽⁰⁾。重复该步骤, 当条件s≥Nr (r为小于1的系数, N为训练样本总数) 满足时终止节点的选择过程。

节点选择完毕后, 特征空间中样本ϕ (x) 的特征抽取可按下式进行

$\begin{array}{l} y = [λ_{1}^{- 1 / 2} \sum_{j = 1}^{s} α_{j}^{(1)} k (x_{j}^{(0)}, x) ‚ \\ λ_{2}^{- 1 / 2} \sum_{j = 1}^{s} α_{j}^{(2)} k (x_{j}^{(0)}, x), \dots ‚ \\ λ_{m}^{- 1 / 2} \sum_{j = 1}^{s} α_{j}^{(m)} k (x_{j}^{(0)} ‚ x)]^{Τ} (22) \end{array}$ $\begin{array}{l} y = [λ_{1}^{- 1 / 2} \sum_{j = 1}^{s} α_{j}^{(1)} k (x_{j}^{(0)}, x) ‚ \\ λ_{2}^{- 1 / 2} \sum_{j = 1}^{s} α_{j}^{(2)} k (x_{j}^{(0)}, x), \dots ‚ \\ λ_{m}^{- 1 / 2} \sum_{j = 1}^{s} α_{j}^{(m)} k (x_{j}^{(0)} ‚ x)]^{Τ} (22) \end{array}$

《4 实验》

4 实验

实验在4个基准数据集上进行。每个数据集被随机地分成了100部分 (S除了plice除了数据集只包含20部分外) , 每部分又分别包含训练样本子集与测试样本子集。实验采用高斯型核函数 k (x, y) =exp (-‖x-y‖²/2σ²) 。每次实验中, 将σ²取为第一个训练样本子集协方差矩阵F-范数的二次方。在第一个训练样本子集上进行训练, 然后对所有测试样本子集进行分类。除了关于数据集Splice的实验中r取0.25外, 其他数据集的r=0.5。对测试样本的分类使用最小距离分类器。

表1与表2分别给出了KPCA与IPKCA在4个基准数据集上的实验结果。实验得出的特征抽取时间显示, 改进的KPCA方法的特征抽取效率大大高于KPCA方法。对4个数据集的分类结果显示, 在Diabetis与Cancer两个数据集上, 基于两类方法的分类错误率相当; 在Banana数据集上, 基于改进的KPCA方法的分类错误率略高于基于KPCA方法的分类错误率;在训练数据多达1 000的数据集Splice上, 基于改进的KPCA方法的分类错误率明显低于KPCA方法。需要说明的是, 错误率一项中的2个数据分别为平均分类错误率与分类错误率标准差。

表1 KPCA在基准数据集上的实验结果

Table 1 KPCA experimental result on benchmark datasets

《表1》

	主分量数	错误率	训练样本总数	特征抽取时间/s
Splice	100	25.5±2.6	1 000	864
	90	24.7±2.5		832
	80	24.0±2.4		801
	70	21.8±2.2		778
Diabetis	100	11.5±2.8	468	238
	90	11.7±2.8		212
	80	11.5±2.8		202
	70	11.8±2.9		191
Banana	100	13.8±0.2	400	3 128
	90	13.8±0.2		2 983
	80	13.8±0.2		2 908
	70	13.8±0.2		2 825
Cancer	70	9.0±3.2	200	25.4
	60	8.5±3.0		23.2
	50	8.5±3.0		22.2
	40	9.8±3.3		21.8

表2 改进的KPCA在基准数据集上的实验

Table 2 Improved PCA experimental result on benchmark datasets

《表2》

	主分量数	错误率	节点数	特征抽取时间/s
Splice	100	17.8±1.8	250	260
	90	17.8±1.8		247
	80	17.5±1.8		230
	70	17.6±1.7		214
Diabetis	100	11.4±2.8	234	140
	90	11.9±2.9		125
	80	11.6±2.8		121
	70	12.0±2.9		114
Banana	100	14.1±0.2	200	1 807
	90	14.2±0.2		1 799
	80	14.2±0.2		1 734
	70	14.2±0.2		1 688
Cancer	70	9.2±3.3	100	15.3
	60	8.6±2.9		13.9
	50	8.6±2.9		13.2
	40	8.1±2.9		12.7

《5 结论》

5 结论

作为一类核方法, KPCA方法在特征抽取中得到了较多的应用。由于KPCA抽取一个样本的特征时, 需计算训练集中所有样本与该样本间的核函数, 特征抽取的效率会随着训练集的增大而减小。另一方面, 实际应用中往往要求系统有较高的特征抽取效率。假定特征空间中KPCA对应的变换轴可由一部分训练样本 (节点) 线性表出, 并设计了一个改进的KPCA (IKPCA) 算法。 IKPCA算法只基于所有节点与某样本间的核函数, 即可抽取该样本特征。因此, IKPCA抽取特征的效率与节点数的多少直接相关, 节点数越少, 特征抽取效率越高。在基准数据集上进行的 KPCA与IKPCA的对比实验显示, IKPCA方法对应较高的特征抽取效率, 而且在此基础上的分类正确率与基于KPCA方法所抽取特征的分类正确率相当。

展示更多