统计不相关最佳鉴别矢量集的本质研究

摘要

对统计不相关最佳鉴别矢量集的本质进行研究，在基于总体散布矩阵特征分解的基础上，构造了一种白化变换，使得变换后的样本空间中的总体散布矩阵为单位矩阵，这样使得传统的最佳鉴别矢量集算法得到的均是具有统计不相关的最佳鉴别矢量集，从而揭示了统计不相关最佳鉴别变换的本质——白化变换加普通的线性鉴别变换。该方法的最大优点在于所获得的最优鉴别矢量同时具有正交性和统计不相关性。该方法对代数特征抽取具有普遍适用性。用ORL人脸数据库的数值实验，验证了该方法的有效性。

正文

《1 引言》

1 引言

在模式识别领域中, Fisher线性判别方法有着重大的影响, 其基本思想是在Fisher鉴别准则函数取极值的条件下, 求得一个最佳鉴别方向, 然后再将模式高维特征向量投影到该最佳鉴别方向上, 构成一维鉴别特征空间, 于是模式鉴别分析就在一维空间中进行 ^{[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]}。

Foley 和Sammon在1970年发展了Fisher线性判别方法, 提出了Sammon最佳鉴别平面的技术, 并将它用于解决两类问题 ^[2]。Sammon最佳鉴别平面的技术在模式识别领域中得到广泛的应用与发展, Duchene 和 Leclercq 给出了对多类问题的Foley-Sammon最佳鉴别矢量集的计算公式 ^[3], Longstaff提出了分别基于Fukunaga-Koontz变换和基于矢径 (radius vector) 的最佳鉴别平面, Turk和Pentland提出了特征脸的方法 ^[1], Hong和Yang 提出了基于SVD的特征抽取方法 ^[4,5], Cheng和Yang提出了一种新的相似鉴别准则 ^[7], Liu提出了广义最佳鉴别平面和广义最佳鉴别矢量集的一系列方法 ^[8,9], 郭提出了广义最佳鉴别矢量的改进算法 ^[10,11,12], 笔者最近提出了广义最佳鉴别矢量集的解析算法 ^[13]。在实际问题中, 模式原始特征的维数一般比较高, 特征分量可能是相关的, 为此, 金忠提出了一种具有统计不相关性的最佳鉴别平面和统计不相关最佳鉴别矢量集的算法 ^[14,15]。笔者对统计不相关最佳鉴别矢量集的本质进行了研究, 并将其应用于人脸识别问题的研究上。

《2 统计不相关最佳鉴别矢量集》

2 统计不相关最佳鉴别矢量集

设w₁, w₂, …, w_m为m个模式类, X={x_i}, i=1, 2, …, N 为n维训练样本集, X中的每一个x_i属于w_j类, 即x_i∈w_j, i=1, 2, …, N , j=1, 2, …, m。设w_i类的平均矢量、协方差矩阵与先验概率分别为m_i, C_i, P (w_i) , 则类间散布矩阵S_b、类内散布矩阵S_w和总散布矩阵S_t分别为:

$\begin{array}{l} S_{b} = \sum_{i = 1}^{m} Ρ (w_{i}) (m_{i} - m_{0}) (m_{i} - m_{0})^{Τ}, (1) \\ S_{W} = \sum_{i = 1}^{m} Ρ (w_{i}) E {(x - m_{i}) (x - m_{i})^{Τ} / W_{i}} = \\ \sum_{i = 1}^{m} Ρ (w_{i}) C_{i}, (2) \\ C_{i} = E {(x - m_{i}) (x - m_{i})^{Τ} / w_{i}}, (3) \\ S_{t} = S_{b} + S_{w} = E {(x - m_{0}) (x - m_{0})^{Τ}}, (4) \\ m_{0} = E {x} = \sum_{i = 1}^{m} Ρ (w_{i}) m_{i}, (5) \end{array}$ $\begin{array}{l} S_{b} = \sum_{i = 1}^{m} Ρ (w_{i}) (m_{i} - m_{0}) (m_{i} - m_{0})^{Τ}, (1) \\ S_{W} = \sum_{i = 1}^{m} Ρ (w_{i}) E {(x - m_{i}) (x - m_{i})^{Τ} / W_{i}} = \\ \sum_{i = 1}^{m} Ρ (w_{i}) C_{i}, (2) \\ C_{i} = E {(x - m_{i}) (x - m_{i})^{Τ} / w_{i}}, (3) \\ S_{t} = S_{b} + S_{w} = E {(x - m_{0}) (x - m_{0})^{Τ}}, (4) \\ m_{0} = E {x} = \sum_{i = 1}^{m} Ρ (w_{i}) m_{i}, (5) \end{array}$

其中m₀为全体训练样本的平均矢量, E表示数学期望。

由散布矩阵, Fisher鉴别函数可定义为

《图1》

其中φ为任一n维列矢量。使函数J (φ) 达到最大值的矢量φ^*₁为Fisher最佳鉴别方向, 训练样本在方向φ^*₁上的投影集, 在一维子空间Span { (φ^*₁} 中有最小的类内距离和最大的类间距离。

设φ₁=φ^*₁/|φ^*₁|, 则φ₁是Foley-Sammon最佳鉴别矢量集的第一个矢量, Foley-Sammon最佳鉴别矢量集的第i个鉴别矢量 φ_i (1<i≤ r) 可以由解下列问题计算得到:

《图2》

设S={φ_i}, i=1, 2, …, r。由Foley-Sammon最佳鉴别矢量集可以构成线性变换:

$y = Φ^{Τ} x, (8)$ $y = Φ^{Τ} x, (8)$

其中 Φ=[φ₁φ₂ … φ_r]。

当r=2时, Foley-Sammon最佳鉴别矢量集等价于Sammon最佳鉴别平面。

首先求出Fisher最佳鉴别方向φ₁。在求出r (r≥1) 个最佳鉴别方向φ₁, φ₂, …, φ_r后, 第r+1个最佳鉴别方向在满足共轭正交条件式 (9) 下, 使Fisher鉴别准则函数式 (6) 取得最大值的向量φ_r+1:

《图3》

关于具有统计不相关性的最佳鉴别方向的求解有如下的定理:

定理 (文献[14,15]引理2) 具有统计不相关性的最佳鉴别矢量集的第r+1个最佳鉴别方向φ_r+1是下列广义本征方程中最大的本征值对应的本征向量

《图4》

式中

$Ρ = Ι - S_{t} D^{Τ} (D S_{t} S_{W}^{- 1} S_{t} D^{Τ})^{- 1} D S_{t} S_{W}^{- 1} ‚ (11)$ $Ρ = Ι - S_{t} D^{Τ} (D S_{t} S_{W}^{- 1} S_{t} D^{Τ})^{- 1} D S_{t} S_{W}^{- 1} ‚ (11)$

I为单位矩阵, 而且,

《图5》

《3 统计不相关最佳鉴别矢量集的本质》

3 统计不相关最佳鉴别矢量集的本质

事实上, 若统计不相关性最佳鉴别矢量集为φ₁, φ₂, …, φ_n, 则有

《图6》

因此, 若S_t退化为单位矩阵时, 统计不相关性就退化为正交性, 那么, 能否找到一个线性变换使得S_t变换为单位矩阵呢?这是下面将要解决的问题。

对S_t进行特征分解,

《图7》

由于V是正交矩阵, 所以VV^T=I, 即V^T=V^-1, 因此白化变换为

《图8》

样本x经白化变换后的样本为 $\tilde{x}$ $\tilde{x}$ , 同样, 原始样本空间为X, 变换后的空间为 $\tilde{X}$ $\tilde{X}$ , 则在空间 $\tilde{X}$ $\tilde{X}$ 中有

$\tilde{x} = Q x 。$ $\tilde{x} = Q x 。$

同样,

$\begin{array}{l} \tilde{m}_{0} = Q m_{0}, \\ \tilde{S}_{t} = E {(\tilde{x} - \tilde{m}_{0}) (\tilde{x} - \tilde{m}_{0})^{Τ}} = \\ E {(Q x - Q m_{0}) (Q x - Q m_{0})^{Τ}} = \\ Q E {(x - m_{0}) (x - m_{0})^{Τ}} Q^{Τ} = \\ Q S_{t} Q^{Τ} = Q V D V^{- 1} Q^{Τ} = \\ V D^{- 1 / 2} V^{Τ} V D V^{- 1} (V D^{- 1 / 2} V^{Τ})^{Τ} = \\ V D^{- 1 / 2} V^{Τ} V D V^{- 1} V D^{- 1 / 2} V^{Τ} = \\ V D^{- 1 / 2} D D^{- 1 / 2} V^{Τ} = V V^{Τ} = Ι, \\ \tilde{S}_{b} = Q S_{b} Q^{Τ} ‚ \\ \tilde{S}_{W} = Q S_{W} Q^{Τ} 。 \end{array}$ $\begin{array}{l} \tilde{m}_{0} = Q m_{0}, \\ \tilde{S}_{t} = E {(\tilde{x} - \tilde{m}_{0}) (\tilde{x} - \tilde{m}_{0})^{Τ}} = \\ E {(Q x - Q m_{0}) (Q x - Q m_{0})^{Τ}} = \\ Q E {(x - m_{0}) (x - m_{0})^{Τ}} Q^{Τ} = \\ Q S_{t} Q^{Τ} = Q V D V^{- 1} Q^{Τ} = \\ V D^{- 1 / 2} V^{Τ} V D V^{- 1} (V D^{- 1 / 2} V^{Τ})^{Τ} = \\ V D^{- 1 / 2} V^{Τ} V D V^{- 1} V D^{- 1 / 2} V^{Τ} = \\ V D^{- 1 / 2} D D^{- 1 / 2} V^{Τ} = V V^{Τ} = Ι, \\ \tilde{S}_{b} = Q S_{b} Q^{Τ} ‚ \\ \tilde{S}_{W} = Q S_{W} Q^{Τ} 。 \end{array}$

这样, 用任何一种方法求得的2个最优鉴别矢量φ_i和φ_j (i≠j) 都是正交的, 即φ^T_iφ_j=0。在空间 $\tilde{X}$ $\tilde{X}$ 中, 由于 $\tilde{S}_{t} = Ι$ $\tilde{S}_{t} = Ι$ , 则有φ^T_iS_tφ_j=0, 即φ_i和φ_j (i≠j) 也是统计不相关的。

根据上述分析, 可以得到统计不相关最优鉴别矢量集的本质, 即统计不相关最优鉴别是白化变换加普通线性鉴别变换。

《4 实验与结果分析》

4 实验与结果分析

从ORL人脸图像库中分别取出若干个人的脸部图像 (92×112) , 每人10幅图像。计算中, 取每人的4幅图像训练, 其余6幅图像作为检验样本。分别用文献[9]、文献[10]和文献[13]的方法以及它们的改进算法抽取最佳鉴别矢量。改进算法是指, 首先对原始数据在基于总体散布矩阵的白化变换后, 再用文献[9]、文献[10]和文献[13]的方法进行特征抽取, 并在鉴别矢量空间构造最小距离分类器进行分类。图1为用于实验的部分人脸图像, 表1至表3为各种算法与它们相应的改进算法的实验结果比较, 可见改进的方法比原方法的识别性能要好, 但是由于改进方法需要先进行白化变换, 因此计算时间略有增加。

《图9》

图1 ORL图像库部分图像

Fig.1 Part of the images of ORL

《5 结论》

5 结论

笔者对统计不相关最佳鉴别矢量集的求解方法进行研究, 获得如下结论:

1) 对统计不相关最佳鉴别矢量集的本质进行研究表明, 统计不相关最优鉴别是白化变换加普通线性鉴别变换。这丰富了模式识别中有关特征提取的理论。

表1 文献[9]的算法及其改进算法的性能比较

Table 1 Performance comparison of the algorithm in [9] and its improvement algorithm

《表1》

类数	鉴别矢量数	训练样本数	文献[9]的方法		改进后的方法
类数	鉴别矢量数	训练样本数	错误识别数	计算时间/s	错误识别数	计算时间/s
5	4	4	1	13.73	1	73.32
10	9	4	4	21.26	2	100.68
15	14	4	8	25.93	2	106.72
20	19	4	33	25.49	19	83.93
25	24	4	57	21.03	23	61.63
30	29	4	64	15.16	16	15.27
35	34	4	92	20.21	17	20.05
40	39	4	92	26.04	33	25.71

表2 文献[10]的算法及其改进算法的性能比较

Table 2 Performance comparison of the algorithm in [10] and its improvement algorithm

《表2》

类数	鉴别矢量数	训练样本数	文献[10]的方法		改进后的方法
类数	鉴别矢量数	训练样本数	错误识别数	计算时间/s	错误识别数	计算时间/s
25	24	4	57	4.34	15	12.03
30	29	4	73	1.04	16	1.48
35	34	4	80	1.43	17	1.59
40	39	4	93	1.59	33	1.87

表3 文献[13]的算法及其改进算法的性能比较

Table 3 Performance comparison of the algorithm in [13] and its improvement algorithm

《表3》

类数	鉴别矢量数	训练样本数	文献[13]的方法		改进后的方法
类数	鉴别矢量数	训练样本数	错误识别数	计算时间/s	错误识别数	计算时间/s
5	4	4	1	3.84	1	16.04
10	9	4	3	3.46	2	12.41
15	14	4	3	3.25	1	9.67
20	19	4	16	2.97	13	5.27
25	24	4	15	2.91	14	5.88
30	29	4	24	0.61	16	1.16
35	34	4	28	0.71	17	1.26
40	39	4	41	0.88	33	1.49

2) 该方法的最大优点在于所获得的最优鉴别矢量, 同时具有正交性和统计不相关性。不仅如此, 该方法对代数特征抽取具有普遍适用性。

3) 该方法不仅对人脸的特征提取非常有效, 而且对手写体数字识别、汉字识别以及基于内容的检索等模式识别领域的研究都有一定的意义。

展示更多