《1 前言》

1 前言

毫米波具有精度高、抗干扰能力强、能够穿透等离子体、低仰角探测性能好等优点,被广泛应用于军事、航空、航天、民用等领域。毫米波探测器的目标识别系统是探测器的重要组成部分,直接影响着探测结果。目前目标识别方法主要基于统计方法、模糊方法、决策理论、小波分析[1 ,2] 等,但它们都是通过人工观察直接确定特征分量,即人为进行特征提取和选择,实际上就是人工维数约简,难免受主观因素的影响,不能反映信号特征的本征维数,识别效果也受到了限制。

传统的线性降维方法主要有主成分分析(PCA) [3] 、独立分量分析(ICA) [4] 等,它们在不同优化准则下寻找最佳线性模型,运算简便,对线性结构有较好效果。然而现实中的高维数据大多是非线性的,若仍然采用线性方法降维效果很不理想。近年来人们提出了很多非线性降维方法,如基于核函数的方法[5 ,6] 、流形学习算法等。其中流形学习算法以其独特的优越性已成为近年来机器学习领域的研究热点,其主要算法有等规度映射法( ISOMAP) [7] 、局部线性嵌入法( LLE) [8] , Laplacian 特征映射法(Laplacian eigenmaps) [9] 、局部切空间排序法( LTSA) [10] 等。

目前流形学习算法主要应用于图像处理及计算机视觉等领域[11 ~14] ,在信号处理领域[15] 也有涉及。文章讨论了 3 mm 波段被动毫米波探测器回波信号短时傅立叶谱中低维流形的存在性,采用 Laplacian 特征映射算法寻找低维流形,通过对比输入数据和此流形的关系来判断类别,实现目标识别,达到了较理想的效果。

《2 流形学习算法》

2 流形学习算法

流形的严格数学定义[16] 为:设 M 是 Hausdorff 空间,若对任意一点 M,都有 xM 中的一个邻域 U 同胚于 m 维欧氏空间 Rm 的一个开集,则称 M 是一个 m 维流形。认知科学认为当同一事物随空间、时间等因素连续变化时,存在着稳定的低维流形结构,人的认知能力就是基于对此流形的认识。流形学习基于数据分布的内在维数来分析数据,旨在发现高维观测空间中隐藏的低维流形及低维流形的维数,实现数据降维。 Laplacian 特征映射算法是一种典型的流形学习算法,其降维的基本思想是在高维观测空间中离得很近的点投影到低维空间中的像也应该离得很近,最终求解可归结为图拉普拉斯算子的广义特征值问题。设原始数据集为 Xx1 ,x2 ,…,xn R n },具体算法步骤如下:

1)寻找与每个 xi  的欧式距离最小的 k 个点构造邻接图。或者计算与每个 xi 的欧式距离小于 ε 的点构造邻接图。

2)为每条边赋权值 Wij,若 xi   xj 相邻则 Wij =1,否则 Wij =0。或者若 xi   xj 相邻,则:

否则 Wij =0。

3)计算拉普拉斯矩阵 L =D -W 的广义特征向量,其中:

为对角矩阵。低维流形的坐标即为最小的第二个到第 d +1 个特征值所对应的特征向量。

Laplacian 特征映射算法同 ISOMAP 及 LLE 算法类似,都有两个不确定参数 kd,与图谱理论联系密切,求解的是稀疏据矩阵的广义特征值问题。与其他典型的流形学习算法相比,计算速度较快。由于它使输入空间离得很近的点到低维空间也离得很近,用于聚类分析有很大优势,且对于出现异常值的情况,具有良好的鲁棒性。

《3 毫米波信号的流形》

3 毫米波信号的流形

采样率为 2.5 K,采样时间为 160 ms 的金属目标回波仿真信号,及其短时傅立叶谱如图 1(a),(b)所示,仿真信号及其短时谱左右对称。利用 Laplacian 特征映射算法将每帧信号的短时谱降到二维空间,其结果实际上是只含有两个特征频率的时频信号,如图 1 (c)所示。图 1 (c)中坐标值是经 Laplacian 特征映射算法变换得到,没有实际物理意义;曲线上每个点是由每帧信号的短时谱降维后保留的两个特征频率定位,为了清晰表达特征频率的分布特征,只用特征频率来刻画曲线,而每个点的帧序号即时间信息则未用坐标标出,仅用标注说明。可以看出80 ms时的特征频率最低,位于曲线的下端点;0 ms,160 ms时的特征频率则在曲线的上端点; 40 ms,120 ms时的特征频率在曲线的右弧顶。降维后的数据按照信号特征频率变化排列,特征频率相同的点是重合的,而频率相近的点排列在了一起。

《图1》

图1 仿真信号实验结果

Fig.1 The experiment results of simulative signal

由以上仿真结果可知,随着信号频率在频谱上变化,在由每帧信号短时谱组成的高维观测数据空间中,有一个低维流形存在。该流形的拓扑结构反映了信号特征频率的分布,此分布反映了高维观测数据的分布特点,而忽略每帧信号短时谱时间上的先后顺序。将每帧信号短时谱的时间顺序打乱重新排列经过 Laplacian 特征映射算法降维后,得到的低维流形的拓扑结构与图 1 ( c)相同。由此可见,信号的短时谱图反映了信号频率随时间的变化,但是只要由每帧信号短时谱组成的数据集不变,无论时间顺序如何,其包含的低维流形都是相同的,只是时间排序不同。

经过高塔实验,采集到非金属目标毫米波探测器回波信号及金属目标回波信号,他们的短时傅立叶谱分别如图 2 (a),(b)所示。可以看出非金属目标的短时谱每相邻帧变化比较大,而金属目标则相对平缓,并且有一定程度的对称性。由仿真结果可知,对于金属目标的短时谱,其频域信息中应该存在比较稳定的流形结构。将它们的短时谱分别降维到二维空间后如图 2 ( c)所示,金属目标的特征频率在 11 ms 到 14.5 ms 分布在曲线顶部,在 17 ms 到 19 ms分布在曲线底部,都比较集中,其他特征频率也随着时间变化集中分布;非金属目标的特征频率则随着时间的变化分布相对散乱,如 20 ms 和4 ms 的特征频率相近,而时间上差别很大,而且整个流形的结构也和金属目标有很大差别。可见金属目标短时谱的低维流形结构和仿真信号相似,特征频率随时间呈集中分布,而非金属目标短时谱的低维流形结构和金属目标的区别较大,特征频率随时间分布散乱。

《图2》

图2 金属及非金属目标实验结果

Fig.2 The experiment results from metal target and nonmetal target

由以上实验及分析可知,毫米波探测器回波信号的短时傅立叶谱中存在低维流形,且对于不同类别的目标,其回波信号的特征频率分布不同,故而其低维流形具有相互独立的结构。此流形结构的特点反映了不同目标的特征频率的差异,可作为目标分类识别的依据。同时,金属目标信号的流形的拓朴结构也在一定程度反映了目标的尺度信息。

《4 实验与结果分析》

4 实验与结果分析

被动毫米探测器主要是探测金属目标,不关心其他类别目标。但由于非金属目标类别繁多,几乎不可能充分获取训练样本,因此探测器的目标识别系统要解决的就是模式识别中的单类分类问题。即分类器只定义金属目标类的边界,尽可能包含金属目标,而拒绝其他各种类别的非金属目标。常用的单类分类方法主要有 k 近邻(k -NN)算法、自组织映射(SOM)算法、支持矢量数据描述(SVDD)算法等。其中 SOM 算法要形成高维数据的二维分布; SVDD 算法通过核函数将样本数据映射到高维线性空间,在高维空间构造超球体来描述数据分布。而上文在寻找低维流形时已经实现了数据的降维,故这两种方法在此处都不适用。 k -NN 算法是基于边界描述的单类分类算法,基本思想是计算每个样本到待分类数据的距离,取和待分类数据最近的 k 个样本,这 k 个样本数据中哪个类别的样本占多数,则待分类数据就属于该类别。笔者选用 k -NN 算法设计分类器,其中距离测度采用欧式距离。

实验中探测器天线以对地为 60°角,波束宽度为 3°,8 π /s 的角速度对地面目标进行扫描。通过高塔实验和缩比实验获得了大量实验数据,分别取斜距或缩比实验换算后斜距为 100,50,30 m 的样本为数据集,规定金属目标为正类和非金属目标为负类。在分类器训练时,为了更好地适应样本混叠情况,将负类样本也加入到数据集中,这样两类数据的混叠程度可用正类样本和负类样本的比例近似表征。正负样本比例如表 1 所示,分别给出了 100 m (以 gp100 -#编号),50 m(以 gp50 -#编号),30 m (以 gp30 -#编号)3 种不同斜距下各 3 组数据。将样本平均分成 3 份,将其中的两份作为训练集,另外的一份作为测试集。采用 Laplacian 特征映射算法进行数据降维后,采用 k -NN 算法设计分类器,取近邻数 k =7。并与 PCA,ICA 线性降维方法及 kPCA,kICA 非线性降维方法做了比较,识别结果如表 2所示。逐渐改变正负样本比例,以测试分类器对样本混叠的适应性,分类器的识别结果和样本混叠程度的关系如图 3 所示。

《表1》

表1 不同斜距正负样本比例

Table 1 Proportion of positive and negative samples

《表2》

表2 各种算法识别效果

Table 2 The recognition results of various algorithms

                                                                                                %

由表 1 知,对于 3 种不同斜距的 9 组数据,分别有不同的混叠程度,其中 gp100 -1, gp50 -1, gp30 -1 正负样本的混叠程度最高, gp100 -3, gp50 -3,gp30 -3 正负样本的混叠程度最低。由表 2和图3可知,对于混叠程度低的数据集,正负样本差异大,数据分布相对集中,各种降维方法都取得了很好的效果。但是随着数据集的混叠程度由低到高的逐渐改变,Laplaciant 特征映射算法的识别效果下降缓慢,而另外几种算法则下降较快,对于混叠程度高的数据集 Laplacian 特征映射算法则有明显优势,整体而言 Laplacian 特征映射算法相对其他几种算法具有更好的识别效果。可见,Laplacian 特征映射算法受数据集的混叠程度影响较小,鲁棒性好。就斜距而言,50 m 时的识别效果优于另外两个。这是因为随着斜距,即天线和目标距离的改变,天线对目标扫描的线速度、波束宽度等也随之改变,回波信号的特征信息也各不相同。而在斜距为 50 m 时,回波信号的特征信息最稳定,分布相对集中。而在 100 m时信号强度相对较弱,干扰严重;在 30 m 时,信号强度则过大;所以此两种斜距下,回波信号特征信息稳定性稍差,识别效果弱于 50 m。

《图3》

图3 不同斜距下各种算法识别结果和样本混叠程度的关系

Fig.3 Target recognition rates under different samples aliasing grade at three slant ranges

《5 结语》

5 结语

针对被动毫米波探测器回波信号,利用 Laplacian 特征映射算法讨论了目标回波信号短时傅立叶谱中低维流形的存在性及其特性,选择此流形作为目标识别的特征,依据样本与此流形的关系决定其类别。实验结果表明,相对其他线性降维算法、基于核的非线性降维算法及传统被动毫米波目标识别算法,Laplacian 特征映射识别效果更好。且在数据混叠程度较大时仍有较好的结果,鲁棒性好,对被动毫米波探测有重要的工程应用价值。