《1 前言》

1 前言    

视线追踪技术发展至今,其应用形式大致可分为两类[1] :一类是作为人的控制行为的辅助,即将视线方向信息作为一种控制信号,再结合信息领域中的其他技术,使人在无接触、无手动的情况下能完成一些控制任务。另一类是作为对人自己行为的研究手段,即将记录下的当前视线方向与视线方向变化趋势信息作为依据,供研究者们对人的自身行为进行研究的研究者们。

第一种应用形式大都属于人-机交互领域,对追踪的精确度要求相对宽松,系统结构大都采用非穿戴式的,恰好符合和谐人-机交互的发展要求。 T. Hutchinson 等在 1989 年率先提出了用视线与计算机进行交互的思想[2] 。近年来,信息领域的研究者也在致力于使这一交互形式更加自然、和谐[3 ~ 9]

第二种应用形式是眼动研究的延续发展,主要完成的是获取眼睛状态信息的功能。由于要为人的行为分析提供依据,这种形式对追踪的精确度要求较高。大都采用穿戴式的系统结构,如文献[10]中就是用于测量眼动状态参数的头盔式系统。

虽然在应用形式上略有差别,但随着视线追踪技术的深入发展以及其应用领域的不断拓宽,更精准、更高效及更廉价已经成为此项技术发展的趋势。笔者的工作是在提高实时性和降低成本方面做一些尝试,并取得了初步效果。

《2 系统构成》

2 系统构成

《2.1 实验条件描述》

2.1 实验条件描述

系统旨在应用于人-机交互领域,所以采用与人无接触的非穿戴式结构,即视线追踪装置放置在距使用者一定距离的桌面上。盯视板、装置及使用者三者位置关系有一定标准,见图 1 。与 C. H. Morimoto 等的系统构成[11] 类似,采用双光源和单相机(宽视野)组合形式,但光源的分布位置不同且同时发光不交替,这样成本较低。

《图 1》

图 1 系统结构示意图

Fig.1 The eye-gaze tracking system

受试者距离相机30 cm ,距离盯视板80 cm ,面部平面与盯视板平面保持平行无偏转。获取图像分辨率为 768 × 576 个像素点。

《2.2 硬件设备说明》

2.2 硬件设备说明

视线追踪装置由两个近红外光源(850 nm)、一个普通黑白 CCD 相机、一个定焦16 mm镜头及一片中心透射波长为850 nm的滤光片组成,如图 2 所示。此外,系统还有一块图像采集卡、一台普通台式计算机和一块56 cm × 56 cm的盯视板。

《图 2》

图 2 装置示意图

Fig.2 The eye-gaze tracker

《2.3 光照环境说明》

2.3 光照环境说明

选择近红外光照环境主要考虑以下 3 点:一是近红外光为不可见光,由于光源需要对受试者的面部正面照明,选择不可见光,对人眼几乎无干扰;其次是结合滤光片使获取的图像信息只对应于指定光源,这就排除了可见光环境中不可预测的光照条件变化所带来的图像处理过程中的困难;最后从人眼光学特性来讲,在近红外波段,巩膜、虹膜和瞳孔所呈现的性质不同,巩膜反射率较高,所以呈现的亮度稍高;虹膜会大量吸收近红外光,所以呈现的亮度稍暗;瞳孔是一个大小可调的小孔,光线全部进入瞳孔最终到达视网膜,因此瞳孔呈现的亮度最暗。从图像处理的角度来讲,利用上述特性可以较容易地区分虹膜与瞳孔,这更有利于瞳孔的准确定位。

《3 视线方向的获取与分析》

3 视线方向的获取与分析    

视线方向的获取是通过数字图像处理的方法对面部图像进行分析理解,并提取出平面视线方向参数。然后由建立好的数学模型将平面信息转化为空间视角信息。

《3.1 视线方向参数的获取》

3.1 视线方向参数的获取

在图像处理阶段,利用生物特征检测技术和方法获取能表征视线方向的参数。

目前绝大多数研究者在图像处理阶段只针对单眼进行视线方向参数的提取,普遍认为一只眼睛的状态变化就可以表征整个视线方向的变化。但最近,视神经学领域的研究有了新的观点,参考双眼平均状态得到的视线方向比只参考一只眼睛更加准确 [12] 。因此,以这一观点为基础,提出了一种基于双眼状态参数的视线方向计算方法。综合利用双眼的状态参数,扩大了系统有效测量的视野范围。

3.1.1   普尔钦斑普尔钦(Purkinje)斑是光束在入射眼球的过程中,在眼球各层膜的前后面上形成的影像。较明显的有 4 个,分别为在角膜外表面形成的第一普尔钦斑、在角膜内表面形成的第二普尔钦斑,在晶状体外表面及内表面分别形成的第三、第四普尔钦斑,见图 3 。其中一般只有第一普尔钦斑能直接被观察到。

《图 3》

图 3 普尔钦斑示意图

Fig.3 The Purkinje image

利用普尔钦斑的原理:假设角膜是规则的球面,普尔钦斑作为光源在角膜球面上成的像,在理想状态下,无论球面如何转动(非移动)该斑点在球面上的绝对位置是不会发生太大变化的(亮斑位置基本不变)。因此,可以利用这个特点将其作为一个位置标准,这样在视线方向发生变化时就可以通过它来提取相应变化的参数。

由于系统采用 2 个分立光源,所以在角膜上呈现 2 个普尔钦斑,即 2 个亮点(以下简称亮点),见图 4 。这 2 个亮点的位置可以作为提取视线方向的参照,而且它们的分散程度在一定程度上表征使用者头部与相机间距离的信息。据此,选取 2 亮点的几何中心作为提取视线方向参数的参照点。

《图 4》

图 4 双普尔钦斑示意图

Fig.4 The dual Purkinje image

3.1.2   瞳孔中心定位瞳孔中心是提取视线方向参数的一个重要位置信息。采用一种快速的瞳孔中心定位算法,将相对灰度信息与绝对灰度信息相结合,不利用亮-暗瞳现象[11] 。先通过提取面部图像的纵向边缘梯度信息来大致定位瞳孔区域。就这一过程来讲,边缘提取只提取纵向边缘可以比一般的边缘提取过程速度提高一倍。然后,利用红外光照条件下瞳孔区域灰度值最低的特性来准确定位瞳孔区域。接下来,采用了一种快速简单的找对称图形中心的方法来确定瞳孔中心。此方法主要是分别从横、纵 2 个方向分别定位各自的几何中心,然后合成为整个对称图形的中心。这一方法比基于哈夫变换的方法和基于已知边缘点求重心的方法都要快很多,是整个系统快速算法的重要组成部分。经实验验证,在现有实验条件下,上述瞳孔区域和瞳孔中心快速定位的方法可使瞳孔中心定位不受光照条件变化影响,而且中心定位平均误差约为2个像素左右(在容忍范围内)。

3.1.3   视线方向参数的计算及说明当眼球发生转动时,亮点在球面上的位置基本不变,而瞳孔的位置会变化。将亮点中心指向瞳孔中心的向量作为表征视线方向的参数。图 5a 为注视点在盯视板中心时的左眼图像,图 5b 为注视点在盯视板中心时的右眼图像。

《图 5》

图 5 视线方向参数提取示意图

Fig.5 The feature of eye-gaze detection from both eyes

令:左眼亮点中心坐标为 GL ;右眼亮点中心坐标为 GR ;左眼瞳孔中心坐标为 PL ;右眼瞳孔中心坐标为 PR 。上述的坐标是在图像坐标系下的坐标。视线方向参数为

《3.2 空间视线方向(视角)的计算》

3.2 空间视线方向(视角)的计算

从运动分解的角度来讲,人的视线方向发生变化分为两种形式:一种是人的面部朝向发生变化所引起视线方向变化;另一种是头部保持不动而眼球本身相对于面部转动所引起的视线方向发生变化。这两种形式的结合,构成了人的视线方向的复杂变化。下面介绍的主要是解决眼球相对于面部发生转动时确定视线方向的问题。

3.2.1   标定实验描述为了确定空间视线方向的计算模型,实验选择了 20 位受试者,将他们按青年男、青年女、老年男、老年女分成 4 组,每组各 5 名。实验时要求受试者都保持相同的头部姿态(即面部平面与盯视板平行、不发生偏转),并保持与盯视板相同的相对位置(即双眼中心正对盯视板中心且距离为80 cm)。然后按顺序分别注视盯视板上已经标注好的各个标定点,如图 6 所示(水平方向 41 个,竖直方向 37 个),同时记录下注视时的视线方向参数 VPG

《图 6》

图 6 盯视板示意图

Fig.6 The fixation screen

3.2.2   实验的理论依据及数据分析结果盯视板上的标定点不是按距离均匀划分的,而是按视角(水平、竖直两个方向)均匀划分的,最小单位为 1° 视角。水平方向划分范围为[ - 20° + 20°] ,竖直方向划分范围为 [ - 18° + 18°] 。将向量 VPG 分解为 x (横)、y(纵)两个方向,分别为 VxVy 。然后用线性回归分析方法分别建立 Vx 与水平视角和 Vy 与竖直视角之间的数学关系。

由线性回归理论:令自变量 Vx (或 Vy )为统计变量 P ,因变量水平(或竖直)视角为统计变量 Q 。假设 P Q 之间存在线性关系[13]

其中

pi 为对应样本变量 P 的具体样本值,qi 为对应样本变量 Q 的具体样本值。

按上述分别对 20 位受试者逐个进行样本数据的获取,计算出其对应的统计值。

表征样本呈线性分布的显著程度的 F 值及表征样本分布的分散程度的 值由

计算出来,其中 

表 1 为水平方向的各组参数的均值比对表。表 2 为竖直方向的各组参数的均值比对表。其中样本组 1 为年轻男性组,样本 2 组为老年男性组,样本组 3 为老年女性组,样本组 4 为年轻女性组。

《表 1》

表 1 水平方向线性回归分析表

Table 1 Linear regression in horizon

由表 1 、表 2 可见:各组样本的参数均值之间差异不大;以 1°为单位的视角变化量与视线方向参数之间有显著的线性关系(因为所得的 F 值均远远大于标准值)。以上的分析可由图 7 形象地表示,图7a 为在水平方向上,视线方向参数 Vx 与视角θx 的线性关系图,图7b为在竖直方向上,视线方向参数 Vy 与视角θy 的线性关系图。

《表 2》

表 2 竖直方向线性回归分析表

Table 2 Linear regression in vertical

《图 7》

图 7 线形回归分析效果图

Fig.7 The linear regression analysis

《4 实验结果》

4 实验结果    

对表1 、表 2 及图 7 进行分析:一是在目前的系统分辨率条件下,通过生物特征检测方法获取的视线方向参数与空间视角之间呈现出显著的线性关系。二是在此线性关系基础上建立的计算空间视线方向的模型也具有一定的普适性,不受性别、年龄的影响,这一结果也恰好与文献[14]中所得到的一些结论吻合。

系统的一些技术指标如下:分辨率为水平方向 2.3°,竖直方向 2.1°;有效测量范围为水平[ - 20° + 20°] ,竖直为[ - 16° + 16°] ;跟踪延迟时间约为30 ms ;跟踪精确度为水平 2.3°左右,竖直 4.2°左右。

《5 结语 》

5 结语    

实验证明,系统的实时性很高,算法速度达到了50 ms以内。并且基于双眼数据综合利用的视线方向参数获取的方法使得有效测量的视角达到水平 40°、竖直 32°左右(基本到达了眼球相对于面部旋转的最大限度)。而且本系统比其他一些类似系统的成本要低得多。

还有些需改进的地方。比如系统目前的精确度还不适合用于对追踪精确度要求很严格的场合,而且有一定的适用视野范围。精确度不够高的原因主要是图像处理阶段所获得的图像分辨率不够高。适用的视野范围有限制主要是因为目前还没有结合头部姿态识别算法。

针对上述的问题,随着研究工作的进一步深入,在确保实时性不受影响的前提下,拟改用视野稍窄的机器视觉系统来提高人眼区域的分辨率,以达到提高系统精确度的目的。同时结合头部姿态识别算法,以扩大系统适用的视野范围。这样也就在一定程度上放宽了对使用者头部姿态的限制。

系统作为在人-机交互领域的一个初步应用系统,已经体现出一定的效果。在“第二届艺术与科学国际作品展”中,以该系统为核心创作的人-机互动作品———《博物馆新观赏体验smh5得到了 70 % 以上的体验者认可。