《1. 引言》

1. 引言

作为最常用的成像模态之一,超声(US)已经成为临床上不可或缺的扫查与诊断工具。由于具有相对安全、成本较低、无创、实时成像以及操作舒适等优点,超声成像尤其广泛应用于世界各地的产前筛查中[1]。几十年的临床实践证实,与其他如X射线、磁共振成像(MRI)与计算机断层扫描(CT)在内的医学成像模态相比,超声成像具有一些明显优势,如无电离辐射、携带方便、易于接近以及成本效益高等。在当前的临床实践中,医学超声已在各个专业科室得到了应用,如心电图、乳腺超声、腹部超声、经直肠超声、心血管超声以及产前诊断超声,尤其广泛应用于妇产科(OB-GYN)[2]。但是,超声也存在一些独特的挑战,如因噪声与伪影引起的低成像质量,高度依赖操作者或者诊断医生的经验,以及不同机构和厂家超声系统之间具有观测者内或者不同观测者之间的高度差异性。例如,一项使用超声图像进行产前异常检测的研究表明,不同医学机构之间的敏感度范围为27.5%~96% [3]。为了应对这些挑战,开发先进的自动化超声图像分析方法,能够使得超声诊断和(或)评价,以及图像引导的干预和(或)治疗更加客观、准确与智能。

深度学习是机器学习的一个分支,也是一种表征学习方法,能够直接处理原始数据(如超声图像),并从中自动学习到中层与高层抽象特征。它有潜力进行各种超声图像任务的自动分析,如病变/结节分类、组织分割与目标检测等。自从AlexNet [4]——一种深度卷积神经网络(CNN)与深度学习方法的代表,赢得了2012年ImageNet大规模视觉识别挑战赛(ILSVRC)之后,深度学习开始在机器学习领域引起关注。一年后,深度学习入选世界十大突破技术之一[5],这进一步稳固了其作为各种研究领域,尤其在一般图像分析(包括自然图像与医学图像)与计算机视觉(CV)任务中,作为最主要机器学习工具的地位。到目前为止,在网络结构或者模型方面,深度学习获得了快速的发展,如更深的网络结构[6]与深度产生式模型[7]。同时,深度学习也成功应用于各种研究领域,如CV[8]、自然语言处理(NLP)[9]、语音识别[10]以及医学图像分析[11–15],因此表明深度学习能够在各种自动分析任务中获得显著的性能改善,并能取得最优的性能表现。

当前,深度学习已应用在医学图像分析的各种任务中,如包括分类、分割、检测、配准、生物学测量与质量控制/评价在内的传统诊断任务,以及包括图像引导的干预与治疗在内的新兴任务[16](图1)。在这些任务中,分类、检测与分割是3个最基本的任务。它们被广泛应用于不同解剖结构(器官或身体部位)的医学超声图像分析中,如乳腺[17,18]、前列腺[19–21]、肝脏[22]、心脏[23,24]、大脑[25,26]、颈动脉[27,28]、甲状腺[29]、心血管[30,31]、胎儿[32–37]、淋巴结[38]、肾脏[39]、脊柱[40]、骨骼[41,42]、皮肤[43]、神经结构[44]、舌[45–47]等。多种深度网络应用于这些任务中。CNN是最流行的深度结构之一,在各种任务中获得了极大的成功,如图像分类[48,49]、物体检测[29,30]与目标分割[44,50]。最常用的方法是使用CNN模型从采集的原始数据(如超声图像)中进行自动学习,从而产生分层抽象表示,然后再通过softmax层或者其他线性分类器[如支持向量机(SVM)]产生一个或者多个概率图或类别标签。在这种情况下,图像标注或标签是必不可少的。这就是所谓的“监督学习”。无监督学习也能从原始数据中学习表示[8,9]。自编码机(AE)与限制玻尔兹曼机(RBM)是医学超声图像分析中最普遍使用的无监督神经网络,取得了不错的性能改善。与监督学习相比,无监督学习有一个显著的优势,它不需要耗时耗力、枯燥乏味以及昂贵的人工标注。

《图1》

图1. 深度学习在医学超声图像分析中的应用。

尽管当前的医学超声图像分析主要集中在二维(2D)超声图像处理,深度学习在三维(3D)医学超声图像分析中的应用也呈现了增长的趋势。在过去20多年中,商业公司与研究人员一起极大地促进了3D超声成像技术的发展。一张3D图像(也常称为“3D体积”)通常比2D图像包含更丰富的信息,因此使用3D体积能够获得更鲁棒的结果。更具体地说,2D超声图像具有一些不可避免的局限性:①尽管超声图像是2D的,而解剖结构是3D的,因此检测人员或者诊断医生在他/她的脑海里一定要有集成多张图像(这个过程通常可能无效且很耗时)的能力,这个能力的缺失将导致较大的差异甚至误诊。②诊断(如妇产科)与治疗(如分期与计划)决策通常需要对器官或肿瘤体积进行准确的估计,然而2D超声通过假定测量目标为一个理想的形状(如椭球体),从长、宽、高等简单的测量中进行体积测量。这可能导致准确率较低,差异性较大,且依赖操作者的经验。③一张2D超声图像呈现了身体中任意角度的一个平面,对于随访研究,这些平面很难再定位与复现[51]。为了克服2D超声的局限性,各种3D超声扫查、重建与显示技术被开发,这给3D超声图像分析提供了很好的基础。此外,3D超声成像技术的发展也支持了当前的深度学习在医学超声图像分析中的应用[23,52]。

到目前为止,已有一些有关深度学习应用于医学图像分析的综述,它们要么涉及整个医学图像分析领域[11–15],要么只关注单个成像模态,如磁共振成像(MRI)[53]与显微成像[54]。然而,除了极少数涉及特定的任务,如乳腺超声图像分割[55]以外,很少有文献总结深度学习在医学超声图像分析中的应用。通过指定关键词(如“超声”或“超声检查”或“超声成像”与“卷积”或“深度学习”),在主要的数据库(如PubMed与谷歌学术数据库)和一些重要的会议(如MICCAI、SPIE、ISBI与EMBC)中检索了2018年2月1日之前的这个领域中的所有相关文献。为了筛查所有检索到的文献,通过详细浏览每一篇文献的摘要,保留相关的文献,最后得到近100篇文献,汇总于表2与Appendix A中的Table S1。本文旨在全面而系统地总结深度学习在医学超声图像分析中的应用,主要集中在典型的任务及其在不同解剖结构中的应用。本文的其余部分安排如下:第2节简要介绍医学超声图像分析中常用深度学习方法的基本理论与结构;第3节详细讨论深度学习在医学超声图像分析中的应用,主要集中在包括分类、检测与分割在内的传统任务;最后,第4节指明深度学习在医学超声图像分析应用中的未来趋势与发展方向。

《图2》

图2. 深度学习在医学超声图像分析中的应用统计。(a)解剖结构;(b)出版年份;(c)网络结构。DBN:深度置信网络;FCN:全卷积网络;Multiple:多种网络结构的组合;RNN:循环神经网络;AE:自编码机[包括它的变体:稀疏自编码机(SAE)和堆叠去噪自编码机];RBM:限制玻尔兹曼机。

《2. 常用深度学习结构》

2. 常用深度学习结构

本节主要介绍医学超声图像分析中普遍使用的深度学习结构。作为机器学习的一个分支,深度学习实质上是计算样本数据的分层特征或表示形成,其中高层次的抽象特征是通过将它们与低级特征相结合来定义的[9]。基于所讨论的深度学习结构与技术(如分类、分割或检测),本领域最常用的深度学习结构可分为3大类:①监督深度网络或深度辨别式模型;②无监督深度网络或深度产生式模型,以及③混合深度网络。当前医学超声图像分析应用中最基本的模型或结构是CNN、循环神经网络(RNN)、RBM/深度置信网络(DBM)、AE,以及这些深度学习结构的变种,如图3所示。上述第三类中的“Multiple”指的是要么由产生式和辨别式模型成分组成,要么充分利用它们所生成的模型,因此这一类在下文中不再特别讨论。相反,本节将继续介绍医学超声图像分析中普遍存在的训练深度模型所遇到的挑战及其应对策略。为了方便起见,2.4节还总结了一些常用的深度学习框架。

《图3》

图3. 5种典型的神经网络结构,主要分为两大类:(1)监督深度学习模型,包括(a)CNN和(b)RNN;(2)无监督深度学习模型,包括(c)AE/SAE,(d)RBM,以及(e)DBM。

《2.1.  有监督深度学习模型》

2.1.  有监督深度学习模型

当前,监督深度学习模型广泛应用于医学图像分析中解剖结构的分类、分割与检测。在这些任务中,CNN与RNN是两个最常用的结构。下面简要介绍一下这两个深度模型。

2.1.1.  卷积神经网络

CNN是一种辨别式深度结构,包括一些模块,每一个模块一般由一个卷积层与一个池化层构成。如果有必要的话,后面还有其他层,如校正线性单元(ReLu)与批量标准化(BN)。网络的最后部分一般是全连接层,这样就构成了一个标准的多层神经网络。就结构而言,这些模块通常是一块一块堆叠起来,形成一个深度模型,这样能够充分利用输入的2D或3D图像的空间与配置信息[8]

通过对输入图像进行卷积操作,卷积层共享所有的权重。事实上,卷积层的作用就是检测输入图像/特征图谱(如医学超声图像)中不同位置的局部特征,得到一组k个核的权重以及偏差,从而产生一个新的特征图谱 。在数学上,每个卷积层的卷积过程表达为:

式中,σ(·)是非线性激活函数; 是偏置参数;*表示卷积操作。

在一般的CNN模型中,为了克服卷积过程的减少,卷积层中超参数的确定非常关键。这主要涉及3个超参数:深度、步长(stride)与填充(padding)。输出体积的深度对应滤波器的数量,每一个滤波器学习在输入中寻找局部不同。指定步长能够控制滤波器如何在输入体积中进行卷积操作。在实践中,更小的步长总是工作得更好,这是因为在网络的前面一些层(即那些更靠近输入数据的层)中小的步长能够产生大的激活图,能够产生更好的性能[56]。在一个拥有许多卷积层的CNN中,由于每一次卷积操作都会丢失一些区域,尤其是边界,因此输出维度的减少可能出现问题。在输入体积的边界周围进行填充(一般是0填充)是消除卷积操作过程中维度降低影响的一种最常用的策略。填充最大的好处之一是它使得设计更深的网络成为了可能。此外,填充防止了输入体积中边界信息的丢失,所以它可以有效改善整个模型的性能。因此,在有限的计算成本与时间成本的条件下,在实践中对特定的任务,有必要在多个因子(即滤波器数量、滤波器大小、步长、网络深度等)之间进行平衡。

卷积层的输出被随后的池化层进行再采样,以降低下面层的数据率。与适当选择的池化方案一起,卷积层中共享的权重能使得CNN具有某些不变性,如平移不变性。这也能大大降低参数的数量,如权重的数量不再完全取决于输入图像的大小。值得注意的是,全连接层一般放在网络中卷积流的后面,通常没有共享权重。在标准的CNN模型中,通过网络最后一层的softmax函数产生激活来获得关于类标签的分布。然而,有时也使用一些传统的机器学习方法,如投票策略[57]或线性SVM[58]

随着流行度以及实践性增加,许多经典的以及基于CNN的深度学习结构被开发并应用于(医学)图像分析、自然语言处理以及语音识别中。如AlexNet(或适用于Caffe深度学习框架的CaffeNet)、LeNet、faster R-CNN、GoogLeNet、ResNet以及VGGNet。这些网络结构在不同性能指标(如准确率、推理时间、内存以及参数使用)上的详细比较请参考文献[59]

2.1.2.  循环神经网络

在实践中,RNN一般作为一种监督深度学习网络应用于医学超声图像分析的各种任务中[21,60]。在RNN中,网络的深度可以与输入样本数据序列(如医学超声视频序列)的长度一样长。一个普通的RNN包含一个潜藏或隐藏状态, ,它是时间t时由网络输入 与前一个状态进行非线性映射得到的输出,可以表示为:

式中,权重WR在时间上是共享的;b是偏差参数。

由于结构特性,RNN在建模序列数据(如医学超声视频序列)时具有先天的优势。但是,到目前为止,RNN都没有广泛应用于各种涉及序列建模的研究任务中。部分原因是很难训练RNN来捕捉长期依赖性,这种情况下,RNN通常引发梯度爆炸或梯度消失,这个问题早在20世纪90年代就被发现了[61]。因此,一些特别的记忆单元得到开发,最早的以及最常用的是长短时记忆细胞(LSTM)[62]及其简化门控循环单元[63]。到目前为止,RNN主要应用于语音或文本识别领域,在医学图像分析中应用较少,并更少地应用于医学超声图像分析。

RNN也可以作为一种无监督的深度模型。在无监督的模型中,RNN通常使用以前的数据样本来预测随后的数据序列。它不需要额外的分类信息(如目标类别标签)来帮助学习,而在监督学习模型中类别序列标签是最基本的。

《2.2.  无监督深度学习模型》

2.2.  无监督深度学习模型

无监督学习意味着任务特定的监督信息(如标注的类别标签)在学习过程中是不需要的。在实践应用中,利用各种无监督的深度学习模型,通过网络采样生成数据样本,如AE、RBM/DBN与广义去噪AE[64]。从这个角度来看,无监督深度模型通常作为产生式模型应用于各种任务中。下面将简要介绍医学超声图像分析中最常用的3种基本无监督深度学习模型。

2.2.1.  自编码机(AE)及其变体

简单来说,AE是一种没有涉及目标类别标签使用的非线性特征提取方法。这个方法通常用于表示学习或者在隐藏层对原始输入数据(如以输入向量的形式)进行有效的编码[9]。因此,提取的特征集中在保存与更好地表示信息上,而不是在执行特定的任务(如分类)上,尽管这两个目标并不总是互斥的。

AE通常是一个简单的网络,包含至少3层:一个输入层x,表示原始数据或输入特征向量(如图像中的块/像素或者语音中的频谱);一个或多个隐藏层h,表示变换特征;以及一个输出层y,通过非线性函数来激活隐藏层从而匹配输入层x来完成重构:

到目前为止,已开发出许多AE的变体,如稀疏自编码机(SAE)[64]与去噪自编码机(DAE)及其堆叠版本[65]。在SAE模型中,采用正则化与稀疏化限制来增强网络训练中的求解过程,而“去噪”是防止网络学习无效解的一种解决方案。通常将AE层放置在彼此的顶部而生成这些模型的堆叠版本。

2.2.2.  限制玻尔兹曼机与深度置信网络

RBM是具有两层结构的马尔可夫随机场的一种特殊类型[66]。就结构而言,它是一种单层无向图模型,包含一个可见层与一个隐藏层,它们之间是对称连接的,同一层中的单元之间是没有连接的。因此,RBM本质上是一种AE[67]。在实践应用中,RBM很少单独使用,一般都是一个一个堆叠起来生成更深的网络,这就成了通常的单概率模型,叫做DBM。

一个DBM包含一个可见层与若干隐藏层,最上面的两层构成一个无向二部图(如RBM),下面的层构成一个具有方向并上下连接的sigmoid置信网络。因为可以使用无标签的数据进行逐层预训练(实践中一般使用少量的标签数据),DBM具有很好的泛化能力。由于DBM使用无监督的方式进行训练,对于一个特定的任务,在实践中进行最终的微调是有必要的,通常实现监督优化的一个选项是通过在网络的最后面层增加一个线性分类器(如SVM)。对于无监督的学习模型,在最终的表示学习之后往往伴随一个微调步骤,这也是解决特定任务(如图像分类、目标检测或者组织分割)的一个最常用的实践方案。

《2.3.  模型训练的困难及其应对策略》

2.3.  模型训练的困难及其应对策略

深度学习的巨大成功是源于它需要大量带有标签的训练样本才能获得优异的学习性能。然而,在当前的医学超声图像分析中,这种要求是很难满足的,这是因为专家标注是昂贵的,而且一些疾病(如病变或结节)的数据很稀有[68]。因此,在医学超声图像分析中,怎样使用有限的训练样本来训练深度模型成为了一个公开的挑战。使用有限训练样本时的最普遍的一个问题是容易产生模型过拟合。为了解决模型过拟合的问题,有两个主要的途径选择:模型优化与迁移学习。对于模型优化来说,近年来提出了很多富有成效的策略,如合理设计的初始化策略、随机梯度下降及其变体(如动量与Adagrad [69])、有效的激活函数,以及其他有力的中间正则化策略(如批量标准化),具体如下[11]

(1)合理设计的初始化/动量策略[70],包含合理随机初始化的利用,以及一种缓慢增加训练模型迭代过程中动量参数的特别方案。

(2)有效的激活函数,如ReLu [71,72],一般在卷积层后面执行非线性操作。此外,Maxout也是一种激活函数[73],尤其适用于没有dropout的训练。

(3)Dropout [74]在每次训练迭代中以一定比率(如0.5)随机地使网络中的单元/神经元失活。

(4)批量标准化[75],对训练中每个小批量数据进行标准化操作,并且在每次训练迭代中通过标准化参数反向传播梯度。

(5)堆叠/去噪[65],主要用于AE,以便使模型变得更深,并且从损坏的输入中重建出原始“干净的”数据。

另一个关键的解决方案是迁移学习,也被广泛采用并显示了优异的性能改善能力,而且不需要大样本训练数据。这种方法避免了特定应用领域中昂贵的数据标注工作。根据Pan等[76]的研究,迁移学习可以分为三大类:归纳式迁移学习,即无论目标域与源域是否相同,目标与源任务是不同的;直推式迁移学习,即目标任务与源任务相同,而目标域与源域是不同的;以及无监督迁移学习,即归纳式迁移学习类似,只是目标任务与源任务不同,但与源任务相关。基于迁移内容,上述3类迁移学习配置所采用的方法可以分为4种情况:实例法、表示法、参数迁移法以及关系知识法。但是,本文最关心的是如何通过从其他领域(容易收集大样本训练数据的领域,如CV、语音与文本领域)迁移知识到医学超声领域来改善性能。这个过程涉及两个主要的策略:①使用预训练网络作为特征提取器(即从头开始学习特征);以及②在医学超声图像或视频序列上微调预训练的网络,这种方法广泛应用于当前的医学超声图像分析中。在一些特定的任务中,这两种策略都获得了良好的性能[77,78]。

一些其他的策略也需要注意,如数据预处理与数据增强。

《2.4.  常用深度学习框架》

2.4.  常用深度学习框架

随着相关硬件(如GPU)与软件(如开源软件库)的快速发展,深度学习技术在全世界的各种研究任务中流行起来。下面列出了5个最流行的开源深度学习框架(或软件库):

(1)Caffe [79]: https://github.com/BVLC/caffe;

(2)Tensorflow [80]: https://github.com/tensorflow/tensorflow;

(3)Theano [81]: https://github.com/Theano/Theano;

(4)Torch7/PyTorch [82]: https://github.com/torch/torch7 或https://github.com/pytorch/pytorch;

(5)MXNet [83]: https://github.com/apache/incubatormxnet。

大部分框架提供了多种接口,如C/C++、Matlab与Python。此外,一些软件包还提供基于这些框架写的更高级的软件库,如Keras 。关于这些开源框架的优缺点,请参考文献[84]。在实践应用中,研究人员可以根据实际需要以及个人喜好来选择任何框架,或者使用他们自己写的框架。

https://github.com/fchollet/keras.

《3. 深度学习在医学超声图像分析中的应用》

3. 深度学习在医学超声图像分析中的应用

正如前面提到的,当前深度学习技术在医学超声图像分析中的应用主要涉及三大任务:各种解剖结构(如乳腺、前列腺、肝脏、心脏与胎儿)的分类、检测与分割。本节将分别讨论每项任务在不同解剖结构中的应用。此外,在临床实践中,3D超声在改善超声成像诊断方面提供了一个有前景的方向,将作为一个独立的部分进行详细的讨论。

《3.1.  分类》

3.1.  分类

图像分类是诊断放射学中的一项基本认知任务,它是通过识别某些解剖或病理特征来实现的,这些特征能够区分某个解剖结构或组织与其他的解剖结构或组织。尽管当前计算机远远没有达到复现医学图像解释所需要的整个推理链,感兴趣目标(如肿瘤/病变、结节、胎儿)的自动分类是计算机辅助诊断系统中的一个研究热门。传统的机器学习方法通常利用从超声图像中提取的各种手工特征,并与多路线性分类器(如SVM)相结合来实现特定的分类任务。然而,这些方法容易受到图像失真的影响,例如由于内部或外部环境,或者成像过程中环境的影响而导致的形变。由于直接从原始数据(或者图像)中学习中层或高层抽象特征,因此深度神经网络(DNN)有一些明显的优势。此外,DN能够直接为每张图像输出一个个体预测标签,从而实现感兴趣目标的分类。对于不同的解剖应用领域,存在一些独特的挑战,下面将分别讨论。

3.1.1.  肿瘤或病变

根据疾病控制与预防中心的最新统计数据 ,乳腺癌已成为世界各地女性中最常见的癌症和第二大癌症死亡原因。尽管乳房X线照相术仍然是临床上扫查或诊断的主要成像模态,但是超声也成为了乳腺癌诊断的重要筛查工具。尤其,基于超声的计算机辅助诊断(CADx)系统在肿瘤疾病分类中的应用给放射医生或诊断学家提供了有效的决策支持和第二个工具选择。在传统的CADx系统中,特征提取是包括特征选择与分类在内的随后步骤的基础,它们集成在一起能够实现肿瘤或肿块病变的最终分类。乳腺或肿块病变CADx系统中的传统机器学习方法经常使用手工的和启发式的病灶提取的特征[85]。相反,深度学习能够自动地直接从图像中学习特征。

https://www.cdc.gov/cancer/dcpc/data/women.htm.

早在2012年,Jamieson等[86]进行了一项有关深度学习用于乳腺肿瘤或肿块病变分类任务的初步研究。如图4(a)所示,自适应去卷积网络(ADN)是一种无监督和产生式的分层深度模型,用于从诊断乳腺肿瘤或肿块病变超声图像中学习图像特征以及生成特征图谱,并进行了包括建立图像描述符和空间金字塔匹配(SPM)算法在内的后处理步骤。因为模型是以无监督的方式训练的,所以学习到的高层次特征(如SPM核输出)作为输入来训练监督的分类器(如线性SVM),从而实现恶性与良性乳腺肿块之间的二值分类。实验结果表明其性能已达到传统的采用人工设计特征的CADx系统的水平。在这一成功之后,许多类似的研究将深度学习方法应用于乳腺肿瘤诊断中。Liu等[87]与Shi等[19]都在两个小的超声数据集上使用了监督深度学习算法,称为深度多项式网络(DPN),或者它的堆叠版,即堆叠深度多项式网络(S-DPN)。在预处理[即基于剪切波变换的纹理特征提取和感兴趣区域(ROI)提取]和SVM分类器(或多核学习)的帮助下,获得了92.4%的最高分类准确率,优于无监督深度学习算法(如堆叠AE和DVM)。当使用深度学习从块水平的超声图像中学习图像表示,局部块不能提供丰富的上下文信息时,这种方法是一个很好的选择方案。此外,堆叠去噪自编码机(SDAE)[88]、点阵门控玻尔兹曼机(PGBM)和限制玻尔兹曼机的组合(RBM)[89],以及GoogLeNet CNN [90]也应用于乳腺超声或剪切波弹性成像来辅助乳腺癌诊断,它们都取得比人类专家更优的性能表现。在Antropova等[91]的研究中,一种融合预训练CNN提取的中低级特征与传统CADx系统获得的手工设计特征的方法应用于3个临床成像模态数据集,并证实了显著的性能改善。

《图4》

图4. 肿瘤超声图像分类流程图:(a)无监督深度学习和(b)有监督深度学习。在超声图像输入到深度神经网络之前,通常会先进行预处理和数据增强(如提取ROI、图像裁剪等)。尽管监督深度学习中也可以使用后处理,但是通常很少这么做,反而会将特征图谱直接输入到softmax分类器进行分类。

另一种常见的肿瘤是肝癌,已成为全世界第六大癌症和第三大癌症死亡原因[92]。早期精准诊断对于通过提供最佳干预来提高生存率非常重要。活检仍然是当前肝癌诊断的金标准,并且严重依赖传统CADx方法。然而,活检是侵入性的和不舒适的,很容易造成其他的不良影响。因此,基于超声的诊断技术成为了肝癌检测、诊断、干预和治疗的最重要的无创方法之一。Wu等[22]将一个3层DBN应用于从对比增强超声(CEUS)视频序列中提取的时间强度曲线(TIC)中,实现了局灶性肝脏病变的良恶性分类。他们获得了86.36%的最高准确率,优于传统的机器学习方法[如线性辨别方法(LDA)、k近邻(k-NN)、SVM和反向传播网络(BPN)]。为了降低使用基于TIC的特征提取方法的计算复杂度,Guo等[93]采用深度典型相关分析[DCCA,典型相关分析(CCA)的一种变体]与多核学习分类器(MKL,一种典型的多视角学习方法)相结合的方法来区分良恶性肝癌。实验结果表明,充分利用这两种方法可以获得较高的分类精度(90.41%),且有很低的计算复杂度。此外,迁移学习策略也常应用于肝癌超声图像诊断中[58,94]。

3.1.2.  结节

甲状腺结节已成为全世界成人中最常见的结节性病变之一。当前的甲状腺结节诊断主要依靠非手术[主要是细针穿刺(FNA)活检]和手术(即切除活检)方法。然而,这两种方法对于大规模筛查来说是很耗时耗力的,而且可能使患者焦虑以及增加成本。随着超声技术的快速发展,超声由于其实时性与无创特性而成为了甲状腺结节诊断和预后的一种可选择工具。为了降低对操作者依赖和提高诊断性能,基于超声的CADx系统易被开发出来用于检测与分类甲状腺结节。Ma等[95]在一个融合的框架里集成了两个预训练的CNN用于甲状腺结节诊断:一个是更适合学习低级特征的浅层网络,另一个是擅于学习高级抽象特征的深层网络。更具体地,两个CNN在一个大的甲状腺结节超声图像数据集上分别进行训练,然后将得到的两个特征图谱进行融合,并输入到softmax层来诊断甲状腺结节。集成CNN学习到的高级特征与传统手工设计的低层特征也是一个可选择方案,这已经在Liu等[96,97]的研究中得到了证实。为了克服集成特征向量中的冗余与不相关问题,并避免过拟合,有必要挑选特征子集。结果表明,该方法比仅使用传统特征的方法提高了14%的精度。此外,对于特定的任务来说,有效的预处理和数据增强策略被证实可以提高诊断性能[48]

3.1.3.  胎儿与新生儿

在产前超声诊断中,胎儿生物学测量是一项必不可少的检查,包括腹围(AC)的估计等。然而,由于对比度低且不均匀,以及不规则的形状,对AC的精确测量比其他参数更加困难。在临床检查与诊断中,不正确的胎儿AC测量可能导致胎儿体重估计不准确,进一步增加误诊的风险[98]。因此,胎儿超声图像的质量控制非常重要。最近,Wu等[99]提出了一个胎儿超声图像质量评价方案,主要包含两步:①一个CNN用于定位ROI;②基于ROI,另一个CNN用于分类胎儿腹部标准面。为了改善性能,Wu等采用了一些诸如局部相位分析与图像裁剪的数据增强策略。类似地,Jang等[100]利用一个特别设计的CNN结构从超声图像中将图像块分类为关键解剖结构,然后基于可接受的胎儿腹部平面(即标准平面),再通过基于霍夫变换的椭圆形检测方法对胎儿AC进行估计。Gao等[101]通过胎儿解剖结构的多标签分类问题探索了从大规模自然图像到小规模超声图像学习特征的迁移性。结果表明,迁移的CNN优于那些直接从小规模超声数据学习特征的网络(91.5% vs.87.5%)。

胎儿心脏的定位与心脏平面的分类对于先天性心脏病的识别具有重要意义。由于胎儿心脏很小,在临床实践中这些任务是很有挑战性的。为了解决这些问题,Sundaresan等[102]提出了将其作为语义分割问题的解决方案。更具体地,使用一个全卷积神经网络(FCN)在超声图像帧中分割出胎儿心脏平面,一步实现心脏的检测与心脏平面的分类。一些后处理步骤也被用于解决预测图像可能包括不同非背景区域多标签的问题。此外,Perrin等[103]在来自5个不同儿科人群的超声心动图像数据集上,直接训练CNN来识别先天性心脏病。在一个特定的胎儿标准面识别任务中,带有全局平均池化(GAP)策略的深层CNN,在有限的训练数据上获得了显著的性能改善[104,105]。

《3.2.  检测》

3.2.  检测

在超声图像分析中,超声图像或视频的感兴趣目标(如肿瘤、病变与结节)检测是极其重要的。尤其,肿瘤或病变的检测可以为物体分割和良恶性肿瘤的分类提供有力的支持。解剖对象(如胎儿标准面、器官、组织或者特征点)定位也被视为分割任务或基于图像的干预与治疗的临床诊断流程的前提条件。

3.2.1.  肿瘤或病变

肿瘤/病变的检测或定位在治疗计划与干预的临床工作流程中是至关重要的,也是最耗时耗力的任务之一。不同解剖结构的病变检测是有一些明显差异的。这项任务通常是在全图像空间上定位与识别小的病变。最近,Azizi等[20,106,107]将使用DBN从时间增强超声图像中提取的高级抽象特征与从数字病理图像中提取的组织结构相结合,成功实现了前列腺癌的检测与分级。为了做一个全面的比较,Yap等[108]对比了3种不同的深度学习方法:基于块的LeNet、U-net以及迁移预训练的FCN-AlexNet,在两个不同超声系统获得两个超声图像数据集上进行了乳腺癌检测。在两个乳腺超声图像数据集上的实验表明,这些深度学习方法都获得了性能提高,但是没有哪个深度学习模型在真阳性率(TPF)、每张图像的假阳性(FP)与F测量等指标上都获得最好的性能。类似地,Cao等[109]综合比较了4种最优的基于CNN的目标检测深度模型:Fast R-CNN [110]、Faster R-CNN [111]、You Only Look Once(YOLO)[112]与单点多框检测器(SSD)[113]用于乳腺癌检测,结果表明SSD在精度与召回率方面都取得了最佳性能。

3.2.2.  胎儿

作为常规产科检查,胎儿超声筛查在确认胎儿存活率、准确确定胎龄与发现影响产前护理的畸形方面发挥着至关重要的作用。在胎儿超声诊断的工作流程中,标准面的获取是前提步骤,对随后的生物学测量和诊断至关重要[114]。除了使用传统的机器学习方法检测胎儿超声标准面[115,116],现在使用深度学习方法检测胎儿标准面的应用也越来越多。Baumgartner等[117,118]和Chen等[78,119]分别通过迁移的深度模型,实现了2D超声图像中13个胎儿标准面(如肾脏、大脑、腹部、脊柱、股骨与心脏切面)和胎儿腹部(或者面部与心脏四腔心切面)标准面的检测。为了利用时空信息,一个基于RNN的深度模型也被迁移到超声视频中多胎儿标准面(如腹部、面部水平与心脏四腔心平面)的自动化检测[60]。此外,Chen等[120]提出了基于卷积与RNN的混合通用框架,用于超声视频中不同标准面的检测。

3.2.3.  心脏

准确识别超声心动图中心脏运动周期相位[舒张末期(ED)和收缩末期(ES)是估计一些心脏参数(如中风量、射血分数与最大舒张容积)的必要前提条件。Dezaki等[121]提出了一种能自动识别心脏运动周期相位的深度残差循环神经网络(RRN)。RRN由残差神经网络(ResNet)、两个LSTM单元块与一个全连接层构成,因此结合了残差神经网络和循环神经网络的优点,前者能够处理当网络变深而出现的梯度消失或爆炸问题,而后者能够建模序列图像帧之间的时间关系。类似地,Sofka等[122]提出了一种全卷积回归网络,用于心脏胸骨旁长轴切面中测量点的检测,该网络包含一个用于回归测量点位置的FCN和优化估计点位置的LSTM单元。注意,强化学习也与深度学习结合用于心脏超声图像的解剖关键点检测[123]

《3.3.  分割》

3.3.  分割

解剖结构与病变的分割是心脏或脑分析中与体积和形状有关的临床参数的量化分析的前提条件,在病变(如乳腺、前列腺、甲状腺结节与肺结节)的检测与分类,以及生成ROI以便在CADx中进行后续分析方面也起着至关重要的作用。由于超声图像中目标与背景之间的对比度较低,对大部分解剖结构,尤其病变(结节)超声图像进行准确的分割,仍然是一个很有挑战性的任务。此外,众所周知,手动分割方法是非常耗时耗力的,且存在很大的个体差异。因此,很有必要开发更先进的自动分割方法来解决这些问题。使用深度学习进行解剖结构分割的一些结果如图5所示[21,38,44,46,50,57,124–126]。

《图5》

图5. 使用深度学习进行常见解剖结构分割的分割结果示例。(a)前列腺[21];(b)左心室[124];(c)羊水与胎儿身体[50];(d)甲状腺结节[125];(e)中神经结构[44];(f)淋巴结[38];(g)子宫内膜[126];(h)中脑[57];(i)舌轮廓[46]。所有这些结果都表明了与人类放射科医生相当的分割性能。不同颜色的线或点表示相应的分割轮廓或区域。

3.3.1.  非刚性器官

超声心动图因其成本较低,可用性与可移植性强,而成为可视化与诊断心脏左心室(LV)最常用的成像模态之一。为了诊断心脏病,心脏病学家必须对心脏进行定量功能分析,这通常需要对收缩末期与舒张末期的LV进行准确的分割。显然,LV的手动分割非常繁琐、耗时且具有主观性,而自动LV分割系统可能有潜力解决这些问题。然而,由于显著的外形与形状差异、低信噪比、阴影以及边缘不完整,全自动分割LV仍然是一项具有挑战性的任务。为了解决这些问题,各种传统机器学习方法,如主动轮廓[127]和可变形模板[128],已被广泛用于LV的自动化分割,这通常需要使用与LV形状和外形有关的先验知识。最近,基于深度学习的方法也被频繁采用。Carneiro等[129–134]利用能够从原始超声图像中学习高级特征的DNN来自动地分割LV。为了提高性能,还采用了一些其他的策略,如高效搜索方法、粒子滤波器、在线协同训练方法以及多重动态模型。

典型的非刚性分割方法通常把分割问题分为两步:①刚性检测与②非刚性分割或轮廓描绘。第一步非常重要,因为它可以减少搜索时间以及降低训练复杂度。为了降低刚性检测中的训练与推理复杂度,同时保持较高的分割精度,Nascimento和Carneiro[124,135]利用稀疏流形学习方法结合DBN来进行非刚性物体的分割。实验结果表明,在刚性检测中使用稀疏流形学习与DBN的结合取得了与当前最优结果一样精确的性能,但是具有更低的训练与搜索复杂度。不像典型的非刚性分割方法,Nascimento和Carneiro[136]通过显式轮廓的稀疏低维流形映射直接进行非刚性分割,但是泛化能力有限。尽管大部分研究表明,使用深度学习能够取得比传统机器学习方法更好的性能,但是最近的一项研究[137]表明,在2D超声心动图像的LV分割中,手工制作特征优于CNN,且训练中的计算成本更低。一个合理的解释是,用于手工设计特征的监督下降(SDM)[138]回归方法在迭代优化估计的LV轮廓方面更加灵活。

与成人LV分割相比,胎儿LV分割更具有挑战性,这是因为胎儿超声心动图像序列存在不均匀性、伪影、对比度差和被试间差异太大等特性;此外,因为胎儿在子宫内随机运动,LV与左心房(LA)通常是连接在一起的。为了解决这些问题,Yu等[139]提出了一种基于多尺度信息与微调的动态CNN方法,用于胎儿LV分割。该动态CNN对每一个超声心动图像序列的第一帧和余下帧分别进行深微调和浅微调,以便适应每个胎儿。此外,还采用了匹配的方法来分离LV与LA之间的连接区域。实验表明,与固定的CNN相比,动态CNN在平均Dice系数上取得了从88.35%到94.5%的显著性能提高。

3.3.2.  刚性器官

在医学超声图像中,许多解剖结构/对象(如前列腺、乳腺、肾脏、胎儿等)的边界不完整是一个普遍问题,这对这些结构的自动分割提出了很大的挑战。目前,有两种主要的方法来解决这个问题:①自下而上法,在监督下将每个像素分为前景(目标)或者背景;②自上而下法,利用先验形状信息来引导分割。通过端到端的、全监督学习的方式对图像中的每一个像素进行分类,许多研究实现了对不同解剖结构(如胎儿身体与羊水[50]、淋巴结[38]以及骨骼[140])进行像素级分割的任务。对于特定的任务,这些研究中提出的深度学习方法在性能与速度方面都优于最先进的方法。

自下而上法的一个显著优势是,它能为图像中每个像素提供预测;但是,由于缺少先验形状信息,它可能无法处理边界信息丢失的问题。相比之下,自上而下法可以通过对形状建模为分割任务提供强有力的形状引导,尽管合适的形状建模通常是困难的。为了同时实现关键点描述符学习与形状推理,Yang等[21]将边界完整性表述为一个序列问题,即动态建模形状。为了同时利用自下而上法与自上而下法,Ravishankar等[39]利用先前从形状正则网络中学习到的形状,来优化FCN分割网络获得的预测分割结果。在一个肾脏超声数据上的实验结果表明,先验形状信息的利用可以使肾脏分割的性能提高大约5%。此外,Wu等[141]将FCN网络核植入到自动上下文模型[142]以便利用局部上下文信息,从而解决了严重边界不完整的问题,且显著提高了分割精度。Anas等[143]在基于残差网络(ResNet)的深度框架优化中,使用指数加权图来提高局部预测。

解决分割任务的另一种方法是将分割问题表述为块级分类问题,正如文献[125]所述。该方法可以显著降低计算成本与内存需求。

《3.4.  3D 超声图像分析》

3.4.  3D 超声图像分析

由于3D深度学习的应用困难,目前应用于医学超声图像分析的深度学习方法大多应用在2D图像,尽管输入可能是3D的。事实上,由于以下限制,3D深度学习仍然是一项具有挑战性的任务:①在大体积数据上训练一个深度网络,对于实际的临床应用来说,计算成本可能太高(如内存与计算要求显著增加);②以3D图像块作为输入的深度网络需要更多的训练样本,这是由于3D网络包含的参数与2D网络相比呈指数级增加。在有限训练数据的情况下,这可能显著增加过拟合的风险[144]。相反,由于很难生成与共享病变或疾病图像,医学超声图像分析领域常常只能收集到有限的训练样本(即使在使用了数据增强后,样本数通常也只有几百或者几千份)。然而,在医学超声图像分析领域,越来越多的人试图解决这些具有挑战性的3D深度学习任务。

在常规妇科超声检查和绝经后出血的女性子宫内膜癌筛查中,通常采用厚度测量法进行子宫内膜的评估。Singhal等[126]提出了一种基于FCN的两步算法,实现子宫内膜厚度的全自动测量。首先,提出了一种混合变分曲线-传播模型,叫做深度学习蛇形(DLS)分割模型,用于从3D经阴道超声体积数据中检测和分割子宫内膜。该模型将深度学习的子宫内膜概率图集成到分割能量函数中,而该概率图是在矢状切面上通过基于U-net的子宫内膜定位来预测构建的。分割后,以分割掩膜中两个接触面(基底层)之间的最大距离作为测量的厚度。

为了解决产科和慢性疼痛治疗中,超声引导的硬膜外针注射时针状目标的自动定位问题,Pesteie等[145]提出了一种卷积网络结构以及特征增强技术。该方法包含两步:①利用局部有向Hadamard(LDH)特征与前向反馈神经网络从3D超声体积数据中分类平面;②在识别的目标平面中,通过CNN分类图像中的每个像素而实现目标定位。

Nie等[146]提出了一种从复杂3D超声数据中自动检测中矢状面的方法。为了避免不必要的大规模搜索以及相应的巨大计算负载,他们巧妙地将矢状面检测问题转化为对称面与轴搜索问题。更具体地说,该方法包含3步:①根据文献[147],建立一个DBN,从3D超声数据的中间切面中检测完全包含胎儿头部的图像块;②采用增强的圆检测方法,确定胎儿头部在图像块中的位置与大小;③最后,通过一个模型以及前两步确定的胎儿头部位置与大小等先验知识,确定矢状面。

应该指出的是,这3个方法实际上都是基于2D深度学习的逐片处理(slice-by-slice)方法,尽管它们都可以用于3D超声体积数据。这样做的优点是高速、低内存消耗,并且能够直接或通过迁移学习利用预训练的网络。然而,缺点是无法利用图像平面正交方向的结构上下文信息。为了克服这些缺点,Milletari等[57]提出了一种称为霍夫-CNN(Hough-CNN)的逐块多图谱方法,用于多个深部脑区域的检测与分割。该方法采用了类似于早期研究中提出的霍夫投票策略,区别在于结构特定的特征是通过CNN而不是SAE获得的。为了充分利用3D超声体积数据中的上下文信息,Pourtaherian等[148]直接训练了一个3D CNN来检测3D超声体积数据中的针状体素,每个体素是通过从以它为中心的3个正交面中局部提取的原始数据来分类的。为了解决数据集中高度不平衡的问题,采用了一种新的更新策略被采用,即在训练阶段对非针状体素进行重采样,从而提高检测性能以及鲁棒性。

广泛应用于2D超声图像的典型非刚性物体分割方案也适用于3D超声体积的分割。Ghesu等[52]采用这种典型的非刚性分割方法,实现了3D超声体积主动脉瓣的分割,该方法包含两步:刚性目标定位与非刚性目标边界估计。为了解决3D目标检测的问题,采用了边缘空间深度学习方法(MSDL),该方法结合了边缘空间学习(MSL)[149]和深度学习。基于检测到的目标,对非刚性形状做一个初始估计,然后采用基于稀疏自适应DNN的主动形状模型来引导形状变形。在一个大型3D经食管超声心动图像数据集上的实验结果证实了,MSDL在主动脉瓣的3D检测与分割任务中的效率与鲁棒性,它的性能比当前最先进的方法提高了42.5%。仅使用中央处理单元(CPU),主动脉瓣可以在不到1 s的时间内成功分割,其准确度高于原来的MSL。

胎儿结构的分割比一般的解剖结构或器官更具挑战性。例如,胎盘高度可变,因为它的位置取决于子宫内的着床部位。虽然已证实手动分割与半自动分割方法是准确的以及可接受的,但是它们特别耗时且依赖于操作者的经验。为了解决这些问题,Looney等[150]采用DeepMedic从3D超声体积中分割胎盘。训练数据集没有使用人工标注数据,而是使用半自动随机步行(RW)方法的输出作为标注结果。DeepMedic是由Kamnitsas等[151]提出的一种双通道3D CNN结构, 最开始用于大脑磁共振成像(MRI)数据的病变分割。然而,3D超声体积的胎盘成功分割表明,DeepMedic是一个适用于不同模态3D医学体积数据的通用3D深度学习结构。最近,Yang等[152]将RNN植入到定制的3D FCN中,用于同时分割超声体积中的多个目标,包括胎儿、妊娠囊与胎盘。针对普遍存在的边界不确定性问题,采用了一种有效的序列化策略。此外,他们还提出了一种分层深监督机制,以促进循环神经网络中的信息流动,进一步提高分割性能。类似地,Schmidt-Richberg等[153]结合了FCN与可变形形状模型,用于3D胎儿腹部超声体积的分割。

《4. 挑战与应用前景》

4. 挑战与应用前景

从上面的例子可以看出,深度学习已经应用到医学超声图像分析中的各种应用领域。然而,尽管深度学习方法不断更新医学超声图像分析中不同应用方面的最新性能结果,但仍有改进的空间。本节将总结深度学习应用于医学超声图像分析时普遍遇到的挑战,并讨论它的未来发展前景。

显然,深度学习能取得的主要性能改善,在很大程度上依赖于大样本训练数据集。然而,与其他领域的大规模与公共可用的数据集(如ImageNet数据集超过1×106 标注的多类别自然图像[6])相比,当前医学超声领域内公开可用的数据集仍然很有限。有限的数据集已成为深度学习方法在医学超声图像分析中进一步应用的瓶颈。

为解决小样本数据集的问题,目前研究人员最常用的方法之一是进行跨数据集(模态内或模态间)学习,即迁移学习。正如前文所述,迁移学习的使用主要分为两类:直接利用预训练网络作为特征提取器以及固定网络中的部分权重进行微调[77]。根据目标域与源域是否相同,迁移学习可以分为两类:跨模态与跨领域迁移学习。跨领域迁移学习是医学超声图像分析中各任务最常用的方法。在任何情况下,当前的模型预训练总是在大样本数据集上进行。这样做可以确保出色的性能,但这在医学成像领域绝对不是最佳选择。当使用小样本训练数据集时,特定领域深度模型从头开始训练(如果能够恰当选择模型大小)能够比其他领域大样本数据集(如自然图像)预训练网络后的迁移学习取得更好的性能[154]。这一现象的根本原因可能是,用于医学图像分析中特定任务的原始输入图像像素到特征向量的映射,在预训练情况下变得更加复杂,因而需要大样本训练数据集才能有好的泛化能力。相反,特别设计的小网络可能更适合医学成像中普遍存在的小规模训练数据集[155]。因此,开发医学成像领域专用的深度学习模型,不仅能够以较低计算复杂度来提高特定任务的性能,还可以促进医学成像领域中CADx的技术发展。

此外,在自然图像上训练的模型可能不是医学图像的最佳模型,后者通常是单通道、低对比度以及具有丰富的纹理特征。在医学成像,尤其乳腺成像中,诊断工作流程中经常使用多种成像模态,如MRI、X射线与超声。超声或者乳房X线照相术通常是一线筛查工具,因此更容易收集到大量的训练数据集。然而,通常用于筛查高风险人群的乳腺MRI是一种更加昂贵和耗时的方法,要收集足够的训练数据集以及进行标注将更加困难。在这种情况下,跨模态迁移学习可能是一个可取的选择。有实验表明,在缺乏足够训练数据集的情况下,对于特定的任务,跨模态迁移学习要优于跨领域迁移学习[156]。因为考虑到很少能够从单个站点(即机构或医院)收集到大样本数据集,而通常收集自多个不同的站点(或机器),因此可以尝试进行相同成像模态的跨站点(或跨机器)迁移学习。

最后,还必须解决当前迁移学习算法的其他问题,包括如何避免负性迁移,如何处理源域与目标域或者源任务与目标任务之间的特征空间不一致问题,以及如何提高不同任务的泛化能力。迁移学习的目的是利用从源任务学习到的知识来提高目标任务的学习性能。然而,不恰当的迁移学习有时反而会降低性能,即成为负迁移[157]

忽略不同方法间的固有差异,对于特定的目标任务,任何迁移学习的有效性主要取决于两个方面:源任务及其与目标的关系。理想情况下,迁移方法将在足够相关的任务间产生正迁移,而避免负迁移,尽管这些任务可能不是完全匹配的。然而,这些目标在实践中很难同时实现。为了避免负迁移,可以采用以下策略:①识别与拒绝有害源任务知识;②从一组候选源任务中选择最好的源任务(如果可能的话);③建模多个候选源任务的任务相似性。此外,当源任务和目标任务的表示不一致时,映射可以用于任务表示之间的迁移。

值得再次强调的是,3D超声是医学成像领域中一种重要的成像模态,3D超声图像分析在基于超声的临床应用中显示出巨大的潜力,尽管一些问题亟待解决。可以预见的是,更多新颖的3D深度学习算法将被开发,用于医学超声图像分析中的各种任务,并在未来实现更大的性能改进。然而,如果没有其他领域,尤其CV的支持,当前医学超声图像分析领域的3D深度学习算法开发将比较困难。

《致谢》

致谢

本工作由国家自然科学基金(61571304、81571758和61701312)、国家重点研发计划(2016YFC0104703)、广东省医学科研基金(B2018031)和深圳市孔雀计划(KQTD2016053112051497)资助。

《Compliance with ethics guidelines》

Compliance with ethics guidelines

Shengfeng Liu, Yi Wang, Xin Yang, Baiying Lei, Li Liu, Shawn Xiang Li, Dong Ni, and Tianfu Wang declare that they have no conflict of interest or financial conflicts to disclose.

《Appendix A. Supplementary data》

Appendix A. Supplementary data

Supplementary data to this article can be found online at https://doi.org/10.1016/j.eng.2018.11.020.