基于图像的深度学习降雨强度估计方法

摘要

城市洪水是世界性的重大问题，造成巨大的经济损失，严重威胁公共安全。减轻其影响的一种有希望的方法是开发实时洪水风险管理系统；然而，由于缺乏高时空降雨数据，构建这样一个系统通常具有挑战性。虽然一些方法（即地面降雨站或雷达和卫星技术）可用于测量和（或）预测降雨强度，但使用这些方法很难获得具有理想时空分辨率的准确降雨数据。本文提出了一种基于图像的深度学习模型来估计具有高时空分辨率的城市降雨强度。进一步来说，一种称为基于图像的降雨卷积神经网络（image-based rainfall convolutional neural network, irCNN）模型是使用从现有密集传感器（即智能手机或交通摄像头）收集的降雨图像及其相应的测量降雨强度值开发的。随后使用经过训练的irCNN 模型根据传感器的降雨图像有效地估计降雨强度。分别利用合成降雨数据和真实降雨图像来探索irCNN 在理论和实际模拟降雨强度方面的准确性。结果表明，irCNN 模型提供的降雨量估计值的平均绝对百分比误差在13.5%~21.9%之间，超过了文献中其他最先进的建模技术的性能。更重要的是，所提出的irCNN 的主要特点是它在有效获取高时空城市降雨数据方面成本较低。irCNN 模型为估算城市降雨强度提供了一种有前景的替代方案，可以极大地促进城市实时洪水风险管理的发展。

正文

《1、引言》

1、引言

城市洪水的发生可归因于许多因素，包括气候变化导致的降雨加剧[1]、城市化导致的地表径流增加[2]以及城市径流和下游高水位之间的复杂相互作用（即复合洪水事件）[3]。极端降雨往往会导致城市洪水，尤其是山洪，降雨强度是主导因素[4]。值得注意的是，与其他洪水类型（如河流洪水）相比，山洪往往会导致更严重的后果，包括大量人员伤亡[5]。之所以会出现这样的后果，主要是因为与城市山洪灾害伴随的降雨过程具有突发性强、强度大的特点，往往导致防洪资源准备不足，疏散延迟[6]。

为了减轻城市洪水的影响，在过去的几十年里，人们提出了许多不同的解决方案[7‒9]。一种方法是开发一个实时城市洪水预警系统，以实现准确的洪水预测，这将使防洪资源和疏散工作能够及时运作[10]。然而，与实时城市洪水预警系统相关的一个重大挑战是缺乏高时空分辨率的城市降雨数据[11‒12]。这种数据的缺乏是因为城市降雨过程通常很复杂，因为它不仅受到大规模陆地-海洋相互作用的影响，还受到当地气象演变的影响[13]。因此，城市降雨事件往往表现出复杂的时空分布特征。例如，Berg等[14]和Wasko等[15]指出，在不断的气候变化中，许多观测到的降雨事件的时间分布变得更加陡峭，而且强度可以在短时间内（如10 min）发生显著变化。就降雨的空间性而言，据报道，空间距离为3~5 km的两个位置之间的降雨强度的相对差异可达30%~50% [16‒18]。

城市降雨极值的时空特性会显著影响城市洪水的分布特征，包括不同城市区域的淹没范围、水深和洪水时间[19‒20]。因此，考虑到降雨事件的时空特征，开发一个实时城市洪水预警系统是非常重要和必要的[21]。这种系统使用实时降雨数据（即1 min的分辨率），在整个城市（即100 m×100 m）范围内具有高空间分辨率，利用这种数据，洪水预测在时间和空间上都是准确的。这些准确的洪水预测可随后用于有效运行防洪资源和制定有效的疏散策略。

更具体地说，实时城市洪水预警系统由实时降雨数据和高效的水文-水力建模模块组成。由于近年来计算技术的快速发展，后者的挑战性较小[22]。许多不同的方法可用于获取或预测城市降雨量数据。这些方法可以分为两类：基于模型和基于设备的方法。基于模型的方法，如天气研究和预报模型（WRF）[23]或全球气候模型（GCM）[24]，通常无法在城市范围内提供高时空分辨率的精确降雨量估算[25]。基于设备的方法包括地面雨量站[26]、气象雷达[27]和卫星遥感[28]。地面雨量站可以精确地测量降雨数据，但由于城市地区雨量站数量有限，空间分辨率通常较低[29]。气象雷达可以基于电磁波的散射效应以高时间分辨率预测降雨强度[30]。然而，气象雷达方法的预测精度无法保证，因为有许多影响因素，如降雨的不均匀垂直分布、电磁波的异常传播和高层建筑[27]。更重要的是，由于许多国家的地面雷达站数量往往很少，这种方法提供的空间覆盖范围往往有限。相比之下，卫星遥感方法可以在大的空间覆盖范围内提供降雨预测，但其时空分辨率在城市范围内往往不够[31]。

近年来，众包方法被认为是收集降雨数据的替代方法，包括在行驶的汽车（如特斯拉汽车）中使用智能雨刷[32]或带有声音传感器的智能雨伞[33]。最近，Jiang等[34]提出了一种基于普通监控摄像机采集的视频来测量降雨强度的新方法。更具体地说，研究人员开发了一种凸优化算法来有效地分解降雨图像，然后通过几何光学和摄影分析来估计降雨强度[34]。虽然这些众包方法很有趣，但由于相关实施的复杂性高，它们在获取高时空分辨率的降雨数据方面的广泛应用很困难[32]。

本研究提出了一种使用基于图像的深度学习模型来测量具有高时空分辨率的城市降雨数据的新方法。所提出的方法是由以下事实驱动的：①降雨事件的图像在城市中广泛可用，因为它们可以以非常低的成本从交通摄像机、安全摄像机和智能手机中获得；②通过使用现有的传感器（相机）或通过公民科学（智能手机），可以获得在整个城市具有高度时间和空间分布的降雨图像。在这项研究中，一种称为卷积神经网络（CNN）的深度学习方法适用于根据从城市传感器收集的图像来预测降雨强度。近年来，深度学习方法在环境遥感[35]和地球系统科学[36]领域得到了广泛应用，展示了其在解决这些领域的传统挑战方面的巨大潜力。在这些深度学习方法中，CNN越来越多地用于水文气象领域，应用包括提高厄尔尼诺发生的预测精度[37]，预测河水中的蓝藻浓度[38]，从流场图像中提取速度和压力场[39]，以及加速城市洪水模型计算[40]。然而，据我们所知，这是第一次基于城市传感器将CNN应用于高时空分辨率的降雨建模。

该方法最重要的特点是获取高度时空化的城市降雨数据的成本极低，这使得开发一个实时洪水预警系统成为可能。此外，这些降雨数据可用于了解气候变化和城市化如何在城市范围内影响当地水文循环。预计所提出的降雨量估算方法将有望减轻城市洪水（尤其是暴雨洪涝）的影响，因为各种类型的城市感知数据的同化和集成是近年来城市“数字孪生”的一种增长趋势。

本文的其余部分组织如下：第2节介绍了所提出方法的方法论，并提供了所提出的基于图像的降雨CNN（irCNN）模型架构的概要；第3节介绍模型开发的数据；第4节讨论模型训练和验证；最后一节给出了结果和讨论。

《2、研究方法介绍》

2、研究方法介绍

《2.1 方法论框架》

2.1 方法论框架

图1展示了所提方法的整体概念，包括降雨图像的收集以及模型的开发和应用。更具体地说，在一个降雨事件中，首先使用现有的传感器收集大量的图像，主要是在城市中广泛安装的公共摄像头（图1）。随后，使用基于图像的降雨卷积神经网络（image-based rainfall CNN, irCNN）模型来预测这些降雨图像的降雨强度。最后，可以得到每个采样地点（即每个提供降雨图像的地点）的降雨强度，进而获取具有高时空分辨率的降雨数据。

《图1》

图1 整体概念。

目前开发基于图像的降雨模型仍存在如下挑战：①不同地点的降雨图像具有不同的背景；②由于天气和环境状态的变化（如交通），同一地点的背景会发生变化。幸运的是，CNN模型已经在人工智能领域展示了它在图像识别方面的巨大能力[41‒42]。因此，本研究中采用了CNN模型框架。

本节提出的方法的整体流程包括模型搭建、数据采集以及模型的训练和验证。在模型搭建阶段，提出了irCNN框架，在现有的CNN架构中加入了一个回归层，以使预测结果为连续值。鉴于CNN参数的数量很大，在使用irCNN进行降雨强度估计之前，使用了一个开源的数据集ImageNet进行预训练。随后，收集降雨数据用于irCNN模型的开发，并以预训练的框架为条件，数据来源包括合成降雨图像、智能手机和监控摄像头拍摄的图像。然后，这些数据被用来进一步训练irCNN，最后验证该模型预测降雨强度的准确性。

《2.2 基于图像的降雨量CNN模型的建立》

2.2 基于图像的降雨量CNN模型的建立

《2.2.1. CNN模型》

2.2.1. CNN模型

CNN是一种典型的深度学习方法，最初是为文档和图像识别开发的[43]。CNN模型是一种基于表征学习的方法，其特点是使用多层次的表征（即参数）来表示不同的特征层次。更具体地说，CNN模型可以被输入原始数据并自动发现检测或分类所需的表征。

图2显示了CNN模型的典型结构，它通常包括一个输入层、卷积层、池化层、全连接层和输出层。为了解释CNN所使用的过程，下面给出一个例子，它应用CNN来识别数字“8”。如图2所示，输入平面接收一个带有数字的图像（用像素矩阵表示），该图像被近似地归一化[41]。接下来，在卷积层内使用一组不同的卷积核（通常使用3×3矩阵）生成具有不同权重向量的多个特征图。随后，池化层被用来进行局部平均或最大值，以降低特征图的分辨率及输出对原始输入的移动和扭曲的敏感性。卷积和池化过程必须多次进行以确定输入图像的特征。最后，采用全连接层来生成基于特征图的输出（从0到9的数字的概率向量）。需要注意的是，每个卷积层和降采样层的特征图的数量需要根据规则预先指定。CNN结构的细节可以在文献[43]中找到。

《图2》

图2 典型卷积神经网络（CNN）用于数字识别的结构，其中每个平面都是一个特征图。

由于过去几十年来计算能力的快速发展，在计算机科学和工程的研究领域，已经提出了许多CNN模型的变体，包括AlexNet [44]、视觉几何组网络（VGG）[45]和残差网络（ResNets）[42]。这些模型已经被证明在对图像进行分类和检测复杂图像中的物体方面是有效的[46‒47]。

《2.2.2. 基于图像的降雨卷积神经网络模型》

2.2.2. 基于图像的降雨卷积神经网络模型

基于典型的CNN架构的整体框架，本研究提出了irCNN模型，目的是基于降雨图像来估计降雨强度。直观地说，降雨强度可以由降雨图像中雨滴的密度和大小来表示。即雨滴密度和大小相对较大的降雨图像总体上与较大的降雨强度有关，反之亦然。这种关系在数学上可以表示为：

$I = f (Z (d, s))$ (1)

式中，I是降雨强度（mm·h^-1）；Z是雨量图像；d和s分别是雨滴的密度以及大小；f代表雨量图像与降雨强度之间的非线性关系，需要由CNN模型来计算。

文献中已开发了许多不同的CNN模型，它们的模型架构有所不同，如层数、卷积核的大小、降采样的方式等，详细内容见He等[42]的研究工作。在本研究中，irCNN模型是基于ResNet34模型（34表示模型中共有34层）搭建的，该模型在计算机科学和工程中被广泛使用[42]。更重要的是，ResNet34模型已被证明在许多应用中比其他模型如AlexNet（2012）、VGG 16（2014）和Graph NN具有更优秀的性能[48‒49]。图3概述了irCNN的模型架构，总共有38层（即包括输入和输出层）。如该图所示，ResNet34模型以降雨图片作为输入（L=1）。在第二层（L=2），64个卷积核被用来为原始输入图像生成64个不同的特征图（图2中的平面）。然而，需要注意的是，卷积核应用于输入图像的像素矩阵，每两列移动一次（卷积步长s=2），代表一个降采样过程，以降低特征图的分辨率。因此，卷积和降采样是在第二层（L=2）共同进行的，L=10、18、30时同样如此，如图3中的绿色块所示。

《图3》

图3 irCNN模型结构图。

在irCNN模型架构中（图3），总共使用了29个卷积层（不包括有降采样过程的层）（图3中黄色区块），不同卷积层卷积核大小相同（3×3矩阵），但数量越来越多（范围从64到512）。在irCNN模型中使用了两个特殊的降采样层（L=3, 36）（图3中的蓝色区块），其中，L=3和36分别取上一层特征图的3×3区域内的最大值（最大值降采样法）和平均值（平均值降采样法）。需要注意的是，图3中使用的每个卷积核的值都要进行训练，导致总共有6.3×10⁷个参数需要训练。ResNet34模型的这种特殊架构是由He等[42]在综合模拟分析的基础上提出的。

在irCNN模型架构中，为了解决深度学习模型应用中经常存在的退化问题（即过早收敛），采用了He等的方法，即深度残差学习。更具体地说，即在irCNN模型架构中使用快捷连接（图3中的红色箭头线），如图3所示。这些快捷连接跳过两层网络，将两层前的输出结果与上一层的输出相加（图3）。

典型的CNN模型通常用于物体分类，因此在所提出的irCNN模型中增加了一个回归层（图3中L=37）将分类转化为回归，来估计降雨强度。可以表示为：

$\hat{I} = W^{T} X + b$ (2)

式中， $\hat{I}$ 代表预测的降雨强度；代表线性回归层的参数，将在irCNN模型的训练过程中自动确定；代表前一层的输出（L=36）；T是矩阵转置运算符；b代表偏置项。

由于要训练的irCNN模型的参数量很大，因此从零开始训练模型需要大量的降雨图像，而本研究中无法得到如此多的降雨图像。为了解决这个问题，使用开源数据集ImageNet（由1000类128万张图像组成）用于预训练irCNN模型对这些图像中的目标（如不同的动物）进行分类[50]。换言之，irCNN模型首先在与降雨无关的图像上进行训练，以便（在预训练过程之后）获得irCNN模型参数的近似值[50]。一旦这样做了，后续训练（第3节）使用降雨图像数据确定最终CNN参数值。上述方法在CNN领域经常被使用[42]。这是因为，尽管图像包含不同类型的对象，但所有这些对象都具有与其检测/分类相关的某些共同特征。

《3、 irCNN模型开发中的降雨数据采集》

3、 irCNN模型开发中的降雨数据采集

《3.1 合成降雨图片》

3.1 合成降雨图片

计算机视觉领域通常使用合成图片初步验证方法的有效性。合成降雨图片使用视频处理软件（如Photoshop等）为背景图片添加雨滴层。具体来说，使用4000张不同且没有雨滴的公开图像作为背景图像（背景层）[51]，通过图像处理软件Photoshop CC2017 [52]为背景图像添加雨滴层（即噪声层）。在雨滴层中，可以考虑一系列不同的雨滴密度、大小和角度（风的影响），以产生足够多样性的降雨事件。鉴于降雨强度受雨滴密度和大小的影响[见公式（1）]，经过初步分析，假定雨滴的密度、大小与降雨强度之间存在的映射关系如下：

$S I = 100 d \times \frac{1}{16} s^{2}$ (3)

式中，SI是合成降雨强度（synthetic rainfall intensity, SI），无量纲；d代表背景层上的雨滴密度，定义为噪声点的像素相对于总像素的比率。在Photoshop CC2017 [52]中，d的范围从0.1%到100%，因此100d的范围从0.1到100。在本研究中，d被限制在10%~19%范围内，分辨率为1%，即总共有10个不同的SI值。使用10%~19%之间的d值是由于该范围内的噪声层通过可视化后与真实的降雨图像相似，其他不同的d值也可以很容易地应用于irCNN模型。

公式（3）中的s是雨滴大小，定义为雨滴层的面积与背景层的面积之比[52]。在本研究中，雨滴大小使用了s=350%、400%、450%三个不同的值，其中，s=400%为默认的雨滴大小，因为该值下的合成图像雨滴大小在视觉上与真实的雨滴大小较为接近[52]。

在合成降雨图片时，使用以下策略来改变合成降雨图像中雨滴的大小：首先设置s=400%并将雨滴层叠加到背景层上；然后，增大或减小雨滴层的面积，假设雨滴大小s的变化率为k，则面积变化率为k²。因此，由于雨滴层的面积变化，背景层中的雨滴数量发生了变化，这导致了d值以k²的变化率相应减少或增加。然而，SI值在公式（3）所示的这样一个过程中并没有变化。例如，当s从400%增加到450%时，雨滴层的面积增加了 ${(45 / 40)}^{2} = 81 / 64$ ，而雨滴密度减少了64/81，由公式（3）可知SI值保持不变。

公式（3）被用来生成合成降雨图像的降雨强度，这些降雨强度值被用作合成降雨图片的标签。图4显示了三张合成降雨图像，它们是在同一背景层下产生的，但具有不同的雨滴密度。对于一个给定的雨滴密度，其分布和相对大小遵循Photoshop CC2017 [52]中的高斯分布。虽然在本研究中假设了公式（3）来开发雨滴密度、大小与降雨强度之间的映射关系，但其他的映射方程可以很容易地应用于生成合成降雨图像。

《图4》

图4 合成降雨图像示例。

使用上述方法生成两个不同的合成数据集，其背景图像取自文献[51]。这两个合成数据集的细节如下。

合成数据集1（synthetic dataset 1, SD1）：该数据集用来研究背景多样性的增加对模型性能的影响。在SD1中，验证集使用100张不同的背景图像产生，每张背景图像分别使用10个不同SI值（从10到19，分辨率为1）的噪声层（即雨层）进行合成，即验证集共计1000张合成降雨图像。对于训练集，背景图像的数量（N）从100逐渐增加到1200，分辨率为100，这些图像是从所有的4000张背景图像中随机选择的。需要注意的是，对于一个特定的N，每张背景图像只能选择一次，验证集中使用的图像不用于训练集。随后，对于每个背景图像，使用10个不同的SI值来合成降雨图像，即SD1中有12个子训练集。例如，当N=500时，使用500张不同的背景图片，共合成5000张降雨图像作为训练集。其他细节见表1。

《表1》

表1 应用于SD1的5次irCNN模型运行的性能指标平均值（验证性能）

Number of different backgrounds in images	MAE	MAPE (%)	R²	NSE	KGE
100	1.07	7.67	0.77	0.75	0.87
200	0.73	5.27	0.88	0.87	0.87
300	0.62	4.47	0.91	0.91	0.90
400	0.60	4.28	0.91	0.91	0.91
500	0.57	4.10	0.92	0.92	0.92
600	0.56	4.01	0.91	0.91	0.96
700	0.54	3.85	0.93	0.93	0.96
800	0.54	3.81	0.94	0.94	0.96
900	0.54	3.80	0.94	0.94	0.95
1000	0.53	3.73	0.93	0.93	0.96
1100	0.52	3.65	0.94	0.94	0.96
1200	0.52	3.68	0.94	0.94	0.96

合成数据集2（synthetic dataset 2, SD2）：该数据集用于研究降雨强度多样性的增加对模型预测性能的影响。SD2的验证集与SD1中使用的验证集相同。训练集中背景图像的数量是固定的，从10个SI值中选择不同大小的降雨强度组合（的集合）来合成降雨图像。更具体地说，在本研究中，的大小从2（两个SI值的组合）增加到10（所有可用的SI值的组合）。对于中的每个SI值，使用固定的800个背景图像合成降雨图像。表1中给出了SD2的其他细节。

《3.2 智能手机拍摄的真实降雨图像》

3.2 智能手机拍摄的真实降雨图像

为了进一步验证irCNN模型的性能，如图5所示，采用众包方法，在浙江大学校园内使用智能手机收集了真实的降雨图像。同时安装了一个具有1 min时间分辨率和0.1 mm降雨强度精度的翻斗式雨量计，其位置见图5。在降雨过程中，使用智能手机在不同的地点拍摄降雨图像，如图5所示。

《图5》

图5 收集降雨图像的传感器（智能手机和相机）的位置。

应该注意的是，雨量计的记录时间间隔为1 min，记录的是前一分钟内的累计降雨量，而照片或者视频单帧的曝光时间非常短（约1/200 s），记录的是瞬时降雨的图像特征，因此雨量计记录的累计降雨量与瞬时降雨强度在时间上并不匹配。通常情况下，1 min内降雨强度变化相对较小，因此假设降雨强度在1 min内为线性变化，采用线性内插法来估计降雨强度。但是，未来的研究应该开发和使用更先进的降雨量估算方法，以进一步提高irCNN模型的预测性能。如图6所示，假设每段降雨间隔（例如，从T₀到T₀+ $∆ t$ ，本文中为1 min）的中点处的降雨强度为该时间间隔结束时（图6中T₀+ $∆ t$ ，T₀+ $2 ∆ t$ ）的累积降雨强度值（例如，时刻t_L、t_R的降雨强度值分别为I_L、I_R），则该段时间间隔内任一时刻t的降雨强度值_t为：

$I_{t} = I_{L} + \frac{t - t_{L}}{Δ t} (I_{R} - I_{L})$ （4）

式中，_t为t时刻的瞬时雨强。I_L、I_R、t_L和T如图6中所示。

《图6》

图6 使用线性插值方法获得任意给定时间t的瞬时降雨强度。

使用智能手机在2020年5~7月期间拍摄了11场降雨事件的图像，具体地点如图5所示，共计拍摄了960张不同背景的降雨图像。图7展示了四个使用智能手机拍摄的降雨图像以及使用图6和公式（4）中给出的线性插值方法估算的降雨强度的例子。从960张降雨图像中随机选取768张（80%）降雨图像用来训练irCNN模型，其余192张（20%）图像用来验证模型的性能。

《图7》

图7 智能手机拍摄的降雨图像以及估计的降雨强度示例。

《3.3 固定监控摄像头拍摄的真实降雨图像》

3.3 固定监控摄像头拍摄的真实降雨图像

本研究中安装了一个固定监控摄像头用于拍摄降雨视频，图5中给出了位置。该监控摄像头记录了发生在2020年6月和7月的6次降雨事件，视频被用作补充材料。降雨视频的帧率为1（即每秒钟拍摄1帧），会被分割成1 s分辨率的降雨帧，即会将视频分割为图片，以便于应用irCNN模型。降雨强度数据同样取自图5中的雨量计，使用图6和公式（4）中描述的线性插值方法计算瞬时降雨强度，从而能够得到每一帧图像对应的瞬时降雨强度。从6个降雨事件的视频共计分割了7117帧降雨图像。在这项研究中，采用了两种验证方法，验证方法一采用随机抽样验证，即从所有降雨图像中随机抽5694帧（80%）来训练irCNN模型，其余1423帧（20%）用于测试模型的性能，验证方法一使用的数据集记作CD1。验证方法二采用单独降雨事件验证，从6个降雨事件中选择5个用来训练irCNN模型，而剩下的一个降雨事件则被用来验证模型的性能，验证方法二使用的数据集记作CD2。

《4、 IrCNN模型训练和验证》

4、 IrCNN模型训练和验证

《4.1 模型训练》

4.1 模型训练

虽然各种深度学习模型在一系列应用中取得了成功，但由于涉及大量模型参数，模型训练通常很困难[53]。在这项研究中，随机梯度下降（SGD）方法用于训练irCNN模型[53]。在SGD方法中，采用循环学习率（CLR）方法来加速训练过程。模型训练方法的细节可以在参考文献[53]的研究中找到。

《4.2 性能指标》

4.2 性能指标

水文领域广泛使用的5个指标用于衡量irCNN模型的性能[54]。它们是平均绝对误差（MAE）、平均绝对百分比误差（MAPE）、决定系数（R²）、纳什-苏特克利夫模型效率（NSE）和克林-古普塔效率（KGE）。MAE和MAPE的方程式如下：

$M A E = \frac{1}{n} \sum_{i = 1}^{n} |Y_{i} - {\hat{Y}}_{i}|$ （5）

$M A P E = \frac{1}{n} \sum_{i = 1}^{n} |\frac{Y_{i} - {\hat{Y}}_{i}}{Y_{i}}|$ （6）

式中，n是数据点的总数； $Y_{i}$ 是第i次观察； ${\hat{Y}}_{i}$ 是第i次预测。MAE或MAPE值越低，表示性能越好。R²、NSE和KGE的指标用于测量模型的拟合优度；这些指标的等式如下所示：

$R^{2} = \frac{{(\sum_{i = 1}^{n} (Y_{i} - \tilde{Y}) (Y_{i} - \dot{Y}))}^{2}}{\sum_{i = 1}^{n} {(Y_{i} - \tilde{Y})}^{2} \sum_{i = 1}^{n} {(Y_{i} - \dot{Y})}^{2}}$ （7）

$N S E = 1 - \frac{\sum_{i = 1}^{n} {(Y_{i} - {\hat{Y}}_{l})}^{2}}{\sum_{i = 1}^{n} {(Y_{i} - \dot{Y})}^{2}}$ （8）

$K G E = 1 - \sqrt[]{{(r - 1)}^{2} + {(\frac{σ_{p r e d}}{σ_{o b s}} - 1)}^{2} + {(\frac{μ_{p r e d}}{μ_{o b s}} - 1)}^{2}}$ （9）

式中， $\bar{Y}$ 是观测值的平均值；r是观测值和预测值之间的线性相关性； $σ_{p r e d}$ 和 $μ_{p r e d}$ 分别是预测的标准差和平均值； $σ_{o b s}$ 和 $μ_{o b s}$ 分别是观测值的标准差和平均值。R、NSE或KGE的值越高，表明整体性能越好，R、NSE或KGE = 1代表完美的模型性能。

《5、结果讨论》

5、结果讨论

《5.1 收敛性和效率分析》

5.1 收敛性和效率分析

本研究提出的irCNN模型使用Python计算机语言实现。所实现的算法在个人计算机（PC）上运行，该计算机配备了3.3 GHz的英特尔酷睿i9-9820X处理器和32 GB的随机存取存储器（RAM）及11 GB的英伟达RTX 2080Ti图形处理单元（GPU）。应该注意的是，irCNN模型是使用名为ImageNet [50]的开源数据集进行预训练。换句话说，下面的收敛和效率分析是以预先训练的irCNN模型为条件的。

图8（a）显示了应用于合成数据集SD1的提出的irCNN模型的收敛轨迹，其中训练损失的最小化是目标函数，如Smith和Topin [53]所定义。如图所示，虽然不同的模型运行可能表现出不同的收敛特性，但它们都能够在10~50个训练时期之间达到收敛。此外还发现，尽管具有相对低数量的背景图像（即低背景多样性）的irCNN模型倾向于在大量训练时期内收敛，但是每个训练时期需要相对低的时间预算。使用上述计算机配置，应用于合成数据集的每个irCNN模型的运行时间约为10~20 min。

《图8》

图8 所提出的irCNN模型的收敛轨迹运行：所提出的模型的收敛轨迹应用于合成数据集SD1（a）和来自智能手机的真实降雨图像（b）。

图8（b）展示了irCNN模型的收敛轨迹，该模型应用于来自智能手机的真实降雨图像。可以看出，真实数据所需的训练时期的数量明显大于合成数据集所需的数量。此外，前者的每个训练时期需要大约3 min，这明显长于合成数据集的训练时期。由于真实降雨图像中存在噪声，这是可以预料的，大大增加了训练的难度。如图8（b）所示，使用前述计算机配置，所有irCNN模型运行在3 h内成功收敛。对于应用于合成数据集SD2的irCNN模型，以及通过现场监视摄像机获得的真实降雨图像，可以进行类似的观察。

记录使用训练的irCNN模型估计降雨强度所用的时间。尽管不同的输入降雨图像略有不同，但irCNN模型需要1~2 s来提供100幅图像的降雨强度估计值。这一发现突出了irCNN模型在使用城市地区的历史观测数据进行训练后，提供实时降雨强度方面的巨大潜力。

《5.2 IrCNN模型在合成雨量图像上的性能》

5.2 IrCNN模型在合成雨量图像上的性能

表1显示了应用于合成数据集的irCNN模型的性能度量，其中显示了验证数据的指标值。可以看出，对于SD1中的每个固定数量的背景图像，使用不同的随机选择的背景图像执行5次不同的模型运行，得到表1中所示的平均性能指标值。值得注意的是，对于固定数量的背景图像，不同的模型运行显示出性能指标值的低变化（此处未示出）。

如表1所示，如果在模型训练过程中能够保证足够的背景多样性，irCNN模型的总体性能是好的（例如，R²、NSE和KGE的平均值都在0.9以上）。此外，当背景图像的数量从100张增加到600张时，irCNN模型的性能提高，随后随着背景图像数量的进一步增加，模型性能总体上相似。换句话说，只要将足够数量的不同背景图像用于模型训练，irCNN模型就可以将雨滴与背景图像区分开。

基于表1所示的结果，我们决定使用800张固定背景图像来分析SD2中的合成数据，即调查不同降雨情景对模型性能的潜在影响。表2显示了应用于SD2中每个数据子集的5次模型运行的验证数据的平均性能指标值。如表中所示，降雨情景的数量会显著影响模型性能。例如，如果SI的数量是9，irCNN模型运行（对于验证数据）的平均MAE、MAPE、R²、NSE和KGE分别是0.54、3.75%、0.94、0.93和0.94。如表2所示，与考虑两个或三个不同SI值的情况相比，这表示性能显著提高。

《表2》

表2 应用于SD2的5次irCNN模型运行的性能指标平均值（验证性能）

Number of SIs	Selected SIs	MAE	MAPE (%)	R²	NSE	KGE
2	SI = 10, 19	1.47	10.29	0.81	0.59	0.65
	SI = 13, 16	1.45	10.56	0.78	0.61	0.47
	SI = 14, 15	2.06	15.04	0.80	0.28	0.17
	Average	1.66	11.96	0.79	0.49	0.43
3	SI = 10, 15, 19	0.77	5.48	0.90	0.88	0.90
	SI = 11, 14, 17	0.84	5.71	0.88	0.86	0.81
	SI = 13, 14, 15	1.68	11.78	0.84	0.48	0.34
	Average	1.09	7.66	0.88	0.74	0.68
4	SI = 10, 13, 16, 19	0.62	4.30	0.92	0.91	0.96
	SI = 13, 14, 17, 18	0.94	7.44	0.87	0.82	0.71
	SI = 13, 14, 15, 16	1.30	9.50	0.88	0.69	0.50
	Average	0.95	7.08	0.89	0.81	0.72
5	SI = 10, 12, 15, 17, 19	0.54	3.81	0.94	0.93	0.98
	SI = 12, 14, 15, 17, 18	0.75	5.77	0.92	0.89	0.78
	SI = 13, 14, 15, 16, 17	1.07	8.29	0.90	0.77	0.59
	Average	0.79	5.96	0.92	0.86	0.78
6	SI = 10, 12, 14, 15, 17, 19	0.56	3.91	0.93	0.92	0.97
	SI = 11, 12, 14, 15, 16, 18	0.58	4.12	0.94	0.93	0.88
	SI = 12, 13, 14, 15, 16, 17	0.83	5.95	0.92	0.87	0.73
	Average	0.66	4.66	0.93	0.91	0.86
7	SI = 10, 12, 13, 15, 16, 18, 19	0.53	3.67	0.94	0.94	0.97
	SI = 11, 12, 14, 15, 17, 18, 19	0.56	4.05	0.93	0.93	0.93
	SI = 11, 12, 13, 14, 15, 16, 17	0.75	5.09	0.92	0.88	0.80
	Average	0.62	4.27	0.93	0.92	0.90
8	SI = 10, 11, 13, 14, 15, 16, 18, 19	0.53	3.69	0.94	0.94	0.96
	SI = 10, 12, 13, 14, 16, 17, 18, 19	0.53	3.76	0.94	0.94	0.97
	SI = 11, 12, 13, 14, 15, 16, 17, 18	0.60	4.32	0.93	0.92	0.87
	Average	0.56	3.92	0.94	0.93	0.93
9	SI = 10, 11,12,13,14,16,17,18,19	0.51	3.62	0.94	0.94	0.95
	SI = 10, 11,13,14,15,16,17,18,19	0.53	3.73	0.93	0.93	0.96
	SI = 10, 11, 12, 13, 14, 15, 16, 17, 18	0.57	3.91	0.93	0.92	0.92
	Average	0.54	3.75	0.94	0.93	0.94
10	SI = 10‒19	0.54	3.89	0.94	0.94	0.95

根据表2，对于一组固定的SI值，如果所选择的备选项可以覆盖总选项的大跨度，则irCNN模型的性能提高。这一发现表明，irCNN模型可能无法为降雨强度超过训练数据集中提供的降雨强度的情况提供准确的估计。这种限制对于大多数机器学习方法来说是典型的，因为在用于训练的数据集之外，它们在内插方面的表现往往比外推好得多。根据表2所示的结果，可以得出结论，降雨情景的多样性和降雨强度的跨度对模型性能有重大影响。这一发现意味着收集足够多的不同降雨强度的事件对irCNN模型的性能至关重要。

《5.3 IrCNN模型在智能手机获取的真实降雨图像上的性能》

5.3 IrCNN模型在智能手机获取的真实降雨图像上的性能

表3显示了基于irCNN模型的验证结果的性能指标，该模型应用于智能手机捕捉的真实降雨图像。为了能够进行严格的分析，使用不同的随机选择的训练数据进行了5次运行；结果在表3中给出。该表显示，虽然不同运行的指标值可能略有不同，但在实践中，所有指标值都是可以接受的，可以准确地确定降雨强度。这一结果反映在由irCNN模型模拟的3.79 mm∙h^-1降雨量的MAE、MAPE、R²、NSE和KGE的良好平均值中，分别为3.79 mm∙h^-1、18.53%、0.96、0.95和0.91。

《表3》

表3 irCNN模型运行的性能指标应用于来自智能手机的真实降雨图像（验证结果）

Trial number	MAE (mm·h^-1)	MAPE (%)	R²	NSE	KGE
1	4.16	18.11	0.95	0.93	0.90
2	3.92	19.27	0.95	0.94	0.90
3	3.36	17.89	0.97	0.96	0.93
4	3.91	16.30	0.96	0.94	0.91
5	3.58	21.08	0.96	0.96	0.92
Average	3.79	18.53	0.96	0.95	0.91

图9描绘了表3中所示的试验3的预测结果和观测结果的对比，红线代表完美的模型性能。如图所示，尽管有一些变化，但是irCNN模型预测结果与降雨强度观测值总体上匹配良好。这一结果表明，irCNN模型可以根据智能手机拍摄的降雨图像，在实践中提供可接受的降雨强度估计。虽然这种估计可能不如地面雨量站的估计准确，但可以以较低的相关成本获得高时空分辨率。

《图9》

图9 基于irCNN模型的预测与观测应用于来自智能手机的真实降雨图像（验证数据）。

《5.4 IrCNN模型在来自监视摄像机的真实降雨图像上的性能》

5.4 IrCNN模型在来自监视摄像机的真实降雨图像上的性能

监控摄像机共记录了6次降雨事件（详情见表4）；如前所述，这些视频被分成1 s分辨率的帧，以支持irCNN模型应用。表4列出了基于雨量计1 min分辨率记录计算的每次降雨事件的持续时间、平均降雨强度和最大降雨强度。在参考文献[14]中，大于0.1 mm∙min^-1（即6 mm∙h^-1）的降雨量数据用于irCNN模型开发。需要注意的是，杭州（安装监控摄像头的城市）暴雨突发事件经常发生在6~7月间；因此，记录的事件主要是持续时间相对较短的极端降雨，如表4所示。这种降雨事件比一般降雨事件更有可能引发山洪暴发；因此，它们在城市地区的时空强度值对于实时防洪非常重要（这是本文的重点）。然而，未来的研究还应验证irCNN模型在估计平均降雨事件（即持续时间长的低强度事件）的降雨强度方面的性能。

《表4》

表4 监控摄像机记录的6次降雨事件详情

Rain event	Date	Duration (min)	Average rainfall intensity (mm·h^-1)	Maximum rainfall intensity (mm·h^-1)
1	2020/6/21	17	16.9	42.0
2	2020/6/21	69	19.0	66.0
3	2020/6/26	21	22.3	60.0
4	2020/7/10	12	11.0	36.0
5	2020/7/16	18	13.7	42.0
6	2020/7/26	33	23.6	60.0

使用不同的随机选择的训练数据进行了5次不同的模型运行；表5给出了验证结果。如表中所示，irCNN模型可以根据来自监控摄像机的真实降雨图像提供相当准确的降雨强度估计，MAE、MAPE、R²、NSE和KGE的平均值分别为3.10 mm∙h^-1、16.54%、0.92、0.92和0.95。试验4的irCNN模型预测与观测值（表5）的对比在图10中给出。虽然可以观察到一些变化，特别是在降雨强度相对较高的地区，但irCNN模型的预测总体上与观测结果吻合良好。据观察，与使用合成数据集开发的相应模型相比，irCNN模型在应用于真实降雨图像时的性能有所下降（见表1、表2、表3和表5）。这是因为：①由于周围环境（如亮度或天气条件）的影响，真实降雨图像中的噪声通常比合成图像中的噪声更复杂；②使用线性内插法（图6）估算图像采集时的降雨强度不可避免地会产生误差。尽管如此，irCNN模型在处理真实降雨图像时表现出合理的性能，如表3和表5所示。

《表5》

表5 irCNN模型的性能指标应用于来自监控摄像机的真实降雨图像（验证结果）

Trial number	MAE (mm·h^-1)	MAPE (%)	R²	NSE	KGE
1	3.02	15.78	0.91	0.91	0.94
2	3.21	17.17	0.91	0.91	0.95
3	2.87	15.38	0.94	0.93	0.93
4	3.10	16.71	0.92	0.92	0.96
5	3.28	17.66	0.92	0.92	0.96
Average	3.10	16.54	0.92	0.92	0.95

为了进一步探索irCNN模型在基于新的降雨事件的图像预测降雨强度方面的性能，5个独立的降雨事件用于模型训练，剩余的独立降雨事件用于模型验证，结果在表6和图11中给出。如表6所示，选择降雨事件1和4进行模型验证，是因为：①与其他事件相比，这两个降雨事件的降雨强度适中；而②其他事件的降雨持续时间相对较长，因此用于模型训练（模型训练往往需要足够数量的数据点）。如表6和图11所示，当通过独立降雨事件进行训练和验证时，irCNN模型性能比使用随机选择的帧进行模型训练时更差（表5和图10）。例如，使用独立降雨事件训练和验证的irCNN模型的MAE、MAPE、R²、NSE和KGE的平均值分别为3.78 mmh^-1、20.23%、0.81、0.76和0.87。与使用随机选择的降雨图像（表5）进行训练和验证的模型的结果相比，该结果显示出性能略有下降。当比较图10和图11之间的结果时，可以进行类似的观察。

《表6》

表6 应用于独立降雨事件的irCNN模型的性能指标，使用来自监控摄像机的真实降雨图像（验证结果）

Rain event for model validation	Rain event for model training	MAE (mm·h^-1)	MAPE (%)	R²	NSE	KGE
1	2, 3, 4, 5, 6	2.40	18.55	0.93	0.93	0.94
4	1, 2, 3, 5, 6	4.35	21.90	0.69	0.60	0.80
Average	―	3.78	20.23	0.81	0.76	0.87

《图10》

图10 . 基于irCNN模型的预测与观测应用于来自监控摄像机的真实降雨图像（验证数据）。

《图11》

图11 基于irCNN模型应用于独立降雨事件的预测与观测，使用来自监控摄像机的图像（验证数据）。

当使用来自独立降雨事件的图像或使用随机选择的降雨图像进行训练（和验证）时，irCNN模型的相对性能差异是由不同降雨事件的环境变化（如亮度和风力条件）引起的（本研究仅使用一个固定角度的摄像机来制作视频）。更具体地说，在整个降雨过程中，单一降雨事件期间的天气条件可能保持相似，但不同的降雨事件之间可能显著不同。因此，使用独立降雨事件的图像会增加模型预测的难度。尽管如此，在最坏的情况下，irCNN模型预测的MAPE为21.90%，仍然与Jiang等[34]提出的相应值（MAPE为21.80%）近似，他们使用基于分解的识别算法来估计降雨强度。然而，经过训练的irCNN模型的计算效率明显高于Jiang等[34]的方法，因为所提出的模型估计100幅图像的降雨强度大约需要1 s，而Jiang等的模型完成相同的任务需要26.4 s。这种比较突出了所提出的irCNN模型在近实时洪水风险管理方面的巨大潜力。此外，提出的irCNN不仅可以根据监控摄像头的图像（帧）来估计降雨强度，还可以根据智能手机等其他数据源的图像来估计降雨强度。相比之下，Jiang等[34]的方法只能用于根据安全摄像机的降雨视频来估计降雨强度。然而，应该注意的是，当许多不同的摄像机被用于为irCNN模型收集降雨图像时，除了环境条件之外，摄像机类型和视频制作角度也可能影响模型精度。

应该承认的是，虽然线性插值法（图6）用于根据雨量计记录（1 min的累积降雨深度）估算不同时间的降雨强度，但实际降雨过程在强度方面可能并不完全与时间呈线性关系。为了解决这个问题，基于irCNN模型的估计来计算降雨强度的平均值，并将其应用于1 min内的所有摄像机帧。使用这种方法，图12给出了分辨率为1 min的两次降雨事件（表6中的降雨事件1和4）的降雨强度估计值。这些估计值的MAE和MAPE值分别为2.55 mm h^-1和13.5%，显著低于（即优于）表6中的相应值。这一结果表明，使用平均降雨强度估计值（即1 min的时间分辨率）提高了irCNN模型的准确性。在工程实践中，1 min时间分辨率的降雨数据足以实现城市实时洪水管理和操作[55]。

《图12》

图12 基于irCNN模型的预测与观测（1 min时间分辨率）应用于独立降雨事件，图像来自监控摄像机（验证数据）。

《6、结论》

6、结论

城市地区的高分辨率时空降雨数据是城市实时洪水管理（即预测、操作和疏散）的基础。虽然有许多方法可用于测量或预测降雨强度，包括地面雨量站、气象雷达和卫星遥感，但它们的降雨量测量要么不足以满足所需的时空分辨率，要么在准确性方面不令人满意。本文提出了一种基于图像的深度学习模型来测量高时空分辨率的降雨强度。更具体地说，开发了一个CNN模型（称为irCNN模型），其中从降雨事件中现有密集传感器收集的图像是模型输入，相应的降雨强度代表模型输出。

在本研究中，使用了两种不同的降雨数据类型来探索irCNN模型的性能。生成了合成降雨数据，以系统地研究irCNN在不同模型开发条件下（如不同背景和训练数据中的降雨多样性）对降雨强度进行理论建模的能力。智能手机和监控摄像头捕捉到的真实降雨图像被用来展示irCNN的实用性。根据研究结果，主要结论如下：

（1）基于合成降雨数据的结果表明，如果训练数据中包含足够的背景和降雨事件多样性，irCNN模型始终能够提供MAPE低于5.0%的准确降雨估计。研究还发现，irCNN模型的性能受到图像背景多样性和降雨事件多样性的显著影响。

（2）irCNN模型成功提供了基于智能手机和监控摄像机捕捉的图像（即降雨视频）的降雨强度估计，从而展示了其巨大的工程应用潜力。基于真实降雨图像的结果表明，irCNN模型提供的降雨量估计值的MAPE范围在13.5%~21.9%之间（平均值为16.5%）。这种平均性能超过了基于分解的识别算法[34]的相应精度（MAPE为21.8%），该算法是目前最先进的建模技术。此外，与基于分解的识别算法[34]相比，所提出的irCNN方法的计算效率明显更高（大约快20倍）。最后，Jiang等[34]的方法只能使用降雨视频来估计降雨强度，也就是说，与irCNN模型不同，它不能使用静止图像来估计降雨强度。

总之，所提出的基于图像的深度学习模型被证明在获取具有高时空分辨率的城市降雨数据方面是有效的。所提出的irCNN模型的最重要特征是其在获取城市地区高时空降雨量数据方面的低成本，因为它使用现有的传感器来收集降雨量图像。我们认为，irCNN模型为目前预测城市降雨强度的其他手段提供了一个有前景的替代方案。该模型获得的高时空数据不仅有助于实时城市洪水风险管理，还提供了一个机会来了解不断变化的环境（即由于气候变化、城市化和热岛效应）是如何影响当地城市的水文过程。

我们承认，由于一些因素，所提出的irCNN模型的广泛应用可能具有挑战性。这些因素包括：①来自各种传感器的降雨图像和用于模型训练的相应降雨强度值的可用性；②降雨图像从广泛分布的传感器到数据中心的传输效率，以便近乎实时地处理irCNN应用；以及③在各种环境条件（如白天、夜晚、相机在树下的位置）和传感器条件下的降雨图像的质量。需要进一步的研究来解决上述问题并提高irCNN模型的预测能力。此外，与所提出方法的不同方面相关的不确定性，以及与不同降雨量测量模型的综合比较（例如，Jiang等[34]），也需要在未来进行探索。未来另一个重要的方向是将地面雨量站的数据纳入所提出的模型框架，从而进一步提高其估计降雨强度的准确性。虽然降雨强度的时间和空间修正因其在不同暴雨事件中的变化而难以量化，但将其纳入所提出的模型框架可能会提高irCNN模型的预测性能。所以，这个挑战值得今后去探索。

展示更多