2021574
肺癌作为人类健康和生命威胁最大的恶性肿瘤之一[1],在我国的发病率和死亡率增长最快。早期诊断是提高患者生存率的关键[2],但是由于肺结节的直径小,早期的肺癌结节很难检测到。计算机断层扫描(CT)与其他医学诊断技术相比具有更高的准确性,因此被广泛用于检测肺结节。检查CT会花费医生的大量时间和精力,并且医生的诊断水平不一致,因此很容易出现误
诊。为了提高诊断的准确性,目前已有计算机辅助诊断(CAD)系统来辅助肺癌检测[3-4]。医生可以将结果作为判断的参考,这项技术加快了检测速度,并在一定程度上降低了误诊率[5]。
肺癌的自动检测过程分为两个步骤:(1)提取所有可疑候选结节;(2)将提取的结节分为两类(阳性和假阳性结节)。第二步中的分类对象来自第一步中的识别结
基于NRU网络的肺结节检测方法
徐麒皓,李波
武汉科技大学计算机科学与技术学院,武汉430081
摘要:肺癌的早期发现和早期诊断是提高肺癌患者生存率的关键。由于肺癌早期结节很小,目前已有的
肺结节检测系统在检测这些结节时很容易漏诊。准确检测早期肺癌结节对于提高肺癌治愈率至关重要,为了降低检测系统对早期结节的漏诊率,需要优化候选结节的提取步骤。在U-Net网络中引入残差网络的捷径,有效解决了传统U-Net 网络由于缺乏深度而导致结果较差的问题。在此改进的基础上提出了一种U型噪声残差网络NRU(Noisy Residual U-Net),通过利用跳跃层连接的特性和向卷积层添加噪声来增强神经网络对小结节的灵敏度。使用Lung Nodule Analysis2016和阿里巴巴天池肺癌检测竞赛数据集训练神经网络。U-Net和NRU之间的比较实验表明,该算法对直径为3~5mm(97.1%)的小结节的灵敏度大于U-Net值(90.5%)。
关键词:肺癌;肺结节;肺结节检测系统;噪声;残差网络
文献标志码:A中图分类号:TP391.41doi:10.3778/j.issn.1002-8331.1911-0216
Method for Detecting Pulmonary Nodules Based on NRU Network
XU Qihao,LI Bo
School of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan430081,China
Abstract:The early detection and diagnosis of lung cancer is the key to improve the survival rate of lu
ng cancer patients. Due to the small nodules in the early stage of lung cancer,the existing pulmonary nodules detection system is easy to miss the diagnosis when detecting these nodules.Accurate detection of early lung nodules is crucial to improve the cure rate of lung cancer.In order to reduce the missed rate of early nodules in the detection system,it is necessary to optimize the extrac-tion procedure of candidate nodules.The shortcut of residual network is introduced into U-Net,which effectively solves the disadvantage of poor results caused by the lack of depth in the traditional U-Net.On the basis of this improvement,a U-type noise residual network NRU(Noisy Residual U-Net)is proposed to enhance the sensitivity of neural network to small nodules by using the characteristics of hopping layer connection and adding noise to the convolutional layer.The Lung Nodule Analysis2016and Alibaba Tianchi lung cancer detection competition data sets are used to train the neural network.Comparison experiments between U-Net and NRU show that the sensitivity of the algorithm to small nodules with a diameter of3-5mm(97.1%)is greater than that of U-Net(90.5%).
Key words:lung cancer;pulmonary nodules;pulmonary nodules detection system;noise;residual network
⦾模式识别与人工智能⦾
基金项目:国家自然科学基金(61572381)。
作者简介:徐麒皓(1994—),通信作者,男,硕士研究生,研究方向为计算机视觉、机器学习、医疗图像处理,E-mail:491918435@qq.
com;李波(1975—),男,博士,教授,CCF会员,主要研究方向为机器学习、模式识别、图像处理。
收稿日期:2019-11-15修回日期:2020-02-16文章编号:1002-8331(2021)04-0083-08
83
2021574果,因此所有阳性结节都应在第一步中进行识别。在候选结节的提取过程中,之前的研究已经优化了基于形状的CAD 系统。
传统的CAD 是基于阈值调整和形态学检测的图像检测技术,在实践中通常忽略了低密度的毛玻璃不透明区域[6]以及靠近外部组织的边缘结节。传统的CAD 特征分类技术对范围过大的肺结节无法保持良好的
检测率,导致基于形状的CAD 系统对结节检测的准确性降低。与基于形状的CAD 系统相比,U-Net 神经网络在医学图像分析过程中可以实现精确的像素级定位[7]
,在原始图像中根据是否有结节对所有像素进行分类,然而小结节在检测过程中很容易被忽略。为了解决这个问题,本文提出一种U-Net 网络的改进方法NRU (Noisy Residual U-Net )。该方法在训练过程的隐藏层中添加了与神经元相关的特殊噪声,利用残差网络中跳跃层连接结构的特性,噪声影响随着隐藏层深度的加深而不断增加,有效提升了肺结节的识别精度。与传统的U-Net 相比能够更准确地识别小结节,漏诊率极低。
1数据集
本文神经网络使用Lung Nodule Analysis 2016
(LUNA16)[8]
和阿里巴巴天池竞赛数据集[9]进行训练。
LUNA16数据集来自肺部图像数据库协会[10],它包含888个CT 和1186个阳性结节。图1显示了数据结节直径分布的直方图,大多数结节直径为4~8mm ,平均直径为8.3mm 。阿里巴巴天池竟赛数据集包含800个CT ,包括1244个阳性结节。图2显示了结节的直径分布直方图,平均结节直径为10.0mm 。
由于训练数据中结节的直径范围较大,使用上述数据训练的神经网络在面对各种大小的结节时都可以得出很好的结果。上述数据集中的切片大小和数量是不固定的,大多数CT 切片为512×512像素,故本文将图像处理为512×512像素。
2方法
本文提出的NRU 肺结节检测网络创新点主要有两
方面:一方面利用神经网络对输入图像分析的不连续性,通过在隐藏层中添加与神经元相关的特殊噪声来实现误导;另一方面通过添加残差网络的捷径对传统的特征提取方法进行优化,能够保留更多高层特征图中的低分辨率信息,提升了对小结节识别的灵敏度。
2.1预处理
预处理通过提高图像质量来提升系统的整体精
度。为了在降噪后去除背景的干扰,采用阈值法[11]和形态学相关方法对图像进行处理,得到真实的肺图像[12]。
2.2NRU 原理
NRU 是在U-Net 的基础上改进的。原始U-Net 模
型虽然易于训练,但由于缺乏深度,在一定程度上影响了预测结果的准确性。NRU 网络通过叠加残差块来增加整个网络的深度,每个块包含“捷径连接”和“标识映射”,每个残差块用下式表示:
X l +1=H (X l )+F (X l ;ωl ,k )
(1)
其中,X l 和X l +1表示第l 个残差块的输入和输出,ω为残差块的权值,
k 为每个残差块包含的加权层数。函数H 是一个恒等映射H (X l )=X l ,与传统结构不同的是将线性整流函数(ReLU )和批量归一化(BN )作为权重层的“预激活”,具体残差块设计如图3所示。
NRU 和U-Net 之间的区别在于NRU 将特定噪声添加到卷积和反卷积层中,卷积层公式如下:
g (x )=BN (conv (x )+b )
(2)f (x )=σ(g (x ))+Y ×(g (x ))2,Y~(0,α)
(3)
式(3)中,Y 表示截断正态分布随机张量[13],其形状与x
相同。Y 是一个外部定义平均值为0且标准偏差为α的常数。Y 的概率分布如图4所示,可以通过调整α大小来调整卷积层中的噪声幅度。以Y ×(g (x ))2作为噪声输入,将Y ×(g (x ))2与σ(g (x ))相加得到输出值f (x )。
NRU 的反卷积层操作表示如下:
g (x )=BN (dconv (x )+b )
(4)f (x )=σ(g (x ))+Y ×(g (x ))2,Y~(0,α)
(5
5
10
1520
25
30
Diameter/mm
25020015010050N u m b e r 0
图1
LUNA16
数据集结节直径分布
5
10
15202530
35
40
Diameter/mm
200175150125100755025N u m b e r 0
图2阿里巴巴天池竞赛数据集结节直径分布
BN
ReLU Weight
BN ReLU Weight
+
图3残差块
84
2021574使用带泄露修正线性单元(Leaky ReLU )[14]
函数作
为激活函数σ,如图5所示,它可以改善神经网络传递的梯度并防止神经元死亡。为了避免由噪声引起的输出结果的不确定性,在测试和使用神经网络的过程中,应将式(3)和(5)中的截断正态分布的标准偏差α设置为0。与U-Net 相比,NRU 计算量略高于U-Net 。
Leaky ReLU 的输入输出关系如图6所示,NRU 中输入g (x )和输出f (x )之间的关系如图5所示,数据分布(直线)和数据分布范围(虚线)由式(3)和(5)中截断正态分布的标准偏差α控制,这种函数关系类似于ReLU 激活函数[15]。噪声函数的幅度与(g (x ))2正相关,g (x )的绝对值越大,噪声对f (x )的影响就越大,神经元
置信度越低。神经网络通过将神经元的绝对值降到最低来保证输出受到的噪声影响最弱,也可以通过限制模型空间并将神经元限制在较小的范围内,对神经网络具有一定的正则化效果。这种通过向隐藏层添加随机噪声的方法也可以将其视为数据增强[16]。
当Y 的标准偏差增加时,会导致模型鲁棒性增强的同时神经网络的有效容量变小,训练速度变慢。因为α越小神经网络越容易拟合,类似于丢弃正则化[17]公
式(3)和(5)不能在最大池化层之前使用,通过设置一个合适的α值,以使神经网络收敛更快而不会过拟合[18]。由于在训练过程中添加到隐藏层的噪声会增加神经元的数量,故训练时在隐藏层之后直接用最大池化使隐藏层输出的平均值高于测试的最大值,如图7所示。由于使用不同的数据分布会导致神经网络的性能低下,为了获得更好的性能,在构建NRU 时不能将噪声添加到最大池化前的卷积层中。
2.3网络结构
在图8中,除了卷积层(蓝箭头)和池化层(红
箭头)外,每个隐藏层都进行了批量归一化,使用Leaky ReLU 作为激活函数。所有黄或绿箭头表示的卷积和池化层都会添加噪声,这种神经网络的显著特点是同时具有跳跃连接和非跳跃连接。在U-Net 网络中隐藏层被池化的次数越多,其面积就变得越小,如图8所示。每个神经元包含的信息来自输入图像神经元中较大的区域,也就是隐藏层神经元所包含的信息是底层神经元中包含高级特征的概括。如图9所示网络中神经元的黄部分被较小的神经元高度概括,而右边的神经元则包含更多高级特征。
通常神经网络对小结节的识别取决于隐藏层中包含的基本特征,而对大结节的识别则取决于高级特征[19]。出现这种情况的原因如下:
(1)在合并过程中,神经网络丢失部分信息容易导致小结节上的信息丢失,并最终导致网络的判断结果出错。在识别小结节的过程中仅需要分析原始图像中的小区域,因此神经网络对小结节的识别必须依赖于底层特征。
(2)在大结节的识别过程中对原始图像的高级特征进行分析。因为相对较大的结节会导致收集信息量增加,在池化过程中丢失的信息对判断结果的影响很小,所以神经网络对大结节的识别必须依赖高级特征。
NRU 结构与U-Net 相同,如图8所示,该结构具有
跳跃式连接,可以跳过池化并传输更完整的信息,以便神经网络对较少的图像特征进行操作。在神经网络的非跳跃式连接中,神经元通过与隐藏层的有效合并对原
-2α
Expectation
Histogram of normal mean =0,StandardDeviation =α图4中间期望与截断正态分布概率的关系
-6
-4
-2
02
4
6
g (x )
64
20-2
f (x )
图5NRU 输入g (x )和输出f (x )之间的关系
-6
-4
-2
2
4
6
x
6543210-1
σ(x )
图6Leaky ReLU 激活函数
Add noise
Max pooling
Training
+-0.10.20.0-0.1
1.01.4
1.2
1.50.91.6  1.21.4
1.6
1.01.4
1.21.5
1.5
Max pooling
Using
(a )添加噪声
(b )不添加噪声
图7
在Max Pooling 后向隐藏层添加或不添加噪声的效果
85
2021574Pooling
Pooling
Pooling Pooling
512×512
128×128
64×64
32×32
16×16
图9隐藏层的池化过程
(黄区域是绿隐藏层的一部分)
始图像中更大范围的数据进行分析,并根据从中提取的高级特征进行操作。这也意味着神经网络可以直接保存原始图像的高级特征并进行判断,同时也体现出对高级特征的过度依赖,导致神经网络无法很好地识别小结节。
神经网络的语义信息独立地保存在每一个神经元内,特别是在隐藏层中每一个神经元都可以作为数据的一个语义特征,神经网络对输入图像的分析是不连续的,因此通过这个特点可以在原始图像上添加一种特定噪声来实现误导。模型通过反向传播学习得到的数据拥有非直接的特性,对小结节的识别主要通过NRU 网络在训练中逐层增加特定噪声,噪声的影响随着隐藏层的加深不断增大,能够使得网络在每一级的上采样过程中,将编码器对应位置的特征图在通道上进行融合。通过底层特征与高层特征的融合,网络能够保留更多高层特征图蕴含的低分辨率细节信息,从而提高了小结节的识别精度。
神经网络在识别小结节时倾向于使用跳跃层连接,而在识别大结节时倾向于使用非跳跃层连接,以免因过
度依赖高级特征而错过小结节诊断。本文所设计的NRU 网络系统能够满足这一需求。该网络的跳跃层连
接等于跳过了部分隐藏层,这使得此连接传输的信息受噪声影响较小且具有较高的置信度。同样由非跳跃层连接的隐藏层发送信息受噪声的影响很大且置信度较低,因此NRU 可以很好地识别小结节更多地取决于跳跃层连接类型的信息。大结节由于信息量大且易于识别,导致噪声对信息的影响很小,因此非跳跃式连接中的隐藏层在识别大结节时仍然可以很好工作。
2.4损失函数
利用损失函数来度量模型预测值与真实值之间的
差别程度。在本实验中采用了Dice 相似系数作为损失函数,Dice 相似系数是一个相似性度量函数,
其定义如下:Loss =1-Dice (6)Dice =
2|
|X ∩Y ||X ∪|
|Y (7)
其中,X 表示预测值,Y 表示真实值。||X ∩Y 表示两
个集合的交点,
||X ∪||Y 表示两个集合的全部。可以得出两个样本越相似,系数值越接近1,Dice 系数越大的同时损失越小,模型的鲁棒性越好。
3实验
NRU 使用轴切片代替整张图片作为输入,从而极
大减少了计算开销。输入图像的大小为512×512×7,但训练时使用的是从原始图像中截取的64×64×7图
71616167
512×512
512×512
512×512
512×512
512×512Skip
output
Skip
1632
512×512
16
128
2
1282
128×128
Skip
Skip 642
642
3232
32
642
642
3232
32321282
1282
512×512
16
1
28×128
32
64×64
32
32×32
3232
32
2
32
322
32
322
32
64×64
16×16
64
162×32
noisy conv 3×3leaky relu
conv 3×3leaky relu max pool 2×2
noisy dconv 2×2leaky relu conv 3×3Sigmoid add
图8
NRU 网络
86
2021574
像。如果图像太大会导致计算量随之增加,同时训练速
度变慢甚至出现无法训练的情况。用小图像训练后,理
论上训练速度可提高64倍。基于U-Net架构的网络对
输入图像大小没有严格的限制,可以根据输入图像的大
小调整每个隐藏层的大小。
本文采用平移和旋转两种方法对样本数据进行增
强[20],由于在处理图像时均是以结节中心作为中心进行
剪切,使得结节出现位置过于单一。因此在截取时将图
像中心坐标于横向或纵向随机平移0~10个单位,得到
一系列既含有结节且结节不在中心处的新图像。同时
为了获取不同成像条件下的结节图像,又对图像进行旋
转操作,进一步扩充样本。
对于坐标为(x,y)的点,平移操作后的坐标为(x′,y′),
其表达式如式(8)所示;旋转操作后的坐标为(x″,y″),
表达式如式(9)所示:
ìíîx′=x+Δx×k1
y′=y+Δy×k2(8)
ìíîx″=x×cosθ+y×sinθ
y″=-y×sinθ+y×cosθ(9)
式(8)中k1、k2分别为图像在横向或纵向上平移的单位数量,这里k1、k2取-10~10之间的整数,Δx、Δy是横向、纵向像素点的单位间距。式(9)中θ为图像逆时针旋转的角度,本文选取θ值为90°和180°。使用该方法扩增后样本量如表1所示,对3~5mm的小结节扩大4倍,对5~10mm的中结节扩大3倍,对大于10mm的大结节扩大3倍,提高了测试的准确性。
实验使用TensorFlow建立一个神经网络,在NVIDIA GTX1080Ti GPU上运行。共进行了2万次训练,每批16张,每100次后设置一个检查点。在这个实验中,将阿里巴巴天池竞赛数据集和LUNA16数据集进行数据混合后平均分成10份。使用两个评估标准来分析检测网络结构的性能,第一种使用Dice相似系数
来评估预测结果,当Dice系数的预测值和实测值都大于50%时判别为命中。第二种使用自由响应接收机工作特性(FROC)对结节检测性能进行了分析。
3.1NRU性能影响评估
改变噪声幅值α可以对训练结果产生影响,将α训练为[0.050、0.075、0.100、0.125、0.150]时FROC曲线如图10所示。当FROC曲线的横坐标大于150时,灵敏度趋于稳定且阈值β≤0.3,当α=0.100时,神经网络具有最佳性能。
3.2U-NET和NRU的性能比较
在设计NRU实验的同时创建了3个基于U-Net结构的控制实验。它们的区别如表2所示,训练数据、神经网络通道数和NRU配置相同。其中U-Net1代表没有任何正则化的U-Net网络,U-Net2代表通过传统正则化方法优化的U-Net网络,U-Net3代表使用另一种噪声作为正则化方法的残差U-Net网络。通过比较这3个实验来证明NRU比U-Net对结节识别更敏感。
3个实验的卷积和反卷积层对应于式(3)和(5)的运算被式(10)代替:
f(x)=σ(g(x))(10)由于加入残差块可以加深网络的深度,NRU网络的训练参数比普通U-Net网络多,如表3所示,NRU网络分割效果明显高于其他U-Net网络,其分割效果提高了约8%,可以看到传统U-Net1
分割误差较高。
经过神经网络训练后对NRU和3个U-Net网络进行图像测试,并计算出4个网络的FROC曲线,如图11所示。图12列出了NRU和3个U-Net在测试集上生成的
肺结节直径/mm 样本数量3~5
1936
5~10
3693
10+
525
表1扩增后样本数量
0255075100125150175200
Number of false positives per scan
1.0
0.9
0.8
0.7
0.6
0.5
0.4
S
e
n
s
i
t
i
v
i
t
y
α=0.050
α=0.075
α=0.100
α=0.125
α=0.150
图10α值对应的FROC曲线
Network
U-Net1
U-Net2
U-Net3
NRU
Activation function
Leaky ReLU
Non Leaky ReLU
RReLU
Leaky ReLU
Other regularization methods
Non
L2regularization
Non
Special noise
表2四种不同网络的实验结果比较
Network
U-Net1
U-Net2
U-Net3
NRU
Training parameters
8746531
8631841
8993157
8812837
Dice coefficient/%
66.00
67.05
69.73
73.90
表3四种不同实验比较
0255075100125150175200
Number of false positives per scan
1.0
0.9
0.8
0.7
0.6
0.5
0.4
S
e
n
s
i
t
i正则化网络
v
i
t
y
U-Net1
U-Net2
U-Net3
NRU
图11四类神经网络的FROC曲线
87

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。