(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201710411683.3
(22)申请日 2017.06.05
(71)申请人 杭州健培科技有限公司
地址 310018 浙江省杭州市杭州经济技术
开发区3号大街3号
(72)发明人 孔海洋 程国华 季红丽 
(51)Int.Cl.
G06T  7/00(2017.01)
G06T  3/40(2006.01)
(54)发明名称一种基于3DCNN的肺结节假阳性样本抑制方法(57)摘要本发明公开了一种基于3D  C N N  (Convolutional  Neural  Networks ,卷积神经网络)的肺结节假阳性样本抑制方法,包括如下步骤:1) 对肺部CT通过插值进行3D重建;2) 根据待抑制的样本坐标,从重建数据中切出固定大小的立方块,将其归一化,并对阳性样本进行扩充,将阴阳性样本一起作为3D  CNN的训练数据;3) 使用训练样本训练3D  CNN模型;4) 训练模型时对标准的损失函数进行加权修正,对阴阳性样本分别赋予不同权值。循环迭代训练网络,最终得到3D  CNN模型。本发明提供的基于3D  CNN训练模型的方法,一方面有效利用肺部CT数据的三维特征,能够最大程度上反映样本信息;另一方面通过对模型训练时的损失函数进行加权,完美解决了真假样本不均衡的问题,因而能够训练出肺结
节识别效果很好的模型。权利要求书2页  说明书6页  附图3页CN 107154043 A 2017.09.12
C N  107154043
A
1.一种基于3DCNN的肺结节假阳性样本抑制方法,其特征在于,包括如下步骤:
a)从肺部CT影像序列数据中检测肺结节候选点坐标;
b)对原始的DICOM图像进行插值,得到插值后的3D原始图像数据;
c)对此前检测得到的候选点坐标,按照如上b) 插值步骤进行相应处理,将其映射到插值后的3D原始图像数据上;
d)对于每个候选点,根据其转换后的坐标,从插值后的3D原始图像数据中切出3D数据,作为训练样本;
e)根据每个候选点的坐标,与原始图像中的标签(label)进行对应,为步骤c) 中切出的每一个3D数据贴上相应的label;
f)使用准备好的3D数据训练3D CNN网络;
g)使用训练得到的3D CNN模型对候选点进行假阳性抑制。
2.根据权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤b) 中对原始DICOM图像进行插值,将Z方向的切片间隔(spacing)插值为与X、Y方向的像素间隔相等,即在插值完成后,X、Y、Z三个方向的间隔相等。
3.根据权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤d) 中,根据转换后的候选点坐标,从插值后的3D原始图像数据中切出3D数据,切出数据的长宽高(X、Y、Z方向)均为40像素,即数据大小为40×40×40;
随后对切出的数据进行如下处理:将小于-1000HU的数据置为-1000HU,将大于400HU的数据置为400HU,并将处理后的图像数据归一化到0到1之间;
如果候选点为阳性样本,则还需要对其进行数据扩充(augmentation),扩充方式包括平移、缩放和旋转等;
对每一个阳性样本扩充个数大约为阴性样本总数除以原始阳性样本个数(如果所除结果不是整数,则取最近的整数),以使得扩充后的阴阳性样本均衡。
4.根据权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤e) 中,为每一个3D数据贴上相应的label:如果候选点距任意一个结节的外接边框(bounding box)中心点的距离小于该结节的半径,则候选点的label为1;否则,该候选点的label为0。
5.根据权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤f) 中,使用准备好的3D数据训练3D CNN网络,网络结构如下:
输入为40×40×40大小的3D数据,逐步通过以下网络层进行处理:
卷积层1:16个大小为3×3×3的卷积核
PreLU层1
最大池化层1:大小为2×2×2的池化核
卷积层2:32个大小为3×3×3的卷积核
PreLU层2
最大池化层2:大小为2×2×2的池化核
卷积层3:64个大小为3×3×3的卷积核
PreLU层3
最大池化层3:大小为2×2×2的池化核
卷积层4:128个大小为3×3×3的卷积核
PreLU层4
最大池化层4:大小为2×2×2的池化核
输出数据拉伸为大小为128×2×2×2即1024的一列数据
全连层1:大小为1024×32的核
Dropout层:Drop概率为0.5
全连层2:大小为32×2的核
Softmax层
得到的输出,即为输入样本分别属于阴阳性样本的概率。
6.如权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤f) 中3D CNN网络模型中权值参数的初始化使用K He等提出的初始化激活函数为ReLU的神经网络的方式完成,该方法以方差为输入到当前层的神经元个数的倒数的2倍的截断高斯分布小随机数来初始化当前层的权值参数,如下:
var = 2/N in。
7.如权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤f) 中训练3D CNN模型时,其loss函数如下:
loss = weighted_sparse_softmax_cross_entropy + l1_l2_regularizer
其中,weighted_sparse_softmax_cross_entropy为加权稀疏交叉熵损失函数,其通过如下方式构建:
对于原始的阳性样本,计算其标准的稀疏交叉熵损失函数得到损失值,并乘以一个权重,将所得乘积作为该样本的损失值;
对于其他样本,使用标准的稀疏交叉熵损失函数,计算其损失值;
对于任一batch的所有样本,将使用以上方法得到的加权损失值和不需加权的原始损失值求和,将其作为该batch最终的加权稀疏交叉熵损失函数值;
其中公式中的l1_l2_regularizer为对3D CNN模型中的各可训练参数如权值和偏差添加L1和L2正则化项,以保证训练得到的参数的稀疏性,并保证其具有较小值,从而达到抑制模型过拟合的目的。
8.如权利要求1所述的肺结节假阳性样本抑制方法,其特征在于,所述步骤f) 中训练3D CNN模型时,其学习速率设定一个初始值0.01,随后随着训练过程进行衰减调整,在训练的一个epoch中衰减5次,每次变为原来的学习速率的0.95倍。
一种基于3DCNN的肺结节假阳性样本抑制方法
技术领域
[0001]本发明属于医学影像的智能诊断领域,尤其涉及一种基于3DCNN的肺结节假阳性样本抑制方法。
背景技术
[0002]肺结节的检测对于肺部CT影像的处理十分关键,它是肺癌在早期状态的一种主要表现形式。而对于肺结节进行有效的早期检测和筛查能显著提高肺癌患者的五年存活率,因此具有十分重要的研究价值和意义。
[0003]虽然目前随着CT影像技术和各种新型诊断、检测手段的出现和发展,以及各种新型CT技术的出现,使得肺癌的诊断相比之前变得相对容易,但因为在早期发现癌症仍然不易,而且新型CT技术,如多排CT产生数量巨大的CT片子,会给影像科医生的阅片增加繁重负担,在高强度的工作下,造成漏诊率偏高;再者,即使医生给出了结果,但对初期恶性肿瘤的误诊率较高,常常使得病人疏于防范,仍然不能在早期发现肺癌病例,造成发现时已经很难治愈。
正则化可以产生稀疏权值[0004]为了把影像科医生从繁重的阅片负担中解脱出来,众多科研人员先后研制了肺部影像计算机辅助诊断系统,即肺部CAD (Computer Aided Diagnosis,计算机辅助诊断),辅助医生进行肺结节检测、肺结节良恶性判断等工作。
[0005]当前相关研究领域中基于肺部CT影像进行计算机辅助肺结节的自动检测系统一般包括两个关键步骤:
第一步是肺结节候选点检测,即通过一些阈值规则进行粗略的候选区域筛选,这些候选区域中,包含肺结节的则定义为阳性样本,否则定义为阴性样本或假阳性样本。[0006]第二步是假阳性样本抑制,即通过训练一个合适的肺结节分类器,对正负样本进行分类,最终选择出真正包含结节的候选区。
[0007]通常情况下,由第一步检测得到的候选点中除了真实的阳性样本外,还会包含大量的假阳性样本,选用合适的技术方案对候选点中的假阳性样本进行抑制,是提高肺结节检测系统精度的重要步骤和手段。
[0008]目前的假阳性样本抑制方法多基于传统的图像处理方法,这些方法基于阳性样本和假阳性样本之间的区别,通过人工选择和设计的特征来设计分类器,对真假阳性样本进行分类,从而达到假阳性样本抑制的效果。但肺结节的真假阳性样本区分度十分不明显,人工选择和设计能够将其区分开来的特征任务复杂,往往需要具有丰富专业知识的研究者长达数年的研究,才能选择出符合任务需求的特征,建立分类器;而一旦任务发生了变化,已经选择和设计的特征失效,还需要根据新任务的特点选择和设计新的特征。如此研究,耗费大量的人力物力,还不能取得令人满意的效果。
[0009]深度学习是近年来随着各类研究中数据量的增大、计算机计算能力的增强以及人工神经网络模型中的一些关键技术的推演而由传统人工神经网络发展来的具有强大拟合和泛化能力的分析模型。因为其不需要研究者手动选择和设计特征,能够根据不同的具体
应用自动对图像中的特征进行分析提取,深度学习在图像分析处理中获得了广泛应用,并取得了很大成功。比如在经典的ImageNet图像分类识别比赛中,深度学习如今已经具有统治地位,基于深度学习而开发的算法已经获得了超越人类水平的结果[1][2]。
[0010]对CT影像进行肺结节检测和假阳性抑制是一个典型的图像处理中的识别和分类任务,使用基于深度学习技术而研发的3D深度网络能够综合分析肺结节的3D图像特征,并通过对损失函数的加权操作巧妙地解决真假阳性样本不均衡的问题,从而训练出对肺结节特征进行有效提取并对真假阳性样本精准分类的3D深度神经网络模型,解决这一肺部CAD 系统中的重要问题。
发明内容
[0011]本发明的目的在于提供一种基于3DCNN的肺结节假阳性样本抑制方法,旨在通过训练3D CNN模型对肺部CT图像中检测到的肺结节候选点进行假阳性抑制,以达到准确检测肺结节,从而筛查早期肺癌,提高潜在肺癌病人的生存可能性。
[0012]为实现上述目的,本发明提供的基于3DCNN的肺结节假阳性样本抑制方法包括以下步骤:
a)从肺部CT影像序列数据中检测肺结节候选点坐标;
b)对原始的DICOM图像进行插值,得到插值后的3D原始图像数据;
c)对此前检测得到的候选点坐标,按照如上b) 插值步骤进行相应处理,将其映射到插值后的3D原始图像数据上;
d)对于每个候选点,根据其转换后的坐标,从插值后的3D原始图像数据中切出3D数据,作为训练样本;
e)根据每个候选点的坐标,与原始图像中的标签(label)进行对应,为步骤c) 中切出的每一个3D数据贴上相应的label;
f)使用准备好的3D数据训练3D CNN网络;
g)使用训练得到的3D CNN模型对候选点进行假阳性抑制。
[0013]进一步地,所述步骤b) 中对原始DICOM图像进行插值,将Z方向的切片间隔(spacing)插值为与X、Y方向的像素间隔相等。这样,在插值完成后,X、Y、Z三个方向的间隔相等。
[0014]进一步地,所述步骤d) 中,根据转换后的候选点坐标,从插值后的3D原始图像数据中切出3D数据,切出数据的长宽高(X、Y、Z方向)均为40像素,即数据大小为40×40×40。随后对切出的数据进行如下处理:将小于-1000HU的数据置为-1000HU,将大于400HU的数据置为400HU,并将处理后的图像数据归一化到0到1之间。如果候选点为阳性样本,则还需要对其进行数据扩充(augmentation),扩充方式包括平移、缩放和旋转等。对每一个阳性样本扩充个数大约为阴性样本总数除以原始阳性样本个
数(如果所除结果不是整数,则取最近的整数),以使得扩充后的阴阳性样本均衡。
[0015]进一步地,所述步骤e) 中,为每一个3D数据贴上相应的label:如果候选点距任意一个结节的外接边框(bounding box)中心点的距离小于该结节的半径,则候选点的label 为1;否则,该候选点的label为0。
[0016]进一步地,所述步骤f) 中,使用准备好的3D数据训练3D CNN网络,网络结构(如图

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。