第54卷 第9期 2021年9月
天津大学学报(自然科学与工程技术版)
Journal of Tianjin University (Science and Technology )
V ol. 54  No. 9Sep. 2021
收稿日期:2020-06-18;修回日期:2020-08-31.  作者简介:史再峰(1977—  ),男,博士,副教授.  通信作者:史再峰,******************.
基金项目:国家自然科学基金资助项目(62071326,61674115).
Supported by the National Natural Science Foundation of China (No. 62071326,No. 61674115).
DOI:10.11784/tdxbz202006048
基于SDN-GMM 网络的低剂量双能
CT 投影数据去噪方法
史再峰1, 2,李慧龙1,程 明1,曹清洁3,王子菊1
(1. 天津大学微电子学院,天津 300072;2. 天津市成像与感知微电子技术重点实验室,天津300072;
3. 天津师范大学数学科学学院,天津 300387)
摘 要:低剂量双能计算机断层扫描成像(DECT )技术可以在提供人体内部结构及组织成分信息的同时减少X 射线辐射剂量. 然而,剂量的降低会导致DECT 重建图像中出现大量的噪声及伪影,从而影响对疾病的精确诊断. 为实现在低剂量条件下重建出高质量的DECT 图像,提出了一种采用混合高斯模型的正弦图去噪网络来进行伪影及噪声消除. 该网络由两部分构成:一部分通过残差学习以有监督的方式对校准后低剂量与正常剂量下DECT 投影数据的映射关系进行拟合;另一部分采用混合高斯模型以无监督学习的方式提取DECT 投影数据中噪声的分布模型. 采用这种监督与无监督学习结合的方式,不仅可以利用卷积运算的特征提取能力来拟合输入与标签之间任意复杂的映射关系,还可以在无标签约束的情况下,利用输入投影数据的自身分布规律来提高网络模型去噪性能及其泛化能力. 实验使用了XCAT 生成的10名不同人体DECT 投影数据对网络模型进行训练及测试. 实验结果表明,与正常剂量下获得的重建图像相比,该方法所获得的去噪后图像均方根误差值低于6×10-
3,峰值信噪比以及结构相似性指数分
别超过36.7dB 和0.992. 相比于目前先进的低剂量CT 噪声去除方法,该方法得到的DECT 重建图像中组织结构更加清晰,并且可保留更多的细节信息,可为后续医疗诊断提供精准参考.
关键词:双能计算机断层扫描成像;低剂量;残差学习;无监督学习;混合高斯模型 中图分类号:TP391.4      文献标志码:A        文章编号:0493-2137(2021)09-0899-08
A Projection Data Denoising Method Based on SDN -GMM Network
for Low -Dose Dual -Energy Computed Tomography
Shi Zaifeng 1, 2,Li Huilong 1,Cheng Ming 1,Cao Qingjie 3,Wang Ziju 1
(1. School of Microelectronics ,Tianjin University ,Tianjin 300072,China ;
2. Tianjin Key Laboratory of Imaging and Sensing Microelectronic Technology ,Tianjin 300072,China ;
3. School of Mathematical Sciences ,Tianjin Normal University ,Tianjin 300387,China )
Abstract :Low-d ose d ual-energy computed  tomography (DECT )has the potential to provid e information on human
internal structure and tissue components and to reduce X-ray radiation. However ,dose reduction oft
en leads to ex-treme noise and artifacts in reconstructed images ,which dramatically affects the accuracy of the diagnosis. In order to obtain high-quality reconstructed images from low-dose DECT projection data ,a noise reduction network called si-nogram denoising network with Gaussian mixture model (SDN-GMM )was proposed to eliminate artifacts and noise. Further ,this network consists of two learning parts :the supervised and the unsupervised. In the supervised learning part ,the relationship between calibrated low-dose and normal-dose projection data was determined by residual learn-ing ,while the unsupervised learning part extracted the noise distribution of DECT projection data via Gaussian Mix-ture Model. The combination of supervised and unsupervised learning not only can take full advantages of the feature
·900·天津大学学报(自然科学与工程技术版)第54卷 第9期
extraction capability from convolution operation to suit any complex mapping relationship between the input and the label but can also make full use of the input data property to further enhance the efficiency and robustness of the net-work model. In the experiment,the DECT projection data from 10 different people acquired from XCAT were used to train and test the proposed network model. Compared with the normal-dose reconstructed images,the results revealed that the root-mean-square error(RMSE)value is lower than 6×10-3,and the peak signal-to-noise ratio(PSNR)and the stru
ctural similarity index measure(SSIM)are higher than 36.7 dB and 0.992,respectively. On the other hand,compared to the current advanced low-dose CT noise reduction methods,the DECT reconstructed images produced by proposed method have clearer tissue structure and can retain more detailed information,which will be more valu-able for medical diagnosis.
Keywords:d ual-energy computed tomography;low d ose;resid ual learning;unsupervised learning;Gaussian mixture model
计算机断层扫描成像(computed tomography,CT)由于可以提供患者的解剖结构信息,现已成为现代医学实践中必不可少的工具[1].相比于传统CT,双能CT(dual-energy CT,DECT)能够同时获得两个不同能量段下的衰减信息,进而在实现更加准确物质识别的同时,提供定量的组织信息.然而,在CT检查过程中较高的辐射剂量会增大患癌风险[2],但降低辐射剂量又会在探测过程中引入更多的噪声,从而影响疾病诊断.因此,目前已经提出了许多方法来改善低剂量条件下CT图像的质量,主要可以分为3类:图像重建之前对投影数据中噪声进行建模分析的投影数据滤波算法[3],直接对重建后的CT图像进行噪声及伪影去除的图像后处理算法[4],以及通过添加先验信息实现低剂量CT图像迭代重建的方法[5].这类传统方法虽然可以在一定程度上去除重建后图像中的噪声及伪影,但是在CT探测过程中往往存在一些无法精准预测的随机噪声,因此该类方法的性能受到了一定程度的限制.相比于正常剂量下获得的图像依然存在图像分辨率下降以及边缘模糊等问题.近几年随着深度学习技术的广泛应用[6-7],越来越多通过监
督学习实现低剂量CT图像去噪的方法被提出[8].对于监督学习而言,标签的存在使得任意复杂的映射关系都可以通过网络不断的参数更新进行拟合,这极大地提升了对图像中噪声识别的准确性.Chen等[9]成功开发了带有残差学习的卷积自动编解码网络从而实现了从低剂量到正常剂量CT图像的转换.Wolterink等[10]将生成对抗网络应用于低剂量CT去噪,最终获得了十分接近正常剂量下的重建图像.此外,使用混合损失函数作为网络训练目标的方法也被证明可以在图像细节保留方面取得突出的效果[11-12].然而,受限于该领域可用数据集的数量,这些基于深度学习的方法在临床应用中的鲁棒性仍然是个问题.研究表明[13]某些干扰或噪声可能会误导网络的输出结果,导致无法检测到组织的已有病变.此外,由于监督学习的目的在于拟合输入和标签之间的映射关系,网络在训练过程中可能会忽略输入数据自身的分布规律,进而导致训练好的网络模型在测试集上效果不佳.尤其对于DECT而言,两个能量区间下获得的扫描数据具有高度的空间相关性和结构相关性,这些信息十分有利于对剂量降低产生的噪声进行精确识别.
因此,为了充分利用DECT投影数据分布信息以及在能谱维度上的信息相关性,本文提出一种结合混合高斯模型的DECT正弦图噪声去除网络(sinogram denoising network with Gaussian mixture model,SDN-GMM)实现低剂量DECT图像重建.该网络由无监督学习与监督学习两部分组成.由于经过校准后的CT投影数据近似服从高斯分布[14],混合高斯模型可以在无标签的情况下对噪声建模,与此同时,网络另一部分通过监督学习的方式提取噪声模型.将传统方法与基于学习的方法相结合有利于融合两种方
法的优势,在精确拟合输入与标签之间复杂数据分布的同时,提高网络模型的鲁棒性.最终实现对投影数据噪声分布的精确模拟,从而在低剂量条件下重建出高质量的DECT图像.
1 DECT投影数据噪声去除方法
1.1 降噪模型
假设2××
∈h w
i
x R表示低剂量条件下获得的DECT 投影数据矩阵,2××
∈h w
i
y R表示与之对应正常剂量下的投影数据矩阵.降噪的目标是通过一个映射函数22
:××××
h w h w
F R R实现将低剂量DECT投影数据分布转化为噪声较少的接近正常剂量下得到的数据分布,其转换关系如式(1)所示.
正则化项鲁棒性
()1,2,,
==
i i
F i N
y x(1)
2021年9月            史再峰等:基于SDN-GMM 网络的低剂量双能CT 投影数据去噪方法            ·901·
式中N 表示投影矩阵数量.然而,由于投影数据中的噪声通常是量子噪声与电子噪声的混合,尤其对于DECT 而言,两种不同能量下的噪声分布存在差异,因此很难仅仅通过传统噪声模型对复杂的噪声分布
进行精确建模.基于深度学习方法可以凭借强大的特征提取能力学习到任意的数据分布规律,其去噪性能只取决于训练样本而与噪声类型无关.因此本文通过结合传统噪声模型与深度学习的方式对DECT 投影数据中复杂的噪声分布建模,最终实现高质量的图像重建. 1.2 SDN -GMM 噪声去除方法
示,为了网络在学习过程中可以充分利用不同能量区间数据的能谱相关性以及空间相关性,首先将低剂量DECT 高能区间与低能区间的投影数据矩阵叠加成双通道的三维矩阵,之后输入到由无监督学习与监督学习两部分构成的残差网络进行噪声去除.其中,使用混合高斯模型在无标签的情况下实现投影数据噪声建模,同时,通过最小化L 1损失函数使网络的输出尽可能地接近标签的数据分布.最终将去噪后的投影数据通过滤波反投影算法(filtered back projection ,FBP )进行重建,得到高质量的DECT 诊断图像.  由于在临床X 射线探测系统中,除对数变换外,
图1 SDN -GMM 方法整体结构
Fig.1 Overview structure of SDN -GMM
像质量,而校准后的投影数据近似服从高斯分布.因此,可以使用混合高斯模型对噪声分布建模,如式(2)所示.    1
(())((()),)πμΣ=−∼−∑K
i i k i i k k k F N F x x x x (2)
式中:k π表示混合系数;k μ和Σk 分别代表高斯分布模型的均值和方差;K 表示混合的高斯模型个数.该混合模型可以通过调整这些参数来拟合任意的数据分布,因而十分适用于对不同能量下的投影数据噪声进行建模.此外,为了进一步消除输出数据中所残留的无法精确建模的随机噪声及伪影,笔者在模型中添加了总变分(total variation ,TV )正则化项,最后对混合高斯模型取负对数后得到模型优化的损失函数,如式(3)所示.    GMM 1
1
lg ((())0,)+πΣ===−−∑∑N
K
k k i k L N F i i x x
TV 1
()λ=∑N
i F i x  (3)
式中λ 为TV 正则化的系数.为了方便模型的参数优化,高斯模型的均值统一设为0.该混合高斯去噪模型可以通过使用与能量段匹配的高斯模型个数更加
精确地提取不同能量段下噪声的分布,进而基于投影
数据分布特性完成对噪声的建模.最后,该模型作为网络无监督学习部分的损失函数在反向传播过程中实现对网络中不同卷积层参数的更新.此外,笔者使用L 1范数作为网络监督学习部分的损失函数,实现输入低剂量DECT 投影数据与标签之间的差异最小化.相比于目前机器学习领域广泛使用的L 2损失函数,L 1损失函数不易受图像中随机噪声所引起的较大误差影响,因而能够获得较为稳定的拟合效果.L 1损失函数如式(4)所示.    11
()N
i L F ==−∑i i y x  (4)
该损失函数通过最小化输入投影数据矩阵与标签之间每个数据点的绝对差值之和确保了去噪后数据矩阵中线性衰减系数的准确性.最终将无监督学习与监督学习部分结合,得到SDN-GMM 网络训练的损失函数,如式(5)所示.    S-G TV
11
() +()
λ===−−∑∑N
N
i i L F F i i i y x x
11
lg ((())0,)απΣ==−∑∑N
K
k k i k N F i i x x
(5)
·902·                            天津大学学报(自然科学与工程技术版)                    第54卷 第9期
式中α 为平衡无监督学习与监督学习损失函数的超
参数.最终,通过不断最小化L S-G ,
既利用DECT 投影数据分布背后的先验信息来训练噪声去除网络模型,还可以在有标签的情况下实现对复杂的噪声分布精确拟合,进而提升SDN-GMM 方法的鲁棒性.
1.3 SDN -GMM 网络结构
由于残差网络[15]可以很好地解决深度学习方法在训练过程中会遇到的梯度消失与梯度爆炸问题,因此笔者基于残差网络设计了SDN-GMM 网络结构,如图2所示.网络共由12
个卷积层组成,其中第一层与最后一层卷积核通道数为2,滑动步长为1.中间层由5个残差块构成,每个残差块由两个通道数为16的卷积层构成.网络中的残差块以及整个网络的输入与输出都通过跳跃连接的方式进行特征复用,以避免随着网络层数的加深而导致细节信息丢失.残差学习的原理可由式(6)表示.
图2 SDN -GMM 网络结构
Fig.2 Architecture of SDN -GMM
1
00
()(,{})−==+∑m j j R T W m j z z z
(6)
式中:R 表示残差块的输出;z 0与z j 分别表示残差块的输入以及内部第j 个特征层;W j 表示残差块中第j 个特征层的权重参数;T 表示实现特征提取的卷积过程.为了使网络在学习过程中能够提取更多细节信息进而增加对噪声识别的准确性,笔者将低剂量DECT 投影数据矩阵分割为64×64×2的补丁(patch )矩阵作为网络的输入.图2中c 代表卷积核通道数,s 表示卷积核的滑动步长.网络中每个卷积层后都带有线性整流单元(rectified linear unit ,ReLu )作为激活函数来拟合模型中的非线性映射.此外,在ReLu 后添加了批归一化层(batch normalization ,BN )来预防网络在训练过程中可能出现的过拟合现象.
2 实验设置及结果分析
2.1 数据集准备
本实验使用来自Duke U niversity 基于真实人体制作的4D XCAT 人体模型[16]生成SDN-GMM 网络的训
练和测试数据集.同时,为了提升网络模型的鲁棒性,笔者在模型库中随机选取了10名不同性别、年龄、身高和体重的人体作为被扫描物体.X 射线光源由模拟工作在140kVp 下的GE_Maxiray_125球管产生,并采用扇束扫描方式对被扫描人体进行间隔为1°的扫描.其中,光源到旋转中心以及探测器到旋转中心的距离均为59.5cm .被扫描区域大小为15cm ×15cm .实验中,使用Edge-on 型X 射线探测器模 型[17]来提供来自两个不同能量区间的投影数据,并在光子的探测过程中模拟了X 射线的吸收、散射和不同级别的随机噪声.
最终,通过上述扫描方式分别获得了能量区间在20~80keV 以及80~140keV 的正常剂量和低剂量条件下的投影数据.其中,为模拟低剂量条件下噪声分布,入射光子数设为105.实验使用来自8名不同人体胸部以及腹部断层的320组正常剂量和低剂量双能投影数据作为训练集,其余2名人体在低剂量条件下获得的80组双能投影数据作为测试集.此外,为了进一步扩充数据集,同时保证网络在学习过程中能够保留更多细节信息,笔者将获得的投影数据矩阵分解成尺寸为64×64的重叠补丁矩阵作为网络输入,最后用于网络训练的总补丁个数为12800. 2.2 网络训练及参数设置
本文所提出的网络基于TensorFlow 框架实现,并使用NVIDIA RTX 2080显卡对网络进行总共180个周期的训练.模型的优化使用期望最大化算法(expectation maximization ,EM )实现[18],分为两步:E 和M .在E 步骤中对混合模型中特定高斯模型的后验分布进行计算,在M 步骤中通过Adam 梯度更新算法对混合高斯模型以及网络训练参数进行更
新.网络训练的学习率在前60个周期为1×10-3,中
间60个周期为1×10-4,
最后60个周期为1×10-5,批量尺寸大小设置为16.本实验中混合高斯模型中的模型个数K 设置为2,监督学习与无监督学习的平衡参数α 和TV 正则化系数λ分别设置为0.1以及
1×10-3.
2.3 噪声去除结果
为了评估所提出的SDN-GMM 方法在低剂量DECT 噪声去除方面的有效性及其性能,本文分别选
2021年9月            史再峰等:基于SDN-GMM 网络的低剂量双能CT 投影数据去噪方法            ·903·
取了目前在传统去噪方法和深度学习去噪方法中极
具代表性的PWLS 方法[3]、
CNN 方法[8]以及最先进的GAN 方法[12]作为对比.此外,为验证所加入的混合高斯模型对去噪性能有进一步的提升,笔者将不加GMM 的SDN 方法同样作为一组对比实验.最终的实验结果分别通过主观效
果以及客观指标进行评价,其中客观评价指标包括均方根误差(root mean square error ,RMSE )、峰值信噪比(peak signal to noise ratio ,PSNR )以及结构相似性指数(structural similarity in-dex measurement ,SSIM ). 2.3.1 主观效果对比
从测试数据集中分别选取来自腹部和胸部两个具有代表性的切片来展示所提出的SDN-GMM 方法
的噪声及伪影去除效果,如图3、图4所示.其中第 1排为DECT 在高能区间(80~140keV )的重建图像,第2排为低能区间(20~80keV )下获得的重建图像.从图中可以看到高能区间重建得到的图像噪声及伪影略少于低能图像,这是由于光子能量较高时经过组织的衰减较小.而低能区间下重建的图像具有更好的对比度,十分有利于对组织特征的识别.此外,为进一步展示不同算法在噪声去除方面的差异,笔者分别在图像中选取了两个兴趣区域(region of interest ,ROI )进行放大,并使用红以及绿方框在图中进行了标注.本文的图像基于不同组织的线性
衰减系数显示,窗宽均为[0,0.3] cm -1.
图3 腹部切片不同算法去噪效果对比
Fig.3
Noise reduction performance of different algorithms on abdominal slices
图4 胸部切片不同算法去噪效果对比
Fig.4 Noise reduction performance of different algorithms on chest slices
从图3(a )中可以看出,输入的低剂量DECT 图像具有十分明显的噪声以及伪影,这极大地影响了在诊断过程中对不同病灶以及组织特征的精确识别.图3(b )显示了经过PWLS 算法处理后的重建图像,可以看到该方法虽然消除了大量的噪声,但在组织结构附近效果依然不太理想,尤其是在骨骼结构边缘还存在
着部分伪影,图像分辨率并不理想.而CNN 、SDN 、GAN 以及SDN-GMM 这些通过基于深度学习方法获得的图像几乎没有可见的噪声以及伪
影.但从图3(c )中经过CNN 方法处理后的图像中可以看到一些组织的结构同样受到了一定程度的平滑,使得组织细节变得模糊.这与该方法在训练过程中只使用均方差作为损失函数有关,因为网络在最小化均方差的过程中会忽略输入与标签数据之间较小的差异.图3(d )中细微组织的模糊效应有所改善,但从ROI 区域中可以看到图像中不同组织的边界区域相较于标签依然不够清晰.而从经过GAN 和SDN-GMM 方法处理得到的图3(e )、(f )中可以看到,高能

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。