基于跨模态特征融合的胆囊癌诊断模型研究--688IT编程网

第 22卷第 3期2023年 3月

Vol. 22 No. 3Mar. 2023

软件导刊Software Guide

基于跨模态特征融合的胆囊癌诊断模型研究

尹梓名1，2，3

，沈达聪1，束翌俊4，杨自逸4，龚

伟4

（1.上海理工大学健康科学与工程学院；2.上海康复器械工程技术研究中心；3.民政部神经功能信息与康复工程重点

实验室，上海 200093；4.上海交通大学医学院附属新华医院普外科，上海 200092）

摘

要：针对目前尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合

应用于胆囊癌诊断的问题，提出一种跨模态特征融合的胆囊癌诊断模型。首先利用3D U-net 网络进行胆囊区域分割并提取放射组学特征，使用三维卷积神经网络提取医学影像深度特征，再将这两者与实验室检查数据进行特征融合，将融合结果作为分类器的输入进行胆囊癌诊断。实验结果表明，该方法在分类准确率、特异度、灵敏度、精确率上相比最优的单类特征模型分别提高16.67%、12.62%、11.54%和13.14%。同5种常见的影像分类模型比较，其在准确率、特异度和精确率上均至少提高10.00%、25.00%和13.33%，由此得出该方法在胆囊癌诊断上具有更好的准确率与可靠性。

关键词：胆囊癌；跨模态特征融合；3D U-net ；放射组学；三维卷积神经网络；实验室检查数据DOI ：10.11907/rjdk.222512

开放科学（资源服务）标识码（OSID ）：中图分类号：TP391.41 文献标识码： A

文章编号：1672-7800（2023）003-0103-09

Research on Gallbladder Cancer Diagnosis Model Based on Cross-modal

Feature Fusion

YIN Zi-ming 1，2，3

， SHEN Da-cong 1， SHU Yi-jun 4， YANG Zi-yi 4， GONG Wei 4

（1.School of Health Science and Engineering ，University of Shanghai for Science and Technology ；

2.Shanghai Engineering Research Center of Assistive Devices ；

3.Key Laboratory of Neural Function Information and Rehabilitation Engineering of the Ministry of Civil Affairs ，Shanghai 200093，China ；

4.Department of General Surgery ，Xinhua Hospital Affiliated to Shanghai Jiaotong University School of Medicine ，Shanghai 200092， China ）Abstract ： Aiming at the problem that no research has yet

used deep learning methods to integrate gallbladder cancer imaging ， radiomics fea⁃tures and tumor markers and other laboratory test data into the diagnosis of gallbladder cancer ， an algorithm for gallbladder cancer diagnosis based on cross-modal feature fusion was proposed. Firstly ， the 3D U-net network is used to segment the gallbladder region and extract the ra⁃diomic features ， and the 3D convolutional neural network is used to extract the depth features of medical images. Then the two are combined with the laboratory examination data ， and the fusion result is used as a classifier. input for gallbladder cancer diagnosis. The experimental re⁃sults show that the method improves the classification accuracy ， specificity ， sensitivity and precision by about 16.67%， 12.62%， 11.54% and 13.14%， respectively ， compared with the single-class feature model with the best classification. Compared with the five common image classi⁃fication models ， the accuracy ， specificity and precision are improved by at least 10.00%， 2

5.00% and 13.33%. Therefore ， it is concluded that this method has better accuracy and reliability in the diagnosis of gallbladder cancer.Key Words ： gallbladder cancer ； cross-modal feature fusion ； 3D U-net ； radiomics ； 3D convolutional neural network ； laboratory inspection

data

收稿日期：2022-10-27

基金项目：国家自然科学基金项目（82074581，81974371，82172628）；上海市市级科技重大专项项目（2021SHZDZX ）

作者简介：尹梓名（1986-），男，博士，上海理工大学健康科学与工程学院讲师、硕士生导师，研究方向为医学人工智能、医学图像处理；

沈达聪（1997-），男，上海理工大学健康科学与工程学院硕士研究生，研究方向为医学图像处理；束翌俊（1988-），男，博士，上海交通大学医学院附属新华医院普外科副主任医师，研究方向为消化系统恶性肿瘤诊治；杨自逸（1992-），男，博士，上海交通大学医学院附属新华医院普外科住院医师，研究方向为消化系统恶性肿瘤的诊治；龚伟（1969-），男，博士，上海交通大学医学院附属新华医院普外科主任医师，研究方向为肝胆胰恶性肿瘤诊治。本文通讯作者：束翌俊。

2023 年软件导刊

0 引言

胆囊癌是全球第六大最常见的胃肠道恶性肿瘤，近年来发病率呈上升趋势［1］，尤其在中老年人中发生率更高。其恶性程度高，早期诊断困难，大部分患者确诊时已为中晚期，且胆囊癌在临床上根治性切除率低，放化疗等现有综合效果不理想，预后极差。我国胆囊癌患者5年总体生存率仅为5%［2

］，实现胆囊癌早期诊断具有重要意义。临床上增强CT是胆囊癌影像学检查的重要辅助工具［3］，但胆囊癌早期影像上容易与胆囊息肉、胆囊腺肌症、黄肉芽肿相互混淆，并且医生长时间对着影像CT进行诊断会影响结果准确性。

近年来，医学影像分析技术开始广泛应用于医学领域［4］。影像分析主要有两种方法：一种是放射组学技术［5］，它可以无创地表征整个肿瘤，从医学图像中提取大量的难以被人眼直观发现的浅层定量特征，即放射组学特征，在从图像中进行单次采样之后，可以与“数字活检”联系起来［6］；另一种是疾病辅助诊断领域应用较为广泛的深度学习技术［7-8］，它可以通过神经网络不断地进行多层次卷积，从影像中提取图像的深层次特征，如用3D U-net神经网络［9-10］结合低层次和高层次的特征，进行器官分割［11-12］。为了提高诊断结果的准确性，本文将上述两种特征进行跨模态融合，再融入不同于放射组学或影像深度特征的实验室检查数据，实验室检查数据是从血液中提取的肿瘤标记物等指标，对疾病诊断具有重要作用，也需要充分利用，同时加入特征筛选方法［13-14］加以辅助。

国内外相关研究方面，主要从两个层面进行阐述。一方面，对胆囊癌的诊断大部分仍局限于常规方法，如

Kinugasa［15］等根据实验室检查数据判断患者患有胆囊癌的可能性；Kumar［16］等使用TBARs方法和化学发光微粒免疫分析法发现肿瘤标志物的联合检测有助于胆囊癌的诊断；Zhang［17］等采用卡

方检验筛选出差异变量，并提出使用随机森林建立分类模型进行胆囊癌诊断。另一方面，深度学习方法应用于其他疾病诊断较多，如Lin等［18］构建了结合结节周围和结节内放射组学特征和临床特征的深度学习模型，用于对孤立性肉芽肿结节和实体肺癌结节进行分类；Xiao等［19］提出Radiomics-guided GAN模型，该模型结合放射组学特征与图像语义特征，以增强自动分割识别肝脏病变能力；Chen等［20］提出一种结合自动分割和放射组学的胶质瘤辅助诊断方法，研究训练多尺度3D卷积神经网络以分割整个肿瘤区域并提取放射特征，用于胶质瘤分级。

综上可见，尚未有研究使用深度学习方法将胆囊癌影像、放射组学特征和肿瘤标志物等实验室检查数据融合应用于胆囊癌诊断上。因此，针对上述研究方向，本文提出一种基于跨模态特征融合的胆囊癌诊断模型，该方法基于3D U-net和三维卷积神经网络，通过深度学习方法进行特征提取、筛选和融合，充分利用3种不同维度的数据训练胆囊癌诊断模型并提升分类准确率。

1 跨模态特征融合的胆囊癌诊断模型设计

1.1　模型结构

本文提出的基于卷积神经网络的胆囊癌诊断模型是一个跨模态特征融合的神经网络架构，总体架构如图1所示。其大致分为3部分：第一部分使用患者腹部增强CT动脉期影像和医生对胆囊区域的标记训练3D U-net神经网络以用于胆囊分割；第二部分为实验室检查数据特征和放射组学特征的筛选过程［21］，

用改进的极端梯度提升（eX⁃treme Gradient Boosting，XGBoost）算法对两类特征进行筛选，分别得出两类特征中预测是否患有胆囊癌效果最好的特征组合；第三部分进行跨模态特征融合，先将第一部分的分割结果输入三维卷积神经网络，通过5个卷积层进行卷积，将三维卷积结果拼接为一维向量（1 536×1），同时将特征筛选后的放射组学特征（14×1）和实验室检查数据特征（6×1）也转换为一维向量，将三者拼接为一个向量（1 556×1），输入到Sigmoid分类器中预测该病人是否患有胆囊癌。

1.2　基于3D U-net的胆囊分割模型

生物医学影像是由很多个二维切片构成的三维影像，如果用二维的图像处理模型去处理三维数据，就不得不将生物医学影像一个个切片成组地送到模型中进行训练，模型训练效率较低，且数据预处理方式也相对繁琐。

为解决上述问题，3D U-net模型应运而生，该模型对于块状图的切割只要求数据中的部分切片被标注即可，大幅度提升了训练效率。并且，3D U-net模型中的卷积均为三维卷积，从模型角度看，三维卷积可以对三维数据从（x，y，z） 3个方向上进行编码，获得更加有关联的信息，而二维卷积只能从（x，y） 2个方向进行编码，并且有些病理在二维上没有明显征象。3D U-net模型对于医学影像分割，特别是使用体数据的分割有很大帮助，而本文所用的影像均为三维体数据。同时，3D U-net模型能够提升训练效率，并且保留全卷积神经网络和U-net本来具备的优秀特征，因此本文选用3D U-net模型作为基础模型进行胆囊肿瘤部分的分割工作。

3D U-net模型包含1个编码部分和1个解码部分，编码部分用来分析整张图像并且进行特征提取与分析，而与之相对应的解码部分是生成一张分割好的块状图。3D U-net将浅层精细特征在通道这个维度上进行拼接，这样能够形成更加厚的特征层，可以让后面的上采样得到原始的浅层特征。每一次下采样提炼特征的同时，也必然会损失一些边缘特征，而失去的特征并不能从上采样中回，因此通过特征拼接，实现边缘特征的回。

··104

第 3 期尹梓名，沈达聪，束翌俊，等：基于跨模态特征融合的胆囊癌诊断模型研究

本文3D U-net模型卷积核为3×3×3，步长为2，网络采用最大池化，一共进行3次下采样以减小特征图提取深层特征，上采样时将特征图与左侧特征图进行通道上的拼接再卷积，最终恢复到原始图像大小。超参数设置如表1所示。

1.3　放射组学特征提取

本文使用PyRadiomics包［22］从医学影像中提取放射组学特征，该包可用于计算感兴趣区域每个特征的单个值（基于片段）或生成特征图（基于体素）。本文使用的特定包是Python3.7.0的3.0.1版本模块，所用PyRadiomics包从原始影像及多种滤波处理后的影像上提取放射组学特征，选用滤波器及参数如表2所示。

1.4　特征筛选方法

本文使用改进的XGBoost算法进行特征筛选，在原本算法中加入L2正则化项，有利于模型获得更低的方差并防止过拟合。XGBoost目标函数如式（1）所示。

Obj=∑i=1n l(y i，y∧i)+∑k=1KΩ(f k)（1）其中，∑i=1n l

()y i，y i∧表示训练损失，∑k=1KΩ()f k表示

树的复杂度。

特征筛选目的是寻最优特征子集，特征筛选能剔除不相关或冗余的低重现性特征，从而达到减少特征个数、提高模型精确度、减少运行时间的目的。

实验中，使用XGBoost算法进行重要性排序即计算特征重要性得分。XGBoost算法根据结构分数的增益

情况计算并选择某个特征作为分割点，而某个特征的重要性就是它在所有树中出现的次数之和，即一个属性越多地用于模型中的决策树构建，其重要性就相对越高，使用XGBoost 算法能够很好地求出特征的最优组合。最后根据重要性排序选择特征组合，得出最优结果的组合即为筛选所得的特征组合。增益情况计算公式如式（2）所示。

Gain=12é

êêê

G2L

H L+λ+

G2R

H R+λ-

()

G L+G R2

H L+H R+λ

úúú

ú-γ（2）其中，

G2L

H L+λ表示分裂后左子树分数，

G2R

H R+λ表示分裂后右子树分数，

()

G L+G R2

H L+H R+λ表示分裂前左、右子树的分数，γ表示加入新叶子节点引入的复杂度代价。

Table 1　Hyper parameter settings of 3D U-net model 表1　3D U-net模型超参数设置

超参数训练轮数批大小优化器学习率

值

300

Adam

0.0001

Fig. 2　Structure of 3D U-net

图2　3D U-net结构

类别

Laplacian of Gaussian

Wavelet

Square

Square Root

Logarithm

Exponential

Gradient

参数

Bin Width=25，

Log kernel size=1，2，3，4，5，

Resampled voxel size=3，3，3

提取放射

组学特征

放射组学特征（

··105

2023 年

软件导刊1.5　基于卷积神经网络的跨模态特征融合方法

本文基于卷积神经网络进行跨模态特征融合，采用三维卷积神经网络体系结构提取影像的深度特征，该网络结构包含5个卷积层和池化层，以减小特征图的大小并获得更加抽象和精炼的信息。网络采用3×3×3的卷积核和Re⁃LU 激活函数，步长为2，最后将三维卷积结果拼接为一维向量，再将上述向量和一维放射组学特征向量或一维实验

室检查数据特征向量拼接，融合所有特征作为Sigmoid 分类器的输入。Sigmoid 分类器由一定数量的分类神经元组成，第一层神经元的数量取决于输入特征的数量。整个模型采用端到端的方式进行训练，以区分胆囊癌患者和非胆囊癌患者。

2 实验设计

2.1　实验分组

实验室检查数据特征、放射组学特征和影像深度特征是疾病3种不同维度、不同层次的特征。为比较研究单种特征和2种或3种特征融合训练得到的模型性能优劣，本文模型评估设计实验分组情况如下：

单种特征构成模型：

实验1：基于特征筛选后的实验室检查数据特征诊断模型。

实验2：基于特征筛选后的放射组学特征诊断模型。实验3：基于患者CT 影像的诊断模型。两种特征构成模型：

实验4：基于特征筛选后的实验室检查数据特征和放射组学特征的诊断模型。

实验5：基于特征筛选后的实验室检查数据特征和患者CT 影像的诊断模型。

实验6：基于特征筛选后的放射组学特征和患者CT 影像的诊断模型。

3种特征构成模型：

实验7：基于融合患者CT 影像、放射组学特征以及实验室检查数据特征的诊断模型。

分组示意图如图3所示。

2.2　实验环境配置

本文所有实验均在同一环境配置下进行，具体配置情况如表3所示。

2.3　数据集预处理2.

3.1　数据集

为了评估模型有效性，本文选取2010-2020年上海交

通大学医学院附属新华医院的胆囊癌和非胆囊癌患者的实验室检查数据和增强CT 动脉期影像数据各150例。实验所用的增强CT 动脉期影像作为影像数据集，由5名经验丰富的放射科医生对其中胆囊区域进行勾画并作为感兴趣区域。标注完成后，将原始图像进行三维转换并裁剪。患者实验室检查数据单位如表

4所示。

2.3.2　实验室检查数据分析

150例胆囊癌患者性别及年龄情况如下：男64例，女

86例，男女比例1∶1.34，实验室检查数据情况如表5所示。

150例非胆囊癌患者性别及年龄情况如下：男82例，

女68例，男女比例1.2∶1，实验室检查数据情况如表6所示。

实验实验实验实验7

Fig. 3　Experimental grouping situation

图3　实验分组情况

Table 3　Experimental environment configuration

表3　实验环境配置

操作系统CPU

GPU PYTHON CUDA

CUDNN PYTORCH

TENSORFLOW NUMPY

MATPLOTLIB Linux Ubuntu16.04

*****************************

NVIDIA TITAN RTX

3.7.011.07.64

1.7.1

1.14.01.19.23.3.4

Table 4　Data unit of patients' laboratory examination

表4　患者实验室检查数据单位属性性别年龄

凝血酶原时间（PT ）国际标准比值（INR ）部分活化凝血活酶时间（APTT ）

纤维蛋白原（FIB ）凝血酶时间（TT ）白细胞（WBC ）血红蛋白（Hb ）血小板（PLT ）甲胎蛋白（AFP ）癌胚抗原（CEA ）糖类抗原199（CA199）癌抗原（CA125）

糖类抗原CA724（CA724）

单位男性/女性

岁s

10-1s g/L s 109/L 101/L 1010/L ng/mL ng/mL U/mL U/mL U/mL

··106

第 3 期尹梓名，沈达聪，束翌俊，等：基于跨模态特征融合的胆囊癌诊断模型研究

患者实验室检查数据中，针对缺失值的处理方法如下：根据该指标下不超过正常指标上下限50%的其他数据，取平均值填补缺失值（如正常指标范围为5~10，则取平均值的数据范围为2.5~15），有效去除极值影响。

2.3.3　影像数据预处理

从医院获取的原始影像的数据格式为DICOM格式，是医学图像和相关信息的国际标准（ISO 12052）。本文将患者连续的DICOM格式影像使用3DSlicer转换为一个NIFTI（Neuroimaging Informatics Technology Initiative）文件［23］，影像横断面原始大小为512×512。

为了提高特征提取精度、加快运算速度并消除多余干扰因素，本文将原始影像进行区域切割，确保每张影像均包含患者胆囊区域并尽可能减少其他干扰区域大小，切割以后再设定CT值进行过滤。感兴趣区域切割方法如下：以垂直冠状面为x轴，垂直矢状面为y轴，垂直横断面为z 轴，x轴上从前往后取64-336像素，y轴取包含胆囊侧的一半，到医生标注区域，往z轴方向进行延伸，取医生标注的所有影像，再从最外侧的标注层向外侧额外取20张。确保切割后的感兴趣区域包含患者整个胆囊且扩展区域不延伸至原

图区域以外，切割后单张影像大小为272×256，每个患者的三维影像文件包含多张CT影像，存储为NIFTI 文件格式，横断面上裁剪方式如图4红框所示（彩图扫

OSID码可见，下同）。

影像处理前后对比图如图5所示，红部分为医生标注的胆囊区域。

2.4　模型概述

对于胆囊分割，选用3D U-net模型，将患者腹部增强CT动脉期影像及对应标记作为输入，训练神经网络，不断调整网络模型参数使其相对较优，训练得到的模型用于对新数据胆囊区域自动识别并生成标记。

对于实验5-实验7，首先将患者影像根据标记进行分割，将结果输入三维卷积神经网络，模型结构为5个卷积池化层和全连接层，将全连接层的输出再用1个全连接层

将其与放射组学特征或实验室检查数据特征进行全连接，

（a）　Original CT image

（a）　原始CT

影像

（b）　CT image after processing

（b）　处理后CT影像

Fig. 5　Comparison of images before and after processing

图5　影像处理前后对比

Table 5　Statistic of laboratory examination data of patients with gall⁃

bladder cancer

表5　胆囊癌患者实验室检查数据情况统计

属性年龄

PT INR APTT FIB TT WBC Hb PLT AFP CEA CA199 CA125 CA724平均值

65.51

11.36

1.02

29.87

3.65

16.01

6.49

121.87

229.41

150.67

13.66

640.74

78.85

特征正则化的作用15.96

最小值

9.2

0.82

21.1

1.26

11.4

2.83

0.61

0.36

0.6

5.2

0.36

第一四分位数

59.25

10.6

0.95

27.1

2.92

13.8

4.9

110.25

176.25

1.96

1.85

15.04

11.58

1.5

中位数

11.2

1.01

29.8

3.62

5.94

123

220

2.78

3.04

74.05

19.8

2.45

第三四分位数

73.75

1.08

32.28

4.26

17.88

7.55

135

274

4.22

6.97

204.5

48.47

5.95

最大值

15.4

1.37

39.2

7.91

22.9

16.98

164

543

21 962

235.9

16 676

3 081

708.5

Table 6　Statistic of laboratory examination data of non-gallbladder

cancer patients

表6　非胆囊癌患者实验室检查数据情况统计

属性年龄

PT INR APTT FIB TT WBC Hb PLT AFP CEA CA199 CA125 CA724平均值

59.39

11.86

1.08

32.13

3.03

14.85

6.23

129.33

204.00

4.86

8.40

114.57

29.58

8.25

最小值

9.7

0.89

24.7

1.22

0.91

0.49

0.6

2.6

0.73

第一四分位数

11.1

29.43

2.55

13.8

4.51

119

158.75

1.81

1.5

7.22

8.75

1.5

中位数

11.5

1.05

31.7

2.96

14.7

5.7

131.5

198.25

2.50

2.5

12.51

11.8

2.15

第三四分位数

12.2

1.11

34.1

3.40

15.5

7.20

140.75

240.75

3.92

4.30

26.1

15.18

4.07

最大值

21.4

1.95

6.94

21.85

172

561

78.5

228

5 074

800

164

Fig. 4　Cropping method of transverse

图4　横断面裁剪方式

·107

688IT编程网

基于跨模态特征融合的胆囊癌诊断模型研究

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

基于跨模态特征融合的胆囊癌诊断模型研究

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式