Biophysics 生物物理学, 2021, 9(1), 34-42
Published Online February 2021 in Hans. /journal/biphy
/10.12677/biphy.2021.91005
基于双边滤波与受限玻尔兹曼机的冷冻电镜单颗粒图像识别
王桉迪,姚睿捷,黄强*
复旦大学生命科学学院,上海
收稿日期:2021年1月5日;录用日期:2021年2月15日;发布日期:2021年2月26日
摘要
冷冻电镜技术(Cryo-EM)起源于20世纪70年代,是结构生物学中蛋白质与核酸分子结构研究的重要技术手段。21世纪以来,计算机性能的提升与直接电子检测相机的极大发展,使得人们在小样本低剂量样本条件下仍可获得接近原子分辨率级的三维结构模型。由于三维结构模型是利用多角度投影,通过大量二维冷冻电镜单颗粒图像重构所得,因此,二维单颗粒图像的识别与分类直接影响最终模型的分辨率。目前,通过冷冻电镜获得的图像大部分噪声较多,因此对二维单颗粒图像的筛选,往往需要耗费有经验的科学工作者耗费大量时间。针对此问题,本文运用计算机图形学与机器学习相结合的方法,在预处理阶段以双边滤波器(Bilateral Filter)对信噪比较低的图像进行边缘优化,并通过直方图均衡化实现图像信息增强,最后以少量高置信度图像为训练样本,通过受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)进行监督式学习并实现图像的分类与筛选,以提高二维单颗粒图像识别的效率与准确率。在方法检验阶段,首先,我们利用蛋白质数据库(Protein Data Bank, PDB)中已知的生物大分子结构,投影生成不同信噪比的模拟单颗粒模拟数据,验证了在低信噪比条件下应用本方法进行单颗粒图像识别分类的准确性。随后我们以瞬态受体电位离子通道蛋白子类V成员1 (Transient Receptor Potential cation channel subfamily V member 1,TRPV1)的真实二维单颗粒图像数据集进行识别分类与三维模型重构,通过cryoSPARC平台,以约53%的原始数据量重构出了与原分辨率3.6Å相近的模型。因此,本研究不仅提高了传统人工筛选的效率,也为冷冻电镜单颗粒二维图像识别提供了新思路。
关键词
冷冻电镜,双边滤波,受限玻尔兹曼机
Identification of Cryo-EM Single Particle
Images Using Bilateral Filter and Restricted Boltzmann Machine
*通讯作者。
王桉迪 等
Andi Wang, Ruijie Yao, Qiang Huang *
School of Life Sciences, Fudan University, Shanghai
Received: Jan. 5th , 2021; accepted: Feb. 15th , 2021; published: Feb. 26th , 2021
Abstract Cryo-EM is a crucial technological means to study protein and nucleic acid of structural biology which is originated in 1970s. The significant evolution of computing performance and direct elec-tronic detection (DDD) camera make the atomic resolution of 3D structure of micromolecular un-der the condition of small dose possible since 21st century. The reconstruction of 3D model is based on identification and classification of 2D Cryo-EM single particle projection images which becomes an immediate cause of how good the resolution of final 3D model could share. Currently, the 2D single particle images selection was is such a time-consuming job even for the experienced scientific researchers as the signal noise ratio (SNR) is usually quite low. A new approach with the combination of computer graphics and machine learning is raised to this problem by using bila-teral filter to optimize the detail of edge and histogram equalization to enhance graphic informa-tion in the pre-processing stage, moreover, small amount of high-confidence images was chosen as training sample under the restricted Boltzmann machine (RBM) network in supervised learning pattern to achieve the image selection and classification. In the verification stage, the effectiveness of this approach is proved to work well with simulated low SNR projection photos generated from the known micromolecular data fro
m protein data bank (PDB). Subsequently, actual experimental 2D singlet particle data of transient receptor potential cation channel subfamily V member 1 (TRPV1) is applied to be identified and classified, and finally, a 3.6Å 3D structural model is recon-structed through cryoSPARC platform by using only approximate 53% of the original data. Conse-quently, this research is not only improving the manual efficiency, but also providing a broader perspective the identification of Cryo-EM single particle 2D images. Keywords
Cryo-EM, Bilateral Filter, Restricted Boltzmann Machine
Copyright © 2021 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). /licenses/by/4.0/
1. 引言
冷冻电镜技术Cryo-EM (Cryogenic Electron Microscopy)是当前结构生物学最重要的研究手段之一。相较于传统的X 射线晶体学(X-Ray Crystallography)与核磁共振谱学NMR (Nuclear Magnetic Resonance)对生物分子样品的复杂要求,冷冻电镜技术提供了更为简单、直观的方式,使得许多结晶困难的蛋白分子结构得以解析,这一重大科学突破,也因此荣获2017年诺贝尔化学奖[1] [2] [3]。自2013年由程一凡博士首次通过冷冻电镜技术解析出近原子分辨率为3.4Å的瞬态受体电位离子通道(TRPV1)结构开始至今,
近年来,已有多位科学家通过此技术解出大量超高分辨率的生物大分子[4] [5] [6],快速推动了结构生物学的发展。由于针对生物样品通常是低剂量成像,而且电镜数据噪声来源复杂,即便是利用直接电子相Open Access
王桉迪等
机DDD (Direct Detector Device camera)收集到的数据,信噪比通常也很低,而每个生物大分子结构的重建又需要大量的高质量二维单颗粒冷冻电镜图像,因此,图像的收集往往需要经验丰富的科研工作者长时间耐心挑取[1]。为了解决此问题,科学家们先后开发了多种自动化的程序进行图像筛选[7][8][9][10],其中,英国MRC Laboratory of Molecular Biology的Sjors Scheres博士及其团队所开发的RELION系统基于人工挑选的单颗粒图像作为训练样本所实现的Auto Pick半自动化单颗粒挑选被广泛应用[11],而由我国中科院高能计算所Zhang等人提出的基于深度神经网络分割的全自动单颗粒挑选程序PIXER也达到了与RELION一样好的效果[12]。随着机器学习技术的不断成熟,科学家们开发了多种基于人工智能技术进行的单颗粒图像识别[13][14][15],但对于低信噪比的冷冻电镜图像,单颗粒图像识别的准确率仍然较低。针对上述问题,本文选用受限玻尔兹曼机RBM (Restricted Boltzmann Machine)和双边滤波器BF (Bilateral Filter)相结合的方法,通过优化单颗粒图像的质量,并实现自动化分类,以提高二维单颗粒图像的识别效率,也为后续冷冻电镜单颗粒重构所需图像的筛选提供了新思路。
2. 方法与原理
2.1. 冷冻电镜单颗粒图像预处理
2.1.1. 双边滤波
冷冻电镜单颗粒图像通常具有低信噪比的特性[16](图1(A)),将其直接应用于受限玻尔兹曼机神经网络进行训练识别效果不佳。若设定较高的阈值进行筛选,则会减少三维结构重构所需的不同角度投影图像的数量;反之,则会引入大量假阳性杂质图像,进而放大在单颗粒图像的二维图像分类与三维结构重构过程中的计算误差。为解决此问题,我们引入双边滤波器对图像进行预处理,由于双边滤波器不仅可以准确保留图像中单颗粒的边缘特征信息[17],还可以有效地过滤掉大部分单颗粒图像中所携带的噪声,契合了针对单颗粒图像信息增强的需求[18] (图1(B))。
Figure 1. (A) Cryo-EM single particle photo of transient receptor potential cation channel subfamily V member 1 (TRPV1);
(B) Cryo-EM single particle photo of TRPV1 after bilateral filter; (C) Cryo-EM single particle photo of TRPV1 after bilater-
al filter and histogram equalization
图1. (A) 瞬态受体电位离子通道蛋白子类V成员1 (Transient Receptor Potential cation channel subfamily V member 1)的冷冻电镜单颗粒图像;(B) 经过双边滤波器优化后的TRPV1冷冻电镜单颗粒图像;(C) 经过双边滤波器与直方图均衡化处理后的TRPV1冷冻电镜单颗粒图像
2.1.2. 直方图均衡化
由于单颗粒图像信息中的灰度值分布较为集中,采用常规线性对比度调整会使得图像丢失较多细节特征。为解决此问题,我们采用直方图均衡化技术[19] (图1(C))。这一技术通过保持图像的原有亮度并增
强图像的对比度,提高了受限玻尔兹曼机网络对单颗粒图像特征识别的准确度。
王桉迪等2.2. 受限玻尔兹曼机网络结构
受限玻尔兹曼机是一种基于能量最低化状态设计的模型,包含一个可视层与一个隐含层,且具有层内无连接,层间全连接的特征。可视层通常为数据输入层,隐含层可看作特征提取层,整个网络的训练目标是使网络参数趋于稳定,即实现整个体系能量最低化[20]。当我们以图像作为训练样本时,图像的每一个像素点都与受限玻尔兹曼机网络可视层的一个单元相对应,而隐含层的单元可以被视为可视层输入单元的抽象特征,连接可视层与隐含层的为权重矩阵。权重矩阵的数值求解则是通过网络对大量输入样本进行正向传导与反向传导的多次迭代,并利用每次迭代间计算结果的差值进行修正,直到整个网络的重构误差趋于平稳(详见图2)。此时,每一组输入的训练数据样本,都可以通过训练后的网络由隐含层特征与权重矩阵反向传导后重构,也就实现了玻尔兹曼机网络的构建。
Figure 2. RBM network training process
图2. 受限玻尔兹曼机网络训练过程
Figure 3. Supervised learning of RBM data classification process
图3. 监督式受限玻尔兹曼机数据分类过程
王桉迪等
受限玻尔兹曼机网络可以通过监督式学习或非监督式学习实现对图像的识别与分类。监督式学习的网络收敛更快,计算结果也更为精确。其原理为在输入单元中增加一个标签单元(详见图3),在计算网络收敛时,分别考虑在不同标签下整个网络能量最低的状态,也即对应不同标签下对应的类别。在网络训练完成后,每输入一个新的样本图像,均可分别根据标签求得不同能量状态,当整个网络能量最低时,这个样本便可根据网络计算结果归入对应标签下,从而实现监督式学习的分类功能[21]。为提高对数据的识别准确率,本文拟采用多标签监督式学习的方式进行神经网络的训练,以少量置信度较高的样本为训练集,实现对冷冻电镜单颗粒图像中假阳性或杂质图像的剔除,从而提高三维模型构建所需数据的准确度[22][23]。
3. 结果与讨论
3.1. 双边滤波与直方图均衡化对冷冻电镜单颗粒图像的优化
为了验证双边滤波器与直方图均衡化对冷冻电镜高噪声单颗粒图像信息增强的有效性,我们使用了Yao 等人所使用的模拟冷冻电镜单颗粒图像数据生成方法[13],分别对同一信噪比条件下的原图像与经过预处理的图像进行测试。模拟冷冻电镜单颗粒图像的生成首先需要下载所需的PDB文件,此后利用Xmipp软件包中的xmipp_phantom_transform进行中心校正以及xmipp_volume_from_pdb程序将PDB文件转换为电子密度图,所得到的PDB电子密度图可利用xmipp_angular_project_library程序生成投影文件,最后
根据需要添加不同强度的噪声信号[13]。其中在信噪比为0.0625的图像(详见图4)下的测试结果显示,未经预处理的图像经过所训练的RBM网络进行分类,其正确率仅为68.52%;而相同条件下经过预处理后的图像,识别正确率可达99.95%,远高于未经预处理的图像,当信噪比更低时,RBM网络对未经处理的数据识别正确率更低。
Figure 4. (A) Simulated single particle images of SpCas9 SNR = 0.0625; (B) Preprocessed simulated single particle images of SpCas9 SNR = 0.0625
直方图均衡化方法图4. (A) 模拟单颗粒SpCas9单颗粒投影图像,信噪比为0.0625;(B) 经过预处理的模拟单颗粒SpCas9单颗粒投影图像,信噪比为0.0625
3.2. 模拟SpCas9蛋白单颗粒图像的识别
考虑到实际冷冻电镜单颗粒图像的信噪比可能更低,为了测试受限玻尔兹曼机网络在不同信噪比环
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论