(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 114171134 A (43)申请公布日 2022.03.11 | ||
(21)申请号 CN202111424828.6
(22)申请日 2021.11.26
(71)申请人 北京晶泰科技有限公司
地址 100000 北京市海淀区中关村东路8号东升大厦AB座七层706单元
(72)发明人 范方达 王纵虎 郑莲君 赖力鹏 温书豪 马健
(74)专利代理机构 44248 深圳市科吉华烽知识产权事务所(普通合伙)
代理人 胡吉科
(51)Int.CI
G16C20/60(20190101)
权利要求说明书 说明书 幅图 |
(54)发明名称
分子生成方法、装置、设备及存储介质 | |
(57)摘要
本发明是关于一种分子生成方法、装置、设备及存储介质。其中,该方法包括:获取待处理的目标分子;对目标分子进行指纹切割,得到目标分子的指纹片段;计算目标分子的指纹片段与预设指纹片段库中的指纹片段的字符编辑距离,将预设指纹片段库中字符编辑距离小于设定阈值的指纹片段挑选出来作为待替换指纹片段;将目标分子中与目标分子的指纹片段重合的分子片段替换为待替换指纹片段,得到替换后的目标分子。本发明的技术方案能够对分子结构进行局部小规模变化,得到具有新颖取代基或骨架的分子。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
2022-03-11 | 公开 | 发明专利申请公布 |
2022-03-29 | 实质审查的生效IPC(主分类):G16C20/60专利申请号:2021114248286申请日:20211126 | 实质审查的生效 |
权 利 要 求 说 明 书
1.一种分子生成方法,其特征在于,包括:
获取待处理的目标分子;
对所述目标分子进行指纹切割,得到所述目标分子的指纹片段;
计算所述目标分子的指纹片段与预设指纹片段库中的指纹片段的字符编辑距离,将所述预设指纹片段库中字符编辑距离小于设定阈值的指纹片段挑选出来作为待替换指纹片段;
将所述目标分子中与所述目标分子的指纹片段重合的分子片段替换为所述待替换指纹片段,得到替换后的目标分子。
2.根据权利要求1所述的分子生成方法,其特征在于,所述对所述目标分子进行指纹切割,得到所述目标分子的指纹片段,包括:
将所述目标分子中的候选原子作为环形中心原子、以预设切割半径进行指纹切割,获得以所述候选原子为开头的SMILES表示的指纹片段;
对所述目标分子进行指纹切割,得到所述目标分子的指纹片段;
计算所述目标分子的指纹片段与预设指纹片段库中的指纹片段的字符编辑距离,将所述预设指纹片段库中字符编辑距离小于设定阈值的指纹片段挑选出来作为待替换指纹片段;
将所述目标分子中与所述目标分子的指纹片段重合的分子片段替换为所述待替换指纹片段,得到替换后的目标分子。
2.根据权利要求1所述的分子生成方法,其特征在于,所述对所述目标分子进行指纹切割,得到所述目标分子的指纹片段,包括:
将所述目标分子中的候选原子作为环形中心原子、以预设切割半径进行指纹切割,获得以所述候选原子为开头的SMILES表示的指纹片段;
将以所述候选原子为开头的SMILES表示的指纹片段确定为所述目标分子的指纹片段。
3.根据权利要求1所述的分子生成方法,其特征在于,所述对所述目标分子进行指纹切割,得到所述目标分子的指纹片段,包括:
将所述目标分子的每一个原子逐个作为环形中心原子、以预设切割半径分别进行指纹切割,获得以不同的环形中心原子为开头的SMILES表示的指纹片段;
将所述以不同的环形中心原子为开头的SMILES表示的指纹片段确定为所述目标分子的指纹片段。
4.根据权利要求1所述的分子生成方法,其特征在于,所述获取待处理的目标分子之前,所述方法还包括:
构建预训练分子库,所述预训练分子库包含多个分子;
对所述预训练分子库中的分子进行指纹切割,得到各分子的指纹片段,构成预设指纹片段库。
5.根据权利要求4所述的分子生成方法,其特征在于,所述对所述预训练分子库中的分子进行指纹切割,得到各分子的指纹片段,构成预设指纹片段库,包括:
将所述预训练分子库中每一个分子的每一个原子逐个作为环形中心原子、以设定的不同切割半径分别进行指纹切割,获得以不同的环形中心原子为开头的SMILES表示的指纹片段,将获得的指纹片段汇总形成预设指纹片段库。
6.根据权利要求5所述的分子生成方法,其特征在于,所述指纹切割时,对于与环形中心原子距离小于或等于切割半径的原子和键,在SMILES表示的指纹片段中全部保留;对于与环形中心原子距离等于切割半径+1的原子,在SMILES表示的指纹片段中保留位点标记;若标记有位点标记的两个原子在同一环中,用零价键作为连接。
7.根据权利要求1至6任意一项所述的分子生成方法,其特征在于,所述方法还包括:
对所述替换后的目标分子进行环结构变换,得到新的目标分子。
8.根据权利要求7所述的分子生成方法,其特征在于,所述对所述替换后的目标分子进行环结构变换,得到新的目标分子,包括:
检测所述替换后的目标分子的SMILES序列中的首原子后面是否邻接有环序号;
当所述SMILES序列中的首原子后面邻接有环序号时,对所述SMILES序列进行开环变换,得到开环的SMILES序列,并将该开环的SMILES序列作为新的SMILES序列,得到新的目标分子;
当所述SMILES序列中的首原子后面未邻接有环序号时,对所述SMILES序列进行闭环变换,得到闭环的SMILES序列,并将该闭环的SMILES序列作为新的SMILES序列,得到新的目标分子。
9.根据权利要求8所述的分子生成方法,其特征在于,所述对所述SMILES序列进行开环变换,得到开环的SMILES序列,包括:
在所述SMILES序列的首原子邻接的环序号后添加断键符,得到开环的SMILES序列。
10.根据权利要求8所述的分子生成方法,其特征在于,所述对所述SMILES序列进行闭环变换,得到闭环的SMILES序列,包括:
对所述SMILES序列进行正则表达式局部匹配,获得所述SMILES序列的首原子与匹配到的其余各原子之间的距离;
查与首原子的距离在预设距离范围内的目标原子;
在首原子的后面与该目标原子的后面分别邻接上相同的环序号,得到闭环的SMILES序列。
11.根据权利要求1至6任意一项所述的分子生成方法,其特征在于,所述方法还包括:
对所述替换后的目标分子进行合法化处理,得到合法的目标分子;其中,合法化处理包括以下至少一种操作:去除所述替换后的目标分子的SMILES序列中未闭合的括号、去除所述替换后的目标分子的SMILES序列中未成对的环序号、将所述替换后的目标分子的SMILES序列中不合法的芳香族原子转化为脂肪族原子、以及将双键或三键原子转化为单键原子。
12.一种分子生成装置,其特征在于,包括:
分子获取模块,用于获取待处理的目标分子;正则匹配快代理
指纹切割模块,用于对所述目标分子进行指纹切割,得到所述目标分子的指纹片段;
11.根据权利要求1至6任意一项所述的分子生成方法,其特征在于,所述方法还包括:
对所述替换后的目标分子进行合法化处理,得到合法的目标分子;其中,合法化处理包括以下至少一种操作:去除所述替换后的目标分子的SMILES序列中未闭合的括号、去除所述替换后的目标分子的SMILES序列中未成对的环序号、将所述替换后的目标分子的SMILES序列中不合法的芳香族原子转化为脂肪族原子、以及将双键或三键原子转化为单键原子。
12.一种分子生成装置,其特征在于,包括:
分子获取模块,用于获取待处理的目标分子;正则匹配快代理
指纹切割模块,用于对所述目标分子进行指纹切割,得到所述目标分子的指纹片段;
片段选取模块,用于计算所述目标分子的指纹片段与预设指纹片段库中的指纹片段的字符编辑距离,将所述预设指纹片段库中字符编辑距离小于设定阈值的指纹片段挑选出来作为待替换指纹片段;
片段替换模块,用于将所述目标分子中与所述目标分子的指纹片段重合的分子片段替换为所述待替换指纹片段,得到替换后的目标分子。
13.一种电子设备,其特征在于,包括:
处理器;
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-11中任一项所述的方法。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论