WO2019134319A1 - 类药有机分子的自动化构象分析方法 - Google Patents

类药有机分子的自动化构象分析方法 Download PDF

Info

Publication number
WO2019134319A1
WO2019134319A1 PCT/CN2018/086195 CN2018086195W WO2019134319A1 WO 2019134319 A1 WO2019134319 A1 WO 2019134319A1 CN 2018086195 W CN2018086195 W CN 2018086195W WO 2019134319 A1 WO2019134319 A1 WO 2019134319A1
Authority
WO
WIPO (PCT)
Prior art keywords
conformation
force field
fragments
flexible
molecule
Prior art date
Application number
PCT/CN2018/086195
Other languages
English (en)
French (fr)
Inventor
刘阳
张佩宇
杨明俊
孙广旭
马健
赖力鹏
温书豪
Original Assignee
深圳晶泰科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳晶泰科技有限公司 filed Critical 深圳晶泰科技有限公司
Priority to US16/466,645 priority Critical patent/US11443834B2/en
Priority to PCT/CN2018/086195 priority patent/WO2019134319A1/zh
Publication of WO2019134319A1 publication Critical patent/WO2019134319A1/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Abstract

公开了一种类药有机分子的自动化构象分析方法,包括:将输入分子提取成一组片段,片段分为三种类型:柔性键片段、环异构片段和构型异构片段;基于知识的构象推荐;基于力场扫描的构象推荐;利用QM的方法验证产生的构象;如果验证通过,说明推荐的构象是有效的,否则进行力场进行校正;汇集片段的构象列表;使用遗传算法,将各个片段的构象参数进行组合优化,找到最优的一组构象。本发明结合基于知识和计算两种方法的优点,可获得准确的构象推荐;当通用力场描述能力有限时,可以通过QM计算对通用力场进行校正,形成对于该片段描述跟精确的专有力场。

Description

发明名称:类药有机分子的自动化构象分析方法 技术领域
[0001] 本发明属于类药有机小分子模拟计算领域, 具体涉及类药有机分子的自动化构 象分析方法。
背景技术
[0002] 药物分子的构象对其生物活性有非常重要的影响。 药物分子和受体相互作用产 生一些列的构象变化, 形成了一种动态匹配的过程, 从而产生特定的药理反应 。 所以类药有机分子的构象分析以及合理构象产生, 对于计算机辅助药物设计 、 药物晶型预测等研究起到了至关重要的作用。
[0003] 目前常见的构象分析或者构象产生的方法主要两种:
[0004] 1.基于分子力场对柔性键扫描, 构建势能面并分析出所有可能的极值点。
[0005] 2.基于知识的方法进行构象推荐。 通常利用已有的实验构象库, 寻找相似的结 构集团并给出推荐构象。
[0006] 第一种方法主要适用于搜索柔性键数量少于 20个的有机分子, 通过一定策略 对所有的柔性角进行一维扫描。 然后根据柔性角的空间位组信息, 挑选一些会 产生耦合的柔性键对进行二维扫描。 最后根据每个柔性角的局限低能点进行组 合, 找到最有可能的一组构象。 这个方法可以利用分子力场计算量小的特点, 可以高效的遍历大部分构象空间。 但是这个方法的劣势也比较突出, 因为能量 计算主要依赖分子力场, 所以计算的精度非常受制于分子力场的势能面描述能 力。 通常使用的 GAFF、 FF94等通用力场参数对于药物小分子的化学空间覆盖 能力有限, 如果对应体系不能被力场参数精确描述, 那么推荐出的构象往往也 是错误的。
[0007] 第二种方法适用于更大分子结构的构象分析, 比如糖或者蛋白质。 这些分子通 常构象空间非常巨大, 无法通过扫描的方式遍历构象空间, 所以只能基于预先 知识指导构象生成。 所以常见的方式基于已知的构象数据库, 对目标分子的拆 解成片段, 然后在数据库中搜寻相同或相似的片段。 然后将搜索出的片段构象 进行统计分析, 推荐出每个片段的构象, 从而组合成为整体构象。 这种方式可 以有效的处理大分子, 计算的复杂度随着分子的大小线性增长。 不足之处主要 是基于已有的知识, 适合于处理糖和蛋白这类集团种类有限的分子。 而药物小 分子的多样性非常高, 通常已有的数据库可能无法有效的覆盖, 会出现无法在 数据库中匹配到与目标片段相同或相似片段的情况, 也就会导致无法推荐出合 理的构象。
发明概述
技术问题
问题的解决方案
技术解决方案
[0008] 针对上述技术问题, 本发明提供类药有机分子的自动化构象分析方法, 可使用 这个方法对进行分子的手性异构、 环异构、 空间异构进行综合分析, 推荐出所 有合理的构象。 所采用的技术方案为:
[0009] 类药有机分子的自动化构象分析方法, 主要包含以下步骤:
[0010] ( 1) 将输入分子提取成一组片段, 片段主要分为三种类型: 柔性键片段、 环 异构片段和构型异构片段;
[0011] 柔性键片段包含一柔性键或者两个耦合在一起的柔性键, 以及柔性键旁边邻近 的化学集团, 使用基于拓扑的规则来判断两个柔性键是否有耦合关系; 通过对 该柔性键片段的进一步分析, 找到该片段的柔性键上的势能面或者极值点, 从 而代表整个分子在这个柔性键上的势能面;
[0012] 环异构片段包含一个非共轭环或者多个环组成的稠环;
[0013] 构型异构片段是指包括了一个或多个顺反位点或手性中心, 以及周围的化学环 境;
[0014] (2) 基于知识的构象推荐; 从预建立的构象数据库检索出包含步骤 ( 1) 相应 片段的分子构象, 然后对检索出的分子中特定的柔性键或者环异构、 顺反以及 手性中心的构象统计, 并得出推荐的构象以及置信度; 置信度包括经验阈值, 大于阈值会认为知识推荐的可信度较高, 将会直接使用推荐的结果; 如果置信 度较低, 则会通过后续更精确的方式进行构象分析; [0015] (3) 基于力场扫描的构象推荐; 扫描策略主要包括以下几个策略: 一维或二 维的柔性键等间距旋转扫描; 柔性环的构象扫描; 顺反、 旋光性的构型扫描;
[0016] 利用分子力场, 快速对策略产生的构象进行优化和能量计算, 然后根据能量筛 选出合理的构象;
[0017] (4) 利用 QM的方法验证步骤 (3) 产生的构象, 验证方法主要有两种:
[0018] 极值点位置分析, 通过对极值点以及附近进行采样计算, 比较 QM和分子力场 的极值点的位置是否吻合;
[0019] 或者, 对推荐出的构象的相对能量进行分析, 验证 QM与分子力场计算的相关 性, 从而验证力场的精度;
[0020] 如果验证通过, 说明步骤 (3) 推荐的构象是有效的, 否则问题可能出在力场 精度上, 需要下一步对力场进行校正。
[0021] (5) 力场修正; 如果通用力场无法准确的描述这个分子的化学环境, 就需要 针对这个分子, 对力场参数针对性的提升; 通过对相应片段的分析, 会根据柔 性键、 环异构、 构型异构这几个类型加入 QM采样计算作为力场参数修正的训练 集, 然后进行力场参数的修正; 修正完之后, 重新进行力场扫描;
[0022] (6) 汇集片段的构象列表; 将每个片段分开推荐的构象列表进行汇集, 将构 象表达的数值进行提取, 包括柔性键的二面角值, 或者环异构的异构空间参数 , 以及顺反或手性的标识, 用于后续参数进行组合优化;
[0023] (7) 使用遗传算法, 将各个片段的构象参数进行组合优化, 全局搜索的方式 找到最优的一组构象。
发明的有益效果
有益效果
[0024] 本发明提供的类药有机分子的自动化构象分析方法, 具有的技术效果有:
[0025] ( 1) 结合基于知识和计算两种方法的优点, 对于常见的片段可以快速的基于 知识推荐; 对于非常见片段可以通过扫描计算的方式获得准确的构象推荐。 并 且计算后的结果会保存在知识数据库中, 随着计算的不断积累, 知识推荐的能 力也会不断提升。
[0026] (2) 当通用力场描述能力有限时, 可以通过 QM计算对通用力场进行校正, 形 成对于该片段描述跟精确的专有力场。 避免了因为力场局限性导致的构象推荐 不准确的问题。
[0027] (3) 使用遗传算法对片段的推荐构象进行组合。 因为直接将片段推荐的构象 进行组合空间过大, 所以本专利使用遗传算法解决这一问题。
对附图的简要说明
附图说明
[0028] 图 1是本发明的方法流程图;
[0029] 图 2是本发明的遗传算法的流程图;
[0030] 图 3是实施例的架构图。
发明实施例
本发明的实施方式
[0031] 结合实施例说明本发明的具体技术方案。
[0032] 实施例采用如图 1所示的流程, 主要包含以下几个步骤:
[0033] ( 1) 将输入分子提取成一组片段, 片段主要分为三种类型: 柔性键片段、 环 异构片段和构型异构片段。 柔性键片段会包含一柔性键或者两个耦合在一起的 柔性键, 以及柔性键旁边邻近的化学集团。 通常可以使用基于拓扑的规则来判 断两个柔性键是否有耦合关系。 通过对该片段的进一步分析, 就可以找到该片 段的柔性键上的势能面或者极值点, 从而代表整个分子在这个柔性键上的势能 面; 环异构片段通常包含一个非共轭环或者多个环组成的稠环; 构型异构片段 是指包括了一个或多个顺反位点或手性中心, 以及周围的化学环境。 这三种类 型的片段代表了这个分子的三类异构类型, 拆分成片段后更方便下一步的分析
[0034] (2) 基于知识的构象推荐。 从步骤 ( 1) 提取的每一个片段, 都首先经过这一 步骤处理。 在实际的系统实现中, 该步骤包含一个预建立的构象数据库, 预建 立的构象数据库来自实验构象或者历史计算结果。 通过数据库可以检索出包含 相应片段的分子构象, 然后对检索出的分子中特定的柔性键或者环异构、 顺反 以及手性中心的构象统计, 并得出推荐的构象以及置信度。 通常置信度会有个 经验阈值, 大于阈值会认为知识推荐的可信度较高, 将会直接使用推荐的结果 ; 如果置信度较低, 则会通过后续更精确的方式进行构象分析。
[0035] (3) 基于力场扫描的构象推荐。 扫描策略主要包括几个策略: 一维或二维的 柔性键等间距旋转扫描; 柔性环的构象扫描; 顺反、 旋光性的构型扫描。 利用 分子力场, 可以将快速对策略产生的构象进行优化和能量计算。 然后根据能量 筛选出合理的构象。
[0036] (4) 利用 QM的方法验证步骤 (3) 产生的构象, 验证方法主要有两种: 极值 点位置分析, 通过对极值点以及附近进行采样计算, 比较 QM和分子力场的极值 点的位置是否吻合; 另外就是对推荐出的构象的相对能量进行分析, 验证 QM与 分子力场计算的相关性, 从而验证力场的精度。 如果验证通过, 说明步骤 (3) 推荐的构象是有效的, 否则问题可能出在力场精度上, 就需要下一步对力场进 行校正。
[0037] (5) 力场修正。 如果通用力场无法准确的描述这个分子的化学环境, 就需要 针对这个分子, 对力场参数针对性的提升。 通过对相应片段的分析, 会根据柔 性键、 环异构、 构型异构这几个类型加入 QM采样计算作为力场参数修正的训练 集, 然后进行力场参数的修正。 修正完之后, 重新进行力场扫描。
[0038] (6) 汇集片段的构象列表。 将每个片段分开推荐的构象列表进行汇集, 将构 象表达的数值进行提取, 包括柔性键的二面角值, 或者环异构的异构空间参数 , 以及顺反或手性的标识, 方便后续将这些参数进行组合优化。
[0039] (7) 使用遗传算法, 将各个片段的构象参数进行组合优化, 找到最优的一组 构象。 如果考虑一个较大的分子, 包含 8个柔性角 (每个柔性角 4个极值点) , 两个异构换 (每个异构环两种构型、 两种取代位点) , 两个手性碳。 这样构象 组合可能多达百万 (4A8*2*2*2*2=1,048,576) , 无法进行遍历, 所以需要全局 搜索的方式找到最优的一组构象。 本专利使用了遗传算法处理该步骤, 因为遗 传算法具有过程简单, 收敛速度快的特点。 具体的遗传算法的过程见图 2。
[0040] 本算法的实现主要 B/S架构, 如图 3所示, 用户可以通过浏览器访问自动化构象 分析服务, 可以通过 SMILES的形式上传需要自动化构象分析的 2D分子结构。 自 动化构象分析服务是使用 Python 2.7作为编程语言编写, 部署在 Kubernetes平台上 [0041] 用户可以通过点击开始整个构象分析流程。 当分子上传后, 自动化构象分析服 务会向构象数据库发起查询请求。 构象数据库是由 PostgreSQL 9.6搭建而成, 数 据库中主要有两张表: Compound和 Conformation。 Compound主要保存了构象库 包含的化合物信息, Conformation表中保存了每个化合物对应的一组 3D构象信息
[0042] 当构象数据库返回的信息不足时, 自动化构象分析服务就会向计算集群提交计 算作业, 以完成后续的计算任务。 主要包括四个计算模块: 力场扫描分析模块 、 QM验证模块、 力场修正模块和遗传算法模块。 这三个均使用 Python 2.7编写, 其中力场部分使用 OpenMM做为能量计算工具, QM部分使用 Psi4作为计算工具 这三个计算模块使用 Docker作为构建和分发工具, 方便分布式的任务调度。
[0043] 自动化构象分析服务会每隔十秒钟检查仍在运行的计算任务, 如果发现计算失 败, 就会进行三次重试, 如果仍然失败, 就终止本次计算, 并将错误信息返回 给用户; 如果发现计算完成, 就会回收计算结果, 并返回给用户。

Claims

权利要求书
[权利要求 1] 类药有机分子的自动化构象分析方法, 其特征在于, 主要包含以下步 骤:
(D 将输入分子提取成一组片段, 片段主要分为三种类型: 柔性键 片段、 环异构片段和构型异构片段;
柔性键片段包含一柔性键或者两个耦合在一起的柔性键, 以及柔性键 旁边邻近的化学集团, 使用基于拓扑的规则来判断两个柔性键是否有 耦合关系; 通过对该柔性键片段的进一步分析, 找到该片段的柔性键 上的势能面或者极值点, 从而代表整个分子在这个柔性键上的势能面
环异构片段包含一个非共轭环或者多个环组成的稠环;
构型异构片段是指包括了一个或多个顺反位点或手性中心, 以及周围 的化学环境;
(2) 基于知识的构象推荐; 从预建立的构象数据库检索出包含步骤 ( 1) 相应片段的分子构象, 然后对检索出的分子中特定的柔性键或 者环异构、 顺反以及手性中心的构象统计, 并得出推荐的构象以及置 信度; 置信度包括经验阈值, 大于阈值会认为知识推荐的可信度较高 , 将会直接使用推荐的结果; 如果置信度较低, 则会通过后续更精确 的方式进行构象分析;
(3) 基于力场扫描的构象推荐; 扫描策略主要包括以下几个策略: 一维或二维的柔性键等间距旋转扫描, 柔性环的构象扫描, 顺反、 旋 光性的构型扫描;
利用分子力场, 快速对策略产生的构象进行优化和能量计算, 然后根 据能量筛选出合理的构象;
(4) 利用 QM的方法验证步骤 (3) 产生的构象, 如果验证通过, 说 明步骤 (3) 推荐的构象是有效的, 否则需要下一步对力场进行校正
(5) 力场修正; 如果通用力场无法准确的描述这个分子的化学环境 , 就需要针对这个分子, 对力场参数针对性的提升; 通过对相应片段 的分析, 会根据柔性键、 环异构、 构型异构这几个类型加入 QM采样 计算作为力场参数修正的训练集, 然后进行力场参数的修正; 修正完 之后, 重新进行力场扫描;
(6) 汇集片段的构象列表; 将每个片段分开推荐的构象列表进行汇 集, 将构象表达的数值进行提取, 包括柔性键的二面角值, 或者环异 构的异构空间参数, 以及顺反或手性的标识, 用于后续参数进行组合 优化;
(7) 使用遗传算法, 将各个片段的构象参数进行组合优化, 全局搜 索的方式找到最优的一组构象。
[权利要求 2] 根据权利要求 1所述的类药有机分子的自动化构象分析方法, 其特征 在于, 步骤 (4) 所述的验证方法主要有两种:
极值点位置分析, 通过对极值点以及附近进行采样计算, 比较 QM和 分子力场的极值点的位置是否吻合;
或者, 对推荐出的构象的相对能量进行分析, 验证 QM与分子力场计 算的相关性, 从而验证力场的精度。
PCT/CN2018/086195 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法 WO2019134319A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/466,645 US11443834B2 (en) 2018-05-09 2018-05-09 Automatic conformation analysis method for quasi-drug organic molecules
PCT/CN2018/086195 WO2019134319A1 (zh) 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/086195 WO2019134319A1 (zh) 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法

Publications (1)

Publication Number Publication Date
WO2019134319A1 true WO2019134319A1 (zh) 2019-07-11

Family

ID=67143559

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/086195 WO2019134319A1 (zh) 2018-05-09 2018-05-09 类药有机分子的自动化构象分析方法

Country Status (2)

Country Link
US (1) US11443834B2 (zh)
WO (1) WO2019134319A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113764054A (zh) * 2021-08-30 2021-12-07 深圳晶泰科技有限公司 一种功能有机晶体材料设计方法
CN114171126A (zh) * 2021-10-26 2022-03-11 深圳晶泰科技有限公司 分子训练集的构建方法、训练方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886659A (zh) * 2003-10-14 2006-12-27 维颂公司 分子构像及组合的分析方法及仪器
US20090248321A1 (en) * 2007-03-23 2009-10-01 Hiroshi Izumi Conformation analysis device, analysis method, conformational notation device and notation method
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN108763852A (zh) * 2018-05-09 2018-11-06 深圳晶泰科技有限公司 类药有机分子的自动化构象分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020025535A1 (en) * 2000-06-15 2002-02-28 Diller David J. Prioritization of combinatorial library screening

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1886659A (zh) * 2003-10-14 2006-12-27 维颂公司 分子构像及组合的分析方法及仪器
US20090248321A1 (en) * 2007-03-23 2009-10-01 Hiroshi Izumi Conformation analysis device, analysis method, conformational notation device and notation method
CN103984878A (zh) * 2014-04-08 2014-08-13 浙江工业大学 一种基于树搜索和片段组装的蛋白质结构预测方法
CN108763852A (zh) * 2018-05-09 2018-11-06 深圳晶泰科技有限公司 类药有机分子的自动化构象分析方法

Also Published As

Publication number Publication date
US20210265019A1 (en) 2021-08-26
US11443834B2 (en) 2022-09-13

Similar Documents

Publication Publication Date Title
CN108763852B (zh) 类药有机分子的自动化构象分析方法
Ruffolo et al. Antibody structure prediction using interpretable deep learning
Kaltenecker et al. Distance-based sampling of software configuration spaces
Fernandez-Fuentes et al. Comparative protein structure modeling by combining multiple templates and optimizing sequence-to-structure alignments
Bates et al. Enhancement of protein modeling by human intervention in applying the automatic programs 3D‐JIGSAW and 3D‐PSSM
Shen et al. Homology modeling of larger proteins guided by chemical shifts
Ma et al. Algorithms, applications, and challenges of protein structure alignment
Shen et al. When homologous sequences meet structural decoys: Accurate contact prediction by tFold in CASP14—(tFold for CASP14 contact prediction)
Gao et al. Alphadesign: A graph protein design method and benchmark on alphafolddb
Li et al. Sequence clustering strategies improve remote homology recognitions while reducing search times
Robles et al. Bayesian network multi-classifiers for protein secondary structure prediction
WO2019134319A1 (zh) 类药有机分子的自动化构象分析方法
CN113066525B (zh) 一种基于集成学习与混合神经网络的多靶标药物筛选方法
Zheng et al. Protein structure prediction constrained by solution X-ray scattering data and structural homology identification
CN115132270A (zh) 药物筛选方法及系统
Liu et al. PSP: million-level protein sequence dataset for protein structure prediction
Ashtawy et al. Boosted neural networks scoring functions for accurate ligand docking and ranking
CN117198408A (zh) 一种多模型综合集成药物重定位系统及方法
CN1129081C (zh) 匹配引擎
Gu et al. CurrMG: A curriculum learning approach for graph based molecular property prediction
US8024127B2 (en) Local-global alignment for finding 3D similarities in protein structures
Konopka et al. Quality assessment of protein model-structures based on structural and functional similarities
Glick et al. Panoramic: A package for constructing eukaryotic pan‐genomes
Rahman et al. Exploring Chromatin Interaction Between Two Human Cell Types and Different Normalization Techniques for HI-C Data
Sammeth et al. Global multiple‐sequence alignment with repeats

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18898025

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 12/04/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18898025

Country of ref document: EP

Kind code of ref document: A1