KR20230135990A - 트랜스포머와 원자 환경을 이용한 역합성 번역 방법 및 이를 수행하기 위한 장치 - Google Patents
트랜스포머와 원자 환경을 이용한 역합성 번역 방법 및 이를 수행하기 위한 장치 Download PDFInfo
- Publication number
- KR20230135990A KR20230135990A KR1020220033648A KR20220033648A KR20230135990A KR 20230135990 A KR20230135990 A KR 20230135990A KR 1020220033648 A KR1020220033648 A KR 1020220033648A KR 20220033648 A KR20220033648 A KR 20220033648A KR 20230135990 A KR20230135990 A KR 20230135990A
- Authority
- KR
- South Korea
- Prior art keywords
- atomic
- model
- sequence
- retrosynthetic
- predetermined radius
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 32
- 239000000376 reactant Substances 0.000 claims abstract description 42
- 239000012634 fragment Substances 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004891 communication Methods 0.000 claims description 10
- 230000001537 neural effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 abstract description 26
- 239000000126 substance Substances 0.000 abstract description 15
- 238000012360 testing method Methods 0.000 abstract description 7
- 238000013467 fragmentation Methods 0.000 abstract description 4
- 238000006062 fragmentation reaction Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 12
- 150000001875 compounds Chemical class 0.000 description 9
- 230000035772 mutation Effects 0.000 description 8
- 238000002902 MACCS key Methods 0.000 description 7
- UHOVQNZJYSORNB-UHFFFAOYSA-N Benzene Chemical compound C1=CC=CC=C1 UHOVQNZJYSORNB-UHFFFAOYSA-N 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 5
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 125000001931 aliphatic group Chemical group 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000007858 starting material Substances 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 125000000524 functional group Chemical group 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 239000002243 precursor Substances 0.000 description 3
- 108091005942 ECFP Proteins 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 238000006757 chemical reactions by type Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000015067 sauces Nutrition 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000283986 Lepus Species 0.000 description 1
- 125000003118 aryl group Chemical group 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000975 bioactive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000543 intermediate Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 101150006061 neur gene Proteins 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010916 retrosynthetic analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Public Health (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Medicinal Chemistry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
실시예는 트랜스포머 아키텍처와 결합된 조각 기반 토큰화를 사용한 새로운 역합성 예측 방법을 개시한다. 실시예는 원자 환경 조각화 체계를 사용하여 분자의 조각 세트의 변화를 이용하여 화학 반응을 나타낸다. 원자 환경은 이상적이고 화학적으로 의미 있는 구성 요소로서 고해상도 분자 표현을 생성한다. 일련의 원자 환경을 가진 분자를 설명하는 것은 반응에서 원자의 보존으로 인해 번역된 생성물-반응물 쌍 사이의 명확한 관계를 확립한다. 실시예는 USPTO 테스트 데이터 세트에 대해 생물학적으로 유사한 범위 내에서 67.1%의 최고 정확도를 달성하여 다른 최첨단 번역 방법을 능가했다. 다양한 인코딩 시나리오가 반응물 후보 예측에 미치는 영향을 조사했다. 역합성 예측을 위한 새로운 템플릿이 없는 모델은 단편화 패턴이 드러나는 물질에 대해 빠르고 신뢰할 수 있는 역합성 경로 계획을 제공한다.
Description
역합성이란 어떤 유기 화합물을 목표로 하는 합성 반응에 있어서, 특정 화학구조를 가지고 있는 목표 화합물을 어떠한 출발 물질에서 어떤 경로를 통해 합성할 것인가를 추적해 가는 과정을 의미한다. 이를 위해, 실제로 이루어지는 반응 경로와는 역방향으로 목표 화합물의 화학구조에 도착할 수 있을 만한 전구체를 확인하고, 다시 그러한 전구체에 도달하는 다른 전구체를 고려하는 식으로 출발 물질에 이르게 된다. 이는 특히 약물 디자인에 있어서, 표적 단백질과 결합 가능한 후보군을 가상 스크리닝한 후에, 이러한 후보군들 중에서 실제로 합성 가능한 또는 상용화 가능한 물질을 찾아내는데 있어 중요한 단계이다.
유기 분자의 반응 경로를 계획하는 것은 유기 합성의 핵심 요소이다. 모든 논리적 단절을 고려함으로써 원하는 유기 분자의 복잡성을 줄이는 아이디어는 역합성 접근법의 기초를 형성한다. 따라서 역합성 접근법의 목적은 일련의 가능한 반응 빌딩 블록으로부터 표적 분자를 생성하기 위한 논리적 합성 경로를 제안하는 것이다. 역합성 접근방식은 화학적으로 타당한 경로가 확인될 때까지 표적 분자에 재귀적으로 작용한다. 더 넓은 관점에서, 문헌의 정반응 및 역반응 경로 예측인자는 반응 템플릿의 구성에 의존하는 예측인자와 템플릿이 없이 종단간(end-to-end) 방식으로 학습된 데이터 기반 네트워크로 나눌 수 있다.
템플릿이 없는 방법은 템플릿 기반 패러다임의 방법론적 한계를 해결하는 효과적인 수단으로 등장했다. 템플릿이 없는 방법은 분자 표현 방법에 따라서, (i) 그래프 기반 방법 및 (ii) 시퀀스 기반 방법으로 더 세분화될 수 있다. 시퀀스 기반 모델링은 분자의 문자열 표현을 사용하여 반응 경로 계획 문제를 언어 번역 문제로 재현한다. 최신 기술인 정반응 및 역반응 예측인자는 대부분 트랜스포머 아키텍처를 기반으로 한다(문헌 [Ashish and Shazeer Vaswani Noam and Parmar, Attention is all you need, Adv. Neur. In. 2017-Decem (2017), no. Nips, 5999-6009, available at 1706.03762]). 협업의 결과로 개발된 트랜스포머는 어텐션 메커니즘에만 의존하는 신경망 기계 번역(Neural Machine Translation: NMT) 모델이다(문헌 [Dzmitry and Cho Bahdanau Kyung Hyun and Bengio, Neural machine translation by jointly learning to align and translate, 3rd Int. Conf. Learn. Represent. ICLR 2015 - Conf. Track Proc. (2015), 1-15, available at 1409.0473]). 분자 트랜스포머는 정반응 예측 과제에 대해 SMILES(simplified Molecular Input Line Entry System)가 적용된 트랜스포머의 첫 번째 적용이었다. 추가 연구는 위치선택성과 입체선택성을 조사하기 위해 약물 유사 분자와 탄수화물 반응을 포함한 다른 화합물 데이터베이스를 사용하여 일반적인 예측을 수행하는 능력을 입증했다. 이러한 성공은 SMILES를 사용한 역합성에 대한 추가 연구를 위한 길을 열었다.
SMILES 문자열은 NMT 모델의 대표적인 입력이다. 널리 사용되고 있음에도 불구하고, SMILES는 문법적으로 복잡하기 때문에 잘못된 예측을 하기 쉽다. 즉, SMILES 기반 예측 방법은 문법적으로 유효하지 않은 예측을 하는 경향이 있어 예측 효율성이 저하된다. 이 문제를 해결하기 위해 SCROP(문헌: [Shuangjia and Rao Zheng Jiahua and Zhang, Predicting Retrosynthetic Reactions Using Self-Corrected Transformer Neural Networks, Journal of Chemical Information and Modeling 60 (2020), no. 1, 47-55, DOI 10.1021/acs.jcim.9b00949])는 무효율을 줄이기 위해 신경망 기반 문법 수정기를 포함했다. 마찬가지로, Duan et al(문헌: [Hongliang and Wang Duan Ling and Zhang, Retrosynthesis with attention-based NMT model and chemical analysis of "wrong" predictions, RSC Advances 10 (2020), no. 3, 1371-1378, DOI 10.1039/c9ra08535a])에서는 예측 정확도를 향상시키기 위해 잘못된 SMILES의 원인에 초점을 맞췄다. 또한, 문법적으로 유효한 SMILES가 의미론적으로 유효하거나 합성 가능함을 보장하지는 않는다. 이에 대해서는, 분자를 조각들의 집합으로 나타내는 것이 앞서 언급한 문제에 대한 효과적인 해결책임이 입증되었다(문헌: [Daniel Lowe, Chemical reactions from US patents (1976-Sep2016), posted on 2017, DOI 10.6084/m9.gshare.5104873.v1]).
역합성 분석의 복잡성을 고려할 때 정확한 예측을 위해서는 소스-타겟 데이터 구조의 효율적인 표현이 중요하다. 본 발명의 실시예들은 반응물의 원자 환경을 생성물과 연관시켜 역합성 예측을 위한 직접 번역 접근법을 제안한다. 원자 환경은 미리 설정된 반지름을 가진 원자를 중심으로 한 위상 조각이다(문헌: [Hahnke, V. D., Bolton, E. E. & Bryant, S. H. PubChem atom environments. J. Cheminform. 7, 1-37 (2015)Mario and Hase Krenn Florian and Nigam, Self-referencing embedded strings(SELFIES): A 100% robust molecular string representation, Machine Learning: Science and Technology 1 (2020), no. 4, 045024, DOI 10.1088/2632-2153/aba947, available at 1905.13741]]). 반지름은 공유 결합을 통한 원자들 사이의 최단 위상학적 거리의 수, 즉, 공유 결합의 최소 수에 의해 정의된다. 실시예에서 이들은 분자의 기초로 간주되고 실시예의 예측 워크플로우에 사용된다. 실시예의 디자인은 반응 중심과 관련된 조각에 초점을 맞춤으로써 반응과 관련된 분자의 변화를 포착할 수 있게 해준다. 타겟 분자에 대한 반응물 후보물질을 정확하게 생성하기 위해 NMT 애플리케이션에서 현존 최고의 성능을 발휘하는 트랜스포머 아키텍처를 사용한다. 실시예의 모델은, 정확한 일치에 대해서는 53.4%, 생물학적으로 유사한 예측이 포함된 경우 67.1%의 정확도를 달성하여 Top-1 정확도를 달성한다는 것을 보여준다. 이러한 결과는 유효하지 않은 예측 문제를 겪지 않으면서도 기존 방법과 비슷하거나 더 나은 결과이다.
역합성에 있어서 SMILES는 문법적으로 복잡하기 때문에 잘못된 예측을 하기 쉽다. 즉, SMILES 기반 예측 방법은 문법적으로 유효하지 않은 예측을 하는 경향이 있어 예측 효율성이 저하된다. 또한, 문법적으로 유효한 SMILES가 의미론적으로 유효하거나 합성 가능함을 보장하지는 않는다.
본 발명의 일 실시예는 트랜스포머 아키텍처에 기반한 신경망 기계 번역(Neural Machine Translation: NMT) 모델을 이용하여 생성물에 대한 반응물을 예측하는 역합성 번역 방법으로서, 상기 모델의 입력 시퀀스 및 출력 시퀀스를 준비하는 단계로서, 상기 입력 시퀀스 및 출력 시퀀스는 분자를 조각 목록으로 표시한 것으로서, 상기 조각 목록을 이루는 각 조각은 원자 환경(Atom environment: AE)에 기반하여 표현된 조각이며, 생성물 및 반응물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 각각 상기 입력 시퀀스 및 상기 출력 시퀀스로 준비하는 단계; 상기 입력 시퀀스 및 상기 출력 시퀀스를 통해 상기 모델을 학습시키는 단계; 및 상기 학습된 모델을 통해 생성물을 역합성하여 반응물을 예측하는 단계로서, 신규 생성물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 상기 모델의 입력 시퀀스로 입력하고, 상기 모델을 통해 출력 시퀀스를 출력하며, 상기 출력 시퀀스에 기반하여 예측 반응물을 검출하는, 예측 단계를 포함하고, 상기 원자 환경은 소정의 반지름을 가지는 중심 원자와 이의 공유결합 이웃으로 구성된 조각으로서, 상기 소정의 반지름은 상기 중심 원자와 모든 공유결합 원자 사이의 최대 허용 위상학적 거리인, 역합성 번역 방법을 제공한다.
또한, 상기 소정의 반지름은 원자 사이의 최단 경로에 있는 결합의 수일 수 있다.
또한, 상기 소정의 반지름이 0 인 원자 환경의 집합(AE0) 및 상기 소정의 반지름이 1 인 원자 환경의 집합(AE2) 중 하나로 상기 조각을 표현할 수 있다.
또한, 상기 소정의 반지름이 0 인 원자 환경의 집합(AE0) 및 상기 소정의 반지름이 1 인 원자 환경의 집합(AE2)을 조합하여 상기 조각을 표현할 수 있다.
또한, 상기 원자 환경은 SMARTS(simplified molecular-input line-entry system arbitrary target specification) 패턴으로 표현될 수 있다.
또한, 상기 각 원자 환경에 대한 상기 SMARTS 패턴은 고유한 정수 값과 연결될 수 있다.
또한, 상기 원자 환경은 ECFP(Extended Circular FingerPrint) 알고리즘에 의해 생성될 수 있다.
또한, 상기 모델은 인코더 유닛 및 디코더 유닛을 사용하고, 상기 각 유닛에 다중 헤드 어텐션 메커니즘을 적용하여 상기 입력 시퀀스와 상기 출력 시퀀스를 번역할 수 있다.
본 발명의 다른 실시예는 트랜스포머 아키텍처에 기반한 신경망 기계 번역(Neural Machine Translation: NMT) 모델을 이용하여 생성물에 대한 반응물을 예측하는 역합성 번역 장치로서, 상기 신경망 기계 번역 모델을 제어하기 위한 제어부; 외부 서버와의 통신을 위한 통신부; 메모리부; 디스플레이부; 및 사용자의 입력을 수신하는 입력부를 포함하고, 상기 메모리부는 상기 모델의 입력 시퀀스 및 출력 시퀀스를 포함하고, 상기 입력 시퀀스 및 출력 시퀀스는 분자를 조각 목록으로 표시한 것으로서, 상기 조각 목록을 이루는 각 조각은 원자 환경(Atom environment: AE)에 기반하여 표현된 조각이며, 생성물 및 반응물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 각각 상기 입력 시퀀스 및 상기 출력 시퀀스로 저장하고, 상기 제어부는 상기 입력 시퀀스 및 상기 출력 시퀀스를 통해 상기 모델을 학습시키고, 상기 제어부는 상기 학습된 모델에 대하여 신규 생성물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 상기 모델의 입력 시퀀스로 입력하고, 상기 모델을 통해 출력 시퀀스를 출력하며, 상기 출력 시퀀스에 기반하여 예측 반응물을 검출하며, 상기 원자 환경은 소정의 반지름을 가지는 중심 원자와 이의 공유결합 이웃으로 구성된 조각으로서, 상기 소정의 반지름은 상기 중심 원자와 모든 공유결합 원자 사이의 최대 허용 위상학적 거리인, 역합성 번역 장치를 제공한다.
실시예는 역합성 분석의 복잡성을 고려하여 정확한 예측을 위한 소스-타겟 데이터 구조의 효율적인 표현을 개시한다. 구체적으로, 본 발명의 실시예들은 반응물의 원자 환경을 생성물과 연관시켜 역합성 예측을 위한 직접 번역 접근법을 제안한다.
또한, 실시예의 디자인은 반응 중심과 관련된 조각에 초점을 맞춤으로써 반응과 관련된 분자의 변화를 포착할 수 있게 해준다.
도 1은 입력-출력 구조를 포함하는 실시예 모델의 개략도이다.
도 2는 실시예에 따른 분자 표현의 예시이다.
도 3은 실시예에 따른 고유한 SMARTS 패턴의 수에 따른 Morgan 비트의 수를 나타낸 히스토그램이다.
도 4는 실시예에 따른 예측의 품질을 평가하기 위한 예시이다.
도 5는 실시예에 따른 각 임계값 수준에 속하는 대표적인 예시를 나타낸다.
도 6은 실시예에 따른 데이터 세트의 모든 화합물을 사용하여 AE0 및 AE2 세트를 생성하고 화학 공간에 대한 다양성과 커버리지를 시각화한 도면이다.
도 7은 실시예에 따른 검출 테스트 결과를 나타낸다.
도 8은 실시예에 따른 역합성 방법을 구현하기 위한 장치의 개략도이다.
도 2는 실시예에 따른 분자 표현의 예시이다.
도 3은 실시예에 따른 고유한 SMARTS 패턴의 수에 따른 Morgan 비트의 수를 나타낸 히스토그램이다.
도 4는 실시예에 따른 예측의 품질을 평가하기 위한 예시이다.
도 5는 실시예에 따른 각 임계값 수준에 속하는 대표적인 예시를 나타낸다.
도 6은 실시예에 따른 데이터 세트의 모든 화합물을 사용하여 AE0 및 AE2 세트를 생성하고 화학 공간에 대한 다양성과 커버리지를 시각화한 도면이다.
도 7은 실시예에 따른 검출 테스트 결과를 나타낸다.
도 8은 실시예에 따른 역합성 방법을 구현하기 위한 장치의 개략도이다.
본 발명은 본 명세서에 첨부된 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 본 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계 외에 하나 이상의 다른 구성요소, 단계의 존재 또는 추가를 배제하지 않는다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
1. 모델 개요
트랜스포머 아키텍처의 주요 목표는 타겟 시퀀스의 다음 단어를 생성하는 것이다. 트랜스포머는 인코더와 디코더 유닛을 사용하여 각 유닛에 다중 헤드 어텐션 메커니즘을 효과적으로 적용하여 시퀀스 사이를 번역한다. 트랜스포머 모델에 대한 입력 및 출력 시퀀스는 조각의 목록이다. 실시예는 분자를 조각 목록으로 변환하기 위하여 몇 가지 다른 방법들, 즉, MACCS(Molecular ACCess System) key, ECFP(Extended Circular FingerPrint)의 비트 벡터 및 원자 환경(Atom Environment: AE)을 테스트했다. 실시예는 원자 환경 표현이 최상의 모델로 이어진다는 것을 확인했다. 원자 환경은 소정의 반지름을 가지는 중심 원자와 이의 공유결합 이웃으로 구성된 조각이다. 이는 퍼즐의 조각과 유사하게 분자를 구성하는 기초라 여겨질 수 있다. 각 원자 환경은 SMARTS(simplified molecular-input line-entry system arbitrary target specification) 패턴으로 표현된다.
실시예의 트랜스포머 모델, 즉 RetroTRAE의 개요는 도 1에 설명되어 있다. 생성물 분자에서 시작하여 고유한 정수 값 세트로 분해된다. 각 AE에 대하여, SMARTS 패턴은 고유한 정수 값과 연결된다. AE 목록은 RetroTRAE의 입력 시퀀스로 제공된다. RetroTRAE는 실제 반응물에 해당하는 반응물의 적절한 AE 시퀀스를 예측하도록 훈련된다.
2. 원자 환경
실시예는 반응 데이터 세트의 분자를 나타내기 위해 원형 원자 환경의 개념을 사용했다. 원형 환경은 포함된 원자 사이의 모든 결합을 포함하는 다양한 '반지름들'의 위상학적 이웃 조각으로 정의된다(문헌: [Hahnke, V. D., Bolton, E. E. & Bryant, S. H. PubChem atom environments. J. Cheminform. 7, 1-37 (2015)]). 그것들은 중심 원자라고 불리는 특정한 원자에 중심을 두고 있다. '반지름'은 중심 원자와 모든 공유 결합 원자 사이의 최대 허용 위상학적 거리를 의미한다. 두 원자 사이의 위상학적 거리는 원자 사이의 최단 경로에 있는 결합의 수로 측정된다. 따라서 반지름 "r"의 원자 환경은 중심 원자와의 위상적 거리 r 이하인 분자의 모든 원자와 그들 사이의 모든 결합을 포함한다.
실시예는 원자 환경을 구성하기 위해 RDKit에 구현된 다양한 반지름들의 ECFP를 사용했다. 실시예는 ECFP의 비트로 접힌 모든 고유한 조각을 추출했다. ECFP 알고리즘에 의해 생성된 원자 환경은 회전과 번역에 불변하며 도 2와 같이 SMARTS 패턴으로 쉽게 해석할 수 있다. 예를 들어, 반지름 r=0 인 원자 환경은 중심 원자의 원자 유형만 포함한다. r=0 인 원자 환경의 집합은 AE0 로 표시된다. r=1 인 원자 환경은 중심 원자, 중심 원자에 인접한 모든 원자(최근접 이웃), 그리고 이들 원자 사이의 모든 결합을 포함한다. r=1 인 모든 원자 환경의 집합은 AE2 로 표시된다.
도 2는 벤젠의 문자열 표현을 SMILES, SELFIES 및 Morgan 지문에 의해 생성되는 SMARTS 패턴의 조합으로 표현한 것이다. 원자 환경 렌더링에서 중심 원자는 파란색으로 표시되고, 방향족 및 지방족 고리 원자는 노란색과 회색으로 표시된다. 와일드카드 [*]는 모든 원자에 사용된다. 구체적으로, 도 2에서 벤젠의 문자열 표현은 최근 개발된 SELFIES(문헌: [Krenn, M., Ha¨se, F., Nigam, A., Friederich, P. & Aspuru-Guzik, A. Self- referencing embedded strings (SELFIES): A 100% robust molecular string representation. Mach. Learn.: Sci. Technol. 1, 045024 (2020)]) 표현과 함께 ECFP 지문에 의해 생성된 원자 환경을 나타내는 일반적인 SMILES와 SMARTS 패턴으로 주어진다. SMARTS와 SELFIES는 표시되는 정보의 레벨에 있어서 매우 유사하다. SMARTS 표현의 텍스트 부분에는 두 가지 레벨의 세부 정보가 포함되어 있다. 첫 번째 세부 사항은 원소의 방향족도와 H 카운트에 관한 것이다. 두 번째는 이웃하는 중원자의 수와 고리 정보를 포함한다(각각 "D"와 "R"로 표현된다). 정의에 따르면 반지름 0의 환경은 단일 원자 환경에 해당하고, 반지름 1비트는 모두 최소 3개의 원자를 가지며, 반지름 2비트는 각각 최소 5개의 원자를 가진다.
실시예는 두 가지 단편화 체계, AEs(원자 환경)과 ECFPs를 테스트했다. 단어 기반 토큰화 체계는 AE와 ECFP 비트 벡터의 인덱스에 모두 적용되었다. ECFP 비트 벡터는 문장처럼 지문 공간에서 원핫 인코딩된 벡터에 해당하며, 이는 어휘 공간에서 원핫 인코딩된 벡터이다. 실시예에서 비트 인덱스 및 SMARTS로 인코딩된 다음 표현을 시도한다.
- 반지름 0과 1의 원자 환경을 나타내는 AE0 및 AE2
- 반지름 0, 1, 2의 Morgan 지문에 해당하는 ECFP0, ECFP2 및 ECFP4 - 1024의 치수로 해시 처리됨.
반지름 2(AE4)의 원자 환경은 대규모 데이터 세트에 수백만 개의 구별된 조각을 생성한다. AE4의 방대한 어휘 크기 때문에 번역 용도로는 적합하지 않다. 따라서, 반지름 2에는 Morgan 지문의 해시 버전만 선택된다. 오픈소스 RDKit 모듈 버전 2020.03.1은 ECFPs 및 AEs를 생성하는 데 사용된다.
3. 데이터세트
신경망 기계 번역 방법은 성공적인 번역을 위해 다양한 소스-타겟 쌍의 대규모 말뭉치가 필요하다. 실시예의 모델을 현재 최첨단 기술과 평가하고 비교하기 위해, 텍스트 마이닝 접근법으로 얻은 필터링된 미국 특허 반응 데이터 세트인 USPTO-Full의 서브세트를 사용했다. 이 서브세트는 중복 반응과 잘못된 반응을 USPTO-Full에서 제거한 후 480,000개의 원자맵 반응을 포함한다. 실시예 모델의 학습에 있어서, 원자맵핑 정보는 사용되지 않았다. 그러나 생성물의 각 원자가 반응물에 고유한 대응 원자를 가지고 있다는 사실로부터 내재적인 이익을 얻는다. 또한, 이 데이터 집합에서 사용할 수 있는 반응 분류 정보가 없다. 생성물-반응물 쌍은 큐레이션되어 각각 크기가 100K와 314K인 P ---> R 및 P ---> RA+RB 유형 반응으로 구성된 두 개의 뚜렷한 큐레이션 데이터 세트를 생성했다. 또한 1억1,100만개의 분자가 포함된 PubChem 화합물 데이터베이스와 ChEMBL 데이터베이스를 사용하여 AEs 목록에서 분자를 복구하고 AEs의 공간을 비교했다.
4. 학습 세부사항
큐레이션된 데이터 세트를 9:1로 임의로 분할하여 학습 및 테스트 세트를 생성했다. 검증 세트는 학습 세트(10%)에서 무작위로 샘플링되었다. 확률적 경사 강하 알고리즘(stochastic gradient descent algorithm)을 사용하여 음의 로그 우도(negative log-likelihood: NLL) 손실 함수와 결합하여 모델 파라미터를 학습시켰다. 각 데이터 세트에 대해 표 1에 설명된 대로 하이퍼 파라미터 공간 범위 내에서 여러 테스트를 수행하여 최적의 성능을 달성했다. 검증 세트의 성능에 따라 최적의 하이퍼 파라미터가 선택된다. 이러한 하이퍼 파라미터를 사용하면 단일 반응물 데이터 세트의 1000단계에 해당하는 평균 학습 속도가 에폭 당 약 11분이었다. 웜 재시작(SGDR)을 사용한 학습 속도 스케줄러 확률적 경사 하강법으로 최소 1000세기 동안 모델을 훈련하고 0.1의 비율로 잔류 드롭아웃을 적용했다. 하이퍼 파라미터에 대한 자세한 내용은 아래의 표 1에 나타나 있다.
파라미터 | 가능 값 | 최적화 모델 파라미터 |
Number of layers | 2 - 8 | 4 |
Number of head | 4 - 12 | 8 |
Size of hidden layers | 256, 512, 1024 | 512 |
Size of intermediates | 512, 1024, 2048 | 2048 |
Optimizer | Adam or SGD | SGD |
Dropout | 0.1, 0.2, 0.5 | 0.1 |
Number of epochs | 600 - 1500 | 1000 |
Validation per epoch | @2 ― @100 | @100 |
Learning Rate | 0.01 ― 2.5 | 0.1, 0.05, 0.01 |
Learning Rate Scheduler | Decay, SGDR | SGDR |
Cycle per epoch | 3/1 ― 1/3 | 5/4 |
Decay factor | 0.8 - 0.98 | 0.91 |
5. 평가
실시예의 번역 모델의 성능을 평가하려면 예측과 실제 반응물 사이의 유사성을 측정하기 위해 적절한 유사성 측정법을 선택해야 한다. 트베르스키(Tversky) 지수의 특수 사례 중 두 가지로서 타니모토(Tanimoto) 계수(T c ) 와 쇠렌센-다이스(Sørrensen-Dice) 계수(S)가 실시예를 위하여 선택된 지표이다. 트베르스키 지수의 정확한 형태는 다음과 같다.
여기서 은 트베르스키 지수의 파라미터이다. 을 설정하면 타니모토 계수가 되고, 를 설정하면 쇠렌센-다이스 계수가 된다. 두 분자 사이에서 측정된 타니모토와 다이스 계수는 0과 1 사이이다. 0 값은 완전한 상이성을 나타내고 1 값은 정확한 일치를 나타낸다. 예측된 시퀀스 및 올바른 시퀀스 간의 쌍별 유사성은 선택한 측정법을 사용하여 유효성 검사 세트에 존재하는 모든 쌍에 대해 각 에폭의 끝에서 계산된다.
분자를 분해하는 방법은 다양하기 때문에, 역합성 예측 도구는 가능한 합성 경로를 대량으로 확보할 수 있다. 그러나 적절한 합성 경로를 선택하는 것은 어렵다. 경험에 기반하여, 실시예는 분자 검색 및 검출뿐만 아니라 네트워크 성능을 보고하기 위한 최상의 권장 사항으로 top-1 예측을 사용했다. 실시예는 ccbmlib Python 패키지(문헌: [Vogt, M. & Bajorath, J. Ccbmlib―A python package for modeling tanimoto similarity value distributions. F1000Research 9, 100 (2020)])를 사용하여 지문의 유사성 값 분포를 생성하고 타니모토 계수의 통계적 중요성을 평가했다. 또한 이 구현을 통해 다양한 지문 설계 간의 유사성 값을 정량적으로 비교할 수 있다.
6. 실시예의 성능
최상의 분자 구조 인코딩을 찾기 위해 선택된 지문 변이들의 역합성 예측인자 성능을 평가했다. 실시예의 트랜스포머 모델의 결과를 표 2에 제시된 것과 같이 이전에 개발된 하위구조 기반 역합성 예측 변수와 비교했다.
모델 | MIT-Single | |||
T C = 1.0 | T C ≥ .85 | |||
Bi-LSTM-based | ||||
MACCS | 29.9 | 57.7 | 0.84 | |
ECFP2 | 35.6 | 50.7 | 0.80 | |
ECFP4 | 9.1 | 28.4 | 0.66 | |
Transformer-based | ||||
MACCS | 30.1 | 57.5 | 0.85 | |
ECFP0 | 50.8 | 61.2 | 0.85 | |
ECFP2 | 52.9 | 66.6 | 0.88 | |
ECFP4 | 26.0 | 50.1 | 0.73 | |
AE0 | 47.2 | 57.4 | 0.83 | |
AE2 | 50.9 | 59.9 | 0.84 | |
AE0 ∪ AE2 | 53.4 | 67.1 | 0.88 |
AE0과 AE2의 조합으로 분자를 나타내는 트랜스포머 모델은 53.4%의 정확히 일치하는 정확도를 달성하면서 다른 모든 모델보다 성능이 우수했다. 구조적 유사성과 생물학적 활동 사이의 관계는 체계적인 분석에서 광범위하게 조사되었다. 분자는 유사성이 0.85 이상일 때(T C 0.85) 유사한 생물학적 활동을 하는 것으로 밝혀졌다. 생물학적으로 유사한 예측을 추가하면(T C .85) 정확도가 정확한 일치에 비해 13.7% 증가하여 전체 모델 정확도가 67.1%가 된다. ECFP2를 사용하는 것 또한 우수한 성능을 보였으나 AEs 를 사용하는 것보다는 약간 낮은 성능을 나타냈다. 이하에서는 AE0과 AE2가 결합된 모델을 RetroTRAE라고 칭한다.
트랜스포머 기반 모델은 정확한 일치 정확도와 관련하여 이전의 bi-LSTM 기반 방법에 비해 크게 개선되었다. 이러한 개선은 전체 성능이 15-17% 향상되었음을 나타낸다. 그러나 MACCS keys가 조각화에 사용될 때, 정확한 일치와 생물학적으로 유사한 일치의 수가 비슷한 것으로 밝혀졌다. 이는 MACCS keys의 조합이 제한된 다양성, 즉 저해상도 전력을 가질 수 있음을 시사한다. 이와는 대조적으로 AE2는 MACCS keys보다 화학 공간을 더 정밀하게 기술하고 60배 높은 해상도를 제공한다. 이는 아래의 표 3에서 확인할 수 있다.
표현 | 시퀀스 길이 | 어휘 사이즈 | ||
소스 | 타겟 | 소스 | 타겟 | |
MACCS | 32.30 | 39.15 | 130 | 131 |
ECFP0 | 9.95 | 13.44 | 79 | 99 |
AE0 | 9.95 | 13.44 | 119 | 118 |
ECFP2 | 18.33 | 21.37 | 1025 | 1028 |
AE2 | 18.33 | 21.37 | 7533 | 8007 |
ECFP4 | 46.39 | 52.78 | 2052 | 2053 |
또 다른 흥미로운 관찰은 ECFP4의 낮은 성능이다. 정확한 일치 횟수는 ECFP2의 거의 절반으로 감소했다. 이러한 성능 저하는 ECFP4의 높은 비트 충돌률 때문일 수 있다. 도 3은 이를 나타내고 있다. 구체적으로, 도 3은 AE0(청색), AE2(녹색), AE4(적색)으로부터의 고유한 SMARTS 패턴의 수에 따른 Morgan 비트의 수를 나타낸 히스토그램이다. 도 3에 나타난 바와 같이 P--->R 유형 반응 데이터 세트에 대해 해시된 ECFP의 활성화된 비트와 관련된 반지름 0, 1, 2의 고유한 AE 수를 조사했다. 반지름이 0과 1인 각 ECFP 비트는 10과 20개 미만의 고유한 AE를 포함한다. 그러나 반지름이 2인 대부분의 비트는 100에서 160 사이의 많은 고유한 AE에 대응한다. 즉, ECFP4는 ECFP2나 ECFP0보다 비트 충돌률이 훨씬 높다. 고밀도 비트의 존재는 생성물의 조각과 실제 반응물 사이의 관계를 복잡하게 만들어 모델의 예측력을 악화시킨다. 따라서 분자 구조를 가장 정확하게 나타내는 최적의 조각 집합을 찾는 것은 역합성 계획을 위한 예측력을 향상시키는 데 중요한 요소이다.
최상의 성능 모델에 대한 상이한 유사성 임계값의 함수로서의 예측 성능은 표 4에 나와 있다. 표 4는 AE0와 AE2의 조합을 이용한 단일 및 이중 반응물 예측의 정확도를 나타낸다.
데이터세트 | T c = 1.0 | SM | DM | T c .85 | T c .80 | ||
P--->R | 53.4 | 55.8 | 60.1 | 67.1 | 72.5 | 0.88 | 0.94 |
P--->RA + RB | 61.9 | 62.7 | 64.6 | 67.2 | 69.7 | 0.77 | 0.87 |
하나의 조각과 두 개의 조각을 나타내는 단일 돌연변이와 이중 돌연변이가 실측 자료와 일치하지 않는다는 것을 나타낸다. 실시예에서는 이것을 소프트 임계값이라고 부른다. 단분자 반응의 경우 P--->R 의 평균 반응물 길이는 27이다. 단일 및 이중 조각 돌연변이는 T c 0.96, T c 0.92에 해당한다. 이분자 반응인 P--->RA +RB의 경우 두 반응물은 평균 길이가 17이다. 유사성 척도에 대한 자세한 설명은 반응물 지문 길이의 함수로서 소프트 임계값에 대한 아래의 표 5에서 찾을 수 있다.
길이 | 5 | 8 | 11 | 14 | 17 | 20 | 23 | 26 | 29 | 32 |
T C of SM | 0.80 | 0.88 | 0.91 | 0.93 | 0.94 | 0.95 | 0.96 | 0.96 | 0.97 | 0.97 |
T C of DM | 0.60 | 0.75 | 0.82 | 0.86 | 0.88 | 0.90 | 0.91 | 0.92 | 0.93 | 0.94 |
7. 현존하는 역합성 계획 모델들과의 비교
표 6 은 반응 클래스 정보 없이 학습된 사용 가능한 역합성 모델과 실시예의 모델의 성능을 비교한 것이다. 공정한 비교를 위해 MIT-full USPTO 데이터 세트로 학습 및 테스트된 모델과 비교했다. 실시예의 접근 방식은 반응 클래스 정보가 없는 단분자 및 이분자 반응에 대해 53.4%와 61.9%의 top-1 정확한 일치 정확도를 달성한다(표 6). 일반적으로 이 정확도 수준은 대부분의 기존 비-트랜스포머 및 트랜스포머 모델보다 우수하다. RetroTRAE의 성능은 기존 방법의 최고 수준, 즉 Lin's Transformer 모델과 비교할 수 있다. 생물학적으로 유사한 예측을 고려할 때, 두 데이터 세트의 전체 정확도는 67.1%로 증가한다. 이 결과는 현재의 모든 최첨단 접근법을 큰 폭으로 능가한다.
모델 | Top-1 정확도 (%) |
Non-Transformer | |
Coley et al., Similarity, 2017 | 32.8 |
Segler et al., Neuralsym, 2017 | 35.8 |
Segler-Coley,-rep. by Lin, 2020 | 47.8 |
Dai et al., GLN, 2019 | 39.3 |
Liu et al.-rep. by Lin, 2020 | 46.9 |
Transformer-based | |
Zheng et al., SCROP, 2020 | 41.5 |
Wang et al., RetroPrime, 2021 | 44.1 |
Tetko et al., AT, 2020 | 46.2 |
Lin et al., 2020 | 54.1 |
RetroTRAE - 본 발명의 실시예 | 53.4 |
RetroTRAE + Bioactive - 본 발명의 다른 실시예 | 67.1 |
- Coley et al., Similarity, 2017 [문헌: Coley, C. W., Rogers, L., Green, W. H. & Jensen, K. F. Computer-assisted retrosynthesis based on molecular similarity. ACS Cent. Sci. 3, 1237-1245 (2017).]
- Segler et al., Neuralsym, 2017 [문헌: Segler, M. H. & Waller, M. P. Neural-symbolic machine learning for retrosynthesis and reaction prediction. Chem.―A Eur. J. 23, 5966-5971 (2017).]
- Segler-Coley,-rep. by Lin, 2020 [문헌: Lin, K., Xu, Y., Pei, J. & Lai, L. Automatic retrosynthetic route planning using template-free models. Chem. Sci. 11, 3355-3364 (2020).]
- Dai et al., GLN, 2019 [문헌: Dai, H., Li, C., Coley, C. W., Dai, B. & Song, L. Retrosynthesis prediction with conditional graph logic network. Adv. Neural Inform. Process. Syst. 32, 1-11 (2019).]
- Liu et al.-rep. by Lin, 2020 [문헌: Lin, K., Xu, Y., Pei, J. & Lai, L. Automatic retrosynthetic route planning using template-free models. Chem. Sci. 11, 3355-3364 (2020).]
- Zheng et al., SCROP, 2020 [문헌: Zheng, S., Rao, J., Zhang, Z., Xu, J. & Yang, Y. Predicting retrosynthetic reactions using self-corrected transformer neural networks. J. Chem. Inf. Model. 60, 47-55 (2020).]
- Wang et al., RetroPrime, 2021 [문헌: Wang, X. et al. Retroprime: A diverse, plausible and transformer-based method for single-step retrosynthesis predictions. Chem. Eng. J. 420, 129845 (2021).]
- Tetko et al., AT, 2020 [문헌: Tetko, I. V., Karpov, P., Van Deursen, R. & Godin, G. State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis. Nat. Commun. 11, 1-11 (2020).]
- Lin et al., 2020 [문헌: Kangjie and Xu Lin Youjun and Pei, Automatic retrosynthetic route planning using template-free models, Chemical Science 11 (2020), no. 12, 3355-3364, DOI 10.1039/c9sc03666k]
최고 성능 모델에 의한 예측의 평균 T c 는 0.88 로서, p-값 < 10-5 으로 통계적으로 매우 유의하다(표 4).
도 4의 A), B), D)는 각각 통합 원자 환경, ECFP2, MACCS keys에 대한 USPTO 데이터베이스의 반응물 누적분포함수를 나타낸다. 측도 1 - (p-값)은 유의성을 평가하는 데 사용된다. P-값은 0 에서 1 범위의 값을 가지며 p-값이 작을수록 유의성이 높다는 것을 나타낸다. 도 4의 C)는 통합 원자 환경과 ECFP2 에 대한 MACCS keys T c 값과 T c 값의 관계를 보여준다. 수직 파선은 1e-04로 설정된 p-값의 유의 수준에 대응한다. 도 4는 화학 용어로 비-동일한 예측의 품질을 평가할 수 있는 선택된 유사성 임계값의 통계적 중요성을 보여준다. 도면의 삽화는 p-값이 0.1인 T c 값을 가진 체제를 나타내지만, 실시예의 가장 낮은 유사성 임계값(T c > 0.8)은 p-값이 1e-04 이하이다. 따라서 T c > 0.8 을 만족하는 예측은 높은 유사성 조건에서 발생한다고 할 수 있다. 실시예에서 사용한 각 지문 유형의 유사도 스코어 사이의 통계적 동등성은 도 4C와 같다. 통합 원자 환경과 ECFP2는 유사한 분포 프로파일을 공유한다(도 4A 및 4B 참조). 따라서 실시예는 그것들이 도 4C에 제시된 것과 거의 동일한 유사성 값으로 복귀하는 것을 보여준다. 수직 파선은 p-값 1e-04에 해당한다. Landrum (문헌: [RDKit: Open-Source Cheminformatics Software http://www. rdkit.org (2016).])은 25,000 쌍 중 250개만 0.434 보다 큰 타니모토 유사도 값을 가지고, ECFP2 및 MACCS keys 와 연산될 경우에는 0.655 보다 큰 타니모토 유사도 값을 가짐을 보여줬다. 이와 유사하게, 실시예의 최저 유사도 임계값 Tc > 0.8 은 MACCS keys 와 연산되는 경우 Tc > 0.9 에 대응한다.
8. 생물학적 유사 예측의 예시
유사도 스코어는 역합성 예측의 품질을 평가하는 실행 가능하고 효과적인 측정법이다. 따라서 단일 및 이중 조각 돌연변이, 생체 활성 및 매우 유사한 예측을 고품질 반응물 후보로 포함했다. 도 5는 각 범주의 대표적인 예를 나타낸다. 구체적으로 도 5는 각 임계값 수준에 속하는 대표적인 예시가 도시되어 있다. 구별되는 조각은 SMARTS 패턴으로 제공된다. 예측은 모건 지문을 이용해 유사성 지도로 그려진다. 첫 번째 반응물은 정확하게 예측되고, 그리고 두 번째 반응물의 품질이 평가된다. 예측에만 속하는 조각들과 그것의 실제 대상물은 상이하게 표기되어 화학적 변화를 보다 구체적으로 설명할 수 있게 한다. 색상은 전체 유사성에 대한 원자 수준의 기여를 나타낸다(녹색: 유사성 스코어 증가, 빨간색: 유사성 스코어 감소, 무색: 효과 없음).
이러한 예시들은 동일하지는 않지만 생물학적으로 유사한 예측을 화학적으로 해석하는 데 도움이 된다. 단일 돌연변이 사례의 경우, 변화는 종종 오쏘(ortho)/메타(meta)/파라(para) 위치에 작용기가 잘못 배치되는 것과 관련이 있다. 이중 돌연변이 사례의 경우, 단일 돌연변이 사례와 유사하게 오쏘(ortho)/메타(meta)/파라(para) 대체 패턴에서 대부분의 변화가 관찰되었다. 게다가, 긴 지방족 사슬의 많은 조각들이 동일하기 때문에 단순한 지방족 사슬의 길이는 종종 부정확하게 예측된다. 따라서 지방족 사슬의 길이는 고유한 조각들의 집합으로 정확하게 설명되지 않을 수 있다. 유사도 지도에서 알 수 있듯이, 반응물 후보물질의 어떤 원자도 유사도 값에 부정적으로 기여하지 않는다. 생물학적 활성 유사 예측을 검사한 결과, 결합 단절, 반응성 작용기 및 핵심 구조와 같은 역합성 분석의 가장 중요한 측면이 올바르게 예측된다는 결론을 내렸다. 실시예에서 하드 임계값을 이용할 때 변경된 원자 환경의 수는 2개 이상이 될 수 있다. 그러나 이들은 주로 핵심 구조에서 관찰되며 반응성 부위의 정확도에 영향을 미치지 않는다.
9. 원자 환경을 통한 화학적 공간의 해석
상술한 바와 같이, AEs는 분자의 기초로서 고려될 수 있다. PubChem(111M), ChEMBL(2.08M) 및 USPTO 500K(1.3M) 데이터 세트의 모든 화합물을 사용하여 AE0 및 AE2 세트를 생성하고 화학 공간에 대한 다양성과 커버리지를 시각화했다(도 6). 면적 비례 오일러 그래프(도 6)에서, USPTO 데이터 세트의 반응물의 AEs가 광범위한 화학 공간에 걸쳐 있지 않다는 것이 분명하다. USPTO 반응 데이터 세트에는 275(r = 0) 및 15,982(r = 1)의 고유한 AEs를 포함한다. ChEMBL 및 PubChem에는 각각 386(r = 0), 39,149(r = 1) 및 3,450(r = 0), 533,276(r = 1)의 고유 AEs를 포함한다. PubChem이 훨씬 많은 AE들을 가지고 있지만, 그러한 AE의 대부분은 매우 작은 확률로 발생한다. 사실, PubChem의 많은 AEs는 하나의 화합물에서만 발견되며, 실시예에서는 이것을 싱글톤이라고 부른다. 싱글톤의 비율은 PubChem에서 생성된 AE0 및 AE2 세트의 경우 38.5%, 35.2%이다.
10. 원자 환경으로부터 분자를 검출
실시예의 RetroTRAE에 의해 예측이 수행된 후, 예측된 반응물의 화학적 구조는 데이터베이스 검색을 통해 검출될 수 있다. 실시예는 PubChem을 사용하여 1,000 USPTO 테스트 분자를 가진 반응물 후보자를 검출하는 성공률을 조사했다. 검출 테스트 결과는 예측의 절반 이상(그 중 55.7%)을 정확하게 검색할 수 있음을 보여준다(도 7). 단일 돌연변이를 허용하면 검출율이 30% 높아진다. 이중 돌연변이가 허용되면 모든 시험 분자를 성공적으로 검출할 수 있다. 이러한 결과는 분자를 조각으로 표현하고 예측하는 것이 실행 가능하고 실용적인 접근법임을 시사한다.
조각 표현의 열화(degeneracy)를 고려할 때, Top-1 예측을 사용하는 것이 반드시 단일 합성 경로로 이어지는 것은 아니다. 조각들을 유효한 분자로 변환하는 과정에서 여러 후보들에 접근하는 것은 언제나 가능하다. 이것은 가능한 여러 반응 경로에 해당할 수 있다. 높은 T c 값을 갖는 분자 간의 작은 차이를 고려할 때(도 5), 다수의 분자는 일반적으로 입체화학, 지방족 사슬의 길이, 오쏘(ortho)/메타(meta)/파라(para) 위치와 같은 말초 작용기의 위치에 차이가 있다. 따라서 이러한 작은 차이는 숙련된 화학자들에 의해 쉽게 수정될 수 있다.
또한, AE는 검출 과정에서 ECFP 지문보다 덜 열화된다는 것을 언급할 가치가 있다. 데이터베이스 검색에 ECFP 비트 인덱스를 사용하면 평균 1.7배 더 많은 반응성 후보가 검출된다. 차이는 주로 비트 충돌과 데이터 세트에 입체화학 정보가 없기 때문이다.
11. 결론
실시예는 트랜스포머 아키텍처와 원자 환경 표현을 사용하여 템플릿이 없는 새로운 역합성 예측 모델인 RetroTRAE를 개시한다. RetroTRAE는 다른 최첨단 모델과 비슷하거나 향상된 성능을 보여주었다. 현재의 접근법은 반응물 후보들에게 53.4%의 정확도로 일치도를 제공했다. 정확한 일치도 외에도 소프트 임계값과 하드 임계값에 의해 선택된 고품질 반응물 후보물질은 1.0e-04 레벨 이하에서 통계적으로 유의한 것으로 나타났다. 임계값 T C ≥ 0.85인 평균 예측 정확도는 약 67%로 현재 최첨단 방법을 큰 폭으로 능가한다. 원자 환경은 SMILES의 문법 복잡성이 없는 고도로 서술적인 표현을 제공하기 때문에 반응 경로 예측 및 발견을 연구하기 위한 유망한 설명자로 입증되었다.
도 8은 실시예에 역합성 예측 방법을 구현하기 위한 시스템의 일례를 나타내는 블록도로서, 본 실시예에 관련된 부분을 개념적으로 나타내고 있다. 각각의 구성은 하나의 장치에 모두 구비되어 단독으로 처리를 행할 수도 있으나 이에 한정되는 것은 아니며, 네트워크를 통해 접속되어 각각의 구성이 분리된 장치에서 수행되는 것 또한 포함할 수 있다.
외부 서버(20)는 네트워크를 통해 예측 시스템(10)과 서로 접속될 수 있고, 반응물과 생성물 쌍의 정보, 분자의 원자 환경에 대한 정보 등을 제공할 수도 있다. 예를 들어, 다양한 소스-타겟 쌍의 대규모 말뭉치 정보를 포함할 수 있으며, 이를 위해 텍스트 마이닝 접근법으로 얻은 필터링된 미국 특허 반응 데이터 세트인 USPTO-Full의 서브세트를 사용할 수도 있다. 또한 1억1,100만개의 분자가 포함된 PubChem 화합물 데이터베이스와 ChEMBL 데이터베이스를 사용할 수도 있다. 예를 들어, 외부 서버(20)는 예측 시스템(10)의 예측 처리를 위한 데이터 베이스이거나 또는 이를 제공하는 서버일 수 있다.
예측 시스템(10)은 제어부(11), 통신부(12), 입출력 인터페이스부(13) 및 메모리부(14)를 포함할 수 있다.
제어부(11)는 예측 시스템(10)의 전체를 제어하는 구성으로서, 예를 들어, CPU, GPU 등의 프로세싱 유닛을 포함할 수 있다. 제어부(11)는 메모리부(14)에 저장된 정보들을 이용하여 후술할 모델들을 학습시킬 수 있고, 또한 학습된 모델을 통해 새로운 입력에 대한 예측값 산출을 수행할 수도 있다. 구체적으로, 제어부(11)는 역합성 예측 모델을 제어할 수 있다. 이를 위하여 제어부(11)는 OS(operating system) 등의 제어 프로그램이나, 각종의 처리 순서 등을 규정한 프로그램, 데이터를 저장하기 위한 내부 메모리를 포함할 수도 있다. 그리고, 제어부(11)는 이들 프로그램 등에 의해 다양한 처리를 실행하기 위한 정보 처리를 수행할 수 있다.
또한, 통신부(12)는 통신 회선 등에 접속되는 라우터(router) 등의 통신 장치에 접속될 수 있는 인터페이스를 포함할 수 있고, 예측 시스템(10)과 외부 서버(20)와의 통신을 제어할 수 있다.
입출력 인터페이스부(13)는 입력부(15) 및/또는 디스플레이부(16)에 접속되는 인터페이스일 수 있다. 입출력 인터페이스부(13)를 통해 예측 시스템(10)과 사용자가 소통할 수 있다. 예를 들어, 디스플레이부(16)는 애플리케이션 등의 표시 화면을 표시하는 표시 수단(예를 들면, 액정 또는 유기 EL 등으로 구성되는 디스플레이, 모니터, 터치 패널 등)일 수도 있다. 또한, 입력부(15)는, 예를 들면 키입력부, 터치 패널, 컨트롤 패드(예를 들면 터치 패드, 게임 패드 등), 마우스, 키보드, 마이크 등일 수도 있다.
또한, 메모리부(14)는 각종의 데이터 베이스나 테이블 등을 저장하는 장치일 수 있다. 예를 들어, 메모리부는 반응물과 생성물 쌍의 정보, 분자의 원자 환경에 대한 정보 등을 포함할 수도 있다. 예를 들어, 다양한 소스-타겟 쌍의 대규모 말뭉치 정보를 포함할 수 있으며, 이를 위해 텍스트 마이닝 접근법으로 얻은 필터링된 미국 특허 반응 데이터 세트인 USPTO-Full의 서브세트를 사용할 수도 있다. 또한 1억1,100만개의 분자가 포함된 PubChem 화합물 데이터베이스와 ChEMBL 데이터베이스를 포함할 수도 있다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 집합 및 이를 실행하기 위한 사용자 애플리케이션 자체일 수도 있다. 구체적으로, 서버를 통해 또는 저장매체를 통해 다운로드하여 클라이언트 컴퓨터에 설치할 수 있는 프로그램 그 자체일 수도 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위 뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
10: 예측 시스템
20: 외부 서버
11: 제어부 12: 통신부
13: 입출력 인터페이스부 14: 메모리부
15: 입력부 16: 디스플레이부
11: 제어부 12: 통신부
13: 입출력 인터페이스부 14: 메모리부
15: 입력부 16: 디스플레이부
Claims (16)
- 트랜스포머 아키텍처에 기반한 신경망 기계 번역(Neural Machine Translation: NMT) 모델을 이용하여 생성물에 대한 반응물을 예측하는 역합성 번역 방법으로서,
상기 모델의 입력 시퀀스 및 출력 시퀀스를 준비하는 단계로서, 상기 입력 시퀀스 및 출력 시퀀스는 분자를 조각 목록으로 표시한 것으로서, 상기 조각 목록을 이루는 각 조각은 원자 환경(Atom Environment: AE)에 기반하여 표현된 조각이며, 생성물 및 반응물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 각각 상기 입력 시퀀스 및 상기 출력 시퀀스로 준비하는 단계;
상기 입력 시퀀스 및 상기 출력 시퀀스를 통해 상기 모델을 학습시키는 단계; 및
상기 학습된 모델을 통해 생성물을 역합성하여 반응물을 예측하는 단계로서, 신규 생성물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 상기 모델의 입력 시퀀스로 입력하고, 상기 모델을 통해 출력 시퀀스를 출력하며, 상기 출력 시퀀스에 기반하여 예측 반응물을 검출하는, 예측 단계를 포함하고,
상기 원자 환경은 소정의 반지름을 가지는 중심 원자와 이의 공유결합 이웃으로 구성된 조각으로서, 상기 소정의 반지름은 상기 중심 원자와 모든 공유결합 원자 사이의 최대 허용 위상학적 거리인, 역합성 번역 방법. - 제 1 항에 있어서,
상기 소정의 반지름은 원자 사이의 최단 경로에 있는 결합의 수인, 역합성 번역 방법. - 제 2 항에 있어서,
상기 소정의 반지름이 0 인 원자 환경의 집합(AE0) 및 상기 소정의 반지름이 1 인 원자 환경의 집합(AE2) 중 하나로 상기 조각을 표현하는, 역합성 번역 방법. - 제 2 항에 있어서,
상기 소정의 반지름이 0 인 원자 환경의 집합(AE0) 및 상기 소정의 반지름이 1 인 원자 환경의 집합(AE2)을 조합하여 상기 조각을 표현하는, 역합성 번역 방법. - 제1항에 있어서,
상기 원자 환경은 SMARTS(simplified molecular-input line-entry system arbitrary target specification) 패턴으로 표현되는, 역합성 번역 방법. - 제 5 항에 있어서,
상기 각 원자 환경에 대한 상기 SMARTS 패턴은 고유한 정수 값과 연결되는, 역합성 번역 방법. - 제 1 항에 있어서,
상기 원자 환경은 ECFP(Extended Circular FingerPrint) 알고리즘에 의해 생성되는, 역합성 번역 방법. - 제 1 항에 있어서,
상기 모델은 인코더 유닛 및 디코더 유닛을 사용하고, 상기 각 유닛에 다중 헤드 어텐션 메커니즘을 적용하여 상기 입력 시퀀스와 상기 출력 시퀀스를 번역하는, 역합성 번역 방법. - 트랜스포머 아키텍처에 기반한 신경망 기계 번역(Neural Machine Translation: NMT) 모델을 이용하여 생성물에 대한 반응물을 예측하는 역합성 번역 장치로서,
상기 신경망 기계 번역 모델을 제어하기 위한 제어부;
외부 서버와의 통신을 위한 통신부;
메모리부;
디스플레이부; 및
사용자의 입력을 수신하는 입력부를 포함하고,
상기 메모리부는 상기 모델의 입력 시퀀스 및 출력 시퀀스를 포함하고, 상기 입력 시퀀스 및 출력 시퀀스는 분자를 조각 목록으로 표시한 것으로서, 상기 조각 목록을 이루는 각 조각은 원자 환경(Atom environment: AE)에 기반하여 표현된 조각이며, 생성물 및 반응물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 각각 상기 입력 시퀀스 및 상기 출력 시퀀스로 저장하고,
상기 제어부는 상기 입력 시퀀스 및 상기 출력 시퀀스를 통해 상기 모델을 학습시키고,
상기 제어부는 상기 학습된 모델에 대하여 신규 생성물을 상기 원자 환경으로 표현된 시퀀스로 변환하여 상기 모델의 입력 시퀀스로 입력하고, 상기 모델을 통해 출력 시퀀스를 출력하며, 상기 출력 시퀀스에 기반하여 예측 반응물을 검출하며,
상기 원자 환경은 소정의 반지름을 가지는 중심 원자와 이의 공유결합 이웃으로 구성된 조각으로서, 상기 소정의 반지름은 상기 중심 원자와 모든 공유결합 원자 사이의 최대 허용 위상학적 거리인, 역합성 번역 장치. - 제 9 항에 있어서,
상기 소정의 반지름은 원자 사이의 최단 경로에 있는 결합의 수인, 역합성 번역 장치. - 제 10 항에 있어서,
상기 소정의 반지름이 0 인 원자 환경의 집합(AE0) 및 상기 소정의 반지름이 1 인 원자 환경의 집합(AE2) 중 하나로 상기 조각을 표현하는, 역합성 번역 장치. - 제 10 항에 있어서,
상기 소정의 반지름이 0 인 원자 환경의 집합(AE0) 및 상기 소정의 반지름이 1 인 원자 환경의 집합(AE2)을 조합하여 상기 조각을 표현하는, 역합성 번역 장치. - 제9항에 있어서,
상기 원자 환경은 SMARTS(simplified molecular-input line-entry system arbitrary target specification) 패턴으로 표현되는, 역합성 번역 장치. - 제 13 항에 있어서,
상기 각 원자 환경에 대한 상기 SMARTS 패턴은 고유한 정수 값과 연결되는, 역합성 번역 장치. - 제 9 항에 있어서,
상기 원자 환경은 ECFP(Extended Circular FingerPrint) 알고리즘에 의해 생성되는, 역합성 번역 장치. - 제 9 항에 있어서,
상기 모델은 인코더 유닛 및 디코더 유닛을 사용하고, 상기 각 유닛에 다중 헤드 어텐션 메커니즘을 적용하여 상기 입력 시퀀스와 상기 출력 시퀀스를 번역하는, 역합성 번역 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220033648A KR20230135990A (ko) | 2022-03-17 | 2022-03-17 | 트랜스포머와 원자 환경을 이용한 역합성 번역 방법 및 이를 수행하기 위한 장치 |
PCT/KR2023/003364 WO2023177171A1 (ko) | 2022-03-17 | 2023-03-13 | 트랜스포머와 원자 환경을 이용한 역합성 번역 방법 및 이를 수행하기 위한 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220033648A KR20230135990A (ko) | 2022-03-17 | 2022-03-17 | 트랜스포머와 원자 환경을 이용한 역합성 번역 방법 및 이를 수행하기 위한 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230135990A true KR20230135990A (ko) | 2023-09-26 |
Family
ID=88024009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220033648A KR20230135990A (ko) | 2022-03-17 | 2022-03-17 | 트랜스포머와 원자 환경을 이용한 역합성 번역 방법 및 이를 수행하기 위한 장치 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20230135990A (ko) |
WO (1) | WO2023177171A1 (ko) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368476B (zh) * | 2017-07-25 | 2020-11-03 | 深圳市腾讯计算机系统有限公司 | 一种翻译的方法、目标信息确定的方法及相关装置 |
KR20210147862A (ko) * | 2020-05-29 | 2021-12-07 | 삼성전자주식회사 | 역합성 예측 모델의 학습 방법 및 장치 |
KR20220014798A (ko) * | 2020-07-29 | 2022-02-07 | 삼성전자주식회사 | 뉴럴 네트워크를 이용하여 표적 생성물을 합성하는 장치 및 방법 |
KR20220022059A (ko) * | 2020-07-29 | 2022-02-24 | 주식회사 아론티어 | 역합성 예측을 위한 하위구조 기반의 신경망 기계 번역 장치 및 이를 이용한 번역 방법 |
-
2022
- 2022-03-17 KR KR1020220033648A patent/KR20230135990A/ko not_active Application Discontinuation
-
2023
- 2023-03-13 WO PCT/KR2023/003364 patent/WO2023177171A1/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023177171A1 (ko) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bradshaw et al. | A model to search for synthesizable molecules | |
Born et al. | Regression transformer enables concurrent sequence regression and generation for molecular language modelling | |
Maziarz et al. | Learning to extend molecular scaffolds with structural motifs | |
Ucak et al. | Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments | |
BR112020023429A2 (pt) | métodos e aparelhos para a previsão multimodal usando um modelo estatístico treinado | |
Bachas et al. | Antibody optimization enabled by artificial intelligence predictions of binding affinity and naturalness | |
Alvim-Gaston et al. | Open Innovation Drug Discovery (OIDD): a potential path to novel therapeutic chemical space | |
CA2894317A1 (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
Cheng et al. | Group SELFIES: a robust fragment-based molecular string representation | |
Liu et al. | DrugEx v3: scaffold-constrained drug design with graph transformer-based reinforcement learning | |
Gromiha et al. | Discrimination of outer membrane proteins using machine learning algorithms | |
Zhong et al. | Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing | |
Ucak et al. | Substructure-based neural machine translation for retrosynthetic prediction | |
Mukaidaisi et al. | Multi-objective drug design based on graph-fragment molecular representation and deep evolutionary learning | |
Andronov et al. | Reagent prediction with a molecular transformer improves reaction data quality | |
KR20220022059A (ko) | 역합성 예측을 위한 하위구조 기반의 신경망 기계 번역 장치 및 이를 이용한 번역 방법 | |
Ochiai et al. | Variational autoencoder-based chemical latent space for large molecular structures with 3D complexity | |
Fang et al. | De novo drug design by iterative multiobjective deep reinforcement learning with graph-based molecular quality assessment | |
Schoenmaker et al. | UnCorrupt SMILES: a novel approach to de novo design | |
Uludoğan et al. | Exploiting pretrained biochemical language models for targeted drug design | |
Luo et al. | Projecting Molecules into Synthesizable Chemical Spaces | |
Janakarajan et al. | Language models in molecular discovery | |
Qiang et al. | Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model | |
Rachitskii et al. | Protein structure prediction using the evolutionary algorithm USPEX | |
Schwaller et al. | Evaluation metrics for single-step retrosynthetic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |