KR20230104713A - 감각 속성 예측을 위한 기계 학습된 모델 - Google Patents

감각 속성 예측을 위한 기계 학습된 모델 Download PDF

Info

Publication number
KR20230104713A
KR20230104713A KR1020237019769A KR20237019769A KR20230104713A KR 20230104713 A KR20230104713 A KR 20230104713A KR 1020237019769 A KR1020237019769 A KR 1020237019769A KR 20237019769 A KR20237019769 A KR 20237019769A KR 20230104713 A KR20230104713 A KR 20230104713A
Authority
KR
South Korea
Prior art keywords
sensory
task
model
prediction
prediction task
Prior art date
Application number
KR1020237019769A
Other languages
English (en)
Inventor
알렉산더 윌치코
웨이 기안
제니퍼 웨이
벤자민 마누엘 산체스-렌겔링
브라이언 기훈 이
일루 왕
Original Assignee
오스모 랩스, 피비씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오스모 랩스, 피비씨 filed Critical 오스모 랩스, 피비씨
Publication of KR20230104713A publication Critical patent/KR20230104713A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

분자가 양호한 모기 퇴치제일 것인지 여부를 예측하기 위한 컴퓨터 구현 방법이 개시된다. 방법은 전이 학습에 의해 획득된 기계 학습된 예측 모델을 획득하는 단계를 포함한다. 모델은 냄새 예측 태스크를 위해 제1의 더 큰 트레이닝 데이터세트를 이용하고 그리고 분자가 모기 퇴치제로서 기능할 것인지를 예측하기 위해 제2의 더 작은 트레이닝 데이터세트를 이용하여 트레이닝된다. 방법은 선택된 분자의 화학 구조를 설명하는 입력 데이터를 획득하는 단계, 기계 학습된 예측 모델에 대한 입력으로서 선택된 분자의 화학 구조를 설명하는 입력 데이터를 제공하는 단계, 선택된 분자가 기계 학습된 감각 예측 모델의 출력으로서 양호한 모기 퇴치제일 것인 여부를 설명하는 예측 데이터를 수신하는 단계 및 예측 데이터를 출력으로서 제공하는 단계를 더 포함한다.

Description

감각 속성 예측을 위한 기계 학습된 모델
관련 출원
본 출원은 2020년 11월 13일에 출원된 미국 가특허 출원 번호 63/113,256에 대한 우선권 및 이익을 주장한다. 미국 가특허 출원 번호 63/113,256은 그 전체가 참조로서 본원에 통합된다.
분야
본 개시는 전반적으로 감각 속성 예측을 위한 기계 학습된 모델에 관한 것이다. 더 구체적으로, 본 개시는 제1 감각 예측 태스크에 대해 먼저 트레이닝되고, 제2 감각 예측 태스크에 대한 예측을 하는 데 사용되는 기계 학습된 모델에 관한 것이다.
분자의 구조와 그 후각 지각 속성(예를 들어, 분자의 지각된 향기) 사이의 관계는 복잡하며 현재까지 일반적으로 이러한 관계에 대해 알려진 것이 거의 없다. 예를 들어, 풍미 및 향수 산업은 일반적으로 원하는 감각 속성(예를 들어, 후각 속성)을 갖는 상업적으로 유용한 제품을 제공하기 위해 시행착오, 경험적 방법 및/또는 천연 제품 채굴에 의존한다. 분자 구조와 향기 사이의 맵핑은 매우 비선형적일 수 있으므로 분자의 작은 변화가 후각 품질의 큰 변화를 산출할 수 있다고 알려져 있지만, 일반적으로, 후각 환경을 조직화하는 유의미한 원리가 결여되어 있다. 추가적으로, 그 반대도 참일 수 있으며, 다양한 분자 군이 유사한 후각 특성을 나타낼 수 있다.
본 개시의 실시예의 양태 및 이점은 다음의 설명에서 부분적으로 기재되거나 설명으로부터 학습될 수 있거나, 또는 실시예의 실시를 통해 학습될 수 있다.
본 개시의 하나의 예시적인 양태는 제2 감각 예측 태스크에 대한 제한된 가용 트레이닝 데이터를 갖는 예측 태스크에 대해 감각 속성을 예측하기 위한 감각 예측 모델을 트레이닝하기 위한 컴퓨터 구현 방법에 관한 것이다. 방법은 하나 이상의 컴퓨팅 디바이스를 포함하는 컴퓨팅 시스템에 의해, 제1 감각 예측 태스크와 연관된 제1 트레이닝 데이터를 포함하는 제1 감각 예측 태스크 트레이닝 데이터세트를 획득하는 단계를 포함할 수 있고, 제1 트레이닝 데이터는 제1 감각 예측 태스크와 연관된 제1 감각 속성으로 라벨링된 분자 구조 데이터를 포함한다. 방법은 제1 감각 예측 태스크와 연관된 제1 감각 속성을 예측하기 위해 컴퓨팅 시스템에 의해 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 기계 학습된 감각 예측 모델을 트레이닝하는 것을 포함할 수 있다. 방법은 컴퓨팅 시스템에 의해, 제2 감각 예측 태스크와 연관된 제2 트레이닝 데이터를 포함하는 제2 감각 예측 태스크 트레이닝 데이터세트를 획득하는 단계를 포함할 수 있으며, 제2 트레이닝 데이터는 제2 감각 예측 태스크와 연관된 제2 감각 속성으로 라벨링된 분자 구조 데이터를 포함하고, 여기서, 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 많다. 방법은 컴퓨팅 시스템에 의해, 제2 감각 예측 태스크와 연관된 제2 감각 속성을 예측하기 위해 제2 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 기계 학습된 감각 예측 모델을 트레이닝하는 단계를 포함할 수 있다.
본 개시의 다른 예시적인 양태는 제한된 가용 트레이닝 데이터를 갖는 예측 태스크에 대해 감각 속성을 예측하기 위한 컴퓨터 구현 방법에 관한 것이다. 방법은 하나 이상의 컴퓨팅 디바이스에 의해 분자와 연관된 화학 구조 데이터에 적어도 부분적으로 기초하여 분자의 감각 속성을 예측하도록 트레이닝된 기계 학습된 감각 예측 모델을 획득하는 단계를 포함할 수 있고, 기계 학습된 감각 예측 모델은 제1 감각 예측 태스크를 위한 제1 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝된다. 방법은 선택된 분자의 화학 구조를 설명하는 입력 데이터를 하나 이상의 컴퓨팅 디바이스에 의해 획득하는 단계를 포함할 수 있다. 방법은 하나 이상의 컴퓨팅 디바이스에 의해 기계 학습된 감각 예측 모델에 대한 입력으로서 선택된 분자의 화학 구조를 설명하는 입력 데이터를 제공하는 단계를 포함할 수 있다. 방법은 기계 학습된 감각 예측 모델의 출력으로서 제2 감각 예측 태스크와 연관된 선택된 분자의 하나 이상의 제2 감각 속성을 설명하는 예측 데이터를 하나 이상의 컴퓨팅 디바이스에 의해 수신하는 단계를 포함할 수 있다. 방법은 하나 이상의 컴퓨팅 디바이스에 의해 선택된 분자의 하나 이상의 제2 감각 속성을 설명하는 예측 데이터를 출력으로서 제공하는 단계를 포함할 수 있다.
본 개시의 다른 예시적인 양태는 감각 임베딩을 포함하는 하나 이상의 비일시적 컴퓨터 판독 가능 매체에 관한 것이며, 감각 임베딩은 기계 학습된 임베딩 모델로부터의 출력으로서 생성되고, 기계 학습된 임베딩 모델은 제1 감각 예측 태스크를 위한 제1 감각 예측 태스크 트레이닝 데이터세트 및 제2 감각 예측 태스크를 위한 제2 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝되고, 여기서, 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 많다.
본 개시의 또 다른 예시적 양태는 하나 이상의 원하는 감각 속성을 나타내기 위해 감각 임베딩에 적어도 부분적으로 기초하여 설계된 분자 구조를 갖는 물질의 조성물에 관한 것이며, 감각 임베딩은 분자 구조를 설명하는 입력 데이터 수신에 응답하여 기계 학습된 임베딩 모델로부터의 출력으로서 생성되고, 여기서, 기계 학습된 임베딩 모델은 제1 감각 예측 태스크에 대한 제1 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝되고 임베딩은 제2 감각 예측 태스크에 사용된다.
본 개시의 다른 양태는 다양한 시스템, 장치, 비일시적 컴퓨터 판독 가능 매체, 사용자 인터페이스 및 전자 디바이스에 관한 것이다.
본 개시의 다양한 실시예의 이들 및 다른 특징, 양태 및 이점은 다음의 설명 및 첨부된 청구범위를 참조하여 더 잘 이해할 수 있을 것이다. 본 명세서에 포함되어 그 일부를 구성하는 첨부 도면은 본 개시의 예시적인 실시예를 예시하고, 설명과 함께 관련 원리를 설명하는 역할을 한다.
본 기술 분야의 숙련자를 대상으로 하는 실시예에 대한 상세한 설명이 첨부 도면을 참조하여 본 명세서에 기재되어 있다.
도 1a는 본 개시의 예시적인 실시예에 따른 예시적인 컴퓨팅 시스템의 블록도를 도시한다.
도 1b는 본 개시의 예시적인 실시예에 따른 예시적인 컴퓨팅 디바이스의 블록도를 도시한다.
도 1c는 본 개시의 예시적인 실시예에 따른 예시적인 컴퓨팅 디바이스의 블록도를 도시한다.
도 2는 본 개시의 예시적인 실시예에 따른 예시적인 예측 모델의 블록도를 도시한다.
도 3은 본 개시의 예시적인 실시예에 따른 예시적인 예측 모델의 블록도를 도시한다.
도 4는 본 개시의 예시적인 실시예에 따라 제한된 가용 트레이닝 데이터를 갖는 예측 태스크에 대해 감각 속성을 예측하기 위한 예시적인 방법의 흐름도를 도시한다.
도 5는 본 개시의 예시적인 실시예에 따라 제한된 가용 트레이닝 데이터를 갖는 예측 태스크에 대해 감각 속성을 예측하는 감각 예측 모델을 트레이닝하는 예시적인 방법의 흐름도를 도시한다.
도 6은 본 개시의 예시적인 실시예에 따라 예측된 감각 속성(예를 들어, 후각 속성)과 연관된 구조적 기여를 시각화하기 위한 예시적인 예시를 도시한다.
도 7은 본 개시의 예시적인 실시예에 따른 예시적인 모델 개략도 및 데이터 흐름을 예시한다.
도 8a는 본 개시의 예시적인 실시예에 따른 예시적인 학습된 임베딩 공간의 전역 구조를 예시한다.
도 8b는 본 개시의 예시적인 실시예에 따른 예시적인 학습된 임베딩 공간의 전역 구조를 예시한다.
복수의 도면에 걸쳐 반복되는 참조 번호는 다양한 구현에서 동일한 특징을 식별하려는 의도이다.
본 개시의 예시적인 양태는 분자의 하나 이상의 감각 및/또는 지각(예를 들어, 후각, 미각, 촉각 등) 속성을 예측하기 위해 분자 화학 구조 데이터와 함께 기계 학습된 모델(예를 들어, 그래프 신경망)을 포함하거나 달리 활용하는 시스템 및 방법에 관한 것이다. 특히, 본 개시의 시스템 및 방법은 분자의 화학 구조에 기초하여 제1 감각 예측 태스크를 위해 트레이닝되는 모델(예를 들어, 임베딩 모델)을 포함할 수 있다. 이때, 모델의 적어도 일부가 제1 감각 예측 태스크와 다른 제2 감각 예측 태스크에 사용될 수 있다. 일부 구현예에서, 제2 감각 예측 태스크는 예를 들어, 제1 감각 예측 태스크와 다른 종, 다른 감각, 다른 응용 등과 관련된 감각 예측 태스크와 같이 제1 감각 예측 태스크와 상당히 상이할 수 있다. 예를 들어, 제1 감각 태스크는 제2 감각 태스크보다 더 많은 양의 트레이닝 데이터를 이용할 수 있는 감각 태스크일 수 있다. 일 예로, 제1 감각 태스크는 인간의 지각(예를 들어, 인간의 후각 감각)과 관련된 감각 태스크일 수 있고, 제2 감각 태스크는 비인간 종의 지각과 관련된 감각 태스크일 수 있다. 예를 들어, 다른 종의 감각보다 인간의 감각에 대해 더 많은 양의 트레이닝 데이터가 가용할 수 있다. 그러나, 예상밖으로, 많은 감각 예측 태스크는 겉보기에 관련이 없거나 다른 감각 예측 태스크로의 큰 전이성을 나타낸다.
더 구체적으로, 분자의 구조와 그 후각 및/또는 다른 감각(예를 들어, 미각) 지각 속성(예를 들어, 인간이 관찰한 분자의 향기) 사이의 관계는 복잡하며 현재까지 이러한 관계에 대해 일반적으로 알려진 것이 거의 없다. 분자의 일부 속성(예를 들어, 재료 속성, 제약 속성 등)은 직접 예측 가능한 속성을 가질 수 있지만 후각, 미각 및/또는 기타 지각 또는 감각 속성은 분자 구조, 수용체 구조, 농도, 베이스, 및/또는 기타 요인의 조합일 수 있으며, 이는 모델링 및 시뮬레이션을 크게 복잡하게 만들 수 있다.
이 과제는 일부 감각 특성에 대한 가용 데이터 결여로 인해 복잡해질 수 있다. 예를 들어, 이러한 응용을 위한 분자를 설계하는 데 인간 및/또는 동물 응답 데이터가 필요할 수 있으며, 이 데이터는 일부 도메인에서 크게 제한될 수 있다. 예를 들어, 일부 특정 감각 속성은 인간 및/또는 다른 종에 대해 제한된 가용 데이터를 가질 수 있다. 또 다른 예로, 인간의 향기 지각과 같은 한 도메인에서는 비교적 큰 데이터세트가 가용할 수 있지만 모기 퇴치제와 같은 다른 도메인에서는 거의 가용하지 않을 수 있다.
이 문제를 극복하기 위한 기존 해결책 중 하나는 비학습된 범용 설명자(예를 들어, SMILES 스트링, 모건(Morgan) 지문, 드래곤(Dragon) 설명자 등)를 사용하는 것이다. 이러한 설명자는 일반적으로 복잡한 구조적 상호 관계를 전달하기보다는 오히려 분자를 "특징화(featurize)"하기를 의도한다. 예를 들어, 기존 일부 접근법은 모건(Morgan) 지문 또는 드래곤(Dragon) 설명자와 같은 범용 휴리스틱 특징을 사용하여 분자를 특징화하거나 나타낸다. 그러나, 범용 특징화 전략은 주어진 종에서 분자의 후각 또는 기타 감각 속성을 예측하는 것과 같은 특정 태스크와 관련된 중요한 정보를 강조하지 않는 경우가 많다. 예를 들어, 모건(Morgan) 지문은 일반적으로 유사한 분자의 "조회(lookup)"를 위해 설계되었다. 모건(Morgan) 지문은 일반적으로 분자의 공간적 배열을 포함하지 않는다. 그럼에도 불구하고 이 정보는 유용할 수 있지만, 공간적 이해가 유익할 수 있는 후각 사례와 같은 일부 설계 사례에서는 단독만으로는 불충분할 수 있다. 그럼에도 불구하고, 가용 트레이닝 데이터 양이 적은 스크래치 트레이닝 모델이 모건(Morgan) 지문 모델을 능가할 가능성은 낮다.
기존 또 다른 접근법은 감각 속성의 물리 기반 모델링이다. 예를 들어, 물리 기반 모델링은 감각(예를 들어, 후각) 수용체 또는 감각 관련(예를 들어, 후각 관련) 단백질의 전산 모델링을 포함할 수 있다. 예를 들어, 후각 수용체 타겟의 전산 모델이 주어지면 원하는 태스크를 위한 분자 후보를 찾기 위해 높은 처리량의 도킹 스크린을 실행할 수 있다. 그러나, 이는 특정 태스크에 대해 복잡할 수 있으며, 그 이유는 모든 후보에 대해 가능한 모든 상호작용을 모델링하는 데 계산 비용이 많이 들 수 있기 때문이다. 더욱이, 감각 성능의 물리 기반 모델링에는 수용체의 물리적 구조, 그 결합 포켓, 해당 포켓의 화학적 리간드의 위치설정 같이 당면 태스크에 대한 명시적 지식이 필요할 수 있으며 이러한 지식은 쉽게 입수할 수 없다. 더욱이, 분자의 일부 속성(예를 들어, 제약 속성, 재료 속성)은 쉽게 학습될 수 있지만 특히 감각 속성(예를 들어, 후각 속성)과 같은 일부 감각/지각 속성은 예측하기 어려울 수 있다. 에탄올, 플라스틱, 샴푸, 비누, 천 등과 같은 특정 향기의 화학 물질에 대한 베이스가 화학 물질의 지각된 냄새에 영향을 줄 수 있다는 사실로 인해 이는 더욱 복잡해질 수 있다. 예를 들어, 동일한 화학 물질이 예를 들어 비누 베이스와 비교할 때 에탄올 베이스에서는 다르게 지각될 수 있다. 따라서, 한 베이스에 많은 양의 트레이닝 데이터가 가용한 화학 물질의 경우에도 다른 베이스에는 제한된 양의 데이터가 있을 수 있다.
예를 들어, 곤충 퇴치제 도메인에서 일부 잠재적 퇴치제는 길항제 또는 2차 억제제로 작용할 수 있으며 가능한 각각의 상호작용을 모델링하는 데 계산 비용이 많이 든다. 또한, 단지 많은 감각 수용체의 물리적 구조가 가용하지 않을 수 있으며, 이는 전통적인 도킹 시뮬레이션이 불가능할 수 있게 한다. 예를 들어, 곤충 퇴치제 스크리닝 관점에서 화학적 속성을 예측하는 데 사용되는 기존 방법은 상세한 분자 역학 시뮬레이션 또는 결합 모드 예측을 통해 수용체 포켓에서 특정 분자의 도킹을 시뮬레이션하는 것을 수반한다. 그러나, 이러한 방법은 결합할 특정 수용체의 결정 구조와 같은 새로운 도메인에서 기능하기 위해 비용이 많이 들거나 취득하기 어려운 사전 데이터가 필요하다. 지각(예를 들어, 향기, 맛)은 수백 가지 수용체 유형의 공동 활성화 결과이며, 화학적 지각에 관여하는 수용체의 결정 구조는 거의 알려져 있지 않기 때문에, 이 접근법은 종종 불가능하거나 과도하게 복잡하다.
본 개시의 예시적인 양태는 이들 및 다른 과제에 대한 해결책을 제공할 수 있다. 본 개시의 일 양태에 따르면, 기계 학습된 감각 예측 모델은 제1 감각 예측 태스크에 대해 트레이닝되고 제2 감각 예측 태스크와 연관된 예측을 출력하는 데 사용될 수 있다. 일 예로, 제1 감각 예측 태스크는 제2 감각 예측 태스크보다 더 넓은 감각 예측 태스크일 수 있다. 예를 들어, 모델은 광범위한 태스크에 대해 트레이닝되고 좁은 태스크로 전이될 수 있다. 일 예로서, 제1 태스크는 광범위한 속성 태스크일 수 있고 제2 태스크는 특정 속성 태스크(예를 들어, 후각)일 수 있다. 추가적으로 및/또는 대안적으로, 제1 감각 예측 태스크는 제2 감각 예측 태스크보다 더 많은 양의 트레이닝 데이터가 가용한 태스크일 수 있다. 추가적으로 및/또는 대안적으로, 제1 감각 예측 태스크는 제1 종과 연관될 수 있고 제2 감각 예측 태스크는 제2 종과 연관될 수 있다. 일 예로서, 제1 감각 예측 태스크는 인간의 후각 태스크일 수 있다. 추가적으로 및/또는 대안적으로, 제2 감각 예측 태스크는 모기 퇴치제 태스크와 같은 해충 방제 태스크일 수 있다.
추가적으로 및/또는 대안적으로, 일부 구현예에서, 기계 학습된 그래프 신경망은 분자의 감각 속성(예를 들어, 후각 속성)을 예측하기 위해 분자의 화학 구조를 그래픽으로 설명하는 그래프를 처리하기 위해 트레이닝되고 사용될 수 있다. 특히, 그래프 신경망은 분자의 후각 또는 다른 감각 속성을 예측하기 위해 분자의 화학 구조의 그래프 표현에서 직접 동작(예를 들어, 그래프 공간 내에서 컨볼루션 수행)할 수 있다. 일 예로, 그래프는 원자에 대응하는 노드와 원자 사이의 화학 결합에 대응하는 에지를 포함할 수 있다. 따라서, 본 개시의 시스템 및 방법은 기계 학습된 모델의 사용을 통해 (예를 들어, 제2 예측 태스크에 대해) 분자의 감각 특성을 예측하는 예측 데이터를 제공할 수 있다.
일 예로, 감각 임베딩 모델은 제1 감각 예측 태스크를 위한 감각 임베딩을 생성하도록 트레이닝될 수 있다. 감각 임베딩은 감각 임베딩이 제1 예측 태스크(예를 들어, 더 넓은 태스크)에 특정하도록 제1 감각 예측 태스크로부터, 예컨대, 더 큰 가용 데이터세트로부터 학습될 수 있다. 그러나, 제1 예측 태스크와 관련하여 트레이닝되었음에도 불구하고, 본 개시의 예시적인 양태에 따라, 이 감각 임베딩이 다른(예를 들어, 더 좁은) 감각 예측 태스크에 유용한 정보를 캡처할 수 있다는 것이 인식되었다. 더욱이, 이 감각 임베딩은 기계 학습 또는 정확한 예측이 달리 어렵거나 및/또는 불가능한 태스크와 같은 제1 감각 예측 태스크보다 가용 데이터가 더 적은 제2 감각 예측 태스크를 위해 다른 도메인에서 정확한 예측을 생성하도록 전이, 미세 조절 또는 달리 수정될 수 있다.
일 예로, 감각 임베딩 모델은 제1 예측 태스크 모델과 함께 트레이닝될 수 있다. 감각 임베딩 모델 및 제1 예측 태스크 모델은 제1 예측 태스크에 대한 제1 예측 태스크 트레이닝 데이터(예를 들어, 라벨링됨)를 사용하여 트레이닝될 수 있다. 예를 들어, 감각 임베딩 모델은 제1 예측 태스크와 관련하여 감각 임베딩을 생성하도록 트레이닝될 수 있다. 이러한 감각 임베딩은 제2 예측 태스크에 유용한 정보를 캡처할 수 있다. 제1 예측 태스크 트레이닝 데이터에 대한 제1 예측 태스크 모델로 감각 임베딩 모델을 트레이닝한 후, 감각 임베딩 모델은 제2 예측 태스크와 연관된 예측을 출력하기 위해 제2 예측 태스크 모델과 함께 사용될 수 있다. 일부 경우에, 감각 임베딩 모델은 추가로 개선되거나 미세 조절되거나 그렇지 않으면 제2 예측 태스크와 연관된 제2 예측 태스크 트레이닝 데이터에 대해 지속적으로 트레이닝될 수 있다. 일부 구현예에서, 모델은 제1 예측 태스크에서 학습된 정보를 직관적으로 학습 해제하는 것(un-learning)을 방지하기 위해 제1 예측 태스크보다 제2 예측 태스크로 더 낮은 트레이닝율로 트레이닝될 수 있다. 일부 구현예에서, 제2 예측 태스크 트레이닝 데이터의 양은 제1 예측 태스크보다 제2 예측 태스크에 대한 가용 데이터가 더 적은 경우와 같이 제1 예측 태스크 트레이닝 데이터의 양보다 더 적을 수 있다.
기계 학습된 모델은 예를 들어 분자에 대해 평가된 감각 속성(예를 들어, 후각 속성)에 대한 설명(예를 들어, "달콤", "소나무", "배", "악취" 등 같은 냄새 범주의 문언적 설명)으로 (예를 들어, 전문가에 의해 수동으로) 라벨링된 분자 같은 제1 감각 예측 태스크에 대한 분자의 설명(예를 들어, 분자의 구조적 설명, 분자의 화학 구조에 대한 그래프 기반 설명 등)을 포함하는 트레이닝 데이터를 사용하여 트레이닝될 수 있다. 예를 들어, 후각 분자에 대한 이러한 설명은 예를 들어 인간의 지각과 관련될 수 있다. 이러한 모델은 그 후 제1 감각 예측 태스크와 다른 제2 감각 예측 태스크에 사용할 수 있다. 예를 들어, 제2 감각 예측 태스크는 비인간 지각과 관련될 수 있다. 예를 들어, 일부 구현예에서 모델은 분자의 다른 종의 지각 속성에 걸쳐 전이된다.
이러한 방식으로, 큰 데이터세트에서 트레이닝된 모델은 여전히 높은 예측 성능을 달성하면서 더 작은 데이터세트를 가진 태스크로 전이될 수 있다. 특히, 감각 임베딩은 감각(예를 들어, 후각) 예측 태스크를 위해 종 전체에 걸쳐 전이 학습(transfer learning)할 때 예측 품질에 상당한 개선을 제공할 수 있음이 관찰되었다. 심지어 도메인 내 전이 학습을 넘어, 이러한 감각 임베딩은 종간 지각과 같은 훨씬 더 이질적인 품질에 대해 개선된 성능을 제공할 수 있다. 이는 화학 도메인에서 특히 예상치 못한 것이다. 예를 들어, 감각 임베딩은 제2 예측 태스크 모델에서 입력으로 직접 취해질 수 있다. 그 후, 감각 임베딩 모델은 미세 조절되고 제2 감각 예측 태스크에 대해 트레이닝될 수 있다. 예상밖으로, 제2 감각 예측 태스크와 제1 감각 예측 태스크는 과도하게 유사할 필요가 없다. 예를 들어, 충분한 구별(예를 들어, 종간, 도메인간 등)을 갖는 예측 태스크가 그럼에도 불구하고 본 개시의 예시적인 양태에 따라 이점을 찾을 수 있다.
따라서, 본 개시의 일부 예시적인 양태는 정량적 구조-냄새 관계(QSOR) 모델링과 같은 별개의 도메인에 걸친 후각, 미각 및/또는 다른 감각 모델링을 위한 그래프 신경망과 같은 신경망의 사용을 제안하는 것에 관한 것이다. 그래프 신경망은 후각 및/또는 기타 감각 모델링에 중요할 수 있는 공간 정보를 나타낼 수 있다. 본 출원에 설명된 시스템 및 방법의 예시적인 구현은 후각 전문가에 의해 라벨링된 새로운 데이터세트에 대한 이전 방법을 훨씬 능가한다. 더욱이, 그래프 신경망에서 학습된 감각 임베딩은 구조와 냄새 사이의 기본 관계에 대한 유의미한 냄새 공간 표현을 캡처한다. 이러한 학습된 감각 임베딩은 감각 임베딩을 생성하는 데 사용된 모델이 학습된 도메인이 아닌 다른 도메인에 예상밖으로 적용될 수 있다. 예를 들어, 인간의 감각 지각 데이터에 대해 트레이닝된 모델은 예상밖으로 다른 종의 지각 및/또는 다른 도메인과 같은 인간의 감각 지각 도메인 외부에서 바람직한 결과를 달성할 수 있다. 예를 들어, 그래프 신경망을 사용하면 감각 모델링 응용에 유익한 모델에 대한 공간적 이해를 제공할 수 있다.
더 구체적으로, 본 개시의 일 양태에 따르면, 그래프 신경망 모델과 같은 기계 학습된 모델은 예를 들어 분자의 화학 구조의 그래프와 같은 분자의 품질을 나타내는 입력을 기초로 분자의 지각 속성(예를 들어, 감각 속성(예를 들어, 후각 속성), 미각 속성, 촉각 속성 등)의 예측을 제공하도록 트레이닝될 수 있다. 예를 들어, 기계 학습된 모델은 분자의 화학 구조 및/또는 품질에 대한 표준화된 설명(예를 들어, 모건(Morgan) 지문, SMILES(simplified molecular-input line-entry system) 스트링 등)을 기초로 분자의 화학 구조의 그래프 구조와 같은 분자를 설명하는 입력과 함께 제공될 수 있다. 기계 학습된 모델은 예를 들어 분자가 어떤 냄새와 유사할 것인지를 설명하는 후각 지각 속성 목록 및/또는 다른 후각 또는 다른 감각 태스크(예를 들어, 퇴치제)에서의 성능과 같은 분자의 예측된 지각 속성의 설명을 포함하는 출력을 제공할 수 있다. 다른 예로서, 모델은 감각 임베딩을 생성하도록 구성될 수 있다. 그 후, 감각 임베딩은 제2 감각 예측 태스크에 대한 최종 출력을 제공하도록 구성된 제2 예측 태스크 모델에 대한 입력으로 사용될 수 있다.
예를 들어, 이소아밀 아세테이트의 화학 구조에 대한 SMILES 스트링 "O=C(OCCC(C)C)C"와 같은 SMILES 스트링을 제공할 수 있으며, 기계 학습된 모델은 분자가 어떤 냄새와 유사할 것인지에 대한 설명, 예를 들어, "과일, 바나나, 사과"와 같은 해당 분자의 냄새 속성에 대한 설명을 인간에게 출력으로서 제공할 수 있다. 특히, 일부 실시예에서, SMILES 스트링 또는 화학 구조의 다른 설명의 수신에 응답하여, 본 개시의 시스템 및 방법은 스트링을 분자의 2차원 구조를 그래픽으로 설명하는 그래프 구조로 변환할 수 있고, 그래프 구조 또는 그래프 구조에서 파생된 특징으로부터 분자의 감각 속성(예를 들어, 후각 속성)을 예측할 수 있는 기계 학습된 모델(예를 들어, 트레이닝된 그래프 컨볼루션 신경망 및/또는 다른 유형의 기계 학습된 모델)에 그래프 구조를 제공할 수 있다. 2차원 그래프에 추가적으로 또는 대안적으로, 시스템 및 방법은 기계 학습된 모델에 대한 입력을 위해 예를 들어 양자 화학 계산을 사용하여 분자의 3차원 그래프 표현의 생성을 제공할 수 있다.
일부 예에서, 제1 예측 태스크 및/또는 제2 예측 태스크에 대한 예측은 분자가 특정한 원하는 감각 품질(예를 들어, 타겟 향기 지각 등)을 갖는지 여부를 나타낼 수 있다. 일부 실시예에서, 예측 데이터는 분자의 예측된 감각 속성(예를 들어, 후각 속성)과 연관된 하나 이상의 유형의 정보를 포함할 수 있다. 예를 들어, 분자에 대한 예측 데이터는 분자를 하나의 감각 속성(예를 들어, 후각 속성) 클래스 및/또는 다수의 감각 속성(예를 들어, 후각 속성) 클래스로 분류하기 위해 제공될 수 있다. 일부 경우에 클래스는 인간이 제공한(예를 들어, 전문가) 문언적 라벨(예를 들어, 신맛, 체리, 소나무 등)을 포함할 수 있다. 일부 경우에, 클래스는 향기 연속체 상의 위치 등과 같은 향기/냄새의 비문언적 표현을 포함할 수 있다. 일부 경우에, 분자에 대한 예측 데이터는 예측된 향기/냄새의 강도를 설명하는 강도 값을 포함할 수 있다. 일부 경우에, 예측 데이터는 예측된 후각 지각 속성과 연관된 신뢰도 값을 포함할 수 있다. 다른 예로서, 일부 구현예에서, 예측 데이터는 분자가 특정 태스크(예를 들어, 해충 방제 태스크)에서 얼마나 잘 기능할 것인지를 설명할 수 있다.
분자에 대한 특정 분류에 추가로 또는 대안적으로, 예측 데이터는 2개 이상의 감각 임베딩 사이의 거리 측정을 기초로 2개 이상의 분자 사이의 유사성 검색, 클러스터링 또는 기타 비교를 허용하는 수치적 감각 임베딩을 포함할 수 있다. 예를 들어, 일부 구현예에서, 기계 학습된 모델은 한 쌍의 유사한 화학 구조(예를 들어, 앵커(anchor) 예 및 양성 예)에 대해 감각 임베딩 공간에서 더 가까운 감각 임베딩을 출력하고, 한 쌍의 유사하지 않은 화학 구조(예를 들어, 앵커 및 음성 예)에 대해 감각 임베딩 공간에서 더 먼 감각 임베딩을 출력하도록 모델이 트레이닝되는 삼중 트레이닝 체계를 사용하여 기계 학습된 모델을 트레이닝함으로써 유사성을 측정하는 데 사용할 수 있는 감각 임베딩을 출력하도록 트레이닝될 수 있다. 본 개시의 예시적인 양태에 따르면, 이러한 출력 감각 임베딩은 종간 태스크와 같은 유사하지 않은 태스크에서도 사용될 수 있다.
따라서, 일부 구현예에서, 본 개시의 시스템 및 방법은 기계 학습된 모델에 대한 입력을 위해 분자를 설명하는 특징 벡터(feature vector)의 생성을 필요로 하지 않을 수 있다. 오히려, 기계 학습된 모델은 원래 화학 구조의 그래프 값 형태의 입력으로 직접 제공될 수 있으므로 감각 속성(예를 들어, 후각 속성) 예측을 수행하는 데 필요한 자원을 감소시킬 수 있다. 예를 들어, 기계 학습된 모델에 대한 입력으로 분자의 그래프 구조 사용을 제공함으로써 지각 속성을 결정하기 위해 이러한 분자 구조의 실험적 생산을 요구하지 않고도 새로운 분자 구조를 개념화하고 평가할 수 있으므로 새로운 분자 구조를 평가하고 상당한 자원을 절약하는 능력을 크게 가속화한다.
본 개시의 또 다른 양태에 따르면, 분자의 감각 속성(예를 들어, 후각 속성) 예측을 제공하도록 하나 이상의 기계 학습된 모델(예를 들어, 그래프 컨볼루션 신경망, 다른 유형의 기계 학습된 모델)의 트레이닝을 제공하기 위해 복수의 알려진 분자를 포함하는 트레이닝 데이터가 획득될 수 있다. 예를 들어, 일부 실시예에서, 기계 학습된 모델은 분자의 하나 이상의 데이터세트를 사용하여 트레이닝될 수 있으며, 여기서, 데이터세트는 화학 구조와 각각의 분자에 대한 지각 속성의 문언적 설명(예를 들어, 인간 전문가 등이 제공한 분자의 냄새에 대한 설명)을 포함한다. 일 예로서, 트레이닝 데이터는 예를 들어 공개적으로 이용할 수 있는 화학 구조 목록 및 그 대응 냄새 같은 공개적 가용 데이터로부터 파생될 수 있다. 일부 실시예에서, 일부 지각 속성이 희소하다는 사실로 인해, 기계 학습된 모델(들)을 트레이닝할 때 일반적인 지각 속성과 희소 지각 속성을 균형화하기 위한 단계를 수행할 수 있다. 본 개시의 예시적인 양태에 따르면, 모델의 전반적인 목표인 제2 감각 예측 태스크보다 트레이닝 데이터가 더 광범위하게 가용할 수 있는 제1 감각 예측 태스크를 위해 트레이닝 데이터가 제공될 수 있다. 그 다음 모델은 제2 감각 예측 태스크에 대한 (제한된) 양의 트레이닝 데이터에 대해 제2 감각 예측 태스크에 대해 재트레이닝될 수 있고 및/또는 추가 트레이닝 없이 제2 감각 예측 태스크에 대해 그대로 사용될 수 있다.
본 개시의 또 다른 양태에 따르면, 일부 실시예에서, 시스템 및 방법은 분자 구조에 대한 변화가 (예를 들어, 제2 예측 태스크에 대해) 예측된 지각 속성에 어떻게 영향을 미칠 수 있는지에 대한 표시를 제공할 수 있다. 예를 들어, 시스템 및 방법은 분자 구조의 변화가 특정 지각 속성의 강도에 어떻게 영향을 미칠 수 있는지, 분자 구조의 변화가 원하는 지각 품질에 얼마나 치명적일 것인지 등의 표시를 제공할 수 있다. 일부 실시예에서, 시스템 및 방법은 분자 구조로부터 하나 이상의 원자 및/또는 원자 그룹의 추가 및/또는 제거를 제공하여 하나 이상의 원하는 지각 속성에 대한 이러한 추가/제거의 효과를 결정할 수 있다. 예를 들어, 화학 구조에 대한 반복적이고 다양한 변화를 수행한 다음 결과를 평가하여 이러한 변화가 분자의 지각 속성에 어떻게 영향을 미치는지 이해할 수 있다. 또 다른 예로서, 기계 학습된 모델의 분류 함수의 구배는 입력 그래프의 각각의 노드 및/또는 에지에서 (예를 들어, 기계 학습된 모델을 통한 역전파를 통해) 평가될 수 있고(예를 들어, 특정 라벨에 대해), 민감도 맵(예를 들어, 입력 그래프의 각각의 노드 및/또는 에지가 이러한 특정 라벨의 출력에 얼마나 중요한지를 나타냄)을 생성할 수 있다. 또한, 일부 구현예에서, 관심 대상 그래프를 획득할 수 있고, 그래프에 노이즈를 추가하여 유사한 그래프를 샘플링할 수 있고, 그 후, 각각의 샘플링된 그래프에 대한 결과 민감도 맵의 평균을 관심 그래프에 대한 민감도 맵으로서 취할 수 있다. 서로 다른 분자 구조 사이의 지각적 차이를 결정하기 위해 유사한 기술을 수행할 수 있다.
또 다른 양태에 따르면, 본 개시의 시스템 및 방법은 분자 구조의 어느 양태가 (예를 들어, 제2 예측 태스크에 대해) 예측된 감각 품질에 가장 많이 기여하는지의 해석 및/또는 시각화를 제공할 수 있다. 예를 들어, 일부 실시예에서, 분자 구조의 어떤 부분이 분자의 지각 속성에 가장 중요한지 및/또는 분자 구조의 어떤 부분이 분자의 지각 속성에 덜 중요한지에 대한 표시를 제공하는 히트 맵이 생성되어 분자 구조에 오버레이될 수 있다. 일부 구현예에서, 분자 구조에 대한 변화가 후각 지각에 어떻게 영향을 미칠 것인지를 나타내는 데이터는 구조가 예측된 후각 품질에 어떻게 기여하는 지의 시각화를 생성하는 데 사용될 수 있다. 예를 들어, 앞서 설명한 바와 같이, 분자 구조(예를 들어, 넉다운 기술 등)에 대한 반복적 변화 및 그에 대응하는 결과를 사용하여 화학 구조의 어느 부분이 후각 지각에 가장 크게 기여하는지 평가할 수 있다. 또 다른 예로서, 앞서 설명한 바와 같이, 구배 기술을 사용하여 화학 구조에 대한 민감도 맵을 생성할 수 있으며, 이는 그 후 (예를 들어, 히트 맵의 형태로) 시각화를 생성하는 데 사용될 수 있다.
본 개시의 또 다른 양태에 따르면, 일부 실시예에서 기계 학습된 모델(들)은 하나 이상의 원하는 지각 속성을 제공하는 분자 화학 구조의 예측을 생성하도록(예를 들어, 특정 향기 품질 등을 생성하는 분자 화학 구조를 생성하도록) 트레이닝될 수 있다. 예를 들어, 일부 구현예에서, 하나 이상의 원하는 지각 속성(예를 들어, 타겟 향기 품질, 강도 등)을 나타내는 것으로 예측되는 제안된 분자(들)를 식별하기 위해 반복 검색이 수행될 수 있다. 예를 들어, 반복 검색은 기계 학습된 모델(들)에 의해 평가될 수 있는 다수의 후보 분자 화학 구조를 제안할 수 있다. 하나의 예에서, 후보 분자 구조는 진화적 또는 유전적 프로세스를 통해 생성될 수 있다. 또 다른 예로서, 후보 분자 구조는 생성된 후보 분자 구조가 하나 이상의 원하는 지각 속성을 나타내는지 여부의 함수인 보상을 최대화하는 정책을 학습하고자 하는 강화 학습 에이전트(예를 들어, 순환 신경망(recurrent neural network))에 의해 생성될 수 있다. 본 개시의 예시적인 양태에 따르면, 이 지각 속성 분석은 제1 감각 예측 태스크와 다른 제2 감각 예측 태스크에 관련될 수 있다.
따라서, 일부 구현예에서, 각각의 후보 분자의 화학 구조를 설명하는 복수의 후보 분자 그래프 구조가 기계 학습된 모델에 대한 입력으로서 사용하기 위해 생성(예를 들어, 반복적으로 생성)될 수 있다. 각각의 후보 분자에 대한 그래프 구조는 평가 대상 기계 학습된 모델에 입력될 수 있다. 기계 학습된 모델은 후보 분자의 하나 이상의 지각 속성을 설명하는 각각의 후보 분자에 대한 예측 데이터를 생성할 수 있다. 그 후, 후보 분자 예측 데이터는 후보 분자가 원하는 지각 속성(예를 들어, 생존 가능한 분자 후보 등)을 나타내는지를 결정하기 위해 하나 이상의 원하는 지각 속성과 비교될 수 있다. 예를 들어, 보상을 생성하기 위해(예를 들어, 강화 학습 체계에서) 또는 후보 분자를 유지할지 또는 폐기할지 여부를 결정하기 위해(예를 들어, 진화 학습 체계에서) 비교가 수행될 수 있다. 이러한 결과는 모델을 트레이닝하는 데 추가로 사용될 수 있다. 완전 검색(brute force search) 접근법도 사용할 수 있다. 앞서 설명한 진화적 또는 강화 학습 구조를 가질 수 있거나 갖지 않을 수 있는 추가 구현에서, 하나 이상의 원하는 지각 속성을 나타내는 후보 분자에 대한 검색은 각각의 원하는 속성에 대해 정의된 최적화에 대한 제약 조건이 있는 다중 파라미터 최적화 문제로 구조화될 수 있다.
본 개시의 또 다른 양태에 따르면, 시스템 및 방법은 원하는 감각 속성(예를 들어, 후각 속성)과 함께 분자 구조와 연관된 다른 속성을 예측, 식별 및/또는 최적화하기 위해 제공될 수 있다. 예를 들어, 기계 학습된 모델(들)은 모델(들)이 이전에 트레이닝된 제1 감각 예측 태스크와 다른 제2 감각 예측 태스크에 대해 광학적 속성(예를 들어, 투명도, 반사도, 컬러 등), 후각 속성(예를 들어, 과일, 꽃 등의 향기를 연상시키는 향기와 같은 향기), 미각 속성(예를 들어, "바나나", "신맛", "매운맛" 등 같은 맛), 저장 안정성, 특정 pH 수준에서의 안정성, 생분해성, 독성, 산업적 응용성 등과 같은 분자 구조의 속성을 예측하거나 식별할 수 있다.
본 개시의 또 다른 양태에 따르면, 본 출원에 설명된 기계 학습된 모델은 능동 학습 기술에서 사용되어 광범위한 후보 분야를 더 작은 분자 세트로 좁힐 수 있고, 이들이 그 후 수동으로 평가될 수 있다. 본 개시의 다른 양태에 따르면, 시스템 및 방법은 반복적인 설계-시험-정제 프로세스에서 특정 속성을 갖는 분자의 합성을 가능하게 할 수 있다. 예를 들어, 기계 학습된 모델의 예측 데이터를 기초로 개발을 위해 분자를 제안할 수 있다. 그 후, 분자를 합성할 수 있고, 이어서 특수화된 테스트를 적용할 수 있다. 그 후, 테스트의 피드백을 설계 단계로 다시 제공하여 분자를 정제하여 원하는 속성 등을 더 잘 달성할 수 있다. 예를 들어, 테스트 결과는 기계 학습된 모델을 재트레이닝하기 위한 트레이닝 데이터로 사용될 수 있다. 재트레이닝 후, 이어서, 모델로부터의 예측을 다시 사용하여 테스트할 특정 분자를 식별할 수 있다. 따라서, 모델을 사용하여 후보를 선택한 다음 후보에 대한 테스트 결과를 사용하여 모델을 재트레이닝하는 등으로 반복 파이프라인을 평가할 수 있다.
예를 들어, 본 개시의 일 예시적인 구현에서, 모델은 트레이닝 데이터로서 쉽게 입수할 수 있는, 많은 양의 인간 지각 데이터를 사용하여 트레이닝된다. 그 후, 모델은 분자가 좋은 모기 퇴치제가 될지 여부를 예측하거나 새로운 풍미 분자를 발견하는 등 같은 적어도 다소 관련된 화학적 문제로 전이된다. 모델(예를 들어, 신경망)은 또한 후각 관련 문제에 초점을 맞춘 표현을 생성하기 위한 독립형 분자 임베딩 도구로 패키징될 수 있다. 이러한 표현은 유사한 냄새를 맡거나 동물의 유사한 거동을 유발하는 냄새를 검색하는 데 사용할 수 있다. 본 출원에 설명된 임베딩 공간은 추가적으로 전자 향기 지각 시스템(예를 들어, "전자 코")을 설계하기 위한 코덱으로서 유용할 수 있다.
본 개시의 시스템 및 방법은 다수의 기술적 효과 및 이점을 제공한다. 일 예로서, 본 출원에 설명된 시스템 및 방법은 분자가 원하는 지각 품질을 제공하는지 여부를 결정하는 데 필요한 시간 및 자원을 감소시키는 것을 허용할 수 있다. 예를 들어, 본 출원에 설명된 시스템 및 방법은 모델 입력을 제공하기 위해 분자를 설명하는 특징 벡터의 생성을 필요로 하기보다는 오히려 분자의 화학 구조를 설명하는 그래프 구조를 사용할 수 있게 한다. 따라서, 시스템 및 방법은 모델 입력을 획득 및 분석하고 모델 예측 출력을 생성하는 데 필요한 자원의 기술적 개선을 제공한다. 더욱이, 기계 학습된 모델을 사용하여 감각 속성(예를 들어, 후각 속성)을 예측하는 것은 실제 응용(예를 들어, 감각 속성(예를 들어, 후각 속성) 예측)에 대한 기계 학습의 통합을 나타낸다. 즉, 기계 학습된 모델은 감각 속성(예를 들어, 후각 속성)을 예측하는 특정 기술 구현에 맞게 적응된다. 본 개시의 예시적인 양태에 따른 기계 학습된 모델은 추가로 많은 양의 트레이닝 데이터를 포함하지 않는 도메인을 비롯하여, 예상밖으로 기존 시스템을 훨씬 능가할 수 있다.
감각 속성 예측 및 모델링의 사용은 다양한 분야 또는 태스크 중에서 응용을 찾을 수 있다. 일 예로, 특정 감각 속성을 위한 분자를 설계하는 것은 로션, 샴푸, 향수 등과 같은 향수 제품을 설계할 때 특히 까다로운 과제일 수 있다. 예를 들어, 일부 구현예에서, 제1 감각 예측 태스크는 분자가 어떤 냄새와 유사한지를 설명하는 라벨과 같은 인간의 후각 지각 속성을 예측하는 것과 관련된 인간 후각 태스크일 수 있다. 예를 들어, 일부 구현예에서, 제1 감각 예측 태스크 및/또는 제2 감각 예측 태스크는 인간의 후각 태스크일 수 있다. 감각 속성은 분자가 어떤 냄새와 유사한지와 같은 인간의 후각 지각 속성일 수 있다. 제2 감각 예측 태스크는 분자가 다른 화학적 베이스에서 어떤 냄새와 유사할지와 같이 제1 감각 예측 태스크와 다른 컨텍스트의 인간의 후각 태스크일 수 있다. 예를 들어, 제1 감각 예측 태스크는 트레이닝 데이터를 더 쉽게 입수할 수 있는 제1 베이스(예를 들어, 에탄올)의 감각 속성을 예측하는 것과 관련될 수 있는 반면, 제2 감각 예측 태스크는 가용 데이터가 더 적을 수 있는 제2 베이스(예를 들어, 비누, 로션 등)의 (예를 들어, 동일한 감각에 대한) 감각 속성을 예측하는 것과 관련될 수 있다.
또 다른 예로서, 특정 감각 속성은 동물 유인제 및/또는 퇴치제 태스크에 바람직할 수 있다. 예를 들어, 제1 감각 예측 태스크는 분자의 화학 구조에 기초한 인간의 후각 태스크, 인간 미각 태스크 등과 같은 인간의 감각 태스크일 수 있다. 제1 감각 속성은 인간의 후각 지각 속성 및/또는 인간 미각 지각 속성과 같은 인간 지각 속성일 수 있다. 제2 감각 예측 태스크는 다른 종에 대한 관련 감각 태스크와 같은 비인간 감각 태스크일 수 있다. 제2 감각 예측 태스크는 추가적으로 및/또는 대안적으로 특정 종에 대한 유인제 및/또는 퇴치제로서의 분자의 성능이거나 이를 포함할 수 있다. 예를 들어, 속성은 원하는 종을 끌어들거나(예를 들어, 동물 식품 등에 포함시키기 위해) 원치 않는 종을 축출하는(예를 들어, 곤충 퇴치제) 분자의 성능을 나타낼 수 있다.
예를 들어, 이는 모기 퇴치제, 살충제 등과 같은 해충 방제 응용을 포함할 수 있다. 예를 들어, 모기 퇴치제는 모기를 축출하고 바이러스와 질병의 전파에 기여하는 물림을 방지하는 역할을 할 수 있다. 예를 들어, 인간 및/또는 동물의 후각 시스템과 관련된 서비스 또는 기술은 다양한 구현에서 예시적인 양태에 따라 시스템 및 방법에 대한 용도를 잠재적으로 찾을 수 있다. 예시적인 구현은 예를 들어, 모기, 농작물 건강, 가축 건강, 개인 건강, 건물/기반 시설 건강에 영향을 미치는 해충 및/또는 다른 적절한 해충에 대한 퇴치제와 같은 곤충 퇴치제 또는 기타 해충 방제에 적절한 냄새를 찾기 위한 접근법을 포함할 수 있다. 예를 들어, 본 출원에 설명된 시스템 및 방법은 타겟 곤충 종 또는 다른 동물, 심지어 감각 지각 데이터가 거의 또는 전혀 가용하지 않은 동물에 대한 퇴치제, 살충제, 유인제 등을 설계하는 데 유용할 수 있다. 일 예로, 제1 감각 예측 태스크는 분자 구조 데이터를 기초로 인간의 후각 지각 라벨을 예측하는 인간의 후각 태스크와 같이 인간의 감각과 관련된 감각 예측 태스크일 수 있다. 제2 감각 예측 태스크는 모기와 같은 다른 종을 축출하는 분자의 성능을 예측하는 것을 포함할 수 있다.
또 다른 예로서, 본 개시의 예시적인 양태에 따른 시스템 및 방법은 독성학 및/또는 다른 안전성 연구에서 응용을 찾을 수 있다. 예를 들어, 제1 감각 예측 태스크 및/또는 제2 감각 예측 태스크는 독성학 예측 태스크일 수 있다. 감각 속성은 화학 구조에 기초한 화학 물질의 독성과 관련될 수 있다. 다른 예로서, 본 개시의 예시적 양태에 따른 시스템 및 방법은 기존 분자와 유사한 냄새이지만 컬러와 같은 다른 물리적 속성을 가질 수 있는 분자를 발견하는 것과 같은 관련 후각 태스크로 전이하는 데 유익할 수 있다.
일부 실시예에서, 본 출원에 설명된 시스템 및 방법은 하나 이상의 컴퓨팅 디바이스에 의해 구현될 수 있다. 컴퓨팅 디바이스(a)는 하나 이상의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 컴퓨팅 디바이스로 하여금 동작을 수행하게 하는 명령어를 저장하는 하나 이상의 비일시적 컴퓨터 판독 가능 매체를 포함할 수 있다. 동작은 본 출원에 설명된 다양한 방법의 단계를 포함할 수 있다.
본 개시의 예시적인 양태는 분자 구조를 참조하여 설명된다. 본 기술 분야의 숙련자는 본 개시의 예시적 양태가 복수의 고유한 분자 구조를 포함하는 분자 혼합물로 확장될 수 있음을 이해하여야 한다. 예를 들어, 일부 구현예에서 혼합물은 중량과 체적의 대응 비율을 갖는 가변 크기 모듈 세트로 표현될 수 있다. 이 표현은 또한 조성 순서, 프로세스 단계 등을 포함할 수 있다. 일부 구현예에서, 혼합물의 각각의 분자는 고유한 그래프일 수 있다. 추가적으로 및/또는 대안적으로, 혼합물을 나타내는 그래프는 개별 분자에 대응하는 노드 및/또는 분자 사이의 상호작용을 정의하는 에지를 포함할 수 있다. 이 모델은 가용 분자의 제한된 라이브러리 사이의 상호작용을 학습하는 것과 같은 예측 태스크를 위해 트레이닝될 수 있다.
이제, 도면을 참조하여, 본 개시의 예시적인 실시예가 더 구체적으로 설명될 것이다.
도 1a는 본 개시의 예시적인 실시예에 따른 분자의 후각 감각 속성과 같은 감각 속성의 예측을 용이하게 할 수 있는 예시적인 컴퓨팅 시스템(100)의 블록도를 도시한다. 시스템(100)은 단지 일 예로서 제공된다. 다른 컴포넌트를 포함하는 다른 컴퓨팅 시스템이 시스템(100)에 추가적으로 또는 대안적으로 사용될 수 있다. 시스템(100)은 네트워크(180)를 통해 통신 가능하게 결합된 사용자 컴퓨팅 디바이스(102), 서버 컴퓨팅 시스템(130) 및 트레이닝 컴퓨팅 시스템(150)을 포함한다.
사용자 컴퓨팅 디바이스(102)는 예를 들어, 개인용 컴퓨팅 디바이스(예를 들어, 랩톱 또는 데스크탑), 모바일 컴퓨팅 디바이스(예를 들어, 스마트폰 또는 태블릿), 게임 콘솔 또는 제어기, 웨어러블 컴퓨팅 디바이스, 임베디드 컴퓨팅 디바이스 또는 임의의 다른 유형의 컴퓨팅 디바이스 같은 임의의 유형의 컴퓨팅 디바이스일 수 있다.
사용자 컴퓨팅 디바이스(102)는 하나 이상의 프로세서(112) 및 메모리(114)를 포함한다. 하나 이상의 프로세서(112)는 임의의 적절한 처리 디바이스(예를 들어, 프로세서 코어, 마이크로프로세서, ASIC, FPGA, 제어기, 마이크로컨트롤러 등)일 수 있고, 동작 가능하게 연결된 하나의 프로세서 또는 복수의 프로세서일 수 있다. 메모리(114)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등 및 그 조합과 같은 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 메모리(114)는 데이터(116) 및 사용자 컴퓨팅 디바이스(102)로 하여금 동작을 수행하게 하기 위해 프로세서(112)에 의해 실행되는 명령어(118)를 저장할 수 있다.
일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 본 출원에 설명되는 바와 같은 감각 속성(예를 들어, 후각 속성) 예측 기계 학습된 모델과 같은 하나 이상의 기계 학습된 모델(120)을 저장하거나 포함할 수 있다. 예를 들어, 기계 학습된 모델(120)은 신경망(예를 들어, 심층 신경망) 또는 비선형 모델 및/또는 선형 모델을 포함하는 다른 유형의 기계 학습된 모델과 같은 다양한 기계 학습된 모델일 수 있거나 달리 이를 포함할 수 있다. 신경망은 피드포워드 신경망, 순환 신경망(예를 들어, 장단기 메모리 순환 신경망), 컨볼루션 신경망 또는 다른 형태의 신경망을 포함할 수 있다. 예시적인 기계 학습된 모델(120)이 도 2 및 도 3을 참조하여 설명된다.
일부 구현예에서, 하나 이상의 기계 학습된 모델(120)은 네트워크(180)를 통해 서버 컴퓨팅 시스템(130)으로부터 수신되고, 사용자 컴퓨팅 디바이스 메모리(114)에 저장된 다음, 하나 이상의 프로세서(112)에 의해 사용되거나 달리 구현될 수 있다. 일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 단일 기계 학습된 모델(120)의 다수의 병렬 인스턴스를 구현할 수 있다.
추가적으로 또는 대안적으로, 하나 이상의 기계 학습된 모델(140)은 클라이언트-서버 관계에 따라 사용자 컴퓨팅 디바이스(102)와 통신하는 서버 컴퓨팅 시스템(130)에 포함되거나 달리 저장 및 구현될 수 있다. 예를 들어, 기계 학습된 모델(140)은 웹 서비스의 일부로서 서버 컴퓨팅 시스템(140)에 의해 구현될 수 있다. 따라서, 하나 이상의 모델(120)은 사용자 컴퓨팅 디바이스(102)에 저장 및 구현될 수 있고 및/또는 하나 이상의 모델(140)은 서버 컴퓨팅 시스템(130)에 저장 및 구현될 수 있다.
사용자 컴퓨팅 디바이스(102)는 또한 사용자 입력을 수신하는 하나 이상의 사용자 입력 컴포넌트(122)를 포함할 수 있다. 예를 들어, 사용자 입력 컴포넌트(122)는 사용자 입력 객체(예를 들어, 손가락 또는 스타일러스)의 터치를 감지하는 터치 감지 컴포넌트(예를 들어, 터치 감지 디스플레이 스크린 또는 터치패드)일 수 있다. 터치 감지 컴포넌트는 가상 키보드를 구현하는 역할을 할 수 있다. 다른 예시적인 사용자 입력 컴포넌트에는 마이크, 전통적인 키보드, 카메라 또는 사용자가 사용자 입력을 제공할 수 있는 기타 수단이 포함된다.
서버 컴퓨팅 시스템(130)은 하나 이상의 프로세서(132) 및 메모리(134)를 포함한다. 하나 이상의 프로세서(132)는 임의의 적절한 처리 디바이스(예를 들어, 프로세서 코어, 마이크로프로세서, ASIC, FPGA, 제어기, 마이크로컨트롤러 등)일 수 있고, 동작 가능하게 연결된 하나의 프로세서 또는 복수의 프로세서일 수 있다. 메모리(134)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등 및 그 조합과 같은 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 메모리(134)는 서버 컴퓨팅 시스템(130)이 동작을 수행하게 하기 위해 프로세서(132)에 의해 실행되는 명령어(138) 및 데이터(136)를 저장할 수 있다.
일부 구현예에서, 서버 컴퓨팅 시스템(130)은 하나 이상의 서버 컴퓨팅 디바이스를 포함하거나 달리 이에 의해 구현된다. 서버 컴퓨팅 시스템(130)이 복수의 서버 컴퓨팅 디바이스를 포함하는 경우에, 이러한 서버 컴퓨팅 디바이스는 순차 컴퓨팅 아키텍처, 병렬 컴퓨팅 아키텍처 또는 일부 그 조합에 따라 동작할 수 있다.
앞서 설명한 바와 같이, 서버 컴퓨팅 시스템(130)은 하나 이상의 기계 학습된 모델(140)을 저장하거나 달리 포함할 수 있다. 예를 들어, 모델(140)은 감각 속성(예를 들어, 후각 속성) 예측 기계 학습된 모델과 같은 다양한 기계 학습된 모델일 수 있거나 달리 이를 포함할 수 있다. 기계 학습된 모델의 예는 신경망 또는 기타 다층 비선형 모델을 포함한다. 신경망의 예는 피드포워드 신경망, 심층 신경망, 순환 신경망 및 컨볼루션 신경망을 포함한다. 예시적인 모델(140)이 도 2 내지 도 4를 참조하여 설명된다.
사용자 컴퓨팅 디바이스(102) 및/또는 서버 컴퓨팅 시스템(130)은 네트워크(180)를 통해 통신 가능하게 결합된 트레이닝 컴퓨팅 시스템(150)과의 상호작용을 통해 모델(120 및/또는 140)을 트레이닝할 수 있다. 트레이닝 컴퓨팅 시스템(150)은 서버 컴퓨팅 시스템(130)과 별개일 수 있거나 서버 컴퓨팅 시스템(130)의 일부일 수 있다.
트레이닝 컴퓨팅 시스템(150)은 하나 이상의 프로세서(152) 및 메모리(154)를 포함한다. 하나 이상의 프로세서(152)는 임의의 적절한 처리 디바이스(예를 들어, 프로세서 코어, 마이크로프로세서, ASIC, FPGA, 제어기, 마이크로컨트롤러 등)일 수 있고, 동작 가능하게 연결된 하나의 프로세서 또는 복수의 프로세서일 수 있다. 메모리(154)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등 및 그 조합과 같은 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 메모리(154)는 데이터(156) 및 트레이닝 컴퓨팅 시스템(150)이 동작을 수행하게 하기 위해 프로세서(152)에 의해 실행되는 명령어(158)를 저장할 수 있다. 일부 구현예에서, 트레이닝 컴퓨팅 시스템(150)은 하나 이상의 서버 컴퓨팅 디바이스를 포함하거나 달리 이에 의해 구현된다.
트레이닝 컴퓨팅 시스템(150)은 예를 들어, 오류의 역전파와 같은 다양한 트레이닝 또는 학습 기술을 사용하여 사용자 컴퓨팅 디바이스(102) 및/또는 서버 컴퓨팅 시스템(130)에 저장된 기계 학습된 모델(120 및/또는 140)을 트레이닝하는 모델 트레이너(160)를 포함할 수 있다. 일부 구현예에서, 오류의 역전파를 수행하는 것은 시간을 통해 절단된 역전파를 수행하는 것을 포함할 수 있다. 모델 트레이너(160)는 트레이닝되는 모델의 일반화 능력을 개선시키기 위해 다수의 일반화 기술(예를 들어, 가중치 감쇠, 탈락 등)을 수행할 수 있다.
특히, 모델 트레이너(160)는 트레이닝 데이터(162) 세트에 기초하여 기계 학습된 모델(120 및/또는 140)을 트레이닝할 수 있다. 트레이닝 데이터(162)는 예를 들어, 분자에 대해 평가된 감각 속성(예를 들어, 후각 속성)에 대한 설명(예를 들어, "달콤", "소나무", "배", "악취" 등 같은 냄새 범주의 문언적 설명) 등으로 (예를 들어, 전문가에 의해 수동으로) 라벨링된 분자의 설명(예를 들어, 분자의 화학 구조의 그래픽 설명)을 포함할 수 있다. 모델 트레이너(160)는 제1 예측 태스크 및/또는 제2 예측 태스크에 대한 트레이닝 데이터를 사용하여 모델(120 및/또는 140)을 트레이닝시킬 수 있다.
모델 트레이너(160)는 원하는 기능을 제공하기 위해 이용되는 컴퓨터 로직을 포함한다. 모델 트레이너(160)는 범용 프로세서를 제어하는 하드웨어, 펌웨어 및/또는 소프트웨어로 구현될 수 있다. 예를 들어, 일부 구현예에서, 모델 트레이너(160)는 저장 디바이스에 저장되고, 메모리에 로딩되고, 하나 이상의 프로세서에 의해 실행되는 프로그램 파일을 포함한다. 다른 구현에서, 모델 트레이너(160)는 RAM 하드 디스크 또는 광학 또는 자기 매체와 같은 유형의 컴퓨터 판독 가능 저장 매체에 저장되는 하나 이상의 컴퓨터 실행 가능 명령어 세트를 포함한다.
네트워크(180)는 로컬 영역 네트워크(예를 들어, 인트라넷), 광역 네트워크(예를 들어, 인터넷) 또는 일부 그 조합과 같은 임의의 유형의 통신 네트워크일 수 있으며, 임의의 수의 유선 또는 무선 링크를 포함할 수 있다. 일반적으로, 네트워크(180)를 통한 통신은 다양한 통신 프로토콜(예를 들어, TCP/IP, HTTP, SMTP, FTP), 인코딩 또는 형식(예를 들어, HTML, XML) 및/또는 보호 체계(예를 들어, VPN, 보안 HTTP, SSL)를 사용하여 임의의 유형의 유선 및/또는 무선 연결을 통해 수행될 수 있다.
도 1a는 본 개시를 구현하는 데 사용될 수 있는 하나의 예시적인 컴퓨팅 시스템을 예시한다. 다른 컴퓨팅 시스템도 마찬가지로 사용될 수 있다. 예를 들어, 일부 구현예에서, 사용자 컴퓨팅 디바이스(102)는 모델 트레이너(160) 및 트레이닝 데이터세트(162)를 포함할 수 있다. 이러한 구현에서, 모델(120)은 사용자 컴퓨팅 디바이스(102)에서 국지적으로 트레이닝되고 사용되는 둘 모두가 이루어질 수 있다. 디바이스(102), 시스템(130) 및/또는 시스템(150) 중 하나에 포함되는 것으로 예시된 임의의 컴포넌트는 대신에 디바이스(102), 시스템(130) 및/또는 시스템(150) 중 하나 또는 모두에 포함될 수 있다.
도 1b는 본 개시의 예시적인 실시예에 따른 예시적인 컴퓨팅 디바이스(10)의 블록도를 도시한다. 컴퓨팅 디바이스(10)는 사용자 컴퓨팅 디바이스 또는 서버 컴퓨팅 디바이스일 수 있다.
컴퓨팅 디바이스(10)는 다수의 애플리케이션(예를 들어, 애플리케이션 1 내지 N)을 포함한다. 각각의 애플리케이션에는 자체 기계 학습 라이브러리와 기계 학습된 모델이 함유되어 있다. 예를 들어, 각각의 애플리케이션은 기계 학습된 모델을 포함할 수 있다. 애플리케이션의 예는 문자 메시지 애플리케이션, 이메일 애플리케이션, 받아쓰기 애플리케이션, 가상 키보드 애플리케이션, 브라우저 애플리케이션 등을 포함한다.
도 1b에 예시된 바와 같이, 각각의 애플리케이션은 예를 들어 하나 이상의 센서, 컨텍스트 관리자, 디바이스 상태 컴포넌트 및/또는 추가 컴포넌트와 같은 컴퓨팅 디바이스의 다수의 다른 컴포넌트와 통신할 수 있다. 일부 구현예에서, 각각의 애플리케이션은 API(예를 들어, 공용 API)를 사용하여 각각의 디바이스 컴포넌트와 통신할 수 있다. 일부 구현예에서, 각각의 애플리케이션에서 사용하는 API는 해당 애플리케이션에 특정하다.
도 1c는 본 개시의 예시적인 실시예에 따른 예시적인 컴퓨팅 디바이스(50)의 블록도를 도시한다. 컴퓨팅 디바이스(50)는 사용자 컴퓨팅 디바이스 또는 서버 컴퓨팅 디바이스일 수 있다.
컴퓨팅 디바이스(50)는 다수의 애플리케이션(예를 들어, 애플리케이션 1 내지 N)을 포함한다. 각각의 애플리케이션은 중앙 인텔리전스 계층과 통신한다. 애플리케이션의 예는 문자 메시지 애플리케이션, 이메일 애플리케이션, 받아쓰기 애플리케이션, 가상 키보드 애플리케이션, 브라우저 애플리케이션 등을 포함한다. 일부 구현예에서, 각각의 애플리케이션은 API(예를 들어, 모든 애플리케이션에 걸친 공통 API)를 사용하여 중앙 인텔리전스 계층(및 거기에 저장된 모델(들))과 통신할 수 있다.
중앙 인텔리전스 계층에는 다수의 기계 학습된 모델이 포함된다. 예를 들어, 도 1c에 예시된 바와 같이, 각각의 기계 학습된 모델(예를 들어, 모델)은 각각의 애플리케이션에 대해 제공될 수 있고 중앙 인텔리전스 계층에 의해 관리될 수 있다. 다른 구현에서, 2개 이상의 애플리케이션이 단일 기계 학습된 모델을 공유할 수 있다. 예를 들어, 일부 구현예에서 중앙 인텔리전스 계층은 모든 애플리케이션에 대해 단일 모델(예를 들어, 단일 모델)을 제공할 수 있다. 일부 구현예에서, 중앙 인텔리전스 계층은 컴퓨팅 디바이스(50)의 운영 체제 내에 포함되거나 달리 구현된다.
중앙 인텔리전스 계층은 중앙 디바이스 데이터 계층과 통신할 수 있다. 중앙 디바이스 데이터 계층은 컴퓨팅 디바이스(50)에 대한 데이터의 중앙 저장소일 수 있다. 도 1c에 예시된 바와 같이, 중앙 디바이스 데이터 계층은 예를 들어 하나 이상의 센서, 컨텍스트 관리자, 디바이스 상태 컴포넌트 및/또는 추가 컴포넌트와 같은 컴퓨팅 디바이스의 다수의 다른 컴포넌트와 통신할 수 있다. 일부 구현예에서, 중앙 디바이스 데이터 계층은 API(예를 들어, 개인 API)를 사용하여 각각의 디바이스 컴포넌트와 통신할 수 있다.
도 2는 본 개시의 예시적인 실시예에 따른 예시적인 예측 모델(202)의 블록도를 도시한다. 일부 구현예에서, 예측 모델(202)은 입력 데이터(204)의 세트(예를 들어, 분자 화학 구조 그래프 데이터 등)를 수신하고 입력 데이터(204)의 수신 결과로서 출력 데이터(206), 예를 들어, 분자에 대한 감각 속성(예를 들어, 후각 속성) 예측 데이터를 제공하도록 트레이닝된다.
도 3a는 본 개시의 예시적인 실시예에 따른 예시적인 기계 학습된 모델(202)의 블록도를 도시한다. 기계 학습된 모델(202)은 도 3a의 기계 학습된 모델(202)이 감각 임베딩 모델(302)을 포함하는 하나의 예시적인 모델이라는 점을 제외하고는 도 2의 예측 모델(202)과 유사하다. 감각 임베딩 모델(302)은 입력 데이터(204)의 수신에 응답하여 감각 임베딩(304)을 생성하도록 구성될 수 있다. 예시적인 감각 임베딩(304)은 도 8을 참조하여 설명된다. 감각 임베딩 모델(304)은 그래프 신경망과 같은 하나 이상의 신경망을 포함하는 모델과 같은 임의의 적절한 기계 학습된 모델일 수 있다. 도 3a에 예시된 바와 같이, 감각 임베딩(304)은 제1 감각 예측 태스크 출력 데이터(308)를 생성하기 위해 제1 예측 태스크 모델(306)에 대한 입력으로서 사용될 수 있다. 예를 들어, 감각 임베딩(304)은 제1 예측 태스크에 유용한 정보를 캡처할 수 있고, 이는 제1 예측 태스크 모델(306)을 사용하여 달성된다. 제1 예측 태스크 모델(306)은 예를 들어 하나 이상의 신경망(예를 들어, 그래프 신경망)을 포함하는 기계 학습된 모델과 같은 임의의 적절한 기계 학습된 모델일 수 있다. 본 개시의 예시적인 양태에 따르면, 감각 임베딩 모델(302)은 제1 감각 예측 태스크 모델(306)에 결합되는 동안 제1 감각 예측 태스크에 대한 제1 감각 예측 태스크 트레이닝 데이터세트에 의해 트레이닝될 수 있다. 따라서, 감각 임베딩 모델(302)은 제1 감각 예측 태스크에 대한 감각 임베딩(304)을 생성하도록 트레이닝될 수 있다.
도 3b는 본 개시의 예시적인 실시예에 따른 예시적인 기계 학습된 모델(202)의 블록도를 도시한다. 도 3b의 기계 학습된 모델(202)은 도 2 및 도 3a의 기계 학습된 모델(202)과 유사하지만, 제2 감각 예측 태스크 출력 데이터(318)를 생성하도록 구성된 제2 예측 태스크 모델(316)을 포함한다. 예를 들어, 본 개시의 예시적인 양태에 따르면, 일단 감각 임베딩 모델(302)이 제1 감각 예측 태스크 모델(306)로 제1 감각 예측 태스크에 대해 트레이닝되면, 감각 임베딩(304)은 제2 감각 예측 태스크를 위한 제2 감각 예측 태스크 모델(316)에 대한 입력으로서 사용될 수 있다. 감각 임베딩 모델(302)은 (예를 들어, 제한된) 제2 감각 예측 태스크 트레이닝 데이터세트에 기초하여 제2 감각 예측 태스크에 대해 트레이닝될 수 있다. 제2 감각 예측 태스크는 감각 예측 모델(202)의 의도된 출력을 나타낼 수 있고/있거나 제1 감각 예측 태스크는 제2 감각 예측 태스크와 관련되지만 별개인 감각 태스크, 예컨대, 많은 양의 가용 트레이닝 데이터를 갖는 가장 가까운 태스크일 수 있다.
도 4는 본 개시의 예시적인 실시예에 따라 제한된 가용 트레이닝 데이터를 갖는 예측 태스크를 위한 감각 속성을 예측하기 위한 예시적인 방법(400)의 흐름도를 도시한다. 도 4는 예시 및 설명을 위해 특정 순서로 수행되는 단계를 도시하지만, 본 개시의 방법은 특정하게 예시된 순서 또는 배열에 제한되지 않는다. 방법(400)의 다양한 단계는 본 개시의 범위를 벗어나지 않고 다양한 방식으로 생략, 재배열, 조합 및/또는 적응될 수 있다. 방법(400)은 도 1a 내지 도 1c에 도시된 하나 이상의 컴퓨팅 디바이스와 같은 하나 이상의 컴퓨팅 디바이스에 의해 구현될 수 있다.
402에서, 방법(400)은 분자와 연관된 화학 구조 데이터에 적어도 부분적으로 기초하여 분자의 감각 속성(예를 들어, 후각 속성)을 예측하도록 트레이닝된 기계 학습된 감각 예측 모델(예를 들어, 그래프 신경망)을 하나 이상의 컴퓨팅 디바이스에 의해 획득하는 단계를 포함할 수 있다. 특히, 기계 학습된 예측 모델(예를 들어, 그래프 신경망 등)은 분자의 화학 구조를(예를 들어, 그래픽으로) 설명하는 입력 데이터(예를 들어, 그래프)를 처리하여 분자의 감각 속성(예를 들어, 후각 속성)을 예측하기 위해 트레이닝되고 사용될 수 있다. 예를 들어, 트레이닝된 그래프 신경망은 분자의 감각 속성(예를 들어, 후각 속성)을 예측하기 위해 분자의 화학 구조의 그래프 표현에서 직접 동작(예를 들어, 그래프 공간 내에서 컨볼루션 수행)할 수 있다.
본 개시의 예시적인 양태에 따르면, 기계 학습된 감각 예측 모델은 제1 감각 예측 태스크에 대한 제1 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝될 수 있다. 일부 구현예에서, 모델은 제2 감각 예측 태스크를 위한 제2 감각 예측 태스크 트레이닝 데이터세트에 대해 추가로 트레이닝될 수 있다. 일부 구현예에서, 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 클 수 있다. 예를 들어, 일부 구현예에서 기계 학습된 감각 예측 모델은 도 5의 방법(500)에 따라 트레이닝될 수 있다. 더욱이, 일부 구현예에서, 모델은 제2 감각 예측 태스크에 대해 가용 트레이닝 데이터가 없는 경우와 같이 제1 감각 예측 태스크에 대해서만 트레이닝될 수 있다. 그럼에도 불구하고, 모델은 제2 감각 예측 태스크에 유용할 수 있다.
일부 구현예에서(예를 들어, 제1 예측 태스크에 대해), 기계 학습된 모델은 예를 들어, 분자에 대해 평가된 감각 속성(예를 들어, 후각 속성)에 대한 설명(예를 들어, "달콤", "소나무", "배", "악취" 등 같은 냄새 범주의 문언적 설명)으로 (예를 들어, 전문가에 의해 수동으로) 라벨링된 분자의 설명(예를 들어, 분자의 화학 구조의 그래픽 설명)을 포함하는 트레이닝 데이터를 사용하여 트레이닝될 수 있다. 트레이닝된 기계 학습된 예측 모델은 이전에 평가되지 않은 분자의 냄새를 예측하는 예측 데이터를 제공할 수 있다.
더 구체적으로, 대부분의 기계 학습 모델은 입력으로 규칙적인 형상의 입력(예를 들어, 픽셀 그리드 또는 숫자 벡터)을 필요로 한다. 그러나, GNN을 사용하면 그래프와 같은 불규칙 형상의 입력을 기계 학습 애플리케이션에서 직접 사용할 수 있다. 이와 같이, 본 개시의 일 양태에 따르면, 원자는 노드로, 결합은 에지로 보아 분자를 그래프로서 해석할 수 있다. 예 GNN은 노드와 에지에서 학습 가능한 순열 불변 변환이며, 이는 완전 연결 신경망에 의해 추가 처리되는 고정 길이 벡터를 생성한다. GNN은 전문가가 만든 범용적 특징과 달리 태스크에 특화된 학습 가능한 특징화기로 고려될 수 있다.
GNN의 일부 예는 하나 이상의 메시지 전달 계층을 포함하며 각각의 계층에는 축소 합계 연산이 후속되고, 여러 개의 완전 연결 계층이 그에 후속된다. 예 최종 완전 연결 계층에는 예측되는 냄새 설명자의 수와 동일한 수의 출력이 있다. 하나의 예시적인 모델이 도 7에 예시되어 있으며, 이는 예시적인 모델 개요 및 데이터 흐름을 예시한다. 도 7에 예시된 예에서 각각의 분자는 먼저 그 구성 원자, 결합 및 연결성에 의해 특징화된다. 각각의 그래프 신경망(GNN) 계층은 이전 계층으로부터의 특징을 변환한다. 최종 GNN 계층의 출력은 벡터로 축소되고, 이는 그 후, 완전 연결 신경망을 통해 냄새 설명자를 예측하는 데 사용된다. 일부 예시적인 구현에서 그래프 임베딩은 모델의 끝에서 두 번째 계층으로부터 검색할 수 있다.
다시 도 4를 참조하면, 404에서, 방법(400)은 하나 이상의 컴퓨팅 디바이스에 의해 선택된 분자의 화학 구조를 (예를 들어, 그래픽으로) 설명하는 입력 데이터(예를 들어, 그래프)를 획득하는 것을 포함할 수 있다. 예를 들어, 분자의 하나 이상의 지각(예를 들어, 후각) 속성을 예측하는 데 사용하기 위해 분자의 화학 구조(예를 들어, 이전에 평가되지 않은 분자 등)의 입력 그래프 구조를 획득할 수 있다. 예를 들어, 일부 실시예에서, SMILES(simplified molecular-input line-entry system) 스트링 등과 같은 분자의 화학 구조의 표준화된 설명에 기초하여 그래프 구조가 얻어질 수 있다. 일부 실시예에서, SMILES 스트링 또는 화학 구조의 다른 설명의 수신에 응답하여, 하나 이상의 컴퓨팅 디바이스는 스트링을 분자의 2차원 구조를 그래픽으로 설명하는 그래프 구조로 변환할 수 있다. 추가적으로 또는 대안적으로, 하나 이상의 컴퓨팅 디바이스는 기계 학습된 모델에 대한 입력을 위해 예를 들어 양자 화학 계산을 사용하여 분자의 3차원 표현을 생성하기 위해 제공될 수 있다.
406에서, 방법(400)은 기계 학습된 그래프 신경망에 대한 입력으로서 선택된 분자의 화학 구조를 설명하는 입력 데이터를 하나 이상의 컴퓨팅 디바이스에 의해 제공하는 단계를 포함할 수 있다. 예를 들어, 404에서 획득한 분자의 화학 구조를 설명하는 그래프 구조는 그래프 구조 또는 그래프 구조에서 파생된 특징으로부터 분자의 감각 속성(예를 들어, 후각 속성)을 예측할 수 있는 기계 학습된 모델(예를 들어, 트레이닝된 그래프 컨볼루션 신경망 및/또는 다른 유형의 기계 학습된 모델)에 제공될 수 있다.
408에서, 방법(400)은 기계 학습된 그래프 신경망의 출력으로서 선택된 분자의 하나 이상의 예측된 감각 속성(예를 들어, 후각 속성)을 설명하는 예측 데이터를 하나 이상의 컴퓨팅 디바이스에 의해 수신하는 단계를 포함할 수 있다. 특히, 기계 학습된 모델은 예를 들어 분자가 어떤 냄새와 유사할 것인지를 설명하는 후각적 지각 속성의 목록과 같은 분자의 예측된 지각 속성의 설명을 포함하는 출력 예측 데이터를 인간에게 제공할 수 있다. 예를 들어, 이소아밀 아세테이트의 화학 구조에 대한 SMILES 스트링 "O=C(OCCC(C)C)C"와 같은 SMILES 스트링을 제공할 수 있으며, 기계 학습된 모델은 분자가 어떤 냄새와 유사할 것인지에 대한 설명, 예를 들어, "과일, 바나나, 사과"와 같은 해당 분자의 냄새 속성에 대한 설명을 인간에게 출력으로서 제공할 수 있다.
일부 예시적인 실시예에서, 예측 데이터는 분자가 특정한 원하는 후각 지각 품질(예를 들어, 타겟 향기 지각 등)을 갖는지 여부를 나타낼 수 있다. 일부 예시적인 실시예에서, 예측 데이터는 분자의 예측된 감각 속성(예를 들어, 후각 속성)과 연관된 하나 이상의 유형의 정보를 포함할 수 있다. 예를 들어, 분자에 대한 예측 데이터는 분자를 하나의 감각 속성(예를 들어, 후각 속성) 클래스 및/또는 다수의 감각 속성(예를 들어, 후각 속성) 클래스로 분류하기 위해 제공될 수 있다. 일부 경우에 클래스는 인간이 제공한(예를 들어, 전문가) 문언적 라벨(예를 들어, 신맛, 체리, 소나무 등)을 포함할 수 있다. 일부 경우에, 클래스는 향기 연속체 상의 위치 등과 같은 향기/냄새의 비문언적 표현을 포함할 수 있다. 일부 예시적인 실시예에서, 분자에 대한 예측 데이터는 예측된 향기/냄새의 강도를 설명하는 강도 값을 포함할 수 있다. 일부 예시적인 실시예에서, 예측 데이터는 예측된 후각 지각 속성과 연관된 신뢰도 값을 포함할 수 있다. 일부 예시적인 실시예에서, 분자에 대한 특정 분류에 추가적으로 또는 대안적으로, 예측 데이터는 2개의 임베딩 사이의 거리 측정에 기초하여 2개의 분자 사이에서 유사한 검색 또는 다른 비교를 허용하는 수치 임베딩을 포함할 수 있다.
410에서, 방법(400)은 하나 이상의 컴퓨팅 디바이스에 의해 선택된 분자의 하나 이상의 예측된 감각 속성(예를 들어, 후각 속성)을 설명하는 예측 데이터를 출력으로서 제공하는 단계를 포함할 수 있다.
일부 구현예에서, 방법(400)은 하나 이상의 컴퓨팅 디바이스에 의해, 제2 선택된 분자의 제2 화학 구조를 그래픽으로 설명하는 제2 그래프를 획득하는 단계, 하나 이상의 컴퓨팅 디바이스에 의해 기계 학습된 그래프 신경망에 대한 입력으로서 제2 선택된 분자의 제2 화학 구조를 그래픽으로 설명하는 제2 그래프를 제공하는 단계, 하나 이상의 컴퓨팅 디바이스에 의해 기계 학습된 그래프 신경망의 출력으로서 제2 선택된 분자와 연관된 하나 이상의 제2 감각 속성을 설명하는 제2 예측 데이터를 수신하는 단계, 및 하나 이상의 컴퓨팅 디바이스에 의해, 선택된 분자에 대한 예측 데이터와 제2 선택된 분자에 대한 제2 예측 데이터의 비교에 기초하여 선택된 분자와 제2 선택된 분자 사이의 하나 이상의 감각 차이를 결정하는 단계를 더 포함할 수 있다. 예를 들어, 이는 어느 분자가 바람직한 감각 품질을 나타내는지 결정하기 위해 복수의 분자를 비교할 수 있게 할 수 있다.
도 5는 본 개시의 예시적인 실시예에 따라 제한된 가용 트레이닝 데이터를 갖는 예측 태스크를 위한 감각 속성을 예측하기 위한 감각 예측 모델을 트레이닝하기 위한 예시적인 방법(500)의 흐름도를 도시한다. 도 5는 예시 및 설명을 위해 특정 순서로 수행되는 단계를 도시하지만, 본 개시의 방법은 특정하게 예시된 순서 또는 배열에 제한되지 않는다. 방법(500)의 다양한 단계는 본 개시의 범위를 벗어나지 않고 다양한 방식으로 생략, 재배열, 조합 및/또는 적응될 수 있다. 방법(500)은 도 1a 내지 도 1c에 도시된 하나 이상의 컴퓨팅 디바이스와 같은 하나 이상의 컴퓨팅 디바이스에 의해 구현될 수 있다.
502에서, 방법(500)은 하나 이상의 컴퓨팅 디바이스를 포함하는 컴퓨팅 시스템에 의해, 제1 감각 예측 태스크와 연관된 제1 트레이닝 데이터를 포함하는 제1 감각 예측 태스크 트레이닝 데이터세트를 획득하는 단계를 포함할 수 있다. 일부 구현예에서, 제1 예측 태스크는 인간과 같은 제1 종과 연관될 수 있다. 예를 들어, 제1 예측 태스크 트레이닝 데이터세트는 인간 지각 데이터와 같은 제1 종과 연관된 지각 데이터를 포함할 수 있다.
504에서, 방법(500)은 컴퓨팅 시스템에 의해, 제1 감각 예측 태스크와 연관된 감각 속성을 예측하기 위해 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하는 기계 학습된 감각 예측 모델을 트레이닝하는 것을 포함할 수 있다. 예를 들어, 일부 구현예에서 기계 학습된 감각 예측 모델은 감각 임베딩 모델을 포함할 수 있다. 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 기계 학습된 감각 예측 모델을 트레이닝하는 것은 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하는 제1 예측 태스크 모델로 감각 임베딩 모델을 트레이닝하는 것을 포함할 수 있다.
506에서, 방법(500)은 컴퓨팅 시스템에 의해, 제2 감각 예측 태스크와 연관된 제2 트레이닝 데이터를 포함하는 제2 감각 예측 태스크 트레이닝 데이터세트를 획득하는 단계를 포함할 수 있다. 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 클 수 있다. 일부 구현예에서, 제2 예측 태스크는 제2 종과 연관될 수 있고, 여기서, 제2 종은 제1 종과 다르다. 예를 들어, 제2 감각 예측 태스크 트레이닝 데이터세트는 비인간 지각 데이터와 같은 제2 종과 연관된 감각 지각 데이터를 포함할 수 있다.
508에서, 방법(500)은 컴퓨팅 시스템에 의해, 제2 감각 예측 태스크와 연관된 감각 속성을 예측하기 위해 제2 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 기계 학습된 감각 예측 모델을 트레이닝하는 단계를 포함할 수 있다. 제2 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 기계 학습된 감각 예측 모델을 트레이닝하는 것은 제2 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하는 제2 예측 태스크 모델로 감각 임베딩 모델을 트레이닝하는 것을 포함할 수 있다. 일부 실시예에서, 모델은 제1 예측 태스크 데이터세트만으로 트레이닝될 수 있고 제2 예측 태스크에 대한 예측을 출력하는 데 사용될 수 있음을 이해하여야 한다.
일부 구현예에서, 감각 임베딩 모델은 감각 임베딩을 생성하도록 구성되고, 제1 감각 예측 태스크 모델 및 제2 감각 예측 태스크 모델은 감각 임베딩을 입력으로 수신하도록 구성된다. 일부 구현예에서, 제1 트레이닝 데이터 또는 제2 트레이닝 데이터 중 적어도 하나는 복수의 예시적인 화학 구조를 포함하고, 여기서, 각각의 예시적인 화학 구조는 예시 화학 구조의 감각 속성을 설명하는 하나 이상의 감각 속성 라벨로 라벨링된다.
따라서, 기계 학습된 감각 예측 모델은 제1 감각 예측 태스크에 대해 트레이닝되고 제2 감각 예측 태스크와 연관된 예측을 출력하는 데 사용될 수 있다. 일 예로, 제1 감각 예측 태스크는 제2 감각 예측 태스크보다 더 넓은 감각 예측 태스크일 수 있다. 예를 들어, 모델은 광범위한 태스크에 대해 트레이닝되고 좁은 태스크로 전이될 수 있다. 일 예로서, 제1 태스크는 광범위한 속성 태스크일 수 있고 제2 태스크는 특정 속성 태스크(예를 들어, 후각)일 수 있다. 추가적으로 및/또는 대안적으로, 제1 감각 예측 태스크는 제2 감각 예측 태스크보다 더 많은 양의 트레이닝 데이터가 가용한 태스크일 수 있다. 추가적으로 및/또는 대안적으로, 제1 감각 예측 태스크는 제1 종과 연관될 수 있고 제2 감각 예측 태스크는 제2 종과 연관될 수 있다. 일 예로서, 제1 감각 예측 태스크는 인간의 후각 태스크일 수 있다. 추가적으로 및/또는 대안적으로, 제2 감각 예측 태스크는 모기 퇴치제 태스크와 같은 해충 방제 태스크일 수 있다.
도 6은 본 개시의 예시적인 실시예에 따라, 제2 감각 예측 태스크와 같은 예측된 감각 속성(예를 들어, 후각 속성)과 연관된 구조적 기여를 시각화하기 위한 예시적인 예시를 도시한다. 도 6에 예시된 바와 같이, 일부 실시예에서, 본 개시의 시스템 및 방법은 분자 구조의 어느 양태가 그 예측된 감각 품질에 가장 크게 기여하는지의 해석 및/또는 시각화를 용이하게 하기 위해 출력 데이터를 제공할 수 있다. 예를 들어, 일부 실시예에서, 분자 구조의 어떤 부분이 분자의 지각 속성에 가장 중요한지 및/또는 분자 구조의 어떤 부분이 분자의 지각 속성에 덜 중요한지에 대한 표시를 제공하는, 시각화(602, 610, 620)와 같은, 히트 맵이 생성되어 분자 구조에 오버레이될 수 있다. 예를 들어, 시각화(602)와 같은 히트 맵 시각화는 원자/결합(604)이 예측된 지각 속성에 가장 중요할 수 있다는 표시, 원자/결합(606)은 예측된 지각 속성에 적당히 중요할 수 있다는 표시, 및 원자/결합(608)이 예측된 지각 속성에 덜 중요할 수 있다는 표시를 제공할 수 있다. 다른 예에서, 시각화(610)는 원자/결합(612)이 예측된 지각 속성에 가장 중요할 수 있다는 표시, 원자/결합(614)이 예측된 지각 속성에 적당히 중요할 수 있다는 표시, 및 원자/결합(616) 및 원자/결합(618)은 예측된 지각 속성에 덜 중요할 수 있다는 표시를 제공할 수 있다. 일부 구현예에서, 분자 구조에 대한 변화가 감각(예를 들어, 후각) 지각에 어떻게 영향을 미칠 것인지를 나타내는 데이터는 구조가 예측된 감각(예를 들어, 후각) 품질에 어떻게 기여하는 지의 시각화를 생성하는 데 사용될 수 있다. 예를 들어, 분자 구조의 반복적 변화(예를 들어, 넉다운 기술 등) 및 그 대응 결과를 사용하여 감각(예를 들어, 후각) 지각에 가장 크게 기여하는 화학 구조 부분을 평가할 수 있다.
본 출원에 설명된 일부 예시적인 신경망 아키텍처는 그 중간 계층에서 입력 데이터의 표현을 구축하도록 구성될 수 있다. 예측 태스크에서 심층 신경망의 성공은 종종 임베딩이라고 지칭되는 그 학습된 표현의 품질에 달려 있다. 학습된 임베딩의 구조는 심지어 태스크 또는 문제 영역에 대한 통찰력으로 이어질 수 있으며 심지어 임베딩이 연구 대상 자체가 될 수 있다. 본 개시의 예시적인 양태에 따르면, 이러한 임베딩은 제한된 트레이닝 데이터를 가져서 달리 제2 감각 예측 태스크를 모델링하는 것이 어렵거나 불가능할 수 있는 제2 감각 예측 태스크와 함께 사용하기 위해 제1 감각 예측 태스크에 대해 학습된 정보를 전이하는 데에도 사용될 수 있다.
일부 예시 컴퓨팅 시스템은 끝에서 두 번째 완전 연결 계층의 활성화를 고정 차원 "감각 임베딩"으로 저장할 수 있다. GNN 모델은 분자의 그래프 구조를 분류에 유용한 고정 길이 표현으로 변환할 수 있다. 냄새 예측 태스크에 임베딩된 학습된 GNN은 분자의 감각 속성의 의미론적으로 유의미하고 유용한 조직화를 포함할 수 있다.
냄새 사이의 일반 감각 관계를 반영하는 감각 임베딩 표현은 전체적 및 국지적 둘 모두로 구조를 보여야 한다. 구체적으로, 전역 구조의 경우 지각적으로 유사한 감각 속성이 감각 임베딩 표현에서 근방에 있어야 한다. 국소 구조의 경우, 유사한 감각 지각을 가진 개별 분자가 함께 클러스터링되고 따라서 임베딩에서 근방에 있어야 한다.
각각의 데이터 지점의 예시 감각 임베딩 표현은 예시 트레이닝된 GNN 모델의 끝에서 두 번째 계층 출력으로부터 생성될 수 있다. 예를 들어, 각각의 분자는 63차원 벡터에 맵핑될 수 있다. 정성적으로, 이 공간을 2D로 시각화하기 위해 주성분 분석(PCA)을 선택적으로 사용하여 그 차원을 감소시킬 수 있다. 유사한 라벨을 공유하는 모든 분자의 분포는 커널 밀도 추정(KDE)을 사용하여 강조될 수 있다.
임베딩 공간의 전역 구조의 일 예가 도 8에 예시되어 있다. 이 예에서, 우리는 개별 냄새 또는 후각 설명자(예를 들어, 사향, 양배추, 백합 및 포도)가 자신의 특정 구역에 클러스터링되는 경향이 있음을 발견했다. 자주 함께 발생하는 냄새 설명자에 대해, 우리는 임베딩 공간이 냄새 설명자에 내포된 계층 구조를 캡처한다는 것을 발견하였다. 자스민, 라벤더, 뮤게(muguet)와 같은 냄새 라벨에 대한 클러스터는 더 넓은 냄새 라벨 꽃 향기에 대한 클러스터 내부에서 발견된다. 이 예시적인 임베딩 공간은 예를 들어 인간의 후각 지각 공간과 관련하여 예시된다. 본 개시의 예시적인 양태에 따르면, 이러한 임베딩은 해충 퇴치제 공간과 같은 제2 감각 지각 태스크 공간에서 추가적으로 이용될 수 있다.
도 8a 및 도 8b는 학습된 냄새 공간으로서 GNN 모델 임베딩의 2D 표현을 예시한다. 분자는 개별 점으로 표현된다. 음영화 및 윤곽화된 영역은 라벨링된 데이터 분포의 커널 밀도 추정치이다. A. 동시 발생이 낮은 4개의 냄새 설명자는 임베딩 공간에서 낮은 중첩을 갖는다. B. 3개의 일반적인 냄새 설명자(꽃 향기, 고기, 알콜)는 각각 그 경계 내에서 보다 특정한 라벨을 대부분 포함한다. 예 실험은 생성된 임베딩이 소스 분자와 지각적으로 유사한 분자를 검색하는 데 사용될 수 있음을 나타낸다(예를 들어, 임베딩에 대한 최근접 이웃 검색 사용).
본 출원에 설명된 기술은 서버, 데이터베이스, 소프트웨어 애플리케이션 및 기타 컴퓨터 기반 시스템뿐만 아니라 이러한 시스템과 취해지는 작용 및 그와 주고받는 정보를 참조한다. 컴퓨터 기반 시스템의 고유한 유연성으로 인해 컴포넌트 간의 그리고 그 사이의 태스크 및 기능의 매우 다양한 가능한 구성, 조합 및 분할을 허용한다. 예를 들어, 본 출원에 설명된 프로세스는 단일 디바이스 또는 컴포넌트 또는 조합으로 작동하는 다수의 디바이스 또는 컴포넌트를 사용하여 구현될 수 있다. 데이터베이스 및 애플리케이션은 단일 시스템에서 구현되거나 다수의 시스템에 걸쳐 분산될 수 있다. 분산된 컴포넌트는 순차적으로 또는 병렬로 동작할 수 있다.
본 주제는 그 다양한 특정 예시적인 실시예에 대해 상세히 설명되었지만, 각각의 예는 설명으로서 제공되며 본 개시를 제한하지 않는다. 본 기술 분야의 숙련자는 앞서 설명한 내용을 이해할 때, 이러한 실시예에 대한 변경, 변형 및 등가물을 쉽게 생성할 수 있다. 따라서, 본 개시는 본 기술 분야의 숙련자에게 쉽게 자명할 수 있는 본 주제에 대한 이러한 수정, 변형 및/또는 추가적인 포함을 배제하지 않는다. 예를 들어, 하나의 실시예의 일부로서 예시되거나 설명된 특징은 다른 실시예와 함께 사용되어 또 다른 실시예를 산출할 수 있다. 따라서, 본 개시는 이러한 변경, 변형 및 등가물을 포함하는 것을 의도한다.

Claims (20)

  1. 제2 감각 예측 태스크에 대해 제한된 가용 트레이닝 데이터를 갖는 예측 태스크에 대해 감각 속성(sensory property)을 예측하기 위한 감각 예측 모델을 트레이닝하기 위한 컴퓨터 구현 방법에 있어서, 상기 컴퓨터 구현 방법은
    하나 이상의 컴퓨팅 디바이스를 포함하는 컴퓨팅 시스템에 의해, 제1 감각 예측 태스크와 연관된 제1 트레이닝 데이터를 포함하는 제1 감각 예측 태스크 트레이닝 데이터세트를 획득하는 단계- 상기 제1 트레이닝 데이터는 상기 제1 감각 예측 태스크와 연관된 제1 감각 속성으로 라벨링된 분자 구조 데이터를 포함함 -;
    상기 컴퓨팅 시스템에 의해, 상기 제1 감각 예측 태스크와 연관된 상기 제1 감각 속성을 예측하도록 상기 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 기계 학습된 감각 예측 모델을 트레이닝하는 단계;
    상기 컴퓨팅 시스템에 의해, 제2 감각 예측 태스크와 연관된 제2 트레이닝 데이터를 포함하는 제2 감각 예측 태스크 트레이닝 데이터세트를 획득하는 단계- 상기 제2 트레이닝 데이터는 상기 제2 감각 예측 태스크와 연관된 제2 감각 속성으로 라벨링된 분자 구조 데이터를 포함하고, 상기 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 상기 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 많음 -; 및
    상기 컴퓨팅 시스템에 의해, 상기 제2 감각 예측 태스크와 연관된 상기 제2 감각 속성을 예측하기 위해 상기 제2 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 상기 기계 학습된 감각 예측 모델을 트레이닝하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 기계 학습된 감각 예측 모델은 감각 임베딩 모델을 포함하고, 상기 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 상기 기계 학습된 감각 예측 모델을 트레이닝하는 단계는 상기 제1 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초한 제1 예측 태스크 모델로 상기 감각 임베딩 모델을 트레이닝하는 단계를 포함하고, 상기 제2 감각 예측 태스크 트레이닝 데이터세트에 적어도 부분적으로 기초하여 상기 기계 학습된 감각 예측 모델을 트레이닝하는 단계는 적어도 부분적으로 상기 제2 감각 예측 태스크 트레이닝 데이터세트에 기초한 제2 예측 태스크 모델로 상기 감각 임베딩 모델을 트레이닝하는 단계를 포함하는, 방법.
  3. 제2항에 있어서, 상기 감각 임베딩 모델은 감각 임베딩을 생성하도록 구성되고, 상기 제1 감각 예측 태스크 모델 및 상기 제2 감각 예측 태스크 모델은 상기 감각 임베딩을 입력으로 수신하도록 구성되는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제1 트레이닝 데이터 또는 상기 제2 트레이닝 데이터 중 적어도 하나는 복수의 예시적인 화학 구조를 포함하고, 각각의 예시적인 화학 구조는 상기 예시적인 화학 구조의 감각 속성을 설명하는 하나 이상의 감각 속성 라벨로 라벨링되는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제1 예측 태스크는 제1 종(species)과 연관되고, 상기 제2 예측 태스크는 제2 종과 연관되고, 상기 제2 종은 상기 제1 종과 상이한, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 제1 감각 예측 태스크 트레이닝 데이터세트는 인간 지각 데이터를 포함하고, 상기 제2 감각 예측 태스크 트레이닝 데이터세트는 비인간 지각 데이터를 포함하는, 방법.
  7. 가용 트레이닝 데이터가 제한된 예측 태스크에 대해 감각 속성을 예측하기 위한 컴퓨터 구현 방법에 있어서, 상기 컴퓨터 구현 방법은
    하나 이상의 컴퓨팅 디바이스에 의해, 상기 분자와 연관된 화학 구조 데이터에 적어도 부분적으로 기초하여 분자의 감각 속성을 예측하도록 트레이닝된 기계 학습된 감각 예측 모델을 획득하는 단계- 상기 기계 학습된 감각 예측 모델은 제1 감각 예측 태스크에 대한 제1 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝됨 -;
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 선택된 분자의 화학 구조를 설명하는 입력 데이터를 획득하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 기계 학습된 감각 예측 모델에 대한 입력으로서 상기 선택된 분자의 상기 화학 구조를 설명하는 상기 입력 데이터를 제공하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 기계 학습된 감각 예측 모델의 출력으로서 제2 감각 예측 태스크와 연관된 상기 선택된 분자의 하나 이상의 제2 감각 속성을 설명하는 예측 데이터를 수신하는 단계; 및
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 선택된 분자의 상기 하나 이상의 제2 감각 속성을 설명하는 상기 예측 데이터를 출력으로서 제공하는 단계를 포함하는, 컴퓨터 구현 방법.
  8. 제7항에 있어서, 상기 감각 예측 모델은 상기 제2 감각 예측 태스크를 위한 제2 감각 예측 태스크 트레이닝 데이터세트를 사용하여 추가로 트레이닝되고, 상기 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 상기 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 많은, 컴퓨터 구현 방법.
  9. 제7항 또는 제8항에 있어서, 상기 제2 감각 예측 태스크와 연관된 상기 하나 이상의 제2 감각 속성은
    상기 선택된 분자의 광학적 속성;
    상기 선택된 분자의 미각 속성;
    상기 선택된 분자의 생분해성(biodegradability);
    상기 선택된 분자의 안정성; 또는
    상기 선택된 분자의 독성 중 하나 이상을 포함하는, 컴퓨터 구현 방법.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서, 상기 감각 예측 모델은 하나 이상의 그래프 신경망을 포함하고, 상기 입력 데이터는 선택된 분자의 화학 구조를 그래픽으로 설명하는 그래프를 포함하는, 컴퓨터 구현 방법.
  11. 제10항에 있어서, 상기 선택된 분자의 상기 화학 구조를 그래픽으로 설명하는 상기 그래프는 상기 선택된 분자의 상기 화학 구조의 2차원 표현을 나타내는 2차원 그래프 구조를 포함하는, 컴퓨터 구현 방법.
  12. 제10항에 있어서, 상기 선택된 분자의 상기 화학 구조를 그래픽으로 설명하는 상기 그래프는 상기 선택된 분자의 상기 화학 구조의 3차원 표현을 나타내는 3차원 그래프 구조를 포함하고, 상기 방법은 상기 선택된 분자의 상기 화학 구조의 상기 3차원 표현을 식별하기 위해, 상기 하나 이상의 컴퓨팅 디바이스에 의해, 하나 이상의 양자 화학 계산을 수행하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  13. 제7항 내지 제12항 중 어느 한 항에 있어서,
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 제2 예측 태스크와 연관된 하나 이상의 원하는 감각 속성을 나타내는 추가 분자를 식별하기 위해 반복 검색 프로세스를 수행하는 단계를 더 포함하고, 상기 반복 검색 프로세스는 복수의 반복 각각에 대해:
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 후보 분자의 후보 화학 구조를 그래픽으로 설명하는 후보 분자 그래프를 생성하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 기계 학습된 그래프 신경망에 대한 입력으로서 상기 후보 분자의 상기 후보 화학 구조를 그래픽으로 설명하는 상기 후보 분자 그래프를 제공하는 단계;
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 기계 학습된 그래프 신경망의 출력으로서 상기 후보 분자의 하나 이상의 예측된 감각 속성을 설명하는 예측 데이터를 수신하는 단계; 및
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 후보 분자의 상기 하나 이상의 예측된 감각 속성을 상기 하나 이상의 원하는 감각 속성과 비교하는 단계를 포함하는, 컴퓨터 구현 방법.
  14. 제7항 내지 제13항 중 어느 한 항에 있어서, 상기 선택된 분자의 상기 하나 이상의 상기 예측된 감각 속성을 나타내는 상기 예측 데이터는 수치 임베딩을 포함하고; 및
    상기 방법은 상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 기계 학습된 그래프 신경망에 의해 상기 다른 분자에 대한 다른 수치 임베딩 출력과 상기 수치 임베딩을 비교함으로써 상기 선택된 분자의 상기 예측된 감각 속성과 유사한 감각 속성을 갖는 다른 분자를 식별하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  15. 제7항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 선택된 분자 및 상기 제2 예측 태스크와 연관된 상기 예측된 감각 속성에 대한 상기 선택된 분자의 화학 구조의 하나 이상의 구조적 단위의 상대적 중요성을 설명하는 시각화 데이터를 생성하는 단계; 및
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 하나 이상의 후각 속성을 나타내는 상기 예측 데이터와 연관하여 상기 시각화 데이터를 제공하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  16. 제7항 내지 제15항 중 어느 한 항에 있어서,
    상기 하나 이상의 컴퓨팅 디바이스에 의해, 상기 선택된 분자의 상기 화학 구조에 대한 구조적 변화가 상기 선택된 분자와 연관된 상기 예측된 감각 속성에 어떻게 영향을 미치는지를 나타내는 데이터를 생성하는 단계를 더 포함하는, 컴퓨터 구현 방법.
  17. 제7항 내지 16 중 어느 한 항에 있어서, 상기 제1 예측 태스크는 제1 종과 연관되고, 상기 제2 예측 태스크는 제2 종과 연관되고, 상기 제2 종은 상기 제1 종과 상이한, 컴퓨터 구현 방법.
  18. 감각 임베딩을 포함하는 하나 이상의 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 감각 임베딩은 기계 학습된 임베딩 모델로부터의 출력으로서 생성되며, 상기 기계 학습된 임베딩 모델은 제1 감각 예측 태스크를 위한 제1 감각 예측 태스크 트레이닝 데이터세트 및 제2 감각 예측 태스크를 위한 제2 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝되고, 상기 제1 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수는 상기 제2 감각 예측 태스크 트레이닝 데이터세트의 데이터 항목의 수보다 더 많은, 하나 이상의 비일시적 컴퓨터 판독 가능 매체.
  19. 하나 이상의 원하는 감각 속성을 나타내기 위해 감각 임베딩에 적어도 부분적으로 기초하여 설계된 분자 구조를 갖는 물질의 조성물에 있어서, 상기 감각 임베딩은 분자 구조를 설명하는 입력 데이터의 수신에 응답하여 기계 학습된 임베딩 모델로부터의 출력으로 생성되고, 상기 기계 학습된 임베딩 모델은 제1 감각 예측 태스크에 대한 제1 감각 예측 태스크 트레이닝 데이터세트를 사용하여 트레이닝되고, 상기 임베딩은 제2 감각 예측 태스크에 사용되는, 물질의 조성물.
  20. 제19항의 물질의 조성물을 사용하는 방법에 있어서, 구역이 하나 이상의 원하는 감각 속성을 나타내도록 상기 물질의 조성물을 상기 구역에 적용하는 단계를 포함하는, 사용 방법.
KR1020237019769A 2020-11-13 2021-11-12 감각 속성 예측을 위한 기계 학습된 모델 KR20230104713A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063113256P 2020-11-13 2020-11-13
US63/113,256 2020-11-13
PCT/US2021/059078 WO2022104016A1 (en) 2020-11-13 2021-11-12 Machine-learned models for sensory property prediction

Publications (1)

Publication Number Publication Date
KR20230104713A true KR20230104713A (ko) 2023-07-10

Family

ID=79287882

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237019769A KR20230104713A (ko) 2020-11-13 2021-11-12 감각 속성 예측을 위한 기계 학습된 모델

Country Status (7)

Country Link
US (1) US20240021275A1 (ko)
EP (1) EP4244860A1 (ko)
JP (1) JP2023549833A (ko)
KR (1) KR20230104713A (ko)
CN (1) CN116670772A (ko)
IL (1) IL302787A (ko)
WO (1) WO2022104016A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117594157B (zh) * 2024-01-19 2024-04-09 烟台国工智能科技有限公司 基于强化学习的单一体系的分子生成方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6248339B1 (en) * 1999-08-13 2001-06-19 Intimate Beauty Corporation Fragrant body lotion and cream
CA3129069A1 (en) * 2019-02-08 2020-08-13 Google Llc Systems and methods for predicting the olfactory properties of molecules using machine learning

Also Published As

Publication number Publication date
JP2023549833A (ja) 2023-11-29
US20240021275A1 (en) 2024-01-18
IL302787A (en) 2023-07-01
EP4244860A1 (en) 2023-09-20
CN116670772A (zh) 2023-08-29
WO2022104016A1 (en) 2022-05-19

Similar Documents

Publication Publication Date Title
JP7457721B2 (ja) 機械学習を使って分子の嗅覚特性を予測するためのシステムおよび方法
Borowiec et al. Deep learning as a tool for ecology and evolution
Molnar et al. General pitfalls of model-agnostic interpretation methods for machine learning models
Zhang et al. Deep Learning over Multi-field Categorical Data: –A Case Study on User Response Prediction
Harris Generating realistic assemblages with a joint species distribution model
Jonsen et al. Meta‐analysis of animal movement using state‐space models
De Jong Modeling and simulation of genetic regulatory systems: a literature review
Isdahl et al. Out-of-the-box reproducibility: A survey of machine learning platforms
Richter et al. A multi-dimensional comparison of toolkits for machine learning with big data
Nabi et al. Performance Analysis of Classification Algorithms in Predicting Diabetes.
Wellawatte et al. A perspective on explanations of molecular prediction models
Lane et al. A theory-driven testing methodology for developing scientific software
Škrlj et al. Py3plex toolkit for visualization and analysis of multilayer networks
Santana et al. Optimal fragrances formulation using a deep learning neural network architecture: A novel systematic approach
US20240013866A1 (en) Machine learning for predicting the properties of chemical formulations
Rittig et al. Graph Neural Networks for the Prediction of Molecular Structure–Property Relationships
KR20230104713A (ko) 감각 속성 예측을 위한 기계 학습된 모델
Agyemang et al. Deep inverse reinforcement learning for structural evolution of small molecules
Krajsic et al. Lambda architecture for anomaly detection in online process mining using autoencoders
Pandey et al. Development of a read-across-derived classification model for the predictions of mutagenicity data and its comparison with traditional QSAR models and expert systems
Boschetti et al. A Turing test for Emergence
Tyagi et al. XGBoost odor prediction model: finding the structure-odor relationship of odorant molecules using the extreme gradient boosting algorithm
Raerinne Explanatory, predictive, and heuristic roles of allometries and scaling relationships
Savadatti et al. An overview of predictive analysis based on machine learning techniques
Verano et al. Olfactory search with finite-state controllers