KR20210076122A - 심층 특성화를 포함하는 능동 전달 학습을 위한 시스템 및 방법 - Google Patents

심층 특성화를 포함하는 능동 전달 학습을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20210076122A
KR20210076122A KR1020217015072A KR20217015072A KR20210076122A KR 20210076122 A KR20210076122 A KR 20210076122A KR 1020217015072 A KR1020217015072 A KR 1020217015072A KR 20217015072 A KR20217015072 A KR 20217015072A KR 20210076122 A KR20210076122 A KR 20210076122A
Authority
KR
South Korea
Prior art keywords
training
master model
model
orthogonal
models
Prior art date
Application number
KR1020217015072A
Other languages
English (en)
Inventor
에반 엔. 페인버그
비제이 에스. 판데
Original Assignee
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티, 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티 filed Critical 더 보드 어브 트러스티스 어브 더 리랜드 스탠포드 주니어 유니버시티
Publication of KR20210076122A publication Critical patent/KR20210076122A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • G06N3/0454
    • G06N5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명의 실시형태에 따른 능동 전달 학습(active transfer learning)을 위한 시스템 및 방법이 예시된다. 일 실시형태는 심층 특징화기를 훈련시키기 위한 방법을 포함하고, 이러한 방법은, 마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 단계 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -, 상기 마스터 모델의 가중치를 고정하는(freezing) 단계, 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 단계, 및 상기 출력들의 생성된 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 단계를 포함한다.

Description

심층 특성화를 포함하는 능동 전달 학습을 위한 시스템 및 방법
관련 출원에 대한 상호 참조
본 출원은 발명의 명칭이 "Systems and Methods for Active Transfer Learning with Deep Featurization"이고 2018 년 10 월 23 일에 출원된 미국 가특허 출원 번호 제 62/749,653에 대한 우선권을 주장한다. 미국 가특허 출원 일련 번호 제 62/749,653의 내용은 본 그 전체가 원용되어 본원에 통합된다.
본 발명은 일반적으로 머신 러닝 모델을 학습하는 것에 관한 것이고, 특히 심층 특성화를 포함하는 능동 전달 학습에 관한 것이다.
지도(supervised) 머신 러닝(ML)은 입력 샘플을 나타내는 입력 특징을 실측 데이터(ground truth) 출력 라벨로 매핑하기 위한 기능적인 형태 및 최적화 기법들의 군에 대한 포괄적인 용어이다. 심층 신경망(DNN)은 현재의 예측 태스크에 관련되는 특징을 중간 신경망 계층에서 학습함으로써 ML 방법의 이전의 세대를 빈번하게 능가하는 기능성 형태들의 세트를 나타낸다.
심층 신경망은 특징 엔지니어링 대신에 특징 학습을 채택함으로써 앞선 것들을 자주 능가한다. 전통적인 지도 머신 러닝(ML) 기법은 흔히 수작업되는(hand-crafted) 고정된 특징을 출력 라벨로 매핑하는 모델을 학습시킨다. 이에 반해, 심층 신경망은 자주 입력으로서 입력 - 이미지에 대해서는 픽셀들의 그리드, 자연어의 경우에는 원-핫(one-hot) 인코딩된 단어 - 의 더 기본적인 특성화(featurization)를 입력으로서 취하고, 현재 태스크에 가장 직접적으로 관련되는 특징을 신경망의 중간 계층에서 "학습(learn)"한다. 신경망을 훈련시키기 위한 효율적인 수단은, 특히 상이한 필드 및 애플리케이션들에 걸쳐서 식별되기가 어려울 수 있다.
본 발명의 실시형태에 따른 능동 전달 학습(active transfer learning)을 위한 시스템 및 방법이 예시된다. 일 실시형태는 심층 특징화기(deep featurizer)를 훈련시키기 위한 방법을 포함한다. 이러한 방법은, 마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 단계 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -, 상기 마스터 모델의 가중치를 고정하는(freezing) 단계, 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 단계, 및 상기 출력들의 생성된 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 단계를 포함한다.
추가적인 실시형태에서, 상기 마스터 모델을 훈련시키는 것은, 수 개의 에포크들에 대하여 상기 마스터 모델을 훈련시키는 것을 포함한다.
또 다른 실시형태에서, 각각의 에포크는, 수 개의 데이터세트들 상에서 상기 마스터 모델 및 상기 이차 모델들의 세트를 훈련시키는 것을 포함한다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 출력들의 세트를 생성하는 단계는, 상기 수 개의 데이터세트들을 상기 마스터 모델을 통과하여 전파시키는 것을 포함한다.
또 다른 실시형태에서, 상기 수 개의 데이터세트들의 각각의 데이터세트는, 상기 데이터세트의 입력의 상이한 특성에 대한 라벨을 가진다.
또 다른 추가적인 실시형태에서, 상기 방법은, 상기 마스터 모델 및 상기 직교 모델들의 세트를 인증하기 위한 단계를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 직교 모델들의 세트를 인증하는 단계는, 상기 직교 모델들의 세트에 대한 아웃-오브-백 점수(out of bag score)를 계산하는 것을 포함한다.
또 다른 추가적인 실시형태에서, 상기 직교 모델들의 세트를 인증하는 단계는, 훈련용 데이터 세트 및 인증용 데이터 세트를 포함하는 마스터 데이터 세트 상에서 상기 마스터 모델을 훈련시키는 것; 상기 훈련용 데이터 세트 상에서 상기 직교 모델들의 세트를 훈련시키는 것; 및 상기 인증용 데이터 세트에 기반하여 상기 직교 모델에 대한 인증 점수를 계산하는 것을 포함한다.
또 다른 추가적인 실시형태에서, 상기 출력들의 생성된 세트는 상기 마스터 모델의 한 계층이다.
또 다른 추가적인 실시형태에서, 상기 직교 모델들의 세트는 랜덤 포레스트(random forest) 및 서포트 벡터 머신(support vector machine) 중 적어도 하나를 포함한다.
또 다른 추가적인 실시형태에서, 상기 마스터 모델을 훈련시키는 것은, 복수 개의 에포크들에 대하여 상기 마스터 모델을 훈련시키는 것을 포함하고, 상기 방법은, 각각의 특정 직교 모델에 대하여, 상기 마스터 모델 및 상기 특정 직교 모델을 인증함으로써 상기 복수 개의 에포크들 중 최적 에포크를 식별하는 단계를 포함한다. 상기 방법은, 입력들의 새로운 세트를 분류하도록, 상기 최적 에포크에서 상기 마스터 모델 및 상기 특정 직교 모델을 합성 모델로서 합성하는 단계를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 이차 모델들의 세트 중 적어도 하나의 이차 모델은 하나 이상의 계층들의 세트를 포함하는 신경망이다.
일 실시형태는 심층 특징화기를 훈련시키기 위한 프로세서 명령을 포함하는 비-일시적 머신 판독가능 매체를 포함하고, 상기 명령이 프로세서에 의해 실행되면 상기 프로세서는, 마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 단계 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -, 상기 마스터 모델의 가중치를 고정하는(freezing) 단계, 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 단계, 및 상기 출력들의 생성된 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 단계를 포함하는, 프로세스를 수행하게 된다.
일 실시형태는 약물 발견을 위한 컴퓨터-구현 방법으로서, 하나 이상의 분자들의 하나 이상의 데이터세트를 수집하는 단계, 심층 특징화기를 훈련시키는 단계 - 상기 심층 특징화기를 훈련시키는 단계는, 마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 것 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -, 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 것, 및 상기 생성된 하나 이상의 출력들의 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 것을 포함함 -, 및 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하여 약물 후보를 식별하는 단계를 포함한다.
또 다른 추가적인 실시형태에서, 하나 이상의 출력들의 세트를 생성하기 이전에, 상기 방법은 마스터 모델의 가중치를 고정하는 단계를 포함한다.
또 다른 추가적인 실시형태에서, 상기 직교 모델들의 세트는, 랜덤 포레스트, 서포트 벡터 머신, XGBoost, 선형 회귀, 최근접 이웃(nearest neighbor), 나이브 베이즈(naive bayes), 의사결정 트리(decision trees), 신경망, 및 k-평균 클러스터링(k-means clustering) 중 적어도 하나를 포함한다.
또 다른 추가적인 실시형태에서, 상기 방법은, 입력들의 새로운 세트를 분류하도록, 상기 마스터 모델 및 상기 직교 모델들의 세트를 합성 모델로서 합성하는 단계를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 방법은, 심층 특징화기를 훈련시키기 전에, 하나 이상의 분자들의 상기 하나 이상의 데이터세트를 전처리하는 단계를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 데이터세트를 전처리하는 것은, 포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함한다.
또 다른 추가적인 실시형태에서, 훈련된 마스터 모델 또는 훈련된 직교 모델은 약물 후보의 속성을 예측한다.
또 다른 추가적인 실시형태에서, 상기 약물 후보의 속성은, 흡수, 분포(distribution), 물질대사, 배출(elimination), 독성, 용해도, 대사 안정성, 체내 종말점(in vivo endpoint), 체외 종말점(ex vivo endpoint), 분자량, 효능, 지질친화성(lipophilicity), 수소 결합, 투수성, 선택도, pKa, 제거율(clearance), 반감기, 분포 용적(volume of distribution), 플라즈마 농도, 및 안정성으로 이루어진 군 중 적어도 하나를 포함한다.
또 다른 추가적인 실시형태에서, 하나 이상의 분자는 리간드 분자 및/또는 타겟 분자이다.
또 다른 추가적인 실시형태에서, 타겟 분자는 단백질이다.
또 다른 추가적인 실시형태에서, 상기 방법은 하나 이상의 데이터세트를 전처리하는 단계를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 데이터세트를 전처리하는 것은, 포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 방법은, 약물 후보를 식별하기 전에, 심층 특징화기로부터 하나 이상의 출력들의 특징 세트를 생성하는 단계를 더 포함한다.
또 다른 추가적인 실시형태에서, 상기 방법은, 상기 특징 세트 상에서 상기 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하여, 상기 약물 후보를 식별하는 단계를 더 포함한다.
일 실시형태는, 하나 이상의 분자들의 하나 이상의 데이터세트를 수집하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서를 포함하는, 약물 발견을 위한 시스템을 포함한다. 프로세서는, 마스터 모델 및 하나 이상의 이차 모델들의 세트에 의하여 심층 특징화기를 훈련시키고, 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하며, 생성된 하나 이상의 출력들의 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키도록 구성된다. 마스터 모델은 하나 이상의 계층들의 세트를 포함한다. 프로세서는 약물 후보를 식별하도록 더 구성되는데, 하나 이상의 프로세서는 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하도록 개별적으로 또는 집합적으로 구성된다.
다른 실시형태에서, 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하기 이전에, 하나 이상의 프로세서는 마스터 모델의 가중치를 고정하도록 더 구성된다.
또 다른 실시형태에서, 상기 하나 이상의 프로세서는, 하나 이상의 에포크들에 대하여 상기 마스터 모델을 훈련시키도록 개별적으로 또는 집합적으로 구성된다.
또 다른 실시형태에서, 각각의 에포크에 대하여 상기 마스터 모델을 훈련시키는 것은, 하나 이상의 데이터세트들 상에서 상기 마스터 모델 및 상기 이차 모델들의 세트를 훈련시키는 것을 포함한다.
또 다른 추가적인 실시형태에서, 하나 이상의 출력들의 세트를 생성하는 단계는, 상기 하나 이상의 데이터세트들을 상기 마스터 모델을 통과하여 전파시키는 것을 포함한다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 데이터세트들의 각각의 데이터세트는, 상기 데이터세트의 입력의 상이한 특성에 대한 라벨을 가진다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 프로세서는, 상기 마스터 모델 및 상기 직교 모델들의 세트를 인증하도록 더 구성된다.
또 다른 추가적인 실시형태에서, 상기 직교 모델들의 세트를 인증하는 단계는, 상기 직교 모델들의 세트에 대한 아웃-오브-백 점수(out of bag score)를 계산하는 것을 포함한다.
추가적인 실시형태에서, 상기 직교 모델들의 세트를 인증하는 단계는, 훈련용 데이터 세트 및 인증용 데이터 세트를 포함하는 마스터 데이터 세트 상에서 상기 마스터 모델을 훈련시키는 것; 상기 훈련용 데이터 세트 상에서 상기 직교 모델들의 세트를 훈련시키는 것; 및 상기 인증용 데이터 세트에 기반하여 상기 직교 모델에 대한 인증 점수를 계산하는 것을 포함한다.
또 다른 추가적인 실시형태에서, 상기 직교 모델들의 세트는, 랜덤 포레스트, 서포트 벡터 머신, XGBoost, 선형 회귀, 최근접 이웃(nearest neighbor), 나이브 베이즈(naive bayes), 의사결정 트리(decision trees), 신경망, 및 k-평균 클러스터링(k-means clustering) 중 적어도 하나를 포함한다.
또 다른 실시형태에서, 상기 하나 이상의 프로세서는, 입력들의 새로운 세트를 분류하도록, 상기 마스터 모델 및 상기 직교 모델들의 세트를 합성 모델로서 합성하도록 더 구성된다.
또 다른 실시형태에서, 심층 특징화기를 훈련시키기 이전에, 하나 이상의 프로세서는 하나 이상의 분자들의 상기 하나 이상의 데이터세트를 전처리하도록 더 구성된다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 데이터세트를 전처리하는 것은, 포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함한다.
또 다른 추가적인 실시형태에서, 훈련된 마스터 모델 또는 훈련된 직교 모델은 약물 후보의 속성을 예측하도록 구성된다.
또 다른 추가적인 실시형태에서, 상기 약물 후보의 속성은, 흡수, 분포(distribution), 물질대사, 배출(elimination), 독성, 용해도, 대사 안정성, 체내 종말점(in vivo endpoint), 체외 종말점(ex vivo endpoint), 분자량, 효능, 지질친화성(lipophilicity), 수소 결합, 투수성, 선택도, pKa, 제거율(clearance), 반감기, 분포 용적(volume of distribution), 플라즈마 농도, 및 안정성으로 이루어진 군 중 적어도 하나를 포함한다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 프로세서는, 상기 하나 이상의 데이터세트를 전처리하도록 더 구성된다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 데이터세트를 개별적으로 또는 집합적으로 전처리하도록 구성되는 상기 하나 이상의 프로세서는, 포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함한다.
또 다른 추가적인 실시형태에서, 약물 후보를 식별하기 이전에, 상기 하나 이상의 프로세서는, 상기 심층 특징화기로부터 하나 이상의 출력들의 특징 세트를 생성하도록 더 구성된다.
또 다른 추가적인 실시형태에서, 상기 하나 이상의 프로세서는, 상기 특징 세트 상에서 상기 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하여 상기 약물 후보를 식별하도록 더 구성된다.
추가적인 실시형태 및 특징들이 후속하는 설명에 일부가 설명되고, 일부는 명세서를 검토하면 당업자에게 명백해질 것이거나 또는 본 발명의 실시에 의해서 학습될 수 있다. 본 발명의 성질 및 장점의 추가적인 이해는 명세서 및 도면의 잔여 부분에 의해 실현될 수 있는데, 이것은 본 발명의 일부를 형성한다.
상세한 설명과 청구항은 후속하는 도면과 데이터 그래프를 참조하여 더 완전하게 이해될 것인데, 이들은 본 발명의 예시적인 실시형태로서 제공된 것이고, 본 발명의 범위를 완전하게 진술하는 것으로 이해되어서는 안 된다.
도 1은 심층 특성화를 포함하는 능동 전달 학습을 위한 방법의 일 예를 예시한다.
도 2 및 도 3은 본 발명의 일 실시형태에 따른 능동 전달 학습 프로세스를 예시한다.
도 4는 본 발명의 일부 실시형태에 따라서 머신 러닝 모델을 훈련시키는 시스템을 예시한다.
도 5는 마스터 및/또는 직교 모델을 훈련시키는 프로세스를 수행하기 위한 명령을 실행하는 모델 훈련 요소의 일 예를 도시한다.
도 6은 본 발명의 일 실시형태에 따른 훈련 태스크를 제공하기 위한 훈련 애플리케이션의 일 예를 도시한다.
이제 도면으로 돌아가면, 심층 특징화기를 훈련시키기 위한 시스템 및 방법이 이하 설명된다. 특정 실시형태들에서, 심층 특징화기는 콘볼루션 신경망 및 그래프 콘볼루션 네트워크와 같은(비한정적임), 입력으로부터 특징을 식별하기 위하여 사용될 수 있는 신경망이다. 심층 특징화기(또는 마스터 모델)는 분류기(또는 이차 모델)로 훈련되어, 주어진 입력에 대한 라벨을 예측하고, 심층 특징화기를 훈련시켜서(예를 들어, 역전파를 통하여) 주어진 라벨에 관련된 특징을 식별할 수 있다. 본 발명의 다양한 실시형태에 따른 심층 특징화기는, 다수의 상이한 라벨과 연관된 다수의 상이한 데이터 세트로 훈련되어, 입력에 대한 상이한 라벨을 식별하기 위해서 일반적으로 더 유용한 특징을 식별하기 위해서 단일 심층 특징화기를 훈련시킬 수 있다. 많은 실시형태에서, 심층 특징화기는 심층 특징화기의 중간 출력(예를 들어, 끝에서 두 번째 완전 연결 계층) 및/또는 분류기를 훈련시키는 직교 모델로 더 훈련된다. 본 발명의 일부 실시형태에 따른 직교 모델은 그래디언트 정보를 마스터 모델과 공유하지 않고, 랜덤 포레스트(random forest) 및 서포트 벡터 머신(support vector machine)(비한정적)과 같은 비-구별가능 및/또는 앙상블 모델을 포함할 수 있다. 일부 실시형태들에서, 직교 모델은 입력을 분류하고, 심층 특징화기의 성능을 인증하기 위해서 사용될 수 있다. 심층 특징화기, 분류기 및 직교 모델의 이러한 시스템은, 임의의 특정 데이터 세트로의 오버피팅(overfitting)을 피하면서도 모델들의 효율적인 훈련을 허용할 수 있다. 추가적으로, 본 발명의 많은 실시형태에 따른 이러한 방식은, 변동하는 중첩 정도를 가질 수 있는 하나 이상의 데이터 세트를 사용하여 모델들의 효율적이고 효과적인 훈련을 허용할 수 있다.
예를 들어, 약재 개발 시에, 화학자들은 분자 구조체를 적어도 하나의 관심 화학적 속성에 각각 매핑하는 데이터 세트에 액세스한다. 예를 들어, 화학자는 10,000 개의 화학물질들 및 연관된 간독성 결과, 15,000 개의 화학물질들 및 연관된 LogD 측정치, 25,000 개의 화학물질 및 연관된 수동적 막 투수성 측정치 등의 데이터베이스에 액세스할 수 있다. 이러한 데이터 세트들 사이에는 변동하는 중첩 정도가 흔히 존재한다. 본 발명의 다양한 실시형태에 따른 방법은, 각각의 데이터 세트에 대하여 별개의 모델들을 개별적으로 훈련시키는 성능을 뛰어넘을 수 있는, 모든 관심 태스크에 대한 우수한 심층 학습 모델을 구축하기 위하여, 접근할 수 있는 화학물질 데이터 모두를 활용할 수 있다. 화학물질 속성 예측의 콘텍스트에서의 기술적 문제점은, 특성들의 주어진 세트에 대하여 이용가능한, 고품질의 라벨링된 훈련용 데이터가 상대적으로 적다는 것에서 초래될 수 있다. 예를 들어, 수용기-매개 독성에 대해 라벨링된 분자들의 Tox21 데이터세트는 단지 10,000 개의 라벨링된 분자만을 가진다. 본 발명의 다수의 실시형태에 따른 프로세스는 약물 발견 및 다른 화학적 콘텍스트에 적용될 수 있는데, 여기에서는 흔히 분자들을 상이한 속성(예를 들어, LogD, 독성, 용해도, 막 투수성, 특정 타겟에 대한 효능 등)에 매핑시키는 많은 상이한 데이터세트가 액세스되는데, 상이한 속성 데이터세트들 사이에는 광범위한 중첩 비율이 존재할 수 있다. 본 발명의 다양한 실시형태에 따른 분자(또는 약물) 후보 속성은 물리화학적, 생화학적, 약동학적(pharmacokinetic), 및 약역학적(pharmacodynamic) 속성을 포함할 수 있다. 본 발명의 여러 실시형태에 따른 속성의 예들은, 흡수, 분포(distribution), 물질대사, 배출(elimination), 독성, 용해도, 대사 안정성, 체내 종말점(in vivo endpoint), 체외 종말점(ex vivo endpoint), 분자량, 효능, 지질친화성(lipophilicity), 수소 결합, 투수성, 선택도, pKa, 제거율(clearance), 반감기, 분포 용적(volume distribution), 플라즈마 농도, 및 안정성으로 이루어진 군 중 적어도 하나를 포함한다(비한정적임). 비록 본 명세서에서 설명되는 예들 중 많은 것들이 분자 구조에 대하여 설명되지만, 당업자는 설명되는 방법 및 시스템이 본 발명을 벗어나지 않으면서 다양한 필드 및 애플리케이션에 적용될 수 있다는 것을 이해할 것이다.
본 발명의 다양한 실시형태에 따른 시스템 및 방법은 심층 신경망(DNN)을 구별가능한 특징화기로서 취급한다. 많은 실시형태에서, DNN의 중간 계층에 보유된 풍부한 정보를 활용함으로써 입력 샘플로부터 출력 라벨로의 정확한 매핑을 학습하기 위한 상이한 접근법들이 제공된다. 다수의 실시형태에서, 더 낮은 분산 학습기, 예컨대 랜덤 포레스트를 중간 계층에 훈련시키면, 일련의 후속 완전 연결 계층과 비교할 때 예측 성능이 개선될 수 있다. 본 발명의 여러 실시형태에 따른 심층 특성화는, 상이한 데이터 세트 또는 태스크들로부터의 라벨들의 더 효율적인 예측을 허용하는, 능동 전달 학습이라고 불리는 신규한 기법을 채용한다. 상이한 데이터 세트들에 기반하여 상이한 태스크(또는 속성)를 예측하도록 단일 마스터 모델을 훈련시킴으로써, 본 발명의 일부 실시형태에 따른 방법은, 데이터의 임의의 특정 클래스에 오버피팅되는 것을 피하면서, 관련되고 더 일반화될 수 있는 특징을 입력으로부터 식별할 수 있는 마스터 모델을 생성할 수 있다. 다수의 상이한 태스크들 사이에서 모델을 훈련시키기 위한 다른 방법은 전달 학습(transfer learning) 및 멀티태스크 학습을 포함한다. 많은 경우에, 전달 학습은 새로운 모델을 훈련시키기 위하여 사용될 수 있다. 전달 학습은 제 1 태스크에 대해서 훈련된 모델을 상이한 제 2 태스크에 대해서 모델을 훈련시키기 위한 시작점으로 사용하는 것을 수반한다. 사전 훈련된 모델은 새로운 모델의 훈련에 있어서 훈련 시간 및 리소스의 관점에서 큰 이점을 제공할 수 있다. 또한, 사전 훈련은 훈련이 소망되는 태스크에 대해서 완료되면 더 양호한 성능(즉, 더 정확한 예측)을 유도할 수 있다. 전달 학습은 하나의 데이터 세트에 대한 모델의 사전 훈련 및 가중치를 다른 모델로 전달하고 다른 관심 데이터 세트에 대해서 추가적으로 훈련하는 것을 흔히 수반한다. 멀티태스크 학습은 훈련용 데이터를 가지는 모든 속성에 대한 값들을 출력하는 단일 마스터 신경망의 동시 훈련을 수반한다.
일부 실시형태들에서, 엄격한 단-대-단 구별가능 신경망 훈련 대신에 능동 전달 학습을 전개하여도, 예측 정확도에 큰 이득이 생길 수 있다. 신경망은 훈련용 데이터를 오버피팅하는 성향(proclivity)을 가지는 것으로 알려져 있다. 더 양호한 일반화 성능, 또는 훈련용 집합에 있는 것과 많이 다른 분자의 속성을 예측하기 위한 더 높은 정확도를 얻기 위해서, 마스터 모델(예를 들어, 그래프 콘볼루션 계층 및 완전 연결 계층의 시리즈와 같은 계층들의 시리즈를 포함하는 신경망)이 훈련될 수 있고, 하나 이상의 훈련 에포크에서, 훈련된 계층 중 하나 이상의 출력이 취해져서 합성 모델(예를 들어, 그래프 콘볼루션 계층 + 직교 학습기(예를 들어, 랜덤 포레스트 또는 SVM))이 훈련될 수 있다. 그러면, 본 발명의 다양한 실시형태에 따른 프로세스는 결과적으로 얻어지는 합성 모델을 생산 모델(production model)로서 사용하는데, 합성 모델에 대한 파라미터는 분자들의 일부 제출된(held-out) 세트에 대한 성능이 가장 정확한 에포크(들)로부터 선택된다. 결과적으로 얻어지는 합성 모델은, 마스터 모델이 하나의 태스크에 대한 하나의 데이터세트에 대해서만 훈련되어도, 마스터 모델의 성능을 뛰어넘을 수 있다.
본 발명의 여러 실시형태에 따른 능동 전달 학습은 다른 태스크-특이적 학습기(또는 이차 모델)가 연결되는 단일 "심층 특징화기(deep featurizer)"(또는 마스터 모델)를 수반한다. 본 발명의 특정 실시형태에 따른 시스템은, 화학물질 속성 예측을 포함하는(비한정적임) 다양한 상이한 세팅에도 쉽게 적용될 수 있다. 화학물질 속성 예측에서는, 데이터 세트들 사이의 변동하는 샘플 중첩 정도를 가지는 상이한 속성에 대응하는 많은(가끔은 비교적 작은) 화학물질 데이터 세트에 접근한다. 비록 본 명세서에서 설명되는 예들 중 많은 것이 화학물질 속성 예측에 관련되지만, 당업자는 유사한 프로세스가 본 발명의 상이한 실시형태에 따라서 다양한 상이한 필드에 적용될 수 있다는 것을 이해할 것이다. 본 발명의 특정 실시형태에 따른 심층 특성화를 포함하는 능동 전달 학습은 많은 태스크에 대한 정확도를 개선할 수 있다. 이러한 개선에 대한 정확한 설명이 몇 가지 가능하다. 예를 들어, 이것은 적어도 부분적으로 공동 훈련 스킴에 의해 초래된 분산 감소에 부분적으로 기인할 수 있다; 분산 감소는, 심층 신경망보다 통상적으로 더 적은 분산을 가지고 오버피팅에 덜 취약한, 랜덤 포레스트와 같은 직교 모델을 전개함으로써 초래됨; 및 상이한 데이터세트 / 예측 태스크들 사이에서 공통 심층 특징화기 마스터 모델 내의 가중치를 공유한다는 것은 더 풍부한 특징화가 학습된다는 것을 의미하고, 이것은 이제 다른 태스크들 각각으로부터 개별적으로 이익을 얻을 수 있다.
본 발명의 여러 실시형태에 따른 심층 특징화기는 데이터 세트로부터 특징을 식별하기 위하여 사용될 수 있다. 특정 실시형태들에서, 심층 특징화기는 콘볼루션 신경망, 서포트 벡터 머신, 랜덤 포레스트, 앙상블 네트워크, 리커런트(recurrent) 신경망, 및 그래프 콘볼루션 네트워크를 포함하는(비한정적임) 다양한 상이한 모델을 포함할 수 있다. 본 발명의 특정 실시형태에 따른 그래프 콘볼루션 프레임워크는 분자를 그래프로 취급하고, 정보를 결합을 따라서 그리고 공간을 노드인 원자들 사이의 에지로 전달하고, 또한 3D 콘볼루션 신경망으로 전달한다. 그래프 콘볼루션 망은 발명의 명칭이 "Spatial Graph Convolutions with Applications to Drug Discovery"이고 2018 년 3 월 5 일에 출원되며 그 전체 내용이 원용되어 본원에 통합되는 미국 가출원 번호 제 62/638,803에 상세히 설명된다. 본 발명의 많은 실시형태에 따른 심층 특징은 주어진 화학물질을 다양한 속성에 매핑하기 위한 함수를 학습하기 위한 다양한 상이한 방식으로 활용될 수 있다.
대수적 회귀가의 주를 시기와 심층 신경망이 대두된 사이의 앞선 시대에서, 고정된 입력 특징을 주어진 출력으로 일반적으로 더 효율적으로 매핑하는 것 때문에 다수의 다른 방법들이 도입되었다(예를 들어, 랜덤 포레스트, 부스팅, 및 서포트 벡터 머신). 이러한 방법들은 대수적 회귀의 성능을 자주 뛰어 넘었다. 예를 들어 랜덤 포레스트의 성공은, 부분적으로 의사결정 트리들 사이의 역상관의 자기-조절(self-regularizing) 및 분산-감소 속성에 기인하여 유래되는 것으로 여겨지는데, 의사결정 트리들 각각은 입력 특징 및 훈련용 데이터의 랜덤 서브세트 상에서 훈련된다. 불행하게도, 랜덤 포레스트, 부스팅, 및 유사한 방법은 구별가능 심층 신경망에서 단-대-단으로 훈련될 수 없다. 심층 신경망은 일련의 매트릭스 승산 및 점단위 비선형성으로 구성된 연속적이고 구별가능한 함수들이지만, 랜덤 포레스트 및 부스팅은 DNN이 할 수 있는 것과 같은 방식으로 확률적 그래디언트 감소로써 훈련될 수 없다.
심층 학습은 이용가능한 훈련용 데이터가 방대하게 존재하는 경우에 가장 성공적이었지만, 랜덤 포레스트와 같은 더 낮은 분산 방법은 맞는(right) 특징이 주어지면 낮은 데이터 영역에서 신경망보다 성능이 뛰어나다. 본 발명의 다양한 실시형태에 따른 방법은 하나의 또는 여러 작은 데이터 세트가 이용가능한 세팅에 대해서 ML 모델의 성능을 최적화하는, 양자 모두의 접근법의 양태들을 가져온다.
비젼 및 자연어의 도메인과 달리, 화학물질 학습의 분야는 이용가능한, 고품질의 라벨링된 훈련용 데이터가 상대적으로 적다는 문제에 직면한다. ImageNet이 O(10,000,000) 개의 라벨링된 이미지를 보유하지만, 그들의 수용기-매개 독성에 대해 라벨링된 분자의 Tox21 데이터 세트는 단지 O(10,000) 개의 라벨링된 분자만을 보유한다.
멀티태스크 학습은, 더 작은 많은 데이터 세트 상에서 심층 신경망들을 공동으로 학습하여 많은 단일-태스크 네트워크들을 별개로 훈련시키는 것보다 성능을 개선하기 위한 하나의 방법으로서 도입되었다. 멀티태스크 네트워크 맵은 각각의 입력 샘플(분자)을 많은(k 개) 출력 속성으로 매핑한다. 멀티태스크 학습은 그레디언트 정보를 출력 계층 - 모든 K 개의 태스크에 대한 예측을 출력함 -으로부터 입력 계층으로 동시에 전파한다.
전달 학습은 멀티태스크 학습에 비하면 비동기적이다. 전달 학습은 신경망을 더 많은 훈련용 데이터가 이용가능한 별개의 태스크에서 "사전 훈련"시킨 후, 가중치를 데이터가 더 적은 관심 태스크에 대한 새로운 신경망으로의 초기값으로서 전달한다.
심층 특성화와 기반한 앙상블 방법
이러한 세팅에서, 주어진 태스크 및 해당 태스크와 연관된 라벨링된 데이터 세트에 대하여, 본 발명의 일 실시형태에 따른 프로세스를 위한 단계들은 특징 X 및 라벨 y를 획득하는 것과 신경망 NN을 규정하는 것을 포함한다. 다양한 실시형태들에서, X를 y로 매핑하기 위한 NN의 단-대-단 훈련의 T 개의 에포크에 대하여, 프로세스는 NN의 파라미터를 주기적으로(예를 들어, 모든
Figure pct00001
에포크마다) 에포크 t(NN (t) )에 고정하고, X를 네트워크를 통해서 순방향 전파하며, 계층(들)의 출력 h(t)NN (t) 로부터 획득하고(즉, h(t)(X)), 계층의 출력 h(t)를 y로 매핑하는 비-단-대-단 구별가능 학습기(예를 들어, 랜덤 포레스트 RF (t) )를 학습시킬 것이다. 그러면, 프로세스는, 예를 들어 인증 점수(들)가 최선인 단일 에포크 t 또는 에포크들의 세트 {e}에서의 NN (t) (X)RF (t) (X)를 반환한다.
이러한 예에서, 프로세스는 주기적으로(즉, 모든 T/E 에포크마다) 마스터 모델의 파라미터를 고정하고, 계산된 특징을 라벨 y로 매핑시키도록 직교 학습기를 훈련시키기 위하여, 직교 학습기 입력들의 세트를 네트워크를 통해 전파시켜서 계층(들)에서의 입력에 대한 특징 h(t)를 계산한다. 다수의 실시형태에서, 직교 모델 및/또는 심층 특징화기는 각각의 T/E 에포크에서 인증되고, 및 최적 에포크에서의 직교 모델 및/또는 심층 특징화기가, 직교 모델에 대한 특징을 생성하는 심층 특징화기와의 합성 모델을 구축하기 위해서 선택된다.
본 발명의 실시형태에 따른 능동 전달 학습을 위한 특정 프로세스들이 앞서 설명된다; 그러나, 당업자는 본 발명의 실시형태에 따른 특정 애플리케이션의 요구 사항에 적합하도록 임의의 개수의 프로세스가 적합한 경우 이용될 수 있다는 것을 이해할 것이다.
훈련용 및 유효 데이터 양자 모두로써의 신경망 훈련
랜덤 포레스트를 포함하는 여러 앙상블 방법은, 트리들 각각으로부터 제출된 데이터에 대한 서브-의사결정 트리의 일반화 성능이 모니터링될 수 있게 하는 "아웃-오브-백(out of bag)" 점수 또는 균등물을 가진다. 그러면, 오버피팅을 피하기 위해서 훈련용 또는 테스트 세트와 서로 소인 제출된 인증 세트가 필요 없이, 모든 이용가능한 훈련용 데이터에서 최종 모델이 훈련되는 장점이 생긴다. 동일한 데이터 세트에 대한 인증-중-훈련(training-while-validating)을 위한 유사한 프로시저는 심층 신경망의 영역에서는 존재하지 않는다. 통상적으로, DNN 훈련의 콘텍스트에서, 디스조인트(disjoint) 훈련, 인증, 및 테스트 데이터 서브세트가 규정되고, 그레디언트 정보는 신경망의 가중치를 최적화하도록 훈련용 집합으로부터 유도되며, 및 인증 세트에 대한 성능은 모든 중단 및 모델 선택을 위하여 사용된다.
다양한 실시형태들에서, "아웃-오브-백" 오차도, 훈련용 및 인증용 세트의 연쇄(concatenation)에서 인증-중-훈련이 가능하게 하는, 신경망에 대한 초기 중단 기준(early stopping criterion)으로서 사용될 수 있다. 본 발명의 다양한 실시형태에 따른 예시적인 프로세스는 특징 X 및 라벨 y를 획득하고 신경망 NN을 규정할 수 있다. 여러 실시형태에서, X를 y로 매핑하기 위한 NN의 단-대-단 훈련의 T 개의 에포크에 대하여, 프로세스는 NN의 파라미터를 주기적으로(예를 들어, 모든
Figure pct00002
에포크마다) 에포크 t(NN (t) )에 고정하고, X를 네트워크를 통해서 순방향 전파하며, 계층(들)의 출력 h(t)를 편의상 NN (t) 로부터 획득하고, h(t)를 y로 매핑하는 앙상블 학습기(예를 들어, 랜덤 포레스트 RF (t) )를 학습시키며, 에포크 t에서의 아웃-오브-백 점수를 기록할 수 있다. 그러면, 프로세스는 아웃-오브-백 점수가 최선인 에포크 t에서의 NN (t) RF (t) 를 반환할 것이다.
일부 실시형태들에서, 훈련 및 인증 세트라고 통상적으로 상묘되는 것은 신경망의 훈련 및 인증 양자 모두를 위하여 사용될 수 있다. 예를 들어, 특징 X 및 라벨 y에 대하여, 본 발명의 여러 실시형태에 따른 프로세스는, T 개의 에포크에 대하여 함께 연쇄된 [X train , X valid ] 및 [y train , y valid ]의 단-대-단 훈련을 수행할 수 있다. 여러 실시형태에서, 프로세스는 NN의 파라미터를 주기적으로 고정시키고, 훈련용 데이터에 대해서만 앙상블 학습기(예를 들어, 랜덤 포레스트)를 훈련시켜서 X (train) y (train) 으로 매핑할 수 있다. 본 발명의 특정 실시형태에 따른 프로세스는 X (valid) 에 대한 예측을 하여
Figure pct00003
를 얻을 수 있고
Figure pct00004
y (valid) 와 비교함으로써 인증 점수를 계산할 수 있다.
심층 특성화가 있는 능동 전달 학습
전달 학습은 (통상적으로) 큰 데이터 세트에 대해서 DNN을 훈련시키는 것과 결과적으로 얻어지는 파라미터를 새로운 태스크에 대해 훈련될 새로운 DNN에 대한 초기값 및 연관된 관심 데이터 세트로서 전달하는 것을 수반한다. 이에 반해, 멀티태스크 학습은 모든 소망되는 태스크들에 대한 예측을 출력하는 단일 "마스터" 네트워크의 동시 학습을 수반한다. 전달 학습은 상이한 데이터 세트/태스크 내의 훈련 샘플들 사이에 중첩이 거의 없거나 없는 시나리오에서 효과적일 수 있다. 이에 반해, 멀티태스크 학습은 상이한 데이터 세트/태스크 내의 훈련 샘플들 사이에 많은(이상적으로는 전체) 중첩이 존재하는 시나리오에 최적으로 적용된다. 데이터 세트들 사이에 중첩이 거의 없거나 태스크들 사이에 상관이 거의 없는 경우, 멀티태스크 학습은 DNN의 성능을 개선하는 것이 아니라 실제로 감소시킬 수 있다. 일반적으로, 큰 NxK 매트릭스로서의 훈련 라벨 y를 가정하면(N은 훈련 샘플의 총 수이고 K는 태스크의 개수임), 매트릭스가 더 성겨지거나 열들이 덜 상관될수록, 멀티태스크 효과는 감소되거나, 어떤 경우에는 생산성이 반대가 되게(counterproductive) 된다.
약물 발견 및 다른 화학적인 콘텍스트에서, 분자를 상이한 속성(예를 들어, LogD, 독성, 용해도, 막 투수성, 특정 타겟에 대한 효능)으로 매핑하는 많은 상이한 데이터 세트에 흔히 액세스하는데, 상이한 속성 데이터 세트들 사이의 중첩 비율의 범위가 넓다. 심층 특성화가 있는 능동 전달 학습이 이러한 문제를 해결하는 것이 밝혀졌다. 능동 전달 학습을 위한 프로시저의 일 예가 다음에 제공된다.
이러한 예에서, 본 발명의 여러 실시형태에 따른 프로세스는 마스터 특징화기 신경망 NN (f) 을 규정할 수 있다. 그러면, K 개의 태스크/데이터 세트 모두(또는 단일 태스크/데이터세트)의 각각의 태스크 k에 대하여, 프로세스는 서브 신경망 NN (k) 를 규정하고, 특징 X (k) 및 라벨 y (k) 를 획득할 수 있다. 그러면, T 개의 에포크에 대하여 그리고 K 개의 태스크/데이터 세트 모두의 각각의 태스크 k에 대하여, 본 발명의 여러 실시형태에 따른 프로세스는 NN (f) NN (k) 와 링크시켜서 NN [f,k] 를 형성하고, NN [f,k] 를 하나의 에포크에 대하여(X (k) , y (k) )로 훈련시킬 수 있다. 주기적으로(예를 들어, 에포크 t가 T/E의 배수일 경우), 프로세스는 NN (f) 의 파라미터를 에포크 t에서 고정시키고(NN ft ), X를 네트워크 NN ft 를 통해 순방향 전파하며, 계층(들)의 출력 h (k,t) NN (ft) 로부터 획득하고, h (k,t) (X)y (k) (X)로 매핑시키는 앙상블 학습기(예를 들어, 랜덤 포레스트 RF (k,t) )를 훈련시킬 수 있다. 그러면, 프로세스는 세트 {NN (k,t) } 및 세트 {RF (k,t) }를 각각의 태스크 k에 대하여 인증 점수(들)가 최적인 에포크 t k 에서 반환할 수 있다.
방법의 예시도가 도 1에 제공된다. 도 1은 단일 특징화기 DNN(예를 들어, PotentialNet 또는 다른 그래프 콘볼루션 신경망)을 여러 에포크들에 걸쳐서 훈련시키기 위하여 사용되는 데이터 세트(들)(1-K)를 보여준다. 훈련의 모든 에포크는, 각각의 개체 데이터 세트에 대한 에포크를 훈련시키는 것을 수반하고, 이들 각각은 그래디언트 정보를 심층 특징화기를 통해서 입력 쪽으로 되전달하는 자기 자신의 완전 연결 계층을 가진다. 그러면, 계층들은 고정되고, 데이터가 순방향 전파되어 심층 특성화된 데이터 세트(들)(1-K)를 생성한다. 그러면, 별개의 모델(예를 들어, 랜덤 포레스트, SVM, 선형 회귀, xgboost 등)이 각각의 심층 특성화된 데이터 세트에 대하여 훈련된다. 병합 인증 점수(예를 들어, 평균 OOB 점수)가 최선인 에포크가 최종 모델을 위하여 선택된다. 다수의 실시형태에서, T 개의 에포크들 각각에서의 K 개의 데이터세트(들) 각각에 대하여, 프로세스는 그래디언트 정보를 마스터 DNN 특징화기와 공유하는 다중층 퍼셉트론(MLP) DNN의 훈련의 에포크를 수행할 수 있다.
본 발명의 일 실시형태에 따른 능동 전달 학습 프로세스가 도 2에 도시된다. 프로세스(200)는 마스터 모델을 여러 에포크에 대하여 이차 모델로 훈련시킨다(205). 이차 모델은 라벨들의 상이한 세트에 대하여 마스터 모델을 각각 훈련시킬 수 있다. 다양한 실시형태에서, 복수 개의 에포크들은 설정된 개수의 에포크들 또는 무작위수의 에포크들일 수 있다. 여러 실시형태에서, 여러 데이터세트는 각각의 에포크 내에서 훈련되는데, 여기에서 각각의 데이터세트는 모델을 라벨 또는 속성들의 상이한 서브세트 상에서 훈련시킨다. 프로세스(200)는 마스터 모델의 가중치를 고정한다(210). 그러면, 입력 데이터가 마스터 모델을 통해 처리되어 입력 데이터로부터 특징을 식별한다(215). 본 발명의 여러 실시형태에 따른 식별된 특징은 특징 벡터 및 다른 특징 기술자를 포함한다. 그러면, 프로세스(200)는 직교 모델을 식별된 특징에 대해 훈련시킨다(220). 본 발명의 다양한 실시형태에 따른 직교 모델은 랜덤 포레스트와 같은(비한정적임) 비-구별가능 앙상블 모델을 포함할 수 있다. 특정 실시형태들에서, 특징화기 및 하나 이상의 직교 모델들의 세트의 조합이 입력을 예측 또는 분류하기 위해서 함께 사용된다.
본 발명의 일 실시형태에 따른 능동 전달 학습 프로세스가 도 3에 도시된다. 프로세스(300)는 마스터 모델을 하나 이상의 라벨에 대해서 하나 이상의 데이터 세트에 걸쳐서 훈련시킨다(305). 그러면, 프로세스(300)는 모델을 평가할지 여부를 결정한다(310). 다양한 실시형태들에서, 프로세스는 모델을 설정된 개수의 에포크 이후에 평가하도록 결정할 수 있다. 본 발명의 특정 실시형태에 따른 프로세스는 평가 모델을 무작위 방식으로 평가하도록 결정할 수 있다. 프로세스(300)가 모델을 평가하도록 결정하면, 프로세스는 하나 이상의 직교 모델을 라벨에 대하여 훈련시킨다(315). 일부 실시형태들에서, 별개의 직교 모델이 각각의 라벨 및/또는 데이터 세트에 대해서 분류하도록 훈련된다. 이러한 방식으로, 본 발명의 다양한 실시형태에 따른 프로세스는 특징화기로서 동작하는 심층 신경망 및 각각의 입력 샘플의 특징을 관심 출력 속성으로 매핑하는 최종 예측 매핑을 수행하는 다른 학습기를 포함하는 하이브리드 모델을 훈련시킨다. 프로세스(300)는 마스터 모델 및/또는 직교 모델에 대한 하나 이상의 인증 점수를 계산한다(320). 본 발명의 다양한 실시형태에 따른 인증 점수는 데이터 세트로부터 선택된 인증 세트에 기반한, 해당 모델에 대한 "아웃-오브-백" 오차 및 인증 점수를 포함할 수 있다(비한정적임). 그러면, 프로세스(300)는 수행할 에포크가 더 있는지 여부를 결정한다(325). 더 있다면, 프로세스(300)는 단계(305)로 복귀한다. 프로세스가 수행할 에포크가 더 없다고 결정하면(325), 프로세스는 최적 에포크를 식별한다(335). 다양한 실시형태에서, 최적 에포크는 평균, 최대값 등과 같은(비한정적임) 병합 인증 점수에 기반하여 식별된다. 다양한 실시형태에서, 최적 에포크는 이제 합성 모델을 생성하기 위하여 사용될 수 있다. 본 발명의 특정 실시형태에 따른 프로세스는 최적 에포크에서의 마스터 모델의 가중된 계층 및 훈련된 직교 모델의 조합을 사용하여 합성 모델을 구축할 수 있다.
본 발명의 실시형태에 따른 능동 전달 학습을 위한 특정 프로세스들이 앞서 설명된다; 그러나, 당업자는 본 발명의 실시형태에 따른 특정 애플리케이션의 요구 사항에 적합하도록 임의의 개수의 프로세스가 적합한 경우 이용될 수 있다는 것을 이해할 것이다.
본 발명의 일부 실시형태에 따라서 머신 러닝 모델을 훈련시키는 시스템이 도 4에 도시된다. 네트워크(400)는 통신 네트워크(460)를 포함한다. 통신 네트워크(460)는 네트워크(460)에 연결된 디바이스가 다른 연결된 디바이스와 통신하게 하는 인터넷과 같은 네트워크이다. 서버 시스템(410, 440, 및 470)이 네트워크(460)에 연결된다. 서버 시스템(410, 440, 및 470) 각각은, 클라우드 서비스를 네트워크(460)를 거쳐 사용자에게 제공하는 프로세스를 실행하는 내부 네트워크를 통해 서로 통신하도록 연결되는 하나 이상의 서버의 그룹이다. 이것을 위하여, 클라우드 서비스는 네트워크를 거쳐서 디바이스에게 데이터 및/또는 실행가능한 애플리케이션을 제공하기 위하여 하나 이상의 서버 시스템에 의해 실행되는 하나 이상의 애플리케이션이다. 서버 시스템(410, 440, 및 470)은 내부 네트워크 내에 세 개의 서버를 각각 가지는 것으로 도시된다. 그러나, 서버 시스템(410, 440 및 470)은 임의의 개수의 서버를 포함할 수 있고, 임의의 추가적인 개수의 서버 시스템이 네트워크(460)에 연결되어 클라우드 서비스를 제공할 수 있다. 본 발명의 다양한 실시형태에 따르면, 본 발명의 일 실시형태에 따라서 마스터 및 직교 모델을 훈련시키는 시스템 및 방법을 사용하는 심층 학습 네트워크는, 단일 서버 시스템 및/또는 네트워크(460)를 거쳐 통신하는 서버 시스템들의 그룹에서 실행되는 프로세스에 의해 제공될 수 있다.
사용자는 네트워크(460)에 연결되어 본 발명의 다양한 실시형태에 따른 심층 학습 네트워크를 제공하거나 및/또는 상호작용하기 위한 프로세스를 수행하는 개인용 디바이스(480 및 420)를 사용할 수 있다. 도시된 실시형태에서, 개인용 디바이스(480)는 종래의 "유선" 연결을 통해 네트워크(460)에 연결되는 데스크탑 컴퓨터로서 도시된다. 그러나, 개인용 디바이스(480)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트 텔레비전, 엔터테인먼트 게이밍 콘솔, 또는 "유선" 연결을 통해 네트워크(460)에 연결되는 임의의 다른 디바이스일 수도 있다. 모바일 디바이스(420)는 무선 연결을 사용하여 네트워크(160)에 연결된다. 무선 연결은, 무선 주파수(RF) 신호, 적외선 신호, 또는 임의의 다른 형태의 무선 시그널링을 사용하여 네트워크(460)에 연결되는 연결이다. 도 4에서, 모바일 디바이스(420)는 모바일 전화기이다. 그러나, 모바일 디바이스(420)는 모바일 폰, 개인 휴대용 단말기(PDA), 태블릿, 스마트 폰, 또는 본 발명에서 벗어나지 않으면서 무선 연결을 통해 네트워크(460)에 연결되는 임의의 다른 타입의 디바이스일 수도 있다.
모델 훈련 요소
마스터 및/또는 직교 모델을 네트워크에 연결된 다른 디바이스로 훈련시키고 및/또는 본 발명의 다양한 실시형태에 따른 훈련 태스크를 제공하기 위한 프로세스를 수행하기 위한 명령을 실행하는 모델 훈련 요소의 일 예가 도 5에 도시된다. 본 발명의 많은 실시형태에 따른 훈련 요소는 모바일 디바이스, 컴퓨터, 서버, 및 클라우드 서비스 중 하나 이상을 포함할 수 있다(비한정적임). 훈련 요소(500)는 프로세서(510), 통신 인터페이스(520), 및 메모리(530)를 포함한다.
당업자는, 특정한 훈련 요소가 본 발명에서 벗어나지 않으면서 간명화를 위하여 생략된 다른 컴포넌트를 포함할 수도 있다는 것을 이해할 것이다. 프로세서(510)는 메모리 내에 저장된 데이터를 조작하기 위해서 메모리(530)에 저장된 명령을 수행하는 프로세서, 마이크로프로세서, 제어기, 또는 프로세서, 마이크로프로세서, 및/또는 제어기의 조합을 포함할 수 있다(비한정적임). 프로세서 명령은 본 발명의 특정 실시형태에 따른 프로세스를 수행하도록 프로세서(510)를 구성할 수 있다. 통신 인터페이스(520)는 훈련 요소(500)가 데이터를 네트워크를 거쳐서 프로세서(510)에 의해 수행된 명령에 기반하여 송신 및 수신하게 한다.
메모리(530)는 훈련 애플리케이션(532), 훈련용 데이터(534), 및 모델 데이터(536)를 포함한다. 본 발명의 여러 실시형태에 따른 훈련 애플리케이션은 특징화기를 마스터 모델, 이차 모델, 및/또는 직교 모델의 훈련을 통해서 훈련시키도록 사용된다. 본 발명의 여러 실시형태에 따른 특징화기는 입력의 여러 상이한 특성을 예측하기 위하여 입력의 특징을 사용할 수 있는 마스터 모델 및 하나 이상의 직교 모델으로 이루어지는 합성 모델이다. 여러 실시형태에서, 훈련 애플리케이션은 특징화기 모델을 훈련시켜서 입력 클래스(예를 들어, 화학적 화합물)의 일반화가능하고 관련된 특징을 식별할 수 있다. 본 발명의 특정 실시형태에 따른 훈련 애플리케이션은 훈련용 데이터를 사용하여 하나 이상의 마스터 모델, 이차 모델, 및/또는 직교 모델을 훈련시켜서, 입력의 세트를 특징화하기 위한 최적화된 특징화기를 결정할 수 있다.
비록 훈련 요소(500)의 특정한 예가 도 5에 도시되지만, 다양한 훈련 요소 중 임의의 것이 본 발명의 실시형태에 따른 특정한 애플리케이션의 요구 사항에 적합한, 본 명세서에서 설명되는 것과 유사한 프로세스를 수행하기 위하여 활용될 수 있다.
훈련 애플리케이션
본 발명의 일 실시형태에 따라서 심층 특징화기를 훈련시키기 위한 훈련 애플리케이션이 도 6에 도시된다. 훈련 애플리케이션(600)은 마스터 훈련 엔진(605), 이차 훈련 엔진(610), 직교 훈련 엔진(615), 인증 엔진(620), 및 합성(compositing) 엔진(625)을 포함한다. 본 발명의 많은 실시형태에 따른 훈련 애플리케이션은 심층 특징화기를 제한된 세트의 훈련용 데이터에서 훈련시켜서 새로운 입력을 여러 상이한 라벨에 걸쳐서 예측 또는 분류할 수 있다.
다양한 실시형태에서, 마스터 훈련 엔진은 여러 클래스 또는 태스크들에 걸쳐서 입력 데이터로부터 일반화가능한 특징을 식별하기 위하여 마스터 모델을 훈련시키기 위하여 사용될 수 있다. 많은 실시형태에서, 마스터 모델 및 하나 이상의 직교 모델들의 세트는 새로운 입력들을 분류하기 위하여 광범위하게 일반화가능한 특징을 사용할 수 있는 합성 모델을 구성한다.
본 발명의 다양한 실시형태에 따른 이차 훈련 엔진은 마스터 모델을 데이터의 세트 상에서 훈련시키기 위한 이차 모델을 훈련시키기 위하여 사용될 수 있다. 일부 실시형태들에서, 이차 훈련 엔진은 분류기(예컨대, 비한정적으로 완전 연결 계층)를 사용하여 마스터 모델을 통해서 역전파될 수 있는 손실을 계산한다. 여러 실시형태에서, 별개의 이차 모델은 복수 개의 상이한 데이터 세트의 각각에 대하여 훈련되어, 마스터 모델이 여러 상이한 라벨 세트들에 걸쳐서 훈련될 수 있게 한다. 예를 들어, 일부 실시형태들에서 각각의 데이터 세트는 하나 이상의 속성(예컨대, 비한정적으로 LogD, 독성, 용해도, 막 투수성, 특정 타겟에 대한 효능)의 세트와 연관되고, 상이한 이차 모델이 속성들의 각각의 세트에 대해서 훈련된다.
본 발명의 많은 실시형태에 따른 직교 훈련 엔진은 마스터 모델을 훈련시키기 위한 직교 모델을 훈련시키기 위하여 사용될 수 있다. 많은 실시형태에서, 직교 모델은 랜덤 포레스트 및 서포트 벡터 머신을 포함할 수 있다(비한정적임). 본 발명의 여러 실시형태에 따른 직교 모델은 훈련 도중에 마스터 모델의 계층들 상에서 훈련될 수 있고, 마스터 모델의 가중치를 조절하기 위한 직교 손실을 제공한다.
본 발명의 다수의 실시형태에 따른 인증 엔진은 직교 모델 및/또는 마스터 모델의 결과를 인증하기 위하여 사용되어, 마스터 및/또는 직교 모델에 대한 최적화된 중단점을 결정한다. 다양한 실시형태에서, 인증 엔진은 모델의 일반화 성능을 모니터링하기 위하여 아웃-오브-백 오차를 계산할 수 있고, 합성 모델에 대한 최적 가중치의 선택을 가능하게 한다.
다양한 실시형태에서, 합성 엔진은 전술된 훈련 프로세스 및 시스템에 기반하여 합성 모델을 심층 특징화기로서 생성할 수 있다. 본 발명의 특정 실시형태에 따른 합성 모델은 마스터 모델 및 하나 이상의 직교 모델들의 세트를 포함할 수 있다. 마스터 모델 및 직교 모델들의 세트는 인증 점수(예컨대, 비한정적으로 아웃-오브-백 점수)가 최적인 가중치들의 세트에 기반하여 가중될 수 있다.
비록 훈련 애플리케이션들의 특정한 예가 도 6에 도시되지만, 다양한 훈련 애플리케이션 중 임의의 것이 본 발명의 실시형태에 따른 특정한 애플리케이션의 요구 사항에 적합한, 본 명세서에서 설명되는 것과 유사한 프로세스를 수행하기 위하여 활용될 수 있다.
결과
본 명세서에서 설명된 방법은 공적으로 이용가능한 데이터세트 및 독점적인 방대한 약재 데이터세트 양자 모두로 인증되었다. 이러한 섹션에서는, 세 개의 공적으로 이용가능한 화학물질 데이터세트(ESOL(용해도), SAMPL(용해도), 및 지질친화성)에서의 모델 성능에 대한 결과가 제공된다. 랜덤 분할이 화학물질 머신 러닝 모델의 실세계 성능을 과다하게 추정한다고 널리 믿어지기 때문에, 스캐폴드 분할(scaffold splitting)(원형 지문 공간 상으로 투영된 화학적 샘플의 K-평균 클러스터링)의 한 형태가 이러한 예를 위하여 사용된다. 다음 표는, 각각의 데이터세트에 대하여, 본 발명의 일부 실시형태에 따른 능동 전달 학습과의 공동 훈련이 그래프 콘볼루션 PotentialNet만을 사용한 훈련보다 우수하다는 것을 보여준다.
모델 ESOL R 2 SAMPL R 2 지질친화성 R 2
PotentialNet 만 0.368 0.827 0.521
특징화기로서 PotentialNet이 있는 능동 전달 학습 0.467 0.923 0.567
비록 본 발명이 특정한 양태에서 설명되었지만, 많은 추가적인 변경 및 변동이 당업자들에게 명백할 것이다. 그러므로, 본 발명이 구체적으로 설명된 것과 다르게 실시될 수 있다는 것이 이해되어야 한다. 따라서, 본 발명의 실시형태는 어떤 경우에도 예시적인 것이지 한정적인 것이 아니라고 간주되어야 한다.

Claims (66)

  1. 심층 특징화기(deep featurizer)를 훈련시키기 위한 방법으로서,
    마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 단계 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -;
    상기 마스터 모델의 가중치를 고정하는(freezing) 단계;
    상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 단계; 및
    상기 출력들의 생성된 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 단계를 포함하는, 심층 특징화기 훈련 방법.
  2. 제 1 항에 있어서,
    상기 마스터 모델을 훈련시키는 것은,
    복수 개의 에포크들에 대하여 상기 마스터 모델을 훈련시키는 것을 포함하는, 심층 특징화기 훈련 방법.
  3. 제 2 항에 있어서,
    각각의 에포크는, 복수 개의 데이터세트들 상에서 상기 마스터 모델 및 상기 이차 모델들의 세트를 훈련시키는 것을 포함하는, 심층 특징화기 훈련 방법.
  4. 제 3 항에 있어서,
    상기 하나 이상의 출력들의 세트를 생성하는 단계는,
    상기 복수 개의 데이터세트들을 상기 마스터 모델을 통과하여 전파시키는 것을 포함하는, 심층 특징화기 훈련 방법.
  5. 제 3 항에 있어서,
    상기 복수 개의 데이터세트들의 각각의 데이터세트는, 데이터세트의 입력의 상이한 특성에 대한 라벨을 가지는, 심층 특징화기 훈련 방법.
  6. 제 2 항에 있어서,
    상기 방법은,
    상기 마스터 모델 및 상기 직교 모델들의 세트를 인증하는 단계를 더 포함하는, 심층 특징화기 훈련 방법.
  7. 제 6 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 단계는, 상기 직교 모델들의 세트에 대한 아웃-오브-백 점수(out of bag score)를 계산하는 것을 포함하는, 심층 특징화기 훈련 방법.
  8. 제 6 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 단계는,
    훈련용 데이터 세트 및 인증용 데이터 세트를 포함하는 마스터 데이터 세트 상에서 상기 마스터 모델을 훈련시키는 것;
    상기 훈련용 데이터 세트 상에서 상기 직교 모델들의 세트를 훈련시키는 것; 및
    상기 인증용 데이터 세트에 기반하여 상기 직교 모델에 대한 인증 점수를 계산하는 것을 포함하는, 심층 특징화기 훈련 방법.
  9. 제 1 항에 있어서,
    상기 출력들의 생성된 세트는 상기 마스터 모델의 한 계층인, 심층 특징화기 훈련 방법.
  10. 제 1 항에 있어서,
    상기 직교 모델들의 세트는 랜덤 포레스트(random forest) 및 서포트 벡터 머신(support vector machine) 중 적어도 하나를 포함하는, 심층 특징화기 훈련 방법.
  11. 제 1 항에 있어서,
    상기 마스터 모델을 훈련시키는 것은,
    복수 개의 에포크들에 대하여 상기 마스터 모델을 훈련시키는 것을 포함하고, 상기 방법은,
    각각의 특정 직교 모델에 대하여, 상기 마스터 모델 및 상기 특정 직교 모델을 인증함으로써 상기 복수 개의 에포크들 중 최적 에포크를 식별하는 단계; 및
    입력들의 새로운 세트를 분류하도록, 상기 최적 에포크에서의 상기 마스터 모델 및 상기 특정 직교 모델을 합성 모델로서 합성하는(compositing) 단계를 더 포함하는, 심층 특징화기 훈련 방법.
  12. 제 1 항에 있어서,
    상기 이차 모델들의 세트 중 적어도 하나의 이차 모델은 하나 이상의 계층들의 세트를 포함하는 신경망인, 심층 특징화기 훈련 방법.
  13. 심층 특징화기를 훈련시키기 위한 프로세서 명령을 포함하는 비-일시적 머신 판독가능 매체로서,
    상기 명령이 프로세서에 의해 실행되면 상기 프로세서는,
    마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 단계 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -;
    상기 마스터 모델의 가중치를 고정하는(freezing) 단계;
    상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 단계; 및
    상기 출력들의 생성된 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 단계를 포함하는, 프로세스를 수행하게 되는, 비-일시적 머신 판독가능 매체.
  14. 제 13 항에 있어서,
    상기 마스터 모델을 훈련시키는 것은,
    복수 개의 에포크들에 대하여 상기 마스터 모델을 훈련시키는 것을 포함하는, 비-일시적 머신 판독가능 매체.
  15. 제 14 항에 있어서,
    각각의 에포크는, 복수 개의 데이터세트들 상에서 상기 마스터 모델 및 상기 이차 모델들의 세트를 훈련시키는 것을 포함하는, 비-일시적 머신 판독가능 매체.
  16. 제 15 항에 있어서,
    상기 하나 이상의 출력들의 세트를 생성하는 단계는,
    상기 복수 개의 데이터세트들을 상기 마스터 모델을 통과하여 전파시키는 것을 포함하는, 비-일시적 머신 판독가능 매체.
  17. 제 15 항에 있어서,
    상기 복수 개의 데이터세트들의 각각의 데이터세트는, 데이터세트의 입력의 상이한 특성에 대한 라벨을 가지는, 비-일시적 머신 판독가능 매체.
  18. 제 14 항에 있어서,
    상기 프로세스는,
    상기 마스터 모델 및 상기 직교 모델들의 세트를 인증하는 단계를 더 포함하는, 비-일시적 머신 판독가능 매체.
  19. 제 18 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 단계는, 상기 직교 모델들의 세트에 대한 아웃-오브-백 점수(out of bag score)를 계산하는 것을 포함하는, 비-일시적 머신 판독가능 매체.
  20. 제 13 항에 있어서,
    상기 출력들의 생성된 세트는 상기 마스터 모델의 한 계층인, 비-일시적 머신 판독가능 매체.
  21. 제 13 항에 있어서,
    상기 직교 모델들의 세트는 랜덤 포레스트(random forest) 및 서포트 벡터 머신(support vector machine) 중 적어도 하나를 포함하는, 비-일시적 머신 판독가능 매체.
  22. 제 13 항에 있어서,
    상기 프로세스는,
    입력들의 새로운 세트를 분류하도록, 상기 마스터 모델 및 상기 직교 모델들의 세트를 합성 모델로서 합성하는 단계를 더 포함하는, 비-일시적 머신 판독가능 매체.
  23. 약물 발견을 위한 컴퓨터-구현 방법으로서,
    (a) 하나 이상의 분자들의 하나 이상의 데이터세트를 수집하는 단계;
    (b) 심층 특징화기를 훈련시키는 단계 - 상기 심층 특징화기를 훈련시키는 단계는,
    (i) 마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 것 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -;
    (ii) 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 것; 및
    (iii) 상기 생성된 하나 이상의 출력들의 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 것을 포함함 -; 및
    (c) 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하여 약물 후보를 식별하는 단계를 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  24. 제 23 항에 있어서,
    상기 방법은,
    (b) 단계의 (ii) 이전에,
    상기 마스터 모델의 가중치를 고정하는 것을 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  25. 제 23 항에 있어서,
    상기 마스터 모델을 훈련시키는 것은,
    하나 이상의 에포크들에 대하여 상기 마스터 모델을 훈련시키는 것을 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  26. 제 25 항에 있어서,
    각각의 에포크는, 하나 이상의 데이터세트들 상에서 상기 마스터 모델 및 상기 이차 모델들의 세트를 훈련시키는 것을 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  27. 제 26 항에 있어서,
    상기 하나 이상의 출력들의 세트를 생성하는 것은,
    상기 하나 이상의 데이터세트를 상기 마스터 모델을 통과하여 전파시키는 것을 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  28. 제 26 항에 있어서,
    상기 하나 이상의 데이터세트들의 각각의 데이터세트는, 데이터세트의 입력의 상이한 특성에 대한 라벨을 가지는, 약물 발견을 위한 컴퓨터-구현 방법.
  29. 제 25 항에 있어서,
    상기 방법은,
    상기 마스터 모델 및 상기 직교 모델들의 세트를 인증하는 단계를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  30. 제 29 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 단계는, 상기 직교 모델들의 세트에 대한 아웃-오브-백 점수(out of bag score)를 계산하는 것을 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  31. 제 29 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 단계는,
    (a) 훈련용 데이터 세트 및 인증용 데이터 세트를 포함하는 마스터 데이터 세트 상에서 상기 마스터 모델을 훈련시키는 것;
    (b) 상기 훈련용 데이터 세트 상에서 상기 직교 모델들의 세트를 훈련시키는 것; 및
    (c) 상기 인증용 데이터 세트에 기반하여 상기 직교 모델에 대한 인증 점수를 계산하는 것을 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  32. 제 23 항에 있어서,
    상기 출력들의 생성된 세트는 상기 마스터 모델의 한 계층인, 약물 발견을 위한 컴퓨터-구현 방법.
  33. 제 23 항에 있어서,
    상기 직교 모델들의 세트는,
    랜덤 포레스트, 서포트 벡터 머신, XGBoost, 선형 회귀, 최근접 이웃(nearest neighbor), 나이브 베이즈(naive bayes), 의사결정 트리(decision trees), 신경망, 및 k-평균 클러스터링(k-means clustering) 중 적어도 하나를 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  34. 제 23 항에 있어서,
    상기 방법은,
    입력들의 새로운 세트를 분류하도록, 상기 마스터 모델 및 상기 직교 모델들의 세트를 합성 모델로서 합성하는 단계를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  35. 제 23 항에 있어서,
    상기 방법은,
    (a) 단계 이전에, 하나 이상의 분자들의 상기 하나 이상의 데이터세트를 전처리하는 단계를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  36. 제 35 항에 있어서,
    상기 하나 이상의 데이터세트를 전처리하는 단계는,
    포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  37. 제 23 항에 있어서,
    상기 훈련된 마스터 모델 또는 상기 훈련된 직교 모델은 상기 약물 후보의 속성을 예측하는, 약물 발견을 위한 컴퓨터-구현 방법.
  38. 제 37 항에 있어서,
    상기 약물 후보의 속성은,
    흡수, 분포(distribution), 물질대사, 배출(elimination), 독성, 용해도, 대사 안정성, 체내 종말점(in vivo endpoint), 체외 종말점(ex vivo endpoint), 분자량, 효능, 지질친화성(lipophilicity), 수소 결합, 투수성, 선택도, pKa, 제거율(clearance), 반감기, 분포 용적(volume of distribution), 플라즈마 농도, 및 안정성으로 이루어진 군 중 적어도 하나를 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  39. 제 23 항에 있어서,
    상기 하나 이상의 분자는 리간드 분자 및/또는 타겟 분자인, 약물 발견을 위한 컴퓨터-구현 방법.
  40. 제 39 항에 있어서,
    상기 타겟 분자는 단백질인, 약물 발견을 위한 컴퓨터-구현 방법.
  41. 제 26 항에 있어서,
    상기 방법은,
    상기 하나 이상의 데이터세트를 전처리하는 단계를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  42. 제 41 항에 있어서,
    상기 하나 이상의 데이터세트를 전처리하는 단계는,
    포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  43. 제 23 항에 있어서,
    상기 방법은,
    (c) 단계 이전에, 상기 심층 특징화기로부터의 하나 이상의 출력들의 특징 세트(feature set)를 생성하는 단계를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  44. 제 43 항에 있어서,
    상기 방법은,
    (d) 상기 특징 세트 상에서 상기 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하여, 상기 약물 후보를 식별하는 단계를 더 포함하는, 약물 발견을 위한 컴퓨터-구현 방법.
  45. 약물 발견을 위한 시스템으로서,
    (a) 하나 이상의 분자들의 하나 이상의 데이터세트를 수집하고,
    (b) (i) 마스터 모델 및 하나 이상의 이차 모델들의 세트를 훈련시키는 것 - 상기 마스터 모델은 하나 이상의 계층들의 세트를 포함함 -;
    (ii) 상기 마스터 모델로부터 하나 이상의 출력들의 세트를 생성하는 것; 및
    (iii) 상기 생성된 하나 이상의 출력들의 세트 상에서 하나 이상의 직교 모델들의 세트를 훈련시키는 것에 의하여, 심층 특징화기를 훈련시키며,
    (c) 약물 후보를 식별하도록 개별적으로 또는 집합적으로 구성되는 하나 이상의 프로세서를 포함하되, 상기 하나 이상의 프로세서는 훈련된 마스터 모델 또는 훈련된 직교 모델을 이용하도록 개별적으로 또는 집합적으로 구성되는, 약물 발견 시스템.
  46. 제 45 항에 있어서,
    상기 하나 이상의 프로세서는, (b)의 (ii) 이전에, 상기 마스터 모델의 가중치를 고정하도록 더 구성되는, 약물 발견 시스템.
  47. 제 45 항에 있어서,
    상기 하나 이상의 프로세서는, 하나 이상의 에포크들에 대하여 상기 마스터 모델을 훈련시키도록 개별적으로 또는 집합적으로 구성되는, 약물 발견 시스템.
  48. 제 47 항에 있어서,
    각각의 에포크에 대하여 상기 마스터 모델을 훈련시키는 것은,
    하나 이상의 데이터세트들 상에서 상기 마스터 모델 및 상기 이차 모델들의 세트를 훈련시키는 것을 포함하는, 약물 발견 시스템.
  49. 제 48 항에 있어서,
    상기 하나 이상의 출력들의 세트를 생성하는 것은,
    상기 하나 이상의 데이터세트를 상기 마스터 모델을 통과하여 전파시키는 것을 포함하는, 약물 발견 시스템.
  50. 제 48 항에 있어서,
    상기 하나 이상의 데이터세트들의 각각의 데이터세트는, 데이터세트의 입력의 상이한 특성에 대한 라벨을 가지는, 약물 발견 시스템.
  51. 제 47 항에 있어서,
    상기 하나 이상의 프로세서는, 상기 마스터 모델 및 상기 직교 모델들의 세트를 인증하도록 더 구성되는, 약물 발견 시스템.
  52. 제 51 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 것은, 상기 직교 모델들의 세트에 대한 아웃-오브-백 점수(out of bag score)를 계산하는 것을 포함하는, 약물 발견 시스템.
  53. 제 51 항에 있어서,
    상기 직교 모델들의 세트를 인증하는 것은,
    (a) 훈련용 데이터 세트 및 인증용 데이터 세트를 포함하는 마스터 데이터 세트 상에서 상기 마스터 모델을 훈련시키는 것;
    (b) 상기 훈련용 데이터 세트 상에서 상기 직교 모델들의 세트를 훈련시키는 것; 및
    (c) 상기 인증용 데이터 세트에 기반하여 상기 직교 모델에 대한 인증 점수를 계산하는 것을 포함하는, 약물 발견 시스템.
  54. 제 45 항에 있어서,
    상기 출력들의 생성된 세트는 상기 마스터 모델의 한 계층인, 약물 발견 시스템.
  55. 제 45 항에 있어서,
    상기 직교 모델들의 세트는,
    랜덤 포레스트, 서포트 벡터 머신, XGBoost, 선형 회귀, 최근접 이웃(nearest neighbor), 나이브 베이즈(naive bayes), 의사결정 트리(decision trees), 신경망, 및 k-평균 클러스터링(k-means clustering) 중 적어도 하나를 포함하는, 약물 발견 시스템.
  56. 제 45 항에 있어서,
    상기 하나 이상의 프로세서는,
    입력들의 새로운 세트를 분류하도록, 상기 마스터 모델 및 상기 직교 모델들의 세트를 합성 모델로서 합성하도록 더 구성되는, 약물 발견 시스템.
  57. 제 45 항에 있어서,
    상기 하나 이상의 프로세서는, (a) 이전에, 하나 이상의 분자들의 상기 하나 이상의 데이터세트를 전처리하도록 더 구성되는, 약물 발견 시스템.
  58. 제 57 항에 있어서,
    상기 하나 이상의 데이터세트를 전처리하는 것은,
    포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함하는, 약물 발견 시스템.
  59. 제 45 항에 있어서,
    상기 훈련된 마스터 모델 또는 상기 훈련된 직교 모델은 상기 약물 후보의 속성을 예측하도록 구성되는, 약물 발견 시스템.
  60. 제 59 항에 있어서,
    상기 약물 후보의 속성은,
    흡수, 분포(distribution), 물질대사, 배출(elimination), 독성, 용해도, 대사 안정성, 체내 종말점(in vivo endpoint), 체외 종말점(ex vivo endpoint), 분자량, 효능, 지질친화성(lipophilicity), 수소 결합, 투수성, 선택도, pKa, 제거율(clearance), 반감기, 분포 용적(volume of distribution), 플라즈마 농도, 및 안정성으로 이루어진 군 중 적어도 하나를 포함하는, 약물 발견 시스템.
  61. 제 45 항에 있어서,
    상기 하나 이상의 분자는 리간드 분자 및/또는 타겟 분자인, 약물 발견 시스템.
  62. 제 61 항에 있어서,
    상기 타겟 분자는 단백질인, 약물 발견 시스템.
  63. 제 48 항에 있어서,
    상기 하나 이상의 프로세서는, 상기 하나 이상의 데이터세트를 전처리하도록 더 구성되는, 약물 발견 시스템.
  64. 제 63 항에 있어서,
    상기 하나 이상의 프로세서가 상기 하나 이상의 데이터세트를 전처리하도록 개별적으로 또는 집합적으로 구성되는 것은,
    포매팅, 클리닝, 샘플링, 스케일링, 분해(decomposing), 데이터 포맷들의 변환, 또는 병합(aggregating) 중 적어도 하나를 더 포함하는, 약물 발견 시스템.
  65. 제 45 항에 있어서,
    상기 하나 이상의 프로세서는, (c) 이전에, 상기 심층 특징화기로부터 하나 이상의 출력들의 특징 세트를 생성하도록 더 구성되는, 약물 발견 시스템.
  66. 제 65 항에 있어서,
    상기 하나 이상의 프로세서는,
    상기 특징 세트 상에서 상기 훈련된 마스터 모델 또는 훈련된 직교 모델을 사용하여 상기 약물 후보를 식별하도록 더 구성되는, 약물 발견 시스템.
KR1020217015072A 2018-10-23 2019-10-22 심층 특성화를 포함하는 능동 전달 학습을 위한 시스템 및 방법 KR20210076122A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862749653P 2018-10-23 2018-10-23
US62/749,653 2018-10-23
PCT/US2019/057468 WO2020086604A1 (en) 2018-10-23 2019-10-22 Systems and methods for active transfer learning with deep featurization

Publications (1)

Publication Number Publication Date
KR20210076122A true KR20210076122A (ko) 2021-06-23

Family

ID=70332229

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217015072A KR20210076122A (ko) 2018-10-23 2019-10-22 심층 특성화를 포함하는 능동 전달 학습을 위한 시스템 및 방법

Country Status (6)

Country Link
US (1) US20210358564A1 (ko)
EP (1) EP3871154A4 (ko)
JP (1) JP7430406B2 (ko)
KR (1) KR20210076122A (ko)
CN (1) CN113168568A (ko)
WO (1) WO2020086604A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610831B (zh) * 2021-08-19 2022-03-11 江西应用技术职业学院 基于计算机图像技术和迁移学习的木材缺陷检测方法
US11893499B2 (en) * 2019-03-12 2024-02-06 International Business Machines Corporation Deep forest model development and training
US20230222324A1 (en) 2020-06-08 2023-07-13 Nippon Telegraph And Telephone Corporation Learning method, learning apparatus and program
US11888895B2 (en) * 2020-09-02 2024-01-30 Proofpoint, Inc. Using neural networks to process forensics and generate threat intelligence information
CN113610184B (zh) * 2021-08-19 2022-03-11 江西应用技术职业学院 一种基于迁移学习的木材纹理分类方法
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
US20230409874A1 (en) * 2022-06-21 2023-12-21 Microsoft Technology Licensing, Llc Accelerated transfer learning as a service for neural networks

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009057337A (ja) * 2007-08-31 2009-03-19 Dainippon Sumitomo Pharma Co Ltd メタボロームデータの解析方法および代謝関与マーカー
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9430460B2 (en) * 2013-07-12 2016-08-30 Microsoft Technology Licensing, Llc Active featuring in computer-human interactive learning
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
EP3155758A4 (en) * 2014-06-10 2018-04-11 Sightline Innovation Inc. System and method for network based application development and implementation
JP5984153B2 (ja) * 2014-09-22 2016-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、プログラム、及び情報処理方法
JP6516531B2 (ja) * 2015-03-30 2019-05-22 株式会社メガチップス クラスタリング装置及び機械学習装置
JP6740597B2 (ja) * 2015-11-27 2020-08-19 富士通株式会社 学習方法、学習プログラムおよび情報処理装置
US10776712B2 (en) * 2015-12-02 2020-09-15 Preferred Networks, Inc. Generative machine learning systems for drug design
EP3534303A4 (en) * 2016-10-26 2019-11-06 Sony Corporation INFORMATION PROCESSOR AND INFORMATION PROCESSING METHOD

Also Published As

Publication number Publication date
CN113168568A (zh) 2021-07-23
WO2020086604A1 (en) 2020-04-30
EP3871154A4 (en) 2022-11-09
US20210358564A1 (en) 2021-11-18
JP2022505540A (ja) 2022-01-14
JP7430406B2 (ja) 2024-02-13
EP3871154A1 (en) 2021-09-01

Similar Documents

Publication Publication Date Title
KR20210076122A (ko) 심층 특성화를 포함하는 능동 전달 학습을 위한 시스템 및 방법
Skolik et al. Layerwise learning for quantum neural networks
US11144831B2 (en) Regularized neural network architecture search
US20220092413A1 (en) Method and system for relation learning by multi-hop attention graph neural network
Alain et al. Variance reduction in sgd by distributed importance sampling
Linot et al. Data-driven reduced-order modeling of spatiotemporal chaos with neural ordinary differential equations
CN112116090A (zh) 神经网络结构搜索方法、装置、计算机设备及存储介质
EP4202725A1 (en) Joint personalized search and recommendation with hypergraph convolutional networks
US11250933B2 (en) Adaptive weighting of similarity metrics for predictive analytics of a cognitive system
KR101747783B1 (ko) 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치
EP3561735A1 (en) Integrating deep learning into generalized additive mixed-effect (game) frameworks
US20230402133A1 (en) Predicting protein structures over multiple iterations using recycling
US20210158197A1 (en) Biology experiment designs
Bargagna et al. Bayesian Convolutional Neural Networks in Medical Imaging Classification: A Promising Solution for Deep Learning Limits in Data Scarcity Scenarios
Jiang Learning protein functions from bi-relational graph of proteins and function annotations
Moser et al. Dartsrenet: Exploring new rnn cells in renet architectures
Tian et al. Dependency-aware deep generative models for multitasking analysis of spatial omics data
Hu et al. Improving Protein-Protein Interaction Prediction Using Protein Language Model and Protein Network Features
CN115409579A (zh) 一种基于元学习的响应式推荐方法、系统及设备
Pölsterl et al. Scalable, axiomatic explanations of deep alzheimer’s diagnosis from heterogeneous data
Han et al. Deep learning framework dnn with conditional wgan for protein solubility prediction
Amutha et al. A Survey on Machine Learning Algorithms for Cardiovascular Diseases Predic-tion
Eduru et al. Parallel and streaming wavelet neural networks for classification and regression under apache spark
US20230281510A1 (en) Machine learning model architecture combining mixture of experts and model ensembling
CN111563159B (zh) 文本排序方法及装置