KR20240041877A - 변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용 - Google Patents

변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용 Download PDF

Info

Publication number
KR20240041877A
KR20240041877A KR1020237045387A KR20237045387A KR20240041877A KR 20240041877 A KR20240041877 A KR 20240041877A KR 1020237045387 A KR1020237045387 A KR 1020237045387A KR 20237045387 A KR20237045387 A KR 20237045387A KR 20240041877 A KR20240041877 A KR 20240041877A
Authority
KR
South Korea
Prior art keywords
amino acid
protein
network
acid sequence
variant
Prior art date
Application number
KR1020237045387A
Other languages
English (en)
Inventor
첸 첸
홍 가오
락쉬만 순다람
카이-하우 파
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/876,481 external-priority patent/US20230044917A1/en
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Priority claimed from PCT/US2022/039475 external-priority patent/WO2023014912A1/en
Publication of KR20240041877A publication Critical patent/KR20240041877A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

개시된 기술은 변이 병원성 예측 네트워크에 관한 것이다. 변이 병원성 분류기는 메모리, 변이 인코딩 서브-네트워크, 단백질 접촉 맵 생성 서브-네트워크, 및 병원성 점수 서브-네트워크를 포함한다. 메모리는 단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장한다. 변이 인코딩 서브-네트워크는 대체 아미노산 서열을 처리하고, 대체 아미노산 서열의 처리된 표현을 생성하도록 구성된다. 단백질 접촉 맵 생성 서브-네트워크는 참조 아미노산 서열 및 대체 아미노산 서열의 처리된 표현을 처리하고, 단백질의 단백질 접촉 맵을 생성하도록 구성된다. 병원성 점수 서브-네트워크는 단백질 접촉 맵을 처리하고, 변이 아미노산의 병원성 표시를 생성하도록 구성된다.

Description

변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용
우선권 출원
본 출원은 2022년 7월 28일자로 출원되고 발명의 명칭이 "Transfer Learning-Based Use of Protein Contact Maps for Variant Pathogenicity Prediction"인 미국 특허 출원 제17/876,481호(대리인 문서 번호 ILLM 1042-2/IP-2074-US)의 이익을 주장하며, 이는 2021년 8월 5일자로 출원되고 발명의 명칭이 "Transfer Learning-Based Use of Protein Contact Maps for Variant Pathogenicity Prediction"인 미국 특허 가출원 제63/229,897호(대리인 문서 번호 ILLM 1042-1/IP-2074-PRV)의 이익을 주장한다.
본 출원은 2022년 7월 28일자로 출원되고 발명의 명칭이 "Deep Learning-Based Use of Protein Contact Maps for Variant Pathogenicity Prediction"인 미국 특허 가출원 제17/876,501호(대리인 문서 번호 ILLM 1049-2/IP-2155-US)의 이익을 주장하며, 이는 2021년 8월 5일자로 출원되고 발명의 명칭이 "Transfer Learning-Based Use of Protein Contact Maps for Variant Pathogenicity Prediction"인 미국 특허 가출원 제63/229,897호(대리인 문서 번호 ILLM 1042-1/IP-2074-PRV)의 이익을 주장한다.
우선권 출원은 모든 목적을 위해 이로써 참고로 포함된다.
기술분야
개시된 기술은 인공 지능 유형 컴퓨터 및 디지털 데이터 처리 시스템 및 대응하는 데이터 처리 방법 및 지능 에뮬레이션 제품(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)에 관한 것이며; 불확실성이 있는 추론을 위한 시스템(예를 들어, 퍼지 로직 시스템), 적응 시스템, 기계 학습 시스템 및 인공 신경망을 포함한다. 특히, 개시된 기술은 단백질 접촉 맵을 포함하는 변이 병원성 예측을 위한 텐서화된(tensorized) 단백질 데이터를 분석하기 위해 딥 컨볼루션 신경망을 사용하는 것에 관한 것이다.
참조 문헌들
다음은 본원에 충분히 설명된 것처럼 모든 목적을 위해 참고로 포함된다:
2021년 4월 15일자로 출원되고 발명의 명칭이 "Deep Convolutional Neural Networks to Predict Variant Pathogenicity Using Three-Dimensional (3d) Protein Structures"인 미국 특허 출원 제17/232,056호(대리인 문서 번호 ILLM 1037-2/IP-2051-US);
문헌[Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161―1170 (2018)];
문헌[Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning. Cell 176, 535―548 (2019)];
2017년 10월 16일자로 출원되고 발명의 명칭이 "Training a Deep Pathogenicity Classifier Using Large-Scale Benign Training Data"인 미국 특허 출원 제62/573,144호(대리인 문서 번호 ILLM 1000-1/IP-1611-PRV);
2017년 10월 16일자로 출원되고 발명의 명칭이 "Pathogenicity Classifier Based on Deep Convolutional Neural Networks (CNNs)"인 미국 특허 출원 제62/573,149호(대리인 문서 번호 ILLM 1000-2/IP-1612-PRV);
2017년 10월 16일자로 출원되고 발명의 명칭이 "Deep Semi-Supervised Learning that Generates Large-Scale Pathogenic Training Data"인 미국 특허 가출원 제62/573,153호(대리인 문서 번호 ILLM 1000-3/IP-1613-PRV);
2017년 11월 7일자로 출원되고 발명의 명칭이 "Pathogenicity Classification of Genomic Data Using Deep Convolutional Neural Networks (CNNs)"인 미국 특허 출원 제62/582,898호(대리인 문서 번호 ILLM 1000-4/IP-1618-PRV);
2018년 10월 15일자로 출원되고 발명의 명칭이 "Deep Learning-Based Techniques for Training Deep Convolutional Neural Networks"인 미국 특허 출원 제16/160,903호(대리인 문서 번호 ILLM 1000-5/IP-1611-US);
2018년 10월 15일자로 출원되고 발명의 명칭이 "Deep Convolutional Neural Networks for Variant Classification"인 미국 특허 출원 제16/160,986호(대리인 문서 번호 ILLM 1000-6/IP-1612-US);
2018년 10월 15일자로 출원되고 발명의 명칭이 "Semi-Supervised Learning for Training an Ensemble of Deep Convolutional Neural Networks"인 미국 특허 출원 제16/160,968호(대리인 문서 번호 ILLM 1000-7/IP-1613-US); 및
2019년 5월 8일자로 출원되고 발명의 명칭이 "Deep Learning-Based Techniques for Pre-Training Deep Convolutional Neural Networks"인 미국 특허 출원 제16/407,149호(대리인 문서 번호 ILLM 1010-1/IP-1734-US).
이 섹션에서 논의되는 주제는 이 섹션에서 언급된 결과만으로 선행 기술로 가정되어서는 안 된다. 마찬가지로, 이 섹션에서 언급되거나 배경으로서 제공된 주제와 관련된 문제는 선행 기술에서 이전에 인식된 것으로 가정되어서는 안 된다. 이 섹션의 주제는 단지 다양한 접근법을 나타낼 뿐이며, 그 자체로 청구된 기술의 구현에 해당할 수도 있다.
광범위한 의미에서, 기능 유전체학으로도 지칭되는 유전체학은 게놈 서열분석, 전사체 프로파일링 및 단백질체학과 같은 게놈 스케일 분석을 사용함으로써 유기체의 모든 게놈 요소의 기능을 특성화하는 것을 목표로 한다. 유전체학은 데이터 중심(data-driven) 과학으로서 발생하였다 - 그것은 선입견이 있는 모델 및 가설을 테스트하기보다는 게놈 스케일 데이터의 탐구로부터 신규한 속성을 발견함으로써 작동한다. 유전체학의 응용은 유전자형과 표현형 사이의 연관성을 찾는 것, 환자 계층화에 대한 바이오마커를 발견하는 것, 유전자의 기능을 예측하는 것, 및 전사 인핸서(transcriptional enhancer)와 같은 생물화학적 활성 게놈 영역을 차트화하는 것을 포함한다.
유전체학 데이터는 쌍별 상관(pairwise correlation)의 시각적 연구만으로 조사하기에는 너무 크고 너무 복잡하다. 대신에, 예상되지 않은 관계의 발견을 지원하기 위해, 신규한 가설 및 모델을 도출하기 위해, 그리고 예측을 행하기 위해 분석 툴이 요구된다. 가정 및 도메인 전문지식이 하드 코딩되는 일부 알고리즘과는 달리, 기계 학습 알고리즘은 데이터에서 패턴을 자동으로 검출하도록 설계된다. 따라서, 기계 학습 알고리즘은 데이터 중심 과학, 및 특히 유전체학에 적합하다. 그러나, 기계 학습 알고리즘의 성능은 데이터가 표현되는 방법, 즉 각각의 변수(특징부로도 불림)가 계산되는 방법에 강하게 의존할 수 있다. 예를 들어, 형광 현미경 이미지로부터 종양을 악성 또는 양성으로 분류하기 위해, 전처리 알고리즘이 세포를 검출할 수 있고, 세포 유형을 식별할 수 있고, 각각의 세포 유형에 대한 세포 계수의 목록을 생성할 수 있다.
기계 학습 모델은 추정된 세포 세포 계수를 취할 수 있는데, 이러한 계수는 종양을 분류하기 위한 입력 특징부로서, 수작업으로 작성된 특징부의 예이다. 중심 문제는 분류 성능이 이러한 특징부의 품질 및 관련성에 크게 의존한다는 것이다. 예를 들어, 관련 시각적 특징부, 예컨대 세포 형태학, 세포 사이의 거리, 또는 기관 내의 국지성은 세포 계수에서 캡처되지 않고, 데이터의 이러한 불완전한 표현은 분류 정확도를 감소시킬 수 있다.
기계 학습의 하위구분인 심층 학습은 기계 학습 모델 자체에 특징부의 계산을 임베딩하여 단대단(end-to-end) 모델을 산출함으로써 이러한 문제를 다룬다. 이러한 결과는 심층 신경망, 즉 연속적인 기본 동작을 포함하는 기계 학습 모델의 개발을 통해 실현되었는데, 이들은 선행 동작의 결과를 입력으로서 취함으로써 점점 더 복잡한 특징부를 계산한다. 심층 신경망은 위의 예에서 세포의 세포 형태학 및 공간 구성과 같은 높은 복잡도의 관련 특징부를 발견함으로써 예측 정확도를 개선할 수 있다. 심층 신경망의 구성 및 훈련은, 특히 그래픽 처리 유닛(graphical processing unit, GPU)의 사용을 통해, 데이터의 폭증, 알고리즘 진보, 및 계산 용량의 실질적인 증가에 의해 가능하게 되었다.
감독형 학습의 목표는, 특징부를 입력으로서 취하고 소위 표적 변수에 대한 예측을 반환하는 모델을 획득하는 것이다. 감독형 학습 문제의 일례는 표준(canonical) 스플라이스 부위 서열의 존재 여부, 스플라이싱 분기점의 위치 또는 인트론 길이와 같은 RNA 상의 특징부를 고려하여 인트론이 스플라이스-아웃(splice out)되는지의 여부를 예측하는 것(표적)이다. 기계 학습 모델을 훈련시키는 것은 그의 파라미터를 학습하는 것을 지칭하는데, 이는 보통, 보이지 않은 데이터에 대한 정확한 예측을 행하는 목적으로 훈련 데이터에 대한 손실 함수를 최소화하는 것을 수반한다.
컴퓨터 생명공학에서의 많은 감독형 학습 문제의 경우, 입력 데이터는 예측을 행하는 데 잠재적으로 유용한 수치 또는 카테고리 데이터를 각각 함유하는 다수의 열 또는 특징부를 갖는 표로서 표현될 수 있다. 일부 입력 데이터는 표 내의 특징부(예컨대, 온도 또는 시간)로서 자연적으로 표현되는 반면, (k-량체 카운트로의 데옥시리보핵산(DNA) 서열과 같이) 다른 입력 데이터는 표로 나타낸 표현에 맞추기 위해 특징부 추출로 불리는 프로세스를 사용하여 먼저 변환될 필요가 있다. 인트론 스플라이싱 예측 문제의 경우, 표준 스플라이스 부위 서열의 존재 유무, 스플라이싱 분기점의 위치 및 인트론 길이는 표로 나타낸 포맷으로 수집된 미리 처리된 특징부일 수 있다. 표로 나타낸 데이터는, 로지스틱 회귀(logistic regression)와 같은 단순한 선형 모델 내지 신경망 및 많은 다른 것과 같은 더 유연한 비선형 모델의 범위에 있는 광범위한 감독형 기계 학습 모델에 대한 표준이다.
로지스틱 회귀는 이진 분류기, 즉 이진 표적 변수를 예측하는 감독형 학습 모델이다. 구체적으로, 로지스틱 회귀는 시그모이드 함수, 일정 유형의 활성화 함수를 사용하여 [0,1] 간격에 맵핑된 입력 특징부의 가중 합을 계산함으로써 포지티브 클래스의 확률을 예측한다. 로지스틱 회귀의 파라미터, 또는 상이한 활성화 함수를 사용하는 다른 선형 분류기는 가중 합의 가중치이다. 선형 분류기는 클래스, 예를 들어 스플라이스-아웃된 또는 스플라이스-아웃되지 않은 인트론의 것이 입력 특징부의 가중 합으로 잘 구별될 수 없을 때 실패한다. 예측 성능을 개선하기 위해, 예를 들어, 제곱 또는 쌍별 곱을 취함으로써 새로운 방식으로 기존의 특징부를 변형 또는 조합함으로써 새로운 입력 특징부가 수동으로 추가될 수 있다.
신경망은 은닉 층을 사용하여 이러한 비선형 특징부 변환을 자동으로 학습한다. 각각의 은닉 층은 그들의 출력이 시그모이드 함수 또는 더 대중적인 정류형 선형 유닛(rectified-linear unit, ReLU)과 같은 비선형 활성화 함수에 의해 변환된 다수의 선형 모델으로서 생각될 수 있다. 함께, 이러한 층은 입력 특징부를 관련된 복잡한 패턴으로 구성하는데, 이는 2개의 클래스를 구별하는 태스크를 용이하게 한다.
심층 신경망은 많은 은닉 층을 사용하고, 층은 각각의 뉴런이 선행 층의 모든 뉴런으로부터 입력을 수신할 때 완전 접속된 것으로 간주된다. 신경망은 일반적으로, 확률론적 기울기 하강(stochastic gradient descent), 즉 매우 큰 데이터 세트에 대한 모델을 훈련시키는 데 적합한 알고리즘을 사용하여 훈련된다. 최신 심층 학습 프레임워크를 사용한 신경망의 구현예는 상이한 아키텍처 및 데이터 세트로 신속한 프로토타이핑을 가능하게 한다. 완전 접속 신경망은 다수의 유전학 응용예에 사용될 수 있는데, 이러한 응용예는 서열 보존 또는 스플라이스 인자의 결합 모티프의 존재와 같은 서열 특징부로부터의 주어진 서열에 대해 스플라이스-인(splice in)된 엑손의 백분율을 예측하는 것; 잠재적인 질환 유발 유전자 변이를 우선순위화하는 것; 및 염색질 마크, 유전자 발현 및 진화적 보존(evolutionary conservation)과 같은 특징부를 사용하여 주어진 게놈 영역 내의 cis-조절 요소를 예측하는 것을 포함한다.
효과적인 예측을 위해 공간적 및 종방향 데이터에서의 로컬 종속성이 고려되어야 한다. 예를 들어, DNA 서열 또는 이미지의 픽셀을 셔플링하는 것은 정보성 패턴을 심하게 파괴한다. 이러한 로컬 종속성은 표로 나타낸 데이터와는 분리된 공간적 또는 종방향 데이터를 설정하는데, 이를 위한 특징부의 순서화는 임의적이다. 특정 전사 인자에 의해 게놈 영역을 결합 대 비결합으로 분류하는 문제를 고려하는데, 여기서 결합 영역은 서열분석(ChIP-seq) 데이터가 뒤에 오는 염색질 면역침전(immunoprecipitation)에서 고신뢰 결합 이벤트로서 정의된다. 서열 모티프를 인식함으로써 전사 인자가 DNA에 결합된다. 서열 내의 k-량체 인스턴스(instance)의 수 또는 위치 가중치 행렬(position weight matrix, PWM) 매칭과 같은 서열 도출 특징부에 기초한 완전 접속 층이 이러한 태스크에 사용될 수 있다. 따라서, k-량체 또는 PWM 인스턴스 빈도는 서열 내에서 모티프를 시프트하는 것에 강건하기 때문에, 그러한 모델은 상이한 위치에 위치한 동일한 모티프를 갖는 서열에 대한 웰(well)을 일반화할 수 있다. 그러나, 그들은 전사 인자 결합이 잘 정의된 간격을 갖는 다수의 모티프의 조합에 의존하는 패턴을 인식하지 못할 것이다. 또한, 가능한 k-량체의 수는 k-량체 길이에 따라 기하급수적으로 증가하는데, 이는 저장 및 오버피팅 문제 둘 모두를 제기한다.
컨볼루션 층은 완전 접속 층의 특수 형태이며, 여기서 동일한 완전 접속 층은 예를 들어 6 bp 윈도우에서, 모든 서열 위치에 국부적으로 적용된다. 이러한 접근법은 또한, 예를 들어 전사 인자 GATA1 및 TAL1에 대해, 다수의 PWM을 사용하여 서열을 스캐닝하는 것으로 보일 수 있다. 위치에 걸쳐 동일한 모델 파라미터를 사용함으로써, 파라미터의 총 수는 급격히 감소되고, 네트워크는 훈련 동안 보이지 않는 위치에서 모티프를 검출할 수 있다. 각각의 컨볼루션 층은 필터와 서열 사이의 매칭을 정량화하는 모든 위치에서의 스칼라 값을 생성함으로써 여러 필터로 서열을 스캔한다. 완전 접속 신경망에서와 같이, 비선형 활성화 함수(일반적으로, ReLU)가 각각의 층에 적용된다. 다음으로, 풀링(pooling) 동작이 적용되는데, 이는 위치 축에 걸친 인접 빈에서의 활성화를 응집하여, 일반적으로, 각각의 채널에 대해 최대 또는 평균 활성화를 취한다. 풀링은 유효 서열 길이를 감소시키고, 신호를 조잡해지게 한다. 후속 컨볼루션 층은 이전 층의 출력을 구성하며, GATA1 모티프 및 TAL1 모티프가 일부 거리 범위에 존재하였는지의 여부를 검출할 수 있다. 마지막으로, 컨볼루션 층의 출력은 최종 예측 태스크를 수행하기 위해 완전 접속 신경망에 대한 입력으로서 사용될 수 있다. 따라서, 상이한 유형의 신경망 층(예컨대, 완전 접속 층 및 컨볼루션 층)이 단일 신경망 내에서 조합될 수 있다.
컨볼루션 신경망(convolutional neural network, CNN)은 DNA 서열 단독에 기초하여 다양한 분자 표현형을 예측할 수 있다. 응용예는 전사 인자 결합 부위를 분류하는 것, 및 염색질 특징부, DNA 접촉 맵, DNA 메틸화, 유전자 발현, 번역 효율, RBP 결합, 및 마이크로RNA(miRNA) 표적과 같은 분자 표현형을 예측하는 것을 포함한다. 서열로부터 분자 표현형을 예측하는 것에 더하여, 컨볼루션 신경망은 수작업으로 작성된 생물정보학 파이프라인에 의해 전통적으로 다루어진 더 많은 기술적 태스크에 적용될 수 있다. 예를 들어, 컨볼루션 신경망은 가이드 RNA의 특이성을 예측하고, ChIP-seq를 잡음제거하고, Hi-C 데이터 해상도를 향상시키고, DNA 서열로부터 기원의 실험실을 예측하고, 유전자 변이를 검출할 수 있다. 컨볼루션 신경망은 또한, 게놈에서 장거리 종속성을 모델링하기 위해 채용되었다. 상호작용하는 조절 요소가 전개된 선형 DNA 서열 상에서 원거리에 위치할 수 있지만, 이러한 요소는 종종, 실제 3D 염색질 형태에서 근위에 있다. 따라서, 선형 DNA 서열로부터 분자 표현형을 모델링하는 것은, 염색질의 대강의 근사화에도 불구하고, 장거리 종속성을 허용하고 모델이 프로모터-인핸서 루핑과 같은 3D 구성의 태양을 암시적으로 학습할 수 있게 함으로써 개선될 수 있다. 이것은 최대 32kb의 수용 필드를 갖는 확장된 컨볼루션을 사용함으로써 달성된다. 확장된 컨볼루션은 또한, 스플라이스 부위가 10kb의 수용 필드를 사용하여 서열로부터 예측될 수 있게 하여, 이에 의해 전형적인 인간 인트론만큼 긴 거리를 가로질러 유전자 서열의 통합을 가능하게 한다(문헌[Jaganathan, K. et al. Predicting splicing from primary sequence with deep learning. Cell 176, 535―548 (2019)] 참조).
상이한 유형의 신경망은 그들의 파라미터 공유 스킴에 의해 특징지어질 수 있다. 예를 들어, 완전 접속 층은 파라미터 공유를 갖지 않는 반면, 컨볼루션 층은 그들의 입력의 모든 위치에서 동일한 필터를 적용함으로써 번역 불변성을 부과한다. 순환 신경망(recurrent neural network, RNN)은 상이한 파라미터 공유 스킴을 구현하는, DNA 서열 또는 시계열과 같은 순차적 데이터를 처리하기 위한 컨볼루션 신경망에 대한 대안이다. 순환 신경망은 각각의 서열 요소에 동일한 동작을 적용한다. 동작은 이전 서열 요소의 메모리 및 새로운 입력을 입력으로서 취한다. 그것은 메모리를 업데이트하고, 후속 층으로 전달되거나 모델 예측으로서 직접 사용되는 출력을 선택적으로 방출한다. 각각의 서열 요소에서 동일한 모델을 적용함으로써, 순환 신경망은 처리된 서열에서 위치 인덱스에 대해 불변이다. 예를 들어, 순환 신경망은 서열 내의 위치에 관계없이 DNA 서열에서 개방 판독 프레임을 검출할 수 있다. 이러한 태스크는 시작 코돈 뒤에 인-프레임 정지 코돈이 이어지는 것과 같은 소정의 일련의 입력의 인식을 요구한다.
컨볼루션 신경망에 비해 순환 신경망의 주요 이점은, 그들이 이론적으로, 메모리를 통해 무한히 긴 서열을 거쳐 정보를 전달할 수 있다는 것이다. 또한, 순환 신경망은 mRNA 서열과 같은 광범위하게 변화하는 길이의 서열을 자연적으로 처리할 수 있다. 그러나, 다양한 트릭(예컨대, 확장된 컨볼루션)과 조합된 컨볼루션 신경망은 오디오 합성 및 기계 번역과 같은 서열 모델링 태스크에 대해 순환 신경망과 유사하거나 심지어 그보다 더 양호한 성능에 도달할 수 있다. 순환 신경망은 단일 세포 DNA 메틸화 상태, RBP 결합, 전사 인자 결합, 및 DNA 접근성을 예측하기 위한 컨볼루션 신경망의 출력을 응집할 수 있다. 또한, 순환 신경망이 순차적인 동작을 적용하기 때문에, 그들은 쉽게 병렬화될 수 없고, 따라서 컨볼루션 신경망보다 계산하기가 훨씬 더 느리다.
각각의 인간은 고유한 유전자 코드를 갖지만, 인간 유전자 코드의 대부분은 모든 인간에 대해 공통적이다. 일부 경우에 있어서, 인간 유전자 코드는 유전자 변이로 불리는 이상치를 포함할 수 있는데, 이는 비교적 작은 그룹의 인간 집단의 개인 사이에서 공통적일 수 있다. 예를 들어, 특정 인간 단백질은 특정 서열의 아미노산을 포함할 수 있는 반면, 그 단백질의 변이는 그 외의 동일한 특정 서열 내의 하나의 아미노산만큼 상이할 수 있다.
유전자 변이는 병원성이어서, 질환으로 이어질 수 있다. 그러한 유전자 변이의 대부분이 자연적인 선택에 의해 게놈으로부터 고갈되었지만, 어느 유전자 변이가 병원성일 가능성이 있는지를 식별하는 능력은 연구자들이 이러한 유전자 변이에 초점을 맞추어 대응하는 질환 및 그의 진단, 처치, 또는 치유의 이해를 얻는 데 도움이 될 수 있다. 수백만 개의 인간 유전자 변이의 임상 해석은 불명확하게 유지된다. 가장 빈번한 병원성 변이 중 일부는 단백질의 아미노산을 변화시키는 단일 뉴클레오티드 미스센스(missense) 돌연변이이다. 그러나, 모든 미스센스 돌연변이가 병원성인 것은 아니다.
생물학적 서열로부터 직접적으로 분자 표현형을 예측할 수 있는 모델은 유전자 변이와 표현형 변이 사이의 연관성을 프로브하기 위해 인실리코(in silico) 섭동 툴로서 사용될 수 있고, 양적 형질 유전자좌(quantitative trait loci) 식별 및 변이 우선순위화를 위한 새로운 방법으로서 부상하였다. 이러한 접근법은 복잡한 표현형의 전장유전체 연관성(genome-wide association) 연구에 의해 식별된 변이의 대부분이 비-코딩이라면, 매우 중요한데, 이는 표현형에 대한 그들의 효과 및 기여를 추정하는 것을 어렵게 만든다. 또한, 연결 불균형은 변이의 블록이 동시-유전되는 결과를 초래하는데, 이는 개개의 인과 변이를 정확하게 찾아내는 것에 어려움을 야기한다. 따라서, 그러한 변이의 영향을 평가하기 위한 심문 툴로서 사용될 수 있는 서열 기반 심층 학습 모델은 복잡한 표현형의 잠재적인 드라이버를 찾기 위한 유망한 접근법을 제공한다. 하나의 예는 전사 인자 결합, 염색질 접근성 또는 유전자 발현 예측의 면에서 2개의 변이 사이의 차이로부터 간접적으로 짧은 삽입 또는 결실(인델) 및 비-코딩 단일 뉴클레오티드 변이의 효과를 예측하는 것을 포함한다. 다른 예는 스플라이싱에 대한 유전자 변이의 서열 또는 정량적 효과로부터 신규한 스플라이스 부위 생성을 예측하는 것을 포함한다.
변이 효과 예측을 위한 단대단(end-to-end) 심층 학습 접근법은 서열 보존 데이터 및 단백질 서열로부터의 미스센스 변이의 병원성을 예측하기 위해 적용된다(본원에서 "PrimateAI"로 지칭되는 문헌[Sundaram, L. et al. Predicting the clinical impact of human mutation with deep neural networks. Nat. Genet. 50, 1161―1170 (2018)] 참조). PrimateAI는 종간(cross-species) 정보를 사용한 데이터 증강에 의해 공지된 병원성의 변이에 대해 훈련된 심층 신경망을 사용한다. 특히, PrimateAI는 차이를 비교하고 훈련된 심층 신경망을 사용하여 돌연변이의 병원성을 결정하기 위해 야생형 및 변종 단백질의 서열을 사용한다. 병원성 예측을 위한 단백질 서열을 활용하는 그러한 접근법은, 환상성(circularity) 문제 및 이전 지식에 대한 오버피팅을 회피할 수 있기 때문에 유망하다. 그러나, 심층 신경망을 효과적으로 훈련시키기 위한 적절한 수의 데이터와 비교하면, ClinVar에서 이용 가능한 임상 데이터의 수는 비교적 작다. 이러한 데이터 부족을 극복하기 위해, PrimateAI는 공통적인 인간 변이 및 영장류로부터의 변이를 양성 데이터로서 사용하지만, 트리뉴클레오티드 컨텍스트에 기초한 시뮬레이션된 변이가 라벨링되지 않은 데이터로서 사용되었다.
PrimateAI는 서열 정렬에 대해 직접적으로 훈련될 때 이전 방법을 능가한다. PrimateAI는 약 120,000개의 인간 샘플로 이루어진 훈련 데이터로부터 직접적으로 중요한 단백질 도메인, 보존된 아미노산 위치 및 서열 종속성을 학습한다. PrimateAI는 후보 발달장애 유전자에서 양성 및 병원성 신생 돌연변이를 구별하고 ClinVar에서 이전 지식을 재생하는 데 있어서 다른 변이 병원성 예측 툴의 성능을 실질적으로 초과한다. 이러한 결과는 PrimateAI가 이전 지식에 대한 임상 보고의 의존을 줄일 수 있는 변이 분류 툴을 위해 중요한 진전임을 시사한다.
단백질 생물학에 대한 중심은 구조 요소가 관찰된 기능을 발생시키는 방법에 대한 이해이다. 단백질 구조 데이터의 과잉은 구조적-기능적 관계를 지배하는 규칙을 체계적으로 도출하기 위한 계산 방법의 개발을 가능하게 한다. 그러나, 이러한 방법의 성능은 단백질 구조 표현의 선택에 중대하게 의존한다.
단백질 부위는 그들의 구조적 또는 기능적 역할에 의해 구별되는 단백질 구조 내의 미세환경이다. 부위는 위치 및 구조 또는 기능이 존재하는 이러한 위치 주위의 국부적 이웃에 의해 정의될 수 있다. 합리적인 단백질 공학에 대한 중심은 아미노산의 구조적 배열이 단백질 부위 내에서 기능적 특성을 생성하는 방법에 대한 이해이다. 단백질 내의 개개의 아미노산의 구조적 및 기능적 역할의 결정은 공학자를 돕고 단백질 기능을 변경하는 데 도움을 주기 위한 정보를 제공한다. 기능적으로 또는 구조적으로 중요한 아미노산을 식별하는 것은 표적화된 단백질 기능적 속성을 변경하기 위한 부위 유도 돌연변이유발과 같은 집중된 공학 노고를 허용한다. 대안적으로, 이러한 지식은 원하는 기능을 무효화할 공학 설계를 회피하는 데 도움이 될 수 있다.
구조가 서열보다 훨씬 더 많이 보존된다는 것이 확립되었기 때문에, 단백질 구조 데이터의 증가는 데이터 중심 접근법을 사용하여 구조적-기능적 관계를 지배하는 기본 패턴을 체계적으로 연구할 기회를 제공한다. 임의의 계산 단백질 분석의 기본 태양은 단백질 구조 정보가 표현되는 방법이다. 기계 학습 방법의 성능은 종종, 채용된 기계 학습 알고리즘보다 데이터 표현의 선택에 더 많이 의존한다. 양호한 표현은 가장 중대한 정보를 효율적으로 캡처하는 반면, 불량한 표현은 기본 패턴이 없는 잡음 분포를 생성한다.
3D 공간에서 단백질은 이들의 구성 아미노산의 상호작용을 통해 등장한 복잡한 시스템으로 간주될 수 있다. 이 표현은 단백질 접촉 네트워크의 일반적인 조직화된 원리를 커버하기 위해 강력한 프레임워크를 제공한다. 단백질 잔기-잔류물 접촉 예측은 단백질 서열 내의 임의의 2개의 잔기가 접힌 3D 단백질 구조에서 서로 공간적으로 가까이 있는지 여부를 예측하는 문제이다. 단백질 서열에서 잔기 쌍이 접촉하지 않는지 여부를 분석함으로써(즉, 3D 공간에서 가까운), 본 발명자들은 단백질 접촉 맵을 형성할 수 있다.
단백질 구조의 과잉 및 심층 학습 알고리즘의 최근의 성공은 단백질 구조의 태스크 특정적 표현을 자동으로 추출하기 위한 툴을 개발할 기회를 제공한다. 따라서, 심층 신경망에 대한 입력으로서, 단백질 접촉 맵을 포함하는, 텐서화된 단백질 데이터를 사용하여 변이 병원성을 예측하는 기회가 발생한다.
도면에서, 유사한 도면 부호는 대체로 상이한 도면 전체에 걸쳐서 유사한 부분을 지칭한다. 또한, 도면은 반드시 축척대로인 것은 아니며, 대신 대체적으로 개시된 기술의 원리를 설명하는 것에 중점을 둔다. 하기의 설명에서, 개시된 기술의 다양한 구현예가 하기의 도면을 참조하여 기술된다.
도 1a는 단백질 접촉 맵 생성의 작업 상에서 단백질 접촉 맵 생성 서브-네트워크를 훈련시켜 소위 "훈련된" 단백질 접촉 맵 생성 서브-네트워크를 제조하는 일 구현예를 도시한다.
도 1b는 변이 병원성 예측의 작업 상에서 훈련된 단백질 접촉 맵 생성 서브-네트워크를 추가로 훈련하여 변이 병원성 예측 네트워크를 훈련하는 데 사용하기 위한 소위 "교차-훈련된" 단백질 접촉 맵 생성 서브-네트워크를 제조하기 위해 전이학습을 사용하는 일 구현예를 설명한다.
도 1c는 훈련된 변이 병원성 예측 네트워크를 추론에 적용하는 하나의 구현예를 나타낸다.
도 1d는 옹스트롬(Å)의 접촉 거리와 함께 검은색 점선으로 나타낸 일부 접점을 갖는 2개의 구형 단백질을 나타낸다.
도 2a는 개시된 기술의 일 구현예에 따른 단백질 접촉 맵 생성 서브-네트워크의 예시적인 아키텍처를 도시한다.
도 2b는 개시된 기술의 일 구현예에 따른, 예시적인 잔차 블록을 설명한다.
도 3은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크의 예시적인 아키텍처를 도시한다.
도 4는 개시된 기술의 일 구현예에 따른, 예시적인 단백질의 참조 아미노산 서열 및 예시적인 단백질의 대체 아미노산 서열을 나타낸다.
도 5는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 대체 아미노산 서열 및 참조 아미노산 서열의 각각의 원-핫 인코딩을 설명한다.
도 6은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 3-상태 2차 구조 프로파일을 도시한다.
도 7은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 3-상태 용매 접근성 프로파일을 나타낸다.
도 8은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 위치-특이적 빈도 행렬(PSFM)을 설명한다.
도 9는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 위치-특이적 점수 행렬(PSSM)을 도시한다.
도 10은 PSFM 및 PSSM을 생성하는 하나의 구현예를 나타낸다.
도 11은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 PSFM 인코딩을 설명한다.
도 12는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 PSSM 인코딩을 도시한다.
도 13은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 예시적인 CCMpred 인코딩을 나타낸다.
도 14는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크에 의한 입력으로서 처리된 텐서화된 단백질 데이터의 예를 설명한다.
도 15는 개시된 기술의 일 구현예에 따른, 단백질 접촉 맵 생성 서브-네트워크를 훈련하는 데 사용되는 예시적인 실측 자료 단백질 접촉 맵을 도시한다.
도 16은 개시된 기술의 일 구현예에 따른, 단백질 접촉 맵 생성 서브-네트워크에 의해 생성된 예시적인 예측 단백질 접촉 맵을 나타낸다.
도 17은 순차적 특징을 쌍별 특징으로 변환하기 위한 단백질 접촉 맵 생성 서브-네트워크에 의해 사용되는 소위 "외부 연결" 작업의 하나의 구현예이다.
도 18(a) 내지 도 18(d)는 단백질 접촉 맵을 구축하는 단계를 나타낸다.
도 19(a) 내지 도 19(d)는 2D 단백질 접촉 맵(도 19(b))과 대응하는 3D 단백질 구조(도 19(a)) 사이의 관계를 나타낸다.
도 20, 도 21, 도 22, 도 23, 도 24, 도 25, 및 도 26은 대응하는 3D 단백질 구조를 나타내는 2D 단백질 접촉 맵의 상이한 예를 설명한다.
도 27은 병원성 변이가 선형/순차적 아미노산 서열을 따라 공간적으로 거리 방식으로 분포되는 경향이 있지만, 3D 단백질 구조의 특정 영역에서 클러스터링되는 경향이 있으며, 단백질 접촉 맵이 변이 병원성 예측의 작업에 기여한다는 개념을 그래프로 설명한다.
도 28은 훈련된 단백질 접촉 맵 생성 서브-네트워크에 의해 생성된 단백질 접촉 맵에 적어도 부분적으로 기반하여 변이 병원성 분류를 이루는 병원성 분류기를 도시한다.
도 29은 개시된 기술의 일 구현예에 따른, 병원성 분류기의 예시적인 네트워크 아키텍처를 도시한다.
도 30은 변이 병원성 예측의 컴퓨터 구현 방법의 하나의 구현예를 실행하는 흐름도이다.
도 31은 변이 병원성 분류의 컴퓨터 구현 방법의 하나의 구현예를 실행하는 흐름도이다.
도 32는 상이한 테스트 데이터 세트에 적용된 바와 같이 변이 병원성 예측의 작업에서 변이 병원성 예측 네트워크의 상이한 구현에 의해 달성된 성능 결과를 나타낸다.
도 33은 상이한 테스트 세트에 적용된 바와 같이, 변이 병원성 분류의 작업에 대한 병원성 분류기의 상이한 구현에 의해 달성된 성능 결과를 나타낸다.
도 34은 개시된 기술을 구현하는 데 사용될 수 있는 예시적인 컴퓨터 시스템이다.
아래의 논의는 어느 당업자라도 개시된 기술을 제조하고 사용할 수 있게 하도록 제시되며, 특정한 적용 및 그의 요건과 관련하여 제공된다. 개시된 구현예에 대한 다양한 수정은 당업자에게 용이하게 명백할 것이며, 본원에 정의된 일반 원리는 개시된 기술의 사상 및 범위로부터 벗어나지 않고 다른 구현예 및 응용에 적용될 수 있다. 따라서, 개시된 기술은 도시된 구현예로 제한되도록 의도된 것이 아니라, 본원에 개시된 원리 및 특징과 일치하는 가장 넓은 범주에 부합되어야 한다.
다양한 구현예에 대한 상세한 설명은 첨부된 도면과 함께 읽을 때 더 잘 이해될 것이다. 도면이 다양한 구현예의 기능 블록도를 설명하는 범위에서, 기능 블록은 반드시 하드웨어 회로부 사이의 분할을 나타내는 것은 아니다. 따라서, 예를 들어, 기능 블록 중 하나 이상(예를 들어, 모듈, 프로세서, 또는 메모리)은 단일 조각의 하드웨어(예를 들어, 범용 신호 프로세서 또는 랜덤 액세스 메모리의 블록, 하드 디스크 등) 또는 다수 조각의 하드웨어에서 구현될 수 있다. 유사하게, 프로그램은 독립형 프로그램일 수 있고, 운영 체제에 서브루틴으로서 통합될 수 있고, 설치된 소프트웨어 패키지 내의 기능일 수 있고, 등등이다. 다양한 구현예가 도면에 도시된 배열 및 수단으로 제한되지 않는다는 것이 이해될 것이다.
모듈로 지정된, 도면의 처리 엔진 및 데이터 베이스는 하드웨어 또는 소프트웨어로 구현될 수 있고, 도면에 도시된 바와 같이 정확하게 동일한 블록으로 분할될 필요가 없다. 모듈 중 일부는 또한, 상이한 프로세서, 컴퓨터, 또는 서버 상에서 구현될 수 있거나, 또는 다수의 상이한 프로세서, 컴퓨터, 또는 서버 사이에 분산될 수 있다. 또한, 모듈 중 일부가, 달성된 기능에 영향을 주지 않고서 도면에 나타난 것과 조합되어, 병렬로 또는 상이한 순서로 동작될 수 있다는 것이 이해될 것이다. 도면 내의 모듈은 또한, 방법에서의 흐름도 단계로서 생각될 수 있다. 모듈은 또한, 그의 코드 전부가 반드시 메모리에 인접하게 배치될 필요가 없고; 코드의 일부 부분은 코드의 다른 부분과는 분리될 수 있으며, 이때 다른 모듈 또는 다른 기능으로부터의 코드가 사이에 배치된다.
이 섹션은 하기와 같이 정리된다. 본 발명자들은 먼저 개시된 기술의 일부 구현예의 간단한 개요를 제공한다. 이어서, 본 발명자들은 단백질 접촉 맵에 대한 상세한 논의를 제공한다. 그 다음에는 일부 전이학습 구현 및 변이 병원성 예측을 위해 함께 작동하는 상이한 서브-네트워크의 일부 예시적인 아키텍처의 세부 사항이 뒤따른다. 이어서, 상이한 서브-네트워크에 의해 입력으로서 처리되는 PSSM, PSFM, CCMPred 등과 같은 상이한 입력의 예시적인 인코딩이 뒤따른다. 다음은 2D 단백질 접촉 맵이 어떻게 3D 단백질 구조의 프록시인지, 따라서 변이 병원성 결정 문제를 해결하는 데 기여하는지에 대한 논의이다. 마지막으로, 개시된 전이학습 구현 없이 훈련되고 다른 네트워크에서 생성된 단백질 접촉 맵을 처리하는 병원성 분류기를 개시한다. 일부 테스트 결과는 또한 독창성 및 진보성의 표시로서 개시된다.
도입
2차원(2D) 단백질 접촉 맵은 3차원(3D) 단백질 구조의 프록시로서, 단백질 서열에서 순차적으로 멀리 떨어져 있는 잔기 쌍의 3D 공간 근접성을 캡처하고, 다른 형태의 근거리, 중거리 및 장거리 접촉도 함께 캡처하기 때문이다. 일부 단백질에서, 아미노산 서열에서 순차적으로 멀리 떨어져 있는 특정 병원성 아미노산 변이가 해당 3D 단백질 구조에 공간적으로 군집하는 것이 관찰되었다. 따라서, 본 발명자들은 2D 단백질 접촉 맵이 변이 병원성 예측에 기여한다고 제안한다. 구체적으로, 본 발명자들은 2D 단백질 접촉 맵을 입력으로서 처리하는 것에 응답하여 출력으로서 변이 병원성 예측을 생성하도록 훈련된 심층 신경망을 제시한다. 하나의 구현예에서, 본 발명의 변이 병원성 예측 네트워크는 잔기별 특징을 생성하는 1차원(1D) 잔차 블록으로, 그리고 잔기 쌍별 특징을 생성하는 2D 잔차 블록으로 구성된다. 본 발명자들은 또한 전이학습을 사용하여 소위 "교차-훈련된" 단백질 접촉 맵 생성기를 생성한다. 이러한 교차-훈련된 단백질 접촉 맵 생성기는 먼저 단백질 접촉 맵 생성의 작업에 대해 훈련되고, 이어서 변이 병원성 예측의 작업에 대해 훈련된다.
단백질 접촉 맵 예측
단백질은 3차원(3D) 공간에서 원자의 집합 및 그들의 좌표로 표현된다. 아미노산은 탄소 원자, 산소(O) 원자, 질소(N) 원자, 및 수소(H) 원자와 같은 다양한 원자를 가질 수 있다. 원자는 측쇄 원자 및 백본(backbone) 원자로서 추가로 분류될 수 있다. 백본 탄소 원자는 알파-탄소(Cα) 원자 및 베타-탄소(Cβ) 원자를 포함할 수 있다.
"단백질 접촉 맵"(또는 단순히 "접촉 맵")은 이진 2차원 행렬을 사용하여 3D 단백질 구조의 가능한 모든 아미노산 잔기 쌍 사이의 거리를 나타낸다. 2개의 잔기 i 및 j에 대하여, 행렬의 ij번째 요소는 2개의 잔기가 미리 결정된 임계치보다 가까우면 1이고, 그렇지 않으면 0이다. 다양한 접촉 정의, Cα-Cα 원자와 임계치 6 내지 12Å 사이의 거리; Cβ-Cβ 원자와 임계치 6 내지 12Å(Cα가 글리신에 사용됨) 사이의 거리; 및 질량의 측쇄 중심 사이의 거리가 제안되어 왔다. 도 15, 도 16, 도 18, 도 19, 도 20, 도 21, 도 22, 도 23 및 도 24는 단백질 접촉 맵의 상이한 예를 나타낸다.
단백질 접촉 맵은 그의 완전한 3D 원자 좌표보다 단백질 구조의 더 감소된 표현을 제공한다. 단백질 접촉 맵은 회전 및 번역에 불변이며, 이를 통해 기계 학습 방법으로 보다 쉽게 예측할 수 있다는 장점이 있다. 또한 특정 상황(예를 들어, 잘못 예측된 접촉의 낮은 함량)에서 단백질 접촉 맵을 사용하여 단백질의 3D 좌표를 재구성하는 것이 가능하다는 것이 밝혀졌다. 단백질 접촉 맵은 또한 단백질 중첩 및 단백질 구조 간의 유사성을 설명하기 위해 사용된다. 이들은 단백질 서열로부터 예측되거나 주어진 구조로부터 계산된다.
단백질 접촉 맵은 단백질 내 아미노산(잔기)의 쌍별 공간적 및 기능적 관계를 설명하고 단백질 3D 구조 예측을 위한 주요 정보를 포함한다. 일부 구현예에서, 단백질의 두 잔기는 유클리드 거리가 <8Å인 경우 접촉한다. Cα- 또는 Cβ-기반 접촉에 대응하는 Cα 또는 Cβ 원자를 사용하여 2개의 잔기의 거리를 계산할 수 있다. 단백질 접촉 맵은 또한 이진 L × L 행렬로 간주될 수 있으며, 여기서 L은 단백질 길이이다. 이 행렬에서, 값 1을 갖는 요소는 해당 2개의 잔기가 접촉하는 것을 가리키고; 그렇지 않으면, 이들은 접촉하지 않는다.
단백질의 3D 구조는 아미노산 원자의 x, y, 및 z 좌표로서 표현되며, 따라서, 접촉은 거리 임계치를 사용하여 정의될 수 있다. 도 1d는 옹스트롬(Å)의 접촉 거리와 함께 검은색 점선으로 나타낸 일부 접점을 갖는 2개의 구형 단백질을 나타낸다. 알파 나선 단백질 1bkr(좌측)은 장거리 접촉이 많고 베타 시트 단백질 1c9o(우측)은 단거리 및 중거리 접촉이 많다. 순차적으로 멀리 떨어져 있는 잔기, 즉 장거리 접촉 사이에서 발생하는 접촉은 단백질의 3D 구조에 강한 제약을 가하며, 구조 분석, 접힘 과정의 이해 및 3D 구조의 예측에 특히 중요하다.
일부 구현예에서, 공간적으로 가까운, 또한 순차적으로 가까운 잔기가 배제되도록 해당 단백질 서열에서의 최소 서열 분리가 또한 정의될 수 있다. 단백질이 Cβ 원자로 더 잘 재구성될 수 있지만, 백본 원자인 Cα 원자가 널리 사용된다. 거리 임계치 및 서열 분리 임계치의 선택은 또한 단백질 내 접촉의 수를 정의한다. 더 낮은 거리 임계치에서, 단백질은 더 적은 수의 접촉을 갖고, 더 작은 서열 분리 임계치에서, 단백질은 많은 국소 접촉을 갖는다. 단백질 구조 예측 기술의 중요한 평가(Critical Assessment of Techniques for Protein Structure Prediction, CASP) 경쟁에서, 한 쌍의 잔기는 서열에서 적어도 5개의 잔기에 의해 분리된다면, Cβ 원자 사이의 거리가 8Å 이하인 경우 접촉으로 정의된다. 다른 경우에, 그들의 Cα 원자가 최소 서열 분리 거리가 정의되지 않은 상태에서 적어도 7Å만큼 떨어져 있으면, 한 쌍의 잔기가 접촉한다고 한다.
단백질 서열에서 멀리 떨어져 있지만 3D 공간에서 서로 가까이 있는 접촉 잔기가 단백질 접힘에 중요하다는 것이 알려지고, 접촉은 근거리, 중거리, 원거리로 폭넓게 분류된다. 단거리 접촉은 서열에서 6 내지 11개의 잔기에 의해 분리되는 것이며; 중거리 접촉은 12 내지 23개의 잔기에 의해 분리된 것이고, 장거리 접촉은 적어도 24개의 잔기에 의해 분리된 것이다. 장거리 접촉은 세 가지 중 가장 중요하고 예측하기도 어려워 별도로 평가되는 경우가 많다. 3D 형상(접힘)에 따라, 일부 단백질은 많은 단거리 접촉을 갖는 반면, 다른 단백질은 도 1d에 나타낸 바와 같이 더 많은 장거리 접촉을 갖는다.
접촉의 3개의 카테고리 외에도, 단백질 내 접촉의 총 개수가 또한 단백질에 대한 3D 모델을 재구성하는 데 중요하다. 긴 꼬리와 같은 구조를 갖는 단백질과 같은 특정 단백질은 접촉이 적고 실제 접촉을 사용하더라도 재구성이 어려운 반면, 다른 단백질, 예를 들어 소형 구형 단백질은 접촉이 많고, 높은 정확도로 재구성할 수 있다. 예측된 접촉의 또다른 중요한 요소는 접촉의 범위, 즉 접촉이 단백질의 구조에 걸쳐 얼마나 잘 분포되어 있는가이다. 적은 범위를 갖는 접촉의 세트는 대부분의 접촉이 구조의 특정 영역에 군집될 것이고, 이는 예측된 접촉이 모두 정확하더라도 단백질을 높은 정확도로 재구성하기 위해 추가 정보가 여전히 필요할 수 있음을 의미한다.
도 1a는 단백질 접촉 맵 생성(100A)의 작업 상에서 단백질 접촉 맵 생성 서브-네트워크(112)를 훈련시켜 소위 "훈련된" 단백질 접촉 맵 생성 서브-네트워크(112T)를 제조하는 일 구현예를 도시한다. 하나의 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는, (i) 단백질의 참조 아미노산 서열(REF)(102), (ii) 단백질의 2차 구조(SS) 프로파일(104), (iii) 단백질의 용매 접근성(SA) 프로파일(106), (iv) 단백질의 위치-특이적 빈도 행렬(PSFM)(108) 및 (v) 단백질의 위치-특이적 점수 행렬(PSSM)(110) 중 적어도 하나를 입력으로서 처리하도록 훈련되고, 출력으로서 단백질 접촉 맵(114)을 생성한다. 도 16은 개시된 기술의 일 구현예에 따른, 단백질 접촉 맵 생성 서브-네트워크에 의해 생성된 예시적인 예측 단백질 접촉 맵(1600)을 나타낸다. 위치-특이적 점수 행렬(PSSM)은 때때로 위치-특이적 가중치 행렬(PSWM) 또는 위치 가중치 행렬(PWM)으로 지칭된다.
일 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 훈련 동안 실측 자료로 사용될 수 있는 공지된 단백질 접촉 맵을 갖는 박테리아 단백질(예를 들어, 30000 박테리아 단백질)의 참조 아미노산 서열에 대해 훈련된다. 도 15는 개시된 기술의 일 구현예에 따른, 단백질 접촉 맵 생성 서브-네트워크(112)를 훈련하는 데 사용되는 예시적인 실측 자료 단백질 접촉 맵(1500)을 도시한다.
일부 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 훈련 동안 단백질 접촉 맵 생성 서브-네트워크(112)에 의해 예측된 단백질 접촉 맵과 공지된 단백질 접촉 맵 간의 오차를 최소화하는 평균 제곱 오차 손실 함수를 사용하여 훈련된다. 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 훈련 중에 단백질 접촉 맵 생성 서브-네트워크에 의해 예측된 단백질 접촉 맵과 공지된 단백질 접촉 맵 간의 오차를 최소화하는 평균 절대 오차 손실 함수를 사용하여 훈련된다.
하나의 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 신경망이다. 하나의 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 복수의 컨볼루션 층을 갖는 컨볼루션 신경망(CNN)을 이용한다. 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 장단기 메모리 네트워크(long short-term memory network, LSTM), 양방향 LSTM(bi-directional LSTM, Bi-LSTM), 및 게이트형 순환 유닛(gated recurrent unit, GRU)과 같은 순환 신경망(recurrent neural network, RNN)을 사용한다. 또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 CNN 및 RNN 둘 모두를 사용한다. 또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 그래프-구조화된 데이터의 종속성을 모델링하는 그래프-컨볼루션 신경망을 사용한다. 또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 변이형 오토인코더(variational autoencoder, VAE)를 사용한다. 또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 생성 적대적 네트워크(generative adversarial network, GAN)를 사용한다. 또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 또한, 예를 들어 트랜스포머(Transformer) 및 BERT에 의해 구현된 것과 같은 자가주의(self-attention)에 기반한 언어 모델일 수 있다. 또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 완전 접속 신경망(fully connected neural network, FCNN)을 사용한다.
또 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 1D 컨볼루션, 2D 컨볼루션, 3D 컨볼루션, 4D 컨볼루션, 5D 컨볼루션, 확장형 또는 아트로스 컨볼루션, 전치 컨볼루션, 깊이별 분리가능 컨볼루션, 포인트별 컨볼루션, 1 × 1 컨볼루션, 그룹 컨볼루션, 편평형 컨볼루션, 공간 및 교차 채널 컨볼루션, 셔플 그룹형 컨볼루션, 공간 분리가능 컨볼루션, 및 디컨볼루션을 사용할 수 있다. 단백질 접촉 맵 생성 서브-네트워크(112)는 하나 이상의 손실 함수, 예컨대 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성, 효율성, 및 압축 스킴, 예컨대 TFRecord, 압축 인코딩(예컨대, PNG), 샤딩, 맵 변환을 위한 병렬 검출, 배칭, 프리페칭, 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 확률적 기울기 하강법(stochastic gradient descent, SGD)을 사용할 수 있다. 단백질 접촉 맵 생성 서브-네트워크(112)는 업샘플링 층, 다운샘플링 층, 순환 접속부, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속부, 하이웨이 접속부, 스킵 접속부, 핍홀(peephole) 접속부, 활성화 함수(예컨대, 정류화 선형 유닛(ReLU), 리키 ReLU(leaky ReLU), 지수 선형 유닛(exponential liner unit, ELU), 시그모이드 및 쌍곡 탄젠트(hyperbolic tangent, tanh)과 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 감쇠 메커니즘, 및 가우스 에러 선형 유닛을 포함할 수 있다.
일부 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 역전파 기반 기울기 업데이트 기법을 사용하여 훈련될 수 있다. 단백질 접촉 맵 생성 서브-네트워크(112)를 훈련하는 데 사용될 수 있는 예시적인 기울기 하강 기법은 확률적 기울기 하강법(stochastic gradient descent, SGD), 배치 기울기 하강법, 및 미니-배치 기울기 하강법을 포함한다. 단백질 접촉 맵 생성 서브-네트워크(112)를 훈련하는 데 사용될 수 있는 기울기 하강 최적화 알고리즘의 일부 예는 Momentum, Nesterov 가속화된 기울기, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, 및 AMSGrad이다. 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 무감독형 학습, 반감독형 학습, 자가 학습, 강화 학습, 멀티태스크 학습, 다중 모드 학습, 전이학습, 지식 증류 등에 의해 훈련될 수 있다.
전이학습
한 작업에서 학습한 가중치를 다른 작업으로 재사용하거나 전이하는 과정을 전이학습이라고 한다. 따라서, 전이학습은 스크래치로부터 타겟 네트워크를 훈련하는 대신, 훈련된 베이스 네트워크(사전 훈련된 모델)로부터 학습된 가중치를 추출하고 다른 훈련되지 않은 타겟 네트워크로 이들을 전달하는 것을 지칭한다. 전이학습은 (a) 사전 훈련된 모델을 고정 특징 추출기로서 사용하거나, (b) 전체 모델을 미세 조정함으로써 사용될 수 있다. 전자의 시나리오에서, 예를 들어, 사전 훈련된 모델의 마지막 완전 접속 층(분류기 층)은 새로운 분류기 층으로 대체된 다음 새로운 데이터 세트에 대해 훈련된다. 이러한 방식으로, 사전 훈련된 모델의 특징 추출 층은 고정된 상태로 유지되고, 새로운 분류기 층만이 미세 조정된다. 후자의 시나리오에서, 사전 훈련된 모델의 특징 추출 층까지 역전파를 계속함으로써 전체 네트워크, 즉 사전 훈련된 모델의 특징 추출 층과 새로운 분류기 층이 새로운 데이터 세트에 대해 재훈련된다. 이러한 방식으로, 전체 네트워크의 모든 가중치는 새로운 작업에 대해 미세 튜브(fine-tubed)된다.
개시된 기술은 먼저 단백질 접촉 맵 생성 서브-네트워크(112)를 단백질 접촉 맵 생성(100A) 작업에 대해 훈련시킨 후(도 1a), 훈련된 단백질 접촉 맵 생성 서브 네트워크(112T)를 변이 병원성 예측(100B) 작업에 대해 재훈련시킨다(도 1b). 재훈련은 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)를 추가 서브-네트워크(예컨대, 변이 인코딩 서브-네트워크(128), 병원성 점수 서브-네트워크(144))를 포함하는 더 큰 변이 병원성 예측 네트워크(190)에 통합하는 것과, 소위 "훈련된" 변이 병원성 예측 네트워크(190T)를 생성하기 위해 서브-네트워크(128, 112T, 144)를 변이 병원성 예측(100B)의 작업에 대해 단대단(end-to-end)으로 합동 훈련시키는 것을 포함한다.
이와 같이, 도 1a는 단백질 접촉 맵 생성 서브-네트워크(112)의 가중치(계수)가 단백질 접촉 맵 생성(100A)의 작업에 학습되는 단백질 접촉 맵 생성 서브-네트워크(112)의 "사전 훈련" 단계로 간주될 수 있고, 도 1b는 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)의 학습된 가중치가 변이 병원성 예측(100B)의 작업에 추가로 훈련되는(또는 전달되는)(150) 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)의 "전이학습" 단계로 간주될 수 있다.
당업자는 서브-네트워크(128, 112T, 144)가 변이 병원성 예측 네트워크(190)에서 임의의 순서로 배열될 수 있음을 인식할 것이다. 당업자는 또한 변이 병원성 예측 네트워크(190)가 추가 층 또는 서브-네트워크를 포함할 수 있음을 인식할 것이다.
하기 논의는 변이 병원성 예측 네트워크(190)를 훈련시키는 일 구현예에 초점을 맞추고, 여기서 (i) 변이 인코딩 서브-네트워크(128)는 제1 입력을 처리하도록, 그리고 제1 입력의 처리된 표현을 생성하도록 훈련되고, (ii) 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)는 제2 입력 및 제1 입력의 처리된 표현을 처리하도록, 그리고 단백질 접촉 맵을 생성하도록 추가로 훈련되고, (iii) 병원성 점수 서브-네트워크(144)는 단백질 접촉 맵을 처리하도록, 그리고 병원성 예측을 생성하도록 훈련된다.
일 구현예에서, 변이 인코딩 서브-네트워크(128)에 의해 처리된 제1 입력은 (i) 변이 뉴클레오티드에 의해 야기된 변이 아미노산을 함유하는 훈련 데이터 내의 단백질의 대체 아미노산 서열(120), (ii) 단백질의 아미노산별 영장류 보존 프로파일(122), (iii) 단백질의 아미노산별 포유류 보존 프로파일(124), 및 (iv) 단백질의 아미노산별 척추동물 보존 프로파일(126) 중 적어도 하나를 포함할 수 있다. 제1 입력을 처리하는 것에 응답하여 변이 인코딩 서브-네트워크(128)에 의해 제작된 결과 출력은 제1 입력의 처리된 표현(130)이다. 일부 구현예에서, 처리된 표현(130)은 컨볼루션된 특징(또는 활성화)일 수 있다.
일 구현예에서, 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)에 의해 처리된 제2 입력은 (i) 단백질의 참조 아미노산 서열(REF)(132), (ii) 단백질의 2차 구조(SS) 프로파일(134), (iii) 단백질의 용매 접근성(SA) 프로파일(136), (iv) 단백질의 위치-특이적 빈도 행렬(PSFM)(138), 및 (v) 단백질의 위치-특이적 점수 행렬(PSSM)(140) 중 적어도 하나를 포함할 수 있다. 제2 입력 및 제1 입력의 처리된 표현(130)을 처리하는 것에 응답하여 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)에 의해 제작된 결과 출력은 단백질 접촉 맵(142)이다.
일 구현예에서, 병원성 점수 서브-네트워크(144)는 단백질 접촉 맵(142)을 처리하고, 출력으로서 병원성 예측(146)을 생성하도록 훈련된다. 병원성 예측(146)은 훈련 데이터에서 변이 아미노산의 병원성(또는 양성)의 정도를 가리킨다.
도 1c는 훈련된 변이 병원성 예측 네트워크(190T)를 추론(100C)에 적용하는 하나의 구현예를 나타낸다. 하기 논의는 변이 병원성 예측 네트워크(190T)를 훈련시키는 일 구현예에 초점을 맞추고, 여기서 (i) 변이 인코딩 서브-네트워크(128T)는 제1 입력을 처리하도록, 그리고 제1 입력의 처리된 표현을 생성하도록 구성되고, (ii) "교차-훈련된" 단백질 접촉 맵 생성 서브-네트워크(112CT)는 제2 입력 및 제1 입력의 처리된 표현을 처리하도록, 그리고 단백질 접촉 맵을 생성하도록 구성되고, (iii) 훈련된 병원성 점수 서브-네트워크(144T)는 단백질 접촉 맵을 처리하도록, 그리고 병원성 예측을 생성하도록 구성된다. 용어 "교차-훈련된"은 단백질 접촉 맵 생성 서브-네트워크(112)가 (a) 단백질 접촉 맵 생성(100A)의 작업, 및 (b) 변이 병원성 예측(100B)의 작업 둘 모두에 대해 훈련된다는 개념을 지칭한다.
일 구현예에서, 변이 인코딩 서브-네트워크(128T)에 의해 처리되는 제1 입력은 (i)변이 뉴클레오티드에 의해 야기된 변이 아미노산을 함유하는 추론 데이터(예를 들어, 인간 단백질의 알려지지 않은 단백질 접촉 맵)의 단백질의 대체 아미노산 서열(160), (ii) 단백질의 아미노산별 영장류 보존 프로파일(162)(예를 들어, 상동 영장류 서열만으로의 정렬로부터 결정된 PSFM), (iii) 단백질의 아미노산별 포유류 보존 프로파일(164)(예를 들어, 상동 포유류 서열만으로의 정렬로부터 결정된 PSFM), 및 (iv) 단백질의 아미노산별 척추동물 보존 프로파일(166)(예를 들어, 상동 척추동물 서열만으로의 정렬로부터 결정된 PSFM) 중 적어도 하나를 포함할 수 있다. 제1 입력을 처리하는 것에 응답하여 훈련된 변이 인코딩 서브-네트워크(128T)에 의해 제작된 결과 출력은 제1 입력의 처리된 표현(170)이다. 일부 구현예에서, 처리된 표현(170)은 컨볼루션된 특징(또는 활성화)일 수 있다.
일 구현예에서, 교차-훈련된 단백질 접촉 맵 생성 서브-네트워크(112CT)에 의해 처리된 제2 입력은 (i) 단백질의 참조 아미노산 서열(REF)(172), (ii) 단백질의 2차 구조(SS) 프로파일(174), (iii) 단백질의 용매 접근성(SA) 프로파일(176), (iv) 단백질의 위치-특이적 빈도 행렬(PSFM)(178), 및 (v) 단백질의 위치-특이적 점수 행렬(PSSM)(180) 중 적어도 하나를 포함할 수 있다. 제2 입력 및 제1 입력의 처리된 표현(170)을 처리하는 것에 응답하여 교차-훈련된 단백질 접촉 맵 생성 서브-네트워크(112CT)에 의해 제작된 결과 출력은 단백질 접촉 맵(182)이다.
일 구현예에서, 훈련된 병원성 점수 서브-네트워크(144T)는 단백질 접촉 맵(182)을 처리하고, 출력으로서 병원성 예측(184)을 생성하도록 구성된다. 병원성 예측(184)은 추론 데이터에서 변이 아미노산의 병원성(또는 양성)의 정도를 가리킨다.
일 구현예에서, 변이 인코딩 서브-네트워크(128)는 신경망이다. 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 복수의 컨볼루션 층을 갖는 컨볼루션 신경망(CNN)을 사용한다. 다른 구현예에서,변이 인코딩 서브-네트워크(128)는 장단기 메모리 네트워크(LSTM), 양방향 LSTM(Bi-LSTM), 및 게이트형 순환 유닛(GRU)과 같은 순환 신경망(RNN)을 사용한다. 또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 CNN 및 RNN 둘 모두를 사용한다. 또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 그래프-구조화된 데이터의 종속성을 모델링하는 그래프-컨볼루션 신경망을 사용한다. 또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 변이형 오토인코더(VAE)를 사용한다. 또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 생성 적대적 네트워크(GAN)를 사용한다. 또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 또한, 예를 들어 트랜스포머 및 BERT에 의해 구현된 것과 같은 자가주의에 기반한 언어 모델일 수 있다. 또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 완전 접속 신경망(FCNN)을 사용한다.
또 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 1D 컨볼루션, 2D 컨볼루션, 3D 컨볼루션, 4D 컨볼루션, 5D 컨볼루션, 확장형 또는 아트로스 컨볼루션, 전치 컨볼루션, 깊이별 분리가능 컨볼루션, 포인트별 컨볼루션, 1 × 1 컨볼루션, 그룹 컨볼루션, 편평형 컨볼루션, 공간 및 교차 채널 컨볼루션, 셔플 그룹형 컨볼루션, 공간 분리가능 컨볼루션, 및 디컨볼루션을 사용할 수 있다. 변이 인코딩 서브-네트워크(128)는 하나 이상의 손실 함수, 예컨대 로지스틱 회귀/로그 손실, 다중클래스 교차-엔트로피/소프트맥스 손실, 이진 교차-엔트로피 손실, L1 손실, L2 손실, 평활한 L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성, 효율성, 및 압축 스킴, 예컨대 TFRecord, 압축 인코딩(예컨대, PNG), 샤딩, 맵 변환을 위한 병렬 검출, 배칭, 프리페칭, 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 확률적 기울기 하강법(SGD)을 사용할 수 있다. 변이 인코딩 서브-네트워크(128)는 업샘플링 층, 다운샘플링 층, 순환 접속부, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속부, 하이웨이 접속부, 스킵 접속부, 핍홀 접속부, 활성화 함수(예컨대, 정류화 선형 유닛(ReLU), 리키 ReLU, 지수 선형 유닛(ELU), 시그모이드 및 쌍곡 탄젠트(tanh)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 감쇠 메커니즘, 및 가우스 에러 선형 유닛을 포함할 수 있다.
일부 구현예에서, 변이 인코딩 서브-네트워크(128)는 역전파 기반 기울기 업데이트 기법을 사용하여 훈련될 수 있다. 변이 인코딩 서브-네트워크(128)를 훈련하는 데 사용될 수 있는 예시적인 기울기 하강 기법은 확률적 기울기 하강법(SGD), 배치 기울기 하강법, 및 미니-배치 기울기 하강법을 포함한다. 변이 인코딩 서브-네트워크(128)를 훈련하는 데 사용될 수 있는 기울기 하강 최적화 알고리즘의 일부 예는 Momentum, Nesterov 가속화된 기울기, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, 및 AMSGrad이다. 다른 구현예에서, 변이 인코딩 서브-네트워크(128)는 무감독형 학습, 반감독형 학습, 자가 학습, 강화 학습, 멀티태스크 학습, 다중 모드 학습, 전이학습, 지식 증류 등에 의해 훈련될 수 있다.
일 구현예에서, 병원성 점수 서브-네트워크(144)는 신경망이다. 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 복수의 컨볼루션 층을 갖는 컨볼루션 신경망(CNN)을 사용한다. 다른 구현예에서,병원성 점수 서브-네트워크(144)는 장단기 메모리 네트워크(LSTM), 양방향 LSTM(Bi-LSTM), 및 게이트형 순환 유닛(GRU)과 같은 순환 신경망(RNN)을 사용한다. 또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 CNN 및 RNN 둘 모두를 사용한다. 또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 그래프-구조화된 데이터의 종속성을 모델링하는 그래프-컨볼루션 신경망을 사용한다. 또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 변이형 오토인코더(VAE)를 사용한다. 또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 생성 적대적 네트워크(GAN)를 사용한다. 또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 또한, 예를 들어 트랜스포머 및 BERT에 의해 구현된 것과 같은 자가주의에 기반한 언어 모델일 수 있다. 또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 완전 접속 신경망(FCNN)을 사용한다.
또 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 1D 컨볼루션, 2D 컨볼루션, 3D 컨볼루션, 4D 컨볼루션, 5D 컨볼루션, 확장형 또는 아트로스 컨볼루션, 전치 컨볼루션, 깊이별 분리가능 컨볼루션, 포인트별 컨볼루션, 1 × 1 컨볼루션, 그룹 컨볼루션, 편평형 컨볼루션, 공간 및 교차 채널 컨볼루션, 셔플 그룹형 컨볼루션, 공간 분리가능 컨볼루션, 및 디컨볼루션을 사용할 수 있다. 병원성 점수 서브-네트워크(144)는 하나 이상의 손실 함수, 예컨대 로지스틱 회귀/로그 손실, 다중클래스 교차-엔트로피/소프트맥스 손실, 이진 교차-엔트로피 손실, L1 손실, L2 손실, 평활한 L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성, 효율성, 및 압축 스킴, 예컨대 TFRecord, 압축 인코딩(예컨대, PNG), 샤딩, 맵 변환을 위한 병렬 검출, 배칭, 프리페칭, 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 확률적 기울기 하강법(SGD)을 사용할 수 있다. 병원성 점수 서브-네트워크(144)는 업샘플링 층, 다운샘플링 층, 순환 접속부, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속부, 하이웨이 접속부, 스킵 접속부, 핍홀 접속부, 활성화 함수(예컨대, 정류화 선형 유닛(ReLU), 리키 ReLU, 지수 선형 유닛(ELU), 시그모이드 및 쌍곡 탄젠트(tanh)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 감쇠 메커니즘, 및 가우스 에러 선형 유닛을 포함할 수 있다.
일부 구현예에서, 병원성 점수 서브-네트워크(144)는 역전파 기반 기울기 업데이트 기법을 사용하여 훈련될 수 있다. 병원성 점수 서브-네트워크(144)를 훈련하는 데 사용될 수 있는 예시적인 기울기 하강 기법은 확률적 기울기 하강법(SGD), 배치 기울기 하강법, 및 미니-배치 기울기 하강법을 포함한다. 병원성 점수 서브-네트워크(144)를 훈련하는 데 사용될 수 있는 기울기 하강 최적화 알고리즘의 일부 예는 Momentum, Nesterov 가속화된 기울기, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, 및 AMSGrad이다. 다른 구현예에서, 병원성 점수 서브-네트워크(144)는 무감독형 학습, 반감독형 학습, 자가 학습, 강화 학습, 멀티태스크 학습, 다중 모드 학습, 전이학습, 지식 증류 등에 의해 훈련될 수 있다.
일 구현예에서, 변이 병원성 예측 네트워크(190)는 신경망이다. 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 복수의 컨볼루션 층을 갖는 컨볼루션 신경망(CNN)을 사용한다. 다른 구현예에서,변이 병원성 예측 네트워크(190)는 장단기 메모리 네트워크(LSTM), 양방향 LSTM(Bi-LSTM), 및 게이트형 순환 유닛(GRU)과 같은 순환 신경망(RNN)을 사용한다. 또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 CNN 및 RNN 둘 모두를 사용한다. 또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 그래프-구조화된 데이터의 종속성을 모델링하는 그래프-컨볼루션 신경망을 사용한다. 또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 변이형 오토인코더(VAE)를 사용한다. 또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 생성 적대적 네트워크(GAN)를 사용한다. 또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 또한, 예를 들어 트랜스포머 및 BERT에 의해 구현된 것과 같은 자가주의에 기반한 언어 모델일 수 있다. 또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 완전 접속 신경망(FCNN)을 사용한다.
또 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 1D 컨볼루션, 2D 컨볼루션, 3D 컨볼루션, 4D 컨볼루션, 5D 컨볼루션, 확장형 또는 아트로스 컨볼루션, 전치 컨볼루션, 깊이별 분리가능 컨볼루션, 포인트별 컨볼루션, 1 × 1 컨볼루션, 그룹 컨볼루션, 편평형 컨볼루션, 공간 및 교차 채널 컨볼루션, 셔플 그룹형 컨볼루션, 공간 분리가능 컨볼루션, 및 디컨볼루션을 사용할 수 있다. 변이 병원성 예측 네트워크(190)는 하나 이상의 손실 함수, 예컨대 로지스틱 회귀/로그 손실, 다중클래스 교차-엔트로피/소프트맥스 손실, 이진 교차-엔트로피 손실, L1 손실, L2 손실, 평활한 L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성, 효율성, 및 압축 스킴, 예컨대 TFRecord, 압축 인코딩(예컨대, PNG), 샤딩, 맵 변환을 위한 병렬 검출, 배칭, 프리페칭, 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 확률적 기울기 하강법(SGD)을 사용할 수 있다. 변이 병원성 예측 네트워크(190)는 업샘플링 층, 다운샘플링 층, 순환 접속부, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속부, 하이웨이 접속부, 스킵 접속부, 핍홀 접속부, 활성화 함수(예컨대, 정류화 선형 유닛(ReLU), 리키 ReLU, 지수 선형 유닛(ELU), 시그모이드 및 쌍곡 탄젠트(tanh)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 감쇠 메커니즘, 및 가우스 에러 선형 유닛을 포함할 수 있다.
일부 구현예에서, 변이 병원성 예측 네트워크(190)는 역전파 기반 기울기 업데이트 기법을 사용하여 훈련될 수 있다. 변이 병원성 예측 네트워크(190)를 훈련하는 데 사용될 수 있는 예시적인 기울기 하강 기법은 확률적 기울기 하강법(SGD), 배치 기울기 하강법, 및 미니-배치 기울기 하강법을 포함한다. 변이 병원성 예측 네트워크(190)를 훈련하는 데 사용될 수 있는 기울기 하강 최적화 알고리즘의 일부 예는 Momentum, Nesterov 가속화된 기울기, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, 및 AMSGrad이다. 다른 구현예에서, 변이 병원성 예측 네트워크(190)는 무감독형 학습, 반감독형 학습, 자가 학습, 강화 학습, 멀티태스크 학습, 다중 모드 학습, 전이학습, 지식 증류 등에 의해 훈련될 수 있다.
단백질 접촉 맵 생성 서브-네트워크의 예시적인 아키텍처
도 2a는 개시된 기술의 일 구현예에 따른 단백질 접촉 맵 생성 서브-네트워크(112)의 예시적인 아키텍처(200)를 도시한다. 일 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)에 대한 입력(202)은 단백질-언더-분석의 참조 아미노산 서열, 단백질-언더-분석의 3-상태 2차 구조 프로파일, 단백질-언더-분석의 3-상태 용매 접근성 프로파일, 단백질-언더-분석의 위치-특이적 빈도 행렬(PSFM), 및 단백질-언더-분석의 위치-특이적 점수 행렬(PSSM)을 포함한다. 일 구현예에서, 입력(202)은 (i) 참조 아미노산 서열의 원-핫 인코딩의 L × 20 × 1 행렬(여기서 L은 참조 아미노산 서열의 아미노산 수이고, 20은 20개의 아미노산 카테고리를 나타낸다), (ii) 3-상태 2차 구조 프로파일의 3-상태 인코딩의 L × 3 × 1 행렬(여기서 3가지 상태는 나선, 베타 시트, 및 코일이다), (iii) 3-상태 용매 접근성 프로파일의 3-상태 인코딩의 L × 3 × 1 행렬(여기서 3가지 상태는 매몰(buried), 중간(intermediate), 그리고 노출(exposed)이다), (iv) PSFM의 L × 20 × 1 행렬, 및 (v) PSFM의 L × 20 × 1 행렬을 연결하는 텐서이다. 일부 구현예에 따른, 결과적으로 연결된 텐서(202)는 크기 L × 66 × 1이다.
텐서(202)는 하나 이상의 초기 1D 컨볼루션 층(예컨대, 1D 컨볼루션 층(203, 204))에 의해 처리된다. 설명된 예에서, 1D 컨볼루션 층(203, 204) 각각은 크기 5 × 1의 윈도우 상에서 각각 동작하는 16개의 컨볼루션 필터를 갖는다.
제2 1D 컨볼루션 층(204)의 출력은 1D 잔차 블록(210)에 입력으로 공급된다. 1D 잔차 블록(210)은 중간 연결(CT)(209)과 함께, 제2 1D 컨볼루션 층(204)의 출력에서 순차 특징의 일련의 1D 컨볼루션(예컨대, 4개의 1D 컨볼루션(205, 206, 207, 208))을 수행한다. 본원에 사용되는 바와 같이, 연결 작업은 연결(스티칭), 합산, 또는 곱셈에 의한 조합을 포함할 수 있다.
도 2b는 2개의 컨볼루션 층 및 2개의 활성화 층을 포함하는 잔차 블록의 예를 나타낸다. 도 2b에서, Xl 및 Xl + 1는 잔차 블록의 입력 및 출력이다. 활성화 층은 임의의 파라미터를 사용하지 않고 그의 입력의 비선형 변환을 수행한다. 비선형 변환의 일례는 정류형 선형(ReLU) 활성화 함수이다. 2개의 활성화 층과 2개의 컨볼루션 층을 거친 Xl의 결과를 f(Xl)이라고 하자. 그러면, Xl + 1은 Xl + f(Xl)과 동일하다. 즉, Xl + 1은 Xl 및 이의 비선형 변환의 조합이다. f(Xl)는 Xl + 1과 Xll의 차이와 같으므로 f를 잔차 함수라고 하며, 이 논리를 소위 잔차 블록(또는 잔차 네트워크 또는 잔차 서브-네트워크)이라고 한다.
1D 잔차 블록(210)의 출력은 L × n의 차원수를 갖는 소위 "컨볼루션된 순차 특징(211)"으로서 본원에서 설명된다. 컨볼루션된 순차 특징(211)은 외부 결과물과 유사한 작업인 소위 "외부 연결"에 의해 2D 행렬로 변환된다. 외부 연결은 공간 차원수 증강 층(212)에 의해 구현된다. 외부 연결은 순차적 특징을 쌍별 특징으로 변환한다. v = {v1, v2, ..., vi, ..., vL}를 1D 잔차 네트워크의 최종 출력, 즉 컨볼루션된 순차 특징(211)이라고 하자. 여기서 L은 단백질 서열 길이이고 vi는 아미노산 i에 대한 출력 정보를 저장하는 특징 벡터이다. 한 쌍의 아미노산 i와 j에 대해 외부 연결은 vi, v(i+j)/2 및 vj를 단일 벡터에 연결하여 이 아미노산 쌍의 하나의 입력 특징으로 사용한다. 도 17은 순차적 특징을 쌍별 특징으로 변환하기 위한 단백질 접촉 맵 생성 서브-네트워크(112)에 의해 사용되는 외부 연결(1700) 작업의 하나의 구현예이다. 일부 구현예에서, 이러한 아미노산 쌍에 대한 입력 특징은 또한, 예를 들어 CCMpred 및 쌍별 접촉 전위에 의해 계산된 진화적 결합(evolutionary coupling, EC) 정보와 같은 상호 정보를 포함한다.
공간 차원수 증강 층(212)의 출력은 본원에서 L × L × 2n의 차원수를 갖는 소위 "공간적으로 증강된 출력"(213)으로서 설명되며, 이때 L × n의 차원수를 갖는 컨볼루션된 순차 특징(211)으로서 2배 많은 공간적 차원을 갖는다.
일부 구현예에서, 공간적으로 증강된 출력(213)은 하나 이상의 초기 2D 컨볼루션 층(예를 들어,2D 컨볼루션 층(214))에 의한 처리 후에, 2D 잔차 블록(226)에 입력으로서 공급된다. 2D 잔차 블록(226)은 공간적으로 증강된 출력(213)의 일련의 2D 컨볼루션(예를 들어, 10개의 1D 컨볼루션(215, 216, 217, 218, 219, 220, 221, 222, 223, 224))을 중간 연결(CT(225))과 함께 수행한다. 본원에 사용되는 바와 같이, 연결 작업은 연결(스티칭), 합산, 또는 곱셈에 의한 조합을 포함할 수 있다. 설명된 예에서, 2D 컨볼루션 층(215~224) 각각은 크기 5 × 5의 윈도우 상에서 각각 동작하는 16개의 컨볼루션 필터를 갖는다.
2D 잔차 블록(226)의 출력은 하나 이상의 말단 2D 컨볼루션 층(예컨대, 2D 컨볼루션 층(227))에 입력으로서 공급되고, 이는 출력으로서 예측된 단백질 접촉 맵(228)을 제작한다. 예측된 단백질 접촉 맵(228)은 L × L × 1의 차원수를 갖는다.
일부 구현예에서, 1D 및 2D 잔차 블록(210, 226) 내의 각각의 컨볼루션 층은 ReLU와 같은 비선형 변환이 선행된다. 수학적으로, 1D 잔차 블록(210)의 출력은 치수 L × n을 갖는 2D 행렬이며, 여기서 n은 1D 잔차 블록(210)의 마지막 1D 컨볼루션 층에 의해 생성된 새로운 특징(또는 숨겨진 뉴런/필터)의 수이다. 생물학적으로, 1D 잔차 블록(210)은 아미노산의 순차적 컨텍스트를 학습한다. 다수의 1D 컨볼루션 층들을 적층함으로써, 1D 잔차 블록(210)은 매우 큰 순차적 컨텍스트에서 정보를 학습한다.
2D 잔차 블록(226)에서, 2D 컨볼루션 층의 출력은 치수 L × L × n을 갖고, 여기서 n은 하나의 아미노산 쌍에 대한 2D 컨볼루션 층에 의해 생성된 새로운 특징(또는 숨겨진 뉴런/필터)의 수이다. 2D 잔차 블록(226)은 고차 상관(예를 들어, 아미노산 쌍의 2D 컨텍스트)을 갖는 접촉 발생 패턴을 학습한다.
1D 잔차 블록(210)에서 Xl 및 Xl + 1은 순차적 특징을 나타내고 각각 치수 L × nl 및 L × nl + 1을 가지며, 여기서 L은 단백질 서열 길이이고 nl(nl + 1)은 각 위치(즉, 아미노산)의 특징 또는 숨겨진 뉴런의 개수로 해석될 수 있다.
2D 잔차 블록(226)에서 Xl 및 Xl + 1은 쌍별 특징을 나타내고 각각 치수 L × L × nl 및 L × L × nl + 1을 가지며, 여기서 nl(nl + 1)은 각 위치(즉, 아미노산 쌍)의 특징 또는 숨겨진 뉴런의 개수로 해석될 수 있다. 일부 구현예에서, 조건 nl ≤ (nl + 1)은 더 높은 레벨에서의 하나의 위치가 더 많은 정보를 운반하도록 되어 있기 때문에 강제된다. nl < (nl + 1)일 때, Xl + f(Xl)를 계산함에 있어서, Xl은 Xl + 1과 같은 치수가 되도록 0으로 패드(pad)된다. 일부 구현예에서, 훈련의 속도를 높이기 위해, 배치 정규화 층이 각각의 활성화 층 앞에 추가되고, 이는 활성화 층으로의 입력이 0의 평균 및 1의 표준 편차를 갖도록 정규화한다.
숨겨진 뉴런/필터의 수는 1D 및 2D 잔차 블록(210, 226) 둘 모두에서 각각의 컨볼루션 층에서 변할 수 있다. 일부 구현예에서, 1D 및 2D 잔차 블록(210, 226) 각각은 결국 함께 연결된 하나 이상의 잔차 블록을 포함할 수 있다.
1D 및 2D 컨볼루션 작업은 행렬-벡터 곱셈이다. X 및 Y(각각 치수 L × m 및 L × n을 갖는)를 각각 1D 컨볼루션 층의 입력 및 출력이라고 하자. 윈도우 크기를 2w+1, s = (2w+1)m 이라고 하자. X를 Y로 변환하는 컨볼루션 연산자는 차원 n × s를 갖는 2차원 행렬로 나타낼 수 있으며, 이를 C로 표시한다. C는 단백질 길이에 무관하며 각 컨볼루션 층은 서로 다른 C를 가질 수 있다. Xi를 (2w+1) × m 크기의 아미노산 i (1 ≤ i ≤ L)를 중심으로 한 X의 부분 행렬이라 하고, Yi를 Y의 i번째 행이라고 하자. Yi는 먼저 Xi를 길이가 s인 벡터로 편평화한 다음 C와 편평화된 Xi를 곱하여 계산할 수 있다.
변이 병원성 예측 네트워크의 예시적인 아키텍처
도 3은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)의 예시적인 아키텍처(300)를 도시한다. 설명된 예에서, 1D 컨볼루션(312, 322)은 변이 인코딩 서브-네트워크(128)를 형성한다. 또한, 설명된 예에서, 완전 접속 신경망(358)은 병원성 점수 서브-네트워크(144)를 형성한다. 또한, 설명된 예에서, 1D 컨볼루션 층(203, 204), 1D 잔차 블록(210), 공간 차원수 증강 층(212), 2D 컨볼루션 층(214, 227), 및 2D 잔차 블록(226)은 단백질 접촉 맵 생성 서브-네트워크(112)를 형성한다.
도 3에서, 단백질 접촉 맵 생성 서브-네트워크(112)에 대한 입력(306)은 위에서 논의된 바와 같이, 입력(202)과 유사한 방식으로 텐서화된다.
도 3에서, 변이 인코딩 서브-네트워크(128)에 대한 입력(302)은 변이 뉴클레오티드에 의해 야기된 변이 아미노산을 함유하는 단백질-언더-분석의 대체 아미노산 서열, 단백질-언더-분석의 아미노산별 영장류 보존 프로파일, 단백질-언더-분석의 아미노산 포유류 보존 프로파일, 및 단백질-언더-분석의 아미노산별 척추동물 보존 프로파일을 포함한다. 일 구현예에서, 입력(302)은 (i) 대체 아미노산 서열의 원-핫 인코딩의 L × 20 × 1 행렬(여기서, L은 참조 아미노산 서열의 아미노산 수이고, 20은 20개의 아미노산 카테고리를 나타낸다), (ii) 상동 영장류 서열로의 정렬로부터 결정된 PSFM의 L × 20 × 1 행렬, (iii) 상동 포유류 서열만으로의 정렬로부터 결정된 PSFM의 L × 20 × 1 행렬, 및 (iv) 상동 척추동물 서열만으로의 정렬로부터 결정된 PSFM의 L × 20 × 1 행렬을 연결하는 텐서이다. 일부 구현예에 따른, 결과적으로 연결된 텐서(302)는 크기 L × 80 × 1이다.
텐서(302)는 변이 인코딩 서브-네트워크(128)의 하나 이상의 1D 컨볼루션 층(예를 들어, 1D 컨볼루션(312, 322))에 의해 처리된다. 설명된 예에서, 1D 컨볼루션 층(312, 322) 각각은 크기 5 × 1의 윈도우 상에서 각각 동작하는 32개의 컨볼루션 필터를 갖는다.
제2 1D 컨볼루션 층(322)의 출력은 본원에서 단백질 접촉 맵 생성 서브-네트워크(112)의 1D 잔차 블록(210)에 입력으로서 공급되는 소위 "처리된 표현"(334)으로서 설명된다. 일부 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)의 제2 1D 컨볼루션 층(204)의 출력은 처리된 표현(334)에 연결되고, 결과적으로 연결된 출력은 1D 잔차 블록(210)의 입력으로서 공급된다. 본원에 사용되는 바와 같이, 연결 작업은 연결(스티칭), 합산, 또는 곱셈에 의한 조합을 포함할 수 있다.
위에서 논의된 바와 같이, 1D 잔차 블록(210)은 컨볼루션된 순차적 특징(356)을 생성한다. 또한, 위에서 논의된 바와 같이, 공간 차원수 증강 층(212)은 공간적으로 증강된 출력(308)을 생성한다. 공간적으로 증강된 출력(308)은 초기 2D 컨볼루션 층(214), 이어서 2D 잔차 블록(226), 이어서 말단 2D 컨볼루션 층(227)을 통해 처리되어 예측된 단백질 접촉 맵(348)을 생성한다.
예측된 단백질 접촉 맵(348)은 병원성 점수 서브-네트워크(144)의 완전 접속 신경망(358) (및 분류 층(예를 들어, 소프트맥스 층, 시그모이드 층 또는 쌍곡 탄젠트(tanh) 층)(미도시))을 통해 처리되어 변이 병원성 점수(368)를 생성한다.
원-핫 인코딩
도 4는 개시된 기술의 일 구현예에 따른, 예시적인 단백질(400)의 참조 아미노산 서열(402) 및 예시적인 단백질(400)의 대체 아미노산 서열(412)을 나타낸다. 단백질(400)은 N개의 아미노산을 포함한다. 단백질(400) 내의 아미노산의 위치는 1, 2, 3...N으로 라벨링된다. 설명된 예에서, 위치 16은 기본 뉴클레오티드 변이에 의해 야기되는 아미노산 변이(414)(돌연변이)를 경험하는 위치이다. 예를 들어, 참조 아미노산 서열(402)의 경우, 위치 1은 참조 아미노산 페닐알라닌(F)을 갖고, 위치 16은 참조 아미노산 글리신(G)(404)을 갖고, 위치 N(예컨대, 아미노산 서열(402)의 마지막 아미노산)은 참조 아미노산 류신(L)을 갖는다. 명확성을 위해 설명되지 않았지만, 참조 아미노산 서열(402) 내의 나머지 위치는 단백질(400)에 특정적인 순서로 다양한 아미노산을 함유한다. 대체 아미노산 서열(412)은 위치 16에서의 변이 아미노산(414)을 제외하면 참조 아미노산 서열(402)과 동일한데, 이는 참조 아미노산 글리신(G)(404) 대신에 대체 아미노산 알라닌(A)(414)을 함유한다.
도 5는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 대체 아미노산 서열(506) 및 참조 아미노산 서열(504)의 각각의 원-핫 인코딩(514, 516)을 설명한다. 도 8에서, 가장 왼쪽 열(502)은 미결정 아미노산에 대한 21번째 갭 아미노산 마커와 함께 유전 코드에 나타나는 20개의 자연 발생 아미노산에 해당하는 20개의 아미노산 카테고리를 나열한다.
원-핫 인코딩에서, 크기 L(예를 들어, 도 5의 L = 51)의 아미노산 서열의 각각의 아미노산은 20 비트(또는 갭 아미노산을 포함하는 21 비트)의 이진 벡터로 인코딩되고, 비트 중 하나는 핫(즉, 1)이고 다른 하나는 0이다. 핫 비트는 L-길이 아미노산 서열에서 주어진 아미노산 위치가 20개의 아미노산 카테고리에서 대응하는 아미노산 카테고리에 속한다는 것을 가리킨다. 또한, 원-핫 인코딩 REF(514) 및 원-핫 인코딩 ALT(516)는 참조 아미노산 서열(504) 및 아미노산 변이, 즉 글리신(G) -> 알라닌(A)을 경험하는 대체 아미노산 서열(506)의 26번째 위치에 대응하는 26번째 벡터에서만 상이하다.
2차 구조 프로파일
단백질 2차 구조(SS)는 단백질의 폴리펩티드 백본의 국소적 형태를 의미한다. 규칙적인 SS 상태는 알파 나선(H)과 베타 시트(B)의 두 가지이고, 불규칙적인 SS 상태는 코일(C)의 하나이다. 도 6은 개시된 기술의 일 구현예에 따른 190, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 3-상태 2차 구조 프로파일(600)을 도시한다. 설명된 예에서, 단백질의 L-길이 기준 아미노산 서열에서의 각각의 아미노산 위치는 3개의 SS 상태 H, B 및 C에 각각 대응하는 3개의 확률이 할당된다. 일부 구현예에서, 각각의 아미노산 위치에 대한 3개의 확률의 합은 1이다.
용매 접근성 프로파일
용매 접근성(SA)은 둥근 용매에 접근할 수 있는 잔류물(아미노산)의 표면 영역으로서, 그 잔류물의 표면을 조사하는 동안 정의된다. SA 상태는 매몰(B), 중간(I), 노출(E)의 3가지가 있다. 도 7은 개시된 기술의 일 구현예에 따른 190, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 3-상태 용매 접근성 프로파일(700)을 나타낸다. 설명된 예에서, 단백질의 L-길이 참조 아미노산 서열에서의 각각의 아미노산 위치는 3개의 SA 상태 B, I, 및 E에 각각 대응하는 3개의 확률이 할당된다. 일부 구현예에서, 각각의 아미노산 위치에 대한 3개의 확률의 합은 1이다.
PSFM 및 PSSM
도 8은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 위치-특이적 빈도 행렬(PSFM)(800)을 설명한다. 도 9는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 위치-특이적 점수 행렬(PSSM)(900)을 도시한다.
다중 서열 정렬(MSA)은 다수의 상동 단백질 서열의 표적 단백질에 서열 정렬된다. MSA는 많은 정보, 예를 들어 진화 및 공진화 클러스터가 MSA로부터 생성되고 선택된 표적 서열 또는 단백질 구조에 맵핑될 수 있기 때문에 생물학적 서열의 비교 분석 및 특성 예측에서 중요한 단계이다.
길이 L의 단백질 서열 X의 서열 프로파일은 PSSM 또는 PSFM 형태의 L × 20 행렬이다. PSSM과 PSFM의 열은 아미노산의 알파벳으로 색인화되며 각 행은 단백질 서열의 위치에 해당한다. PSSM 및 PSFM은 각각 단백질 서열의 다른 위치에 있는 아미노산의 치환 점수 및 빈도를 포함한다. PSFM의 각 행은 합이 1이 되도록 정규화된다. 단백질 서열 X의 서열 프로파일은 X와 통계적으로 유의미한 서열 유사성을 갖는 단백질 데이터베이스 내의 복수의 서열과 X를 정렬하여 계산된다. 따라서 서열 프로파일은 단백질 서열 X가 속하는 단백질 계열의 보다 일반적인 진화 및 구조적 정보를 포함하므로 원격 상동성 검출 및 접힘 인식에 유용한 정보를 제공한다.
단백질 서열(예를 들어, 단백질의 참조 아미노산 서열, 소위 쿼리 서열이라고 함)은 예를 들어, PSI-BLAST 프로그램을 사용하여 단백질 데이터베이스(예를 들어, SWISSPROT)로부터 균질한 서열을 검색하고 정렬하기 위한 시드(seed)로서 사용될 수 있다. 정렬된 서열은 일부 균질한 세그먼트를 공유하고 동일한 단백질 계열에 속한다. 정렬된 서열은 그들의 균질한 정보를 표현하기 위해 PSSM과 PSFM의 두 가지 프로파일로 추가 변환된다. PSSM과 PSFM은 모두 20개의 행과 L 열을 갖는 행렬이며, 여기서 L은 쿼리 시퀀스의 아미노산의 총 수이다. PSSM의 각각의 열은 쿼리 서열의 대응하는 위치에서의 잔기 치환의 로그 가능성을 나타낸다. PSSM 행렬의 (i, j)번째 엔트리는 쿼리 서열의 j번째 위치에 있는 아미노산이 진화 과정에서 아미노산 타입 i로 변이될 가능성을 나타낸다. PSFM은 정렬된 서열의 각각의 위치의 가중된 관찰 빈도를 포함한다. 구체적으로, PSFM 행렬의 (i, j)번째 엔트리는 쿼리 서열의 위치 j에 아미노산 타입 i를 가질 가능성을 나타낸다.
도 10은 PSFM 및 PSSM을 생성하는 하나의 구현예를 나타낸다. 도 11은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 PSFM(1100) 인코딩을 설명한다. 도 12는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 PSSM(1200) 인코딩을 도시한다.
쿼리 서열이 주어지면 먼저 PSI-BLAST에 제시하여 해당 서열 프로파일을 수득하여 단백질 데이터베이스(예: Swiss-Prot Database)(1002)에서 상동 단백질 서열을 검색하고 정렬한다. 도 10은 PSI-BLAST 프로그램을 사용함으로써 서열 프로파일을 수득하는 절차를 나타낸다. PSI-Blast에 대한 파라미터 h 및 j는 통상 각각 0.001 및 3으로 설정된다. 단백질의 서열 프로파일은 쿼리 단백질 서열에 관한 그의 상동체 정보를 캡슐화한다. PSI-Blast에서, 상동체 정보는 2개의 행렬, PSFM 및 PSSM으로 나타낸다. PSFM 및 PSSM의 예가 각각 도 11 및 도 12에 나타나 있다.
도 11에서, (l, u)번째 요소 (l ∈ {1, 2, ..., Li}, u ∈ {1, 2, ..., 20})는 쿼리 단백질의 l번째 위치에 u번째 아미노산을 가질 가능성을 나타낸다. 예를 들어, 쿼리 단백질의 첫 번째 위치에 있는 아미노산 M을 가질 확률은 0.36이다.
도 12에서, (l, u)번째 요소 (l ∈ {1, 2, ..., Li}, u ∈ {1, 2, ..., 20})는 쿼리 단백질의 l번째 위치에서의 아미노산의 가능성 점수가 발생 공정 동안 u번째 아미노산으로 돌연변이되는 것을 나타낸다. 예를 들어, 쿼리 단백질의 1번 위치의 아미노산 V가 진화 과정에서 H로 변이되는 것에 대한 점수는 -3이고, 8번 위치에 대한 점수는 -4이다.
CCMpred와 같은 공진화적 특징
진화적 결합 분석(ECA)은 MSA를 활용하여 단백질의 진화적 기능 및 구조적 요구 사항과 함께 근거리에 있는 잔기가 돌연변이를 일으킨다는 믿음을 사용하여 잔기 쌍을 변경(공진화)하는 데 상관관계를 확인한다. 일반적인 ECA 방법은 CCMPred, FreeContact, GREMLIN, PlmDCA 및 PSICOV를 포함한다. 이러한 방법은 서열 상동체의 수가 많은 단백질에서 장거리 접촉을 예측하는 데 유용하다. 일부 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112) (또는 변이 병원성 예측 네트워크(190))는 CCMPred, FreeContact, GREMLIN, PlmDCA 및/또는 PSICOV로부터 생성된 진화적 결합 특징을 입력으로서 취하고, 출력으로서 단백질 접촉 맵을 생성하도록 구성될 수 있다.
도 13은 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 예시적인 CCMpred 인코딩(1300)을 나타낸다. CCMPred 인코딩(1300)은 서열 길이(L) × 시퀀스 길이(L) 의 차원수를 갖는 예측된 접촉 확률 행렬이다. CMMPred 인코딩(1300)은 CCMPred를 사용하여 예측된 공진화적 접촉 확률/점수를 포함한다. CMMPred 인코딩(1300)은 다중 서열 정렬에서 열의 쌍 사이의 직접 결합을 유사 가능도 극대화(PRM)를 사용하여 단순히 상관된 쌍과 구별한다.
텐서화된 단백질 데이터
도 14는 개시된 기술의 일 구현예에 따른, 변이 병원성 예측 네트워크(190)에 의한 입력으로서 처리된 텐서화된 단백질 데이터(1400)의 예를 설명한다. 일 구현예에서, 텐서화된 단백질 데이터(1400)는 솔브(solve) 접근성(SA) 데이터(1402), PSFM 데이터(1404), PSSM 데이터(1406), 2차 구조(SS) 데이터(1408), 원자 거리 행렬(1410)(단백질 접촉 맵), 및 CCMPredz 데이터(1412)(정규화된 CCMpred 행렬(L*L))를 포함한다. 단백질의 명칭(1414) 및 그 아미노산 서열(1416)이 또한 하나의 구현예에서 확인된다.
3D 단백질 구조의 "프록시"로서 2D 단백질 접촉 맵
단백질 접촉 맵은 3차원(3D) 단백질 구조의 2차원(2D) 표현이다. 단백질 접촉 맵은 단백질의 구조적 지문을 형성하고, 따라서 각각의 단백질은 그의 단백질 접촉 맵에 기반하여 확인될 수 있다. 단백질 접촉 맵은 단백질의 3D 구조에 대한 유용한 정보의 숙주를 제공한다. 예를 들어, 접촉의 클러스터는 특정 2차 구조를 나타내고, 또한 비-국소 상호작용을 캡처하여, 3차 구조에 대한 단서를 제공한다. 2차 구조, 폴드 토폴로지, 및 측쇄 패킹 패턴도 편리하게 시각화하여 접촉 맵에서 읽을 수 있다.
단백질의 형태는 일반적으로 1차, 2차, 3차, 4차의 4가지 구조적 복잡성을 사용하여 기술된다. 일부 단백질의 경우 적절한 3D 구조로 접힌 단일 폴리펩티드 사슬이 최종 단백질을 생성한다. 단백질 구조는 생체 내에서 특정 기능이 실현될 수 있도록 3차 구조의 안정화를 돕기 위해 서로 상호 작용하는 수십, 수백, 심지어 수천 개의 잔기를 갖는 복잡한 시스템이다. 이러한 의미에서, 네트워크 모델링 접근법은 잔기가 네트워크의 정점에 대응하고 잔기 사이의 상호작용(또는 임의의 다른 유형의 관계)이 대응하는 노드를 연결하는 에지로서 표현되는 단백질 구조를 특성화하고 분석하는 데 적합하다. 단백질 구조를 개념화하고 모델링하는 한 가지 방법은 2차 구조 및 접힘 유형에 관계없이 아미노산의 원자 간 접촉을 상호 작용 네트워크로 간주하는 것이다. 접촉에는 장거리 상호작용과 단거리 상호작용이라는 두 가지 유형으로 자연적인 구분이 있다. 1차 구조에서는 서로 멀리 떨어져 있지만 3차 구조에서는 훨씬 더 가까운 거리에 위치한 잔기 사이에서 장거리 상호작용이 발생한다. 이러한 상호작용은 전체 토폴로지를 정의하는 데 중요하다. 단거리 상호작용은 1차, 2차 및 3차 구조 모두에서 서로 국소적인 잔기들 사이에서 발생한다. 노드로 지칭되는 대부분의 네트워크 및 링크는 상당히 간단하다. 단백질 전이 상태를 볼 때, Cα 원자는 노드로 간주되어 왔으며, 원자가 서로 8.5Å 이내이면 두 노드 사이의 연결이 성립된다.
도 18(a) 내지 도 18(d)는 단백질 접촉 맵을 구축하는 단계를 나타낸다. 각 아미노산의 Cα 원자는 도 18(a)와 같이 해당 단백질 접촉 네트워크의 정점으로 간주되어 왔다. 각각의 잔기 쌍 사이의 거리는 유클리드 거리를 사용하여 결정되고 거리 행렬의 일부는 도 18(b)에 나타나 있다. 거리 행렬에서 대각선은 같은 잔기 사이의 거리가 0이므로 항상 0이다. 임의의 2개의 잔기가 연결되어 있는지 여부를 결정하기 위해, 잔기 사이의 거리는 설명된 구현예에서 컷오프 값 7Å 거리보다 작거나 같아야 한다. 컷오프 거리의 선택은 폴리펩티드 사슬이 고유 상태로 접히는 것을 담당하는 비공유 상호작용의 범위에 기반한다. 5Å 내지 7Å 내지 8.5Å 범위의 다양한 컷오프가 사용될 수 있다. 단백질 접촉 맵은 2차원 이진 행렬로 나타낸 상기 컷오프 값을 사용하여 유도된다(도 18(c)). 임의의 두 개의 잔기가 연결되어 있으면 매트릭스 셀 값이 1(검은색), 연결되어 있지 않으면 0(흰색)으로 설정된다(도 18(d)).
도 19(a) 내지 도 19(d)는 2D 단백질 접촉 맵(도 19(b))과 대응하는 3D 단백질 구조(도 19(a)) 사이의 관계를 나타낸다. 3D 단백질 구조(도 19(a))의 단백질 접촉 네트워크(도19(d))를 구성하기 위해서는 데카르트 또는 xyz 좌표가 필요하며, 이는 RCSB 단백질 데이터 은행에서 얻을 수 있다. 오픈 소스 분자 그래픽 시각화 도구인 Rasmol을 이용하여 Trp-cage 미니단백질(20개 아미노산)의 2차 구조를 시각화한다. 단백질 접촉 맵은 도 19(b)에 나타낸 바와 같이 7Å 컷오프 거리로 결정되고, 이 거리는 비공유 상호작용을 나타낸다. 단백질 접촉 네트워크는 이의 인접 매트릭스로 나타낼 수 있다(도 19(c), 즉, 단백질 접촉 맵의 이진 묘사). 행렬의 행 또는 열은 노드 또는 정점을 나타내고, 행렬 내의 요소는 링크 또는 에지를 나타낸다. 행렬의 요소 aij는 정점 i 및 j를 연결하는 에지가 있을 때마다 1과 동일하고, 그렇지 않으면 0과 동일하다. 그래프가 지향되지 않을 때, 인접 매트릭스는 대칭이고, 즉 임의의 i와 j에 대한 원소 aij = aji이다. 인접 행렬의 각각의 요소는 두 노드 사이의 연결을 나타낸다. 예를 들어, 노드 1이 노드 2, 3, 4, 및 5와 연결되어 있으므로, a12 = a13 = a14 = a15 = 1이고, 대칭 요소에 대해서는 a21 = a31 = a41 = a51 = 1이다. 이어서, 이러한 인접 매트릭스는 대규모 네트워크 분석 도구를 위한 프로그램인 Pajek를 사용하여 도 19(d)에 나타난 바와 같이 비지향 네트워크로서 시각화될 수 있다.
도 20, 도 21, 도 22, 도 23, 도 24, 도 25, 및 도 26은 대응하는 3D 단백질 구조를 나타내는 2D 단백질 접촉 맵의 상이한 예를 설명한다.
도 20에서, 우측에 단백질의 3차원 단백질 구조를 나타내고, 좌측에 해당 단백질의 2차원 단백질 접촉 지도를 나타낸다. 2D 단백질 접촉 맵의 x축 및 y축은 단백질의 잔기(아미노산), 즉 L × L, 여기서 L = 1500이다. 2D 단백질 접촉 맵의 컬러 코딩은 잔기 쌍 사이의 공간적 근접성을 나타낸다. 예를 들어, 3D 단백질 구조에서 이들 사이에 0 내지 20 옹스트롬(Å)의 거리를 갖는 단백질의 잔기 쌍은 2D 단백질 접촉 맵에서 보라색 접촉으로 묘사된다. 유사하게, 다른 예로서, 3D 단백질 구조에서 이들 사이에 140Å 이상의 거리를 갖는 단백질의 이들 잔기 쌍은 2D 단백질 접촉 맵에서 노란색 접촉으로 묘사된다.
우측에서, 도 21 내지 도 26은 구리 수송 단백질 ATOX1의 3D 단백질 구조를 나타낸다. 좌측에서, 도 21 내지 도 26은 ATOX1 단백질의 3D 단백질 구조에 대응하는 2D 단백질 접촉 맵을 도시한다.
도 21 내지 도 26에서, 접촉 값 및 생성된 접촉 패턴이 컬러 코딩 스킴에 의해 도시된다. 예를 들어, 3D 단백질 구조에서 이들 사이에 0 내지 5Å의 거리를 갖는 ATOX1 단백질의 잔기 쌍은 컬러 코딩 방식에 따라 2D 단백질 접촉 맵에서 검정색 접촉으로 묘사된다. 유사하게, 다른 예로서, 3D 단백질 구조에서 이들 사이에 25Å이상의 거리를 갖는 ATOX1 단백질의 이들 잔기 쌍은 2D 단백질 접촉 맵에서 밝은 주황색 접촉으로 묘사된다.
다시 말하면, 도 21 내지 도 26에서, 2D 단백질 접촉 맵은 "더 어두운 음영"을 갖는 3D 단백질 구조에서 "공간적으로 근접한" 잔기 쌍을 도시하고, "더 밝은 음영"을 갖는 3D 단백질 구조에서 "공간적으로 멀리 떨어진" 잔기 쌍을 도시한다. 또한 특정 잔기 쌍은 단백질의 "순차적" 아미노산 서열에서 "공간적으로 멀리" 있을 수 있지만 3D 단백질 구조에서 "공간적으로 근접"할 수 있으므로 이들의 "3D 공간적 근접성"은 2D 단백질 접촉 맵에서 "더 어두운 음영"으로 표시된다.
또한, 도 21 내지 도 26의 2D 단백질 접촉 맵은 어두운 대각선을 갖는다는 것에 유의한다. 이것은 2D 단백질 접촉 맵이 서열 길이 행렬에 의한 서열 길이(즉, L × L, 여기서 L = 66)이고, 동일한 위치/동일한 잔기의 잔기 쌍의 각각의 "일치하는" 예가 높은 접촉 값을 초래하고, 따라서 어두운 접촉 패턴을 초래하기 때문이다. 따라서, 예를 들어, 2D 단백질 접촉 맵은 높은 접촉 값을 가질 것이고, 따라서 잔기 쌍 (1, 1), (2, 2), (3, 3), ..., (66, 66)에 대한 어두운 접촉 패턴을 가질 것이며, 이들 모두는 2D 단백질 접촉 맵에서 어두운 대각선을 형성한다.
도 21은 ATOX1 단백질의 잔기 1 내지 11에 걸쳐 있는 관심 영역에 초점을 맞춘다. 잔기 1 내지 11은 ATOX1 단백질의 3D 단백질 구조의 베타 시트/가닥 화살표 상에 위치한다. 이 베타 시트 화살표는 우측에서 도 21에 붉은색으로 도시된다.
좌측의 시안 박스에서, 도 21은 잔기 1 내지 11에 걸쳐 있는 잔기 쌍 사이의 ATOX1 단백질의 3D 단백질 구조에서의 공간적 거리/상호작용을 인코딩하는 2D 단백질 접촉 맵에서 이러한 접촉 값 및 그에 따른 접촉 패턴을 강조한다. 시안 박스 내부에서, 접촉 값의 색상 음영 및 그에 따른 접촉 패턴은 어두운 대각선 주위에 어두운 대각선 및 밝은 측면 영역을 만든다. 이는 잔기 1 내지 11에 걸쳐 순차적으로 먼 잔기 쌍 사이에 3D 상호작용이 거의 또는 전혀 없음을 나타낸다. 하나의 예외는 잔기 쌍 (4, 8) 또는 (8, 4)이다. 잔기 4 및 8은 순차적으로 멀리 떨어져 있지만, 더 큰 3차원 공간 근접/상호작용을 가지며, 이는 도 21의 시안 박스 내 잔기 쌍 (4, 8) 또는 (8, 4)에 대한 접촉 값에 대응하는 더 밝은 음영으로 표시된다.
도 22는 ATOX1 단백질의 잔기 12 내지 28에 걸쳐 있는 관심 영역에 초점을 맞춘다. 잔기 12 내지 28은 ATOX1 단백질의 3D 단백질 구조의 알파 나선 상에 위치한다. 이 알파 나선은 우측에서 도 22에 붉은색으로 도시된다.
좌측의 시안 박스에서, 도 22은 잔기 12 내지 28에 걸쳐 있는 잔기 쌍 사이의 ATOX1 단백질의 3D 단백질 구조에서의 공간적 거리/상호작용을 인코딩하는 2D 단백질 접촉 맵에서 이러한 접촉 값 및 그에 따른 접촉 패턴을 강조한다. 시안 박스 내부에서, 접촉 값의 색상 음영 및 그에 따른 접촉 패턴은 확장된 어두운 대각선 주위에 "확장된" 어두운 대각선 및 "수축된" 밝은 측면 영역을 만든다. 이는 잔기 12 내지 28에 걸쳐 순차적으로 먼 잔기 쌍 사이에 상당한 3D 상호작용이 존재함을 나타낸다. 특히, 4개의 잔기 위치인 잔기 12 내지 28에 걸쳐 있는 잔기 쌍은 더 큰 상호작용, 예를 들어 잔기 쌍 (12, 16) 또는 (16, 12), (20, 24) 또는 (24, 20) 등을 갖는다.
도 23는 ATOX1 단백질의 잔기 29 내지 47에 걸쳐 있는 관심 영역에 초점을 맞춘다. 잔기 29 내지 47은 ATOX1 단백질의 3D 단백질 구조의 2개의 반-평행 베타 시트 화살표 상에 위치한다. 이들 반-평행 베타 시트 화살표는 반대 방향으로 작동하고, 도 23에 붉은색으로 도시되어 있다.
좌측의 시안 박스에서, 도 23은 잔기 29 내지 47에 걸쳐 있는 잔기 쌍 사이의 ATOX1 단백질의 3D 단백질 구조에서의 공간적 거리/상호작용을 인코딩하는 2D 단백질 접촉 맵에서 이러한 접촉 값 및 그에 따른 접촉 패턴을 강조한다. 시안 박스 내부에서, 접촉 값의 색상 음영 및 그에 따른 접촉 패턴은 교차 어두운 대각선 주위에 "교차" 어두운 대각선 및 "4개의 삼각형" 밝은 측면 영역을 만든다. 이는 잔기 29 내지 47에 걸쳐 순차적으로 "역" 잔기 쌍 사이에 상당한 3D 상호작용이 존재함을 나타낸다. 예를 들어, 잔기 29 내지 47에 걸쳐 순차적으로 인접한 잔기 쌍은 어두운(예를 들어, 잔기 쌍 (29, 30), (30, 31))이지만, 순차적으로 반대 또는 역 잔기 쌍(예를 들어, 잔기 쌍 (29, 47) 및 (28, 46))도 마찬가지이다.
도 24는 ATOX1 단백질의 잔기 48 내지 60에 걸쳐 있는 관심 영역에 초점을 맞춘다. 잔기 48 내지 60은 ATOX1 단백질의 3D 단백질 구조의 또 다른 알파 나선 상에 위치한다. 이 알파 나선은 우측에서 도 24에 붉은색으로 도시된다.
좌측의 시안 박스에서, 도 24은 잔기 48 내지 60에 걸쳐 있는 잔기 쌍 사이의 ATOX1 단백질의 3D 단백질 구조에서의 공간적 거리/상호작용을 인코딩하는 2D 단백질 접촉 맵에서 이러한 접촉 값 및 그에 따른 접촉 패턴을 강조한다. 시안 박스 내부에서, 접촉 값의 색상 음영 및 그에 따른 접촉 패턴은 확장된 어두운 대각선 주위에 다른 "확장된" 어두운 대각선 및 "수축된" 밝은 측면 영역을 만든다. 이는 잔기 48 내지 60에 걸쳐 순차적으로 먼 잔기 쌍 사이에 상당한 3D 상호작용이 존재함을 나타낸다. 특히, 4개의 잔기 위치인 잔기 48 내지 60에 걸쳐 있는 잔기 쌍은 더 큰 상호작용, 예를 들어 잔기 쌍 (48, 52) 또는 (52, 48), (56, 60) 또는 (60, 56) 등을 갖는다.
도 25는 ATOX1 단백질의 잔기 61 내지 68에 걸쳐 있는 관심 영역에 초점을 맞춘다. 잔기 61 내지 68은 ATOX1 단백질의 3D 단백질 구조의 작은 베타 시트/가닥 상에 위치한다. 이 작은 베타 시트는 우측에서 도 25에 붉은색으로 도시된다.
좌측의 시안 박스에서, 도 25은 잔기 61 내지 68에 걸쳐 있는 잔기 쌍 사이의 ATOX1 단백질의 3D 단백질 구조에서의 공간적 거리/상호작용을 인코딩하는 2D 단백질 접촉 맵에서 이러한 접촉 값 및 그에 따른 접촉 패턴을 강조한다. 시안 박스 내부에서, 접촉 값의 색상 음영 및 그에 따른 접촉 패턴은 확장된 어두운 대각선 주위에 또 다른 "확장된" 어두운 대각선 및 "수축된" 밝은 측면 영역을 만든다. 이는 잔기 61 내지 68에 걸쳐 순차적으로 먼 잔기 쌍 사이에 상당한 3D 상호작용이 존재함을 나타낸다.
도 26의 시안 박스는 ATOX1 단백질의 2D 단백질 접촉 맵에서 순차적으로 멀리 떨어진 잔기 쌍 (8, 37)과 (8, 60) 사이의 상당한 3D 공간 근접/상호작용을 나타낸다.
3D 단백질 구조, 그리고 프록시에 의한 2D 단백질 접촉 맵은 따라서 변이 병원성 결정에 기여함
상기 논의는 2D 단백질 접촉 맵이 3D 단백질 구조의 프록시임을 설명한다. 이제 논의는 3D 단백질 구조, 따라서 3D 단백질 접촉 맵이 어떻게 변이 병원성 결정에 기여하는지로 넘어간다.
도 27은 병원성 변이가 선형/순차적 아미노산 서열을 따라 공간적으로 거리 방식으로 분포되는 경향이 있지만, 3D 단백질 구조의 특정 영역에서 클러스터링되는 경향이 있으며, 단백질 접촉 맵이 변이 병원성 예측의 작업에 기여한다는 개념을 그래프로 설명한다. 이것은 단백질 접촉 맵이 3D 단백질 구조에서 돌연변이를 경험하는 순차적으로 먼 잔기의 3D 공간 근접성을 캡처하기 때문에 단백질 접촉 맵이 변이의 병원성을 결정하는 데 특히 유용하다는 것을 의미한다. 따라서, 개시된 기술은 변이 병원성 예측을 생성하기 위해 입력 신호로서 단백질 접촉 맵을 사용한다.
병원성 분류기
도 28은 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)에 의해 생성된 단백질 접촉 맵(2826)에 적어도 부분적으로 기반하여 변이 병원성 분류(2814)를 이루는 병원성 분류기(2812)를 도시한다.
일 구현예에서, 병원성 분류기(2812)는 (i) 단백질의 참조 아미노산 서열(REF)(2816), (ii) 변이 뉴클레오티드에 의해 야기된 변이 아미노산을 포함하는 단백질의 대체 아미노산 서열(2804), (iii) 단백질의 아미노산별 영장류 보존 프로파일(2806)(예를 들어, 상동 영장류 서열만으로의 정렬로부터 결정된 PSFM), (iv) 단백질의 아미노산별 포유류 보존 프로파일(2808)(예를 들어, 상동 포유류 서열만으로의 정렬로부터 결정된 PSFM), (v) 단백질의 아미노산별 척추동물 보존 프로파일(2816)(예를 들어, 상동 척추동물 서열만으로의 정렬로부터 결정된 PSFM), 및 (vi) 단백질의 접촉 맵(2826) 중 적어도 하나를 처리한다. 병원성 분류기(2812)에 의해 생성된 출력은 변이 병원성 분류(2814)이다.
일 구현예에서, 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)는 (i) 단백질의 참조 아미노산 서열(REF)(2816), (ii) 단백질의 2차 구조(SS) 프로파일(2818), (iii) 단백질의 용매 접근성(SA) 프로파일(2820), (iv) 단백질의 위치-특이적 빈도 행렬(PSFM)(2822), 및 (v) 단백질의 위치-특이적 점수 행렬(PSSM)(2824) 중 적어도 하나를 처리하는 것에 응답하여 단백질 접촉 맵(2826)을 생성한다.
일 구현예에서, 병원성 분류기(2812)는 신경망이다. 다른 구현예에서, 병원성 분류기(2812)는 복수의 컨볼루션 층을 갖는 컨볼루션 신경망(CNN)을 사용한다. 다른 구현예에서, 병원성 분류기(2812)는 장단기 메모리 네트워크(long short-term memory network, LSTM)들, 양방향 LSTM(bi-directional LSTM, Bi-LSTM)들, 및 게이트형 순환 유닛(gated recurrent unit, GRU)들과 같은 순환 신경망(recurrent neural network, RNN)들을 사용한다. 또 다른 구현예에서, 병원성 분류기(2812)는 CNN들 및 RNN들 둘 모두를 사용한다. 또 다른 구현예에서, 병원성 분류기(2812)는 그래프 구조화된 데이터의 종속성을 모델링하는 그래프 컨볼루션 신경망을 사용한다. 또 다른 구현예에서, 병원성 분류기(2812)는 변이형 오토인코더(VAE)를 사용한다. 또 다른 구현예에서, 병원성 분류기(2812)는 생성적 대립 신경망(GAN)을 사용한다. 또 다른 구현예에서, 병원성 분류기(2812)는 또한, 예를 들어 변환기 및 BERT에 의해 구현된 것과 같은 자가주의에 기초한 언어 모델일 수 있다. 또 다른 구현예에서, 병원성 분류기(2812)는 완전 접속 신경망(FCNN)을 사용한다.
또 다른 구현예들에서, 병원성 분류기(2812)는 1D 콘볼루션, 2D 콘볼루션, 3D 콘볼루션, 4D 콘볼루션, 5D 콘볼루션, 확장형 또는 아트로스 콘볼루션, 전치 콘볼루션, 깊이별 분리가능 콘볼루션, 포인트별 콘볼루션, 1 × 1 콘볼루션, 그룹 콘볼루션, 편평형 콘볼루션, 공간 및 교차 채널 콘볼루션, 셔플 그룹형 콘볼루션, 공간 분리가능 콘볼루션, 및 디콘볼루션을 사용할 수 있다. 병원성 분류기(2812)는 하나 이상의 손실 함수, 예컨대 로지스틱 회귀/로그 손실, 다중클래스 교차-엔트로피/소프트맥스 손실, 이진 교차-엔트로피 손실, L1 손실, L2 손실, 평활한 L1 손실, 및 Huber 손실을 사용할 수 있다. 그것은 임의의 병렬성, 효율성, 및 압축 스킴, 예컨대 TFRecord, 압축 인코딩(예컨대, PNG), 샤딩, 맵 변환을 위한 병렬 검출, 배칭, 프리페칭, 모델 병렬성, 데이터 병렬성, 및 동기식/비동기식 확률적 기울기 하강법(SGD)을 사용할 수 있다. 병원성 분류기(2812)는 업샘플링 층, 다운샘플링 층, 순환 접속부, 게이트 및 게이트형 메모리 유닛(예컨대, LSTM 또는 GRU), 잔차 블록, 잔차 접속부, 하이웨이 접속부, 스킵 접속부, 핍홀 접속부, 활성화 함수(예컨대, 정류화 선형 유닛(ReLU), 리키 ReLU, 지수 선형 유닛(ELU), 시그모이드 및 쌍곡 탄젠트(tanh)와 같은 비선형 변환 함수), 배치 정규화 층, 규칙화 층, 드롭아웃, 풀링 층(예컨대, 최대 또는 평균 풀링), 글로벌 평균 풀링 층, 감쇠 메커니즘, 및 가우스 에러 선형 유닛을 포함할 수 있다.
일부 구현예에서, 병원성 분류기(2812)는 역전파 기반 기울기 업데이트 기법을 사용하여 훈련될 수 있다. 병원성 분류기(2812)를 훈련시키기 위해 사용될 수 있는 예시적인 기울기 하강 기법은 확률적 기울기 하강법(SGD), 배치 기울기 하강법, 및 미니-배치 기울기 하강법을 포함한다. 병원성 분류기(2812)를 훈련시키는 데 사용될 수 있는 기울기 하강 최적화 알고리즘들의 일부 예들은 Momentum, Nesterov 가속화된 기울기, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, 및 AMSGrad이다. 다른 구현예에서, 병원성 분류기(2812)는 무감독형 학습, 반감독형 학습, 자가 학습, 강화 학습, 멀티태스크 학습, 다중 모드 학습, 전달 학습, 지식 증류 등에 의해 훈련될 수 있다.
병원성 분류기의 예시적인 아키텍처
도 29는 개시된 기술의 일 구현예에 따른, 병원성 분류기(2812)의 예시적인 네트워크 아키텍처(2900)를 도시한다. 일 구현예에서, 병원성 분류기(2812)는 하나 이상의 초기 1D 컨볼루션 층(2903, 2904), 그 다음에 제1 1D 잔차 블록(2905), 그 다음에 하나 이상의 중간 1D 컨볼루션 층(예를 들어, 1D 컨볼루션 층(2906)), 그 다음에 제2 1D 잔차 블록(2907), 그 다음에 공간 차원수 증강 층(2909), 그 다음에 제1 2D 잔차 블록(2915), 그 다음에 하나 이상의 말단 2D 컨볼루션 층(예를 들어, 1D 컨볼루션 층(2916)), 그 다음에 완전 접속 신경망(2917), 그리고 그 다음에 분류 층(예를 들어, 시그모이드 또는 소프트맥스)을 포함한다.
도 29에서, 훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)에 대한 입력(2911)은 위에서 논의된 바와 같이, 입력(202)과 유사한 방식으로 텐서화된다.
도 29에서, 병원성 분류기(2812)에 대한 입력(2902)은 단백질-언더-분석의 참조 아미노산 서열, 변이 뉴클레오티드에 의해 야기된 변이 아미노산을 함유하는 단백질-언더-분석의 대체 아미노산 서열, 단백질-언더-분석의 아미노산별 영장류 보존 프로파일, 단백질-언더-분석의 아미노산 포유류 보존 프로파일, 및 단백질-언더-분석의 아미노산별 척추동물 보존 프로파일을 포함한다. 일 구현예에서, 입력(2902)은 (i) 참조 아미노산 서열의 원-핫 인코딩의 L × 20 × 1 행렬(여기서, L은 참조 아미노산 서열의 아미노산 수이고, 20은 20개의 아미노산 카테고리를 나타낸다), (ii) 대체 아미노산 서열의 원-핫 인코딩의 L × 20 × 1 행렬, (iii) 상동 영장류 서열로의 정렬로부터 결정된 PSFM의 L × 20 × 1 행렬, (iv) 상동 포유류 서열만으로의 정렬로부터 결정된 PSFM의 L × 20 × 1 행렬, 및 (v) 상동 척추동물 서열만으로의 정렬로부터 결정된 PSFM의 L × 20 × 1 행렬을 연결하는 텐서이다. 일부 구현예에 따른, 결과적으로 연결된 텐서(2902)는 크기 L × 100 × 1이다.
텐서(2902)는 초기 1D 컨볼루션 층(2903, 2904), 제1 1D 잔차 블록(2905), 하나 이상의 중간 1D 컨볼루션 층(예를 들어, 1D 컨볼루션 층(2906)), 및 제2 1D 잔차 블록(2907)에 의해 처리되어 컨볼루션된 순차적 특징(2908)(L × n)을 생성한다. 공간 차원수 증강 층(2909)은 컨볼루션된 순차적 특징(2908)을 처리하고 공간적으로 증강된 출력(2910)(L × L × 2n)을 생성한다.
훈련된 단백질 접촉 맵 생성 서브-네트워크(112T)는 입력(2911)을 처리하여 단백질 접촉 맵(2912)을 생성한다. 비너(binner)(2913)는 단백질 접촉 맵(2912) 내의 접촉 점수/거리를 거리의 범위로 비닝한다. 예를 들어, 단백질 접촉 맵(2912) 내의 잔기 쌍 접촉 거리는 [0-1Å], [1-2Å], [2-3Å], [3-4Å], [4-5Å], [4-6Å], [5-6Å], ..., [25Å 이상]과 같은 25개의 빈으로 비닝될 수 있다. 비너(2913)의 출력은 차원수 L × L × 25의 비닝된 거리(2914)이다.
비닝된 거리(2914)는 공간적으로 증강된 출력(2910)과 연결(CT)(2920)된다. 본원에 사용되는 바와 같이, 연결 작업은 연결(스티칭), 합산, 또는 곱셈에 의한 조합을 포함할 수 있다. 결과적으로 연결된 출력은 제1 2D 잔차 블록(2915), 하나 이상의 말단 2D 컨볼루션 층(예컨대, 1D 컨볼루션 층(2916)), 완전 접속 신경망(2917), 및 분류 층(예컨대, 시그모이드 또는 소프트맥스(미도시))에 의해 처리되어 병원성 점수(2918)를 생성한다.
또한, 도 29에서, "N1 = 2"는 제1 1D 잔차 블록(2905) 내의 2개의 1D 컨볼루션 층을 나타내고, "N2 = 3"은 제2 1D 잔차 블록(2907) 내의 3개의 1D 컨볼루션 층을 나타내며, "N3 = 3"은 제1 2D 잔차 블록(2915) 내의 3개의 2D 컨볼루션 층을 나타낸다. N1, N2, 및 N3은 상이한 구현예에서 임의의 숫자일 수 있다.
프로세스
도 30은 변이 병원성 예측의 컴퓨터 구현 방법의 하나의 구현예를 실행하는 흐름도이다. 일 구현예에서, 도 30의 흐름도는 런타임 로직(3000)에 의해 실행된다. 단계(3002)로서, 방법은 단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 단계를 포함한다. 단계(3012)로서, 방법은 대체 아미노산 서열을 처리하는 단계, 및 대체 아미노산 서열의 처리된 표현을 생성하는 단계를 포함한다. 단계(3012)로서, 방법은 참조 아미노산 서열 및 대체 아미노산 서열의 처리된 표현을 처리하고, 단백질의 단백질 접촉 맵을 생성하는 단계를 포함한다. 단계(3032)로서, 방법은 단백질 접촉 맵을 처리하는 단계, 및 변이 아미노산의 병원성 표시를 생성하는 단계를 포함한다.
도 31은 변이 병원성 분류의 컴퓨터 구현 방법의 하나의 구현예를 실행하는 흐름도이다. 일 구현예에서, 도 30의 흐름도는 런타임 로직(3100)에 의해 실행된다. 단계(3102)에서, 방법은 (i) 단백질의 참조 아미노산 서열, (ii) 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열, 및 (iii) 단백질의 단백질 접촉 맵을 저장하는 단계를 포함한다. 단계(3112)에서, 방법은 (i) 참조 아미노산 서열, (ii) 대체 아미노산 서열, 및 (iii) 단백질 접촉 맵을 제1 신경망에 입력으로서 제공하고, 제1 신경망이 (i) 참조 아미노산 서열, (ii) 대체 아미노산 서열, 및 (iii) 단백질 접촉 맵에 대한 처리에 응답하여 출력으로서 변이 아미노산의 병원성 표시를 생성하도록 하는 단계를 포함한다.
독창성 및 진보성의 객관적 지표로서의 성능 결과
도 32는 상이한 테스트 데이터 세트에 적용된 바와 같이 변이 병원성 예측의 작업에서 변이 병원성 예측 네트워크(190)의 상이한 구현에 의해 달성된 성능 결과를 나타낸다. 도 32의 표는 5개의 평가 지표(즉, 5개의 테스트 데이터 세트)(열)에 대한 5개 모델(행)의 성능 평가를 보여준다.
"1D 모델"이라고 불리는 제1 모델은 1D 컨볼루션만을 사용하고 2D 접촉 맵을 입력의 일부로 사용하지 않는 변이 병원성 예측 네트워크이다. 1D 모델은 본 개시내용의 목적을 위해 벤치마크 모델로 간주될 수 있다. 또한, 도 32에서, 8개의 1D 모델의 앙상블을 갖는 벤치마킹이 또한 주목된다.
"2D Cmap + 모든 훈련이 가능한 1FC"이라고 불리는 제2 모델은 2D 컨볼루션과 완전 접속(FC) 신경망을 갖는 변이 병원성 예측 네트워크(190)의 한 구현예이다(예를 들어, 병원성 점수 서브-네트워크(144)의 완전 접속 신경망(358) 부분을 갖는 도 3에 도시된 것). "모든 훈련이 가능한(All trainable)"은 전이학습 구현예(예를 들어, 도 1b에 도시된 전이학습)의 단대단 재훈련 단계에서 완전 접속(FC) 신경망을 포함하는 전체 변이 병원성 예측 네트워크(190)가 재훈련되는 개념을 의미한다.
"2D Cmap + 보존 입력 동결 Cmap 층"이라고 불리는 제3 모델은 2D 컨볼루션을 사용하고 입력 보존 데이터(예: PSFM, PSSM, 공진화 특징)로 사용하는 변이 병원성 예측 네트워크(190)의 한 구현예이다. "동결 Cmap 층"은 2D 접촉 맵을 출력으로 생성하는 변이 병원성 예측 네트워크(190)의 층(예를 들어, 단백질 접촉 맵 생성 서브-네트워크(112))이 전이학습 구현예(예를 들어, 도 1b에 도시된 전이학습)의 단대단 재교육 단계 동안 재교육되지 않고 동결된 상태로 유지된다는 개념을 의미한다. 단백질 접촉 맵 생성 서브-네트워크(112)는 도 1a에 나타낸 바와 같이 적어도 한 번 훈련되지만, 변이 병원성 예측 네트워크(190)의 일부로서 도 1b에 재훈련되지 않는 전이학습의 일부 구현예에서 훈련된다는 것에 유의한다. 전이학습의 다른 구현예에서, 단백질 접촉 맵 생성 서브-네트워크(112)는 변이 병원성 예측 네트워크(190)의 일부로서 재훈련될 수 있다.
"2D Cmap + 모든 훈련이 가능한 보존 입력"이라고 불리는 제4 모델은 2D 컨볼루션을 사용하고 입력 보존 데이터(예: PSFM, PSSM, 공진화 특징)로 사용하는 변이 병원성 예측 네트워크(190)의 한 구현예이다. "모든 훈련이 가능한"은 변이 인코딩 서브-네트워크(128), 단백질 접촉 맵 생성 서브-네트워크(112), 및 병원성 점수 서브-네트워크(144)를 포함하는 변이 병원성 예측 네트워크(190)의 전체가 전이학습 구현예(예를 들어, 도 1b에 도시된 전이학습)의 단대단 재훈련 단계 동안 재훈련된다는 개념을 의미한다.
"2D Cmap + 모든 훈련이 가능한 보존 입력"이라고 불리는 제5 모델은 2D 컨볼루션을 사용하고 입력 보존 데이터(예: PSFM, PSSM, 공진화 특징)로 사용하는 변이 병원성 예측 네트워크(190)의 하나의 앙상블 구현예이다. "앙상블"은 변이 병원성 예측 네트워크(190)의 다수의 예가 동일한 입력을 개별적으로 처리하고 각각의 출력(예를 들어, 각각의 병원성 예측)을 제작한다는 개념을 의미한다. 최종 출력(예를 들어, 최종 병원성 예측)은 각각의 출력에 기반하여(예를 들어, 각각의 병원성 예측을 평균화함으로써, 또는 각각의 병원성 예측 중 최대 하나를 선택함으로써) 생성된다. 변이 병원성 예측 네트워크(190)의 다수의 경우는 상이한 계수/가중치 값을 갖지만 동일한 아키텍처를 갖는다. 도 32에 설명된 구현예에서, 앙상블은 변이 병원성 예측 네트워크(190)의 10개의 예를 갖는다. "모든 훈련이 가능한"은 전이학습 구현예전이학습 구현예(예를 들어, 도 1b에 도시된 전이학습)의 단대단 재훈련 단계에서 전체 변이 병원성 예측 네트워크(190)가 재훈련되는 개념을 의미한다.
5개의 평가 지표를 살펴보면, 제1 평가 지표인 "양성 테스트 세트의 정확도"는 인간 양성 변이 및 비인간 영장류 양성 변이(예를 들어, 영장류 AI에 의해 발견된 바와 같이)를 포함할 수 있는 양성 변이 데이터 세트(예를 들어, 1만 개)에 대한 주어진 모델의 예측 정확도를 지칭한다.
제2 평가 지표 "DDD vs 대조군에서 -log(Pval)"은 Wilcoxon rank-sum 테스트의 음의 로그 p-값(-log(Pval))을 사용하여 다운증후군과 같은 발달 장애를 가진 개인(DDD)으로부터 취한 병원성 변이를 "병원성"으로 확인/분리하고 건강한 개인(대조군)으로부터 취한 양성 변이를 "양성"으로 확인/분리하는 데 있어 주어진 모델의 정확도를 가리킨다.
제3 평가 지표 "DDD vs 대조군에서 605 유전자 내의 -log(Pval)"은 Wilcoxon rank-sum 테스트의 음의 로그 p-값(-log(Pval))을 사용하여 다운증후군과 같은 발달 장애를 가진 개인(DDD)으로부터 취한 병원성 변이를 "병원성"으로 확인/분리하고 임상적으로 병원성 변이를 "병원성"으로 경험하는 것으로 알려진 "605 유전자" 중 하나에 위치하며 건강한 개인(대조군)으로부터 취한 양성 변이를 "양성"으로 확인/분리하는 데 있어 주어진 모델의 정확도를 가리킨다.
제4 평가 지표 "새로운 DDD vs 새로운 대조군에서 -log(Pval)"은 Wilcoxon rank-sum 테스트의 음의 로그 p-값(-log(Pval))을 사용하여 다운증후군과 같은 발달 장애를 가진 새로운 개인(DDD)으로부터 취한 병원성 변이를 "병원성"으로 확인/분리하고 새로운 건강한 개인(대조군)으로부터 취한 양성 변이를 "양성"으로 확인/분리하는 데 있어 주어진 모델의 정확도를 가리킨다.
제5 평가 지표 "새로운 DDD vs 새로운 대조군에서 605 유전자 내의 -log(Pval)"은 Wilcoxon rank-sum 테스트의 음의 로그 p-값(-log(Pval))을 사용하여 다운증후군과 같은 발달 장애를 가진 새로운 개인(DDD)으로부터 취한 병원성 변이를 "병원성"으로 확인/분리하고 임상적으로 병원성 변이를 "병원성"으로 경험하는 것으로 알려진 "605 유전자" 중 하나에 위치하며 새로운 건강한 개인(대조군)으로부터 취한 양성 변이를 "양성"으로 확인/분리하는 데 있어 주어진 모델의 정확도를 가리킨다.
5개의 평가 지표(즉, 5개의 테스트 데이터 세트)에 대한 5개의 모델의 성능 결과를 살펴보면, 제5 모델, 즉 "앙상블 2D Cmap + 모든 훈련이 가능한 보존 입력" 모델은 다른 모든 모델을 능가한다. 이는 "양성"으로 설정된 10,000개의 양성 변이 테스트 데이터에서 양성 변이를 예측하는 제5 모델의 90.7% 예측 정확도와 더 높은 p-값에 의해 입증된다. 높은 p-값은 양성 대조군 변이로부터 병원성/질병 유발/불량 DDD 변이를 더 잘 분리/구분하여 더 나은 모델 성능을 보여주는 주어진 모델을 나타낸다.
도 33은 상이한 테스트 세트에 적용된 바와 같이, 변이 병원성 분류의 작업에 대한 병원성 분류기의 상이한 구현에 의해 달성된 성능 결과를 나타낸다.
도 33의 표는 2개의 평가 지표(즉, 2개의 테스트 데이터 세트)(열)에 대한 6개 모델(행)의 성능 평가를 보여준다. 2D 접촉 맵의 사용(예를 들어, 제6 모델과 함께)은 또한 2D 모델과 함께 비사용에 대해 평가된다.
제1 테스트 데이터 세트인 "양성 테스트 세트의 정확도"는 예를 들어, 인간 양성 변이 및 비인간 영장류 양성 변이(예를 들어, 영장류 AI에 의해 발견된 바와 같이)를 포함할 수 있는 양성 변이 데이터 세트(예를 들어, 1만(10.000)개의 양성 변이)이다. 제2 테스트 데이터 세트 "DDD vs 대조군에서 -log(Pval)"은 Wilcoxon rank-sum 테스트의 음의 로그 p-값(-log(Pval))을 사용하여 다운증후군과 같은 발달 장애를 가진 개인(DDD)으로부터 취한 병원성 변이를 "병원성"으로 확인/분리하고 건강한 개인(대조군)으로부터 취한 양성 변이를 "양성"으로 확인/분리하는 데 있어 주어진 모델의 정확도를 가리킨다. 또한, 도 33에서, 6개의 모델 각각은 8개의 예의 앙상블로서 구현됨에 유의한다. 다른 구현예에서, 상이한 수의 예가 사용될 수 있다.
"1D 모델"이라고 불리는 제1 모델은 1D 컨볼루션만을 사용하고 2D 접촉 맵을 입력의 일부로 사용하지 않는 변이 병원성 예측 네트워크이다. 1D 모델은 본 개시내용의 목적을 위해 벤치마크 모델로 간주될 수 있다.
5개의 2D 모델(행 2 내지 6), 즉 병원성 분류기(2812)의 5개의 상이한 구현예는 상이한 잔차 블록 세트(N1, N2 및 N3) 내의 상이한 잔차 블록의 수, 비-사용에 대한 완전 접속 층의 사용, 및 상이한 필터 크기(예를 들어, 5×2 v/s 2×5)의 사용을 갖는 각각의 아키텍처에서 상이하다.
도 33에 나타낸 바와 같이, 2D 접촉 맵을 사용하는 병원성 분류기(2812)는 입력 특징으로서, 즉 제6 모델은 평균적으로 더 양호한 성능을 갖는다.
컴퓨터 시스템
도 34은 개시된 기술을 구현하는 데 사용될 수 있는 예시적인 컴퓨터 시스템(3400) 이다. 컴퓨터 시스템(3400)은 버스 서브시스템(3455)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(3472)을 포함한다. 이러한 주변 디바이스는, 예를 들어 메모리 디바이스 및 파일 저장 서브시스템(3436)을 포함하는 저장 서브시스템(3410), 사용자 인터페이스 입력 디바이스(3438), 사용자 인터페이스 출력 디바이스(3476), 및 네트워크 인터페이스 서브시스템(3474)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨터 시스템(3400)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(3474)은 다른 컴퓨터 시스템에서의 대응하는 인터페이스 디바이스에 대한 인터페이스를 포함하는 인터페이스를 외부 네트워크에 제공한다.
일 구현예에서, 병원성 분류기(2104)는 저장 서브시스템(3410) 및 사용자 인터페이스 입력 디바이스(3438)에 통신가능하게 링크된다.
사용자 인터페이스 입력 디바이스(3438)는 키보드; 마우스, 트랙볼, 터치패드, 또는 그래픽 태블릿과 같은 포인팅 디바이스; 스캐너; 디스플레이 내에 통합된 터치 스크린; 음성 인식 시스템 및 마이크로폰과 같은 오디오 입력 디바이스; 및 다른 유형의 입력 디바이스를 포함할 수 있다. 대체적으로, 용어 "입력 디바이스"의 사용은 정보를 컴퓨터 시스템(3400)에 입력하기 위한 모든 가능한 유형의 디바이스 및 방식을 포함하도록 의도된다.
사용자 인터페이스 출력 디바이스(3476)는 디스플레이 서브시스템, 프린터, 팩스 기계, 또는 오디오 출력 디바이스와 같은 비시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은 LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평면 디바이스, 프로젝션 디바이스, 또는 가시적인 이미지를 생성하기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한, 오디오 출력 디바이스와 같은 비시각적 디스플레이를 제공할 수 있다. 대체적으로, "출력 디바이스"라는 용어의 사용은 정보를 컴퓨터 시스템(3400)으로부터 사용자에게 또는 다른 기계 또는 컴퓨터 시스템에 출력하기 위한 모든 가능한 유형들의 디바이스 및 방식을 포함하도록 의도된다.
저장 서브시스템(3410)은 본원에 기술된 모듈 및 방법 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 이러한 소프트웨어 모듈은 대체적으로, 프로세서(3478)에 의해 실행된다.
프로세서(3478)는 그래픽 처리 유닛(GPU), 필드 프로그래밍가능 게이트 어레이(FPGA), 주문형 반도체(ASIC), 및/또는 코어스-그레인드 재구성가능 아키텍처(CGRA)일 수 있다. 프로세서(3478)는 Google Cloud Platform™, Xilinx™, 및 Cirrascale™과 같은 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 프로세서(3478)의 예는 Google의 Tensor Processing Unit(TPU)™, 랙마운트 솔루션, 예컨대 GX4 Rackmount Series™, GX34 Rackmount Series™, NVIDIA DGX-1™, Microsoft의 Stratix V FPGA™, Graphcore의 Intelligent Processor Unit (IPU)™, Snapdragon processors™을 갖는 Qualcomm의 Zeroth Platform™, NVIDIA의 Volta™, NVIDIA의 DRIVE PX™, NVIDIA의 JETSON TX1/TX2 MODULE™, Intel의 Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM의 DynamicIQ™, IBM TrueNorth™, Testa V100s™을 갖는 Lambda GPU 서버 등을 포함한다.
저장 서브시스템(3410)에 사용되는 메모리 서브시스템(3422)은 프로그램 실행 동안 명령어 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(3432) 및 고정된 명령어가 저장되는 판독 전용 메모리(ROM)(3434)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브시스템(3436)은 프로그램 및 데이터 파일을 위한 영구 저장소를 제공할 수 있고, 하드 디스크 드라이브, 연관된 착탈식 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 착탈식 매체 카트리지를 포함할 수 있다. 소정 구현예의 기능을 구현하는 모듈은 저장 서브시스템(3410) 내의 파일 저장 서브시스템(3436)에 의해, 또는 프로세서에 의해 액세스가능한 다른 기계들에 저장될 수 있다.
버스 서브시스템(3455)은 컴퓨터 시스템(3400)의 다양한 컴포넌트 및 서브시스템이 의도된 대로 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(3455)이 개략적으로 단일 버스로서 도시되어 있지만, 버스 서브시스템의 대체 구현예는 다수의 버스를 사용할 수 있다.
컴퓨터 시스템(3400) 자체는 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 단말기, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 느슨하게 네트워킹된 컴퓨터의 광범위하게 분포된 세트, 또는 임의의 다른 데이터 처리 시스템 또는 사용자 디바이스를 포함한 다양한 유형의 것일 수 있다. 컴퓨터 및 네트워크의 지속적으로 변화하는(ever-changing) 특성으로 인해, 도 34에 묘사된 컴퓨터 시스템(3400)의 설명은 본 발명의 바람직한 구현예를 설명하기 위한 특정 예로서만 의도된다. 도 34에 묘사된 컴퓨터 시스템보다 더 많은 또는 더 적은 컴포넌트를 갖는 컴퓨터 시스템(3400)의 많은 다른 구성이 가능하다.
본원에서 사용되는 바와 같이, "로직"(예컨대, 데이터 흐름 로직)은 본원에 기술된 방법 단계를 수행하기 위한 컴퓨터 사용가능 프로그램 코드를 갖는 비일시적 컴퓨터 판독가능 저장 매체를 포함하는 컴퓨터 제품의 형태로 구현될 수 있다. "로직"은, 메모리, 및 메모리에 커플링되고 예시적인 방법 단계를 수행하기 위해 동작하는 적어도 하나의 프로세서를 포함하는 장치의 형태로 구현될 수 있다. "로직"은 본원에 기술된 방법 단계 중 하나 이상을 수행하기 위한 수단의 형태로 구현될 수 있고; 수단은 (i) 하드웨어 모듈(들), (ii) 하나 이상의 하드웨어 프로세서 상에서 실행되는 소프트웨어 모듈(들), 또는 (iii) 하드웨어와 소프트웨어 모듈의 조합을 포함할 수 있고; (i) 내지 (iii) 중 임의의 것이 본원에 제시된 특정 기법을 구현하고, 소프트웨어 모듈은 컴퓨터 판독가능 저장 매체(또는 다수의 그러한 매체)에 저장된다. 하나의 구현예에서, 로직은 데이터 프로세싱 기능을 구현한다. 로직은 기능을 특정하는 컴퓨터 프로그램을 갖는 범용, 단일 코어 또는 다중 코어 프로세서, 컴퓨터 프로그램을 갖는 디지털 신호 프로세서, 구성 파일을 갖는 FPGA와 같은 구성가능한 로직, 상태 기계와 같은 특수 목적 회로, 또는 이들의 임의의 조합일 수 있다. 또한, 컴퓨터 프로그램 제품은 로직의 컴퓨터 프로그램 및 구성 파일 부분을 구현할 수 있다.
항목
개시된 기술은 시스템, 방법 또는 제조 물품으로서 실시될 수 있다. 구현예의 하나 이상의 특징은 기본 구현예와 조합될 수 있다. 상호 배타적이지 않은 구현예는 조합가능한 것으로 교시되어 있다. 구현예의 하나 이상의 특징은 다른 구현예와 조합될 수 있다. 본 개시내용은 이러한 옵션을 사용자에게 주기적으로 리마인드한다. 이러한 옵션을 반복하는 인용의 일부 구현예로부터의 생략은 전술한 섹션에 교시된 조합을 제한하는 것으로서 간주되어서는 안된다 - 이들 인용은 이로써 다음의 구현예 각각에 참조로 통합된다.
개시된 기술의 하나 이상의 구현예 및 항목 또는 이들의 요소는, 나타낸 방법 단계들을 수행하기 위한 컴퓨터 사용가능 프로그램 코드를 갖는 비일시적 컴퓨터 판독가능 저장 매체를 포함하는 컴퓨터 제품의 형태로 구현될 수 있다. 더욱이, 개시된 기술의 하나 이상의 구현예 및 항목 또는 이들의 요소는, 메모리, 및 메모리에 커플링되고 예시적인 방법 단계들을 수행하기 위해 동작하는 적어도 하나의 프로세서를 포함하는 장치의 형태로 구현될 수 있다. 또한, 추가로, 다른 태양에서, 개시된 기술의 하나 이상의 구현예 및 항목 또는 이들의 요소는, 본원에 기술된 방법 단계들 중 하나 이상을 수행하기 위한 수단의 형태로 구현될 수 있고; 수단은 (i) 하드웨어 모듈(들), (ii) 하나 이상의 하드웨어 프로세서 상에서 실행되는 소프트웨어 모듈(들), 또는 (iii) 하드웨어와 소프트웨어 모듈의 조합을 포함할 수 있고; (i) 내지 (iii) 중 임의의 것이 본원에 제시된 특정 기법을 구현하고, 소프트웨어 모듈은 컴퓨터 판독가능 저장 매체(또는 다수의 그러한 매체)에 저장된다.
이 섹션에 기술된 조항은 특징으로서 조합될 수 있다. 간결함을 위해, 특징의 조합은 개별적으로 열거되지 않고 특징의 각각의 기본 세트로 반복되지 않는다. 독자는 이 섹션에서 기술된 항목에서 확인된 특징이 본 출원의 다른 섹션에서 구현예로서 확인된 기본 특징의 세트와 어떻게 용이하게 조합될 수 있는지를 이해할 것이다. 이들 항목은 상호 배타적이거나, 총망라하거나 제한적인 것으로 의도되지 않으며, 개시된 기술은 이러한 조항으로 제한되지 않지만, 오히려 청구된 기술 및 그의 등가물의 범주 내의 모든 가능한 조합, 수정, 및 변형을 포괄한다.
이 섹션에 기술된 항목의 다른 구현예는 이 섹션에 기술된 항목 중 임의의 것을 수행하도록 프로세서에 의해 실행가능한 명령어를 저장하는 비일시적 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 항목의 또 다른 구현예는 메모리 및 하나 이상의 프로세서- 당해 메모리에 저장된 명령어를 실행하여 이 섹션에 기술된 항목 중 임의의 것을 수행하도록 동작가능함 -을 포함하는 시스템을 포함할 수 있다.
하기 항목이 개시되어 있다:
항목 세트 1
1. 변이 병원성 예측 네트워크로서,
단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 메모리;
상기 메모리에 액세스하는, 상기 대체 아미노산 서열을 처리하고, 상기 대체 아미노산 서열의 처리된 표현을 생성하도록 구성된, 변이 인코딩 서브-네트워크;
상기 참조 아미노산 서열과 상기 대체 아미노산 서열의 상기 처리된 표현을 처리하고 상기 단백질의 단백질 접촉 맵을 생성하도록 구성된, 상기 변이 인코딩 서브네트워크와 통신하는, 단백질 접촉 맵 생성 서브-네트워크; 및
상기 단백질 접촉 맵을 처리하고 상기 변이 아미노산의 병원성 표시를 생성하도록 구성된 상기 단백질 접촉 맵 생성 서브-네트워크와 통신하는, 병원성 점수 서브-네트워크를 포함하는 변이 병원성 예측 네트워크.
2. 항목 1에 있어서, 상기 메모리는 상기 단백질의 아미노산별 영장류 보존 프로파일을 추가로 저장하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 영장류 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
3. 항목 1 또는 항목 2에 있어서, 상기 메모리는 상기 단백질의 아미노산별 포유류 보존 프로파일을 추가로 저장하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
4. 항목 1 내지 항목 3 중 어느 한 항목에 있어서, 상기 메모리는 상기 단백질의 아미노산별 척추동물 보존 프로파일을 추가로 저장하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
5. 항목 1 내지 항목 4 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
6. 항목 1 내지 항목 5 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
7. 항목 1 내지 항목 6 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
8. 항목 1 내지 항목 7 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
9. 항목 1 내지 항목 8 중 어느 한 항목에 있어서, 상기 메모리는 상기 단백질의 아미노산별 2차 구조 프로파일을 추가로 저장하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 2차 구조 프로파일을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
10. 항목 1 내지 항목 9 중 어느 한 항목에 있어서, 상기 메모리는 상기 단백질의 아미노산별 용매 접근성 프로파일을 추가로 저장하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
11. 항목 1 내지 항목 10 중 어느 한 항목에 있어서, 상기 메모리는 상기 단백질의 아미노산별 위치-특이적 빈도 행렬을 추가로 저장하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
12. 항목 1 내지 항목 11 중 어느 한 항목에 있어서, 상기 메모리는 상기 단백질의 아미노산별 위치-특이적 빈도 행렬을 추가로 저장하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
13. 항목 1 내지 항목 12 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
14. 항목 1 내지 항목 13 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
15. 항목 1 내지 항목 14 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
16. 항목 1 내지 항목 15 중 어느 한 항목에 있어서,상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
17. 항목 1 내지 항목 16 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
18. 항목 1 내지 항목 17 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
19. 항목 1 내지 항목 18 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
20. 항목 1 내지 항목 19 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
21. 항목 1 내지 항목 20 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
22. 항목 1 내지 항목 21 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크의 제1 층에 대한 입력으로서 제공되는, 변이 병원성 예측 네트워크.
23. 항목 1 내지 항목 22 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크의 하나 이상의 중간 층에 대한 입력으로서 제공되는, 변이 병원성 예측 네트워크.
24. 항목 1 내지 항목 23 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크의 최종 층에 대한 입력으로서 제공되는, 변이 병원성 예측 네트워크.
25. 항목 1 내지 항목 24 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크에 대한 입력과 결합(예를 들어, 연결, 합산)되는, 변이 병원성 예측 네트워크.
26. 항목 1 내지 항목 25 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크에 대한 하나 이상의 중간 출력과 결합(예를 들어, 연결, 합산)되는, 변이 병원성 예측 네트워크.
27. 항목 1 내지 항목 26 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크에 대한 최종 출력과 결합(예를 들어, 연결, 합산)되는, 변이 병원성 예측 네트워크.
28. 항목 1 내지 항목 27 중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 L개의 아미노산을 갖는, 변이 병원성 예측 네트워크.
29. 항목 1 내지 항목 28 중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 C에 의한 크기 L의 원-핫 인코딩 행렬인 것을 특징으로 하고, 여기서 C는 20개의 아미노산 카테고리를 나타내는, 변이 병원성 예측 네트워크.
30. 항목 1 내지 항목 29 중 어느 한 항목에 있어서, 상기 아미노산별 영장류 보존 프로파일은 C에 의한 크기 L의 것인, 변이 병원성 예측 네트워크.
31. 항목 1 내지 항목 30 중 어느 한 항목에 있어서, 상기 아미노산별 포유류 보존 프로파일은 C에 의한 크기 L의 것인, 변이 병원성 예측 네트워크.
32. 항목 1 내지 항목 31 중 어느 한 항목에 있어서, 상기 아미노산별 척추동물 보존 프로파일은 C에 의한 크기 L의 것인, 변이 병원성 예측 네트워크.
33. 항목 1 내지 항목 32 중 어느 한 항목에 있어서, 상기 아미노산별 2차 구조 프로파일은 S에 의한 크기 L의 3-상태 인코딩 행렬인 것을 특징으로 하고, 여기서 S는 3개의 2차 구조 상태를 나타내는, 변이 병원성 예측 네트워크.
34. 항목 1 내지 항목 33 중 어느 한 항목에 있어서,상기 아미노산별 용매 접근성 프로파일은 A에 의한 크기 L의 3-상태 인코딩 행렬인 것을 특징으로 하고, 여기서 A는 3개의 용매 접근성 상태를 나타내는, 변이 병원성 예측 네트워크.
35. 항목 1 내지 항목 34 중 어느 한 항목에 있어서, 상기 아미노산별 위치-특이적 점수 행렬은 C에 의한 크기 L의 것인, 변이 병원성 예측 네트워크.
36. 항목 1 내지 항목 35 중 어느 한 항목에 있어서, 상기 아미노산별 위치-특이적 빈도 행렬은 C에 의한 크기 L의 것인, 변이 병원성 예측 네트워크.
37. 항목 1 내지 항목 36 중 어느 한 항목에 있어서, 상기 변이 인코딩 서브-네트워크는 제1 컨볼루션 신경망인, 변이 병원성 예측 네트워크.
38. 항목 1 내지 항목 37 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 하나 이상의 1차원(1D) 컨볼루션 층을 포함하는, 변이 병원성 예측 네트워크.
39. 항목 1 내지 항목 38 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵 생성 서브-네트워크는 제2 컨볼루션 신경망인, 변이 병원성 예측 네트워크.
40. 항목 1 내지 항목 39 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망은 (i) 하나 이상의 1D 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 하나 이상의 잔차 블록, 다음으로 (iii) 공간 차원수 증강 층, 다음으로 (iv) 2차원(2D) 컨볼루션을 갖는 하나 이상의 잔차 블록, 그리고 다음으로 (v) 하나 이상의 2D 컨볼루션 층을 포함하는, 변이 병원성 예측 네트워크.
41. 항목 1 내지 항목 40 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망의 상기 하나 이상의 1D 컨볼루션 층에서 제1 1D 컨볼루션 층에 의해 처리되는 입력의 공간 차원수(예를 들어, 폭 × 높이)는 L × 1인, 변이 병원성 예측 네트워크.
42. 항목 1 내지 항목 41 중 어느 한 항목에 있어서, 상기 제1 1D 컨볼루션 층에 의해 처리되는 입력의 깊이 차원수는 D(예를 들어, 66)이고, 여기서 D = C + S + A + C + C인, 변이 병원성 예측 네트워크.
43. 항목 1 내지 항목 42 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망의 1D 컨볼루션을 갖는 상기 하나 이상의 잔차 블록 내의 최종 잔차 블록의 출력은 공간적으로 증강된 출력을 생성하기 위해 상기 공간 차원수 증강 층에 의해 처리되는, 변이 병원성 예측 네트워크.
44. 항목 1 내지 항목 43 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력의 공간 차원수는 L × L인, 변이 병원성 예측 네트워크.
45. 항목 1 내지 항목 44 중 어느 한 항목에 있어서, 상기 공간 차원수 증강 층은 상기 공간적으로 증강된 출력을 생성하기 위해 상기 최종 잔차 블록의 출력 상에 외부 결과물을 적용하도록 구성되는, 변이 병원성 예측 네트워크.
46. 항목 1 내지 항목 45 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력은 제2 컨볼루션 신경망의 2D 컨볼루션을 갖는 하나 이상의 잔차 블록 내의 제1 잔차 블록에 의해 처리되는, 변이 병원성 예측 네트워크.
47. 항목 1 내지 항목 46 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망의 하나 이상의 2D 컨볼루션 층에서 최종 2D 컨볼루션 층에 의해 생성된 상기 단백질 접촉 맵의 총 차원수는 L × 1인, 변이 병원성 예측 네트워크.
48. 항목 1 내지 항목 47 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵 생성 서브-네트워크는 공지된 단백질 접촉 맵을 갖는 박테리아 단백질의 참조 아미노산 서열에 대해 사전 훈련되는, 변이 병원성 예측 네트워크.
49. 항목 1 내지 항목 48 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵 생성 서브-네트워크는 사전 훈련 중에 단백질 접촉 맵 생성 서브-네트워크에 의해 예측된 단백질 접촉 맵과 공지된 단백질 접촉 맵 간의 오차를 최소화하는 평균 제곱 오차 손실 함수를 사용하여 사전 훈련되는, 변이 병원성 예측 네트워크.
50. 항목 1 내지 항목 49 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵 생성 서브-네트워크는 사전 훈련 중에 단백질 접촉 맵 생성 서브-네트워크에 의해 예측된 단백질 접촉 맵과 공지된 단백질 접촉 맵 간의 오차를 최소화하는 평균 절대 오차 손실 함수를 사용하여 사전 훈련되는, 변이 병원성 예측 네트워크.
51. 항목 1 내지 항목 50 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵 생성 서브-네트워크는 상기 참조 아미노산 서열 및 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 상기 아미노산별 위치-특이적 점수 행렬, 및 상기 아미노산별 위치-특이적 빈도 행렬 중 적어도 하나를 처리하는 것에 응답하여 상기 단백질 접촉 맵을 출력으로서 생성하도록 사전 훈련되는, 변이 병원성 예측 네트워크.
52. 항목 1 내지 항목 51 중 어느 한 항목에 있어서, 상기 병원성 점수 서브-네트워크는 상기 사전 훈련된 단백질 접촉 맵 생성 서브-네트워크 및 상기 변이 인코딩 서브-네트워크와 함께 합동 훈련되어 상기 단백질 접촉 맵을 처리하는 것에 응답하여 출력으로서 상기 변이 아미노산의 상기 병원성 표시를 생성하고,
여기서 상기 단백질 접촉 맵은
상기 참조 아미노산 서열 및 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 상기 아미노산별 위치-특이적 점수 행렬, 및 상기 아미노산별 위치-특이적 빈도 행렬 중 적어도 하나, 및
상기 대체 아미노산 서열 및 상기 아미노산별 영장류 보존 프로파일, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일 중 적어도 하나를 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성된 처리된 표현을 처리하는 것에 응답하여 상기 사전 훈련된 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
53. 조항 1 내지 52 중 임의의 항목에 있어서, 상기 사전 훈련된 단백질 접촉 맵 생성 서브-네트워크는 상기 변이 인코딩 서브-네트워크 및 상기 병원성 점수 서브-네트워크의 훈련 동안 냉동 상태로 유지되고 재훈련되지 않는, 변이 병원성 예측 네트워크.
54. 항목 1 내지 항목 53 중 어느 한 항목에 있어서, 상기 변이 인코딩 서브-네트워크, 상기 단백질 접촉 맵 생성 서브-네트워크, 및 상기 병원성 점수 서브-네트워크는 단일 신경망으로서 배열되는, 변이 병원성 예측 네트워크.
55. 항목 1 내지 항목 54 중 어느 한 항목에 있어서, 단일 신경망의 다수의 훈련된 예는 추론 동안 변이 병원성 예측에 대한 앙상블로서 사용되는, 변이 병원성 예측 네트워크.
56. 항목 1 내지 항목 55 중 어느 한 항목에 있어서, 상기 병원성 점수 서브-네트워크는 완전 접속 네트워크인, 변이 병원성 예측 네트워크.
57. 항목 1 내지 항목 56 중 어느 한 항목에 있어서, 상기 병원성 점수 서브-네트워크는 상기 병원성 표시를 생성하는 병원성 표시 생성 층(예를 들어, 시그모이드, 소프트맥스)을 포함하는, 변이 병원성 예측 네트워크.
58. 변이 병원성 예측의 컴퓨터 구현 방법으로서,
단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 단계;
상기 대체 아미노산 서열을 처리하고, 상기 대체 아미노산 서열의 처리된 표현을 생성하는 단계;
상기 참조 아미노산 서열 및 상기 대체 아미노산 서열의 상기 처리된 표현을 처리하고, 상기 단백질의 단백질 접촉 맵을 생성하는 단계; 및
상기 단백질 접촉 맵을 처리하고 상기 변이 아미노산의 병원성 표시를 생성하는 단계를 포함하는 컴퓨터 구현 방법.
59. 항목 58에 있어서, 상기 단백질의 아미노산별 영장류 보존 프로파일을 저장하는 단계를 추가로 포함하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 영장류 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
60. 항목 58 내지 항목 59 중 어느 한 항목에 있어서, 상기 단백질의 아미노산별 포유류 보존 프로파일을 저장하는 단계를 추가로 포함하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
61. 항목 58 내지 항목 60 중 어느 한 항목에 있어서, 상기 단백질의 아미노산별 척추동물 보존 프로파일을 저장하는 단계를 추가로 포함하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
62. 항목 58 내지 항목 61 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
63. 항목 58 내지 항목 62 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
64. 항목 58 내지 항목 63 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
65. 항목 58 내지 항목 64 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
66. 항목 58 내지 항목 65 중 어느 한 항목에 있어서, 상기 단백질의 아미노산별 2차 구조 프로파일을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 2차 구조 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
67. 항목 58 내지 항목 66 중 어느 한 항목에 있어서, 상기 단백질의 아미노산별 용매 접근성 프로파일을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
68. 항목 58 내지 항목 67 중 어느 한 항목에 있어서, 상기 단백질의 아미노산별 위치-특이적 빈도 행렬을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
69. 항목 58 내지 항목 68 중 어느 한 항목에 있어서, 상기 단백질의 아미노산별 위치-특이적 점수 행렬을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
70. 항목 58 내지 항목 69 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
71. 항목 58 내지 항목 70 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
72. 항목 58 내지 항목 71 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
73. 항목 58 내지 항목 72 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
74. 항목 58 내지 항목 73 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
75. 항목 58 내지 항목 74 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
76. 항목 58 내지 항목 75 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
77. 항목 58 내지 항목 76 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
78. 항목 58 내지 항목 77 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
79. 변이의 병원성을 예측하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 단계;
상기 대체 아미노산 서열을 처리하고, 상기 대체 아미노산 서열의 처리된 표현을 생성하는 단계;
상기 참조 아미노산 서열 및 상기 대체 아미노산 서열의 상기 처리된 표현을 처리하고, 상기 단백질의 단백질 접촉 맵을 생성하는 단계; 및
상기 단백질 접촉 맵을 처리하고 상기 변이 아미노산의 병원성 표시를 생성하는 단계를 포함하는 컴퓨터 구현 방법.
80. 항목 79에 있어서, 상기 방법은 상기 단백질의 아미노산별 영장류 보존 프로파일을 저장하는 단계를 추가로 포함하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 영장류 보존 프로파일을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
81. 항목 79 내지 항목 80 중 어느 한 항목에 있어서, 상기 방법은 상기 단백질의 아미노산별 포유류 보존 프로파일을 저장하는 단계를 추가로 포함하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
82. 항목 79 내지 항목 81 중 어느 한 항목에 있어서, 상기 방법은 상기 단백질의 아미노산별 척추동물 보존 프로파일을 저장하는 단계를 추가로 포함하고,
상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
83. 항목 79 내지 항목 82 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
84. 항목 79 내지 항목 83 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
85. 항목 79 내지 항목 84 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
86. 항목 79 내지 항목 85 중 어느 한 항목에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
87. 항목 79 내지 항목 86 중 어느 한 항목에 있어서, 상기 방법은 상기 단백질의 아미노산별 2차 구조 프로파일을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 2차 구조 프로파일을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
88. 항목 79 내지 항목 87 중 어느 한 항목에 있어서, 상기 방법은 상기 단백질의 아미노산별 용매 접근성 프로파일을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
89. 항목 79 내지 항목 88 중 어느 한 항목에 있어서, 상기 방법은 상기 단백질의 아미노산별 위치-특이적 빈도 행렬을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
90. 항목 79 내지 항목 89 중 어느 한 항목에 있어서, 상기 방법은 상기 단백질의 아미노산별 위치-특이적 점수 행렬을 저장하는 단계를 추가로 포함하고,
상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는 것을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
91. 항목 79 내지 항목 90 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
92. 항목 79 내지 항목 91 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
93. 항목 79 내지 항목 92 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
94. 항목 79 내지 항목 93 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
95. 항목 79 내지 항목 94 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
96. 항목 79 내지 항목 95 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
97. 항목 79 내지 항목 96 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
98. 항목 79 내지 항목 97 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
99. 항목 79 내지 항목 98 중 어느 한 항목에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
100. 시스템으로서,
상기 단백질의 단백질 접촉 맵을 처리하는 것에 기반하여 단백질에서 아미노산 변이를 야기하는 변이의 병원성을 결정하도록 구성된 변이 병원성 결정기를 포함하는 시스템.
101. 컴퓨터 구현 방법으로서,
상기 단백질의 단백질 접촉 맵을 처리하는 것에 기반하여 단백질에서 아미노산 변이를 야기하는 변이의 병원성을 결정하는 단계를 포함하는 컴퓨터 구현 방법.
102. 변이의 병원성을 예측하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
상기 단백질의 단백질 접촉 맵을 처리하는 것에 기반하여 단백질에서 아미노산 변이를 야기하는 변이의 병원성을 결정하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
항목 세트 2
1. 변이 병원성 분류기로서,
(i) 단백질의 참조 아미노산 서열, (ii) 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 상기 단백질의 대체 아미노산 서열, 및 (iii) 상기 단백질의 단백질 접촉 맵을 저장하는 메모리; 및
(i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵을 제1 신경망에 입력으로서 제공하고, 상기 제1 신경망이 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵에 대한 처리에 응답하여 출력으로서 상기 변이 아미노산의 병원성 표시를 생성하게 하도록 구성된, 메모리에 대한 액세스를 갖는, 런타임 로직을 포함하는 변이 병원성 분류기.
2. 항목 1에 있어서, 상기 메모리는 상기 단백질의 아미노산별 영장류 보존 프로파일, 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 상기 단백질의 아미노산별 척추동물 보존 프로파일을 저장하고,
상기 런타임 로직은 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, (iii) 상기 단백질 접촉 맵, (iv) 상기 단백질의 아미노산별 영장류 보존 프로파일, (v) 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 (vi) 상기 단백질의 아미노산별 척추동물 보존 프로파일을 상기 제1 신경망에 입력으로서 제공하고, 상기 제1 신경망이 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵, (iv) 상기 단백질의 아미노산별 영장류 보존 프로파일, (v) 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 (vi) 상기 단백질의 아미노산별 척추동물 보존 프로파일에 대한 처리에 응답하여 출력으로서 상기 변이 아미노산의 상기 병원성 표시를 생성하게 하도록 추가로 구성된, 변이 병원성 분류기.
3. 항목 1 또는 항목 2에 있어서, 상기 참조 아미노산 서열은 L개의 아미노산을 갖고, 상기 대체 아미노산 서열은 L개의 아미노산을 갖는, 변이 병원성 분류기.
4. 항목 1 내지 항목 3 중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 C에 의한 크기 L의 참조 원-핫 인코딩 행렬로서 특징지어지고, 여기서 C는 20개의 아미노산 카테고리를 나타내며, 상기 대체 아미노산 서열은 C에 의한 크기 L의 대체 원-핫 인코딩 행렬로서 특징지어지는, 변이 병원성 분류기.
5. 항목 1 내지 항목 4 중 어느 한 항목에 있어서, 상기 아미노산별 영장류 보존 프로파일은 C에 의한 크기 L이고, 상기 아미노산별 포유류 보존 프로파일은 C에 의한 크기 L이고, 상기 아미노산별 척추동물 보존 프로파일은 C에 의한 크기 L인, 변이 병원성 분류기.
6. 항목 1 내지 항목 5 중 어느 한 항목에 있어서, 상기 제1 신경망은 제1 컨볼루션 신경망인, 변이 병원성 분류기.
7. 항목 1 내지 항목 6 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 (i) 하나 이상의 1차원(1D) 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 잔차 블록의 제1 세트, 다음으로 (iii) 1D 컨볼루션을 갖는 잔차 블록의 제2 세트, 다음으로 (iv) 공간 차원수 증강 층, 다음으로 (v) 2차원(2D) 컨볼루션을 갖는 잔차 블록의 제1 세트, 다음으로 (vi) 하나 이상의 2D 컨볼루션 층, 다음으로 (vii) 하나 이상의 완전 접속 층, 그리고 다음으로 (viii) 병원성 표시 생성 층을 포함하는, 변이 병원성 분류기.
8. 항목 1 내지 항목 7 중 어느 한 항목에 있어서, 상기 하나 이상의 1D 컨볼루션 층에서 제1 1D 컨볼루션 층에 의해 처리되는 입력의 공간 차원수(예를 들어, 폭 × 높이)는 L × 1인, 변이 병원성 분류기.
9. 항목 1 내지 항목 8 중 어느 한 항목에 있어서, 상기 제1 1D 컨볼루션에 의해 처리되는 상기 입력의 깊이 차원수는 D(예를 들어, 100)이고, 여기서 D = C + C + C + C + C인, 변이 병원성 분류기.
10. 항목 1 내지 항목 9 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 N1개의 잔차 블록(예를 들어, N1 = 2, 3, 4, 5)을 갖고, 1D 컨볼루션을 갖는 잔차 블록의 상기 제2 세트는 N2개의 잔차 블록(예를 들어, N2 = 2, 3, 4, 5)을 갖고, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 N3개의 잔차 블록(예를 들어, N3 = 2, 3, 4, 5)을 갖는, 변이 병원성 분류기.
11. 항목 1 내지 항목 10 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제2 세트 내의 최종 잔차 블록의 출력은 공간적으로 증강된 출력을 생성하기 위해 상기 공간 차원수 증강 층에 의해 처리되는, 변이 병원성 분류기.
12. 항목 1 내지 항목 11 중 어느 한 항목에 있어서, 상기 공간 차원수 증강 층은 상기 공간적으로 증강된 출력을 생성하기 위해 상기 최종 잔차 블록의 출력 상에 외부 결과물을 적용하도록 구성되는, 변이 병원성 분류기.
13. 항목 1 내지 항목 12 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력의 공간 차원수는 L × L인, 변이 병원성 분류기.
14. 항목 1 내지 항목 13 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력은 상기 단백질 접촉 맵과 결합(예를 들어, 연결, 합산)되어 중간 결합 출력을 생성하는, 변이 병원성 분류기.
15. 항목 1 내지 항목 14 중 어느 한 항목에 있어서, 상기 중간 결합 출력은 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트 내의 제1 잔차 블록에 의해 처리되는, 변이 병원성 분류기.
16. 항목 1 내지 항목 15 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 제1 층에 대한 입력으로서 제공되는, 변이 병원성 분류기.
17. 항목 1 내지 항목 16 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 하나 이상의 중간 층에 대한 입력으로서 제공되는, 변이 병원성 분류기.
18. 항목 1 내지 항목 17 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 최종 층에 대한 입력으로서 제공되는, 변이 병원성 분류기.
19. 항목 1 내지 항목 18 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망에 대한 입력과 결합(예를 들어, 연결, 합산)되는, 변이 병원성 분류기.
20. 항목 1 내지 항목 19 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 하나 이상의 중간 출력과 결합(예를 들어, 연결, 합산)되는, 변이 병원성 분류기.
21. 항목 1 내지 항목 20 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 최종 출력과 결합(예를 들어, 연결, 합산)되는, 변이 병원성 분류기.
22. 항목 1 내지 항목 21 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 (i)상기 참조 아미노산 서열 및 (ii) 상기 아미노산별 2차 구조 프로파일, (iii) 상기 아미노산별 용매 접근성 프로파일, (iv) 상기 아미노산별 위치-특이적 점수 행렬, 및 (v) 상기 아미노산별 위치-특이적 빈도 행렬 중 적어도 하나를 처리하는 것에 응답하여 제2 신경망에 의해 생성되는, 변이 병원성 분류기.
23. 항목 1 내지 항목 22 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 L × L × K(예를 들어, K = 10, 15, 20, 25)의 총 차원수를 갖는, 변이 병원성 분류기.
24. 항목 1 내지 항목 23 중 어느 한 항목에 있어서, 상기 제2 신경망은 제2 컨볼루션 신경망인, 변이 병원성 분류기.
25. 항목 1 내지 항목 24 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망은 (i) 하나 이상의 1D 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 하나 이상의 잔차 블록, 다음으로 (iii) 공간 차원수 증강 층, 다음으로 (iv) 2D 컨볼루션을 갖는 하나 이상의 잔차 블록, 그리고 다음으로 (v) 하나 이상의 2D 컨볼루션 층을 포함하는, 변이 병원성 분류기.
26. 항목 1 내지 항목 25 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 상이한 필터 크기(예를 들어, 5×2, 2×5)의 컨볼루션 필터를 사용하는, 변이 병원성 분류기.
27. 항목 1 내지 항목 26 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 하나 이상의 완전 접속 층을 포함하지 않는, 변이 병원성 분류기.
28. 항목 1 내지 항목 27 중 어느 한 항목에 있어서, 상기 제1 신경망의 다수의 훈련된 예는 추론 동안 변이 병원성 예측에 대한 앙상블로서 사용되는, 변이 병원성 분류기.
29. 항목 1 내지 항목 28 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제1 및 제2 세트는 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 아미노산별 영장류 보존 프로파일 (iv) 상기 아미노산별 포유류 보존 프로파일, 및 (v) 상기 아미노산별 척추동물 보존 프로파일 중 적어도 하나에서 1D 순차적 특징의 일련의 1D 컨볼루션 변환을 실행하는, 변이 병원성 분류기.
30. 항목 1 내지 항목 29 중 어느 한 항목에 있어서, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 (i) 상기 단백질 접촉 맵 및 (ii) 상기 중간 조합 출력에서 2D 공간적 특징의 일련의 2D 컨볼루션 변환을 실행하는, 변이 병원성 분류기.
31. 항목 1 내지 항목 30 중 어느 한 항목에 있어서, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 상기 참조 및 대체 아미노산 서열에서보다 상기 단백질의 3차원(3D) 구조에서 더 근접한 상기 단백질의 아미노산 사이의 병원성 연관성에 대한 상기 단백질 접촉 맵으로부터의 공간적 상호작용을 추출하는, 변이 병원성 분류기.
32. 변이 병원성 분류의 컴퓨터 구현 방법으로서,
(i) 단백질의 참조 아미노산 서열, (ii) 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 상기 단백질의 대체 아미노산 서열, 및 (iii) 상기 단백질의 단백질 접촉 맵을 저장하는 단계; 및
(i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵을 제1 신경망에 입력으로서 제공하고, 제1 신경망이 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵에 대한 처리에 응답하여 출력으로서 상기 변이 아미노산의 병원성 표시를 생성하도록 제공하는 단계를 포함하는 컴퓨터 구현 방법.
33. 항목 32에 있어서, 상기 단백질의 아미노산별 영장류 보존 프로파일, 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 상기 단백질의 아미노산별 척추동물 보존 프로파일을 저장하는 단계, 및
(i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, (iii) 상기 단백질 접촉 맵, (iv) 상기 단백질의 아미노산별 영장류 보존 프로파일, (v) 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 (vi) 상기 단백질의 아미노산별 척추동물 보존 프로파일을 상기 제1 신경망에 입력으로서 제공하고, 상기 제1 신경망이 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵, (iv) 상기 단백질의 아미노산별 영장류 보존 프로파일, (v) 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 (vi) 상기 단백질의 아미노산별 척추동물 보존 프로파일에 대한 처리에 응답하여 출력으로서 상기 변이 아미노산의 상기 병원성 표시를 생성하도록 제공하는 단계를 추가로 포함하는 컴퓨터 구현 방법.
34. 항목 32 또는 항목 33중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 L개의 아미노산을 갖고, 상기 대체 아미노산 서열은 L개의 아미노산을 갖는, 컴퓨터 구현 방법.
35. 항목 32 내지 항목 34 중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 C에 의한 크기 L의 참조 원-핫 인코딩 행렬로서 특징지어지고, 여기서 C는 20개의 아미노산 카테고리를 나타내며, 상기 대체 아미노산 서열은 C에 의한 크기 L의 대체 원-핫 인코딩 행렬로서 특징지어지는, 컴퓨터 구현 방법.
36. 항목 32 내지 항목 35 중 어느 한 항목에 있어서, 상기 아미노산별 영장류 보존 프로파일은 C에 의한 크기 L이고, 상기 아미노산별 포유류 보존 프로파일은 C에 의한 크기 L이고, 상기 아미노산별 척추동물 보존 프로파일은 C에 의한 크기 L인, 컴퓨터 구현 방법.
37. 항목 32 내지 항목 36 중 어느 한 항목에 있어서, 상기 제1 신경망은 제1 컨볼루션 신경망인, 컴퓨터 구현 방법.
38. 항목 32 내지 항목 37 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 (i) 하나 이상의 1차원(1D) 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 잔차 블록의 제1 세트, 다음으로 (iii) 1D 컨볼루션을 갖는 잔차 블록의 제2 세트, 다음으로 (iv) 공간 차원수 증강 층, 다음으로 (v) 2차원(2D) 컨볼루션을 갖는 잔차 블록의 제1 세트, 다음으로 (vi) 하나 이상의 2D 컨볼루션 층, 다음으로 (vii) 하나 이상의 완전 접속 층, 그리고 다음으로 (viii) 병원성 표시 생성 층을 포함하는, 컴퓨터 구현 방법.
39. 항목 32 내지 항목 38 중 어느 한 항목에 있어서, 상기 하나 이상의 1D 컨볼루션 층에서 제1 1D 컨볼루션 층에 의해 처리되는 입력의 공간 차원수(예를 들어, 폭 × 높이)는 L × 1인, 컴퓨터 구현 방법.
40. 항목 32 내지 항목 39 중 어느 한 항목에 있어서, 상기 제1 1D 컨볼루션에 의해 처리되는 상기 입력의 깊이 차원수는 D(예를 들어, 100)이고, 여기서 D = C + C + C + C + C인, 컴퓨터 구현 방법.
41. 항목 32 내지 항목 40 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 N1개의 잔차 블록(예를 들어, N1 = 2, 3, 4, 5)을 갖고, 1D 컨볼루션을 갖는 잔차 블록의 상기 제2 세트는 N2개의 잔차 블록(예를 들어, N2 = 2, 3, 4, 5)을 갖고, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 N3개의 잔차 블록(예를 들어, N3 = 2, 3, 4, 5)을 갖는, 컴퓨터 구현 방법.
42. 항목 32 내지 항목 41 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제2 세트 내의 최종 잔차 블록의 출력은 공간적으로 증강된 출력을 생성하기 위해 상기 공간 차원수 증강 층에 의해 처리되는, 컴퓨터 구현 방법.
43. 항목 32 내지 항목 42 중 어느 한 항목에 있어서, 상기 공간 차원수 증강 층은 상기 공간적으로 증강된 출력을 생성하기 위해 상기 최종 잔차 블록의 출력 상에 외부 결과물을 적용하도록 구성되는, 컴퓨터 구현 방법.
44. 항목 32 내지 항목 43 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력의 공간 차원수는 L × L인, 컴퓨터 구현 방법.
45. 항목 32 내지 항목 44 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력은 상기 단백질 접촉 맵과 결합(예를 들어, 연결, 합산)되어 중간 결합 출력을 생성하는, 컴퓨터 구현 방법.
46. 항목 32 내지 항목 45 중 어느 한 항목에 있어서, 상기 중간 결합 출력은 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트 내의 제1 잔차 블록에 의해 처리되는, 컴퓨터 구현 방법.
47. 항목 32 내지 항목 46 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 제1 층에 대한 입력으로서 제공되는, 컴퓨터 구현 방법.
48. 항목 32 내지 항목 47 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 하나 이상의 중간 층에 대한 입력으로서 제공되는, 컴퓨터 구현 방법.
49. 항목 32 내지 항목 48 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 최종 층에 대한 입력으로서 제공되는, 컴퓨터 구현 방법.
50. 항목 32 내지 항목 49 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망에 대한 입력과 결합(예를 들어, 연결, 합산)되는, 컴퓨터 구현 방법.
51. 항목 32 내지 항목 50 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 하나 이상의 중간 출력과 결합(예를 들어, 연결, 합산)되는, 컴퓨터 구현 방법.
52. 항목 32 내지 항목 51 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 최종 출력과 결합(예를 들어, 연결, 합산)되는, 컴퓨터 구현 방법.
53. 항목 32 내지 항목 52 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 (i)상기 참조 아미노산 서열 및 (ii) 상기 아미노산별 2차 구조 프로파일, (iii) 상기 아미노산별 용매 접근성 프로파일, (iv) 상기 아미노산별 위치-특이적 점수 행렬, 및 (v) 상기 아미노산별 위치-특이적 빈도 행렬 중 적어도 하나를 처리하는 것에 응답하여 제2 신경망에 의해 생성되는, 컴퓨터 구현 방법.
54. 항목 32 내지 항목 53 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 L × L × K(예를 들어, K = 10, 15, 20, 25)의 총 차원수를 갖는, 컴퓨터 구현 방법.
55. 항목 32 내지 항목 54 중 어느 한 항목에 있어서, 상기 제2 신경망은 제2 컨볼루션 신경망인, 컴퓨터 구현 방법.
56. 항목 32 내지 항목 55 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망은 (i) 하나 이상의 1D 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 하나 이상의 잔차 블록, 다음으로 (iii) 공간 차원수 증강 층, 다음으로 (iv) 2D 컨볼루션을 갖는 하나 이상의 잔차 블록, 그리고 다음으로 (v) 하나 이상의 2D 컨볼루션 층을 포함하는, 컴퓨터 구현 방법.
57. 항목 32 내지 항목 56 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 상이한 필터 크기(예를 들어, 5×2, 2×5)의 컨볼루션 필터를 사용하는, 컴퓨터 구현 방법.
58. 항목 32 내지 항목 57 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 하나 이상의 완전 접속 층을 포함하지 않는, 컴퓨터 구현 방법.
59. 항목 32 내지 항목 58 중 어느 한 항목에 있어서, 상기 제1 신경망의 다수의 훈련된 예는 추론 동안 변이 병원성 예측에 대한 앙상블로서 사용되는, 컴퓨터 구현 방법.
60. 항목 32 내지 항목 59 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제1 및 제2 세트는 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 아미노산별 영장류 보존 프로파일 (iv) 상기 아미노산별 포유류 보존 프로파일, 및 (v) 상기 아미노산별 척추동물 보존 프로파일 중 적어도 하나에서 1D 순차적 특징의 일련의 1D 컨볼루션 변환을 실행하는, 컴퓨터 구현 방법.
61. 항목 32 내지 항목 60 중 어느 한 항목에 있어서, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 (i) 상기 단백질 접촉 맵 및 (ii) 상기 중간 조합 출력에서 2D 공간적 특징의 일련의 2D 컨볼루션 변환을 실행하는, 컴퓨터 구현 방법.
62. 항목 32 내지 항목 61 중 어느 한 항목에 있어서, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 상기 참조 및 대체 아미노산 서열에서보다 상기 단백질의 3차원(3D) 구조에서 더 근접한 상기 단백질의 아미노산 사이의 병원성 연관성에 대한 상기 단백질 접촉 맵으로부터의 공간적 상호작용을 추출하는, 컴퓨터 구현 방법.
63. 변이의 병원성을 분류하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
(i) 단백질의 참조 아미노산 서열, (ii) 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 상기 단백질의 대체 아미노산 서열, 및 (iii) 상기 단백질의 단백질 접촉 맵을 저장하는 단계; 및
(i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵을 제1 신경망에 입력으로서 제공하고, 제1 신경망이 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵에 대한 처리에 응답하여 출력으로서 상기 변이 아미노산의 병원성 표시를 생성하도록 제공하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
64. 항목 63에 있어서, 상기 방법은 상기 단백질의 아미노산별 영장류 보존 프로파일, 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 상기 단백질의 아미노산별 척추동물 보존 프로파일을 저장하는 단계, 및
(i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, (iii) 상기 단백질 접촉 맵, (iv) 상기 단백질의 아미노산별 영장류 보존 프로파일, (v) 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 (vi) 상기 단백질의 아미노산별 척추동물 보존 프로파일을 상기 제1 신경망에 입력으로서 제공하고, 상기 제1 신경망이 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 단백질 접촉 맵, (iv) 상기 단백질의 아미노산별 영장류 보존 프로파일, (v) 상기 단백질의 아미노산별 포유류 보존 프로파일, 및 (vi) 상기 단백질의 아미노산별 척추동물 보존 프로파일에 대한 처리에 응답하여 출력으로서 상기 변이 아미노산의 상기 병원성 표시를 생성하도록 제공하는 단계를 추가로 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
65. 항목 63 또는 항목 64중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 L개의 아미노산을 갖고, 상기 대체 아미노산 서열은 L개의 아미노산을 갖는, 비일시적 컴퓨터 판독가능 저장 매체.
66. 항목 63 내지 항목 65 중 어느 한 항목에 있어서, 상기 참조 아미노산 서열은 C에 의한 크기 L의 참조 원-핫 인코딩 행렬로서 특징지어지고, 여기서 C는 20개의 아미노산 카테고리를 나타내며, 상기 대체 아미노산 서열은 C에 의한 크기 L의 대체 원-핫 인코딩 행렬로서 특징지어지는, 비일시적 컴퓨터 판독가능 저장 매체.
67. 항목 63 내지 항목 66 중 어느 한 항목에 있어서, 상기 아미노산별 영장류 보존 프로파일은 C에 의한 크기 L이고, 상기 아미노산별 포유류 보존 프로파일은 C에 의한 크기 L이고, 상기 아미노산별 척추동물 보존 프로파일은 C에 의한 크기 L인, 비일시적 컴퓨터 판독가능 저장 매체.
68. 항목 63 내지 항목 67 중 어느 한 항목에 있어서, 상기 제1 신경망은 제1 컨볼루션 신경망인, 비일시적 컴퓨터 판독가능 저장 매체.
69. 항목 63 내지 항목 68 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 (i) 하나 이상의 1차원(1D) 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 잔차 블록의 제1 세트, 다음으로 (iii) 1D 컨볼루션을 갖는 잔차 블록의 제2 세트, 다음으로 (iv) 공간 차원수 증강 층, 다음으로 (v) 2차원(2D) 컨볼루션을 갖는 잔차 블록의 제1 세트, 다음으로 (vi) 하나 이상의 2D 컨볼루션 층, 다음으로 (vii) 하나 이상의 완전 접속 층, 그리고 다음으로 (viii) 병원성 표시 생성 층을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
70. 항목 63 내지 항목 69 중 어느 한 항목에 있어서, 상기 하나 이상의 1D 컨볼루션 층에서 제1 1D 컨볼루션 층에 의해 처리되는 입력의 공간 차원수(예를 들어, 폭 × 높이)는 L × 1인, 비일시적 컴퓨터 판독가능 저장 매체.
71. 항목 63 내지 항목 70 중 어느 한 항목에 있어서, 상기 제1 1D 컨볼루션에 의해 처리되는 상기 입력의 깊이 차원수는 D(예를 들어, 100)이고, 여기서 D = C + C + C + C + C인, 비일시적 컴퓨터 판독가능 저장 매체.
72. 항목 63 내지 항목 71 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 N1개의 잔차 블록(예를 들어, N1 = 2, 3, 4, 5)을 갖고, 1D 컨볼루션을 갖는 잔차 블록의 상기 제2 세트는 N2개의 잔차 블록(예를 들어, N2 = 2, 3, 4, 5)을 갖고, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 N3개의 잔차 블록(예를 들어, N3 = 2, 3, 4, 5)을 갖는, 비일시적 컴퓨터 판독가능 저장 매체.
73. 항목 63 내지 항목 72 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제2 세트 내의 최종 잔차 블록의 출력은 공간적으로 증강된 출력을 생성하기 위해 상기 공간 차원수 증강 층에 의해 처리되는, 비일시적 컴퓨터 판독가능 저장 매체.
74. 항목 63 내지 항목 73 중 어느 한 항목에 있어서, 상기 공간 차원수 증강 층은 상기 공간적으로 증강된 출력을 생성하기 위해 상기 최종 잔차 블록의 출력 상에 외부 결과물을 적용하도록 구성되는, 비일시적 컴퓨터 판독가능 저장 매체.
75. 항목 63 내지 항목 74 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력의 공간 차원수는 L × L인, 비일시적 컴퓨터 판독가능 저장 매체.
76. 항목 63 내지 항목 75 중 어느 한 항목에 있어서, 상기 공간적으로 증강된 출력은 상기 단백질 접촉 맵과 결합(예를 들어, 연결, 합산)되어 중간 결합 출력을 생성하는, 비일시적 컴퓨터 판독가능 저장 매체.
77. 항목 63 내지 항목 76 중 어느 한 항목에 있어서, 상기 중간 결합 출력은 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트 내의 제1 잔차 블록에 의해 처리되는, 비일시적 컴퓨터 판독가능 저장 매체.
78. 항목 63 내지 항목 77 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 제1 층에 대한 입력으로서 제공되는, 비일시적 컴퓨터 판독가능 저장 매체.
79. 항목 63 내지 항목 78 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 하나 이상의 중간 층에 대한 입력으로서 제공되는, 비일시적 컴퓨터 판독가능 저장 매체.
80. 항목 63 내지 항목 79 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 최종 층에 대한 입력으로서 제공되는, 비일시적 컴퓨터 판독가능 저장 매체.
81. 항목 63 내지 항목 80 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망에 대한 입력과 결합(예를 들어, 연결, 합산)되는, 비일시적 컴퓨터 판독가능 저장 매체.
82. 항목 63 내지 항목 81 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 하나 이상의 중간 출력과 결합(예를 들어, 연결, 합산)되는, 비일시적 컴퓨터 판독가능 저장 매체.
83. 항목 63 내지 항목 82 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 상기 제1 신경망의 최종 출력과 결합(예를 들어, 연결, 합산)되는, 비일시적 컴퓨터 판독가능 저장 매체.
84. 항목 63 내지 항목 83 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 (i)상기 참조 아미노산 서열 및 (ii) 상기 아미노산별 2차 구조 프로파일, (iii) 상기 아미노산별 용매 접근성 프로파일, (iv) 상기 아미노산별 위치-특이적 점수 행렬, 및 (v) 상기 아미노산별 위치-특이적 빈도 행렬 중 적어도 하나를 처리하는 것에 응답하여 제2 신경망에 의해 생성되는, 비일시적 컴퓨터 판독가능 저장 매체.
85. 항목 63 내지 항목 84 중 어느 한 항목에 있어서, 상기 단백질 접촉 맵은 L × L × K(예를 들어, K = 10, 15, 20, 25)의 총 차원수를 갖는, 비일시적 컴퓨터 판독가능 저장 매체.
86. 항목 63 내지 항목 85 중 어느 한 항목에 있어서, 상기 제2 신경망은 제2 컨볼루션 신경망인, 비일시적 컴퓨터 판독가능 저장 매체.
87. 항목 63 내지 항목 86 중 어느 한 항목에 있어서, 상기 제2 컨볼루션 신경망은 (i) 하나 이상의 1D 컨볼루션 층, 다음으로 (ii) 1D 컨볼루션을 갖는 하나 이상의 잔차 블록, 다음으로 (iii) 공간 차원수 증강 층, 다음으로 (iv) 2D 컨볼루션을 갖는 하나 이상의 잔차 블록, 그리고 다음으로 (v) 하나 이상의 2D 컨볼루션 층을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
88. 항목 63 내지 항목 87 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 상이한 필터 크기(예를 들어, 5×2, 2×5)의 컨볼루션 필터를 사용하는, 비일시적 컴퓨터 판독가능 저장 매체.
89. 항목 63 내지 항목 88 중 어느 한 항목에 있어서, 상기 제1 컨볼루션 신경망은 하나 이상의 완전 접속 층을 포함하지 않는, 비일시적 컴퓨터 판독가능 저장 매체.
90. 항목 63 내지 항목 89 중 어느 한 항목에 있어서, 상기 제1 신경망의 다수의 훈련된 예는 추론 동안 변이 병원성 예측에 대한 앙상블로서 사용되는, 비일시적 컴퓨터 판독가능 저장 매체.
91. 항목 63 내지 항목 90 중 어느 한 항목에 있어서, 1D 컨볼루션을 갖는 잔차 블록의 상기 제1 및 제2 세트는 (i) 상기 참조 아미노산 서열, (ii) 상기 대체 아미노산 서열, 및 (iii) 상기 아미노산별 영장류 보존 프로파일 (iv) 상기 아미노산별 포유류 보존 프로파일, 및 (v) 상기 아미노산별 척추동물 보존 프로파일 중 적어도 하나에서 1D 순차적 특징의 일련의 1D 컨볼루션 변환을 실행하는, 비일시적 컴퓨터 판독가능 저장 매체.
92. 항목 63 내지 항목 91 중 어느 한 항목에 있어서, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 (i) 상기 단백질 접촉 맵 및 (ii) 상기 중간 조합 출력에서 2D 공간적 특징의 일련의 2D 컨볼루션 변환을 실행하는, 비일시적 컴퓨터 판독가능 저장 매체.
93. 항목 63 내지 항목 92 중 어느 한 항목에 있어서, 2D 컨볼루션을 갖는 잔차 블록의 상기 제1 세트는 상기 참조 및 대체 아미노산 서열에서보다 상기 단백질의 3차원(3D) 구조에서 더 근접한 상기 단백질의 아미노산 사이의 병원성 연관성에 대한 상기 단백질 접촉 맵으로부터의 공간적 상호작용을 추출하는, 비일시적 컴퓨터 판독가능 저장 매체.
본 발명이 상기에 상술된 바람직한 구현예 및 예를 참조하여 개시되지만, 이러한 예는 제한적인 의미가 아니라 예시적인 것으로 의도됨이 이해될 것이다. 수정 및 조합이 당업자에게 쉽게 떠오를 것이며, 이러한 수정 및 조합은 본 발명의 사상 및 하기의 청구범위의 범주 내에 있을 것이라는 것이 고려된다.

Claims (30)

  1. 변이 병원성 예측 네트워크로서,
    단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 메모리;
    상기 메모리에 액세스하는, 상기 대체 아미노산 서열을 처리하고, 상기 대체 아미노산 서열의 처리된 표현을 생성하도록 구성된, 변이 인코딩 서브-네트워크;
    상기 참조 아미노산 서열과 상기 대체 아미노산 서열의 상기 처리된 표현을 처리하고 상기 단백질의 단백질 접촉 맵을 생성하도록 구성된, 상기 변이 인코딩 서브네트워크와 통신하는, 단백질 접촉 맵 생성 서브-네트워크; 및
    상기 단백질 접촉 맵을 처리하고 상기 변이 아미노산의 병원성 표시를 생성하도록 구성된 상기 단백질 접촉 맵 생성 서브-네트워크와 통신하는, 병원성 점수 서브-네트워크를 포함하는 변이 병원성 예측 네트워크.
  2. 제1항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 영장류 보존 프로파일을 추가로 저장하고,
    상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 영장류 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  3. 제1항 또는 제2항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 포유류 보존 프로파일을 추가로 저장하고,
    상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 척추동물 보존 프로파일을 추가로 저장하고,
    상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  5. 제4항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  6. 제4항 또는 제5항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 상기 변이 인코딩 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 2차 구조 프로파일을 추가로 저장하고,
    상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 2차 구조 프로파일을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 용매 접근성 프로파일을 추가로 저장하고,
    상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  11. 제9항 또는 제10항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 용매 접근성 프로파일을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 위치-특이적 빈도 행렬을 추가로 저장하고,
    상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  13. 제9항 또는 제12항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  14. 제10항 또는 제12항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  15. 제9항, 제10항 또는 제12항 중 어느 한 항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 빈도 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 메모리는 상기 단백질의 아미노산별 위치-특이적 점수 매트릭스를 추가로 저장하고,
    상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열과 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  17. 제9항, 제10항, 제12항 또는 제16항 중 어느 한 항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  18. 제9항 또는 제16항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  19. 제10항 또는 제16항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  20. 제12항 또는 제16항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 위치-특이적 빈도 행렬, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  21. 제9항, 제10항 또는 제16항에 있어서, 상기 단백질의 상기 단백질 접촉 맵은 상기 참조 아미노산 서열, 상기 아미노산별 2차 구조 프로파일, 상기 아미노산별 용매 접근성 프로파일, 및 상기 아미노산별 위치-특이적 점수 행렬을 처리하는 것에 응답하여 상기 단백질 접촉 맵 생성 서브-네트워크에 의해 생성되는, 변이 병원성 예측 네트워크.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크의 제1 층에 대한 입력으로서 제공되는, 변이 병원성 예측 네트워크.
  23. 제22항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크의 하나 이상의 중간 층에 대한 입력으로서 제공되는, 변이 병원성 예측 네트워크.
  24. 제22항 또는 제23항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 단백질 접촉 맵 생성 서브-네트워크의 최종 층에 대한 입력으로서 제공되는, 변이 병원성 예측 네트워크.
  25. 변이 병원성 예측의 컴퓨터 구현 방법으로서,
    단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 단계;
    상기 대체 아미노산 서열을 처리하고, 상기 대체 아미노산 서열의 처리된 표현을 생성하는 단계;
    상기 참조 아미노산 서열 및 상기 대체 아미노산 서열의 상기 처리된 표현을 처리하고, 상기 단백질의 단백질 접촉 맵을 생성하는 단계; 및
    상기 단백질 접촉 맵을 처리하고 상기 변이 아미노산의 병원성 표시를 생성하는 단계를 포함하는 컴퓨터 구현 방법.
  26. 제25항에 있어서, 상기 단백질의 아미노산별 영장류 보존 프로파일을 저장하는 단계를 추가로 포함하고,
    상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 영장류 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
  27. 제25항 또는 제26항에 있어서, 상기 단백질의 아미노산별 포유류 보존 프로파일을 저장하는 단계를 추가로 포함하고,
    상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 포유류 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
  28. 제25항 내지 제27항 중 어느 한 항에 있어서, 상기 단백질의 아미노산별 척추동물 보존 프로파일을 저장하는 단계를 추가로 포함하고,
    상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
  29. 제28항에 있어서, 상기 대체 아미노산 서열의 상기 처리된 표현은 상기 대체 아미노산 서열, 상기 아미노산별 영장류 보존 프로파일, 상기 아미노산별 포유류 보존 프로파일, 및 상기 아미노산별 척추동물 보존 프로파일을 처리하는 것에 응답하여 생성되는, 컴퓨터 구현 방법.
  30. 변이의 병원성을 예측하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
    단백질의 참조 아미노산 서열, 및 변이 뉴클레오티드에 의해 야기되는 변이 아미노산을 함유하는 단백질의 대체 아미노산 서열을 저장하는 단계;
    상기 대체 아미노산 서열을 처리하고, 상기 대체 아미노산 서열의 처리된 표현을 생성하는 단계;
    상기 참조 아미노산 서열 및 상기 대체 아미노산 서열의 상기 처리된 표현을 처리하고, 상기 단백질의 단백질 접촉 맵을 생성하는 단계; 및
    상기 단백질 접촉 맵을 처리하고 상기 변이 아미노산의 병원성 표시를 생성하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독가능 저장 매체.
KR1020237045387A 2021-08-05 2022-08-04 변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용 KR20240041877A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US202163229897P 2021-08-05 2021-08-05
US63/229,897 2021-08-05
US17/876,481 2022-07-28
US17/876,481 US20230044917A1 (en) 2021-08-05 2022-07-28 Transfer learning-based use of protein contact maps for variant pathogenicity prediction
US17/876,501 US20230045003A1 (en) 2021-08-05 2022-07-28 Deep learning-based use of protein contact maps for variant pathogenicity prediction
US17/876,501 2022-07-28
PCT/US2022/039475 WO2023014912A1 (en) 2021-08-05 2022-08-04 Transfer learning-based use of protein contact maps for variant pathogenicity prediction

Publications (1)

Publication Number Publication Date
KR20240041877A true KR20240041877A (ko) 2024-04-01

Family

ID=89766958

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237045386A KR20240041876A (ko) 2021-08-05 2022-08-04 변이체 병원성 예측을 위한 단백질 접촉 지도의 심층 학습 기반 용도
KR1020237045387A KR20240041877A (ko) 2021-08-05 2022-08-04 변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020237045386A KR20240041876A (ko) 2021-08-05 2022-08-04 변이체 병원성 예측을 위한 단백질 접촉 지도의 심층 학습 기반 용도

Country Status (4)

Country Link
EP (2) EP4381508A1 (ko)
JP (2) JP2024529837A (ko)
KR (2) KR20240041876A (ko)
CN (1) CN117529778A (ko)

Also Published As

Publication number Publication date
EP4381507A1 (en) 2024-06-12
JP2024529842A (ja) 2024-08-14
JP2024529837A (ja) 2024-08-14
CN117529778A (zh) 2024-02-06
KR20240041876A (ko) 2024-04-01
EP4381508A1 (en) 2024-06-12

Similar Documents

Publication Publication Date Title
US20230045003A1 (en) Deep learning-based use of protein contact maps for variant pathogenicity prediction
US20230207064A1 (en) Inter-model prediction score recalibration during training
WO2023014912A1 (en) Transfer learning-based use of protein contact maps for variant pathogenicity prediction
US20230245305A1 (en) Image-based variant pathogenicity determination
US20220336057A1 (en) Efficient voxelization for deep learning
KR20230171930A (ko) 3차원(3d) 단백질 구조들을 사용하여 변이체 병원성을 예측하기 위한 심층 콘볼루션 신경망들
KR20230170680A (ko) 심층 콘볼루션 신경망들을 사용하여 변이체 병원성을 예측하기 위한 다중 채널 단백질 복셀화
US20220336055A1 (en) Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
KR20240041877A (ko) 변이 병원성 예측을 위한 단백질 접촉 맵의 전이학습 기반 이용
US20230047347A1 (en) Deep neural network-based variant pathogenicity prediction
KR20240082269A (ko) 3차원(3d) 단백질 구조 복셀을 사용하는 진화 보존으로부터의 변이체 병원성 예측
CN117178326A (zh) 使用三维(3d)蛋白质结构来预测变体致病性的深度卷积神经网络
JP2024538478A (ja) ギャップ付き及び非ギャップタンパク質サンプルを使用した変異体病原性予測器の複合学習及び転移学習
JP2024538477A (ja) タンパク質構造に基づくタンパク質言語モデル
JP2024538475A (ja) 三次元(3d)タンパク質構造ボクセルを用いた進化的保存からの変異体病原性の予測
CN117581302A (zh) 使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习