KR101925040B1 - Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치 - Google Patents

Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치 Download PDF

Info

Publication number
KR101925040B1
KR101925040B1 KR1020160150171A KR20160150171A KR101925040B1 KR 101925040 B1 KR101925040 B1 KR 101925040B1 KR 1020160150171 A KR1020160150171 A KR 1020160150171A KR 20160150171 A KR20160150171 A KR 20160150171A KR 101925040 B1 KR101925040 B1 KR 101925040B1
Authority
KR
South Korea
Prior art keywords
binding affinity
learning
peptide
amino acid
mhc
Prior art date
Application number
KR1020160150171A
Other languages
English (en)
Other versions
KR20180052959A (ko
Inventor
한영만
김동섭
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020160150171A priority Critical patent/KR101925040B1/ko
Publication of KR20180052959A publication Critical patent/KR20180052959A/ko
Application granted granted Critical
Publication of KR101925040B1 publication Critical patent/KR101925040B1/ko

Links

Images

Classifications

    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6845Methods of identifying protein-protein interactions in protein mixtures
    • G06F19/26
    • G06F19/28
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N99/005
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Hematology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)

Abstract

주조직 적합성 복합체(Major Histocompatibility Complex; MHC)와 펩타이드(Peptide) 사이의 결합 친화성을 예측하는 방법이 제공된다. 결합 친화성 예측 장치가 수행하는 결합 친화성 예측 방법은, 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 단계, 상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 단계, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 단계 및 상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 이용하여 기계 학습 기반의 결합 친화성 예측 모델을 구축하는 단계를 포함할 수 있다.

Description

MHC와 펩타이드 사이의 결합 친화성 예측 방법 및 장치{Method and Apparatus for Predicting a Binding Affinity between MHC and Peptide}
본 발명은 결합 친화성 예측 방법 및 장치에 관한 것이다. 보다 자세하게는, 주조직 적합성 복합체(Major Histocompatibility Complex; MHC)와 펩타이드(Peptide) 사이의 결합 친화성을 예측하는 방법 및 장치에 관한 것이다.
병원체의 펩타이드가 MHC에 결합하여 항원제시세포(Antigen Presenting Cell; APC)의 세포 표면에 제시되면, T 세포가 이를 인식하여 활성화되고 면역 반응을 시작하게 된다. 여기서, MHC와 펩타이드 간의 결합이 안정적일수록 면역 반응이 강하게 일어나 효율적으로 병원체를 제거할 수 있다고 알려져 있다. 따라서, 특정 MHC에 안정적으로 결합할 수 있는 병원체의 펩타이드를 결정하는 기술은 상기 병원체가 유발하는 질병의 백신 개발에 유용하게 활용될 수 있다.
그러나, MHC 유전자는 사람이 가지고 있는 유전자 중에서 가장 심한 다형성(polymorphism)을 보이는 유전자로 다양한 병원체에 대한 면역 반응을 유도할 수 있도록 다수의 대립유전자(allele)가 존재한다. 이와 같은 MHC의 다형성으로 인해, 다양한 펩타이드 중 T 세포 에피토프(epitope)가 될 수 있는 펩타이드를 직접 실험하여 결정하는 것은 매우 비효율적이다.
최근에는 다양한 컴퓨팅 기술이 발전함에 따라, 인공 신경망(Artificial Neural Network; ANN) 등의 기계 학습(machine learning) 기반으로 구축된 결합 친화성 예측 모델을 이용하여 특정 MHC와 결합 친화성(binding affinity)이 높은 펩타이드를 선별하는 방법을 이용하고 있다. 즉, 결합 친화성이 높은 펩타이드를 선별하고, 선별된 펩타이드에 대해서만 직접 실험을 함으로써 보다 효율적으로 T 세포 에피토프가 될 수 있는 펩타이드를 결정하고 있다.
그러나, 현재 인공 신경망 기반의 결합 친화성 예측 모델은 학습 단계에서 아미노산 잔기(amino acid residue)들이 지역적으로 뭉쳐서 상호 결합하는 구조를 고려하지 않고, 펩타이드에 포함된 아미노산의 서열만을 고려하여 학습을 수행하기 때문에 결합 친화성 예측의 정확도가 떨어진다는 문제점이 있다. 즉, 아미노산 잔기들이 지역적으로 뭉쳐서 상호 결합하는 패턴은 MHC와 펩타이드 사이의 결합 친화성을 결정하는 주요한 특징임에도 불구하고 이와 같은 특징을 고려하지 않고 있다.
따라서, MHC-펩타이드 복합체를 형성하는 MHC에 포함된 아미노산과 펩타이드에 포함된 아미노산이 지역적으로 뭉쳐서 상호 결합하는 패턴을 고려하여 정확하게 MHC와 펩타이드 사이의 결합 친화성을 예측할 수 있는 방법이 요구된다.
한국공개특허 제2014-0100190호
본 발명이 해결하고자 하는 기술적 과제는, MHC와 펩타이드 사이의 결합 친화성을 정확하게 예측하는 결합 친화성 예측 방법 및 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, MHC와 펩타이드 각각에 포함된 아미노산이 지역적으로 뭉쳐서 상호 결합하는 구조를 고려하여 MHC와 펩타이드 사이의 결합 친화성을 보다 정확하게 예측하는 결합 친화성 예측 방법 및 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 결합 친화성 예측 방법은, 결합 친화성 예측 장치가 수행하는 결합 친화성 예측 방법에 있어서, 학습 대상 MHC(Major Histocompatibility Complex)와 학습 대상 펩타이드(Peptide) 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 단계, 상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 단계, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 단계 및 상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 이용하여 기계 학습 기반의 결합 친화성 예측 모델을 구축하는 단계를 포함할 수 있다.
일 실시예에서, 상기 기계 학습 기반의 결합 친화성 예측 모델은 컨볼루션 신경망(Convolutional Neural Network) 기반의 모델을 포함할 수 있다.
일 실시예에서, 상기 아미노산 쌍의 특성 값은 제1 특성 값 및 제2 특성 값을 포함하고, 상기 아미노산 쌍의 특성 값을 결정하는 단계는, 상기 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성을 이용하여 상기 제1 특성 값을 결정하는 단계 및 상기 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성을 이용하여 상기 제2 특성 값을 결정하는 단계를 포함할 수 있다.
또한, 상기 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성 및 상기 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성은 방향족성을 포함할 수 있다.
일 실시예에서, 상기 아미노산 쌍의 특성 값은 k개(단, k는 2이상의 자연수)의 특성 값을 포함하고, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하는 단계는, 상기 k개의 특성 값을 이용하여 복수의 채널을 갖는 학습 대상 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 예측 대상 MHC와 예측 대상 펩타이드에 대한 데이터를 획득하되, 상기 데이터는 상기 예측 대상 MHC에 포함된 아미노산의 서열 데이터 및 상기 예측 대상 펩타이드에 포함된 아미노산의 서열 데이터를 포함하는 것인, 단계, 상기 예측 대상 MHC에 포함된 아미노산 및 상기 예측 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하고, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 예측 대상 이미지를 생성하는 단계 및 상기 예측 대상 이미지를 상기 결합 친화성 예측 모델에 입력하여 상기 예측 대상 MHC와 상기 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 단계를 더 포함할 수 있다.
일 실시예에서, 학습 데이터셋이 n개인 경우(단, n은 1 이상의 자연수), 상기 결합 친화성 예측 모델을 k-접합 교차 검증(단, k는 1 이상 n 이하의 자연수)을 수행하여 검증하는 단계를 더 포함하되, 상기 k-접합 교차 검증을 통해 평가되는 메트릭은 정확성(precision) 및 재현율(recall) 중 적어도 하나의 메트릭을 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 따른 결합 친화성 예측 장치는, 하나 이상의 프로세서, 네트워크 인터페이스, 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은, 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 오퍼레이션, 상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 오퍼레이션, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 오퍼레이션 및 상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 이용하여 기계 학습 기반의 결합 친화성 예측 모델을 구축하는 오퍼레이션을 포함할 수 있다.
상술한 기술적 과제를 해결하기 위한 본 발명의 또 다른 실시예에 따른 컴퓨터 프로그램은 컴퓨팅 장치와 결합되어, 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 단계, 상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 단계, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 단계, 및 상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 이용하여 기계 학습 기반의 결합 친화성 예측 모델을 구축하는 단계를 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램을 포함할 수 있다.
상술한 본 발명에 따르면, MHC와 펩타이드에 포함된 각 아미노산이 지역적으로 뭉쳐서 상호 결합하는 구조를 고려함으로써, 결합 친화성 예측의 정확도를 향상시킬 수 있다.
또한, 결합 친화성 예측의 정확도가 향상됨에 따라 T 세포 에피토프를 결정하기 위한 실제 실험 단계에 소요되는 인적 비용 및 시간 비용을 절감할 수 있고, 이에 따라 백신 개발에 소요되는 비용이 절감되는 효과가 있다.
또한, 지역 패턴(Local Pattern)을 이용하고 완전 연결(Fully Connected) 레이어를 최소화한 컨볼루션 신경망(Convolutional Neural Network; CNN)을 이용하여 결합 친화성 예측 모델을 구축함으로써, 인공신경망을 이용하는 종래의 방법에 비해 컴퓨팅 비용을 절감할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1a 내지 도 1c는 MHC에 포함된 아미노산과 펩타이드 각각에 포함된 아미노산이 지역적으로 뭉쳐서 상호 결합하는 구조를 설명하기 위한 도면이다.
도 2는 종래의 인공 신경망 기반의 예측 모델을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 결합 친화성 예측 시스템의 구성도이다.
도 4는 본 발명의 다른 실시예에 따른 결합 친화성 예측 장치의 기능 블록도이다.
도 5는 본 발명의 또 다른 실시예에 따른 결합 친화성 예측 장치의 하드웨어 구성도이다.
도 6은 본 발명의 몇몇 실시예에서 참조될 수 있는 결합 친화성 예측 모델을 생성하는 방법의 순서도이다.
도 7 내지 도 8은 본 발명의 몇몇 실시예에서 참조될 수 있는 2차원 이미지 생성 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 몇몇 실시예에서 참조될 수 있는 컨볼루션 신경망 기반의 결합 친화성 예측 모델을 설명하기 위한 도면이다.
도 10은 컨볼루션 신경망을 구성하는 대표적인 레이어의 동작을 설명하기 위한 도면이다.
도 11은 본 발명의 몇몇 실시예에서 참조될 수 있는 결합 친화성 예측 모델을 검증하는 방법을 설명하기 위한 도면이다.
도 12는 본 발명의 몇몇 실시예에서 참조될 수 있는 학습된 결합 친화성 예측 모델을 기초로 MHC와 펩타이드 사이의 결합 친화성을 예측하는 방법의 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계 및/또는 동작은 하나 이상의 다른 구성 요소, 단계 및/또는 동작의 존재 또는 추가를 배제하지 않는다.
본 발명의 설명에 앞서, 이해의 편의를 제공하기 위해 도 1 내지 도 2를 참조하여 MHC와 펩타이드 사이의 결합 구조와 인공 신경망 기반으로 MHC와 펩타이드 사이의 결합 친화성을 예측하는 종래의 방법에 대하여 간략하게 설명한다.
도 1a 내지 도 1c는 MHC에 포함된 아미노산과 펩타이드 각각에 포함된 아미노산이 지역적으로 뭉쳐서 상호 결합하는 구조를 설명하기 위한 도면이다.
먼저, 도 1a에 도시된 제1 형 MHC의 구조를 참조하면, 제1 형 MHC는 상단의 펩타이드 결합 틈새(peptide binding cleft)에서 펩타이드와 결합함으로써 MHC-펩타이드 복합체를 형성하고 면역 반응을 유도한다. 예를 들어, 사람의 MHC인 HLA(Human Leukocyte Antigen)는 병원체의 펩타이드와 결합하고, 상기 결합된 펩타이드를 T 세포에 제시함으로써 면역반응을 유도할 수 있다. 따라서, 병원체에 대한 백신을 개발하는 경우 상기 HLA에 안정적으로 결합하는 병원체의 펩타이드를 찾아내는 일이 매우 중요하다.
다음으로, 도 1b에 도시된 MHC-펩타이드 복합체의 3차원 구조를 살펴보면, 펩타이드에 포함된 아미노산 잔기와 하늘색으로 도시된 MHC에 포함된 아미노산 잔기가 결합되어 MHC-펩타이드 복합체를 형성하는 것을 볼 수 있다. 즉, MHC의 펩타이드 결합 틈새에 존재하는 복수의 결합 지점(binding site)의 아미노산과 펩타이드에 포함된 아미노산이 상호 결합하여 MHC 펩타이드 복합체를 형성하게 된다.
도 1b에 도시된 3차원 구조를 2차원의 그래프 형태로 변환하면 도 1c와 같이 도시될 수 있다. 도 1c에서 사각형의 도형은 MHC의 결합 지점에 위치한 아미노산을 의미하고, 원형의 도형은 펩타이드에 포함된 아미노산을 의미한다. 이하, 본 명세서에서, MHC에 포함된 아미노산은 MHC의 결합 지점에 위치한 아미노산을 지칭하는 것으로 이해될 수 있다.
도 1c를 참조하면, MHC와 펩타이드가 결합하여 MHC-펩타이드 복합체를 형성하는 경우, MHC에 포함된 아미노산(P1-P2-…)과 펩타이드에 포함된 아미노산(AA1-AA2-…)으로 구성된 복수의 아미노산 쌍이 지역적으로 뭉쳐서 상호 결합된 지역(1)이 나타나는 것을 볼 수 있다. 예를 들어, 도 1c의 특정 지역(1)에서 MHC에 포함된 아미노산(P2, P3)과 펩타이드에 포함된 아미노산(AA2, AA3, AA4)이 다대다 관계를 형성하며 상호 결합된 것을 볼 수 있다. MHC와 펩타이드가 안정적으로 결합하는 경우, 이와 같이 지역적으로 뭉쳐서 상호 결합하는 패턴이 빈번하게 나타날 수 있는데, 이는 상기 패턴이 MHC와 펩타이드의 결합 친화성을 예측하기 위한 중요한 특징이 될 수 있다는 것을 의미한다.
다음으로, 도 2는 인공 신경망 기반의 결합 친화성 예측 모델을 도시한다. 상기 인공 신경망은 당해 기술 분야에서 널리 알려진 기계 학습 알고리즘이므로 이에 대한 설명은 생략한다.
도 2를 참조하면, 인공 신경망 기반의 결합 친화성 예측 모델은 펩타이드에 포함된 아미노산의 서열과 결합 친화성을 가리키는 데이터가 포함된 학습 데이터셋을 인공 신경망을 통해 학습함으로써 구축되며, 펩타이드에 포함된 아미노산의 서열(AA1-AA2-…-AAn)이 입력으로 주어진 경우, 상기 펩타이드가 특정 MHC에 결합되는지 여부에 대한 이진 값(binder/non-binder) 또는 결합 친화도를 나타내는 연속 값을 예측 값으로 출력할 수 있다.
그러나, 인공 신경망 기반의 결합 친화성 예측 모델은 도 2에 도시된 바와 같이 펩타이드에 포함된 아미노산의 서열만을 고려할 뿐 MHC에 포함된 아미노산과 펩타이드에 포함된 아미노산이 지역적으로 뭉쳐서 상호 결합하는 패턴을 고려하지 않기 때문에 예측의 정확도가 떨어진다는 문제점이 있다. 즉, 복수의 아미노산 쌍이 지역적으로 뭉쳐서 상호 결합하는 패턴은 결합 친화성을 나타내는 주요한 특징임에도 이를 고려하여 학습을 수행하지 않기 때문에 MHC와 펩타이드 사이의 결합 친화성을 정확하게 예측하지 못하는 문제가 있다.
또한, 인공 신경망은 복수의 은닉 레이어(hidden layer) 모두가 완전 연결(fully connected) 형태로 구성되기 때문에 학습 단계에서 많은 컴퓨팅 비용이 소요된다. 즉, 인공 신경망 기반의 결합 친화성 예측 모델은 학습 비용에 비해 정확도는 높지 않기 때문에 학습의 효율성이 떨어진다는 문제점 또한 갖고 있다.
이하, 상술한 문제를 해결하기 위하여 제안되는 본 발명에 대하여 첨부된 도면에 따라 보다 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 결합 친화성 예측 시스템의 구성도이다.
도 3을 참조하면, 결합 친화성 예측 시스템은 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 시스템으로, 결합 친화성 예측 장치(100)와 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 제공하는 적어도 하나 이상의 데이터 소스(10, 30, 50)를 포함할 수 있다. 단, 이는 본 발명의 목적을 달성하기 위한 바람직한 실시 예일 뿐이며, 필요에 따라 일부 구성 요소가 추가되거나 삭제될 수 있음은 물론이다.
결합 친화성 예측 장치(100)는 데이터 소스(10, 30, 50)로부터 획득한 데이터를 기초로 학습 데이터셋을 생성하고, 기계 학습 기반의 결합 친화성 예측 모델을 구축하며, 상기 결합 친화성 예측 모델을 통해 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 컴퓨팅 장치이다. 상기 결합 친화성 예측 장치는 네트워크를 통해 상기 데이터소스로부터 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득할 수 있으나, 구현 방식에 따라 파일, 자체 데이터베이스 등 다른 경로로 상기 데이터를 획득할 수도 있다.
상기 컴퓨팅 장치는 노트북(notebook), 데스크톱(desktop), 랩탑(laptop)과 같은 장치로 구현될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능을 제공하는 어떠한 장치로도 구현될 수 있다.
데이터 소스(10, 30, 50)는 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 제공한다. 상기 데이터 소스는 예를 들어 IEDB(Immune Epitope Database), MHCBN, SYFPEITHI 등 당해 기술 분야에서 널리 활용되는 데이터베이스가 될 수 있다.
상기 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터는 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터, 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성 데이터 등을 포함할 수 있다. 예를 들어, IEDB는 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 결합 친화성을 가리키는 IC50 데이터를 포함하고 있다.
네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 이동 통신망(mobile radio communication network) 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있다
한편, 결합 친화성 예측 시스템이 MHC와 펩타이드 사이의 결합 친화성을 예측하는 것은 본 발명의 일 실시예에 불과함에 유의해야 한다. 즉, 본 발명의 다른 실시예에 따르면 상기 결합 친화성 예측 시스템은 단백질과 단백질 사이의 결합 친화성, 단백질과 리간드(ligand) 사이의 결합 친화성 등을 가리키는 학습 데이터셋이 주어진 경우, MHC와 펩타이드 외에 다른 분자 사이의 결합 친화성을 예측할 수도 있다.
지금까지 도 3을 참조하여 본 발명의 일 실시예에 따른 결합 친화성 예측 시스템을 설명하였다. 다음으로, 도 4 내지 도 5를 참조하여 본 발명의 다른 실시예에 따른 결합 친화성 예측 장치(100)의 구성 및 동작에 대하여 설명한다.
도 4는 본 발명의 다른 실시예에 따른 결합 친화성 예측 장치의 기능 블록도이다.
도 4를 참조하면, 결합 친화성 예측 장치(100)는 데이터 획득부(101), 이미지 생성부(102), 학습부(103), 검증부(104) 및 예측부(106)를 포함할 수 있다. 다만, 도 4에는 본 발명의 실시예와 관련있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 4에 도시된 구성 요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.
각 구성 요소를 살펴보면, 데이터 획득부(101)는 내부 또는 외부의 데이터 소스(10)로부터 학습 데이터셋 생성의 기초가 되는 데이터를 획득하거나 예측 대상 데이터셋을 획득한다. 예를 들어, 상기 데이터 획득부는 IEDB 등의 데이터 소스(10)로부터 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득할 수 있다.
이미지 생성부(102)는 데이터 획득부(101)가 획득한 데이터를 기초로 학습 데이터셋에 포함되는 2차원의 이미지를 생성한다. 예를 들어, 상기 이미지 생성부는 MHC와 펩타이드에 포함된 각 아미노산을 가리키도록 가로축 및 세로축을 결정하고, 상기 가로축 및 상기 세로축에 의하여 형성된 2차원의 평면 상에서 각 아미노산 쌍의 특성 값을 픽셀 값으로 할당함으로써 2차원 이미지를 생성할 수 있다. 상기 이미지 생성부가 2차원 이미지를 생성하는 상세한 설명은 도 7 내지 도 8을 참조하여 후술한다.
학습부(103)는 이미지 생성부(102)에 의해 생성된 학습 대상 이미지와 데이터 획득부(101)에 의해 획득된 결합 친화성 데이터가 포함된 학습 데이터셋을 기계 학습하여 결합 친화성 예측 모델(105)을 구축한다. 예를 들어, 상기 학습부는 컨볼루션 신경망 기반으로 상기 학습 데이터셋을 학습하여 상기 결합 친화성 예측 모델을 구축할 수 있다. 그러나, 이에 국한되는 것은 아니며 이미지를 학습할 수 있는 다양한 기계 학습 알고리즘 기반으로 상기 결합 친화성 예측 모델을 구축할 수도 있다.
검증부(104)는 학습부(103)에 의해 구축된 결합 친화성 예측 모델(105)을 검증한다. 예를 들어, 상기 검증부는 k-접합 교차 검증(k-fold cross validation) 기법을 이용하여 상기 결합 친화성 예측 모델을 검증할 수 있다. 상기 검증부가 수행하는 검증 방법에 대한 설명은 도 11을 참조하여 후술하기로 한다.
마지막으로, 예측부(106)는 예측 대상 데이터셋을 기초로 생성된 예측 대상 이미지가 입력으로 주어진 경우 결합 친화성 예측 모델(105)을 이용하여 결합 친화성을 예측한다. 예를 들어, 상기 예측부는 예측 대상 MHC와 예측 대상 펩타이드를 기초로 생성된 예측 대상 이미지가 주어진 경우, 상기 결합 친화성 예측 모델에 상기 예측 대상 이미지 입력하고 그에 따른 예측 결과를 출력함으로써 상기 예측 대상 MHC와 상기 예측 대상 펩타이드 사이의 결합 친화성을 예측할 수 있다.
도 4의 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.
다음으로, 도 5는 본 발명의 다른 실시예에 따른 결합 친화성 예측 장치의 하드웨어 구성도이다.
도 5를 참조하면, 결합 친화성 예측 장치(100)는 하나 이상의 프로세서(110), 버스(150), 네트워크 인터페이스(170), 프로세서(110)에 의하여 수행되는 컴퓨터 프로그램을 로드(load)하는 메모리(130)와, 다양한 분자 사이의 결합 친화성을 나타내는 학습 데이터셋을 기계 학습하여 구축된 결합 친화성 예측 모델(191), 결합 친화성 예측 소프트웨어(193)를 저장하는 스토리지(190)를 포함할 수 있다. 다만, 도 5에는 본 발명의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 발명이 속한 기술분야의 통상의 기술자라면 도 5에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다.
프로세서(110)는 결합 친화성 예측 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(110)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 또한, 프로세서(110)는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 결합 친화성 예측 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.
메모리(130)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(130)는 본 발명의 실시예들에 따른 동기화 방법을 실행하기 위하여 스토리지(190)로부터 하나 이상의 프로그램(191)을 로드할 수 있다. 도 5에서 메모리(130)의 예시로 RAM이 도시되었다.
버스(150)는 결합 친화성 예측 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(150)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.
네트워크 인터페이스(170)는 결합 친화성 예측 장치(100)의 유무선 인터넷 통신을 지원한다. 또한, 네트워크 인터페이스(170)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 네트워크 인터페이스(170)는 본 발명의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다.
네트워크 인터페이스(170)는 네트워크를 통해 도 3에 도시된 적어도 하나 이상의 데이터 소스(10, 30, 50)로부터 학습 데이터셋을 획득할 수 있다.
스토리지(190)는 학습 데이터셋을 기초로 생성된 결합 친화성 예측 모델(191) 및 하나 이상의 프로그램(193)을 비임시적으로 저장할 수 있다. 도 5에서 상기 하나 이상의 프로그램의 예시로 결합 친화성 예측 소프트웨어(193)가 도시되었다.
스토리지(190)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.
결합 친화성 예측 모델(191)은 당해 기술 분야에서 널리 알려진 하나 이상의 기계 학습 알고리즘을 이용하여 구축된 모델일 수 있다. 예를 들어, 상기 기계 학습 알고리즘은 컨볼루션 신경망일 수 있고, 상기 결합 친화성 예측 모델은 상기 컨볼루션 신경망에 의해 학습된 VGG16, VGG19 또는 사용자 정의형 모델일 수 있다. 상기 VGG16 또는 VGG19 등의 모델은 당해 기술 분야에서 널리 알려진 모델이고, 이에 대한 설명은 본 발명의 논지를 흐릴 수 있으므로 생략하도록 한다.
결합 친화성 예측 소프트웨어(193)는 본 발명의 실시예에 따라 획득된 데이터를 기초로 학습 데이터셋을 생성하고, 상기 학습 데이터셋을 기계 학습하여 결합 친화성 예측 모델(191)을 구축하며, 상기 결합 친화성 예측 모델을 이용하여 예측 대상 MHC와 예측 대상 펩타이드의 결합 친화성을 예측하는 결합 친화성 예측 방법을 수행할 수 있다.
자세하게는, 결합 친화성 예측 소프트웨어(193)는 메모리(130)에 로드되어, 하나 이상의 프로세서(110)에 의해, 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 오퍼레이션, 상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 오퍼레이션, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 오퍼레이션 및 상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 이용하여 기계 학습 기반의 결합 친화성 예측 모델을 구축하는 오퍼레이션을 수행할 수 있다.
지금까지, 도 4 내지 도 5를 참조하여 본 발명의 다른 실시예에 따른 결합 친화성 예측 장치(100)의 구성 및 동작에 대하여 설명하였다.
다음으로, 도 6 내지 도 12를 참조하여 본 발명의 또 다른 실시예에 따른 결합 친화성 예측 방법에 대하여 설명한다. 이하, 결합 친화성 예측 방법의 각 단계는, 결합 친화성 예측 장치(100)에 의해 수행되는 것으로 가정한다. 또한, 결합 친화성 예측 방법의 각 단계는 결합 친화성 예측 소프트웨어(193)가 프로세서(110)에 의해 실행됨으로써, 결합 친화성 예측 장치(100)에서 수행되는 오퍼레이션일 수 있다.
결합 친화성 예측 방법은 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 학습 데이터셋을 학습하여 결합 친화성 예측 모델을 구축하는 학습 단계와 상기 결합 친화성 예측 모델을 이용하여 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 예측 단계를 포함할 수 있다.
먼저, 결합 친화성 예측 장치(100)가 결합 친화성 예측 모델을 구축하는 학습 단계에 대하여 상세하게 설명한다. 이하, 설명의 편의를 위해 결합 친화성 예측 모델 생성 방법에 포함되는 각 동작의 주체는 그 기재가 생략될 수 있음에 유의한다.
도 6은 결합 친화성 예측 모델을 구축하는 학습 단계의 상세 순서도이다.
도 6을 참조하면, 결합 친화성 예측 장치(100)는 먼저 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득한다(S100). 예를 들어, 결합 친화성 예측 장치(100)는 IEDB, MHCBC, SYFPEITHI 등과 같이 기 구축된 데이터베이스 중 적어도 하나의 데이터베이스로부터 상기 데이터를 획득할 수 있다. 또한, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터 등을 포함할 수 있다.
다음으로, 결합 친화성 예측 장치(100)는 학습 대상 MHC에 포함된 아미노산과 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정한다(S120). 상기 아미노산 쌍의 특성 값은 학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성과 관련된 다양한 특성을 기초로 결정될 수 있고, 결합 친화성 예측의 정확도 향상을 위해 복수의 특성 값을 포함할 수 있다.
예를 들어, 상기 아미노산 쌍의 특성 값은 학습 대상 MHC에 포함된 아미노산과 학습 대상 펩타이드에 포함된 아미노산 각각의 물리화학적 특성을 기초로 결정될 수 있다. 예를 들어, 아미노산 쌍의 특성 값은 복수의 특성 값을 포함하고, 상기 복수의 특성 값 중 제1 특성 값은 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성을 기초로 결정된 특성 값일 수 있고, 상기 복수의 특성 값 중 제2 특성 값은 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성을 기초로 결정된 특성 값일 수 있다.
상기 물리화학적 특성은 예를 들어 아미노산의 상호 결합에 관련된 특성인 아미노산의 입체 파라미터(steric parameter), 수소 결합 공여도(hydrogen bond donor), 소수성(hydrophobicity), 친수성(hydrophilicity), 극성(polarity), 등전점(isoelectric point), 방향족성(aromaticity) 중 적어도 하나 이상의 특성을 포함할 수 있다. 참고로, 상술한 물리화학적 특성을 기초로 결정된 수치 값을 얻기 위해서 AAIndex1(Amino Acid Index)이 이용될 수 있다. 상술한 물리화학적 특성은 당해 기술 분야의 종사자라면 충분히 이해할 수 있는 것이므로 이에 대한 설명은 생략한다.
또한, 상기 아미노산 쌍의 특성 값은 학습 대상 MHC에 포함된 아미노산과 학습 대상 펩타이드에 포함된 아미노산 사이의 결합 성향을 기초로 결정될 수도 있다. 예를 들어, 아미노산 쌍을 구성하는 각 아미노산의 특성이 모두 소수성 또는 친수성으로 유사하거나, 극성이 반대인 경우 두 아미노산은 결합 성향은 상대적으로 높다고 볼 수 있으므로 상기 아미노산 쌍의 특성 값은 상대적으로 큰 값으로 결정될 수 있다. 또는, AAIndex3에 규정된 아미노산 쌍의 포텐셜(pairwise contact potential) 값을 이용하여 상기 특성 값이 결정될 수도 있다.
다음으로, 결합 친화성 예측 장치(100)는 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 2차원의 학습 대상 이미지를 생성한다(S140). 자세하게는, 상기 결합 친화성 예측 장치는 학습 대상 MHC와 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 가로축 및 세로축을 결정함으로써, 2차원의 평면 격자를 형성하고, 상기 2차원의 평면 격자에 상기 아미노산 쌍의 특성 값을 픽셀 값으로 부여함으로써 2차원의 학습 대상 이미지를 생성할 수 있다. 상기 2차원 이미지를 생성하는 상세한 방법은 도 7 내지 도 8을 참조하여 후술한다.
다음으로, 결합 친화성 예측 장치(100)는 학습 대상 이미지와 학습 대상 MHC와 학습 대상 펩타이드가 포함된 학습 데이터셋을 학습하여 기계 학습 기반의 결합 친화성 예측 모델을 구축한다(S160). 예를 들어, 상기 결합 친화성 예측 장치는 상기 학습 데이터셋을 컨볼루션 신경망을 통해 학습하여 상기 결합 친화성 예측 모델을 구축할 수 있다. 상기 컨볼루션 신경망은 당해 기술 분야에서 널리 알려진 딥 러닝(deep learning) 알고리즘이나 이해의 편의를 제공하기 위해 도 9 내지 도 10을 참조하여 상기 컨볼루션 신경망의 각 레이어를 간략하게 후술한다.
단, 본 발명에 따른 결합 친화성 예측 장치(100)는 컨볼루션 신경망 외에도 2차원 이미지에 대한 학습을 수행할 수 있는 다양한 기계 학습 알고리즘을 이용하여 결합 친화성 예측 모델을 구축할 수도 있으며, 이는 구현 방식의 차이에 불과할 수 있음에 유의해야 한다.
마지막으로, 결합 친화성 예측 장치(100)는 구축된 결합 친화성 예측 모델을 검증한다(S180). 상기 결합 친화성 예측 모델에 대한 검증은 예를 들어 k-접합 교차 검증 기법을 이용하여 수행될 수 있다. 결합 친화성 예측 장치(100)가 결합 친화성 예측 모델을 검증하는 방법에 대한 설명은 도 11을 참조하여 후술하기로 한다.
지금까지, 도 6을 참조하여 본 발명의 몇몇 실시예에서 참조될 수 있는 결합 친화성 예측 모델 구축 방법에 대하여 설명하였다. 단, 상술한 방법은 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음에 유의해야 한다.
상술한 방법에 따르면, 결합 친화성 예측 장치(100)는 아미노산이 지역적으로 뭉쳐서 상호 결합하는 패턴을 학습하기 위해 2차원의 이미지를 생성하고 이를 기초로 결합 친화성 예측 모델을 구축함으로써 예측의 정확도를 향상시킬 수 있다. 또한, 결합 친화성 예측 장치(100)는 출력 레이어에만 완전 연결 레이어가 존재하는 컨볼루션 신경망을 이용하여 상기 결합 친화성 예측 모델을 구축함으로써 종래의 인공 신경망에 비해 학습의 효율성 또한 향상시킬 수 있다.
다음으로, 보다 이해의 편의를 제공하기 위해 결합 친화성 예측 장치(100)가 2차원 이미지를 생성하는 단계(S140)에 대하여 부연 설명한다.
상술한 바와 같이, 결합 친화성 예측 장치(100)는 MHC와 펩타이드의 결합 친화성을 나타내는 데이터를 2차원의 학습 대상 이미지로 변환하여 결합 친화성 예측 모델을 학습한다. 상기 결합 친화성 예측 장치가 2차원의 학습 대상 이미지를 학습 데이터로 활용하는 이유는 다음과 같다. 첫째로, 2차원의 이미지는 아미노산 쌍이 지역적으로 뭉쳐서 상호 결합되는 패턴을 가장 잘 나타내는 구조이기 때문이고, 둘째로, 2차원 이미지의 각 픽셀 값은 다수의 색상 채널을 가질 수 있기 때문에 아미노산 쌍이 가질 수 있는 복수의 특성 값이 반영되기에 최적화된 구조이기 때문이다.
이하, 도 7 내지 도 8에 도시된 2차원 이미지의 예를 참조하여 부연 설명한다. 도 7a 및 도 7b는 결합 친화성 예측 장치(100)에 의해 생성된 4x4 크기의 1 채널 2차원 이미지를 도시한다. 본 도면에서 가로축은 펩타이드에 포함된 각 아미노산을 가리키고, 세로축은 MHC에 포함된 각 아미노산을 가리키며, 평면 격자에 도시된 숫자는 각 아미노산 쌍의 픽셀 값을 의미한다. 단, 본 도면에 도시된 예는 이해의 편의를 제공하기 위한 일 예에 불과함에 유의해야 한다. 즉, 실시예에 따라 가로축이 MHC에 포함된 아미노산을 가리키도록 이미지가 생성될 수 있고, 이미지는 다수의 채널을 가질 수도 있다.
먼저 도 7a를 참조하면, 결합 친화성 예측 장치(100)는 가로축에 펩타이드에 포함된 아미노산을 배열하고, 세로축에 MHC에 포함된 아미노산을 배열하여 2차원의 평면을 형성하고, 각 아미노산 쌍의 특성 값을 픽셀 값으로 할당하여 2차원의 이미지(311)를 생성할 수 있다. 도 7a에서 아미노산 쌍(AA2-P2, AA2-P3, AA3-P2, AA3-P3)에 부여된 픽셀 값이 상대적으로 큰 값을 갖는 것을 볼 수 있는데, 이는 아미노산 쌍(AA2-P2, AA2-P3, AA3-P2, AA3-P3)이 지역적으로 뭉쳐서 상호 결합하는 패턴이 나타나는 것으로 이해될 수 있다.
도 7b는 결합 친화성 예측 장치(100)가 생성한 2차원 이미지를 히트 맵(heat map) 형태로 도시한 것이다. 도 7a에서 각 아미노산 쌍은 1개의 특성 값이 결정된다고 가정하였으므로, 1 채널의 이미지(313)가 도시되는 것을 볼 수 있다. 도 7b에서 상대적으로 짙은 음영이 표시된 부분이 아미노산 쌍(AA2-P2, AA2-P3, AA3-P2, AA3-P3)이 지역적으로 뭉쳐서 상호 결합되는 패턴이 나타나는 것으로 이해될 수 있다. 이와 같이, 본 발명에서 2차원 이미지를 생성하는 이유는 상술한 바와 같이 2차원 이미지가 MHC에 포함된 아미노산과 펩타이드에 포함된 아미노산이 지역적으로 상호 결합하는 패턴을 잘 보여줄 수 있기 때문이다.
다음으로, 도 8a 내지 도 8b는 결합 친화성 예측 장치(100)에 의해 생성된 3 채널의 2차원 이미지를 도시한다. 자세하게는, 도 8a는 결합 친화성이 낮은 학습 데이터를 기초로 생성된 이미지(321)이고, 도 8b는 결합 친화성이 높은 학습 데이터를 기초로 생성된 이미지(323)이다.
각 아미노산 쌍에 대하여 3개의 특성 값이 결정된 경우, 결합 친화성 예측 장치(100)는 3채널의 2차원 이미지를 생성할 수 있고, 각 픽셀의 RGB 값에 상기 3개의 특성 값이 할당될 수 있다.
단, 구현 방식에 따라 결합 친화성 예측 장치(100)는 4개 이상의 특성 값을 산출할 수도 있으며, 이와 같은 경우 상기 결합 친화성 예측 장치는 4 개 이상의 다중 채널을 갖는 2차원 이미지를 생성할 수 있다. 예를 들어, 5개의 물리화학적 특성을 기초로 MHC에 포함된 아미노산과 펩타이드에 포함된 아미노산 각각에 대하여 5개의 특성 값이 결정된 경우, 아미노산 쌍의 특성 값은 총 10개의 특성 값을 가질 수 있다. 이러한 경우, 상기 결합 친화성 예측 장치는 10개의 채널을 갖는 2차원 이미지를 생성할 수 있다.
또한, 구현 방식에 따라 아미노산 쌍의 특성 값의 개수와 2차원 이미지의 채널의 개수는 서로 달라질 수도 있다. 예를 들어, 결합 친화성 예측 장치(100)는 주성분 분석(Principal Component Analysis; PCA) 등의 차원 축소 기법을 수행하여 아미노산 쌍의 특성 값에 대응되는 채널의 개수를 줄일 수 있다. 보다 자세한 예를 들면, 아미노산 쌍의 특성 값이 k개(k는 2이상의 자연수)로 결정된 경우, 상기 결합 친화성 예측 장치는 주성분 분석을 수행하여 m개의(단, m은 1이상 k 미만의 자연수) 값으로 변환하고, 상기 m개의 값을 각 픽셀의 채널 값으로 할당하여 m개의 채널을 갖는 2차원 이미지를 생성할 수 있다. 상기 주성분 분석은 당해 기술 분야에서 널리 알려진 차원 축소 기법이므로 이에 대한 설명은 생략한다.
도 8a와 도 8b를 비교하면, 결합 친화성이 낮은 학습 데이터를 기초로 생성된 이미지(321)의 경우 도 8a에 도시된 바와 같이 아미노산이 지역적으로 뭉쳐서 상호 결합하는 패턴이 거의 나타나지 않는 것을 볼 수 있다. 이에 반해, 도 8b에 도시된 이미지(323)에서 점선으로 도시된 원 도형과 같이 짙은 빨강, 짙은 파랑 및 검정 등의 색상이 지역적으로 뭉쳐져서 도시되는 것을 볼 수 있다. 이는 결합 친화성이 높은 학습 데이터의 경우 MHC에 포함된 아미노산과 펩타이드에 포함된 아미노산이 지역적으로 뭉쳐서 상호 결합되는 패턴이 나타나기 때문이다.
지금까지 도 7 내지 도 8을 참조하여, 결합 친화성 예측 장치(100)가 2차원 이미지를 생성하는 방법에 대하여 부연하여 설명하였다. 상술한 방법에 따르면, 상기 결합 친화성 예측 장치는 2차원 이미지의 각 축을 MHC와 펩타이드에 포함된 각 아미노산에 대응시킴으로써 아미노산 쌍이 상호 결합하는 패턴이 2차원 평면 상에 잘 표현되도록 이미지를 생성할 수 있다.
다음으로, 도 9 내지 도 10을 참조하여 컨볼루션 신경망을 기초로 결합 친화성 예측 모델을 구축하는 단계(S160)에 대하여 부연 설명한다.
도 9는 컨볼루션 신경망 기반의 결합 친화성 예측 모델이 구축되는 단계(S160)를 도시한다.
도 9를 참조하면, 컨볼루션 신경망은 복수의 컨볼루션 레이어(convolution layer)와 풀링 레이어(pooling layer) 및 출력 레이어를 포함할 수 있다. 상기 출력 레이어는 당해 기술 분야에서 완전 연결 레이어(fully connected layer) 또는 피드 포워드 레이어(feed forward layer) 등의 다른 용어로 대체될 수 있으나 동일한 대상을 지칭한다. 또한, 도 9의 경우 2개의 컨볼루션 레이어와 2개의 풀링 레이어가 도시되어 있으나, 상기 컨볼루션 레이어 및 풀링 레이어의 개수는 결합 친화성 예측 모델의 종류에 따라 달라질 수 있다. 또한, 출력 레이어는 복수의 완전 연결 레이어를 포함할 수도 있다.
컨볼루션 레이어는 기 설정된 개수의 필터를 이용하여 학습 이미지로부터 특성맵을 추출하고, 풀링 레이어는 보다 효율적으로 학습을 수행하기 위해 노이즈(noise)를 제거하고 추출된 특성맵의 크기를 축소시키는 역할을 수행한다. 예를 들어, 상기 풀링 레이어는 특성맵의 일부 영역에서 최대값을 산출하는 방식으로 특성맵의 크기를 축소하는 최대값 풀링 레이어(max pooling layer)가 이용될 수 있다.
참고로, 컨볼루션 신경망에서 활성화 함수(activation function)는 ReLU(Rectified Linear Unit) 함수가 이용될 수 있으며, 과적합(overfitting) 문제를 해소하기 위해 학습 단계에서 드랍아웃(drop out) 기법 등이 추가적으로 활용될 수 있다. 상기 ReLU 함수 및 드랍아웃 기법은 당해 기술 분야에서 널리 알려진 개념이므로 이에 대한 설명은 생략한다.
결합 친화성 예측 장치(100)는 지역적 상호 결합 패턴이 나타난 2차원의 학습 대상 이미지(330)와 MHC와 펩타이드 사이의 결합 친화성 데이터가 포함된 학습 데이터셋을 이용하여 컨볼루션 신경망을 학습시킴으로써 결합 친화성 예측 모델을 구축할 수 있다. 보다 자세하게는, 상술한 컨볼루션 레이어와 풀링 레이어를 통해 지역적 상호 결합 패턴이 나타난 특성맵을 추출하고, 상기 특성맵을 기초로 결정된 출력 값과 학습 데이터셋의 결합 친화성 데이터 비교를 통해 오차를 산출한다. 그리고, 상기 산출된 오차가 최소화되도록 오차 역전파(error back propagation) 알고리즘을 이용하여 필터의 가중치 값을 조정하는 방식으로 결합 친화성 예측 모델을 구축할 수 있다. 상기 오차 역전파는 당해 기술 분야에서 널리 알려진 알고리즘이므로 이에 대한 설명 또한 생략한다.
참고로, 도 9에 도시된 컨볼루션 신경망의 출력 레이어에서 결합 여부에 대한 이진 값(binder/non-binder)이 출력되는 것으로 도시되어 있으나 이는 설명의 편의를 위한 것일 뿐, 컨볼루션 레이어의 출력 레이어는 결합 친화도를 가리키는 연속 값을 출력할 수도 있으며 이는 구현 방식의 차이에 불과할 수 있다.
보다 이해의 편의를 제공하기 위해 도 10a 내지 도 10c를 참조하여, 컨볼루션 레이어 및 풀링 레이어에서 수행되는 동작을 간단하게 설명한다.
도 10a 및 도 10b는 컨볼루션 신경망의 컨볼루션 레이어에서 수행되는 컨볼루션 연산을 도시하고, 도 10c는 풀링 레이어에서 수행되는 최대값 풀링 연산을 도시한다.
도 10a 및 도 10b를 참조하면, 컨볼루션 레이어는 2차원의 학습 대상 이미지(341)가 주어진 경우, 기 설정된 크기의 필터(343)와 컨볼루션 연산을 수행하여 특성맵(345)을 추출한다. 상기 컨볼루션 연산은 학습 대상 이미지(341)의 픽셀의 값과 필터의 값에 대한 곱의 합을 구하는 연산을 의미하고, 컨볼루션 레이어에서 상기 컨볼루션 연산이 윈도우 슬라이딩(window-sliding) 방식으로 반복적으로 수행됨으로써 특성맵(345)이 추출될 수 있다. 여기서, 상기 필터의 가중치 값은 학습이 수행됨에 따라 적정한 값으로 결정될 수 있다. 예를 들어, 상술한 오차 역전파(error back propagation) 알고리즘을 이용하여 오차가 최소화되는 가중치 값이 결정될 수 있다.
다음으로, 도 10c를 참조하면, 풀링 레이어는 컨볼루션 레이어에서 추출된 특성맵(351)의 크기를 줄이기 위한 서브샘플링(sub-sampling)을 수행한다. 도 10c의 경우 각 영역에서 최대 값을 샘플링하는 방식으로 특성맵의 크기를 줄이는 최대값 풀링의 예를 도시하고 있다. 예를 들어, 특성맵(353)의 값 중 '6'은 특성맵(351)의 왼쪽 상단의 2x2 크기의 영역에서 가장 큰 값을 추출한 것이다. 상술한 바와 같이 특성맵의 크기를 줄이는 이유는 연산에 소요되는 컴퓨팅 비용을 줄이고 노이즈를 제거함으로써 보다 효율적으로 학습을 수행하기 위함이다.
지금까지, 도 9 내지 도 10을 참조하여 컨볼루션 신경망에 의해 결합 친화성 예측 모델이 구축되는 단계(S160)와 컨볼루션 신경망의 각 레이어의 동작에 대하여 간략하게 설명하였다. 다음으로, 도 11을 참조하여, k-접합 교차 검증 기법을 이용하여 결합 친화성 예측 모델을 검증하는 방법에 대하여 설명한다.
도 11은 k-접합 교차 검증 기법의 개념을 도시한다.
도 11을 참조하면, 결합 친화성 예측 장치(100)는 원본 학습 데이터셋을 학습 데이터셋과 검증 데이터셋으로 나누어 검증하는 k-접합 교차 검증 기법을 이용하여 구축된 결합 친화성 예측 모델을 검증할 수 있다. 즉, 결합 친화성 예측 장치(100)는 원본 학습 데이터셋을 k개의 데이터셋으로 분할하고 k-1개의 데이터셋을 이용하여 학습을 수행하고 나머지 1개의 데이터셋을 검증 데이터셋으로 활용하여 검증을 수행할 수 있고, 상기 검증 데이터셋을 변경해가며 총 k 번의 검증을 수행하여 평균 오차 또는 평균 정확도를 산출할 수 있다. 예를 들어, 결합 친화성 예측 장치(100)는 출력 레이어에서 결정되는 값이 결합 친화도를 가리키는 연속 값인 경우 평균 오차를 산출할 수 있고, 상기 수치를 기초로 결합 여부를 가리키는 이진 값이 출력되는 경우 평균 정확도를 산출할 수도 있다.
구현 방식에 따라, 결합 친화성 예측 장치(100)는 산출된 평균 오차 또는 평균 정확도가 기 설정된 기준에 충족되지 않는 경우, 결합 친화성 예측 모델의 파라미터(parameter)를 변경하고 다시 학습을 수행함으로써 새로운 결합 친화성 예측 모델을 생성할 수 있다. 또는, VGG16, VGG19 등 당해 기술 분야에서 널리 알려진 다른 모델을 활용하여 결합 친화성 예측 모델을 재구축할 수도 있다. 여기서, 상기 결합 친화성 예측 모델의 파라미터는 예를 들어 필터의 크기 및 개수, 스트라이드(stride), 콘볼루션 레이어의 개수 등이 될 수 있다.
또는 구현 방식에 따라, 결합 친화성 예측 장치(100)는 서로 다른 복수의 후보 결합 친화성 예측 모델을 구축하고, 각 모델에 대하여 교차 검증을 수행함으로써 평균 정확도가 가장 높은 후보 결합 친화성 예측 모델을 추후 예측 단계에서 이용될 결합 친화성 예측 모델로 결정할 수 있다. 즉, VGG16, VGG19, 사용자 정의형 모델 등의 복수의 후보 결합 친화성 예측 모델을 구축하고, 교차 검증에 의해 평가된 평균 정확도가 가장 높은 적어도 하나의 후보 결합 친화성 예측 모델을 실제 예측에 이용될 결합 친화성 예측 모델로 결정할 수 있다. 참고로, 결합 친화성 예측 장치(100)는 예측의 정확도를 보다 높이기 위해 복수의 결합 친화성 예측 모델을 결정하고, 다양한 앙상블(ensemble) 기법을 이용하여 상기 복수의 결합 친화성 예측 모델을 조합할 수도 있다.
한편, 결합 친화성 예측 장치(100)는 결합 친화성 예측 모델의 정확도를 평가하기 위하여 정확성(precision), 재현율(Recall) 및 F-Measure 중 적어도 하나의 평가 메트릭(metric)을 이용할 수 있다. 예를 들어, 거짓 긍정 오류(false positive)를 줄이는 것이 더 중요한 경우 상기 정확성을 평가 메트릭으로 이용할 수 있고, 거짓 부정 오류(false negative)를 줄이는 것이 중요한 경우, 상기 재현율을 평가 메트릭으로 이용할 수 있다. 또는, 구현 방식에 따라 F2, F0.5 등의 적절한 F-Measure를 이용할 수도 있다. 상기, 정확성, 재현율 및 F-Measure를 구하는 수식은 당해 기술 분야에서 널리 알려져 있으므로 이에 대한 기재는 생략한다.
참고로, 백신 개발을 위하여 1차적으로 MHC와 결합 친화성이 높은 펩타이드를 상기 결합 친화성 예측 장치를 통해서 선정하는 것이 목적인 경우, 실제로 결합 친화성이 낮은 펩타이드가 선정되는 거짓 긍정 오류보다 실제로 결합 친화성이 높은 펩타이드임에도 불구하고 상기 결합 친화성 예측 장치에 의해 선정되지 않는 거짓 부정 오류를 줄이는 것이 더 중요할 수 있다. 이와 같은 경우, 상기 결합 친화성 예측 장치는 상술한 평가 메트릭 중 재현율 또는 F2를 평가 메트릭으로 이용하여 결합 친화성 예측 모델을 검증할 수 있다.
지금까지 도 6 내지 도 11을 참조하여, 결합 친화성 예측 장치(100)가 결합 친화성 예측 모델을 구축하고 검증하는 방법에 대하여 설명하였다. 다음으로, 상기 결합 친화성 예측 장치가 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 예측 단계에 대하여 설명한다. 이하, 설명의 편의를 위해 결합 친화성 예측 단계에 포함되는 각 동작의 주체는 그 기재가 생략될 수 있음에 유의한다.
도 12는 결합 친화성 예측 장치(100)가 수행하는 결합 친화성 예측 단계의 상세 순서도이다.
도 12를 참조하면, 결합 친화성 예측 장치(100)는 먼저 예측 대상 MHC에 포함된 아미노산의 서열과 예측 대상 펩타이드에 포함된 아미노산의 서열을 가리키는 데이터를 획득(S220)한다. 예를 들어, 사람에 대한 백신을 만드는 경우 상기 예측 대상 MHC는 특정 대립유전자(allele)를 갖는 HLA일 수 있다.
다음으로, 결합 친화성 예측 장치(100)는 예측 대상 MHC에 포함된 아미노산과 예측 대상 펩타이드로 구성된 아미노산 쌍의 특성 값을 결정하고(S240), 상기 특성 값을 픽셀 값으로 갖는 2차원 이미지 생성한다(S240). 상기 아미노산 쌍의 특성 값은 도 6에 도시된 학습 단계와 동일한 방식으로 결정되고, 상기 2차원 이미지 또한 동일한 방식으로 생성된다. 따라서, 이에 대한 설명은 중복된 설명을 배제하기 위해 설명한다.
마지막으로, 결합 친화성 예측 장치(100)는 생성된 2차원 이미지를 입력 값으로 기 구축된 결합 친화성 예측 모델을 이용하여 예측 대상 MHC와 예측 대상 펩타이드의 결합 친화성을 예측한다(S260). 구현 방식에 따라 결합 친화성의 예측 값은 결합 여부에 대한 이진 값이 될 수 있고, 결합 친화도를 가리키는 연속 값이 될 수도 있다.
지금까지 도 12를 참조하여 학습 단계에서 구축된 결합 친화성 예측 모델 기반으로 예측 대상 데이터에 대한 결합 친화성을 예측하는 방법에 대하여 설명하였다. 단, 상술한 방법은 본 발명의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음에 유의해야 한다
상술한 방법에 따르면, 결합 친화성 예측 장치(100)는 기 구축된 결합 친화성 예측 모델을 이용하여 특정 MHC에 대하여 결합 친화성이 높은 펩타이드를 정확하게 선별할 수 있다. 따라서, 당해 기술 분야의 종사자가 본 발명에 따른 결합 친화성 예측 장치(100)를 백신 개발 등에 활용하는 경우, 실제 실험 단계에 소요되는 인적 비용 및 시간 비용을 절감할 수 있고, 이에 따라 백신 개발에 소요되는 전체 비용이 절감될 수 있다.
지금까지 도 6 내지 도 12를 참조하여 설명된 본 발명의 개념은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.
도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (14)

  1. 결합 친화성 예측 장치가 수행하는 결합 친화성 예측 방법에 있어서,
    학습 대상 MHC(Major Histocompatibility Complex)와 학습 대상 펩타이드(Peptide) 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 단계;
    상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 단계;
    상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 단계;
    상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 기계 학습하여 컨볼루션 신경망(Convolutional Neural Network) 기반의 결합 친화성 예측 모델을 구축하는 단계; 및
    상기 구축된 결합 친화성 예측 모델을 이용하여, 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 단계를 포함하되,
    상기 결합 친화성 예측 모델은 입력된 이미지에서 특성 맵을 추출하는 컨볼루션 레이어, 서브 샘플링 연산을 통해 상기 추출된 특성 맵의 크기를 줄이는 풀링 레이어 및 결합 친화성에 관한 예측 값을 출력하는 출력 레이어를 포함하는 것을 특징으로 하는,
    결합 친화성 예측 방법.
  2. 삭제
  3. 제1 항에 있어서,
    상기 아미노산 쌍의 특성 값은 제1 특성 값 및 제2 특성 값을 포함하고,
    상기 아미노산 쌍의 특성 값을 결정하는 단계는,
    상기 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성을 이용하여 상기 제1 특성 값을 결정하는 단계; 및
    상기 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성을 이용하여 상기 제2 특성 값을 결정하는 단계를 포함하는,
    결합 친화성 예측 방법.
  4. 제3 항에 있어서,
    상기 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성 및 상기 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성은 방향족성을 포함하는,
    결합 친화성 예측 방법.
  5. 제1 항에 있어서,
    상기 아미노산 쌍의 특성 값은 k개(단, k는 2이상의 자연수)의 특성 값을 포함하고,
    상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하는 단계는,
    상기 k개의 특성 값을 이용하여 복수의 채널을 갖는 학습 대상 이미지를 생성하는 단계를 포함하는,
    결합 친화성 예측 방법.
  6. 제5 항에 있어서,
    상기 k개의 특성 값을 이용하여 복수의 채널을 갖는 학습 대상 이미지를 생성하는 단계는,
    상기 k개의 특성 값을 기초로 주성분 분석(Principal Component Analysis)을 수행하여 m개(단, m은 1이상 k 미만의 자연수)의 특성 값을 산출하는 단계; 및
    상기 m개의 특성 값을 각 픽셀의 값으로 할당하여 m개의 채널을 갖는 학습 대상 이미지를 생성하는 단계를 포함하는,
    결합 친화성 예측 방법.
  7. 제1 항에 있어서,
    상기 결합 친화성을 예측하는 단계는,
    상기 예측 대상 MHC에 포함된 아미노산 및 상기 예측 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하고, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 예측 대상 이미지를 생성하는 단계; 및
    상기 예측 대상 이미지를 상기 결합 친화성 예측 모델에 적용하여 상기 예측 대상 MHC와 상기 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 단계를 포함하는,
    결합 친화성 예측 방법.
  8. 제1 항에 있어서,
    상기 컨볼루션 신경망 기반의 결합 친화성 예측 모델을 구축하는 단계는,
    상기 학습 데이터셋을 기계 학습하여 복수의 후보 결합 친화성 예측 모델을 구축하되, 상기 복수의 후보 결합 친화성 예측 모델 각각은 서로 적어도 일부는 상이한 파라미터 값을 갖는 것인, 단계;
    k-접합 교차 검증을 통해 상기 복수의 후보 결합 친화성 예측 모델 각각에 대한 제1 평균 정확도를 산출하는 단계;
    상기 복수의 후보 결합 친화성 예측 모델 중에서 상기 제1 평균 정확도가 제1 임계치 미만인 후보 결합 친화성 예측 모델을 선정하는 단계;
    상기 선정된 후보 결합 친화성 예측 모델의 파라미터 값을 변경하고 상기 학습 데이터셋을 다시 기계 학습하여, 후보 결합 친화성 예측 모델을 재구축하는 단계;
    k-접합 교차 검증을 통해 상기 재구축된 후보 결합 친화성 예측 모델에 대한 제2 평균 정확도 산출하는 단계; 및
    상기 재구축된 후보 결합 친화성 예측 모델과 상기 제1 평균 정확도가 상기 제1 임계치 이상인 후보 결합 친화성 예측 모델 중에서, 평균 정확도가 제2 임계치 이상이 되는 모델을 상기 결합 친화성 예측 모델로 결정하는 단계를 포함하는 것을 특징으로 하는,
    결합 친화성 예측 방법.
  9. 프로세서;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및
    상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 오퍼레이션;
    상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 오퍼레이션;
    상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 오퍼레이션;
    상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 기계 학습하여 컨볼루션 신경망(Convolutional Neural Network) 기반의 결합 친화성 예측 모델을 구축하는 오퍼레이션; 및
    상기 구축된 결합 친화성 예측 모델을 이용하여, 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 오퍼레이션을 포함하고,
    상기 결합 친화성 예측 모델은 입력된 이미지에서 특성 맵을 추출하는 컨볼루션 레이어, 서브 샘플링 연산을 통해 상기 추출된 특성 맵의 크기를 줄이는 풀링 레이어 및 결합 친화성에 관한 예측 값을 출력하는 출력 레이어를 포함하는 것을 특징으로 하는,
    결합 친화성 예측 장치.
  10. 삭제
  11. 제9 항에 있어서,
    상기 아미노산 쌍의 특성 값은 제1 특성 값 및 제2 특성 값을 포함하고,
    상기 아미노산 쌍의 특성 값을 결정하는 오퍼레이션은,
    상기 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성을 이용하여 상기 제1 특성 값을 결정하는 오퍼레이션; 및
    상기 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성을 이용하여 상기 제2 특성 값을 결정하는 오퍼레이션을 포함하는,
    결합 친화성 예측 장치.
  12. 제11 항에 있어서,
    상기 학습 대상 MHC에 포함된 아미노산의 물리화학적 특성 및 상기 학습 대상 펩타이드에 포함된 아미노산의 물리화학적 특성은 방향족성을 포함하는,
    결합 친화성 예측 장치.
  13. 제9 항에 있어서,
    상기 결합 친화성을 예측하는 오퍼레이션은,
    상기 예측 대상 MHC에 포함된 아미노산 및 상기 예측 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하고, 상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 예측 대상 이미지를 생성하는 오퍼레이션; 및
    상기 예측 대상 이미지를 상기 결합 친화성 예측 모델에 적용하여 상기 예측 대상 MHC와 상기 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 오퍼레이션을 포함하는,
    결합 친화성 예측 장치.
  14. 컴퓨팅 장치와 결합되어,
    학습 대상 MHC와 학습 대상 펩타이드 사이의 결합 친화성을 나타내는 데이터를 획득하되, 상기 데이터는 상기 학습 대상 MHC에 포함된 아미노산의 서열 데이터, 상기 학습 대상 펩타이드에 포함된 아미노산의 서열 데이터 및 상기 학습 대상 MHC와 상기 학습 대상 펩타이드 사이의 결합 친화성 데이터를 포함하는 것인, 단계;
    상기 학습 대상 MHC에 포함된 아미노산 및 상기 학습 대상 펩타이드에 포함된 아미노산으로 구성된 아미노산 쌍의 특성 값을 결정하는 단계;
    상기 아미노산 쌍의 특성 값을 픽셀 값으로 갖는 학습 대상 이미지를 생성하되, 상기 학습 대상 이미지는 제1 축 및 제2 축에 의하여 형성되는 평면 상에서 생성되는 것이고, 상기 학습 대상 이미지의 제1 축은 상기 학습 대상 MHC에 포함된 각 아미노산을 가리키고, 상기 제2 축은 상기 학습 대상 펩타이드에 포함된 각 아미노산을 가리키는 것인, 단계;
    상기 학습 대상 이미지 및 상기 결합 친화성 데이터가 포함된 학습 데이터셋을 기계 학습하여 컨볼루션 신경망(Convolutional Neural Network) 기반의 결합 친화성 예측 모델을 구축하는 단계; 및
    상기 구축된 결합 친화성 예측 모델을 이용하여, 예측 대상 MHC와 예측 대상 펩타이드 사이의 결합 친화성을 예측하는 단계를 실행시키되,
    상기 결합 친화성 예측 모델은 입력된 이미지에서 특성 맵을 추출하는 컨볼루션 레이어, 서브 샘플링 연산을 통해 상기 추출된 특성 맵의 크기를 줄이는 풀링 레이어 및 결합 친화성에 관한 예측 값을 출력하는 출력 레이어를 포함하는, 컴퓨터로 판독가능한 기록매체에 저장된,
    컴퓨터 프로그램.
KR1020160150171A 2016-11-11 2016-11-11 Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치 KR101925040B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160150171A KR101925040B1 (ko) 2016-11-11 2016-11-11 Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160150171A KR101925040B1 (ko) 2016-11-11 2016-11-11 Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180052959A KR20180052959A (ko) 2018-05-21
KR101925040B1 true KR101925040B1 (ko) 2018-12-04

Family

ID=62453249

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160150171A KR101925040B1 (ko) 2016-11-11 2016-11-11 Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101925040B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102213670B1 (ko) 2018-08-09 2021-02-08 광주과학기술원 약물-표적 상호 작용 예측을 위한 방법
EP3739589A1 (en) * 2019-05-17 2020-11-18 NEC OncoImmunity AS Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide
KR102184720B1 (ko) * 2019-10-11 2020-11-30 한국과학기술원 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치
KR102576033B1 (ko) * 2020-07-17 2023-09-11 주식회사 아론티어 3d-컨벌루션 뉴럴 네트워크의 앙상블을 이용한 단백질-리간드 결합 친화도 예측 방법 및 이를 위한 시스템
KR102537470B1 (ko) * 2020-10-20 2023-05-26 중앙대학교 산학협력단 신경망 기반 알고리즘에 근거한 안와 전산화단층촬영(ct)을 이용한 갑상선안병증(go) 진단 방법
KR20220135345A (ko) * 2021-03-30 2022-10-07 한국과학기술원 펩타이드-mhc에 대한 t 세포 활성의 예측 방법 및 분석장치
US20230083313A1 (en) * 2021-09-13 2023-03-16 Nec Laboratories America, Inc. Peptide search system for immunotherapy

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278441A1 (en) 2014-03-25 2015-10-01 Nec Laboratories America, Inc. High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2608437A1 (en) * 2005-05-12 2006-11-23 Merck & Co., Inc. System and method for automated selection of t-cell epitopes
KR100856517B1 (ko) * 2007-01-03 2008-09-04 주식회사 인실리코텍 수학적 모델을 이용한 펩타이드 서열의 조직 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체
KR20080085607A (ko) * 2007-03-20 2008-09-24 정유진 지지벡터기계를 이용한 단백질들간의 상호작용 예측 방법
WO2014180490A1 (en) * 2013-05-10 2014-11-13 Biontech Ag Predicting immunogenicity of t cell epitopes
WO2016128060A1 (en) * 2015-02-12 2016-08-18 Biontech Ag Predicting t cell epitopes useful for vaccination

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150278441A1 (en) 2014-03-25 2015-10-01 Nec Laboratories America, Inc. High-order semi-Restricted Boltzmann Machines and Deep Models for accurate peptide-MHC binding prediction

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
R.D Bremel 외 1인, "An integrated approach to epitope analysis I: Dimensional reduction, visualization and prediction of MHC binding...", Immunome Research 2010, 6권, 7호, 2010.*

Also Published As

Publication number Publication date
KR20180052959A (ko) 2018-05-21

Similar Documents

Publication Publication Date Title
KR101925040B1 (ko) Mhc와 펩타이드 사이의 결합 친화성 예측 방법 및 장치
US11508146B2 (en) Convolutional neural network processing method and apparatus
US20230051648A1 (en) Convolutional neural network (cnn) processing method and apparatus
JP7459159B2 (ja) Mhcペプチド結合予測のためのgan-cnn
CN110599492B (zh) 图像分割模型的训练方法、装置、电子设备及存储介质
CN113449857B (zh) 一种数据处理方法和数据处理设备
KR20210010505A (ko) 상이한 데이터 모달리티들에 대한 통계적 모델들을 단일화하기 위한 시스템들 및 방법들
JP2019527447A (ja) ニューラルネットワーク学習ベースの変種悪性コードを検出するための装置、そのための方法及びこの方法を実行するためのプログラムが記録されたコンピュータ読み取り可能な記録媒体
Gao et al. Alphadesign: A graph protein design method and benchmark on alphafolddb
JP6883787B2 (ja) 学習装置、学習方法、学習プログラム、推定装置、推定方法、及び推定プログラム
KR102184720B1 (ko) 암 세포 표면의 mhc-펩타이드 결합도 예측 방법 및 분석 장치
Loni et al. Faststereonet: A fast neural architecture search for improving the inference of disparity estimation on resource-limited platforms
US20220270262A1 (en) Adapted scanning window in image frame of sensor for object detection
US20210049474A1 (en) Neural network method and apparatus
EP3629248A1 (en) Operating method and training method of neural network and neural network thereof
CN112651445A (zh) 基于深度网络多模态信息融合的生物信息识别方法和装置
US9299000B2 (en) Object region extraction system, method and program
CN113902107A (zh) 用于神经网络模型全连接层的数据处理方法、可读介质和电子设备
KR20220063331A (ko) 딥러닝 기반 이미지 재구성 장치 및 그 방법
Ambroise et al. Identification of relevant properties for epitopes detection using a regression model
CN113051961A (zh) 深度图人脸检测模型训练方法、系统、设备及存储介质
CN111259685A (zh) 一种指纹重建方法及存储介质
Singh et al. A Analysis of Artificial Neural Networks use in Predicting Secondary Structures
JP2005309877A (ja) 機能性生体分子の配列解析方法
US20220319635A1 (en) Generating minority-class examples for training data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant