KR101990579B1 - 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치 및 이의 예측 방법 - Google Patents

확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치 및 이의 예측 방법 Download PDF

Info

Publication number
KR101990579B1
KR101990579B1 KR1020170079021A KR20170079021A KR101990579B1 KR 101990579 B1 KR101990579 B1 KR 101990579B1 KR 1020170079021 A KR1020170079021 A KR 1020170079021A KR 20170079021 A KR20170079021 A KR 20170079021A KR 101990579 B1 KR101990579 B1 KR 101990579B1
Authority
KR
South Korea
Prior art keywords
sequence
mrf model
quot
amino acid
nucleic acid
Prior art date
Application number
KR1020170079021A
Other languages
English (en)
Other versions
KR20180022549A (ko
Inventor
정찬석
김동섭
손정태
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20180022549A publication Critical patent/KR20180022549A/ko
Application granted granted Critical
Publication of KR101990579B1 publication Critical patent/KR101990579B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은, 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치에 있어서, 분석 대상인 아미노산 또는 핵산에 대한 서열 데이터와, 서열 중 일부가 치환된 변이 데이터가 수신되는 입력부; 아미노산 또는 핵산의 서열 정보와 단백질의 3차원 구조에 대한 구조 정보가 저장된 데이터베이스; 상기 데이터베이스를 이용하여 상기 변이 데이터가 분석 대상인 아미노산 또는 핵산의 서열에 미치는 기능적 영향 또는 유해성을 예측하는 제어부를 포함하고, 상기 제어부는 상기 서열 데이터와 진화적으로 관련된 서열들을 정렬하고, 정렬된 서열 정보와 상기 구조 정보를 이용하여 MRF(Markov Random Field) 모델을 생성하며, 상기 서열 데이터에서 인접한 서열을 고려하여 상기 MRF 모델로부터 상기 변이 데이터의 변이가 진화적으로 관련있는 서열에서 나타날 진화적 가능성을 측정하고, 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 기능적 영향 및 유해성을 예측하는 것을 특징으로 한다.

Description

확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치 및 이의 예측 방법{PREDICTION DEVICE AND METHOD FOR PREDICTING FUNCTIONAL EFFECT AND DELETERIOUSNESS OF AMINO ACID OR NUCLEIC ACID MUTATION BY USING PROBABILISTIC GRAPHICAL MODEL}
본 발명은 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측장치에 관한 것으로, 보다 상세하게는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측장치 및 이의 예측방법에 관한 것이다.
최근 차세대 지놈 시퀀싱 기술의 발달과 더불어 유전체 변이 데이터가 급속하게 증가하고 있다. 새롭게 밝혀지는 변이 데이터는 그 종류가 매우 다양하고, 아직까지 생물학적 기능이 알려지지 않은 것들이 대부분이기 때문에, 이를 생의학적으로 활용하는데 어려움이 있다. 이와 같은 상황에서 미지의 변이가 유전자 발현의 최종 산물인 단백질의 기능에 미치는 영향을 알아내는 것은 매우 중요하다. 단백질은 생명현상을 구성하는 핵심분자로, 서열-구조-기능이 밀접하게 연관되어 있으면서, 유전자 변이를 어느정도 용인하는 유연성을 나타낸다. 그럼에도 동시에 특정 유전자 변이에 대해서는 치명적인 기능적 영향을 받는 특징이 있어서 질병의 직접적인 원인이 될 수 있다. 따라서 변이가 발생했을 때, 단백질의 생화학적 기능과 생체 내 상호작용에 미치는 영향을 알아내는 것은 질병의 원인을 밝히고 치료법을 개발하는데 있어서 핵심적인 작업이다.
단백질 또는 유전자 변이가 그 기능에 미치는 영향을 알아내기 위한 실험적인 방법으로 목표 단백질 또는 유전자의 아미노산 또는 핵산을 인위적으로 치환한 뒤에 에너지 변화나 기능상의 변화를 관찰하는 방법이 주로 사용된다. 이와 같은 실험적인 방법은 시간과 비용이 소요되기 때문에 조사 대상 변이를 체계적으로 선택하는 것이 중요하다. 목표 부위를 효과적으로 선택하기 위해서 단백질의 진화적 정보를 이용한 예측 방법이 이용된다. 이 방법은 진화적으로 연관된 아미노산 서열 또는 핵산 서열들을 다중서열정렬을 통해서 정렬하고, 각 잔기 부위의 진화적 보존성을 측정하는 과정으로 구성된다. 예를 들어 효소의 활성부위는 높은 보존성을 나타내기 때문에 보존성에 기반한 예측이 유용하다. 그러나 대부분의 단백질들은 서로 다른 위치의 잔기들이 서로 상호작용하면서 변이를 허용하는 동시에 기능을 유지하기 때문에 보존성만으로는 예측이 어렵다.
이를 해결하기 위해서 고차원의 진화정보를 활용하는 공진화 모델링 기법을 활용할 수 있다. 공진화 모델은 단백질을 구성하는 서로 다른 잔기 사이의 기능적 연결관계를 진화적 상호작용을 통해서 모델링하고, 이를 바탕으로 기존의 보존성 방법으로 예측이 힘든 변이의 기능적 영향을 분석할 수 있다.
한국등록특허공보 제10-0984253호는 단백질 조각의 질량정보 및 단백질 서열정보를 이용하여 상기 단백질 내에 아미노산 서열 변화 가능성이 있는 위치를 예측함으로써 사용자가 신속하고 합리적인 결정을 할 수 있도록 도와주는 방법 및 시스템이 개시된다.
한편, 아직 공개되지는 않았으나, 본 출원인의 선행특허로 한국출원특허 제2015-0021408호는 다중서열정렬로부터 산출되는 확률 그래프 모델을 이용하여 단백질 내의 아미노산 위치 사이의 진화적 연관성 및 각 잔기의 진화적 의존성을 측정하고, 상기 측정된 진화적 연관성 및 진화적 의존성을 기초로 상기 서열 데이터의 중요부위를 예측하는 장치 및 방법이 개시되는 것으로, 확률 그래프 모델의 구성과정에서 본 발명과 유사점이 있다. 그러나 확률 그래프 모델을 활용하는 측면에 있어서, 기존 발명은 단백질의 중요부위를 예측하는데 목적을 두고 있으며 특정 변이와 단백질 기능성의 관계를 나타내지는 않는다. 하지만, 본 발명은 아미노산 또는 핵산 변이에서 비롯된 미지 변이서열의 진화적 가능성을 분석하는 방법을 개시하였고, 이에 기초하여 아미노산 또는 핵산 변이가 단백질의 기능성 및 질병 민감성에 미치는 영향을 예측하는 방법을 개시한다. 따라서 기존 발명이 해결할 수 없는 변이의 기능적 영향 및 유해성 예측의 목적으로 이용될 수 있다.
한국등록특허공보 제10-0984253호
본 발명이 이루고자 하는 기술적 과제는 아미노산 또는 핵산 서열로부터 단백질의 아미노산 변이 또는 유전자 변이가 그 기능에 미치는 영향을 예측하여 변이와 질병의 관련성을 이해하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측장치 및 이의 예측방법을 제공하는데 목적이 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 유전자 변이와 질병의 관련성을 이용하여 치료법을 개발하는 확률 그래프 모델을 이용한 아미노산 병이 또는 핵산 변이의 기능적 영향 및 유해성 예측장치 및 이의 예측방법을 제공하는데 목적이 있다.
상기 목적을 달성하기 위하여 본 발명은, 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치에 있어서, 분석 대상인 아미노산 또는 핵산에 대한 서열 데이터와, 서열 중 일부가 치환된 변이 데이터가 수신되는 입력부; 아미노산 또는 핵산의 서열 정보와 단백질의 3차원 구조에 대한 구조 정보가 저장된 데이터베이스; 상기 데이터베이스를 이용하여 상기 변이 데이터가 분석 대상인 아미노산 또는 핵산의 서열에 미치는 기능적 영향 또는 유해성을 예측하는 제어부를 포함하고, 상기 제어부는 상기 서열 데이터와 진화적으로 관련된 서열들을 정렬하고, 정렬된 서열 정보와 상기 구조 정보를 이용하여 MRF(Markov Random Field) 모델을 생성하며, 상기 서열 데이터에서 인접한 서열을 고려하여 상기 MRF 모델로부터 상기 변이 데이터의 변이가 진화적으로 관련있는 서열에서 나타날 진화적 가능성을 측정하고, 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 기능적 영향 및 유해성을 예측하는 것을 특징으로 한다.
바람직하게, 상기 제어부는 상기 서열 데이터와 진화적으로 관련된 서열들을 상기 데이터베이스에서 추출하고, 추출된 서열들을 정렬하여 다중서열정렬을 생성하는 다중서열정렬부; 상기 서열 데이터로 생성되는 단백질의 3차원 구조 정보를 상기 데이터베이스에서 추출하고, 3차원 구조에서 서열의 위치를 노드로 구성하고, 인접한 노드를 링크한 네트워크의 MRF 모델을 생성하고, MRF 모델이 실제 단백질 구조에 근사하도록 제한하는 제한조건항을 설정하는 MRF 모델 생성부; 상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 기조로 MRF 모델의 파라미터를 산출하는 MRF 모델 파라미터 산출부; 상기 산출된 MRF 모델 파라미터를 기초로 아미노산 또는 핵산 변이의 진화적 가능성을 측정하는 변이 분석부; 및 상기 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 영향을 분석하는 기능적 영향 및 유해성 예측부를 포함할 수 있다.
바람직하게, 상기 다중서열정렬부는, 정렬된 상기 다중서열정렬을 기초로 유사한 서열의 중복성을 조절할 수 있다.
바람직하게, 상기 MRF 모델 생성부는 각 아미노산 잔기를 상기 노드로 구성하고, 상호 인접한 잔기 쌍을 상기 링크로 구성하여 MRF 모델을 생성하고, 상기 변이 분석부는, 상기 노드에서의 진화적 가능성과 상기 링크에서의 진화적 가능성을 산출함에 따라 상기 기능적 영향 및 유해성 예측부가 상기 서열 데이터에서 인접한 서열을 고려하여 변이가 미치는 영향을 분석할 수 있다.
바람직하게, 상기 MRF 모델 생성부는 상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 조건 또는 상기 MRF 모델의 파라미터 형태가 실제 단백질 구조에 근사한 분포를 나타내도록 제한하는 조건을 제한조건항으로 설정할 수 있다.
바람직하게, 상기 MRF 모델 생성부는, 상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항을 하기의 [수학식 3]에 의해 정의할 수 있다.
[수학식 3]
Figure 112017059921963-pat00001
여기서,
Figure 112017059921963-pat00002
Figure 112017059921963-pat00003
의 프로베니우스놈(frobenius norm)을 의미하고,
Figure 112017059921963-pat00004
는 MRF 모델의 링크 s-t에 대한 파라미터를 의미하며,
Figure 112017059921963-pat00005
는 잡음신호의 기대값을 나타내는 상수를 의미한다.
바람직하게, 상기 MRF 모델 생성부는, 상기 MRF 모델의 파라미터 형태가 실제 단백질 구조에 근사한 분포를 나타내도록 제한하는 제한조건항을 하기의 [수학식 5]에 의해 정의할 수 있다.
[수학식 5]
Figure 112017059921963-pat00006
여기서,
Figure 112017059921963-pat00007
는 노드 s에 대한 차수를 의미하고,
Figure 112017059921963-pat00008
는 차수에 대한 기대값을 나타내는 상수를 의미한다.
바람직하게, 상기 MRF 모델 파라미터 산출부는, 상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 최적화하는 파라미터(P)를 하기의 [수학식 8]에 의해 정의할 수 있다.
[수학식 8]
P=
Figure 112017059921963-pat00009
여기서,
Figure 112017059921963-pat00010
는 각 제한조건항 및 정규화항에 대한 가중치를 의미하고,
Figure 112017059921963-pat00011
는 다중서열정렬의 m번째 정렬된 서열의 i번째 위치에서 나타나는 아미노산 종류를 의미하며,
Figure 112017059921963-pat00012
는 MRF 모델로부터 다중서열정렬이 관찰될 가능성을 근사하여 나타내는 로그-유사가능도(log-pseudo likelihood)를 의미하고,
Figure 112017059921963-pat00013
,
Figure 112017059921963-pat00014
는 파라미터의 오버피팅을 방지하기 위한 정규화항을 의미하며,
Figure 112017059921963-pat00015
,
Figure 112017059921963-pat00016
는 제한조건항을 의미한다.
바람직하게, 상기 변이 분석부는 상기 MRF 모델의 파라미터를 기초로 수신된 변이 데이터가 상기 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 측정할 수 있다.
바람직하게, 상기 변이 분석부는 상기 MRF 모델의 파라미터를 기초로 수신된 변이 데이터가 상기 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 하기의 [수학식 10]에 의해 정의할 수 있다.
[수학식 10]
Figure 112017059921963-pat00017
여기서,
Figure 112017059921963-pat00018
는 MRF 모델의 i번째 노드 파라미터에서 아미노산
Figure 112017059921963-pat00019
에 해당하는 파라미터 값을 의미하고,
Figure 112017059921963-pat00020
는 MRF 모델의 링크 i-j에 대한 파라미터에서 아미노산 쌍
Figure 112017059921963-pat00021
-
Figure 112017059921963-pat00022
에 대한 파라미터 값을 의미한다.
바람직하게, 상기 변이 분석부는 상기MRF 모델의 파라미터를 기초로 수신된 변이 데이터가 상기 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 하기의[수학식11]에 의해 정의할 수 있다.
[수학식 11]
Figure 112017059921963-pat00023
여기서,
Figure 112017059921963-pat00024
는 MRF 모델의 i번째 노드 파라미터에서 아미노산
Figure 112017059921963-pat00025
에 해당하는 파라미터 값을 의미하고,
Figure 112017059921963-pat00026
은 MRF 모델의 링크 i-j에 대한 파라미터에서 아미노산 쌍
Figure 112017059921963-pat00027
에 대한 파라미터 값을 의미하며, Z는 MRF 모델에서의 각 서열들에 대한 분배 함수를 의미한다.
바람직하게, 상기 기능적 영향 및 유해성 예측부는, 상기 진화적 가능성을 기초로 변이가 단백질의 기능 및 질병 연관성 중 적어도 하나의 측면에서 미치는 영향력을 예측할 수 있다.
바람직하게, 상기 기능적 영향 및 유해성 예측부는 상기 변이 분석부에서 산출한 변이 데이터가 상기 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 기초로하여, 상기 변이 데이터가 미치는 기능적 영향 및 유해성을 하기의 [수학식 12]에 의해 정의할 수 있다.
[수학식 12]
Figure 112017059921963-pat00028
여기서,
Figure 112017059921963-pat00029
는 상기 변이 데이터가 상기 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 의미하고,
Figure 112017059921963-pat00030
은 기준 서열이 상기 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 의미한다. 단, 로그를 취하여 로그-가능도(log-likelihood)로 계산하는 것은 수학적인 편의를 위한 것이다.
또한, 본 발명은 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 방법에 있어서, 분석 대상인 아미노산 또는 핵산에 대한 서열 데이터와, 서열 중 일부가 치환된 변이 데이터가 수신되는 단계; 아미노산 또는 핵산의 서열 정보와 단백질의 3차원 구조에 대한 구조 정보가 저장된 데이터베이스로부터 상기 서열 데이터와 진화적으로 관련된 서열들을 정렬하여 다중서열정렬을 생성하는 단계; 상기 서열 데이터로 생성되는 단백질의 3차원 구조 정보를 상기 데이터베이스에서 추출하고, 3차원 구조에서 서열의 위치를 노드로 구성하고, 인접한 노드를 링크한 네트워크의 MRF 모델을 생성하고, MRF 모델이 실제 단백질 구조에 근사하도록 제한하는 제한조건항을 설정하는 단계; 상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 기조로 MRF 모델의 파라미터를 산출하는 단계; 상기 산출된 MRF 모델 파라미터를 기초로 상기 서열 데이터에서 인접한 서열을 고려하여 아미노산 또는 핵산 변이의 진화적 가능성을 측정하는 단계; 및 상기 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 기능적 영향 및 유해성을 예측하는 단계를 포함하는 것을 다른 특징으로 한다.
본 발명에 따르면, 아미노산 또는 핵산의 서열에서, 진화적 보존성 외에 인접한 서열들의 상호작용을 고려하여 변이가 미치는 기능적 영향 및 유해성을 예측할 수 있는 이점이 있다. 이에 따라, 본 발명의 적용시 유전자 변이와 질병의 관련성을 보다 정확하게 이해할 수 있으며, 효율적인 치료법을 개발할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 예측장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 제어부를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 데이터베이스를 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시예에 따른 예측방법을 설명하기 위한 순서도이다.
도 5는 본 발명에 따른 변이 분석 방법을 적용하여 돌연변이에 의한 항생제 분해효소 단백질의 기능 상실을 예측하고 예측 정확도를 비교한 그래프이다.
도 6은 항생제 ampicillin이 6mg/L, 100mg/L인 조건에서 숙주의 생장 속도를 기준으로 변이의 기능적 영향 유무를 각각 실험적으로 구분하고, 본 발명의 변이 분석 방법을 적용하여 계산된 기능적 영향 예측값과의 연관성을 나타낸 그래프이다.
도 7는 본 발명에 따른 변이 분석 방법을 적용하여 돌연변이에 의한 단백질 안정성의 변화를 예측한 그래프이다.
도 8는 본 발명에 따른 변이 분석 방법을 적용하여 유전자 변이에 의한 암 유발을 예측하고 예측 정확도를 비교한 그래프이다.
도 9은 본 발명에 따른 변이 분석 방법을 적용하여 유해한 돌연변이와 polymorphism 돌연변이의 유해성 예측값 분포를 나타낸 그래프이다.
도 10은 도 9와 동일한 데이터를 기존의 예측방법을 통해서 예측한 결과를 나타낸 그래프이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명을 상세히 설명한다. 다만, 본 발명이 예시적 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일 참조부호는 실질적으로 동일한 기능을 수행하는 부재를 나타낸다.
본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 예측장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치(1)는 입력부(110), 제어부(120), 출력부(130) 및 데이터베이스(140)를 포함한다.
입력부(110)는 아미노산 또는 핵산 서열에 대한 서열 데이터와, 서열 중 일부가 치환된 변이 데이터가 수신될 수 있다. 상기 서열 데이터는 미지 생명분자 일부 및 전체 중 어느 하나에 대한 아미노산 또는 핵산의 서열에 관한 데이터이다. 변이 데이터는 상기 서열 데이터의 위치와 해당 위치에서 치환되는 아미노산 또는 핵산에 대한 데이터일 수 있다. 본 실시예로, 변이 데이터는 서열 데이터에서 하나 이상의 서열이 치환된 서열 데이터일 수 있다. 변이 데이터는 변이가 일어난 서열이 단백질에서 기능적으로 영향을 미치거나 유해성을 나타내는 것을 확인하기 위해 서열을 치환시킨 데이터로 이해될 수 있다.
제어부(120)는 입력부(110)에서 수신된 아미노산 또는 핵산 서열과 진화적으로 관련된 서열들을 후술되는 데이터베이스에서 검색하고, 상기 검색된 서열들을 정렬하여 다중서열정렬을 생성한다. 여기서, 진화적으로 관련된 서열들은 통상적인 서열 비교 분석을 통해서 유의미한 연관성을 나타내는 아미노산 또는 핵산 서열을 의미한다.
제어부(120)는 다중서열정렬을 하는 동시에 MRF(Markov Random Field) 모델을 생성한다. 여기서, MRF는 마르코브 랜덤 필드로서, 어떤 사건의 확률 값이 주변에 의존하는 국소적인 성질을 가지는 랜덤 필드이다. 즉, MRF는 영상 내의 화소들과 같이 환경 의존적인 실체들을 모델화할 때 편리하고, 일관된 방법을 제공한다. 제어부(120)는 생성된 MRF 모델을 기초로 최적해를 산출하기 위한 제한조건을 설정하여 제한조건항을 설정한다.
제어부(120)는 다중서열정렬, MRF 모델 및 제한조건항 중 적어도 하나를 기초로 MRF 모델 파라미터를 산출한다.
제어부(120)는 산출된 MRF 모델 파라미터를 기초로 아미노산 또는 핵산 변이의 진화적 가능성을 측정한다. 여기서, 상기 진화적 가능성은 특정 변이를 포함하는 아미노산 또는 핵산 서열이 진화적으로 관련있는 서열에서 나타날 확률적 성질을 의미한다.
제어부(120)는 측정된 진화적 가능성을 기초로 상기 서열 데이터 변이의 기능적 영향 및 유해성을 예측한다.
출력부(130)는 제어부(120)에서 예측된 서열 데이터 변이의 기능적 영향 및 유해성에 대한 결과 데이터를 출력한다. 출력부(130)는 액정, 프로젝터, 프린트 등일 수 있다.
데이터베이스(140)는 아미노산 또는 핵산 서열의 정보가 저장된다. 데이터베이스(140)는 단백질의 3차원 구조에 대한 구조 정보가 저장된다. 본 명세서에서는 분석 대상인 아미노산 또는 핵산의 서열 데이터와 용어상 혼동을 피하기 위해, DB상에 구축된 아미노산, 핵산 정보는 서열 정보로 지칭한다. 단백질의 구조 정보는 단백질을 구성하는 아미노산들의 3차원 좌표 값 형태로 구축될 수 있다.
도 2는 본 발명의 일 실시예에 따른 제어부(120)를 설명하기 위한 블록도이다.
도 2를 참조하면, 제어부(120)는 다중서열정렬부(210), MRF 모델 생성부(220), MRF 모델 파라미터 산출부(230), 변이 분석부(240) 및 기능적 영향 및 유해성 예측부(250)를 포함한다.
다중서열정렬부(210)는 자체프로그램이나 외부프로그램을 이용하여 입력부(110)에서 수신된 아미노산 또는 핵산 서열과 진화적으로 연관된 상동서열들을 데이터베이스(140)로부터 검색을 한다. 다중서열정렬부(210)는 검색된 서열들을 서로 정렬하여 다중서열정렬을 생성한다.
이 때, 다중서열정렬부(210)는 상기 상동서열을 검색하기 위해 PSI-BLAST(Altschul, S. F., Madden, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W., &Lipman, D. J. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Research, 25(17), 3389-3402) 등의 프로그램을 사용할 수 있고, 다중서열정렬을 위해 PSI-BLAST 또는 MUSCLE(Edgar, R. C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research, 32(5), 1792-1797. doi:10.1093/nar/gkh340) 등의 프로그램을 사용할 수 있다.
다중서열정렬부(210)는 정렬된 다중서열정렬을 기초로 유사한 서열의 중복성을 조절한다. 이 때, 다중서열정렬부(210)는 각 서열의 가중치를 산출하거나 전체 다중서열정렬의 독립적인 크기를 산출한다. 다중서열정렬부(210)는 서열의 가중치를 산출하기 위해 위치기반 서열 가중치 계산법 등을 사용할 수 있고, 전체 다중서열정렬의 독립적인 크기 계산을 위해 스퀀스의 유효수(effective number of sequences) 계산법을 사용할 수 있다.
MRF 모델 생성부(220)는 각 아미노산 잔기를 노드로 구성하고, 상호 인접한 잔기 쌍을 링크로 구성하여 MRF 모델을 생성할 수 있다. 보다 상세하게, MRF 모델 생성부(220)는 입력부(110)에서 수신된 아미노산 또는 핵산 서열과 이에 해당하는 단백질 구조를 데이터베이스(140)에서 검색하여 각 아미노산 잔기를 노드로 구성하고, 상호 인접한 잔기쌍을 링크로 구성하는 네트워크를 포함하는 MRF 모델을 생성한다. 본 실시예로, 단백질의 구조적 정보가 없는 경우, MRF 모델 생성부(220)는 모든 아미노산의 노드를 링크로 연결할 수 있다. 이와 같은 링크 네트워크는 인접한 아미노산의 연결관계를 분석할 수 있도록 한다. 링크를 고려한 MRF 모델은 후술된 바와 같이 노드의 파라미터와 링크의 파라미터가 각각 산출될 수 있으며, 이에 따라 변이 분석부(240)는 노드에서의 진화적 가능성과 링크에서의 진화적 가능성을 산출함에 따라 기능적 영향 및 유해성 예측부가 서열 데이터에서 인접한 서열을 고려하여 변이가 미치는 영향을 분석할 수 있게 된다.
MRF 모델의 각 노드는 서열 상의 기 설정된 위치에서 아미노산이 위치할 확률을 의미한다. 일 예시로서, 다중서열정렬에서 특정 서열의 위치에 류신이 존재할 확률이 80%라고 가정할 때, MRF 모델에서 해당 서열의 위치에 존재하는 노드의 값이 80으로 산출될 수 있다. MRF 모델 생성부(220)는 노드 i에 대한 파라미터를 [수학식 1]과 같이 정의된다.
Figure 112017059921963-pat00031
여기서,
Figure 112017059921963-pat00032
는 i번째 위치에서 아미노산 k의 분포를 나타내는 확률을 의미한다. 특히, 다중서열정렬에 갭(gap)을 포함하는 경우, MRF 모델 생성부(220)는 갭을 21번째 아미노산으로 고려하여 포함한다.
MRF 모델의 각 링크는 인접한 두 위치에서 아미노산 쌍이 나타날 결합확률을 의미한다. 인접한 위치쌍은 데이터베이스(140)에서 검색되는 3차원 구조 정보를 이용하여 구성되거나 구조 정보가 주어지지 않는 경우에는 모든 가능한 위치쌍으로 구성된다. MRF 모델 생성부(220)는 링크 i-j에 대한 파라미터를 [수학식 2]와 같이 정의된다.
Figure 112017059921963-pat00033
여기서,
Figure 112017059921963-pat00034
는 i번째 위치의 아미노산 k와 j번째 위치의 아미노산 I 사이의 결합확률을 의미한다. 특히, 다중서열정렬에 갭을 포함하는 경우, MRF 모델 생성부(220)는 갭을 21번째 아미노산으로 고려하여 포함한다.
MRF 모델 생성부(220)는 [수학식 3]을 이용하여 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양을 일정하도록 제한하는 제한조건을 설정한다.
Figure 112017059921963-pat00035
여기서,
Figure 112017059921963-pat00036
Figure 112017059921963-pat00037
의 프로베니우스놈(frobenius norm)을 의미하고,
Figure 112017059921963-pat00038
는 MRF 모델의 링크 s-t에 대한 파라미터를 의미하며,
Figure 112017059921963-pat00039
는 잡음신호의 기대값을 나타내는 상수를 의미한다.
또한, MRF 모델 생성부(220)는
Figure 112017059921963-pat00040
를 링크 s-t에 대한 파라미터로 [수학식 4]와 같이 정의한다.
Figure 112017059921963-pat00041
여기서,
Figure 112017059921963-pat00042
는 갭 문자를 제외한 20종의 아미노산을 의미한다.
MRF 모델 생성부(220)는 [수학식 5]를 이용하여 추후 산출되는 MRF 모델 파라미터의 형태가 실제 단백질 구조에 근사도 분포를 나타내도록 제한하는 제한조건항을 설정한다.
Figure 112017059921963-pat00043
여기서,
Figure 112017059921963-pat00044
는 노드 s에 대한 차수를 의미하고,
Figure 112017059921963-pat00045
는 차수에 대한 기대값을 나타내는 상수를 의미한다.
MRF 모델 생성부(220)는 [수학식 5]의
Figure 112017059921963-pat00046
를 노드 s와 인접한 링크들로부터 [수학식 6]을 이용하여 산출한다.
Figure 112017059921963-pat00047
여기서,
Figure 112017059921963-pat00048
는 링크 파라미터로부터 산출되는 링크의 연결성 세기를 0 ~ 1 사이의 값으로 나타내는 함수를 의미하고, [수학식 7]을 이용하여 산출된다.
Figure 112017059921963-pat00049
MRF 모델 파라미터 산출부(230)는 다중서열정렬, MRF 모델 및 제한조건항을 최적화하는 최적 파라미터(P)를 산출한다. MRF 모델 파라미터 산출부(230)는 [수학식 8]를 이용하여 상기 최적 파라미터를 산출한다.
Figure 112017059921963-pat00050
[수학식 8]을 통해 산출된 결과는 최적 파라미터(P)를 의미한다. 여기서,
Figure 112017059921963-pat00051
는 각 제한조건항 및 정규화항에 대한 가중치를 의미하고,
Figure 112017059921963-pat00052
는 다중서열정렬의 m번째 정렬된 서열의 i번째 위치에서 나타나는 아미노산 종류를 의미하며,
Figure 112017059921963-pat00053
는 MRF 모델로부터 다중서열정렬이 관찰될 가능성을 근사하여 나타내는 로그-유사가능도(log-pseudo likelihood)를 의미하고,
Figure 112017059921963-pat00054
,
Figure 112017059921963-pat00055
는 파라미터의 오버피팅을 방지하기 위한 정규화항을 의미하며,
Figure 112017059921963-pat00056
,
Figure 112017059921963-pat00057
는 제한조건항을 의미한다.
변이 분석부(240)는 산출된 MRF 모델 파라미터를 기초로 수신된 변이 데이터를 포함하는 미지서열 변이가 진화적으로 관련있는 서열에서 나타날 가능성을 측정한다.
변이 분석부(240)는 [수학식 9]를 이용하여 아미노산 변이를 포함하는 미지서열 변이의 진화적 가능성을 측정한다.
Figure 112017059921963-pat00058
여기서,
Figure 112017059921963-pat00059
는 변이를 포함하는 서열
Figure 112017059921963-pat00060
이 MRF 모델로부터 관찰될 가능성을 의미하고,
Figure 112017059921963-pat00061
는 변이를 포함하지 않는 서열
Figure 112017059921963-pat00062
이 MRF 모델로부터 관찰될 가능성을 의미한다.
Figure 112017059921963-pat00063
Figure 112017059921963-pat00064
은 MRF 모델 파라미터로부터 [수학식 10]을 이용하여 각각 산출된다.
Figure 112017059921963-pat00065
여기서,
Figure 112017059921963-pat00066
는 MRF 모델의 i번째 노드 파라미터에서 아미노산
Figure 112017059921963-pat00067
에 해당하는 파라미터 값을 의미하고,
Figure 112017059921963-pat00068
는 MRF 모델의 링크 i-j에 대한 파라미터에서 아미노산 쌍
Figure 112017059921963-pat00069
-
Figure 112017059921963-pat00070
에 대한 파라미터 값을 의미한다.
변이 분석부(240)는 [수학식 11]을 이용하여 MRF 모델 파라미터를 기초로 수신된 변이 데이터가 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 산출한다.
Figure 112017059921963-pat00071
여기서,
Figure 112017059921963-pat00072
는 MRF 모델의 i번째 노드 파라미터에서 아미노산
Figure 112017059921963-pat00073
에 해당하는 파라미터 값을 의미하고,
Figure 112017059921963-pat00074
은 MRF 모델의 링크 i-j에 대한 파라미터에서 아미노산 쌍
Figure 112017059921963-pat00075
에 대한 파라미터 값을 의미하며, Z는 MRF 모델에서의 각 서열들에 대한 분배 함수를 의미한다.
기능적 영향 및 유해성 예측부(250)는 미지서열 변이의 진화적 가능성 분석의 결과를 기초로 기능적 영향 및 유해성을 예측한다. 기능적 영향 및 유해성 예측부(250)는 단백질의 기능 및 질병과 같은 유해한 표현형 중 적어도 하나의 측면에서 변이가 미치는 영향을 예측한다. 즉, 기능적 영향 및 유해성 예측부(250)는 진화적 가능성 측정값이 낮을 수록 기능적 영향 또는 유해성이 높다고 예측하는 것이 바람직하다.
기능적 영향 및 유해성 예측부(250)는 [수학식 12]를 이용하여 변이 분석부(240)에서 산출한 변이 데이터가 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 기초로하여, 변이 데이터가 미치는 기능적 영향 및 유해성을 산출한다.
Figure 112017059921963-pat00076
여기서,
Figure 112017059921963-pat00077
는 변이 데이터가 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 의미하고,
Figure 112017059921963-pat00078
은 기준 서열이 서열 데이터와 진화적으로 관련있는 서열에서 나타날 가능성을 의미한다. 단, 로그를 취하여 로그-가능도(log-likelihood)로 계산하는 것은 수학적인 편의를 위한 것이다.
도 3은 본 발명의 일 실시예에 따른 데이터베이스를 설명하기 위한 블록도이다.
도 3을 참조하면, 데이터베이스(140)는 서열 데이터베이스(310) 및 구조 데이터베이스(320)를 포함한다.
서열 데이터베이스(310)는 아미노산 또는 핵산 서열이 저장된다. 서열 데이터베이스(310)는 다중서열정렬부(210)에서 아미노산 또는 핵산 서열과 진화적으로 관련된 서열들을 검색할 때, 서열 데이터를 제공한다.
구조 데이터베이스(320)는 단백질의 3차원 구조의 정보가 저장된다. 구조 데이터베이스(320)는 MRF 모델 생성부(220)에서 아미노산 또는 핵산 서열의 단백질 구조를 검색할 때, 단백질 구조를 제공한다.
여기서, 서열 데이터베이스(310) 및 구조 데이터베이스(320)는 새로운 서열 또는 구조를 사용자 입력에 따라 추가, 수정 및 삭제를 용이하게 할 수 있다.
도 4는 본 발명의 일 실시예에 따른 예측방법을 설명하기 위한 순서도이다.
도 4를 참조하면, 예측방법은 아미노산 또는 핵산 서열과 변이 데이터로부터 기능적 영향 및 유해성을 예측하여 유전자 변이와 질병의 관련성을 이해하여 유전자 변이와 질병의 관련성을 통해 치료법을 개발할 수 있다. 도 4에 따른 예측방법은 도 1 내지 도 3에서 전술한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치의 각 구성에서 수행되는 단계를 의미한다. 예측방법은 하기의 순서에 따라 수행될 수 있다.
제1 단계(S100)는 아미노산 또는 핵산 서열 및 변이 데이터가 수신된다. 특히, 제1 단계(S100)는 아미노산 또는 핵산 서열에 대한 서열 데이터와 변이가 미지서열 내의 위치와 해당 위치에서 치환되는 아미노산 또는 핵산에 대한 변이 데이터가 수신된다.
제2 단계(S110)는 다중서열정렬을 생성한다. 제2 단계(S110)는 자체프로그램이나 외부프로그램을 이용하여 제1 단계(S100)에서 수신된 아미노산 또는 핵산 서열과 진화적으로 연관된 상동서열들을 서열 데이터베이스로부터 검색을 한다. 제2 단계(S110)는 검색된 서열들을 서로 정렬하여 다중서열정렬을 생성한다.
제2 단계(S110)는 정렬된 다중서열정렬을 기초로 유사한 서열의 중복성을 조절한다. 이 때, 제2 단계(S110)는 각 서열의 가중치를 산출하거나 전체 다중서열정렬의 독립적인 크기를 산출한다.
제3 단계(S120)는 MRF 모델을 생성한다. 제3 단계(S120)는 제1 단계(S100)에서 수신된 아미노산 또는 핵산 서열과 이에 해당하는 단백질 구조를 구조 데이터베이스에서 검색하여 각 아미노산 잔기를 노드로 구성하고, 상호 인접한 잔기쌍을 링크로 구성하는 네트워크를 포함하는 MRF 모델을 생성한다.
제3 단계(S120)는 생성된 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항 및 상기 산출된 MRF 모델 파라미터의 형태가 실제 단백질 구조에 근사도 분포를 나타내도록 제한하는 제한조건항 중 적어도 하나의 제한조건항을 설정한다.
여기서, 제3 단계(S120)는 제2 단계(S110)와 동시에 수행될 수 있다.
제4 단계(S130)는 MRF 모델 파라미터를 산출한다. 제4 단계(S130)는 다중서열정렬, MRF 모델 및 제한조건항을 최적화하는 최적 파라미터를 산출한다.
제5 단계(S140)는 변이 분석을 한다. 제5 단계(S140)는 산출된 MRF 모델 파라미터를 기초로 아미노산 또는 핵산 변이의 진화적 가능성을 측정한다.
제6 단계(S150)는 미지서열 변이의 기능적 영향 및 유해성을 예측한다. 제6 단계(S150)는 변이서열의 진화적 가능성을 기초로 기능적 영향 및 유해성을 예측한다. 제6 단계(S150)는 단백질의 기능 및 질병과 같은 유해한 표현형 중 적어도 하나의 측면에서 변이가 미치는 영향을 예측한다.
< 실시예 1>
본 발명에 따른 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측장치의 단백질 기능성 변화 예측 정확도를 알아보기 위하여 다음과 같은 실험을 수행하였다.
도 1과 같이 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측장치를 만들어, 효소 단백질의 아미노산 서열로부터 각 부위별로 돌연변이가 발생하였을 경우 효소 단백질의 기능에 미치는 영향을 예측하고 예측 정확도를 측정하였다. 돌연변이에 의한 단백질의 기능 변화를 연구하는 것은 단백질의 기능 이상으로 인한 유전병의 발생을 이해하는데 있어 중요한 과정이다. 성능 평가를 위해서 항생제 분해효소 TEM-1의 돌연변이에 따른 기능 변화 정보를 기존 연구[Jacquier, H. et al. Capturing the mutational landscape of the beta-lactamase TEM-1. PNAS 110, 13067-13072 (2013)]로부터 수집하여 사용하였다. PDB 데이터베이스로부터 효소 단백질의 구조 정보를 수집하고 이를 기초로 MRF 모델의 네트워크 구조를 구성하였다. MRF 모델 파라미터 산출을 위한 최적화 함수는 pseudolikelihood와 정규화항으로 구성하였다.
도 5는 본 발명에 따른 변이 분석 방법을 적용하여 돌연변이에 의한 항생제 분해효소 단백질의 기능 상실을 예측하고 예측 정확도를 비교한 그래프이다. 본 발명에 따른 변이 분석 방법은 단백질 구조 정보의 활용 여부에 관계없이 TEM-1 돌연변이의 기능적 영향과 양의 상관관계를 나타내었다. 특히 단백질 구조 정보를 활용한 MRF 모델을 사용했을 때는 구조 정보가 사용되지 않은 MRF 모델보다 개선된 성능을 나타내었다. 즉, TEM-1의 돌연변이에 따른 기능 변화 예측 결과와 실험을 통한 fitness 측정값과의 상관관계에서 구조 정보를 활용하지 않은 변이 분석 방법의 경우 0.591의 Pearson correlation coefficient(PCC)을 보였으며, 구조 정보를 활용한 변이 분석 방법의 경우 0.674의 PCC를 보임으로써, 본 발명에 따른 변이 분석 방법은 항생제 분해효소 단백질에 대한 변이의 기능적 영향을 효과적으로 나타내고 있다.
도 6은 항생제 ampicillin이 6mg/L, 100mg/L인 조건에서 숙주의 생장 속도를 기준으로 변이의 기능적 영향 유무를 각각 실험적으로 구분하고, 본 발명의 변이 분석 방법을 적용하여 계산된 기능적 영향 예측값과의 연관성을 나타낸 그래프이다. 본 발명에 따른 예측값은 두 조건 모두에서 Wilcoxon rank sum test를 통해서 2.2e-16 이하의 p-value를 나타내며, 실험적으로 구분된 기능적 영향과 유의미한 연관성을 나타내었다.
< 실시예 2>
본 발명에 따른 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치의 단백질 안정성 변화 예측 정확도를 알아보기 위하여 다음과 같은 실험을 수행하였다.
도 1과 같이 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치를 만들어, 효소 단백질의 아미노산 서열로부터 각 부위별로 돌연변이가 발생하였을 경우 효소 단백질의 안정성에 미치는 영향을 예측하고 예측 정확도를 측정하였다. 단백질의 안정성 변화는 질병 발생의 심각한 원인 될 수 있으며, 새롭게 합성한 효소들을 활용하는데 제약을 주는 주요 요인으로 알려져 있다. 따라서 변이에 따른 단백질 안정성 변화를 예측하는 것은 의약학 및 생화학 분야에 많은 도움이 된다. 본 발명에 따른 예측 장치의 성능 평가를 위해서 돌연변이 발생에 따른 단백질 안정성 변화가 알려진 단백질을 ProTherm 데이터베이스로부터 수집하여 사용하였다. PDB 데이터베이스로부터 단백질의 구조 정보를 수집하고 이를 기초로 MRF 모델의 네트워크 구조를 구성하였다. MRF 모델 파라미터 산출을 위한 최적화 함수는 pseudolikelihood와 정규화항으로 구성하였다.
도 7는 본 발명에 따른 변이 분석 방법을 적용하여 돌연변이에 의한 단백질 안정성의 변화를 예측한 그래프이다. ProTherm 데이터베이스 중 단백질 1STN에 대해 본 발명에 따른 변이 분석 방법을 적용한 결과, 본 발명에 따른 방법은 PCC=0.813을 나타내며, 기존의 단백질 안정성 예측 방법인 imutant_sequence의 PCC=0.721보다 개선된 실험치와의 상관관계를 나타낸다. 즉, 본 발명에 따른 변이 분석 방법은 서열 정보를 활용한 일반적인 확률 모델임에도 불구하고 기존의 단백질 안정성 변화 예측에 특화된 예측방법보다 개선된 예측 정확도를 나타내었다.
< 실시예 3>
본 발명에 따른 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치의 유해성 예측 정확도를 알아보기 위하여 다음과 같은 실험을 수행하였다.
도 1과 같이 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치를 만들어, 암과 관련된 세포에서 암 유발 변이를 암과 무관한 변이로부터 분리하여 예측하고 예측 정확도를 측정하였다. 암 세포는 수많은 변이를 포함하고 있기 때문에 변이 가운데 암 발생과 관련된 변이를 구분하여 예측하는 것은 암 진단 및 치료에 있어 유용하다. 예측 성능 평가를 위해서 암 발생에 관여하는 것으로 알려진 tp53의 유전자 변이에 의한 암 유발 변이의 정보를 기존 연구결과로부터 수집하여 사용하였다. PDB 데이터베이스로부터 단백질의 구조 정보를 수집하고 이를 기초로 MRF 모델의 네트워크 구조를 구성하였다. MRF 모델 파라미터 산출을 위한 최적화 함수는 pseudolikelihood와 정규화항으로 구성하였다.
도 8는 본 발명에 따른 변이 분석 방법을 적용하여 유전자 변이에 의한 암 유발을 예측하고 예측 정확도를 비교한 그래프이다. tp53 유전자 변이를 암 연관성을 기준으로 분류하고, 각 분류별로 본 발명에 따른 예측값 분포를 violin plot을 이용하여 나타내었다. 본 발명에 따른 예측값은 암 유발 변이와 무관한 변이에 있어서 Wilcoxon rank sum test p-value=0.001171로 유의미하게 다른 분포를 각각 나타내었다. 즉, 본 발명에 따른 변이 분석 방법에 의해 암 유발 변이를 암과 무관한 변이로부터 구분하는데 있어서 응용될 수 있다.
< 실시예 4>
본 발명에 따른 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치의 정확도를 알아보기 위하여 다음과 같은 실험을 수행하였다.
도 1과 같이 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치를 만들어, 단백질의 아미노산 서열 돌연변이의 질병 연관 유해성을 예측하였다. 단백질 돌연변이의 유해성 여부는 유전자 또는 유전체 서열을 바탕으로 질병을 진단하고 치료법을 개발하는데 있어서 유용한 정보이다. 성능 평가를 위해 유해한 돌연변이와 polymorphism에 해당하는 돌연변이 데이터를 기존 연구결과로부터 수집하였다. 그리고 PDB 데이터베이스로부터 선택된 단백질의 구조 정보와 서열 정보를 이용하여 MRF 모델을 구성하였다. MRF 모델 파라미터 산출을 위한 최적화 함수는 pseudolikelihood와 정규화항으로 구성하였다.
도 9은 본 발명에 따른 변이 분석 방법을 적용하여 유해한 돌연변이와 polymorphism 돌연변이의 유해성 예측값 분포를 나타낸 그래프이다. 본 발명에 따른 변이 분석 방법을 적용하여 단백질 P02730을 분석한 결과, 단백질의 구조 정보를 활용하지 않은 변이 분석 방법은 Wilcoxon rank sum test p-value=1.702e-05을 나타내면서 유해한 돌연변이를 효과적으로 구분하였다. 단백질의 구조 정보를 활용한 변이 분석 방법의 경우도 비슷하게 Wilcoxon rank sum test p-value=3.878e-07을 나타내며 유해한 돌연변이를 효과적으로 구분하였다. 따라서 본 발명에 따른 변이 분석 방법은 질병 발생에 관련된 유해한 돌연변이를 효과적으로 구분한다.
도 10은 도 9와 동일한 데이터를 기존의 예측방법을 통해서 예측한 결과를 나타낸 그래프이다. 기존의 예측방법인 SIFT와 Polyphen-2는 각각 Wilcoxon rank sum test p-value=9.965e-05과 1.519e-06의 값을 나타내었다. 즉, 본 발명에 따른 변이 분석 방법은 기존의 예측방법보다 개선된 유의성을 나타낸다. 따라서 본 발명에 따른 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측장치는 기존의 방법과 동등하거나 개선된 예측성능을 나타낼 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
1: 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치
110: 입력부
120: 제어부
130: 출력부
140: 데이터베이스
210: 다중서열정렬부
220: MRF 모델 생성부
230: MRF 모델 파리미터 산출부
240: 변이 분석부
250: 기능적 영향 및 유해성 예측부
310: 서열 데이터베이스
320: 구조 데이터베이스

Claims (14)

  1. 분석 대상인 아미노산 또는 핵산에 대한 서열 데이터와, 서열 중 일부가 치환된 변이 데이터가 수신되는 입력부;
    아미노산 또는 핵산의 서열 정보와 단백질의 3차원 구조에 대한 구조 정보가 저장된 데이터베이스; 및
    상기 데이터베이스를 이용하여 상기 변이 데이터가 분석 대상인 아미노산 또는 핵산의 서열에 미치는 기능적 영향 또는 유해성을 예측하는 제어부를 포함하고,
    상기 제어부는,
    상기 서열 데이터와 기 설정된 진화적으로 관련된 서열들을 정렬하고, 정렬된 서열 정보와 상기 구조 정보를 이용하여 MRF(Markov Random Field) 모델을 생성하며, 상기 서열 데이터에서 인접한 서열을 고려하여 상기 MRF 모델로부터 상기 변이 데이터의 변이가 상기 진화적으로 관련있는 서열에서 나타날 진화적 가능성을 측정하고, 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 기능적 영향 및 유해성을 예측하고,
    상기 제어부는,
    상기 서열 데이터와 상기 진화적으로 관련된 서열들을 상기 데이터베이스에서 추출하고, 추출된 서열들을 정렬하여 다중서열정렬을 생성하는 다중서열정렬부;
    상기 서열 데이터로 생성되는 단백질의 3차원 구조 정보를 상기 데이터베이스에서 추출하고, 3차원 구조에서 서열의 위치를 노드로 구성하고, 인접한 노드를 링크한 네트워크의 MRF 모델을 생성하고, MRF 모델이 실제 단백질 구조에 근사하도록 제한하는 제한조건항을 설정하는 MRF 모델 생성부;
    상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 기조로 MRF 모델의 파라미터를 산출하는 MRF 모델 파라미터 산출부;
    상기 산출된 MRF 모델 파라미터를 기초로 아미노산 또는 핵산 변이의 진화적 가능성을 측정하는 변이 분석부; 및
    상기 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 영향을 분석하는 기능적 영향 및 유해성 예측부를 포함하고,
    상기 MRF 모델 생성부는,
    상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 조건 또는 상기 MRF 모델의 파라미터 형태가 실제 단백질 구조에 근사한 분포를 나타내도록 제한하는 조건을 제한조건항으로 설정하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.



  2. 삭제
  3. 제 1 항에 있어서,
    상기 다중서열정렬부는,
    정렬된 상기 다중서열정렬의 가중치 또는 전체 다중서열의 독립적인 크기를 기초로 서열의 중복성을 조절하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
  4. 제 1 항에 있어서,
    상기 MRF 모델 생성부는,
    각 아미노산 잔기를 상기 노드로 구성하고, 상호 인접한 잔기 쌍을 상기 링크로 구성하여 MRF 모델을 생성하고,
    상기 변이 분석부는,
    상기 노드에서의 진화적 가능성과 상기 링크에서의 진화적 가능성을 산출함에 따라 상기 기능적 영향 및 유해성 예측부가 상기 서열 데이터에서 인접한 서열을 고려하여 변이가 미치는 영향을 분석할 수 있는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
  5. 삭제
  6. 제 1 항에 있어서,
    상기 MRF 모델 생성부는,
    상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항을 하기의 [수학식 3]에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
    [수학식 3]
    Figure 112019008205223-pat00079

    여기서,
    Figure 112019008205223-pat00080
    Figure 112019008205223-pat00081
    의 프로베니우스놈(frobenius norm)을 의미하고,
    Figure 112019008205223-pat00082
    는 MRF 모델의 링크 s-t에 대한 파라미터를 의미하며,
    Figure 112019008205223-pat00083
    는 잡음신호의 기대값을 나타내는 상수를 의미한다.
  7. 제 1 항에 있어서,
    상기 MRF 모델 생성부는,
    상기 MRF 모델의 파라미터 형태가 실제 단백질 구조에 근사한 분포를 나타내도록 제한하는 제한조건항을 하기의 [수학식 5]에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
    [수학식 5]
    Figure 112019008205223-pat00084

    여기서,
    Figure 112019008205223-pat00085
    는 노드 s에 대한 차수를 의미하고,
    Figure 112019008205223-pat00086
    는 차수에 대한 기대값을 나타내는 상수를 의미한다.
  8. 제 1 항에 있어서,
    상기 MRF 모델 파라미터 산출부는,
    상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 최적화하는 파라미터(P)를 하기의 [수학식 8]에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
    [수학식 8]
    P=
    Figure 112019008205223-pat00087

    여기서,
    Figure 112019008205223-pat00088
    는 각 제한조건항 및 정규화항에 대한 가중치를 의미하고,
    Figure 112019008205223-pat00089
    는 다중서열정렬의 m번째 정렬된 서열의 i번째 위치에서 나타나는 아미노산 종류를 의미하며,
    Figure 112019008205223-pat00090
    는 MRF 모델로부터 다중서열정렬이 관찰될 가능성을 근사하여 나타내는 로그-유사가능도(log-pseudo likelihood)를 의미하고,
    Figure 112019008205223-pat00091
    ,
    Figure 112019008205223-pat00092
    는 파라미터의 오버피팅을 방지하기 위한 정규화항을 의미하며,
    Figure 112019008205223-pat00093
    ,
    Figure 112019008205223-pat00094
    는 제한조건항을 의미한다.
  9. 제 1 항에 있어서,
    상기 변이 분석부는,
    상기 MRF 모델의 파라미터를 기초로 수신된 변이 데이터가 상기 서열 데이터와 상기 진화적으로 관련있는 서열에서 나타날 가능성을 측정하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
  10. 제 9 항에 있어서,
    상기 변이 분석부는,
    상기 MRF 모델의 파라미터를 기초로 수신된 변이 데이터가 상기 서열 데이터와 상기 진화적으로 관련있는 서열에서 나타날 가능성을 하기의 [수학식 10]에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
    [수학식 10]
    Figure 112018114867044-pat00095

    여기서,
    Figure 112018114867044-pat00096
    는 MRF 모델의 i번째 노드 파라미터에서 아미노산
    Figure 112018114867044-pat00097
    에 해당하는 파라미터 값을 의미하고,
    Figure 112018114867044-pat00098
    는 MRF 모델의 링크 i-j에 대한 파라미터에서 아미노산 쌍
    Figure 112018114867044-pat00099
    -
    Figure 112018114867044-pat00100
    에 대한 파라미터 값을 의미한다.
  11. 제 1 항에 있어서,
    상기 변이 분석부는,
    상기 MRF 모델의 파라미터를 기초로 수신된 변이 데이터가 상기 서열 데이터와 상기 진화적으로 관련있는 서열에서 나타날 가능성을 하기의 [수학식 11]에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
    [수학식 11]
    Figure 112019008205223-pat00101

    여기서,
    Figure 112019008205223-pat00102
    는 MRF 모델의 i번째 노드 파라미터에서 아미노산
    Figure 112019008205223-pat00103
    에 해당하는 파라미터 값을 의미하고,
    Figure 112019008205223-pat00104
    은 MRF 모델의 링크 i-j에 대한 파라미터에서 아미노산 쌍
    Figure 112019008205223-pat00105
    에 대한 파라미터 값을 의미하며, Z는 MRF 모델에서의 각 서열들에 대한 분배 함수를 의미한다.
  12. 제 1 항에 있어서,
    상기 기능적 영향 및 유해성 예측부는,
    상기 진화적 가능성을 기초로 변이가 단백질의 기능 및 질병 연관성 중 적어도 하나의 측면에서 미치는 영향력을 예측하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
  13. 제 1 항에 있어서,
    상기 기능적 영향 및 유해성 예측부는,
    상기 변이 분석부에서 산출한 변이 데이터가 상기 서열 데이터와 상기 진화적으로 관련있는 서열에서 나타날 가능성을 기초로하여, 상기 변이 데이터가 미치는 기능적 영향 및 유해성을 하기의 [수학식 12]에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치.
    [수학식 12]
    Figure 112019008205223-pat00106

    여기서,
    Figure 112019008205223-pat00107
    는 상기 변이 데이터가 상기 서열 데이터와 상기 진화적으로 관련있는 서열에서 나타날 가능성을 의미하고,
    Figure 112019008205223-pat00108
    은 기준 서열이 상기 서열 데이터와 상기 진화적으로 관련있는 서열에서 나타날 가능성을 의미한다. 단, 로그를 취하여 로그-가능도(log-likelihood)로 계산하는 것은 수학적인 편의를 위한 것이다.
  14. 분석 대상인 아미노산 또는 핵산에 대한 서열 데이터와, 서열 중 일부가 치환된 변이 데이터가 수신되는 단계;
    아미노산 또는 핵산의 서열 정보와 단백질의 3차원 구조에 대한 구조 정보가 저장된 데이터베이스로부터 검색한 상기 서열 데이터와 기 설정된 진화적으로 관련된 서열들을 정렬하여 다중서열정렬을 생성하는 단계;
    상기 서열 데이터로 생성되는 단백질의 3차원 구조 정보를 상기 데이터베이스에서 추출하고, 3차원 구조에서 서열의 위치를 노드로 구성하고, 인접한 노드를 링크한 네트워크의 MRF 모델을 생성하고, MRF 모델이 실제 단백질 구조에 근사하도록 제한하는 제한조건항을 설정하는 단계;
    상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 기조로 MRF 모델의 파라미터를 산출하는 단계;
    상기 산출된 MRF 모델 파라미터를 기초로 상기 서열 데이터에서 인접한 서열을 고려하여 아미노산 또는 핵산 변이의 진화적 가능성을 측정하는 단계; 및
    상기 측정된 진화적 가능성을 기초로 상기 서열 데이터의 변이가 미치는 기능적 영향 및 유해성을 예측하는 단계를 포함하고.
    상기 MRF 모델 생성 및 제한조건항 설정 단계는,
    상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 조건 또는 상기 MRF 모델의 파라미터 형태가 실제 단백질 구조에 근사한 분포를 나타내도록 제한하는 조건을 제한조건항으로 설정하는 것을 특징으로 하는 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 방법.
KR1020170079021A 2016-08-23 2017-06-22 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치 및 이의 예측 방법 KR101990579B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160106855 2016-08-23
KR1020160106855 2016-08-23

Publications (2)

Publication Number Publication Date
KR20180022549A KR20180022549A (ko) 2018-03-06
KR101990579B1 true KR101990579B1 (ko) 2019-06-18

Family

ID=61727215

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170079021A KR101990579B1 (ko) 2016-08-23 2017-06-22 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치 및 이의 예측 방법

Country Status (1)

Country Link
KR (1) KR101990579B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102405030B1 (ko) * 2021-11-23 2022-06-07 주식회사 쓰리빌리언 설명 가능한 유전자 변이의 병원성 예측 시스템 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013041878A1 (en) 2011-09-23 2013-03-28 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984253B1 (ko) 2007-02-16 2010-09-30 씨비에스바이오사이언스 주식회사 아미노산 서열 변화 예측방법 및 시스템
KR101317470B1 (ko) * 2011-05-09 2013-10-11 한국과학기술원 아미노산 또는 핵산 서열로부터 중요부위를 예측하기 위한 예측장치 및 예측방법
KR101743254B1 (ko) * 2015-02-12 2017-06-07 한국과학기술원 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치 및 이의 예측방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013041878A1 (en) 2011-09-23 2013-03-28 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
US20160162634A1 (en) 2011-09-23 2016-06-09 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Noah M. Daniels et al., Bioinformatics, Volume 28, Issue 9, Pages 1216-1222. (2012.05.01.), "SMURFLite: combining simplified Markov random fields with simulated evolution improves remote homology dete*

Also Published As

Publication number Publication date
KR20180022549A (ko) 2018-03-06

Similar Documents

Publication Publication Date Title
Li et al. MetaRNN: differentiating rare pathogenic and rare benign missense SNVs and InDels using deep learning
JP5479431B2 (ja) バイオマーカー抽出装置および方法
Fulton et al. Improving the specificity of high-throughput ortholog prediction
Hendricks et al. ProxECAT: Proxy External Controls Association Test. A new case-control gene region association test using allele frequencies from public controls
Derkach et al. Power Analysis for Genetic Association Test (PAGEANT) provides insights to challenges for rare variant association studies
KR101743254B1 (ko) 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치 및 이의 예측방법
Mayrink et al. Sparse latent factor models with interactions: Analysis of gene expression data
Yu et al. Comparing five statistical methods of differential methylation identification using bisulfite sequencing data
Taylor et al. The generalisability of artificial neural networks used to classify electrophoretic data produced under different conditions
Wolc et al. Application of Bayesian genomic prediction methods to genome-wide association analyses
KR101990579B1 (ko) 확률 그래프 모델을 이용한 아미노산 또는 핵산 변이의 기능적 영향 및 유해성 예측 장치 및 이의 예측 방법
Yakovenko et al. Modern drug design: the implication of using artificial neuronal networks and multiple molecular dynamic simulations
CN101517579A (zh) 蛋白质查找方法和设备
KR101565005B1 (ko) 비음수 행렬 3-요소분해를 이용한 질병 및 질병 연관 유전자를 예측하는 예측장치 및 방법
Jeong et al. Inferring Crohn’s disease association from exome sequences by integrating biological knowledge
US20220189581A1 (en) Method and apparatus for classification and/or prioritization of genetic variants
US20230395185A1 (en) Systems for and methods of determining protein-protein interaction
Dong et al. Domain boundary prediction based on profile domain linker propensity index
Ingolfsson et al. Protein domain prediction
Okamoto et al. Ligand docking simulations by generalized-ensemble algorithms
Mehrotra et al. Evaluating methods for differential gene expression and alternative splicing using internal synthetic controls
KR101853916B1 (ko) 단백질 도메인의 생물경로 특이성 판단 방법, 및 이를 이용한 질병 유전자 발굴 방법
Braichenko et al. Polymorphism-aware models in RevBayes: Species trees, disentangling Balancing Selection and CG-biased gene conversion
Ezkurdia et al. Protein structural domains: definition and prediction
Liang et al. An interpretable ML model to characterize patient-specific HLA-I antigen presentation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant