KR20180017827A - 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템 - Google Patents

염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 시스템 Download PDF

Info

Publication number
KR20180017827A
KR20180017827A KR1020160102252A KR20160102252A KR20180017827A KR 20180017827 A KR20180017827 A KR 20180017827A KR 1020160102252 A KR1020160102252 A KR 1020160102252A KR 20160102252 A KR20160102252 A KR 20160102252A KR 20180017827 A KR20180017827 A KR 20180017827A
Authority
KR
South Korea
Prior art keywords
sequence
rna sequence
rna
protein
data
Prior art date
Application number
KR1020160102252A
Other languages
English (en)
Other versions
KR101888628B1 (ko
Inventor
한경숙
최대식
박병규
채한주
이욱
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020160102252A priority Critical patent/KR101888628B1/ko
Publication of KR20180017827A publication Critical patent/KR20180017827A/ko
Application granted granted Critical
Publication of KR101888628B1 publication Critical patent/KR101888628B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • G06F19/18
    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 RNA 서열을 구성하는 단일염기 및 올리고염기 각각에 대한 위치가중행렬을 서열 프로파일 정보로 사용하고, 선택적으로 RNA 서열을 구성하는 단일염기 및 올리고염기를 기준으로 하는 빈도수로 정의되는 서열 조성 정보에 기초한 특징 벡터를 학습시킴으로써, 표적 단백질과 결합하는 RNA을 예측하는 방법 및 시스템에 관한 것이다. 본 발명의 방법과 시스템을 채택함으로써, 표적 단백질에 대한 정보 없이도 양호한 예측 성능을 발휘할 수 있으며, 표적 단백질에 대한 정보가 있을 경우에도 양호한 예측 성능을 발휘한다. 본 발명의 방법 및 시스템은 신약 개발 과정에서 신약 후보 물질을 스크리닝 하고자 하는 경우나, 단백질과 RNA의 상호작용 메커니즘을 규명하기 위한 연구-툴(research-tool)로도 활용될 수 있을 것으로 기대된다.

Description

염기 프로파일과 조성을 이용하여 단백질과 결합하는 RNA 서열 영역을 예측하는 방법 및 시스템{Method and System of Predicting protein-binding regions in RNA Using Nucleotide Profiles and Compositions}
본 발명은 핵산 서열을 분석하는 방법에 관한 것으로, 더욱 상세하게는 컴퓨터를 이용하여 결합 상대방에 대한 정보 없이도 상대방과 결합하는 RNA 서열 영역을 예측하는 방법 및 시스템에 관한 것이다.
전사 후 유전자 조절(post-transcriptional gene regulation), 번역(translation) 및 선택적 스플라이싱(alternative splicing)과 같은 다양한 세포 공정에서 단백질과 RNA 사이의 상호작용은 본질적으로 중요하다. 이에 따라 RNA-결합 단백질(RNA binding proteins, RBPs)이나 단백질과 RNA 분자에서 결합 영역(binding regions)이나 결합 부위(binding sites)를 확인하기 위한 많은 연구가 수행되고 있다. 특히 차세대 서열 결정(sequencing) 기법과 결합 면역침전법(cross-linking and immunoprecipitation, CLIP)과 같은 대량신속처리(high-throughput) 실험 기법에서 최근 기술이 진보함에 따라, RNA-결합 단백질 및 이들의 표적 RNAs에 대한 발견은 가속화되고 있다.
현재까지 알려진 RNA 결합 단백질 및 표적 RNA의 수가 점차 증가하고 있기는 하지만, 단백질-RNA 상호작용의 기전(mechanism)은 완전히 밝혀지지 않았으며, 많은 수의 RNA-결합 단백질 및 표적 RNA는 여전히 밝혀지지 않았다. 예를 들면, 인간이 가지고 있는 단백질-코딩 유전자의 개수는 대략 ~25,000개이지만, 현재까지 1,542개의 RNA-결합 단백질(7.5%)과 표적 RNA만이 확인되었다(Gerstberger, S., Hafner, M., Tuschl, T.: A census of human RNA-binding proteins. Nature Reviews Genetics 15(0):829-845 (2014)).
실험적 방법에 의하여 RNA에서 단백질과 결합하는 영역을 찾는 것은 많은 시간과 비용을 요구한다. 실험적 기법을 보완하기 위한 방법으로서, 생물정보학(bioinformatics)으로 지칭되는 컴퓨터 모델링 기법이 있다. 현재 사용되고 있는 대부분의 컴퓨터 모델링 기법은 RNA에서 단백질 결합 영역을 찾기보다는 단백질에서 RNA-결합 영역을 찾는 것으로 주로 제한되고 있다. 예를 들어, BindN 기법(Wang, L., Brown, S,J.: BindN: a web-based tool for ecient prediction of DNA and RNA binding sites in amino acid sequences. Nucleic Acids Res. 34:243-248 (2006))의 업그레이드 버전인 BindN+ 기법(Wang, L., Huang, C., Yang, M.Q., Yang, J.Y.: BindN+ for accurate prediction of DNA and RNA-binding residues from protein sequence features. BMC Systems Biology 4(Suppl 1):S3 (2010))은 단백질 서열의 생물학적 특징(biological features) 및 진화 정보로부터 RNA- 또는 DNA-결합 잔기(residues)를 예측하기 위하여 서포트 벡터 머신(support vector machine, SVM)을 이용한다. 또한 RNABindRPlus 기법(Walia, R.R., Xue, L.C., Wilkins, K., El-Manzalawy, Y., Dobbs, D., Honavar, V.: RNABindRPlus: A predictor that combines machine learning and sequence homology-based methods to improve the reliability of predicted RNA-binding residues in proteins. PLOS One 9(5):e97725 (2014))은 최적화 SVM으로부터 예측 및 서열 유사도(sequence homology) 기법으로부터 예측을 조합하여 단백질 서열에서 RNA-결합 잔기를 예측한다.
RNA에서 단백질과의 결합부위를 예측하는 것은, 단백질에서 RNA와 결합하는 아미노산을 예측하는 것보다 훨씬 어려운데, 그 이유는 다음과 같다. 20 종류의 아미노산으로 구성되는 단백질의 경우, w개 아미노산으로 구성되는 단백질 서열의 패턴이 20w개 존재하지만, 4 종류의 염기로 구성되는 RNA의 경우 w개의 염기를 갖는 RNA 서열 패턴이 4w 존재한다. RNA 서열 패턴의 다양성이 단백질 서열 패턴에 비해 현저히 낮기 때문에 (20w/4w =5w배로 낮음), 서열 정보만 사용하여 RNA에서 단백질과의 결합부위를 예측하는 것은 단백질에서 핵산과 결합하는 영역을 예측하는 기술에 비하여 훨씬 어렵다. 또한, RNA와 결합하는 아미노산 별로 RNA와의 결합성향의 차이기 매우 큰 것과 달리, RNA 염기 간에 단백질과의 결합성향에 차이가 크지 않고 비슷하기 때문에 단백질-결합 염기와 비결합 염기를 예측하는 것이 쉽지 않다.
이러한 이유로, 최근까지도 서열정보만을 이용하여 RNA에서 단백질과의 결합부위를 성공적으로 개발된 기술이 별로 없고, 단백질에서 RNA와 결합하는 부위를 예측하는 연구들이 주로 진행되었다. catRAPID 기법(Bellucci, M., Agostini, F., Masin, M., Tartaglia, G.G.: Predicting protein associations with long noncoding RNAs. Nature methods 8(6):444-446 (2011))은 2차 구조, 수소 결합 및 반데르발스 힘의 기여도를 조합하여 RNA와 단백질 분자에서의 결합 성향(binding propensity)을 측정한다. catRAPID 기법은 50개 이상의 염기 또는 뉴클레오티드(nucleotides)를 가지는 RNA 서열에 대해서만 단백질 결합 영역을 예측할 수 있다. DeepBind 기법(Alipanahi, B., Delong, A., Weirauch, M.T., Frey, B.J.: Predicting the sequence specicities of DNA- and RNA-binding proteins by deep learning. Nature Biotechnology 33:831-838 (2015))은 RNA에서 단백질-결합 영역을 예측하는 기법이다. 이 기법은 대량신속처리(high-throughput) 실험으로부터 막대한 양의 데이터에서 학습된(trained), 심층 신경망(deep neural network)을 이용한다.
RNA 서열에서 단백질-결합 영역을 예측하는 문제와 관련해서, DeepBind 기법은 RNAcomplete, CLIP-서열(CLIP-seq) 및 RIP-서열(RIP-seq)에서 얻어진 데이터로 학습된다. 이 기법은 결합 단백질별로 별도의 예측 모델(총 ~200개)을 포함하기 때문에, 사용자가 결합 단백질에 대한 사전 정보가 없으면 200여개의 모델을 모두 시도하여야 하는 불편함이 있다. 뿐만 아니라, DeepBind 기법은 출력 결과로서 입력된 RNA 서열에서의 단백질과의 결합 영역을 제공하지 않고 결합 스코어(binding score)만을 제공한다.
따라서 실제 생화학적 실험을 수행하기 전에 단백질과 상호작용하는 RNA 영역을 신속하고 정확하게 예측할 수 있는 컴퓨터 모델링 기법 및 이러한 모델링 기법을 구현할 수 있는 시스템을 개발할 필요성이 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 결합 상대방인 단백질에 대한 정보 없이도 RNA 서열에서 단백질과 결합하는 결합 여부 및 영역을 정확하게 예측할 수 있는 방법 및 시스템에 관한 것이다. 또한, 단백질에 대한 정보가 있을 경우에도 RNA 서열에서 단백질과 결합하는 결합 여부 및 영역을 정확하게 예측할 수 있다.
본 발명의 다른 목적은 단백질과 결합한다고 알려진 RNA 서열의 가장 전형적인 길이인 25개 염기보다 짧거나 긴 RNA 서열에 대해서도 단백질과 결합하는 결합 여부 및 영역을 예측할 수 있는 방법 및 시스템에 관한 것이다.
전술한 목적을 가지는 본 발명의 일 측면에 따르면, 본 발명은 컴퓨터에서 구현되는, RNA 서열에서 단백질 결합 영역을 예측하는 방법으로서, a) 훈련 데이터(training data)를 포함하는 학습 데이터를 추출하는 단계로서, 상기 훈련 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 추출하는 단계; b) 상기 훈련 데이터로서 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산하는 단계로서, 상기 서열 프로파일 정보는 상기 추출된 RNA 서열에 대한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix) 정보와, 상기 추출된 RNA 서열에 대한 올리고염기 위치가중행렬 정보를 포함하고, 상기 단일염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 올리고염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 제 1 올리고염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 올리고염기로 이루어지는 단계; c) 상기 연산된 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축하는 단계; 및 d) 상기 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 영역을 예측하는 단계를 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법을 제공한다.
하나의 예시적인 실시형태로서, 분석 대상 RNA가 25개 이하의 염기로 구성되어 있는 경우에는 단백질과의 결합 여부를 예측할 수 있으며, 분석 대상 RNA가 25개를 초과하는 염기로 구성되어 있는 경우에는 단백질과의 결합 여부는 물론이고 결합 영역을 예측할 수 있다.
상기 b) 단계에서 상기 서열 프로파일 정보와 별도로 상기 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성(composition) 정보가 또한 연산되고, 상기 c) 단계에서 상기 서열 조성 정보가 상기 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보와 조합되어 특징 벡터를 구축하는 것을 특징으로 한다.
상기 b) 단계에서 상기 서열 조성 정보는, 상기 추출된 RNA 서열을 구성하는 각각의 단일염기의 빈도수와, 상기 추출된 RNA 서열을 구성하는 제 2 올리고염기 각각의 빈도수를 포함하고, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나의 올리고염기로 이루어질 수 있다.
예를 들어, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide)로 이루어질 수 있다.
필요한 경우, 상기 a) 단계에서 추출된 RNA 서열 중에서 중복된 RNA 서열을 제거하는 단계를 포함할 수 있다.
예시적인 실시형태에서, 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide) 중에서 적어도 어느 하나일 수 있으며, 예를 들어 2-염기일 수 있다.
선택적으로, 상기 d) 단계 이후에, e) 상기 d) 단계에서 수행된 예측 대상 RNA 서열의 예측 결과를, 평가 척도를 사용하여 평가하는 단계를 더욱 포함할 수 있다.
이때, 상기 평가 척도는 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy), 양성예측도(Positive predictive value), 음성예측도(Negative predictive value) 및 매튜 상관계수(Matthews correlation coefficient) 중에서 선택되는 적어도 하나이다.
선택적으로, 상기 a) 단계에서 상기 훈련 데이터와 별도로 테스트 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 또한 추출하고, 상기 e) 단계는, 상기 테스트 데이터를 대상으로 수행될 수 있다.
또한, 상기 d) 단계는 서포트-벡터 머신(support vector machine) 모형을 이용하는 것을 특징으로 한다.
본 발명의 다른 측면에 따르면, 본 발명은 컴퓨터에서 구현되는, RNA 서열에서 단백질 결합 영역을 예측하는 시스템으로서, 훈련 데이터(training data)를 포함하는 학습 데이터로서 RNA에서 단백질과 결합하는 영역인 포지티브 데이터와, 단백질과 결합하지 않는 영역인 네거티브 데이터를 추출하는 서열 추출 모듈; 상기 훈련 데이터로서 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산하는 연산 모듈로서, 상기 서열 프로파일 정보는 상기 추출된 RNA 서열에 대한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix) 정보와, 상기 추출된 RNA 서열에 대한 올리고염기 위치가중행렬 정보를 포함하고, 상기 단일염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 올리고염기 위치가중행렬은 상기 RNA 서열을 구성하는 제 1 올리고염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 올리고염기로 이루어지는 연산 모듈; 상기 연산된 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축하는 벡터 구축 모듈; 및 상기 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 영역을 예측하는 훈련 모듈을 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템을 또한 제공한다.
상기 연산 모듈은 상기 서열 프로파일 정보와 별도로 상기 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성(composition) 정보를 또한 연산하고, 상기 벡터 구출 모듈은 상기 서열 조성 정보를 상기 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보와 조합하여 특징 벡터를 구축하는 것을 특징으로 한다.
또한, 상기 서열 추출 모듈은 추출된 RNA 서열 중에서 중복된 RNA 서열을 제거할 수도 있다.
필요한 경우, 상기 시스템은 상기 훈련 모듈에서의 단백질과 결합하는 RNA 서열과 단백질과 결합하지 않는 RNA 서열의 예측 결과를, 평가 척도를 사용하여 평가하는 평가 모듈을 더욱 포함할 수 있다.
이때, 상기 서열 추출 모듈은 상기 훈련 데이터와 별도로 테스트 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 또한 추출하고, 상기 평가 모듈은 상기 테스트 데이터에 대한 평가를 수행할 수 있다.
상기 학습 모듈은 서포트-벡터 머신(support vector machine) 모형을 이용하는 것을 특징으로 한다.
본 발명의 방법 및 시스템에 따르면, 결합 상대방인 단백질에 대한 정보 없이도 RNA 서열에서 단백질과 결합하는 영역을 예측할 수 있다. 특정 RNA 서열에서 단백질과 상호작용하는 RNA 결합 여부 및/또는 결합 영역을 예측할 때, 구조 정보를 포함하는 방법에 비하여 RNA 서열 정보만을 가지고 예측하기 때문에 보다 편리하게 이용될 수 있다.
따라서 기존의 생화학적인 실험을 통하여 단백질과 결합하는 RNA 영역을 예측하는 것과 비교하여, 시간과 비용을 크게 절감하도록 설계할 수 있다. 예를 들어, 단백질과 결합하는 RNA를 확인하기 위한 생화학적 기법인 CLIP(cross-linking immunoprecipitation, 면역 침전법)을 수행하기 전에 본 발명에 따른 기법을 사용하여 직접 실험을 하지 않고도 예측 기법을 통하여 많은 양의 데이터를 실험해 볼 수 있다.
RNA 서열 정보만을 이용하여 단백질 결합 영역을 예측할 수 있기 때문에 단백질-RNA 복합체의 구조를 알지 못하더라도 RNA 서열에서 단백질 결합 영역을 예측할 수 있다. 뿐만 아니라, 단백질과 결합한다고 알려진 RNA 서열의 가장 전형적인 길이인 25개 염기보다 짧은 RNA 서열에 대해서도 단백질과 결합하는 영역을 효율적으로 예측할 수 있다.
따라서 구조가 알려지지 않은 표적 분자에 대하여, 생화학적인 실험 기법보다 신속하고 적은 비용으로 RNA 서열에서 결합 영역을 예측할 수 있으므로, 관련된 질환을 치료하기 위한 신약이나 바이오센서를 개발할 때 유용하게 활용될 수 있다. 예를 들어, RNA와 관련된 질환들에 대하여 단백질과 상호작용하는 RNA 결합 영역을 예측함으로써, 해당 영역에 결합하는 분자들을 예측할 수 있는 도구로서 개발될 수 있다.
또한 RNA와 상호작용하는 바이러스 또는 질병 등에 대한 치료제를 개발할 때, 본 발명의 방법 및 시스템을 선행 예측 테스트로 활용하여 백신이나 치료제를 개발하는 과정에서 스크리닝(screening) 과정의 시간 및 비용을 획기적으로 단축할 수 있다.
아울러, 본 발명의 방법 및 시스템은, 단백질과 상호작용하는 RNA의 결합 영역을 예측함으로써, 유전자 발현 및 조절 기전(mechanism)에 관여하는 단백질과 상호작용하는 RNA 영역에 대한 새로운 가설이나 새로운 생물학적 기능을 연구하기 위한 유용한 연구 도구(research tool)로서도 사용될 수 있을 것으로 기대된다.
도 1은 본 발명의 예시적인 실시형태에 따라 컴퓨터에서 구현되는 단백질과 결합하는 RNA 영역을 예측하기 위한 모델링 방법을 개략적으로 도시한 플로차트이다.
도 2는 본 발명의 예시적인 실시형태에 따라 컴퓨터에서 구현되는 단백질과 결합하는 RNA 영역을 예측하기 위한 모델링을 구현하는 시스템을 개략적으로 도시한 블록도이다.
도 3은 본 발명의 예시적인 실시예에 따라 단백질과 결합하는 RNA 서열을 추출한 결과를 나타낸 그래프이다.
도 4는 본 발명의 예시적인 실시예에 따라 단일 염기 위치가중행렬(mono- nucleotide position weight matrix, mPWM)을 연산하는 과정을 개략적으로 도시한 도면이다. 행렬의 각각의 구성요소(i, j) 중에서 j는 n개의 염기를 갖는 RNA 서열에서 j-번째 위치(j=1, 2,...n)를 나타내고, i는 RNA 서열을 구성하는 아데닌, 사이토신, 구아닌, 우라실 4개의 단일염기의 i-번째(A=1, C=2, G=3, U=4)를 나타낸다. mPWM은 단일염기의 로그-오즈 스코어를 토대로 연산되는데, frequency+는 특정 단일염기가 단백질과 결합하는 빈도수이고, frequency-는 특정 단일염기가 단백질과 결합하지 않는 빈도수를 나타낸다.
도 5는 본 발명의 예시적인 실시예에 따라 단일 염기 위치가중행렬(mPWM)과 2개 염기 위치가중행렬(dPWM)의 서열 프로파일 정보와, RNA 서열에서의 염기의 조성(composition) 정보를 이용하여 특징 벡터(feature vector)를 구축하는 과정을 개략적으로 도시한 도면이다. n개의 염기를 갖는 서열에 대하여, mPWM 및 dPWM은 각각 n개의 구성요소(elements)와 n-1개의 구성요소로 나타난다. RNA 서열에서의 염기 조성은 n개의 염기를 갖는 서열에서, 단일 염기 조성(mono-nucleotide composition, mC, 4개의 구성요소), 2-염기(di-nucleotide composition, dC, 42=16개의 구성요소) 및 3-염기(tri-nucleotide composition, tC, 43=64개의 구성요소)의 빈도수를 나타낸다.
도 6은 본 발명의 예시적인 실시예에 따라 구축된 SVM 모형에 대하여 표준 10배 교차 검증과 독립적 테스트에 대한 ROC 곡선을 도시하고 있다. 10배 교차 검증에서 ROC 곡선 아래쪽 영역(AUC=0.9607)은 독립적 테스트에 대한 ROC 곡선 아래쪽 영역(AUC=0.8975)보다 크다.
본 발명은 RNA에서 단백질-결합 영역을 예측하기 위한 새로운 컴퓨터 모델링 기법 및 이 기법을 구현할 수 있는 컴퓨터 시스템을 제안한다. 예를 들어 본 발명의 방법 및 시스템은 단일 염기(mono-nucleotide) 및 올리고염기(oligo nucleotides), 예를 들어 2-염기(di-nucleotides)의 로그-오즈 스코어(log-odds score)로부터 구현되는 RNA 서열 프로파일(sequence profiles) 정보와, 서열 조성(sequence composition), 예를 들어 단일 염기 및 올리고염기, 예를 들어 2-염기 및 3-염기(tri-nucleotides)의 서열 조성 정보를 이용한다. 후술하는 실시예에서 나타나는 바와 같이, 본 발명의 방법 및 시스템은 다수의 인간 RNA 서열에 대한 테스트에서 상당히 우수한 성능을 보여주었으며, 다른 기법에 비하여 우수하였다. 이하, 필요한 경우에 첨부하는 도면을 참조하면서 본 발명을 상세하게 설명한다.
[RNA 서열에서 단백질 결합 영역 예측 모델링 방법]
도 1은 본 발명의 예시적인 실시형태에 따라 컴퓨터에서 구현되는 단백질과 결합하는 RNA 영역을 예측하기 위한 모델링 방법을 개략적으로 도시한 플로차트이다. 도 1에 도시한 바와 같이, 본 발명에 따라 컴퓨터에서 구현되는 RNA 서열에서 단백질과 결합하는 결합 영역을 예측하는 방법은 학습 대상, 즉 훈련 대상 및 필요한 경우 테스트 대상이 되는 RNA 서열을 추출하는 단계(S110 단계)와, 추출된 RNA 서열과 관련된 정보로서 RNA 서열을 구성하는 염기에 대한 위치가중행렬 및 서열 조성(composition) 정보를 연산하는 단계(S120 단계)와, 위치가중행렬로 표현되는 서열 프로파일 정보 및, 선택적으로 서열 조성 정보에 기초하여 특징 벡터(feature vector)를 구축하는 단계(S130 단계)와, 구축된 특징 벡터를 토대로 예를 들어 SVM 모델링을 이용한 훈련을 통하여 단백질과 결합하는 결합 여부 및 결합 RNA 영역을 예측, 결정하는 단계(S140 단계)를 포함하고, 선택적으로 예측 결과를 적절한 검증 방법을 통하여 평가, 검증하는 단계(S150 단계)를 포함한다.
RNA 서열을 추출하는 단계(S110 단계)에서 공지된 데이터베이스를 이용하여, 단백질과 결합하는 RNA 서열을 추출한다. 하나의 예시적인 실시형태에서, 결합 면역침전법(cross-linking and immunoprecipitation, CLIP)에 따라 단백질과 결합하는 RNA 서열을 CLIP-seq 데이터세트로 제공하는 CLIPdb를 이용할 수 있지만, 그 외에도 단백질과 결합하는 RNA 서열에 대한 데이터를 제공하는 공지의 데이터베이스를 활용할 수 있다. 예를 들어, CLIP-seq의 경우에는 HITS-CLIP(high-throughput sequencing CLIP), PAR-CLIP(photoacivatable ribonucleoside-enhanced CLIP) 및/또는 iCLIP(individual nucleotide-resolution CLIP) 등의 기법을 통하여 확인된, 단백질과 결합하는 RNA 서열을 추출할 수 있다. 이때, 단백질과 결합하는 RNA 서열은 대략 15개 내지 60개, 바람직하게는 21개 내지 35개의 염기를 가질 수 있다. 후술하는 것처럼, 본 발명에 따라 훈련된 데이터를 활용하여 단백질에 대한 데이터나 정보를 획득하지 않고서도 충분히 RNA 서열에서 단백질 결합 영역을 예측할 수 있다. 이는 50개 이상의 RNA 서열을 필요로 하거나 단순히 결합 성향 정도만을 예측하는 종래의 기법과는 확연히 구분되는 것이다.
예를 들어, PAR-CLIP 기법의 경우에 통상적으로 21개 내지 35개 길이의 염기를 가지는 단백질-결합 영역을 확인할 수 있으며, 이러한 염기 길이를 갖는 단백질 결합 영역의 데이터를 다수 확보할 수 있는 이점이 있다(도 3 참조). 따라서 단백질 결합 영역을 갖는 RNA 서열의 크기로서 21개 내지 35개의 염기를 갖는 서열을 추출하는 것이 특히 바람직할 수 있다.
필요한 경우에, 참조 유전체(reference genome) 정보를 참고하여 추출된 RNA 서열을 조립(assemble)할 수도 있으며, 평가 또는 검증을 위하여 필요한 RNA-결합 단백질 서열 역시 공지의 데이터베이스(예를 들어, NCBI GEO 사이트)에서 얻을 수 있다. 본 명세서에서는 단백질과 결합하는 추출된 RNA 서열 영역에 대해서 포지티브 데이터(positive data, P)로 지칭할 때가 있다. 이때, 하나의 예시적인 실시형태에서, 포지티브 데이터 중의 일부 서열은 훈련 데이터(training data)로서 후술하는 연산 및 훈련을 위하여 활용되고, 나머지 일부 서열은 테스트 데이터(test data)로서 검증 또는 평가를 위하여 활용될 수 있다.
단백질과 결합하는 RNA 서열 영역인 포지티브 데이터와 별도로, 참조 유전체를 활용하여 단백질과 결합하지 않는 RNA 서열 영역을 추출한다. 본 명세서에서는 단백질과 결합하지 않는 RNA 서열 영역에 대하여 네거티브 데이터(negative data, N)로 지칭할 수 있다. 하나의 예시적인 실시형태에서, 네거티브 데이터 개수는 훈련 데이터로 사용되는 포지티브 데이터 개수와 실질적으로 동일할 수도 있으며, 또는 포지티브 데이터 개수보다 많을 수 있다. 예를 들어, 네거티브 데이터 개수는 훈련 대상이 되는 포지티브 데이터 개수의 1 내지 20배, 바람직하게는 1 내지 10배일 수 있다. 포지티브 데이터와 마찬가지로, 네거티브 데이터의 일부는 훈련을 위하여 활용될 수 있으며, 나머지 일부는 평가 또는 검증을 위하여 활용될 수 있다.
이때, 포지티브 데이터 및/또는 네거티브 데이터 중에서 중복(redundancy) 데이터가 있을 수 있다. 따라서 포지티브 데이터 및/또는 네거티브 데이터를 훈련 데이터와 테스트 데이터로 구분하기 전에 중복 서열을 제거하는 것이 바람직하다. 하나의 예시적인 실시형태에서, 적절한 서열 유사도, 예를 들어 0.7 이상, 바람직하게는 0.8 내지 0.9 정도의 서열 유사도를 갖는 데이터를 제거할 수 있는데, 이를 위하여 CD-HIT-EST(Huang, Y., Niu, B., Gao, Y., Fu, L., Li, W.: Cd-hit suite: A web server for clustering and comparing biological sequences. Bioinformatics 26(5):680-682 (2010))를 실행할 수 있으며, 그 외에도 입수 가능한 유사 서열 데이터를 제거할 수 있는 프로그램을 실행할 수 있다.
훈련 데이터 및/또는 테스트 데이터로서 단백질과 결합하는 RNA 서열 및 단백질과 결합하지 않는 RNA 서열을 추출한 뒤에, 훈련을 위한 일련의 단계가 이루어지는데, 먼저 추출된 RNA 서열을 구성하는 염기에 서열 프로파일(sequence profile) 정보 및 염기 조성(composition) 정보가 연산된다(S120 단계).
도 4를 참조하면, 본 발명에서는 추출된 RNA 서열의 염기에 대한 서열 프로파일 정보로서 위치가중행렬(positional weight matrix, PWM)이 연산된다. 구체적으로, 추출된 RNA 서열 중에서 훈련 데이터로 활용되는 포지티브 데이터와 네거티브 데이터가 활용될 수 있다. 상기 위치가중행렬은, 추출된 RNA 서열을 구성하는 각각의 단일염기(mono-nucleotide)에 대한 로그-오즈 스코어(log-odds score)에 따른 단일염기 위치가중행렬(mPWM)과, 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 제 1 올리고염기(oligo-nucleotide) 각각에 대한 로그-오즈 스코어에 기초한 올리고염기 위치가중행렬(oPWM)을 포함할 수 있다.
예를 들어, 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 위치가중행렬(mPWM)은 각각의 단일염기에 대한 로그-오즈 스코어를 연산하여 얻어질 수 있는데, 하기 식 1을 통하여 연산될 수 있다.
Figure pat00001
식 1에서, 단일염기 위치가중행렬(mPWM(i,j))의 행을 구성하는 i는 RNA 서열을 구성하는 단일염기인 아데닌(Adenine, A), 사이토신(Cytosine, C), 구아닌(Guanine, G) 및 우라실(Uracil, U)을 각각 나타낸다. 예를 들어, A는 1행, C는 2행, G는 3행, U는 4행일 수 있다. j는 n개의 염기를 가지는 추출된 RNA 서열을 구성하는 단일염기의 j-번째 위치를 나타낸다. mPWM은 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어에 기초한 위치가중행렬을 의미한다. frequency+(i,j)(또는 f+(i,j))는 n개의 염기를 갖는 포지티브 데이터의 j-번째에 위치한 단일염기(A, C, G, U 중 어느 하나)의 빈도수를 의미하며, frequency-(i,j)(또는 f-(i,j))는 n개의 염기를 갖는 네거티브 데이터의 j-번째에 위치한 단일염기(A, C, G, U 중 어느 하나)의 빈도수를 의미한다.
우선 포지티브 데이터에 대한 위치가중행렬(mPWM+)과 네거티브 데이터에 대한 위치가중행렬(mPWM-)을 얻은 뒤, 이들의 로그-오즈 스코어를 취하여 단일염기 위치가중행렬을 연산할 수 있다. 이처럼, 본 발명에서는 포지티브 데이터를 구성하는 각각의 단일염기에 대한 위치가중행렬(mPWM+)과, 네거티브 데이터를 구성하는 각각의 단일염기에 대한 위치가중행렬(mPWM-)을 얻고, 이들 각각의 단일염기에 대한 로그-오즈 스코어를 연산하여 포지티브 데이터 및 네거티브 데이터가 조합된 단일염기에 대한 위치가중행렬을 연산한다.
또한, 본 발명에서는 훈련 데이터로서 포지티브 데이터 및 네거티브 데이터를 구성하는 단일염기에 대한 위치가중행렬(mPWM)과 함께, 포지티브 데이터 및 네거티브 데이터를 각각 구성하는, 중첩하게 배열되는 제 1 올리고염기에 대한 위치가중행렬(oPWM)을 또한 연산한다. 추출된 RNA 서열을 구성하는 각각의 단일염기에 대한 위치가중행렬(mPWM)만을 사용하는 것에 비하여, 추출된 RNA 서열에서 중첩적으로 배열되는 올리고염기 각각에 대한 위치가중행렬(oPWM)을 포함시킴으로써, RNA 서열에 대한 1차원적 정보를 넘어서, RNA 서열에 대한 고차원적 정보를 포함시킬 수 있다.
예를 들어, 제 1 올리고염기는 훈련 데이터로 사용된 포지티브 데이터 및 네거티브 데이터에서, 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나일 수 있다. 본 발명의 예시적인 실시예에서는 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 각각에 대한 위치가중행렬을 연산하는 것으로도 충분히 향상된 예측 성능을 보여주었다.
따라서 바람직하게는 훈련 데이터로 사용되는 포지티브 데이터 및 네거티브 데이터에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 어느 하나만으로 이루어지는 제 1 올리고염기 각각에 대한 위치가중행렬을 사용하거나, 중첩적으로 배열되는 2-염기 및 3-염기(tri-nucleotide) 중에서 적어도 하나의 제 1 올리고염기 각각에 대한 위치가중행렬을 사용할 수 있다.
예를 들어, 포지티브 데이터 및 네거티브 데이터에서 중첩적으로 배열된 2-염기 각각에 대한 위치가중행렬(dPWM)은 하기 식 2로 표현될 수 있다.
Figure pat00002
식 2에서, 2-염기 위치가중행렬(dPWM(i,j))의 행을 구성하는 i는 RNA 서열을 구성하는 2-염기(AA, AC,...UG, UU 중 어느 하나)를 나타낸다. j는 n개의 염기를 가지는 추출된 RNA 서열의 중첩하게 배열되는 2-염기의 j-번째 위치를 나타낸다. dPWM은 추출된 RNA 서열을 구성하는 2-염기 각각에 대한 로그-오즈 스코어에 기초한 위치가중행렬을 의미한다. frequency+(i,j)(또는 f+(i,j))는 n개의 염기를 갖는 포지티브 데이터의 j-번째에 위치한 2-염기(AA, AC...UG, UU 중 어느 하나)의 빈도수를 의미하며, frequency-(i,j)(또는 f-(i,j))는 n개의 염기를 갖는 네거티브 데이터의 j-번째에 위치한 2-염기(AA AC,...UG, UU 중 어느 하나)의 빈도수를 의미한다(도 5의 dPWM 부분 참조). n개의 염기를 갖는 RNA 서열에서 중첩하게 배열되는 2-염기는 n-1개 존재한다.
단일염기 위치가중행렬과 마찬가지로, 포지티브 데이터를 구성하는 각각의 2-염기에 대한 위치가중행렬(dPWM+)과, 네거티브 데이터를 구성하는 각각의 2-염기에 대한 위치가중행렬(dPWM-)을 얻고, 이들 각각의 2-염기에 대한 로그-오즈 스코어를 연산하여 포지티브 데이터 및 네거티브 데이터가 조합된 2-염기에 대한 위치가중행렬을 연산한다.
본 발명의 예시적인 실시예에 따르면, 단일염기 위치가중행렬(mPWM)과 제 1 올리고염기로서 2-염기 위치가중행렬(dPWM)을 조합하는 것만으로도 예측 성능을 크게 향상시킬 수 있다(표 2 참조).
필요한 경우에, 추출된 포지티브 데이터 및 네거티브 데이터를 구성하는 염기 각각에 대한 빈도수로 정의되는 서열 조성(sequence composition) 정보가 전술한 단일염기 위치가중행렬 및 올리고염기 위치가중행렬로 표시되는 서열 프로파일 정보와 함께 조합될 수 있다.
하나의 예시적인 실시형태에서, 서열 조성 정보는 포지티브 데이터 및 네거티브 데이터를 구성하는 각각의 단일염기 빈도수 및 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나인 제 2 올리고염기 각각의 빈도수를 포함할 수 있다. 예를 들어, 도 5를 참조하면, n개의 염기 서열을 가지는 포지티브 데이터 및 네거티브 데이터에 대하여 단일염기 4개에 대한 조성(mC), 중첩하게 배열되는 2-염기 16개에 대한 조성(dC) 및 중첩하게 배열되는 3-염기 64개에 대한 조성(tC)을 나타낸다. 본 발명의 예시적인 실시형태에 따르면 서열 프로파일 정보와 서열 조성 정보를 조합한 경우에 예측 성능이 제일 높게 나오는 것을 확인할 수 있다(표 2참조).
추출된 RNA 서열의 단일염기 및 제 1 올리고 염기 각각에 대한 위치가중행렬로 표현되는 서열 프로파일 정보와, 필요한 경우에 추출된 RNA 서열의 빈도수로 정의되는 서열 조성 정보가 연산되면, 이들을 조합하여 특징 벡터(feature vector)를 구축한다(S130 단계). 도 5는 n개의 염기로 구성되는 추출된 RNA 서열의 단일염기 위치가중행렬(mPWM) 및 중첩적으로 배열되는 2-염기 위치가중행렬(dPWM)을 서열 프로파일 정보로 하고, 단일염기 조성(mC), 2-염기 조성(dC) 및 3-염기 조성(tC)을 서열 조성 정보로 조합하여 특징 벡터를 구축하는 과정을 나타낸다.
n개의 염기를 갖는 RNA 서열에서 단일염기 위치가중행렬(mPWM)의 구성요소는 n개이고, 2-염기 위치가중행렬(dPWM)의 구성요소(elements)는 n-1개이며, 단일염기 조성(mC)의 구성요소는 4개(A, C, G, U), 2-염기 조성(dC)의 구성요소는 16개(AA, AC,...UG, UU), 3-염기 조성(tC)의 구성요소는 64개(AAA, AAC,...UUG, UUU)이다. 따라서 모든 구성요소의 합은 2n+83개(n+(n-1)+4+16+64)이다.
이어서, 연산된 서열 프로파일 정보 및, 선택적으로 서열 조성 정보에 기초하여 구축된 특징 벡터(feature vector)를 토대로 예측 대상 RNA 서열을 훈련시켜, 단백질과의 결합 여부 및 결합 영역을 예측한다(S140 단계). 하나의 예시적인 실시형태에서, 서포트 벡터 머신(support vector machine, SVM)을 구축하여 본 단계를 수행할 수 있지만, 본 발명이 이에 한정되는 것은 아니다. SVM을 구축하기 위하여 서포트 벡터 머신에 대한 라이브러리(library for support vector machine, LIBSVM)를 이용할 수 있으며, 이 경우에 커널 함수로서 방사형 기본 함수를 채택할 수 있지만, 본 발명이 이에 한정되는 것은 아니다.
계속해서, 필요한 경우에 S140 단계에서의 훈련을 통하여 예측된 결과(단백질과 결합하는 RNA 영역과 단백질과 결합하지 않는 RNA 영역의 예측 결과)에 대하여 적절한 평가 척도를 사용하여 평가, 검증하는 단계(S150 단계)가 수행될 수 있다. 필요한 경우에 테스트 데이터를 대상으로 수행될 수도 있다.
평가 또는 검증 단계에서는 표준적인 교차 검증, 예를 들어 표준적인 10배 교차 검증이 수행될 수 있다. 선택적으로, 표준적인 10배 교차 검증 이외에도 LOPO(leave-one-protein out) 교차 검증이 수행될 수 있다. LOPO 교차 검증을 수행한 이유는, 통상적인 k-배 교차 검증은 PPI(단백질-단백질 상호작용) 또는 RNA 상호작용과 같은 쌍을 이루는 입력 값에 대하여 예측 성능을 과대평가하는 경향이 있기 때문이다(Abbasi, W.A., Minhas, F.U.A.A.: Issues in performance evaluation for host-pathogen protein interaction prediction. Journal of Bioinformatics and Computational Biology 14(3):1650011 (2016)).
하기 식 3 내지 8은 본 발명에 따른 학습을 통하여 예측된 단백질 결합 영역 및 단백질 비-결합 영역에 대한 평가 척도로서의 민감도(sensitivity), 특이도(specificity), 정확도(accuracy), 양성예측도(positive predictive value, PPV), 음성예측도(negative predictive value, NPV) 및 매튜 상관계수(Matthews correlation coefficient, MCC)를 나타낸다.
Figure pat00003
Figure pat00004
Figure pat00005
Figure pat00006
Figure pat00007
Figure pat00008
식 3 내지 8에서 민감도는 실제 결합 영역 중에서 결합 영역으로 맞게 예측된 염기의 비율이고, 특이도는 실제 비-결합 영역 중에서 비-결합 영역으로 맞게 예측된 염기의 비율이며, 정확도는 모든 염기에 대하여 맞게 예측된 염기의 비율이고, 양성예측도는 결합하는 것으로 예측된 모든 염기에 대하여 맞게 예측된 결합 염기의 비율을 측정한 것이고, 음성예측도는 비-결합하는 것으로 예측된 모든 염기에 대하여 맞게 예측된 비-결합 염기의 비율을 측정한 것이다.
또한, 식 3 내지 8에서 TP(true positive, 참된 긍정)은 올바르게 예측된 단백질 결합 영역, TN(true negative, 참된 부정)은 올바르게 예측된 단백질 비-결합 영역, FP(false positive, 거짓 긍정)은 결합된 것으로 잘못 예측된 단백질 비-결합 영역, FN(false negative, 거짓 부정)은 결합하지 않는 것으로 잘못 예측된 단백질 결합 영역을 의미한다.
본 발명에서 사용된 예측 방법에 대한 검증 결과, 표준적인 10배 교차 검증(표 2 및 표 3)에서는 물론이고 LOPO 교차 검증(표 4)에서도 매우 우수한 예측 성능을 나타낸다. 또한 모형을 훈련할 때 사용하지 않았던 독립적 데이터에 대해서도 수행될 수 있는데, 예를 들어 서열 추출 단계(S110 단계)에서 훈련 데이터와 별도로 구분한 테스트 데이터에 대해서 수행될 수 있다. 본 발명의 예시적인 실시예에서는 독립된 데이터에 대해서도 양호한 예측 성능을 나타낸다(표 5 참조).
또한, 종래 사용되었던 DeepBind 기법 및 catRAPID 기법과 비교해서도 훨씬 우수한 예측 성능을 보여주었다(표 6 및 표 7 참조). 특히 50개 이상의 염기를 필요로 하는 catRAPID 기법과 달리, 본 발명에 따른 방법은 염기 서열의 길이와 상관없이 단백질 결합 여부 및/또는 결합 영역을 예측할 수 있는 이점을 갖는다.
따라서 특정 RNA 서열에서 단백질과 상호작용하는 RNA 결합 영역을 예측할 때, 구조 정보를 포함하는 방법에 비하여 RNA 서열 정보만을 가지고 예측하기 때문에 보다 편리하게 이용될 수 있다. 기존의 생화학적인 실험을 통하여 단백질과 결합하는 RNA 영역을 예측하는 것과 비교하여, 시간과 비용을 크게 절감하도록 설계할 수 있다. 따라서 RNA와 관련된 질환들에 대하여 단백질과 상호작용하는 RNA 결합 여부 및/또는 결합 영역을 예측함으로써, 해당 영역에 결합하는 분자들을 예측할 수 있는 도구로서 개발될 수 있다. 또한 RNA와 상호작용하는 바이러스 또는 질병 등에 대한 치료제를 개발할 때, 본 발명의 방법 및 시스템을 선행 예측 테스트로 활용하여 백신이나 치료제를 개발하는 과정에서 스크리닝(screening) 과정의 시간 및 비용을 획기적으로 단축할 수 있다.
[RNA에서 단백질 결합 영역 예측 모델링 시스템]
도 2는 본 발명의 예시적인 실시형태에 따라 컴퓨터에서 구현되는 단백질과 결합하는 RNA 영역을 예측하기 위한 모델링을 구현하는 시스템을 개략적으로 도시한 블록도이다. 도 2에 도시한 바와 같이, 본 발명의 시스템(100)은 단백질과 결합하는 RNA 영역을 예측하기 위하여 필요한 데이터 및/또는 정보를 저장하는 데이터베이스 모듈(110)과, 학습 데이터, 즉 훈련 데이터와 필요한 경우의 테스트 데이터로서의 포지티브 데이터 및 네거티브 데이터를 추출하여 훈련 데이터 및 테스트 데이터로 구분 짓는 서열 추출 모듈(120)과, 추출된 서열에 대한 서열 프로파일 정보 및 선택적으로 서열 조성 정보를 연산하는 연산 모듈(130)과, 서열 프로파일 정보 및, 선택적으로 서열 조성 정보에 기초하여 특징 벡터를 구축하는 벡터 구축 모듈(140)과, 벡터 구축 모듈(140)에서 구축된 특징 벡터를 토대로 예측 대상 RNA 서열을 학습시켜 단백질과 결합하는 결합 여부 및 RNA 결합 영역을 예측하는 훈련 모듈(150)을 포함하고, 선택적으로, 훈련 모듈(150)에서 테스트 데이터를 훈련시켜 예측된 결과를, 평가 척도를 사용하여 평가하는 평가 모듈(160)을 포함한다. 또한, 이들 모듈들의 프로세스나 작용 등을 제어할 수 있도록 CPU와 같은 제어부(170)를 갖는다.
본 명세서에서 "모듈"이라는 용어는 프로그램 코드와 상기 프로그램 코드를 수행할 수 있는 하드웨어 리소스(resource)의 논리적 단위 또는 집합을 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나 한 종류의 하드웨어를 의미하는 것은 아니다.
본 명세서에서 "데이터베이스(database, DB)"라는 용어는, 각각의 DB에 대응되는 정보를 저장하는 소프트웨어 및 하드웨어의 기능적 구조적 결합을 의미할 수 있다. DB는 적어도 하나의 테이블로 구현될 수도 있으며, 상기 DB에 저장된 정보를 검색, 저장, 및 관리하기 위한 별도의 DBMS(Database Management System)를 더 포함할 수도 있다. 또한, 링크드 리스트(linked-list), 트리(Tree), 관계형 DB의 형태 등 다양한 방식으로 구현될 수 있으며, 상기 DB에 대응되는 정보를 저장할 수 있는 모든 데이터 저장매체 및 데이터 구조를 포함한다.
데이터베이스(DB) 모듈(110)은 예를 들어 서열 데이터베이스(서열 DB, 112), 연산 데이터베이스(연산 DB, 114), 벡터 데이터베이스(벡터 DB, 116) 및 훈련 데이터베이스(훈련 DB, 118)를 포함한다. 서열 DB(112)는 예를 들어 공지의 데이터베이스 등으로부터 추출되는 포지티브 RNA 데이터, 네거티브 RNA 데이터 및 단백질 서열 등과 같은 데이터를 저장한다. 연산 DB(114)는 연산 모듈(130)에서 연산된, 추출된 RNA 서열로부터 연산되는 서열 프로파일 정보 및, 선택적으로 서열 조성 정보를 저장한다. 벡터 DB(116)는 벡터 구축 모듈(140)에서 구축되는 특징 벡터 정보를 저장한다. 훈련 DB(118)는 훈련 모듈(118)을 통하여 얻어지는 학습 데이터 및 예측 결과 정보를 저장한다. 도면으로 도시하지는 않았으나, DB 모듈(110)은 평가 모듈(160)에서 평가, 검증된 결과 데이터를 저장하는 평가 데이터베이스(평가 DB)를 더욱 포함할 수도 있을 것이다.
서열 추출 모듈(120)은 예를 들어 공지의 데이터베이스를 이용하여 학습 데이터로서 단백질과 결합하는 RNA 서열 영역과 결합하지 않는 RNA 서열 영역을 추출한다. 추출된 RNA 서열 데이터는 훈련 데이터를 구성하며, 필요한 경우에 추출된 RNA 서열 데이터는 훈련 데이터와 테스트 데이터로 구분될 수 있다. 필요한 경우에 공지의 데이터베이스로부터 추출된 포지티브 RNA 데이터 및/또는 네거티브 데이터 중의 일부가 훈련 데이터로 사용되어 단백질과 결합하는 결합 여부 및 RNA 결합 영역을 훈련하는데 사용되고, 나머지 일부는 테스트 데이터로서 학습에 따른 예측된 결과를 평가 및 검증하는데 사용될 수 있다. 선택적인 실시형태에서, 서열 추출 모듈(110)은 추출된 RNA 서열 중에서 유사도를 근거로 중복된 RNA 서열을 제거할 수 있다.
연산 모듈(130)은 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산한다. 예를 들어, 서열 프로파일 정보는 추출된 RNA 서열의 단일염기(mono-nucleotide) 각각에 대한 로그-오즈 스코어(log-odds score)에 기초한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix, mPWM)과, 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 제 1 올리고염기(oligo-nucleotide) 각각에 대한 로그-오즈 스코어(log-odds score)에 기초한 올리고염기 위치가중행렬(oPWM)을 포함할 수 있다. 하나의 예시적인 실시형태에서 제 1 올리고 염기는 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 어느 하나일 수도 있다. 예를 들어, 제 1 올리고 염기는 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기일 수 있다.
예를 들어, 올리고염기 위치가중행렬은 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 각각에 대하여 연산되는 2-염기 위치가중행렬(dPWM)일 수 있다. 서열 프로파일 정보로서 단일염기 위치가중행렬(mPWM) 및 2-염기 위치가중행렬(dPWM)은 전술한 식 1 및 식 2에서 설명하고 있으며, 도 4는 단일염기 위치가중행렬의 구성을 도시하고 있으며, 도 5는 이들 위치가중행렬로부터 특징 벡터를 구축하는 과정을 개략적으로 도시하고 있다.
선택적으로, 연산 모듈(130)은 추출된 RNA 서열을 구성하는 단일염기 및 제 1 올리고염기 각각에 대한 위치가중행렬로 정의되는 서열 프로파일 정보 이외에도 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성 정보를 또한 연산한다. 예시적으로 서열 조성 정보는 추출된 RNA 서열의 각각의 단일염기의 빈도수와, 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나의 제 2 올리고염기 각각의 빈도수를 포함할 수 있다. 예를 들어, 제 2 올리고염기는 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide)를 포함할 수 있다(도 5 참조).
벡터 구축 모듈(140)은 연산 모듈(130)에서 연산된 서열 프로파일 정보, 예를 들어 단일염기 위치가중행렬(mPWM) 정보 및 2-염기 위치가중행렬(dPWM)과 같은 올리고염기 위치가중행렬(oPWM) 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축한다. 만약, 연산 모듈(130)이 서열 프로파일 정보 이외에 서열 조성 정보를 연산하는 경우, 벡터 구출 모듈은 추출된 RNA 서열로부터 연산되는 서열 조성 정보를 단일염기 위치가중행렬(mPWM) 정보 및 올리고염기 위치가중행렬(oPWM) 정보와 조합하여 특징 벡터를 구축할 수도 있다.
훈련 모듈(150)은 벡터 구축 모듈(140)에서 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 여부 및 영역을 예측한다. 하나의 예시적인 실시형태에서, 훈련 모듈(150)은 서포트 벡터 머신(support vector machine, SVM) 모형을 이용할 수 있다.
평가 모듈(160)은 훈련 모듈(150)에서의 테스트 데이터를 훈련하여 나온 예측된 결과를, 평가 척도를 사용하여 평가한다. 평가 모듈(160)에서 사용되는 평가 척도는 전술한 식 3 내지 8로 표시되는 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy), 양성예측도(Positive predictive value), 음성예측도(Negative predictive value) 및 매튜 상관계수(Matthews correlation coefficient) 중에서 선택되는 적어도 하나이다.
전술한 바와 같이, 서열 추출 모듈(120)은 훈련 데이터와 별도로 테스트 데이터를 추출한다. 이 경우 평가 모듈(160)은 테스트 데이터에 대한 평가를 수행할 수도 있다.
본 발명에 따라 RNA 서열에서 단백질 결합 영역을 예측하는 시스템(100)을 사용하여, 단백질과 결합하는 RNA 영역에 대한 예측 성능을 크게 개선, 향상시킬 수 있다. 따라서 신약을 개발하기 위한 후보 물질의 스크리닝이나 바이오센서를 개발할 때 활용되거나, 단백질과 상호작용하는 RNA의 발현 및 조절 기전과 같은 생물학적 가설이나 기능을 연구하기 위한 연구-툴로서 활용될 수 있다.
이하, 예시적인 실시예를 참조하면서 본 발명을 보다 상세하게 설명하지만, 본 발명이 하기 실시예에 기재된 기술 사상으로 제한되는 것은 아니다.
실시예
[데이터세트(dataset)의 추출 및 제거]
4개의 모델 생명체에 대하여 선별하여(curated) 공개된 CLIP-seq 데이터세트를 제공하는 CLIPdb로부터 RNA에서 단백질-결합 부위를 얻었다(Yang, Y.-C.T., Di, C., Hu, B., Zhou, M., Liu, Y., Song, N., Li, Y., Umetsu, J., Lu, Z.J.: CLIPdb: A CLIP-seq database for protein-RNA interactions. BMC Genomics 16:51 (2015)). 충분한 양의 신뢰성 있는 데이터를 획득하기 위하여, PAR-CLIP 기법(Hafner, M., Landthaler, M., Burger, L., Khorshid, M., Hausser, J., Berninger, P., Rothballer, A., Ascano, M., Jungkamp, A.-C., Munschauer, M., Ulrich, A., Wardle, G.S., Dewell, S., Zavolan, M., Tuschl, T.: PAR-CliP - a method to identify transcriptome-wide the binding sites of RNA binding proteins. Journal of Visualized Experiments (41):2034 (2010))으로 확인하여, 처음에 얻어진 데이터 중에서 인간 mRNA의 '+(sense)' 사슬(strand)에서 25개 염기의 결합 영역을 가지며, PARalyzer 기법에서 결합 친화도 스코어(binding affinity score)가 > 0.8인 것으로 제한하였다. 결합 영역의 크기로서 25개의 염기를 선정한 이유는, PAR-CLIP 기법에서는 통상적으로 21 내지 35개 길이의 염기를 가지는 단백질-결합 영역을 확인할 수 있기 때문이며, 25개 염기의 결합 영역은 다른 선택과 비교에서도 CLIPdb에서 보다 많은 양의 데이터를 확보할 수 있기 때문이다. 14개의 RNA-결합 단백질에 대하여 총 5,145개의 RNA-결합 단백질 결합 영역을 추출하였다. 본 실시예에서 이 RNA 서열을 포지티브 데이터(positive data)로 사용하였다. RNA-결합 단백질 서열은 NCBI GEO() 사이트에서 얻었다.
네거티브 데이터(negative data)로서, 참조 인간 유전체 GRCh37/hg19에서 25개 염기에 대하여 51,450개(포지티브 데이터의 10배) 비-결합 영역을 선택하였다. 참조로 사용된 인간 유전체는 단백질-결합 영역보다 많은 비-결합 영역을 포함하고 있으므로, 비-결합 영역에 대한 결합 영역의 비율을 다르게 하여 여러 개의 데이터세트를 구성하였다(이하에서 각각 1:1, 1:2, 1:4, 1:6, 1:8, 1:10 데이터세트로 지칭한다).
데이터세트에서 중복(redundancy) 데이터를 제거하기 위하여, 먼저 5,145개의 RNA-결합 단백질의 결합 영역에 대하여 CD-HIT-EST를 실행하여(Huang, Y., Niu, B., Gao, Y., Fu, L., Li, W.: Cd-hit suite: A web server for clustering and comparing biological sequences. Bioinformatics 26(5):680-682 (2010)), 80% 이상의 서열 유사도를 갖는 데이터를 제거하였다. 5,145개의 RNA-결합 단백질 결합 영역 중에서 4,372개 서열만이 잔존하였다. 잔존하는 4,372개의 RNA-결합 단백질 결합 서열을 훈련 데이터세트(training dataset, 잔존하는 RBP-결합 서열 중 70%)와 테스트 데이터세트(test dataset, RBP-결합 서열 중 30%) 2개의 데이터세트로 구분하였다. 하기 표 1은 다른 비율의 포지티브 RNA 데이터와 네거티브 데이터에서의 훈련 데이터세트 및 테스트 데이터세트의 수를 나타내고 있다.
상술한 과정을 통하여 훈련 데이터세트와 테스트 데이터세트 사이에서는 물론이고, 각각의 훈련 데이터세트와 테스트 데이터세트 내에서 유사한 RNA 서열은 존재하지 않도록 설계하였다. 1:1, 1:2, 1:4, 1:6, 1:8 및 1:10 데이터세트에서 중복 데이터 제거를 독립적으로 수행하였으므로, 포지티브 데이터세트-네거티브 데이터세트의 비율은 정확히 1:n(n=1, 2, 4, 6, 8, 10)이 아닐 수 있다.
Figure pat00009
[염기 프로파일 및 조성]
이어서, 단일 염기 위치가중행렬(mono-nucleotide positional weight matrix, mPWM)과 올리고염기로서 2-염기 위치가중행렬(di-nucleotide positional weigh matrix, dPWM)을 구축하였다(전술한 식 1 및 식 2 참조). 포지티브 RNA 데이터에 대한 단일염기 및 중첩하게 배열되는 2-염기 각각에 대한 위치가중행렬(PWM+)과 네거티브 데이터에 대한 단일염기 및 중첩하게 배열되는 2-염기 각각에 대한 위치가중행렬(PWM-)을 연산하고, 이를 조합하여 단일염기 및 2-염기에 대한 최종적인 위치가중행렬을 연산하였다. 훈련 데이터세트로부터 생성된 동일한 mPWM 및 dPWM는 예측 모델을 학습시키고 예측하는데 모두 사용되었다.
2가지 타입의 위치가중행렬 이외에도, 3가지 타입의 염기 조성, 즉 단일 염기 조성(mono-nucleotide composition, mC), 2개 염기 조성(di-nucleotide composition, dC) 및 3개 염기 조성(tri-nucleotide composition, tC)을 또한 연산하였다. 즉, 염기 조성은 표적 RNA 서열에서 단일 염기, 2개 염기 및 3개 염기의 빈도수를 나타낸다. n개 염기를 가지는 단일 RNA 서열은 2n+83개 구성요소(element)를 갖는 특징 벡터로 나타난다(mPWM에 대해서 n개, dPWM에 대해서는 n-1개, 염기 조성에 대해서 84개(=4+16+64)의 요소들의 합). 본 실시예에서 사용한 25개 염기를 갖는 RNA 서열과 관련하여, 단일 특징 벡터는 133개의 구성요소를 가지고 있다(도 5 참조).
[예측 모델]
이어서, 서포트 벡터 머신에 대한 라이브러리(library for support vector machine, LIBSVM)를 이용하여 서포트 벡터 머신(SVM)을 구축하였다. LIBSVM에서, 커널(kernel) 함수로서 방사형 기본 함수(radial basic function, RBF)를 사용하였다.
[모형의 평가]
SVM 모델의 예측 성능(performance)은 6가지의 척도(measures)에 의하여 평가하였다. 민감도(sensitivity), 특이도(specificity), 정확도(accuracy), 양성예측도(positive predictive value, PPV), 음성예측도(negative predictive value, NPV) 및 매튜 상관계수(Matthews correlation coefficient, MCC)를 평가하였으며, 각각의 평가 지수는 전술한 식 3 내지 8로 정의된다.
위에서 기술한 바와 같이, 본 발명에 따른 SVM 모형은 RNA 특징으로서 2가지 형태(단일 염기 및 2개 염기)의 위치가중행렬(PWM)과 3가지 형태의 염기 조성을 사용한다. 예측 성능에 대한 특징의 기여도를 검사하기 위하여, 10배 검증에서의 다른 특징들의 조합을 시도하였다.
본 실시형태에서 몇 가지 다른 방식으로 모형을 평가하였다. 먼저, 2가지 형태의 교차 검증(cross validation), 즉 1) 6개의 다른 훈련 데이터세트(1:1, 1:2,...1:10)를 사용한 표준 10배 교차 검증과, 2) 포지티브 데이터와 네거티브 데이터의 비율이 1:1인 데이터세트를 사용하여 LOPO(leave-one-protein out) 교차 검증을 수행하였다.
하기 표 2는 포지티브-네거티브 비율이 1:1인 데이터세트를 사용한 10배 교차 검증에서 단일염기 위치가중행렬, 2개 염기 위치가중행렬, 염기의 조성 및 이들의 조합인 특징 벡터를 각각 이용한 교차 검증 결과를 나타낸다. 단일 특징 벡터 중에서, 염기 조성 데이터에 기초한 단일 특징 벡터에 비하여, 단일 염기 위치가중행렬(mPWM) 및 2개 염기 위치가중행렬(dPWM)을 사용한 특징 벡터에서 양호한 결과를 보여준다. 특히, mPWM 또는 dPWM만을 특징 벡터로 사용한 경우에, SVM 모형은 정확도 88% 이상, MCC 0.77 이상을 보여준다. 이 결과는 mPWM 및 dPWM이 RNA 서열에서 단백질-결합 영역을 예측할 때 매우 강력한 특징이라는 점을 나타낸다.
또한, 단일 특징 벡터를 단독으로 사용하는 것과 비교해서, 2개의 다른 특징 벡터를 사용한 경우에 어떠한 특징의 조합(예를 들어, mPWM+dPWM, mPWM+조성 및 dPWM+조성)을 사용하더라도, 모든 예측 성능에서 개선되었다. 특히 염기 조성 데이터와 함께 mPWM과 dPWM을 사용한 경우에 제일 높은 예측 성능을 보였다(민감도 91.5%, 특이도 90.7%, 정확도 91.1%, PPV 90.1%, MCC 0.822). 즉, 단일 염기 위치가중행렬/2개 염기 위치가중행렬/염기 조성을 조합한 특징 벡터를 채택한 예측 모형에서 예측 성능이 가장 우수한 것을 알 수 있다.
Figure pat00010
한편, 하기 표 3은 6개의 상이한 포지티브-네거티브 비율(P:N, 1:1 내지 1:10)에서 10배 교차 검증 결과를 나타낸다. 포지티브-네거티브 비율이 1:1로 동일한 데이터세트에서 본 발명에 따른 SVM 모형에서 최고 예측 성능이 발휘되었다. 특히 네거티브 데이터의 비율이 증가함에 따라, PPV와 MCC는 감소하였다.
Figure pat00011
RBP와 관련한 LOPO 교차 검증에서, 1개의 RBP에 대한 모든 RNA 서열(RBP 결합 및 비-결합 서열)은 테스트를 위해서 취합되었으며, 남아있는 RNA 서열은 훈련을 위해 사용되었다. 하기 표 4는 14개의 RBP에 대하여 포지티브-네거티브 비율이 1:1인 훈련 데이터세트를 사용하여 본 실시예에 따른 모형에 대한 LOPO 교차 검증 결과를 나타낸다. 서로 다른 RBP는 알려진 RBP-결합 영역의 개수가 매우 다르기 때문에, 단순 평균을 대신하여 성능 척도에 대한 가중 평균을 연산하였다. LOPO 교차 검증에서, 본 발명의 예측 모형은 민감도 85.91%, 특이도 88.6%, 정확도 87.28%, PPV 87.5%, NPV 87.1%, MCC 0.745를 보여주었다. 이 결과는 본 발명에서 채택된 SVM 모형에 대한 LOPO 교차 검증을 통하여, 10배 교차 검증보다 낮은 성능을 얻었지만, 여전히 평균 성능은 높다는 것을 나타내고 있다.
Figure pat00012
2가지 형태의 교차 검증 이외에도, 본 발명에서는 모형을 훈련할 때 사용되지 않았던 독립적 데이터세트를 대하여 본 발명에서 구축된 SVM 모형을 테스트하였다. 전체 표적 RNA 서열 데이터세트 중에서 훈련 데이터로 사용되지 않은 테스트 데이터로 분류된 30%의 데이터세트를 대상으로 하였다. 전술한 10배 교차 검증에서와 마찬가지로, 다른 비율의 포지티브-네거티브를 갖는 6개의 다른 테스트 데이터세트(1:1, 1:2, 1:4, 1:6, 1:8 및 1:10 테스트 데이터세트)를 사용하였다. 하기 표 5는 6개의 다른 P:N 비율에 대하여 본 실시예에 따른 모형에 대한 독립적인 테스트 결과를 나타낸다. 표 5에 표시한 바와 같이, 네거티브 비율이 증가함에 따라 전체 예측 성능은 감소하였다. 특히, 데이터세트가 보다 많은 네거티브 데이터를 포함하는 경우에 PPV와 MCC 크게 감소하였다. 이 경향은 10배 교차 검증에서도 또한 관찰되었다. 하지만, 민감도, 정확도 및 NPV와 같은 다른 성능 척도는 다소 증가하였으며, 특이도는 약간 감소하였다.
Figure pat00013
한편, 도 6은 본 실시형태에 따라 10배 검증 테스트 및 독립 테스트에서 민감도와 특이도의 관계를 도시한 ROC(Receiver-Operating Characteristic) 커브를 도시하고 있다. 10배 교차 검증에서 ROC 커브의 아래쪽 영역의 면적(area under curve, AUC)은 0.9697이고, 독립 테스트에서 AUC는 0.8975로서 양호한 결과가 얻어졌다.
또한, 본 실시예에 따른 예측 모형은 25개의 염기를 갖는 RBP 결합 RNA 서열을 사용하여 학습되었으므로, 다른 크기의 RNA에도 적용될 수 있는지를 또한 검사하였다. k개의 염기(k < 25)를 갖는 RNA에 대하여, CLIPdb로부터 총 12,576개의 RBP-결합 RNA를 추출하였다. 단백질과 결합한다고 알려진 RNA 서열의 가장 전형적인 길이인 25개 염기보다 짧은 RNA 서열을 테스트할 때, 로그-오즈-스코어의 합이 최대가 되는 RNA 서열에서의 위치를 선택하였다. 선택된 위치에 근거하여, mPWM과 dPWM 특징을 모두 코딩하였고(encoded), 25-mer RNA의 특징 벡터와 같은 크기의 특징 벡터를 얻기 위하여, mPWM과 dPWM에 해당되는 염기가 없는 부분은 0값을 사용하였다. 짧은 RNA 서열에 대한 염기 조성은 25개 염기의 RNA 서열과 동일한 방식으로 코딩하였다.
아울러, 25개를 초과하는 RNA 서열의 경우에는, 단일염기에 대한 로그-오즈 스코어의 합이 최대가 되는 RNA 서열에서의 위치를 선택하였다. 선택된 위치에 근거하여, mPWM과 dPWM 특징을 모두 코딩하였고(encoded), 염기 조성은 25-mer의 염기 조성과 같이 구성하였다. 짧은 RNA 서열에 대한 예측 성능은 25-mer RNA보다 낮았지만, 여전히 정확도 75.3%의 높은 성능을 보였다.
RNA 서열에서 단백질과의 결합 부위를 예측할 때, 상대방 단백질 서열 정보를 추가로 사용하여 예측하는 것도 가능하다. 이를 위하여 사용하는 특징으로는 RNA 서열의 서열 프로파일 및 서열 조성은 그대로 사용하고, 단백질 서열에서의 아미노산 그룹의 조성(composition), 아미노산 그룹간의 변이(transition), 아미노산의 분포 (distribution) 3가지를 사용한다. 단백질 서열의 특징을 표현하기 위하여 20 가지의 아미노산을 다음 7개 그룹으로 분류한다: 그룹 1 = {A, G, V}, 그룹 2 = {C}, 그룹 3 = {M, S, T, Y}, 그룹 4 = {F, I, L, P}, 그룹 5 = {H, N, Q, W}, 그룹 6 = {K, R}, 그룹 7 = {D, E}. 아미노산 그룹간의 변이는, 단백질 서열에서 인접한 아미노산이 아미노산 그룹 1에서 그룹 2로 변하거나 그룹 2에서 그룹 1로 변이되는 경우, 그룹 1에서 그룹 3으로 또는 그룹 3에서 그룹 1로 변하는 경우 등을 세어서, 최종적으로 서로 다른 아미노산 그룹 간의 변이의 수에 대한 normalized 빈도수를 표현한다. 아미노산 분포는 단백질 서열에서 각 그룹에 속한 아미노산이 서열에서 첫 번째, 25%, 50%, 75%, 100%에 해당하는 위치를 표현한다. RNA 서열과 단백질 서열의 정보를 모두 사용한 예측 기법의 성능은 민감도 80%, 특이도 85.7%, 정확도 82.85%, 양성예측도 84.84%, 음성예측도 81.08% 및 매튜 상관계수 0.658로 평가되었다.
[다른 방법과의 비교]
DeepBind 기법 및 catRAPID 기법과 본 발명의 기법을 비교하기 위하여, RBP-결합 RNA 서열의 새로운 2개의 데이터세트(25개 염기와 51개 염기)를 준비하였다. 테스트 데이터세트의 네거티브 데이터와 관련해서, 참조 인간 유전체 GRCh37/hg19에서 25개 및 51개 염기의 비-결합 영역을 선택하였다.
첫 번째 테스트 데이터세트는 CLIPdb에서 추출된 25개 염기의 RNA 서열로 구성되어 있다. 본 실시예에서 사용된 14개의 RBP 중에서 DeepBind 기법은, 7개의 RBP(FUS, FXR1, FXR2, IGF2BP2, LIN28A, QKI, ARDBP) 각각에 대하여 1개씩 7개의 독립된 모델을 제공한다. 공정한 비교를 위하여, CLIPdb에서 25개의 염기를 갖는 새로운 700개의 RBP-결합 영역을 추출하였다(7개의 RBP 각각에 대하여 100개의 RBP-결합 영역). 훈련 데이터세트와 유사한 서열을 제거하기 위하여 cut-off 값 0.8을 사용하여 700개의 RNA 서열에 대한 CD-HIT-EST를 수행하였다.
표 6은 CD-HIT-EST를 수행한 뒤에, 7개의 RBP에 대한 RBP-결합 서열에서 DeepBind기법과 본 발명의 모형에 따른 예측 결과를 나타낸다.
Figure pat00014
catRAPID 기법에서는 최소한 50개의 염기를 갖는 RNA 서열이 요구되므로, 25개 염기의 RNA 서열에 대해서는 catRAPID 기법을 적용할 수 없었다. 25개 염기를 갖는 RBP-결합 영역에 대하여 본 발명의 예측 기법에서의 민감도는 평균 73.2%이었다. 반면, DeepBind 기법은 대부분의 RBP에 대하여 낮은 스코어를 나타냈다. 일반적으로 DeepBind 기법에서의 스코어는 임의의 척도(arbitrary scale)로 알려져 있다. 따라서 공정한 비교를 위해서, DeepBind 스코어에 대해서 Z-scores를 연산하였다. DeepBind 기법에 의해 테스트된 RNA 서열이 Z-score > 0이라면, RBP-결합으로 간주하고, 그렇지 않은 경우에는 비-결합으로 간주하였다. 25개의 염기를 갖는 RBP-결합 서열에 대한 DeepBind 기법의 평균 민감도는 47.4%로서, 본 실시예에 따른 예측 모형보다 훨씬 낮다. 따라서 DeepBind 기법에 비하여 본 발명의 예측 모형이 훨씬 양호한 결과를 나타낸 것을 확인하였다.
한편, catRAPID 기법은 적어도 50개의 염기를 갖는 RNA 서열을 필요로 하므로, 최초 유전체 서열의 결합 영역의 양 측면으로 13개의 염기를 추가하여 RBP-결합 영역을 확장하여 두 번째 데이터세트를 구축하였다. CLIPdb에서 51개 염기의 RBP-결합 RNA 서열을 사용할 수 없었던 이유는, DeepBind 기법은 해당 RBP에 대한 예측 모형을 포함하지 않기 때문이다(DeepBind 기법은 각각의 RBP에 대한 별개의 모형을 제공한다). 두 번째 데이터세트에서, 훈련 데이터세트 중 임의의 데이터세트와 유사한 서열은 cut-off 값 0.9를 사용하여 CD-HIT-EST를 수행하여 제거하였다. 700개의 확장된 RNA 서열에 대하여 CD-HIT-EST를 수행하였을 때, 0.8의 cut-off 값을 채택하면 너무나 많은 RNA 서열이 제거되었으므로, 0.8 대신에 0.9의 cut-off 값으로 조정하였다. 비교 측정 결과는 표 7에 표시되어 있다.
Figure pat00015
본 실시예에 따른 예측 모형에서 민감도 가중 평균은 67.35%(가중치를 부여하지 않은 산술평균은 50.7%)이고, DeepBind 기법에서 민감도 가중 평균은 46.6%(가중치를 부여하지 않은 산술평균 44.7%)이었다. 표 6에 도시된 모든 RBP-결합 서열을 테스트할 때 catRAPID 서버는 너무 느렸기 때문에, 각각의 RBP에 대하여 10개의 RBP-결합 서열에 대해서만 catRAPID 기법을 적용하였다. 대부분의 테스트 케이스에서 catRAPID 기법은 낮은 변별력(discriminative power, DP) 값을 보여주었다. catRAPID에서 DP는 훈련 데이터에 대한 단백질-RNA 쌍의 상호작용 경향을 나타내기 때문에, RBP-결합 서열에 대한 catRAPID 테스트 결과는, 예측에 대하여 낮은 신뢰성 수준을 의미한다.
[결론]
본 실시예에서 단일 염기 및 2개 염기의 로그-오즈-스코어와 염기 조성으로부터 구축되는 RNA 서열 프로파일을 이용하여 RNA 서열에서 단백질-결합 영역을 예측하는 컴퓨터에서 구현되는 새로운 방법을 제안한다. 본 발명의 기법은 SVM 모형에서 구현되었으며, 포지티브-네거티브 비율이 상이한 6개의 데이터세트를 이용한 표준 10배 교차 검증, LOPO 교차 검증 및 포지티브-네거티브 비율이 상이한 6개의 데이터세트를 사용한 독립 테스트와 같은 다양한 방식으로 평가하였다. 또한, 동일한 데이터세트를 사용하여 본 실시예의 기법을 DeepBind 및 catRAPID 기법과 비교하였다.
인간 mRNA에서 실제 RBP-결합 영역에 대한 본 발명의 기법에 대한 교차 검증 및 독립 테스트의 결과, RNA 서열에서 단백질-결합 영역을 찾을 때, 단일 염기 및 2개 염기 기준의 로그-오즈-스코어의 서열 프로파일을 이용한 경우, 단순히 염기 조성을 이용한 경우보다 강력한 특징을 나타냈다.
염기 조성 단독으로는 단일 염기 및 2개 염기의 로그-오즈-스코어의 서열 프로파일보다 훨씬 낮은 예측 성능을 나타냈으며, 염기 조성과 서열 프로파일을 조합한 경우에 제일 높은 예측 성능이 얻어졌다. 최고의 성능은 포지티브 데이터와 네거티브 데이터의 비율이 1:1로 균형을 이루는 경우에 관찰되었다.
상기에서는 본 발명의 예시적인 실시형태 및 실시예에 기초하여 본 발명을 설명하였으나, 본 발명이 전술한 실시형태 및 실시예에 기재된 기술 사상으로 한정되지 않는다. 오히려 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 전술한 실시형태 및 실시예에 기초하여 다양한 변형과 변경을 용이하게 추고할 수 있을 것이다. 하지만 이러한 변형과 변경은 모두 본 발명의 권리범위에 속한다는 사실은, 첨부하는 청구의 범위를 통하여 더욱 분명해질 것이다.
100 : 결합 영역 예측 시스템 110 : 데이터베이스 모듈
120 : 서열 추출 모듈 130 : 연산 모듈
140 : 벡터 구축 모듈 150 : 훈련 모듈
160 : 평가 모듈 170 : 제어부

Claims (20)

  1. 컴퓨터에서 구현되는, RNA 서열에서 단백질 결합 영역을 예측하는 방법으로서,
    a) 훈련 데이터(training data)를 포함하는 학습 데이터를 추출하는 단계로서, 상기 훈련 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 추출하는 단계;
    b) 상기 훈련 데이터로서 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산하는 단계로서, 상기 서열 프로파일 정보는 상기 추출된 RNA 서열에 대한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix) 정보와, 상기 추출된 RNA 서열에 대한 올리고염기 위치가중행렬 정보를 포함하고,
    상기 단일염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 올리고염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 제 1 올리고염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 올리고염기로 이루어지는 단계;
    c) 상기 연산된 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축하는 단계; 및
    d) 상기 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 영역을 예측하는 단계를 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  2. 제 1항에 있어서,
    상기 b) 단계에서 상기 서열 프로파일 정보와 별도로 상기 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성(composition) 정보가 또한 연산되고, 상기 c) 단계에서 상기 서열 조성 정보가 상기 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보와 조합되어 특징 벡터를 구축하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  3. 제 2항에 있어서,
    상기 b) 단계에서 상기 서열 조성 정보는, 상기 추출된 RNA 서열을 구성하는 각각의 단일염기의 빈도수와, 상기 추출된 RNA 서열을 구성하는 제 2 올리고염기 각각의 빈도수를 포함하고, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나의 올리고염기로 이루어지는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  4. 제 3항에 있어서,
    상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide)로 이루어지는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  5. 제 1항에 있어서,
    상기 a) 단계에서 추출된 RNA 서열 중에서 중복된 RNA 서열을 제거하는 단계를 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  6. 제 1항에 있어서,
    상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide) 중에서 적어도 어느 하나인 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  7. 제 1항에 있어서, 상기 d) 단계 이후에, e) 상기 d) 단계에서 수행된 예측 대상 RNA 서열의 예측 결과를, 평가 척도를 사용하여 평가하는 단계를 더욱 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  8. 제 7항에 있어서, 상기 평가 척도는 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy), 양성예측도(Positive predictive value), 음성예측도(Negative predictive value) 및 매튜 상관계수(Matthews correlation coefficient) 중에서 선택되는 적어도 하나인 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  9. 제 7항에 있어서, 상기 a) 단계에서 상기 훈련 데이터와 별도로 테스트 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터가 또한 추출되고, 상기 e) 단계는, 상기 테스트 데이터를 대상으로 수행되는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  10. 제 1항에 있어서,
    상기 d) 단계는 서포트-벡터 머신(support vector machine) 모형을 이용하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법.
  11. 컴퓨터에서 구현되는, RNA 서열에서 단백질 결합 영역을 예측하는 시스템으로서,
    훈련 데이터(training data)를 포함하는 학습 데이터로서 RNA에서 단백질과 결합하는 영역인 포지티브 데이터와, 단백질과 결합하지 않는 영역인 네거티브 데이터를 추출하는 서열 추출 모듈;
    상기 훈련 데이터로서 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산하는 연산 모듈로서, 상기 서열 프로파일 정보는 상기 추출된 RNA 서열에 대한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix) 정보와, 상기 추출된 RNA 서열에 대한 올리고염기 위치가중행렬 정보를 포함하고,
    상기 단일염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 올리고염기 위치가중행렬은 상기 RNA 서열을 구성하는 제 1 올리고염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 올리고염기로 이루어지는 연산 모듈;
    상기 연산된 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축하는 벡터 구축 모듈; 및
    상기 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 영역을 예측하는 훈련 모듈을 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  12. 제 11항에 있어서,
    상기 연산 모듈은 상기 서열 프로파일 정보와 별도로 상기 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성(composition) 정보를 또한 연산하고, 상기 벡터 구출 모듈은 상기 서열 조성 정보를 상기 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보와 조합하여 특징 벡터를 구축하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  13. 제 12항에 있어서,
    상기 서열 조성 정보는, 상기 추출된 RNA 서열을 구성하는 각각의 단일염기의 빈도수와, 상기 추출된 RNA 서열을 구성하는 제 2 올리고염기 각각의 빈도수를 포함하고, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나의 올리고염기로 구성되는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  14. 제 13항에 있어서,
    상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide)로 이루어지는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  15. 제 11항에 있어서,
    상기 서열 추출 모듈은 추출된 RNA 서열 중에서 중복된 RNA 서열을 제거하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  16. 제 11항에 있어서,
    상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide) 중에서 적어도 어느 하나인 RNA 서열에서 단백질 결합 영역을 예측하는 시스템
  17. 제 11항에 있어서, 상기 시스템은 상기 훈련 모듈에서의 단백질과 결합하는 RNA 서열과 단백질과 결합하지 않는 RNA 서열의 예측 결과를, 평가 척도를 사용하여 평가하는 평가 모듈을 더욱 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  18. 제 17항에 있어서, 상기 척도는 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy), 양성예측도(Positive predictive value), 음성예측도(Negative predictive value) 및 매튜 상관계수(Matthews correlation coefficient) 중에서 선택되는 적어도 하나인 것을 특징으로 하는 핵산 서열에서 단백질 결합 영역을 예측하는 시스템.
  19. 제 17항에 있어서, 상기 서열 추출 모듈은 상기 훈련 데이터와 별도로 테스트 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 또한 추출하고, 상기 평가 모듈은 상기 테스트 데이터에 대한 평가를 수행하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
  20. 제 11항에 있어서,
    상기 학습 모듈은 서포트-벡터 머신(support vector machine) 모형을 이용하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 시스템.
KR1020160102252A 2016-08-11 2016-08-11 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 매체 KR101888628B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160102252A KR101888628B1 (ko) 2016-08-11 2016-08-11 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160102252A KR101888628B1 (ko) 2016-08-11 2016-08-11 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 매체

Publications (2)

Publication Number Publication Date
KR20180017827A true KR20180017827A (ko) 2018-02-21
KR101888628B1 KR101888628B1 (ko) 2018-09-20

Family

ID=61524933

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160102252A KR101888628B1 (ko) 2016-08-11 2016-08-11 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 매체

Country Status (1)

Country Link
KR (1) KR101888628B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215737A (zh) * 2018-09-30 2019-01-15 东软集团股份有限公司 蛋白质特征提取、功能模型生成、功能预测的方法及装置
CN109859798A (zh) * 2019-01-21 2019-06-07 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
KR20200017653A (ko) 2018-08-09 2020-02-19 광주과학기술원 약물-표적 상호 작용 예측을 위한 방법
KR20200019404A (ko) * 2018-08-14 2020-02-24 인하대학교 산학협력단 기계 학습 알고리즘을 이용하여 표적 단백질과 결합하는 후보 rna 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 rna 압타머를 생성하는 방법
CN111951889A (zh) * 2020-08-18 2020-11-17 安徽农业大学 一种rna序列中m5c位点的识别预测方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200017653A (ko) 2018-08-09 2020-02-19 광주과학기술원 약물-표적 상호 작용 예측을 위한 방법
KR20200019404A (ko) * 2018-08-14 2020-02-24 인하대학교 산학협력단 기계 학습 알고리즘을 이용하여 표적 단백질과 결합하는 후보 rna 압타머를 생성하는 프로그램을 기록한 컴퓨터로 판독할 수 있는 기록 매체 및 후보 rna 압타머를 생성하는 방법
CN109215737A (zh) * 2018-09-30 2019-01-15 东软集团股份有限公司 蛋白质特征提取、功能模型生成、功能预测的方法及装置
CN109859798A (zh) * 2019-01-21 2019-06-07 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN109859798B (zh) * 2019-01-21 2023-06-23 桂林电子科技大学 一种细菌中sRNA与其靶标mRNA相互作用的预测方法
CN111951889A (zh) * 2020-08-18 2020-11-17 安徽农业大学 一种rna序列中m5c位点的识别预测方法及系统
CN111951889B (zh) * 2020-08-18 2023-12-22 安徽农业大学 一种rna序列中m5c位点的识别预测方法及系统

Also Published As

Publication number Publication date
KR101888628B1 (ko) 2018-09-20

Similar Documents

Publication Publication Date Title
Basith et al. iGHBP: computational identification of growth hormone binding proteins from sequences using extremely randomised tree
KR101888628B1 (ko) 염기 프로파일과 조성을 이용하여 단백질과 결합하는 rna 서열 영역을 예측하는 방법 및 매체
Hu et al. Predicting protein-DNA binding residues by weightedly combining sequence-based features and boosting multiple SVMs
Li et al. Predicting long noncoding RNA and protein interactions using heterogeneous network model
JP5479431B2 (ja) バイオマーカー抽出装置および方法
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
Wong et al. DNA motif elucidation using belief propagation
Meher et al. Prediction of donor splice sites using random forest with a new sequence encoding approach
Ao et al. RFhy-m2G: identification of RNA N2-methylguanosine modification sites based on random forest and hybrid features
Corrado et al. RNAcommender: genome-wide recommendation of RNA–protein interactions
Zhou et al. EL_LSTM: prediction of DNA-binding residue from protein sequence by combining long short-term memory and ensemble learning
Zhao et al. Quantifying the impact of non-coding variants on transcription factor-DNA binding
Zhao et al. RWLPAP: random walk for lncRNA-protein associations prediction
Emami et al. Computational predictive approaches for interaction and structure of aptamers
Birnbaum et al. cis element/transcription factor analysis (cis/TF): a method for discovering transcription factor/cis element relationships
Choi et al. Predicting protein-binding regions in RNA using nucleotide profiles and compositions
Caldonazzo Garbelini et al. Sequence motif finder using memetic algorithm
US20020072887A1 (en) Interaction fingerprint annotations from protein structure models
Roslan et al. Utilizing shared interacting domain patterns and Gene Ontology information to improve protein–protein interaction prediction
Bi et al. Predicting Gene Ontology functions based on support vector machines and statistical significance estimation
Hoggart et al. BridgePRS: A powerful trans-ancestry Polygenic Risk Score method
Liang et al. Rm-LR: A long-range-based deep learning model for predicting multiple types of RNA modifications
Raza et al. iPro-TCN: Prediction of DNA Promoters Recognition and their Strength Using Temporal Convolutional Network
Ladunga An overview of the computational analyses and discovery of transcription factor binding sites
Amor et al. Graph representation learning on tissue-specific multi-omics

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant