KR20190069929A - 분석 서버에서 miRNA 데이터를 분석하는 방법 - Google Patents

분석 서버에서 miRNA 데이터를 분석하는 방법 Download PDF

Info

Publication number
KR20190069929A
KR20190069929A KR1020170170294A KR20170170294A KR20190069929A KR 20190069929 A KR20190069929 A KR 20190069929A KR 1020170170294 A KR1020170170294 A KR 1020170170294A KR 20170170294 A KR20170170294 A KR 20170170294A KR 20190069929 A KR20190069929 A KR 20190069929A
Authority
KR
South Korea
Prior art keywords
mirna
information
gene
target
analysis server
Prior art date
Application number
KR1020170170294A
Other languages
English (en)
Inventor
류성호
배윤위
최철원
Original Assignee
순천향대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 순천향대학교 산학협력단 filed Critical 순천향대학교 산학협력단
Priority to KR1020170170294A priority Critical patent/KR20190069929A/ko
Publication of KR20190069929A publication Critical patent/KR20190069929A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F19/00Advertising or display means not otherwise provided for
    • G09F19/22Advertising or display means on roads, walls or similar surfaces, e.g. illuminated
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

분석 서버에서 miRNA 데이터를 분석하는 방법은 분석 서버가 클라이언트 장치로부터 유전자 서열 정보를 수신하는 단계, 상기 분석 서버가 상기 유전자 서열 정보를 miRNA DB에 저장된 서열 정보와 비교하면서 매칭되는 타겟 miRNA를 식별하는 단계, 상기 분석 서버가 타겟 miRNA의 정보를 기준으로 타겟 유전자 DB에 저장된 타겟 유전자 중 적어도 하나의 타겟 유전자를 식별하는 단계 및 상기 분석 서버가 상기 적어도 하나의 타겟 유전자를 기준으로 다른 DB에 저장된 유전자 온톨로지 정보 또는 패스웨이 정보 중 적어도 하나를 식별하는 단계를 포함한다. 상기 유전자 서열 정보는 NGS 분석 데이터에서 서열을 중복 횟수를 기준으로 선정된 서열이다.

Description

분석 서버에서 miRNA 데이터를 분석하는 방법{miRNA DATA ANALYSIS METHOD FOR SERVER}
이하 설명하는 기술은 서버에서 miRNA 데이터를 기준으로 관련된 정보를 분석하는 기법에 관한 것이다.
microRNA (miRNA)는 21-25 nucleotide (nt)의 RNA 분자로서 mRNA의 번역을 억제하여 진핵 생물의 유전자 발현을 직접 제어하는 역할을 한다. miRNA는 식물과 동물 모두에서 잘 보존되며, 다수의 mRAN 기작을 제어하는 것으로 밝혀지고 있다. 한편 miRNA의 위와 같은 기능을 이해하기 위해서는 miRNA와 반응하는 타겟 유전자(target mRNA)를 찾는 것이 매우 중요하다.
미국공개특허 US 2017-0177792
차세대 염기서열 분석 기술(next generation sequencing, NGS)의 등장으로 염기서열 해독(sequencing)에 걸리는 시간과 비용을 획기적으로 줄일 수 있게 되었다. NGS로 생성된 데이터는 대용량 데이터이다. 단일 서버는 복수의 대용량 NGS 데이터를 병렬적으로 처리하기가 어렵다.
이하 설명하는 기술은 분산 처리 시스템에서 클라이언트 장치가 전처리한 데이터를 활용하여 분석 서버가 miRNA 관련한 유전 정보를 제공하는 기법을 제공하고자 한다.
분석 서버에서 miRNA 데이터를 분석하는 방법은 분석 서버가 클라이언트 장치로부터 유전자 서열 정보를 수신하는 단계, 상기 분석 서버가 상기 유전자 서열 정보를 miRNA DB에 저장된 서열 정보와 비교하면서 매칭되는 타겟 miRNA를 식별하는 단계, 상기 분석 서버가 타겟 miRNA의 정보를 기준으로 타겟 유전자 DB에 저장된 타겟 유전자 중 적어도 하나의 타겟 유전자를 식별하는 단계 및 상기 분석 서버가 상기 적어도 하나의 타겟 유전자를 기준으로 다른 DB에 저장된 유전자 온톨로지 정보 또는 패스웨이 정보 중 적어도 하나를 식별하는 단계를 포함한다.
이하 설명하는 기술은 분산 시스템을 활용하여 대용량 NGS 데이터를 전처리하여 분석 서버가 빠르게 miRNA를 분석할 수 있다. 이하 설명하는 기술은 miRNA와 관련된 다양한 정보를 제공하는 통합적인 시스템에 기여한다.
도 1은 miRNA 분석 시스템에 대한 예이다.
도 2는 분석 서버가 DB를 이용하여 유전자 정보를 추출하는 동작에 대한 예이다.
도 3은 분석 서버가 DB를 이용하여 유전자 정보를 추출하는 과정에 대한 절차 흐름도이다.
도 4는 분석 서버가 타겟 유전자를 식별하는 과정에 대한 예이다.
도 5는 분석 서버가 추출한 유전자 정보에 대한 예이다.
도 6은 분석 서버가 추출한 유전자 정보에 대한 다른 예이다.
도 7은 분석 서버의 구조를 도시한 예이다.
먼저 NGS 분석을 통해 생성되는 데이터에 대하여 간략하게 설명한다. 대표적인 포맷인 FASTQ를 기준으로 설명한다.
NGS는 보통 100개 정도의 염기로 구성된 짧은 서열 조각인 리드(read)를 생성하여 염기서열을 해독한다. NGS는 해독한 염기서열을 일반적으로 FASTQ 형식의 파일로 저장한다. 이를 보통 원시(raw) 데이터라고 명명한다.
NGS 리드의 길이는 약 100 bp 정도로 기존 Sanger 타입의 500-1,000 bp에 비하여 길이가 짧고, 시퀀싱 오류가 상대적으로 크며, 플랫폼에 의존하는 오류도 포함될 수 있다. NGS 플랫폼들이 생성하는 FASTQ 파일은 기존의 DNA 염기서열을 나타내는 텍스트 기반의 표준 염기 데이터 형식인 FASTA 형식에 해독한 염기의 정확도(quality score 혹은 error rate)를 포함시킨 것이다.
각 리드 당 생성되는 FASTQ 파일은 4 줄로 구성되는데, 첫째 줄은 @으로 시작하며 사용한 플랫폼과 염기서열 길이 등에 대한 정보를 포함하고 있고, 둘째 줄은 해독한 염기서열, 셋째 줄은 + 기호로 시작하며 기타 설명, 그리고 마지막 줄은 둘째 줄의 염기서열에 대한 정확도(quality score)를 표시한다. 따라서 둘째 줄과 넷째 줄은 같은 개수 정보로 구성된다.
FASTQ 파일이 포함하고 있는 염기서열은 SNP/Indel calling을 위한 후속 분석 과정들에 지속적으로 영향을 미치기 때문에 염기서열의 정확도는 매우 중요하다. 또한 SNP는 인간의 경우 전체 게놈(genome)의 약 0.1% (약 1,000bp 중 1개) 정도 밖에 나타나지 않으므로 이를 확인하는 기술은 대단히 정확해야 하며, 시퀀싱 오류는 부정확한 SNP/Indel calling으로 이어질 수 있다.
이하 설명하는 기술은 특정 유전자 서열 정보를 기준으로 miRNA 관려한 유전 정보를 추출하는 분석 서버에 관한 것이다. 다만 분석 서버는 일정하게 전처리된 데이터를 사용한다. 분석 서버의 동작을 설명하기 위하여 먼저 전체 분석 시스템에 대하여 간략하게 설명한다.
도 1은 miRNA 분석 시스템(100)에 대한 예이다. miRNA 분석 시스템(100)은 NGS 기법으로 생성한 원시 데이터를 이용하여 해당 샘플에 대한 분석 결과를 제공한다. miRNA 분석 시스템(100)은 클라이언트 장치(110), 분석 서버(130) 및 유전 정보 DB(150)를 포함한다.
도 1은 3개의 클라이언트 장치(110A, 110B 및 110C)를 예로 도시하였다. 하나의 클라이언트 장치는 기본적으로 하나의 원시 데이터를 전처리한다. 클라이언트 장치(110C)는 NGS 분석 장치(50)가 생성한 원시 데이터를 처리한다. 도시하지 않았지만 다른 클라이언트 장치(110A 및 110B)도 NGS 분석 장치(50)가 생성한 원시 데이터를 획득하여 처리한다. 클라이언트 장치(110)가 수신하는 원시 데이터는 특정 샘플(조직)에 대한 유전자 분석 결과이다. 클라이언트 장치(110)는 miRNA 서열에 대한 원시 데이터를 획득한다고 전제한다.
클라이언트 장치(110)는 전처리한 데이터인 miRNA 서열 정보를 분석 서버(130)에 전송한다. 클라이언트 장치(110)가 전처리하여 전송하는 데이터를 타겟 서열 정보라고 명명한다. 타겟 서열 정보는 원시 데이터에 있는 서열 정보 중 적어도 하나의 서열 정보를 포함한다. 타겟 서열 정보는 서열 및 해당 서열의 반복횟수를 포함할 수도 있다.
분석 서버(130)는 수신한 타겟 서열 정보를 사전에 마련된 유전 정보와 비교하면서 매칭되는 miRNA를 식별한다. 이후 식별한 miRNA를 기준으로 유전 정보와 비교하면서 관련된 유전 정보를 추출한다. 분석 서버(130)는 추출한 유전 정보를 클라이언트 장치(110)에 제공할 수 있다.
유전 정보 DB(150)는 특정 miRNA에 대한 서열 정보, 특정 miRNA 서열과 관련된 타겟 유전자 정보, 특정 miRNA 서열 또는 타겟 유전자와 관련된 질병 정보, 타겟 유전자의 패스웨이(pathway) 정보 등을 보유할 수 있다.
miRNA 분석 시스템(100)은 분석 서버(130)의 부하(overhead)를 줄이기 위하여 각 개별 클라이언트 장치(110A, 110B 및 110C)가 NGS 원시 데이터를 전처리한다. 분석 서버(130)는 전처리된 데이터를 활용하여 이하 관련된 유전 정보를 추출한다.
클라이언트 장치(110)에서 원시 데이터를 전처리하는 과정에 대해서도 간략하게 설명한다. 데이터를 정규화하는 이유는 특정 샘플에 따라서 유전자 발현량이 다를 수도 있고, NGS 분석 장치의 분석 결과에 일부 오류가 있을 수 있기 때문이다. 클라이언트 장치(110)는 다양한 방식으로 데이터를 정규화할 수 있다.
FPKM (fragments per kilo bases of exons for per million mapped reads) 또는 RPKM ( fragments per kilo bases of exons for per million mapped reads)는 RNA 리드의 개수를 이용하여 전사량을 추정하는 과정에서 널리 사용된 정규화 방법이다. 그러나 특정 샘플의 유전자 발현량이 많다면, 해당 샘플이 더 많은 리드 개수를 갖게된다. 따라서 유전자 서령에 기초한 정략적 연구에서 잘못된 결과를 유도할 수 있다. 이와 같은 문제를 억제하기 위하여 샘플에 대한 정규화가 바람직하다. 예컨대, 샘플 데이터에 대한 상위 사분위 정규화(Uppper Quartile normalization, 이하 UQ 정규화)를 이용할 수 있다. 이하 UQ 정규화 과정을 중심으로 설명한다. UQ 정규화도 몇 가지 방식을 사용할 수 있다. UQ 정규화를 위해서는 일정한 기준으로 데이터를 정렬해야만 한다. 따라서 클라이언트 장치(110)는 중복 횟수를 기준으로 서열을 정렬해야 한다.
이하 행렬(matrix) 형태의 자료구조를 기준으로 설명한다. 각 행은 유전자 또는 전사체를 의미한고, 각 열은 서로 다른 샘플을 의미한다. 다만 하나의 클라이언트 장치는 하나의 샘플 데이터에 대한 정규화를 수행하므로, 하나의 열만 갖는 자료구조를 사용할 수 있다. 각 셀은 유전자 서열의 반복 횟수 등을 나타내는 정보를 포함한다.
(1) (i) 상위 75%에 해당하는 값(uppper quratile)을 오름 차순으로 정렬한다. (ii) 각 행의 발현 정도(서열의 반복 횟수)를 상위 사분위 값으로 나눈다. 이 값을 최종 정규화 결과로 이용할 수 있다. (ii) 나아가 상위 사분위 값으로 나눈 값에 전체 일정한 값(예컨대, 전체 서열의 평균 중복 횟수)을 곱하여 최종 결과를 도출할 수도 있다.
(2) (i) 상위 75%에 해당하는 값(uppper quratile)을 오름 차순으로 정렬한다. (ii) 각 행의 발현 정도(서열의 반복 횟수)에 대한 상위 사분위 값을 결정한다. (iii) 상위 사분위에 속하는 서열의 반복 횟수를 합산한 값으로 각 서열의 반복 회수를 나눈다. 이 값을 최종 정규화 결과로 이용할 수 있다. (iv) 나아가 상기 나눈 결과 값에 전체 일정한 값(예컨대, 전체 서열의 평균 중복 횟수)을 곱하여 최종 결과를 도출할 수도 있다.
(3) (i) 상위 75%에 해당하는 값(uppper quratile)을 오름 차순으로 정렬한다. (ii) 각 행의 발현 정도(서열의 반복 횟수)에 대한 상위 사분위 값을 결정한다. (iii) 상위 사분위에 속하는 서열의 반복 횟수의 평균 값으로 각 서열의 반복 회수를 나눈다. 이 값을 최종 정규화 결과로 이용할 수 있다. (iv) 나아가 상기 나눈 결과 값에 전체 일정한 값(예컨대, 전체 서열의 평균 중복 횟수)을 곱하여 최종 결과를 도출할 수도 있다.
클라이언트 장치(110)는 원시 데이터에 포함된 다양한 서열 중 적어도 하나를 타겟 서열로 결정한다. 타겟 서열은 복수일 수도 있고, 하나의 서열일 수도 있다. 클라이언트 장치(110)는 정규화된 데이터에서 가장 중복 횟수가 많은 서열을 타겟 서열로 결정할 수도 있다. 또는 클라이언트 장치(110)는 정규화된 데이터에서 중복 회수를 기준으로 상위 몇 개의 서열을 타겟 서열로 결정할 수도 있다.
분석 서버(130)는 클라이언트 장치(110)가 정규화한 데이터(타겟 서열 정보)를 수신한다. 이하 분석 서버(130)가 타겟 서열 정보를 이용하여 유전자 정보를 추출하는 과정에 대하여 설명한다.
도 2는 분석 서버가 DB를 이용하여 유전자 정보를 추출하는 동작에 대한 예이다. 분석 서버(130)는 먼저 타겟 서열로 miRNA를 식별하고, 이후 다양한 DB를 활용하여 관련된 정보를 추출할 수 있다.
분석 서버(130)는 클라이언트 장치(110)가 전처리한 타겟 서열 정보를 수신한다. 타겟 서열 정보는 기준값 이상 반복되는 타겟 서열을 포함할 수 있다. 타겟 서열 정보는 타겟 서열과 타겟 서열의 반복 횟수를 포함할 수 있다. 나아가 타겟 서열 정보는 원시 데이터를 기준으로 정규화된 전체 서열(서열 및 정규화된 반복 횟수)에 대한 정보를 포함할 수도 있다. 분석 서버(130)는 타겟 서열 정보를 기준으로 miRNA DB(151)에서 매칭되는 miRNA를 식별한다. 타겟 서열 정보에 매칭되는 miRNA를 매칭 miRNA라고 명명한다.
miRNA DB(151)는 연구기관이나 기업에서 서비스하는 상용 DB일 수 있다. miRNA DB(151)는 상용 DB에 저장된 정보를 일정하게 가공한 정보를 보유할 수도 있다. miRNA DB(151)는 복수의 상용 DB에 저장된 정보를 일정한 포맷으로 가공한 정보를 보유할 수도 있다. miRNA DB(151)는 miRNA 서열 및 해당 서열을 지칭하는 심볼(명칭)을 포함할 수 있다. miRNA 서열은 다른 정보에 비하여 크기가 클 수 있다. 따라서 miRNA DB(151)는 miRNA 식별자(ID) 및 심볼만으로 구성될 수도 있다. 이 경우 분석 서버(130)는 조금 더 빨리 매칭 miRNA를 식별할 수 있다.
이후 분석 서버(130)는 매칭 miRNA를 기준으로 매칭 miRNA가 작용하는 타겟 유전자(mRNA 등)를 식별할 수 있다. 분석 서버(130)는 매칭 miRNA를 기준으로 타겟 유전자 DB(152)에서 매칭되는 miRNA를 식별한다.
매칭 miRNA가 작용하는 타겟 유전자는 다양할 수도 있다. 또한 타겟 유전자는 유형이 서로 다른 RNA일 수도 있다. 이 경우 분석 서버(130)는 매칭 miRNA가 작용하는 복수의 타겟 유전자에 대한 정보를 추출할 수도 있다. 예컨대, 분석 서버(130)는 Matured RNA, tRNA, rRNA 및 piRNA 중 적어도 하나의 타겟 유전자에 대한 정보를 추출할 수 있다. 이 경우 타겟 유전자 DB(152)는 서로 다른 유형의 RNA에 대한 복수의 DB로 구성될 수 있다. 물론 타겟 유전자 DB(152)는 서로 다른 유형의 RNA에 대한 정보를 모두 포함하는 하나의 DB일 수도 있다. 타겟 유전자의 유형이 상이하다면, 해당 유형을 식별하기 위한 별도의 식별자가 필요하다.
타겟 유전자 DB(152)는 연구기관이나 기업에서 서비스하는 상용 DB일 수 있다. 타겟 유전자 DB(152)는 상용 DB에 저장된 정보를 일정하게 가공한 정보를 보유할 수도 있다. 타겟 유전자 DB(152)는 복수의 상용 DB에 저장된 정보를 일정한 포맷으로 가공한 정보를 보유할 수도 있다. 타겟 유전자 DB(152)는 miRNA 식별자 및 해당 miRNA가 작용하는 타겟 유전자의 식별자를 포함한다. 타겟 유전자 DB(152)는 타겟 유전자의 심볼을 더 포함할 수 있다. 예컨대, 분석 서버(130)는 매칭 miRNA의 식별자를 기준으로 타겟 유전자를 추출할 수 있다.
이후 분석 서버(130)는 타겟 유전자를 기준으로 이후 추가적인 유전 정보를 추출할 수 있다.
분석 서버(130)는 타겟 유전자의 식별자(또는 심볼)를 기준으로 유전자 온톨로지 DB(153)에서 관련된 온톨로지 정보를 추출할 수 있다. 유전자 온톨로지(ontology)는 유전자를 분류하는 유전자 카테고리라고 할 수 있다. 이를 GO TERM 분석이라고도 한다. 유전자 온톨로지는 식별한 타겟 유전자의 생물학적 기능에 대한 정보를 포함한다. 유전자 온톨로지는 타겟 유전자가 특정 질병에 연관된다는 정보를 포함할 수도 있다.
유전자 온톨로지 DB(153)는 연구기관이나 기업에서 서비스하는 상용 DB일 수 있다. 유전자 온톨로지 DB(153)는 상용 DB에 저장된 정보를 일정하게 가공한 정보를 보유할 수도 있다. 유전자 온톨로지 DB(153)는 복수의 상용 DB에 저장된 정보를 일정한 포맷으로 가공한 정보를 보유할 수도 있다. 유전자 온톨로지 DB(153)는 miRNA 식별자 및 해당 miRNA에 대한 온톨로지의 식별자를 포함한다. 유전자 온톨로지 DB(153)는 동일한 온톨로지로 분로되는 다른 유전자, 해당 온톨로지가 관여하는 질병에 대한 정보를 더 포함할 수 있다.
분석 서버(130)는 타겟 유전자의 식별자(또는 심볼)를 기준으로 패스웨이 DB(153)에서 관련된 패스웨이 정보를 추출할 수 있다. 패스웨이(pathway) 정보는 해당 타겟 유전자가 관여하는 생물학적 패스웨이에 대한 정보이다. 타겟 유전자는 생물학적으로 특정한 기작에 관여한다. 패스웨이 정보는 타겟 유전자가 전체 기작에서 관여하는 특정한 경로(특정 지점)에 대한 정보를 의미한다.
패스웨이 DB(154)는 연구기관이나 기업에서 서비스하는 상용 DB일 수 있다. 패스웨이 DB(154)는 상용 DB에 저장된 정보를 일정하게 가공한 정보를 보유할 수도 있다. 패스웨이 DB(154)는 복수의 상용 DB에 저장된 정보를 일정한 포맷으로 가공한 정보를 보유할 수도 있다. 패스웨이 DB(154)는 miRNA 식별자 및 해당 miRNA가 관여하는 패스웨이의 식별자를 포함한다. 패스웨이 DB(154)는 miRNA가 관여하는 특정 패스웨이를 포함하는 기작 전체의 패스웨이에 대한 정보를 더 포함할 수 있다.
도 3은 분석 서버가 DB를 이용하여 유전자 정보를 추출하는 과정(200)에 대한 절차 흐름도이다.
분석 서버(130)는 클라이언트 장치(110)가 전처리한 타겟 서열 정보를 수신한다(201).
분석 서버(130)는 타겟 서열 정보를 기준으로 miRNA DB(151)에서 매칭되는 miRNA를 식별한다. 매칭 miRNA를 추출하는 과정에 대하여 설명한다.
(1) 분석 서버(130)는 타겟 서열 정보에 포함된 타겟 서열을 miRNA DB(151)에 쿼리한다(211). miRNA DB(151)는 수신한 쿼리에 매칭되는 miRNA 서열 정보를 분석 서버(130)에 전달한다. miRNA 서열 정보는 miRNA 식별자 또는 miRNA 심볼을 포함한다. miRNA 서열 정보는 식별한 miRNA의 서열 정보를 포함할 수도 있다. miRNA DB(151)는 mirBase와 같은 상용 데이터베이스일 수 있다. mirBase는 miRNA 이름과 시퀀스 정보를 테이블 형태로 보유하고 있다.
분석 서버(130)는 타겟 서열을 쿼리하면서 타겟 서열 전체를 그대로 쿼리할 수 있다. 이 경우 타겟 서열 전체와 매칭되는 miRNA를 검색하게 된다. miRNA DB(151)는 매칭율이 가장 높은 어느 하나의 miRNA를 응답 데이터로 송신할 수 있다.
다만 타겟 서열 전체를 기준으로 하면 매칭율이 낮아질 수 있다. NGS 분석 기법을 통한 서열 분석에 일정한 오류가 발생할 가능성이 있기 때문이다. 따라서 분석 서버(130)는 타겟 서열을 쿼리하면서 타겟 서열 중 일부를 제외하고 쿼리할 수 있다. miRNA DB(151)는 쿼리된 서열만을 기준으로 매칭되는 miRNA를 검색한다. 예컨대, 분석 서버(130)는 SELECT 문과 같은 MySQL 문을 이용하여 시퀀스 정보를 쿼리할 수 있는데 이때 와일드카드(*)를 사용할 수 있다. "SELECT(*ATTGGGAAA*)" 방식으로 쿼리할 수 있다. 이 경우 와일드카드에 해당하는 염기 서열은 어떠한 서열이라도 매칭된다고 판단된다. 다른 말로 하면 분석 서버(130)는 타겟 서열 중 와일드카드에 해당하는 염기 서열을 제외한 나머지 서열을 쿼리하는 것이다.
(2) 전술한 바와 같이 타겟 서열 정보는 복수의 타겟 서열을 포함할 수 있다. 이 경우 분석 서버(130)는 복수의 타겟 서열 각각을 쿼리할 수 있다. 이후 분석 서버(130)는 각 복수의 쿼리 결과를 수신한다.
분석 서버(130)는 miRNA DB(151)로부터 타겟 서열을 쿼리한 결과를 수신한다. 타겟 서열에 매칭되는 하나의 miRNA의 식별자가 수신되면, 분석 서버(130)는 타겟 서열은 수신한 miRNA에 매칭된다고 식별한다(221). 전술한 바와 같이 타겟 서열 정보는 복수의 타겟 서열을 포함할 수 있고, 이 경우 miRNA DB(151)는 각 타겟 서열에 대하여 매칭되는 miRNA 식별자를 송신할 수 있다(212). 분석 서버(130)는 복수의 miRNA 식별자를 수신하는 경우, 가장 개수가 많은 miRNA를 최종적인 miRNA로 식별할 수도 있다(221).
분석 서버(130)는 miRNA 식별자를 타겟 유전자 DB(152)에 쿼리한다(231). 타겟 유전자 DB(152)는 miRNA 식별자를 기준으로 해당 miRNA가 작용하는 타겟 유전자를 검색하고, 검색된 타겟 유전자 정보를 송신한다(232). 분석 서버(130)는 수신한 타겟 유전자 정보를 기준으로 매칭 miRNA에 대한 타겟 유전자를 식별한다(241). 전술한 바와 같이 타겟 유전자는 해당 miRNA가 기작에 관여하는 적어도 하나의 mRNA 등에 해당한다.
분석 서버(130)는 타겟 유전자 식별자를 유전자 온톨로지 DB(153)에 쿼리한다(251). 유전자 온톨로지 DB(153)는 타겟 유전자 식별자를 기준으로 유전자 온톨로지 정보를 검색하고, 해당 타겟 유전자에 대한 유전자 온톨로지 정보를 송신한다(252). 분석 서버(130)는 수신한 온톨로지 정보를 기준으로 타겟 유전자에 대한 온톨로지 정보를 식별한다(261). 전술한 바와 같이 온톨로지 정보는 타겟 유전자의 기능적 분류, 관련된 다른 유전자, 관련된 질병 등에 대한 정보를 포함할 수 있다.
분석 서버(130)는 타겟 유전자 식별자를 유전자 패스웨이 DB(154)에 쿼리한다(271). 패스웨이 DB(154)는 타겟 유전자식별자를 기준으로 패스 웨이 정보를 검색하고, 해당 타겟 유전자에 대한 패스웨이 정보를 송신한다(272). 분석 서버(130)는 수신한 패스웨이 정보를 기준으로 타겟 유전자에 대한 패스웨이 정보를 식별한다(281).
도 4는 분석 서버가 타겟 유전자를 식별하는 과정에 대한 예이다. 도 4(A)는 하나의 miRNA DB를 사용하는 경우이다. miRNA DB는 수신한 타겟 서열을 기준으로 자신이 보유한 miRNA의 서열과 비교하면서 매칭되는 miRNA를 검색한다. 도 4(A)는 검색한 결과에 해당하고, miRNA 1, miRNA 2 및 miRNA 3에 대한 매칭율을 도시한다. miRNA DB는 타겟 서열에 대하여 매칭율이 가장 높은 miRNA 1을 최종 결과로 출력할 수 있다.
도 4(B)는 두 개의 miRNA DB를 사용하는 경우이다. miRNA DB 1 및 miRNA DB2는 각각 수신한 타겟 서열을 기준으로 자신이 보유한 miRNA의 서열과 비교하면서 매칭되는 miRNA를 검색한다. 도 4(B)는 검색한 결과에 해당하고, miRNA 1, miRNA 2 및 miRNA 3에 대한 매칭율을 도시한다. miRNA DB 1는 타겟 서열에 대하여 매칭율이 가장 높은 miRNA 1을 최종 결과로 출력할 수 있다. miRNA DB 2도 타겟 서열에 대하여 매칭율이 가장 높은 miRNA 1을 최종 결과로 출력할 수 있다. 분석 서버(130)는 복수의 miRNA DB로부터 수신한 결과를 종합하여 최종적으로 타겟 서열에 매칭하는 miRNA를 결정할 수 있다.
복수의 miRNA DB로부터 수신한 결과가 서로 상이하다면, (1) 분석 서버(130)는 복수의 결과 중 매칭율이 상대적으로 높은 miRNA를 최종적인 miRNA로 식별하고, 이후 분석 과정을 수행할 수 있다. 또는 (2) 분석 서버(130)는 클라이언트 장치(110)에 분석 실패 메시지를 전송할 수 있다.
분석 서버(130)는 타겟 서열과 miRNA의 매칭율과 같은 부가 정보를 클라이언트 장치(110)에 제공할 수 있다.
도 5는 분석 서버가 추출한 유전자 정보에 대한 예이다. 도 5(A)는 miRNA로 식별한 타겟 유전자에 관한 정보의 예이다. 도 5(A)는 타겟 유전자를 식별한 miRNA 소스 DB(Source DB), 타겟 유전자의 심볼(Symbol) 및 타겟 유전자의 서열(Sequence)을 도시한다.
분석 서버(130)는 타겟 유전자에 관련된 정보를 클라이언트 장치(110)에 전송할 수 있다. 여기서 관련된 정보는 타겟 유전자 식별자, 타겟 유전자 심볼, 타겟 유전자 서열 등을 포함한다. 클라이언트 장치(110)는 타겟 유전자(Matured RNA, tRNA, rRNA, piRNA 등)의 종류, 타겟 유전자의 서열 등에 대한 정보를 출력할 수 있다.
나아가 분석 서버(130)는 매칭된 결과에 따라 유효한 타겟(Validation Target) 또는 예측되는 타겟(Prediction Target)으로 구분하여 정보를 제공할 수 있다. 한편 분석 서버(130)는 타겟 유전자에 대한 부가적인 정보를 클라이언트 장치(110)에 제공할 수 있다. 부가적인 정보는 매칭 miRNA의 타겟 유전자에 대한 결합력, 결합 정도를 나타내는 점수 등을 포함할 수 있다.
유전자 발현 패턴을 분석하면 특정 컨디션에서 높은 발현을 보이는 DEGs(Differentially Expressed Genes)를 얻을 수 있다. 즉 특정 유전자의 발현이 다른 유전자 발현에 미치는 영향을 분석할 수 있다. 이러한 결과를 토대로 유전자 온톨로지 정보를 마련할 수 있다. 유전자 온톨리지(Gene Ontology, GO)와 같이 유기체 내의 모든 유전자를 카테고리화하여 유전자 구성이 어떻게 되는지를 분석하는 것은 유전자의 기능 분석 방법 중 하나이다.
도 5(B)는 타겟 유전자로 식별되는 유전자 온톨로지 정보에 대한 예이다. 도 5(B)는 타겟 유전자(Target gene), 타겟 유전자의 온톨로지 도메인(Domain) 및 관련 질병(Disease)을 도시한다. 예컨대, 특정 유전자들이 세포 자멸 과정(apoptotic process)과 관련 있다면, 특정 유전자의 기능은 세포 자멸이라고 분류할 수 있다. 나아가 도메인은 유전자 기능을 보다 포괄적으로 분류한 범주이다. 예컨대, 도메인은 CC(cellular component), MF(molecular function), BP(biological process) 등으로 구분될 수 있다. 질병은 해당 유전자의 기능이 관여하는 특정 질환에 해당한다. 도 5(B)는 Gene 1은 직장암(Colorectal Cancer), Gene2 및 Gene 3은 유방암(Breast Cancer)에 관련된다고 도시한다.
도 5(C)는 타겟 유전자로 식별되는 유전자 온톨로지 정보에 대한 다른 예이다. 도 5(C)는 타겟 유전자(Target gene), 유전자 온톨로지(Go Term) 및 P 값(P- Value)을 도시한다. 유전자 온톨로지는 해당 유전자의 기능에 대한 정보를 나타낸다. P값은 특정 유전자의 온톨로지를 결정하는 과정에 사용되는 기준 중 하나이다. 도 5(C) 상단에는 원형 그래프로 유전자와 유전자의 온톨로지를 시각적으로 표현한 예를 도시한다.
도 6은 분석 서버가 추출한 유전자 정보에 대한 다른 예이다. 도 6은 타겟 유전자로 식별되는 패스웨이 정보를 출력하는 예이다. 예컨대, 도 6은 클라이언트 장치(110)가 출력하는 화면 및 인터페이스에 해당할 수 있다. 도 6에서 A 영역은 패스웨이의 종류를 출력한다. 도 6에서 B 영역은 관련된 전체 기작을 트리 형태로 출력한다. B 영역에서 트리의 노드에 해당하는 사각형 박스는 특정 기작에 해당한다. 에지(edge, 실선으로 표시)로 연결되는 노드들은 서로 관련된 기작에 해당한다. 도 6에서 C 영역은 특정 타겟 유전자를 표시하거나, 특정 타겟 유전자를 입력하는 인터페이스에 해당한다. 예컨대, 특정 타겟 유전자를 입력한다면, A 영역은 관련된 패스웨이를 점선 박스로 표시하고, B 영역은 특정 타겟 유전자가 관여하는 기작은 굵은 실선과 점선 박스로 표시할 수 있다.
도 7은 분석 서버(130)의 구조를 도시한 예이다. 분석 서버(130)는 연산장치(131), 저장장치(132) 및 통신장치(133)를 포함한다.
저장장치(132)는 전술한 miRNA 데이터를 분석을 위한 프로그램을 저장한다. 저장장치(132)는 분석 서버(130)에 연결된 하드디스크, 플래시 메모리 등일 수 있다. 저장장치(132)는 클라이언트 장치로부터 수신한 타겟 서열 정보, 각종 DB로부터 수신한 쿼리 결과 등도 저장할 수 있다.
연산 장치(131)는 저장장치(132)에 저장된 프로그램을 실행하여 수신한 타겟 서열 정보를 쿼리하여, 매칭 miRNA를 식별한다. 연산 장치(131)는 매칭 miRNA를 기준으로 타겟 유전자를 식별한다. 또 연산 장치(131)는 타겟 유전자를 기준으로 유전자 온톨로지 내지 패스웨이를 식별한다. 각 과정은 전술한 바와 같다.
통신장치(133)는 클라이언트 장치(110)로부터 타겟 서열 정보를 수신한다. 또 통신 장치(133)은 각종 DB로부터 쿼리 결과 및 결과와 관련된 정보를 수신한다. 나아가 통신 장치(133)는 쿼리 결과, 쿼리 결과를 분석한 결과, 각종 부가 정보를 클라이언트 장치(110)에 송신할 수 있다.
또한, 상술한 바와 같은 분석 서버에서 miRNA 데이터를 분석하는 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
50 : NGS 분석 장치
100 : miRNA 분석 시스템
110 : 클라이언트 장치
110A, 110B, 110C : 클라이언트 장치
130 : 분석 서버
131 : 연산 장치
132 : 저장 장치
133 : 통신 장치
150 : 유전 정보 DB
151 : miRNA DB
152 : 타겟 유전자 DB
153 : 유전자 온톨로지 DB
154 : 패스웨이 DB

Claims (8)

  1. 분석 서버가 클라이언트 장치로부터 유전자 서열 정보를 수신하는 단계;
    상기 분석 서버가 상기 유전자 서열 정보를 miRNA DB에 저장된 서열 정보와 비교하면서 매칭되는 타겟 miRNA를 식별하는 단계;
    상기 분석 서버가 타겟 miRNA의 정보를 기준으로 타겟 유전자 DB에 저장된 타겟 유전자 중 적어도 하나의 타겟 유전자를 식별하는 단계; 및
    상기 분석 서버가 상기 적어도 하나의 타겟 유전자를 기준으로 다른 DB에 저장된 유전자 온톨로지 정보 또는 패스웨이 정보 중 적어도 하나를 식별하는 단계를 포함하되, 상기 유전자 서열 정보는 NGS 분석 데이터에서 서열을 중복 횟수를 기준으로 선정된 서열인 분석 서버에서 miRNA 데이터를 분석하는 방법.
  2. 제1항에 있어서,
    상기 유전자 서열 정보는 클라이언트 장치가 동일한 서열의 중복 개수를 기준으로 상위 사분위(upper quartile) 정규화 기법으로 정규화한 정보를 포함하는 분석 서버에서 miRNA 데이터를 분석하는 방법.
  3. 제1항에 있어서,
    상기 분석 서버는 상기 유전자 서열 정보에 포함된 타겟 유전자 서열을 기준으로 상기 miRNA DB에 저장된 서열에서 매칭율이 가장 높은 miRNA를 상기 타겟 miRNA로 식별하는 분석 서버에서 miRNA 데이터를 분석하는 방법.
  4. 제1항에 있어서,
    상기 분석 서버는 상기 유전자 서열 정보에 포함된 타겟 유전자 서열 중 적어도 하나의 염기 서열을 제외하고 상기 miRNA DB에 저장된 서열에서 매칭율이 가장 높은 miRNA를 상기 타겟 miRNA로 식별하는 분석 서버에서 miRNA 데이터를 분석하는 방법.
  5. 제1항에 있어서,
    상기 분석 서버는 상기 miRNA DB에 상기 유전자 서열 정보에 포함된 타겟 유전자 서열 중 적어도 하나의 염기 서열을 와일드 카드로 두는 쿼리 명령을 전달하는 분석 서버에서 miRNA 데이터를 분석하는 방법.
  6. 제1항에 있어서,
    상기 miRNA DB는 복수의 miRNA 각각에 대하여 miRNA 식별자, 심볼 및 유전자 서열 항목으로 구성되는 분석 서버에서 miRNA 데이터를 분석하는 방법.
  7. 제1항에 있어서,
    상기 분석 서버는 상기 타겟 유전자의 식별자를 기준으로 온톨로지 DB에서 상기 타겟 유전자의 생물학적 기능, 상기 타겟 유전자와 관련된 다른 유전자 및 상기 타겟 유전자가 관여하는 질병 중 적어도 하나를 포함하는 상기 유전자 온톨로지 정보를 식별하는 분석 서버에서 miRNA 데이터를 분석하는 방법.
  8. 제1항에 있어서,
    상기 분석 서버는 상기 타겟 유전자의 식별자를 기준으로 패스웨이 DB에서 상기 타겟 유전자와 관련된 패스웨이를 식별하고, 상기 관련된 패스웨이의 식별자 및 특정 전체 패스웨이에서 상기 관련된 패스웨이가 작용하는 부분 중 적어도 하나를 포함하는 상기 패스웨이 정보를 식별하는 분석 서버에서 miRNA 데이터를 분석하는 방법.
KR1020170170294A 2017-12-12 2017-12-12 분석 서버에서 miRNA 데이터를 분석하는 방법 KR20190069929A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170170294A KR20190069929A (ko) 2017-12-12 2017-12-12 분석 서버에서 miRNA 데이터를 분석하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170170294A KR20190069929A (ko) 2017-12-12 2017-12-12 분석 서버에서 miRNA 데이터를 분석하는 방법

Publications (1)

Publication Number Publication Date
KR20190069929A true KR20190069929A (ko) 2019-06-20

Family

ID=67103573

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170170294A KR20190069929A (ko) 2017-12-12 2017-12-12 분석 서버에서 miRNA 데이터를 분석하는 방법

Country Status (1)

Country Link
KR (1) KR20190069929A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080571A1 (ko) * 2021-11-08 2023-05-11 주식회사 씨젠 타겟 분석물을 검출하기 위한 서열 식별자를 선정하는 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177792A1 (en) 2014-03-24 2017-06-22 Life Technologies Corporation Methods and systems for knowledge discovery using biological data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177792A1 (en) 2014-03-24 2017-06-22 Life Technologies Corporation Methods and systems for knowledge discovery using biological data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080571A1 (ko) * 2021-11-08 2023-05-11 주식회사 씨젠 타겟 분석물을 검출하기 위한 서열 식별자를 선정하는 방법

Similar Documents

Publication Publication Date Title
Zhang et al. Understanding UCEs: a comprehensive primer on using ultraconserved elements for arthropod phylogenomics
US11954614B2 (en) Systems and methods for visualizing a pattern in a dataset
US8271206B2 (en) DNA sequence assembly methods of short reads
US10114922B2 (en) Identifying ancestral relationships using a continuous stream of input
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
Grover et al. Searching microsatellites in DNA sequences: approaches used and tools developed
Gratton et al. Testing classical species properties with contemporary data: how “bad species” in the brassy ringlets (Erebia tyndarus complex, Lepidoptera) turned good
US20190177719A1 (en) Method and System for Generating and Comparing Reduced Genome Data Sets
US20200395095A1 (en) Method and system for generating and comparing genotypes
Chen et al. Gene ontology based housekeeping gene selection for RNA-seq normalization
Xiao et al. Modified screening and ranking algorithm for copy number variation detection
Xu et al. Cell type-specific analysis of human brain transcriptome data to predict alterations in cellular composition
Genovese et al. Dot2dot: accurate whole-genome tandem repeats discovery
Tárraga et al. A parallel and sensitive software tool for methylation analysis on multicore platforms
Morisse et al. LEVIATHAN: efficient discovery of large structural variants by leveraging long-range information from Linked-Reads data
KR20190069929A (ko) 분석 서버에서 miRNA 데이터를 분석하는 방법
CN116959562A (zh) 一种识别疾病表型相关的细胞亚群的方法
Krasnitz et al. Target inference from collections of genomic intervals
Young et al. DNA barcodes enable higher taxonomic assignments in the Acari
Zhang et al. Pathway-based feature selection algorithms identify genes discriminating patients with multiple sclerosis apart from controls
KR102110017B1 (ko) 분산 처리에 기반한 miRNA 분석 시스템
CN103310128A (zh) 考虑种子片段的长度的碱基序列处理系统及方法
Seol et al. A multilayered screening method for the identification of regulatory genes in rice by agronomic traits
KR102603707B1 (ko) 마커 및 컨텐츠 자동화 전산 시스템 및 이의 운영 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
E601 Decision to refuse application
E801 Decision on dismissal of amendment