KR102217272B1 - 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법 - Google Patents

유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법 Download PDF

Info

Publication number
KR102217272B1
KR102217272B1 KR1020180062819A KR20180062819A KR102217272B1 KR 102217272 B1 KR102217272 B1 KR 102217272B1 KR 1020180062819 A KR1020180062819 A KR 1020180062819A KR 20180062819 A KR20180062819 A KR 20180062819A KR 102217272 B1 KR102217272 B1 KR 102217272B1
Authority
KR
South Korea
Prior art keywords
disease
biomarker
sample
nucleotide sequence
samples
Prior art date
Application number
KR1020180062819A
Other languages
English (en)
Other versions
KR20190136733A (ko
Inventor
조동호
서혜인
한규범
송용준
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180062819A priority Critical patent/KR102217272B1/ko
Publication of KR20190136733A publication Critical patent/KR20190136733A/ko
Application granted granted Critical
Publication of KR102217272B1 publication Critical patent/KR102217272B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 전장유전체에서 발생한 염기서열 변이 정보 분석에 기반한 질병 특이적 바이오마커 도출 방법으로 유전자 부분뿐만 아니라 비유전자 부분에서 발생한 염기서열 정보를 활용하여 질병의 종류에 제한받지 않고 여러 종류의 질병마다 그에 적합한 바이오마커를 도출할 수 있고, 다양한 바이오마커 조합도 제공할 수 있다.

Description

유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법{Extracting method of disease diagnosis biomarkers using mutation information in whole genome sequence}
본 발명은 질병 환자 및 정상인의 유전체에서 발생하는 염기서열 변이 정보를 분석하여 질병 진단을 위한 바이오마커를 추출하는 기술이다.
생명체의 유전체에 포함된 정보는 선천적인 정보와 다양한 요인에 의해 발생하는 후천적인 정보가 담겨져 있다.
질병과 관련된 유전체 정보를 분석하는 대부분의 연구는 유전체에 담긴 유전자 중심의 연구로서 유전자 중심의 연구는 유전체 전체에 대한 정보중 약 1.2% 정도만을 분석하는 정도에 불과하다. 유전자 중심의 기술로 한국공개특허 제10-2017-0127774호에서 유전체 DNA에서 유전자의 결실 여부를 확인하여 유방암 예후를 진단하는 방법이나, 한국공개특허 제10-2015-0024231호에서 대립유전자에서 발생하는 변이 정보 등을 이용해 바이오마커를 발굴하는 방법 등이 있다.
유전자 중심의 연구는 유전자 변이 정보를 통해 수많은 질병들의 발병 원인을 분석하고 질병을 유전자 수준에서 치료할 수 있는 연구이나, 유전자 중심의 연구만으로는 질병들에서 발생하는 현상을 명확히 설명하는데 한계가 있을 수 있다.
최근에는 유전자 중심의 연구에서 벗어나 유전체의 대부분을 차지하는 비유전체 부분도 함께 분석하여 유전체 전체에서 발생하는 변이와 질병간의 관계를 밝히는 연구가 활발하게 진행되고 있다.
그러나 유전체의 비유전자 부분은 유전자 부분에 비해 유전 정보가 광범위하여 유전자 및 비유전자 부분을 포함하는 유전체 전체 정보와 질병간의 상관관계를 밝히기 위한 새로운 정보 분석 방법이 필요하다.
한국공개특허 제10-2017-0127774호 한국공개특허 제10-2015-0024231호
본 발명은 비유전자 부분을 포함한 전체 유전체 서열(whole genome sequecing)의 변이 정보를 분석하여 질병을 진단하는데 사용할 수 있는 바이오마커를 추출하는 방법을 제공한다.
본 발명은 1) 질병 샘플 및 정상 샘플의 전체 유전체 시퀀스(whole genome sequence) 정보를 확보하는 단계, 2) 전체 유전체 시퀀스 정보를 참조 유전체 서열과 비교하여 질병 샘플 및 정상 샘플의 염기서열 변이 정보를 획득하는 단계, 3) 질병 샘플 및 정상 샘플을 바이오마커 추출 샘플 그룹과 바이오마커 테스트 샘플 그룹으로 분리하는 단계, 4) 바이오마커 추출 샘플 그룹에서 하기 4-1) 내지 4-3) 단계에 따라 질병 진단 후보 바이오마커를 선정하는 단계, 4-1) 바이오마커 추출 샘플 그룹을 M개의 그룹으로 나누고 M개의 그룹 중 임의로 하나의 그룹을 선택하여 제1 바이오마커 추출 샘플 그룹으로 선정하고 나머지 M-1개의 그룹을 제2 내지 제M 바이오마커 검증 샘플 그룹으로 구분하는 단계, 4-2) 2)에서 얻은 염기서열 변이들의 유무를 기준으로 제1 바이오마커 추출 샘플 그룹에 포함된 질병 샘플 및 정상 샘플에서 대하여 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 도출하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 도출하는 단계, 4-3) 4-2)에서 도출한 특정 수준의 정확도를 만족하는 염기서열 변이들 전체에 대하여 각각의 염기서열 변이 유무를 기준으로 제2 내지 제M 바이오마커 검증 샘플 그룹 각각에 포함된 질병 샘플 및 정상 샘플을 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 도출하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 바이오마커 후보 염기서열 변이 그룹으로 선정하는 단계, 4-4) 4-1) 내지 4-3)의 단계를 반복하고 각 반복 회차마다 선정된 바이오마커 후보 염기서열 변이 그룹에 포함된 염기서열 변이들 전체를 질병 진단 후보 바이오마커로 선정하는 단계 및 5) 4)에서 선정한 질병 진단 후보 바이오마커에 포함된 염기서열 변이 유무를 기준으로 3)의 바이오마커 테스트 샘플 그룹에 포함된 질병 샘플 및 정상 샘플을 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 검증하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 최종 질병 진단 바이오마커로 선정하는 단계를 포함하는 바이오마커 추출 방법을 제공한다.
본 발명의 바이오마커 추출 방법은 비유전자 부분을 포함하는 전체 유전체에 발생한 변이 정보를 분석하여 유전자 부분뿐만 아니라 비유전자 부분에서 발생한 질병 특이적인 변이 정보를 제공할 수 있고, 이를 질병 진단을 위한 바이오마커로 활용할 수 있다.
그리고 본 발명에서 제공하는 질병 특이적인 변이 정보는 그 양과 종류가 다양하여 변이 정보와 질병의 복잡한 관계를 규명하는데 활용할 수 있다.
또한 본 발명에서 제공하는 질병 특이적인 변이 정보는 그 양과 종류가 다양하여 높은 정확도를 가지고 신속한 질병 진단이 가능한 바이오마커 조합을 제공할 수 있고, 바이오마커인 질병 특이적인 변이 정보의 조합을 유연하게 변경할 수 있다.
도 1은 본 발명의 바이오마커 추출 방법의 전체 개념도이다.
도 2는 본 발명의 바이오마커 추출 방법에서 러닝 기반의 질병 진단 후보 바이오마커를 선정하는 과정을 보여준다.
도 3은 질병 진단 후보 바이오마커에 포함되는 염기서열 변이들의 라이브러리 구축 과정을 보여준다.
도 4는 질병 진단 후보 바이오마커로 선정된 염기서열 변이들 중 바이오마커 추출 샘플 그룹에 포함된 정상 샘플과 질병 샘플을 100%의 정확도로 구분할 수 있는 염기서열 변이들의 조합을 보여준다. (A)는 최소 개수의 염기서열 변이들의 조합으로 정상 샘플 및 질병 샘플을 구분하는 염기서열 변이의 개수는 4.5개이다. (B)는 정상 샘플에서 나타나는 최대 염기서열 변이 개수와 질병 샘플에서 나타나는 최소 염기서열 변이 개수의 차이를 최대화 할 수 있는 염기서열 변이의 조합으로 정상 샘플에서 나타나는 최대 염기서열 변이 개수와 질병 샘플에서 나타나는 최소 염기서열 변이 개수의 중간값인 약 25~26을 기준으로 질병 샘플과 정상 샘플을 구분할 수 있다.
도 5는 전체 샘플에서 러닝 기법의 반복을 통한 질병 진단 후보 바이오마커를 선정하는 단계 및 질병 진단 후보 바이오마커를 이용하여 바이오마커 테스트 샘플 그룹에서 블라인드 스크리닝을 하여 최종 질병 진단 바이오마커를 선정하는 단계를 대략적으로 보여준다.
도 6은 급성 골수성 백혈병에 대한 바이오마커 도출 과정에서 러닝 기법의 반복을 통해 선정한 질병 진단 후보 바이오마커에 포함된 염기서열 변이들의 라이브러리 일부를 보여준다.
도 7은 급성 골수성 백혈병에 대한 바이오마커 도출 과정에서 러닝 기법의 반복을 통해 선정한 252개의 질병 진단 후보 바이오마커에 포함된 염기서열 변이들 중 바이오마커 추출 샘플 그룹에 포함된 정상 샘플과 질병 샘플을 100%의 정확도로 구분할 수 있는 염기서열 변이들의 조합과, 조합에 따라 질병 샘플 및 정상 샘플을 구분하는 기준을 보여준다. (A)는 최소 개수의 염기서열 변이들의 조합인 12개의 염기변이가 조합된 경우이고, (B)는 정상 샘플에서 나타나는 최대 염기서열 변이 개수와 질병 샘플에서 나타나는 최소 염기서열 변이 개수의 차이를 최대화 할 수 있는 염기서열 변이의 조합인 66개의 염기서변이가 조합된 경우이다.
도 8은 급성 골수성 백혈병에 대한 바이오마커 도출 과정에서 러닝 기법의 반복을 통해 선정한 252개의 질병 진단 후보 바이오마커에 포함된 염기서열 변이들 중 바이오마커 추출 샘플 그룹에 포함된 정상 샘플과 질병 샘플을 100%의 정확도로 구분할 수 있는 염기서열 변이들의 조합을 사용하여 바이오마커 테스트 샘플 그룹에 대한 검증 결과를 보여준다. 도 8의 결과는 최소 개수의 염기서열 변이들의 조합인 12개의 염기변이들로 바이오마커 테스트 샘플 그룹에 대하여 검증한 결과이다.
이하에서 본 발명에 대하여 구체적으로 설명한다. 본 명세서에서 사용되는 용어는 따로 정의하지 않는 경우 해당 분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 내용으로 해석되어야 할 것이다. 본 명세서의 도면 및 실시예는 통상의 기술자가 본 발명을 쉽게 이해하고 실시하기 위한 것으로 도면 및 실시예에서 발명의 요지를 흐릴 수 있는 내용은 생략될 수 있으며, 본 발명이 도면 및 실시예로 한정되는 것은 아니다.
본 발명은 유전체의 변이 정보 분석에 기반한 질병 특이적 바이오마커를 추출하는 방법에 관한 발명이다.
본 발명은 질병 샘플과 정상 샘플의 전체 유전체 시퀀싱(whole genome sequencing) 정보를 비교 분석하고, 유전체에서 발생한 변이 정보가 특정 질병을 진단하는데 적합한 바이오마커인지 판별하여 질병 진단에 사용할 수 있는 변이 정보 및 이들의 조합을 바이오마커로서 제공할 수 있다.
본 발명에서 질병 특이적인 변이 정보를 추출하기 위해 방대한 양의 유전체 정보 분석 처리에 적합한 빅테이터 처리 기술 등 정보통신기술을 사용할 수 있다. 그리고 본 발명에서 수행되는 유전체 정보의 저장, 해석, 분석 및 판별은 컴퓨터와 같은 연산처리수단에 의해 실행되는 프로그램에 의해 수행될 수 있다.
본 발명에 따른 바이오마커 추출 방법은 다음과 같은 단계에 따라 진행될 수 있다(도 1 참조). 질병 및 정상 샘플(시료)에 대한 전장유전체(총유전체) 염기서열에서 변이 정보를 확보하고, 러닝 기법에 기반한 질병 진단 바이오마커 후보 변이를 선정한 후 질병 진단 바이오마커 후보 변이들의 라이브러리를 구축한다. 진단 바이오마커 후보 변이들의 라이브러리를 이용하여 질병 진단 바이오마커를 선정하고 검증을 통해 최종적으로 바이오마커를 추출하게 된다.
본 발명에서 러닝 기법이란 전체 그룹에 속하는 일부 그룹에서 바이오마커 후보를 추출하고 일부 그룹에서 추출한 바이오마커를 나머지 그룹에서 그 성능을 확인하고, 그 결과를 기반으로 최종 바이오마커 후보를 학습하여 선정하는 일련의 과정을 의미한다.
이하에서 보다 구체적으로 본 발명의 바이오마커 추출 방법에 대하여 설명한다.
본 발명의 각 단계에서 질병 샘플과 정상 샘플은 한 쌍으로 그룹화할 수 있고, 한 쌍에 속하는 질병 샘플과 정상 샘플의 개수는 동일한 것이 바람직하나 이에 제한되는 것은 아니다.
본 발명의 바이오마커 추출 방법은 1) 질병 샘플 및 정상 샘플의 전체 유전체 시퀀스(whole genome sequence) 정보를 확보하는 단계, 2) 전체 유전체 시퀀스 정보를 참조 유전체 서열과 비교하여 질병 샘플 및 정상 샘플의 염기서열 변이 정보를 획득하는 단계, 3) 질병 샘플 및 정상 샘플을 바이오마커 추출 샘플 그룹과 바이오마커 테스트 샘플 그룹으로 분리하는 단계, 4) 바이오마커 추출 샘플 그룹에서 하기 4-1) 내지 4-3) 단계에 따라 질병 진단 후보 바이오마커를 선정하는 단계, 4-1) 바이오마커 추출 샘플 그룹을 M개의 그룹으로 나누고 M개의 그룹 중 임의로 하나의 그룹을 선택하여 제1 바이오마커 추출 샘플 그룹으로 선정하고 나머지 M-1개의 그룹을 제2 내지 제M 바이오마커 검증 샘플 그룹으로 구분하는 단계, 4-2) 상기 2)에서 얻은 염기서열 변이들의 유무를 기준으로 제1 바이오마커 추출 샘플 그룹에 포함된 질병 샘플 및 정상 샘플에서 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 도출하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 도출하는 단계, 4-3) 4-2)에서 도출한 특정 수준의 정확도를 만족하는 염기서열 변이들 전체에 대하여 각각의 염기서열 변이 유무를 기준으로 제2 내지 제M 바이오마커 추출 샘플 그룹 각각에 포함된 질병 샘플 및 정상 샘플을 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 도출하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 바이오마커 후보 염기서열 변이 그룹으로 선정하는 단계, 4-4) 4-1) 내지 4-3)의 단계를 반복하고 각 반복 회차마다 선정된 바이오마커 후보 염기서열 변이 그룹에 포함된 염기서열 변이들 전체를 질병 진단 후보 바이오마커로 선정하는 단계 및 5) 4)에서 선정한 질병 진단 후보 바이오마커에 포함된 염기서열 변이 유무를 기준으로 3)의 바이오마커 테스트 샘플 그룹에 포함된 질병 샘플 및 정상 샘플을 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 검증하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 최종 질병 진단 바이오마커로 선정하는 단계에 따라 수행될 수 있다.
이하에 각 단계에 대하여 자세히 설명한다.
질병 샘플 및 정상 샘플의 전체 유전체 시퀀싱 정보를 확보하는 단계에 대하여 자세히 설명한다.
질병 샘플 및 정상 샘플의 전체 유전체 시퀀싱 정보를 확보하는 단계는 단백질 정보 등이 없는 비암호화(noncoding) 영역인 비유전자 부분 및 유전자 부분 전체에 대한 시퀀싱 정보를 공지의 유전정보 데이터베이스로부터 얻을 수 있다. 예를 들어 NIH(National Institutes of Health)의 TCGA(The Cancer Genome Atlas)에서 인증하여 각 질병 별로 제공하는 전체 유전체 염기서열 정보를 통해서 얻을 수 있다. 그리고, 병원 또는 직접 채취한 실제 환자의 샘플을 시퀀싱 업체에 의뢰하여 샘플의 전체 유전체 시퀀싱 정보를 얻을 수 있다. 또는 필요에 따라, 유전자 내의 단백질을 합성하는데 직접적인 역할을 하는 엑솜집합에 대하여 시퀀싱된 정보(Whole exome sequence)를 얻어 이용할 수도 있다. 샘플의 유래는 조직, 혈액 또는 골수가 바람직하나 이에 제한되는 것은 아니다.
전체 유전체 시퀀싱 정보를 얻을 때 인간 게놈 프로젝트로부터 밝혀진 인간 게놈 지도 정보를 기준으로 하는 것이 바람직하다.
질병 샘플 및 정상 샘플의 전체 유전체 시퀀싱 정보는 본 발명에 따른 질병마커 특이적 바이오마커 추출 방법에서 기초가 되는 정보로서, 전체 유전체 시퀀싱 정보에 포함된 샘플들의 유전체 변이 차이를 기반으로 이 후 단계를 진행하게 된다.
전체 유전체 시퀀싱 정보에 포함된 정보 중 특히 염기서열 변이와 각각의 샘플(시료)의 전체 유전체 시퀀싱 정보에서 염기서열 변이의 발생 유무 판별에 대한 정보는 바이오마커 추출에서 중요한 정보로 활용될 수 있다.
전체 유전체 시퀀싱 정보에 포함된 정보의 분석은 정보 분석에 이용하는 프로그램 및 이를 실행하는 연산처리장치에 따라 정보의 가감이 이루어질 수 있다.
전체 유전체 시퀀스 정보를 참조 유전체 서열(reference genome sequence)과 비교하여 질병 샘플 및 정상 샘플의 염기서열 변이 정보를 획득하는 단계에 대하여 자세히 설명한다.
전체 유전체 시퀀스 정보를 참조 유전체 서열(reference genome sequence)과 비교 및/또는 대조하여 질병 샘플 및 정상 샘플의 염기서열 변이 정보를 획득하는 단계에서는 질병 샘플 및 정상 샘플들의 유전체에 포함된 특정 변이에 대한 정보를 얻을 수 있다.
참조 유전체 서열 정보는 공지의 데이터베이스에서 제공되는 인간 게놈 프로젝트로부터 얻은 인간 게놈 지도 정보로부터 얻을 수 있고, 기본적으로 염색체, 염색체 내 염기서열의 위치 및 염기서열 정보를 포함한다.
질병 샘플 및 정상 샘플의 전체 유전체 시퀀싱 정보와 참조 유전체 서열 정보의 분석을 통해 질병 샘플 및 정상 샘플의 유전체 내에서 일어난 염기서열 변이의 종류, 염기서열 변이가 일어난 염색체 정보, 염기서열 변이가 일어난 위치정보 및 염기서열 변이의 빈도 정보를 포함한 다양한 정보를 얻을 수 있다. 이렇게 얻은 질병 샘플 및 정상 샘플의 염기서열 변이 정보를 라이브러리화하여 이 후 수행되는 단계에 활용할 수 있다.
참조 유전체 서열을 기준으로 질병 샘플 및 정상 샘플에서 발생한 염기서열 변이에 대한 정보 중 질병 샘플 및 정상 샘플에서 공통으로 발생한 염기서열 변이에 대한 정보는 바이오마커 추출 과정에서 제외할 수 있다. 질병 샘플 및 정상 샘플 모두에서 공통으로 발생한 염기서열 변이의 판별은 질병 샘플 및 정상 샘플의 총 수에 따라 소정의 기준을 정하여 수행할 수도 있다.
본 발명의 바이오마커 추출에 사용되는 질병 샘플 및 정상 샘플의 수가 증가할수록 모든 샘플에서 발생한 염기서열 변이는 실질적으로 거의 없을 수 있기 때문에 소정의 기준을 정할 필요가 있고, 그 기준이 지나치게 높거나 낮은 경우 주요 바이오마커에 해당하는 염기서열 변이를 임의로 제외할 가능성도 존재할 수 있다.
이러한 공통으로 발생한 염기서열 변이는 질병의 발병에 의해 나타나는 것이 아닐 가능성이 높으므로 이러한 염기서열 변이의 제외에 의해 본 발명의 방법에 따라 추출된 바이오마커의 신뢰도와 정확도를 높일 수 있다. 질병 샘플 및 정상 샘플에서 공통으로 발생한 염기서열 변이는 이 후 이어지는 단계에서 지속적으로 제외될 수 있다.
염기서열 변이의 종류는 비유전자 영역 및 유전자 영역을 구분하지 않고 나타날 수 있는 변이로서, 단일염기다형성(Single Nucleotide Polymorphism), 유전자 복제 수 변이(Copy Number Variation), 염기 삽입(Insertion), 염기 결실(Deletion), 염기 중복(Repetition) 및 염기 역위(Inversion)로 이루어지는 군에서 선택되는 하나 이상에 의해 발생하는 변이가 바람직하나 이에 제한되는 것은 아니다.
질병 샘플 및 정상 샘플을 바이오마커 추출 샘플 그룹과 바이오마커 테스트 샘플 그룹으로 분리하는 단계에 대하여 자세히 설명한다.
확보한 총 샘플인 질병 샘플 및 정상 샘플 중 일부를 무작위로 선정하여 바이오마커 테스트 샘플 그룹으로 분리하고 바이오마커 테스트 샘플 그룹외에 나머지 샘플들을 바이오마커 추출 샘플 그룹으로 사용한다.
바이오마커 테스트 샘플 그룹은 이 후 이어지는 단계에 따라 바이오마커 추출 샘플 그룹에서 선정되는 질병 진단 후보 바이오마커가 최종 질병 진단 바이오마커로 선정되기에 충분한지 테스트하기 위해 사용하는 그룹에 해당한다.
바이오마커 추출 샘플 그룹의 경우 질병의 종류에 따라 해당 질병에 특이적으로 나타나는 변이 정보만을 사용하기 위해서 질병의 원인에 해당할 수 있는 변이 외의 정보를 제외할 수 있다. 예를 들어, 한 개의 개체로부터 확보되는 특정 질병 샘플과 정상 샘플에서 공통으로 나타나는 변이 정보를 해당 개체에서 나타나는 특이적인 변이 정보로 간주하거나 다른 질병에 의한 변이 정보로 간주하여 해당 변이 정도는 분석 대상에서 제외할 수 있다.
바이오마커 추출 샘플 그룹에서 질병 진단 후보 바이오마커를 획득하는 단계에 대하여 자세히 설명한다.
바이오마커 추출 샘플 그룹에 포함된 질병 샘플 및 정상 샘플에서 발생한 염기서열 변이 정보들은 러닝 기법을 활용한 분석을 통해 질병 진단 후보 바이오마커에 해당하는 염기서열 변이들을 획득할 수 있다.
바이오마커 추출 샘플 그룹에서 질병 진단 후보 바이오마커에 해당하는 염기서열 변이들을 획득하기 위한 러닝 기법은 아래 가)~라)의 단계에 따라 수행될 수 있다(도 2 참조).
러닝 기법은 가) 바이오마커 추출 샘플 그룹을 M개의 그룹으로 나누고 M개의 그룹 중 임의로 하나의 그룹을 선택하여 제1 바이오마커 추출 샘플 그룹으로 선정하고 나머지 M-1개의 그룹을 제2 내지 제M 바이오마커 검증 샘플 그룹으로 구분하는 단계;
나) 질병 샘플과 정상 샘플의 전체 유전체 시퀀스 정보와 참조 유전체 서열을 비교하여 획득한 염기서열 변이 정보를 기준으로 제1 바이오마커 추출 샘플 그룹에 포함된 질병 샘플 및 정상 샘플에서 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 도출하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 도출하는 단계;
다) 상기 나)에서 도출한 특정 수준의 정확도를 만족하는 염기서열 변이들 전체에 대하여 각각의 염기서열 변이 유무를 기준으로 제2 내지 제M 바이오마커 후보 추출 샘플 그룹 각각에 포함된 질병 샘플 및 정상 샘플을 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 도출하고, 특정 수준의 정확도를 만족하는 염기서열 변이들을 바이오마커 후보 염기서열 변이 그룹으로 선정하는 단계; 및
라) 상기 가) 내지 다)의 단계를 반복하고 각 반복 회차마다 선정된 바이오마커 후보 염기서열 변이 그룹에 포함된 염기서열 변이들 전체를 질병 진단 후보 바이오마커로 선정하는 단계로 수행될 수 있다.
가) 단계에서 나누어진 총 M개의 그룹은 제1 바이오마커 후보 추출 샘플 그룹과 제2 내지 제M 바이오마커 후보 검증 샘플 그룹으로 구분할 수 있다. 구체적으로 질병 샘플과 정상 샘플을 쌍(pair)으로 그룹화 하고 각 쌍에 포함된 질병 샘플과 정상 샘플의 개수가 동일한 경우 바이오마커 추출 샘플 그룹의 총 샘플 개수는 질병 샘플 N개와 정상 샘플 N개의 2N개가 되고, 2N개의 총 샘플에서 무작위로 n개의 질병 샘플과 n개의 정상 샘플이 쌍을 이루는 M개의 그룹으로 분할 하게 된다. 분할된 총 M개의 그룹 중 임의의 어느 하나의 그룹을 제1 바이오마커 후보 추출 샘플 그룹으로 정하게 되면 나머지 M-1개의 그룹은 무작위로 제2 내지 제M 바이오마커 후보 검증 샘플 그룹으로 정해지게 된다.
나) 단계에서는 질병 샘플과 정상 샘플의 전체 유전체 시퀀스 정보와 참조 유전체 서열을 비교하여 획득한 염기서열 변이 유무를 기준으로 제1 바이오마커 후보 추출 샘플 그룹에 포함된 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 확인한다. 그리고 특정 수준의 정확도를 임의로 설정하고 설정한 임의의 정확도 이상을 만족하는 염기서열 변이 정보를 도출하여 제1 바이오마커 후보 추출 샘플 그룹의 바이오마커 후보 염기서열 변이 그룹(이하 'S1 염기서열 변이 그룹'이라 함)으로 선정한다.
다) 단계에서는 나) 단계에서 선정한 S1 염기서열 변이 그룹에 포함된 모든 염기서열 변이 각각에 대하여 염기서열 변이 유무를 기준으로 제2 내지 제M 바이오마커 후보 검증 샘플 그룹에 포함된 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 확인한다. 그리고 특정 수준의 정확도를 임의로 설정하고 설정함 임의의 정확도 이상을 만족하는 염기서열 변이 정보를 도출하여 제2 내지 제M 바이오마커 후보 검증 샘플 그룹에서 검증된 바이오마커 후보 염기서열 변이 그룹(이후 'S2 염기서열 변이 그룹'이라 함)으로 선정한다.
라) 단계는 가)~다) 단계를 반복하는 단계로서 앞서 수행한 가) 단계에서 제1 바이오마커 추출 샘플 그룹으로 선정하지 않은 다른 임의의 그룹을 제1 바이오마커 추출 샘플 그룹으로하고 나머지 M-1개의 그룹을 제2 내지 제M 바이오마커 검증 샘플 그룹으로하여 나) 및 다) 단계에 따라 염기서열 변이 유무를 기준으로 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도 도출 및 임의의 정확도 이상을 만족하는 염기서열 변이 그룹인 S1 염기서열 변이 그룹 및 S2 염기서열 변이 그룹을 구할 수 있다. 앞서 수행한 가) 단계에서 선정한 제1 바이오마커 후보 추출 그룹을 그대로 제1 바이오마커 후보 추출 그룹으로 하고 나) 및 다) 단계에서 설정하는 정확도를 변경하여 수행할 수도 있다.
라) 단계는 가)~다) 단계를 충분히 반복하고, 각 반복 회차마다 선정된 S2 염기서열 변이 그룹들에 각각에 포함된 염기서열 변이들 전체를 취합하여 질병 진단 후보 바이오마커 그룹(이하 'S 염기서열 변이 그룹'이라 함)으로 선정하여 종료될 수 있다.
라) 단계에서 선정된 S 염기서열 변이 그룹에 포함된 염기서열 변이 정보들로 라이브러리를 구축할 수 있고, 라이브러리화된 염기서열 변이의 정보들은 질병과 관계된 주요 염기서열 변이 정보로 활용할 수 있다. S 염기서열 변이 그룹에 포함된 염기서열 변이 정보들의 라이브러리는 S 염기서열 변이 그룹의 선정 과정 중 나) 및 다) 단계에서 설정한 임의의 특정 정확도에 따라 달라지는 염기서열 변이 정보(variants) 및 라) 단계에 따라 가)~다) 단계의 반복 과정 동안 얼마나 자주 해당 염기서열 변이 정보가 나타났는지에 대한 빈도 정보(Frequency)를 주요 정보로하여 구축할 수 있다(도 3 참조).
질병 진단 후보 바이오마커에 포함된 염기서열 변이 유무를 기준으로 바이오마커 테스트 샘플 그룹에 포함된 질병 샘플 및 정상 샘플을 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 검증하고 특정 수준의 정확도를 만족하는 염기서열 변이들을 최종 질병 진단 바이오마커로 선정하는 단계에 대하여 자세히 설명한다.
바이오마커 추출 샘플 그룹에서 러닝 기법에 따라 선정한 질병 진단 후보 바이오마커에 포함된 염기서열 변이들은 각각의 염기서열 변이 유무에 따라 바이오마커 추출 샘플 그룹에 포함된 질병 샘플 및 정상 샘플을 특정 정확도 이상으로 구분할 수 있는 염기서열 변이들에 해당한다.
질병 진단 후보 바이오마커에 해당하는 염기서열 변이들 전체를 바이오마커로 직접 사용할 수 있으나, 보다 정확한 질병 진단 바이오마커를 최종적으로 추출하기 위해 질병 진단 후보 바이오마커에 해당하는 염기서열 변이들의 다양한 조합과 조건을 이용할 수 있다. 질병 진단 후보 바이오마커에 해당하는 염기서열 변이들의 조합은 질병 진단 후보 바이오마커에 해당하는 염기서열 변이들을 바이오마커 추출 샘플 전체에 다시 대입하여 특정 조건을 만족하는 염기서열 변이들을 추출하여 조합할 수 있다.
바람직하게는 질병 진단 후보 바이오마커에 해당하는 염기서열 변이들 중 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 100%의 정확도로 구분할 수 있는 염기서열 변이들만을 조합하고, 이들 염기서열 변이들 각각의 유무를 기준으로 바이오마커 테스트 샘플 그룹에 포함된 질병 샘플 및 정상 샘플을 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분하는 정확도를 검증하는데 이용할 수 있다.
100%의 정확도로 질병 샘플과 정상 샘플을 구분할 수 있는 염기서열 변이들의 조합을 최소한의 개수로 하는 경우 염기서열 변이들의 개수가 적어 해당 염기서열 변이들의 조합이 최종 질병 진단 바이오마커로 선정되어 활용되는 경우 검사 비용을 줄일 수 있다. 다만 100%의 정확도로 질병 샘플과 정상 샘플을 구분할 수 있는 염기서열 변이들의 조합을 최소한의 개수로 하는 경우 질병 샘플과 정상 샘플 각각에서 발생하는 염기서열 변이들의 정도(개수) 차이가 크지 않을 수 있어 진단 정확도가 감소할 수 있다.
100%의 정확도로 질병 샘플과 정상 샘플을 구분할 수 있는 염기서열 변이들의 조합을 최대한의 개수로 하는 경우 조합되는 염기서열 변이들의 개수는 증가하나 질병 샘플과 정상 샘플 각각에서 발생하는 염기서열 변이들의 정도(개수) 차이가 증가하여 진단 정확도를 증가시킬 수 있다(도 4 참조).
100%의 정확도로 질병 샘플과 정상 샘플을 구분할 수 있는 염기서열 변이들의 조합을 정한 후, 조합된 염기서열 변이 각각의 유무를 기준으로 바이오마커 테스트 샘플 그룹에 포함된 질병 샘플 및 정상 샘플을 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 검증하고 정확도가 기 설정한 수준의 정확도를 만족하는 경우 해당 염기서열 변이들의 조합을 최종 질병 진단 바이오마커로 선정할 수 있다.
질병 진단 후보 바이오마커에 해당하는 염기서열 변이들을 이용한 최종 질병 진단 바이오마커를 선정하는 단계는 바이오마커 테스트 샘플 그룹에 대한 블라인드 스크리닝을 통해 수행되는 것이 바람직하다. 바이오마커 테스트 샘플 그룹에 대한 블라인드 스크리닝에 있어 정확도 검증의 기준이 되는 측정값은 민감도 및 특이도에서 선택되는 하나 이상을 사용할 수 있으나 이에 제한되는 것은 아니다(도 5 참조).
민감도는 실제 질병 샘플을 질병으로 분류하는 성능의 척도로서 아래 수학식(2) 에 따라 측정값을 도출할 수 있다.
TP/(TP+FN) --- (1)
TP(True Positive) : 실제 질병 샘플 중 질병으로 바르게 분류된 샘플 수
FN(False Negative) : 실제 질병 샘플 중 정상으로 잘못 분류된 샘플 수
특이도는 실제 정상 샘플을 정상으로 분류하는 성능의 척도로서 아래 수학식(3)에 따라 측정값을 도출할 수 있다.
TN/(TN+FP) --- (2)
TN(True Negative) : 실제 정상 샘플 중 정상으로 바르게 분류된 샘플 수
FP(False Positive) : 실제 정상 샘플 중 질병으로 잘못 분류된 샘플 수
바이오마커 테스트 샘플 그룹에 대한 정확도 검증에서 특정 정확도 이상을 만족하는 염기서열 변이들이 도출되는 경우 해당 바이오마커들을 최종 질병 진단 바이오마커로 선정할 수 있다. 최종 질병 진단 바이오마커는 특정 질병을 가지는 개체로부터 채취한 실제 질병 샘플에 대한 블라인드 스크리닝을 통해 추가적인 검증 단계를 더 수행할 수 있다.
본 발명의 바이오마커 추출 방법의 각각 단계들은 컴퓨터를 포함하는 연산처리수단에 의해 실행되는 프로그램 형태로 이루어질 수 있다. 각각 단계 모두가 하나의 연산처리수단에 의해 실행되는 프로그램을 통해 이루어지거나, 각각의 단계별로 서로 다른 연산처리수단에 의해 실행되는 프로그램에 의해 수행될 수도 있다.
이하에서 본 발명의 바이오마커 추출 방법의 일 예로 혈액암인 급성 골수성 백혈병(acute myeloid leukemia, AML)을 진단하기 위한 바이오마커 추출 방법에 대하여 설명한다(도 1 내지 6 참조).
1) NIH(National Insitutes of Health)에서 질병 샘플로 급성 골수성 백혈병 환자의 유전정보와 정상 샘플의 유전 정보를 확보하였다. 질병 샘플과 정상 샘플을 각각 50개씩 준비하고 각각의 샘플에 대하여 전체 유전체의 염기서열 정보를 담은 전장유전체서열(Whole genome sequence, WGS) 정보를 확보하였다.
2) 확보한 질병 샘플과 정상 샘플을 각각의 전장유전체서열과 참조 유전체 서열인 인간게놈프로젝트의 결과로 정해진 서열(NCBI(National Center for Biotechnology information), GRCh37(2009), GRch38(2013))을 비교하여 각각의 샘플의 염기서열 변이 정보를 획득하였다. 획득한 염기서열 변이 정보 중 SNP(Single nucleotide polymorphism) 및 Indel(Insertion and deletion)을 주요 염기서열 변이 정보로 추출하였고 각각의 샘플마다 약 20만개 이상의 염기서열 변이를 확보할 수 있었다. 각각의 샘플로부터 확보한 염기서열 변이 정보를 염기서열 변이 종류, 빈도, 변이 발생 위치에 따라 정리하여 라이브러리화 하였다.
3) 총 100개의 샘플(질병 샘플 50개, 정상 샘플 50개)을 바이오마커 추출 샘플 80개(질병 샘플 40개, 정상 샘플 40개) 및 바이오마커 테스트 샘플 그룹 20개(질병 샘플 10개, 정상 샘플 10개)로 분리하였다.
4) 바이오마커 추출 샘플 그룹 80개(질병 샘플 40개, 정상 샘플 40개)에서 러닝 기법에 따라 질병 진단 후보 바이오마커를 획득하였다.
4-1) 바이오마커 추출 샘플 그룹에서 무작위로 20개의 샘플(질병 샘플 10개, 정상 샘플 10개)씩 4개의 그룹으로 나누고, 4개의 그룹 중 임의로 하나의 그룹을 제1 바이오마커 추출 샘플 그룹(G1)으로 선정하고 나머지 3개의 그룹을 임의로 제2 바이오마커 검증 샘플 그룹(G2), 제3 바이오마커 검증 샘플 그룹(G3) 및 제4 바이오마커 검증 샘플 그룹(G4)으로 구분하였다.
4-2) 2)에서 라이브러리화한 염기서열 변이들의 발생 유무를 기준으로 제1 바이오마커 추출 샘플 그룹(G1)에 포함된 질병 샘플 및 정상 샘플에서 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 65% 이상의 정확도(Th1 = 65%)로 구분할 수 있는 염기서열 변이들을 도출하여 제1 바이오마커 후보 추출 샘플 그룹의 바이오마커 후보 염기서열 변이 그룹(S1)으로 배정하였다.
4-3) S1에 포함된 염기서열 변이들 전체에 대하여 각각의 염기서열 변이 유무를 기준으로 G2, G3 및 G4 각각에 포함된 질병 샘플 및 정상 샘플에서 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 65% 이상의 정확도(Th2 = 65%)로 구분할 수 있는 염기서열 변이들을 도출하고 제2, 제3 및 제4 바이오마커 후보 검증 샘플 그룹에서 검증된 바이오마커 후보 염기서열 변이 그룹(S2)로 배정하였다.
4-4) 4-1)에서 앞서 선정한 제1 바이오마커 추출 샘플 그룹외의 다른 임의의 그룹을 제1 바이오마커 추출 샘플 그룹으로 선정하는 방법으로 4-1) 및 4-3)의 과정을 더 반복하고, 각 반복 회차의 S2에 포함된 모든 염기서열 변이들을 취합하여 질병 진단 후보 바이오마커 그룹(S)으로 배정하였고, S에 포함된 염기서열 변이들의 총 개수는 252개로 확인되었다. 급성 골수성 혈액 암의 질병 진단 후보 바이오마커인 252개의 염기서열 변이들을 도출하기 위해 4-4)에 따른 4-1) 내지 4-3)의 과정을 약 5천여번 반복하여 수행하였다. 반복 횟수는 총 샘플들의 수, 바이오마커 추출 샘플에서 그룹화 하는 질병 샘플 및 정상 샘플 각각의 수, 그룹화 수(G1~GN), 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분하는 정확도의 설정 기준 등에 따라 달라질 수 있다. 252개의 모든 염기서열 변이들에 대하여 염기서열 변이의 종류(Variant), 염기변이가 발생한 염색체 정보(Chromosome), 염색체 상의 염기서열 변이의 위치(Position), 4-1) 내지 4-4)의 반복 과정 중 염기변이가 발생한 빈도에 대한 정보를 특정한 정확도(Th1 = 65%, Th2 = 65%)별로 구분하여 라이브러리화 하였다.
5) 4-1) 내지 4-4)에 따라 선정된 염기서열 변이(252개의 변이 정보)로부터 급성 골수성 백혈병 진단을 위한 최종 질병 진단 바이오마커를 선정하였다. 구체적으로 우선 252개의 염기서열 변이들을 바이오마커 추출 샘플 그룹에 포함된 전체 샘플에 대입하여 바이오마커 테스트 샘플 그룹을 통해 검증할 염기서열 변이 조합을 도출하였다. 최적화 알고리즘을 사용하여 마커 수를 최저로 할 수 있는 염기서열 변이들의 조합과 질병 샘플과 정상 샘플의 그룹 특성 차이를 최대로 할 수 있는 염기서열 변이들의 조합을 도출하였다. 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 100%의 정확도로 구분할 수 있으면서 조합된 염기서열 변이들의 개수를 최저로 할 수 있는 변이들의 조합은 252개 중 12개의 염기서열 변이 조합을 통해 가능하였고(objective - minimum marker num, condition - 100% 분류도), 이 때 12개의 염기서열 변이 중 4.5개 이하의 염기서열 변이가 존재하는 경우 정상 샘플이고 4.5개 이상의 염기서열 변이가 존재하는 경우 질병 샘플에 해당하였다(즉 12개의 염기서열 변이 중 정상 샘플에서 최대로 존재할 수 있는 염기서열 변이는 4개이고, 질병 샘플에서 최저로 존재할 수 있는 염기서열 변이는 5개에 해당하였다). 그리고 252개의 염기서열 변이들 중 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 100%의 정확도로 구분할 수 있으면서 정상 샘플에서 나타나는 최대 염기변이 개수와 질병 샘플에서 나타나는 최소 염기변이 개수의 차이를 최대로 할 수 있는 염기서열 변이 조합은 66개의 염기서열 변이 조합을 통해 가능하였고(objective - maximum gap between normal and disease sample groups, condition - 100%), 이 때 25개 이하의 염기서열 변이가 존재하는 경우 정상 샘플이고 25개 이상의 염기서열 변이가 존재하는 경우 질병 샘플에 해당하였다(이 경우 정상 샘플과 질병 샘플을 구분하는 기준인 25개의 염기서열 변이 개수는 정상 샘플에서 나타나는 최대 염기서열 변이의 개수와 질병 샘플에서 나타나는 최소 염기서열 변이 개수의 합의 중간값에 해당하였다)(도 7 참조).
이상에서 구한 바이오마커 추출 샘플 그룹에 포함된 질병 샘플과 정상 샘플에서 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 100%의 정확도로 구분할 수 있으면서 조합된 염기서열 변이들의 개수를 최소로 할 수 있는 12개의 염기서열 변이 조합을 기준으로 바이오마커 테스트 샘플 그룹 20개에 대하여(질병 샘플 10개, 정상 샘플 10개) 진단 정확도를 검증하였다. 검증 시 80% 이상의 정확도를 만족하는 경우 해당 염기서열 변이 조합을 최종 질병 진단 바이오마커로 선정하도록 하였다. 12개의 염기서열 변이들의 유무를 기준으로 바이오마커 테스트 샘플 그룹 20개에 대하여 진단 정확도를 측정한 결과, 질병 샘플 10개 중 2개는 12개의 염기서열 변이들 중 2개의 염기서열 변이만이 나타나 질병 샘플 10개 중 2개를 정상 샘플로 잘못 분류하였고 정상 샘플 10개 중 1개는 12개의 염기서열 변이들 중 6개의 염기서열 변이가 나타나 정상 샘플 10개 중 1개의 질병 샘플로 잘못 분류하였다.
바이오마커 테스트 샘플 그룹에 대한 정확도 검증 결과 85%의 정확도 보였고(17/20), 기 설정한 80% 이상의 정확도 범위를 만족하였으므로 상기 12개의 염기서열 변이 조합을 최종 질병 진단 바이오마커로 선정하였다.

Claims (9)

1) 질병 샘플 및 정상 샘플의 전체 유전체 시퀀싱(whole genome sequencing) 정보를 확보하는 단계;
2) 상기 전체 유전체 시퀀스 정보를 참조 유전체 서열과 비교하여 상기 질병 샘플 및 정상 샘플의 염기서열 변이 정보를 획득하는 단계;
3) 상기 질병 샘플 및 정상 샘플을 바이오마커 추출 샘플 그룹과 바이오마커 테스트 샘플 그룹으로 분리하는 단계;
4) 바이오마커 추출 샘플 그룹에서 하기 4-1) 내지 4-3) 단계에 따라 질병 진단 후보 바이오마커를 획득하는 단계;
4-1) 바이오마커 추출 샘플 그룹을 M개의 그룹으로 나누고 M개의 그룹 중임의로 하나의 그룹을 선택하여 제1 바이오마커 추출 샘플 그룹으로 선정하고 나머지 M-1개의 그룹을 제2 내지 제M 바이오마커 검증 샘플 그룹으로 구분하는 단계;
4-2) 상기 2)에서 얻은 염기서열 변이들의 유무를 기준으로 제1 바이오마커 추출 샘플 그룹에 포함된 질병 샘플 및 정상 샘플에서 대하여 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 도출하고, 65% 이상의 정확도를 만족하는 염기서열 변이들을 도출하는 단계;
4-3) 상기 4-2)에서 도출한 65% 이상의 정확도를 만족하는 염기서열 변이들 전체에 대하여 각각의 염기서열 변이 유무를 기준으로 제2 내지 제M 바이오마커 검증 샘플 그룹 각각에 포함된 질병 샘플 및 정상 샘플에서 정상 샘플은 정상 샘플로 질병 샘플은 질병 샘플로 구분할 수 있는 정확도를 도출하고, 65% 이상의 정확도를 만족하는 염기서열 변이들을 바이오마커 후보 염기서열 변이 그룹으로 선정하는 단계;
4-4) 상기 4-1) 내지 4-3)의 단계를 반복하고 각 반복 회차마다 선정된 바이오마커 후보 염기서열 변이 그룹에 포함된 염기서열 변이들 전체를 질병 진단 후보 바이오마커로 선정하는 단계; 및
5) 상기 4)에서 선정한 질병 진단 후보 바이오마커에 포함된 염기서열 변이 유무를 기준으로 상기 3)의 바이오마커 테스트 샘플 그룹에 포함된 질병 샘플 및 정상 샘플에서 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분할 수 있는 정확도를 검증하고, 80% 이상의 정확도를 만족하는 염기서열 변이들을 최종 질병 진단 바이오마커로 선정하는 단계;
를 포함하며
상기 4) 단계 및 5)단계의 정확도 검증에 있어서,
정확도 검증의 대상이 되는 측정값은 각각 하기 수학식 (1) 및 (2)으로 정의되는 민감도 및 특이도에서 선택되는 하나 이상인
바이오마커 도출 방법
TP/(TP+FN) ---(1)
TN/(TN+FP) ---(2)
TP(True Positive) : 실제 질병 샘플 중 질병으로 바르게 분류된 샘플 수
FP(False Positive) : 실제 정상 샘플 중 질병으로 잘못 분류된 샘플 수
TN(True Negative) : 실제 정상 샘플 중 정상으로 바르게 분류된 샘플 수
FN(False Negative) : 실제 질병 샘플 중 정상으로 잘못 분류된 샘플 수
제1항에 있어서,
상기 5) 단계는 질병 진단 후보 바이오마커에 포함된 염기서열 변이들 중 일부를 선택하여 바이오마커들의 조합을 도출하고 이 바이오마커들을 함께 사용할 때 질병진단 정확도 80% 이상을 만족하는 바이오마커들의 최적의 변이 유무 개수를 선정하며 바이오마커들의 개수를 최저로 할 수 있는 바이오마커들의 조합을 선정하는 것인 바이오마커 도출 방법.
제2항에 있어서,
상기 선택한 염기서열 변이들은 질병 진단 후보 바이오마커에 포함된 염기서열 변이들 중 질병 샘플은 질병 샘플로 정상 샘플은 정상 샘플로 구분하는 정확도가 100%를 만족하는 염기서열 변이들인 바이오마커 도출 방법.
제1항에 있어서,
상기 2) 단계에서 획득한 염기서열 변이 정보를 라이브러리화하는 과정을 더 포함하는 바이오마커 도출 방법.
제1항에 있어서,
상기 4) 단계에서 선정한 질병 질단 후보 바이오마커에 포함된 염기서열 변이들에 대한 정보를 라이브러리화하는 과정을 더 포함하는 바이오마커 도출 방법.
제1항에 있어서,
상기 염기서열 변이는 단일염기다형성(Single Nucleotide Polymorphism), 유전자 복제 수 변이(Copy Number Variation), 염기 삽입(Insertion), 염기 결실(Deletion), 염기 중복(Repetition) 및 염기 역위(Inversion)로 이루어지는 군에서 선택되는 하나 이상에 의해 발생하는 변이인 바이오마커 도출 방법.
제1항에 있어서,
상기 5) 단계에서 질병 진단 후보 바이오마커에 포함된 염기서열 변이를 이용한 바이오마커 테스트 샘플 그룹에 대한 정확도 검증은 블라인드 스크리닝(Blind screening)을 통해 수행되는 바이오마커 도출 방법.

삭제
컴퓨터를 포함하는 연산처리수단에 의해 실행되는 프로그램에 의해 제1항의 바이오마커 도출 과정이 수행되는 바이오마커 도출 방법.

KR1020180062819A 2018-05-31 2018-05-31 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법 KR102217272B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180062819A KR102217272B1 (ko) 2018-05-31 2018-05-31 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180062819A KR102217272B1 (ko) 2018-05-31 2018-05-31 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법

Publications (2)

Publication Number Publication Date
KR20190136733A KR20190136733A (ko) 2019-12-10
KR102217272B1 true KR102217272B1 (ko) 2021-02-18

Family

ID=69003014

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180062819A KR102217272B1 (ko) 2018-05-31 2018-05-31 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법

Country Status (1)

Country Link
KR (1) KR102217272B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220167245A (ko) 2021-06-11 2022-12-20 한국생명공학연구원 인공지능을 활용한 개체 및 계통 특이적 분류 변이 및 마커 선정 방법 및 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102427600B1 (ko) * 2021-12-14 2022-08-01 주식회사 테라젠바이오 줄기세포의 배양적응성을 판단하기 위한 체세포 변이를 선별하는 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014130444A1 (en) 2013-02-19 2014-08-28 Genomic Health, Inc. Method of predicting breast cancer prognosis
US20140330162A1 (en) 2011-12-08 2014-11-06 Koninklijke Philips N.V. Biological cell assessment using whole genome sequence and oncological therapy planning using same
US20160273049A1 (en) 2015-03-16 2016-09-22 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
WO2016154493A1 (en) 2015-03-24 2016-09-29 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for multi-scale, annotation-independent detection of functionally-diverse units of recurrent genomic alteration
WO2018088635A1 (ko) 2016-11-08 2018-05-17 한국과학기술원 유전체내 암 특이적 진단 마커 검출

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542529B1 (ko) 2014-02-21 2015-08-06 (주)신테카바이오 대립유전자의 바이오마커 발굴방법
KR101841673B1 (ko) 2016-05-12 2018-05-04 주식회사 엔젠바이오 유전자의 결실을 이용한 유방암 환자의 예후 예측 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140330162A1 (en) 2011-12-08 2014-11-06 Koninklijke Philips N.V. Biological cell assessment using whole genome sequence and oncological therapy planning using same
WO2014130444A1 (en) 2013-02-19 2014-08-28 Genomic Health, Inc. Method of predicting breast cancer prognosis
US20160273049A1 (en) 2015-03-16 2016-09-22 Personal Genome Diagnostics, Inc. Systems and methods for analyzing nucleic acid
WO2016154493A1 (en) 2015-03-24 2016-09-29 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for multi-scale, annotation-independent detection of functionally-diverse units of recurrent genomic alteration
WO2018088635A1 (ko) 2016-11-08 2018-05-17 한국과학기술원 유전체내 암 특이적 진단 마커 검출

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220167245A (ko) 2021-06-11 2022-12-20 한국생명공학연구원 인공지능을 활용한 개체 및 계통 특이적 분류 변이 및 마커 선정 방법 및 시스템

Also Published As

Publication number Publication date
KR20190136733A (ko) 2019-12-10

Similar Documents

Publication Publication Date Title
CN106909806B (zh) 定点检测变异的方法和装置
JP2019531700A5 (ko)
CN109767810B (zh) 高通量测序数据分析方法及装置
CN110010193A (zh) 一种基于混合策略的复杂结构变异检测方法
WO2016175990A1 (en) Bagged filtering method for selection and deselection of features for classification
CN108021788B (zh) 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
CN112088220B (zh) 替代标志物及用于肿瘤突变负荷测定的方法
CN113096728B (zh) 一种微小残余病灶的检测方法、装置、存储介质及设备
CN107408163A (zh) 用于分析基因的方法及装置
CN112289376B (zh) 一种检测体细胞突变的方法及装置
CN113234829B (zh) 结肠癌预后评估基因集及其构建方法
KR102217272B1 (ko) 유전체 변이 정보를 이용한 질병 진단 바이오마커 추출 방법
CN107208131A (zh) 用于肺癌分型的方法
WO2019046804A1 (en) IDENTIFICATION OF FALSE POSITIVE VARIANTS USING A MODEL OF IMPORTANCE
CN115424666A (zh) 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
KR101928094B1 (ko) 유전체내 암 특이적 진단 마커 검출
CN117275585A (zh) 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备
KR102636560B1 (ko) 대사질환 위험도 예측 방법 및 시스템
WO2017221744A1 (ja) 肺がん検査用の情報を提供する方法、肺がんの検査方法、肺がんの検査装置、肺がんの検査装置のプログラム及び記録媒体、並びに肺がん検査用のmiRNA測定用キット
WO2016121715A1 (ja) 肺がん患者の予後を評価するための情報を提供する方法、肺がん患者の予後予測方法、内部標準、抗体、肺がん患者の予後予測装置、予後予測装置のプログラム及び記録媒体
KR20150137283A (ko) 생물학적 샘플 분석 시스템 및 방법
JP6041331B1 (ja) 情報処理装置と情報処理プログラム並びに情報処理方法
CN111833965B (zh) 一种尿沉渣基因组dna的分类方法、装置和用途
CN113393901B (zh) 一种基于单核细胞采集肿瘤核酸的胶质瘤分检装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)