KR102465244B1 - 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템 - Google Patents

차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템 Download PDF

Info

Publication number
KR102465244B1
KR102465244B1 KR1020200006615A KR20200006615A KR102465244B1 KR 102465244 B1 KR102465244 B1 KR 102465244B1 KR 1020200006615 A KR1020200006615 A KR 1020200006615A KR 20200006615 A KR20200006615 A KR 20200006615A KR 102465244 B1 KR102465244 B1 KR 102465244B1
Authority
KR
South Korea
Prior art keywords
cfdna
generation sequencing
characteristic data
dna
sample
Prior art date
Application number
KR1020200006615A
Other languages
English (en)
Other versions
KR20210093000A (ko
Inventor
김병철
채동규
유석찬
임요한
Original Assignee
주식회사 클리노믹스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클리노믹스 filed Critical 주식회사 클리노믹스
Priority to KR1020200006615A priority Critical patent/KR102465244B1/ko
Publication of KR20210093000A publication Critical patent/KR20210093000A/ko
Application granted granted Critical
Publication of KR102465244B1 publication Critical patent/KR102465244B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Physiology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 차세대 염기서열 분석을 위한 샘플의 결과를 미리 예측하는 방법 및 이를 구현하는 시스템에 관한 것으로, 상기 방법 및 시스템은 머신 러닝 기법을 이용하여 도출된 예측 모델을 적용하여 고가의 차세대 염기서열 분석 (NGS)을 수행하기 이전에 생체시료의 종류에 상관없이 높은 민감성으로 양질의 샘플 선별 및 분석 결과 예측이 가능하므로 차세대 염기서열 분석 (NGS)에 필요한 비용과 시간을 절약할 수 있는 이점이 있다.

Description

차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템{Method and System of Predicting the Result of Samples for Next Generation Sequencing}
본 발명은 머신 러닝 기법을 이용하여 도출된 생성된 예측 모델을 적용하여 차세대 염기서열 분석을 위한 샘플의 결과를 미리 예측하는 방법 및 이를 구현하는 시스템에 관한 것이다.
세포의 괴사 (necrosis), 세포자살 (apoptosis), 분비 (secretion)에 의해 혈액, 림프액, 소변 등에서 세포의 존재 여부와 관계없이 검출되는 무세포 DNA (cell-free DNA, cfDNA)가 존재한다. 그 중 종양세포로부터 유래되어 혈액을 떠다니는 작은 크기의 genomic DNA를 순환 종양 DNA (circulating tumor DNA, ctDNA)라고 일컫는다. 일반적으로 건강한 사람의 혈액 속 cfDNA는 1-10 ng/ml 정도의 매우 낮은 농도로 존재하지만 암 환자에게선 5-10배 이상 높게 나타나며 만성 염증을 비롯한 다른 요인에 의해서도 증가할 수 있다고 알려져 있다. 때문에 cfDNA 안에서 암 세포의 유전정보를 가지고 있는 ctDNA를 검출해 내는 것이 중요하다 (비특허문헌 1 참조).
최근에는 차세대 염기서열 분석법 (Next-Generation Sequencing, NGS) 등의 발전으로 미량의 DNA분석이 가능해지면서 ctDNA의 분석연구가 가속화되고 있다 (특허문헌 1 참조).
상기 차세대 염기서열 분석 (NGS)은 유전체의 염기서열의 고속 분석 방법으로서, 기존의 염기서열 분석법들과 달리 많은 수의 DNA조각을 병렬로 처리하는 것을 특징으로 하여 많은 분야에서 다양하게 사용되고 있다.
이러한 차세대 염기서열 분석 (NGS)은 샘플을 준비하는 단계에서 분석을 완료하는 단계까지 총 3 단계의 품질 확인 (QC)이 수행된다. 구체적으로 첫 단계에서는 나노드롭 (nanodrop), 형광법 (fluorimetic method), 겔 전기 영동법 (gel electrophoretic methods) 등을 이용하여 분석하고자 하는 DNA 및/또는 RNA 샘플의 품질을 확인한다. 다음 단계는 DNA 및/또는 RNA 샘플로 구성된 라이브러리의 품질을 확인하는 단계로서, 겔 전기 영동법을 이용하여 샘플의 라이브러리가 원하는 크기로 제작되었는지, adapter-dimers의 오염 유무를 확인한다. 마지막 단계에서는 차세대 염기서열 분석 (NGS)된 각 샘플의 데이터 생성량과 품질을 확인한다.
한편, cfDNA를 분석하기 위해 사용되는 차세대 염기서열 분석법 (NGS) 시스템들은 각 제조사에서 요구하는 최소한의 DNA 농도만을 요구하고 있다. 예컨대, cfDNA를 분석하기 위해 Thermo-fisher scientific사의 차세대 염기서열 분석 시스템은 1-50 ng의 cfDNA 농도를 요구하고 있고, Illumina사의 차세대 염기서열 분석 시스템은 약 10 ng의 cfDNA 라이브러리 농도를 요구하고 있다. 그러나, 앞서 언급한 바와 같이 차세대 염기서열 분석은 겔 전기 영동법 등을 이용하여 품질을 확인하기 때문에 DNA 농도만으로는 생체시료로부터 채취된 샘플의 차세대 염기서열 분석 성공 여부는 물론 높은 정확도의 결과를 미리 예측하는데 한계가 있다.
따라서, 고가의 차세대 염기서열 분석 (NGS)을 수행하기 이전에 양질의 샘플을 선별하여 비용과 시간을 절약할 수 있는 차세대 염기서열 분석 결과 예측 방법 및 시스템의 필요성이 대두되고 있다.
대한민국 등록특허공보 제10-1850437호.
Wan JCM et al., Nat Rev Cancer. Vol. 4 pp. 223-238, 2017.
본 발명은 생체 시료 내에 존재하는 cfDNA에 대한 차세대 염기서열 분석 결과를 보다 효과적으로 얻기 위하여, 차세대 염기서열 분석 (NGS) 이전에 cfDNA 샘플의 차세대 염기서열 분석 (NGS) 결과를 예측하는 방법 및 시스템을 제공하는 것을 목적으로 한다.
상기 과제를 해결하기 위하여, 본 발명은 일실시예에서,
생체시료로부터 분리된 cfDNA의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계;
특징 데이터가 수집된 cfDNA 라이브러리를 제작하여, 제작된 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계;
수집된 cfDNA와 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 단계;
분석 가능으로 판단받은 cfDNA와 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 단계를 포함하고,
상기 예측 모델은 미리 수집된 DNA 특징 데이터들로부터 머신 러닝 기법을 이용하여 생성되는 것을 특징으로 하는, 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법을 제공한다.
이때, 상기 cfDNA의 특징 데이터는 전체 DNA 농도, DNA 크기, cfDNA 농도, 및 DNA 내 cfDNA의 비율로 이루어진 군으로부터 선택되는 1종 이상일 수 있고, 상기 cfDNA 라이브러리의 특징 데이터는 라이브러리의 농도 및 DNA의 크기 중 어느 하나 이상일 수 있다.
또한, 특징 데이터와 관련된 측정방식은 형광 정량계 또는 전기영동 시스템일 수 있다.
나아가, 상기 예측 모델은,
미리 수집된 DNA 특징 데이터들을 전처리하는 단계; 및
전처리된 DNA 특징 데이터에 대한 서포트 벡터 머신 (SVM) 학습을 수행하여 하기 식 1의 결과값을 최소화하는 모델을 설정하는 단계를 수행하여 생성될 수 있다:
[식 1]
Figure 112020005690714-pat00001
식 1에서,
C는 서포트 벡터 (support vector)와 초평면 (hyperplane)의 거리인 마진 크기를 조절하는 사용자 지정 파라미터 값이고,
WT는 가중치 벡터의 전치 행렬 벡터이며,
ε는 잘못 분류된 데이터 포인트들이 초평면 (hyperplane)에서 얼마나 멀리 떨어져 있는지를 나타내는 오차 값이다.
여기서, 상기 전처리하는 단계는,
미리 수집된 DNA 특징 데이터들 중 사분위 범위 값보다 3배 높은 데이터를 삭제하여 이상치 (outlier)를 제거하는 단계;
이상치가 제거된 데이터를 Z-스코어 정규화하는 단계: 및
정규화된 데이터에서 결측값 (missing data)이 존재하는 DNA 특징 데이터를 제거하는 단계를 포함할 수 있다.
또한, 상기 전처리된 DNA 특징 데이터는 커널 함수에 의해 가공되는 것을 특징으로 할 수 있다.
또한, 본 발명은 일실시예에서,
생체시료로부터 분리된 cfDNA 및 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 수집부;
수집된 cfDNA 및 cfDNA 라이브러리의 특징데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 분석부;
분석 가능으로 판단받은 cfDNA 및 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 산출부를 포함하고,
상기 예측 모델은 미리 수집된 DNA 특징 데이터들로부터 머신 러닝 기법을 이용하여 생성되는 것을 특징으로 하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템을 제공한다.
이때, 상기 cfDNA의 특징 데이터는 전체 DNA 농도, DNA 크기, cfDNA 농도, 및 DNA 내 cfDNA의 비율로 이루어진 군으로부터 선택되는 1종 이상일 수 있고, 상기 cfDNA 라이브러리의 특징 데이터는 라이브러리의 농도 및 DNA의 크기 중 어느 하나 이상을 포함할 수 있다.
이와 더불어, 상기 분석부는 예측 모델을 설정 및 검증하기 위하여 미리 수집된 DNA 특징 데이터들을 포함하는 데이터 베이스를 구비할 수 있다.
한편, 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템에 있어서, 상기 생체시료는 혈액, FFPE, 담즙, 소변, 타액 및 객담으로 이루어진 군으로부터 선택되는 1종일 수 있으나, 이에 제한되지는 않는다.
또한, 차세대 염기서열 분석 (NGS) 결과는 염기서열 범위 (coverage), 크기 (size) 및 리드 길이 (read length)로 이루어진 군으로부터 선택되는 1종 이상일 수 있다.
본 발명의 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템은 머신 러닝 기법을 이용하여 도출된 생성된 예측 모델을 적용하여 고가의 차세대 염기서열 분석 (NGS)을 수행하기 이전에 생체시료의 종류에 상관없이 높은 민감성으로 양질의 샘플 선별 및 분석 결과 예측이 가능하므로 차세대 염기서열 분석 (NGS)에 필요한 비용과 시간을 절약할 수 있는 이점이 있다.
도 1은 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법의 과정을 나타낸 흐름도이다.
도 2는 예측 모델을 생성하는 과정을 나타낸 흐름도이다.
도 3은 전처리된 cfDNA 특징 데이터를 커널 함수로 가공한 값을 나타낸 그래프이다.
도 4는 본 발명에 따른 차세대 염기서열 분석 (NGS)을 위한 샘플의 결과 예측 시스템을 도시한 구조도이다.
본 발명에 대한 설명에 앞서, 명세서 전체에서 어떤 부분이 어떤 구성요소를 "구비" 또는 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부 (Unit)", "...모듈 (system)" 및 "...시스템 (system)" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어, 소프트웨어 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
또한, 본 명세서에서 "실시예"라는 용어는 예시, 사례 또는 도해의 역할을 하는 것을 의미하나, 발명의 대상은 그러한 예에 의해 제한되지 않는다. 또한, "포함하는", "구비하는", "갖는" 및 다른 유사한 용어가 사용되고 있으나, 청구범위에서 사용되는 경우 임의의 추가적인 또는 다른 구성요소를 배제하지 않는 개방적인 전환어 (Transition word)로서 "포함하는 (Comprising)"이라는 용어와 유사한 방식으로 포괄적으로 사용된다.
본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현될 수 있거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "부 (Unit)", "...모듈 (system)" 및 "...시스템 (system)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티 (Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명에서는 단말기를 포함하는 시스템에서 실행되는 프로그램 및 하드웨어 모두가 모듈단위로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.
이하, 본 발명을 보다 상세히 설명한다.
본 발명은 일실시예에서,
생체시료로부터 분리된 cfDNA의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계;
특징 데이터가 수집된 cfDNA 라이브러리를 제작하여, 제작된 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계;
수집된 cfDNA와 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 단계;
분석 가능으로 판단받은 cfDNA와 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 단계를 포함하고,
상기 예측 모델은 미리 수집된 DNA 특징 데이터들로부터 머신 러닝 기법을 이용하여 생성되는 것을 특징으로 하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법을 제공한다.
도 1은 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법을 도시한 흐름도로서, 상기 방법은 생체시료로부터 분리된 cfDNA와 상기 cfDNA로 구성된 라이브러리의 특징 데이터 및 그 측정 방식을 순차적으로 수집하고, 수집된 정보들을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단한 후, 분석이 가능한 샘플에 대하여 차세대 염기서열 분석 (NGS) 결과를 산출하는 구성을 갖는다.
구체적으로, 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법은 생체시료로부터 분리된 cfDNA의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계(S110)와 특징 데이터가 수집된 cfDNA 라이브러리를 제작하여, 제작된 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계(S120)를 포함한다.
이때, 상기 생체시료는 혈액, FFPE, 담즙, 소변, 타액 및 객담으로 이루어진 군으로부터 선택되는 1종일 수 있으나, 이에 제한되는 것은 아니다.
또한, 상기 cfDNA의 특징 데이터는 생체시료 내에 있는 전체 DNA 농도, DNA 크기, 전체 DNA 내 cfDNA 농도, 및 DNA 내 cfDNA의 비율로 이루어진 군으로부터 선택되는 1종 이상일 수 있다.
아울러, 상기 cfDNA 라이브러리의 특징 데이터는 라이브러리의 농도 및 DNA의 크기 중 어느 하나 이상을 포함할 수 있다.
또한, 상기 특징 데이터와 관련된 측정 방식은 종래 차세대 염기서열 분석 시 품질 확인 (QC)을 위해 사용되는 수단일 수 있다. 예를 들어, 상기 측정 방식은 Qubit과 같은 형광 정량계나 Tape Satation과 같은 전기영동 시스템을 포함할 수 있다.
하나의 예로서, 상기 cfDNA와 cfDNA 라이브러리의 특징 데이터와 측정 방식은 하기 표 1에 나타낸 바와 같이 수집될 수 있다.
단계 측정 방식 특징 데이터
S110 형광 정량계 ① 전체 DNA 농도
전기영동 시스템 ① 전체 DNA 농도
② cfDNA 농도
③ 전체 DNA 내 cfDNA 비율
④ DNA 크기
S120 형광 정량계 ① 라이브러리 농도
전기영동 시스템 ① DNA 크기
② 라이브러리 농도
또한, 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법은 이렇게 수집된 cfDNA와 cfDNA 라이브러리의 특징 데이터와 측정 방식에 대한 정보를 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 단계(S130)를 포함한다.
상기 단계(S130)는 예측 모델을 이용하여 cfDNA와 cfDNA 라이브러리의 특징 데이터와 측정 방식에 대한 정보만으로 차세대 염기서열 분석 (NGS) 가능 여부를 판단할 수 있다.
여기서, 상기 예측 모델은 지도형 머신 학습 (supervised machine learning) 방법 중 하나인 서포트 벡터 머신 (support vector machine, SVM) 기법을 이용하여 미리 수집된 특징 데이터로부터 생성되는 것을 특징으로 한다.
도 2는 예측 모델을 생성하는 과정을 나타낸 것이다.
상기 도 2를 참고하면, 본 발명에 따른 예측 모델은 미리 수집된 특징 빅데이터를 전처리하는 단계(S210); 및
전처리된 DNA 특징 데이터에 대한 서포트 벡터 머신 (SVM) 학습을 수행하여 하기 식 1의 결과값을 최소화하는 모델을 설정하는 단계(S220)를 수행하여 생성될 수 있다:
[식 1]
Figure 112020005690714-pat00002
식 1에서,
C는 서포트 벡터 (support vector)와 초평면 (hyperplane)의 거리인 마진 크기를 조절하는 사용자 지정 파라미터 값이고,
WT는 가중치 벡터의 전치 행렬 벡터이며,
ε는 잘못 분류된 데이터 포인트들이 초평면 (hyperplane)에서 얼마나 멀리 떨어져 있는지를 나타내는 오차 값이다.
구체적으로, 미리 수집된 특징 빅데이터는 사분위 범위값보다 3배 높은 데이터(1QR X 3)를 삭제하여 이상치 (outer)를 제거하는 단계(S211)를 수행한 후 이상치가 제거된 데이터를 Z-스코어 정규화하는 단계(S212)를 수행하여 스케일링하고, 마지막으로 정규화된 데이터에서 결측값 (missing data)이 존재하는 DNA 특징 데이터를 제거하는 단계(S213)를 수행하여 전처리될 수 있다.
본 발명은 이렇게 전처리된 특징 빅데이터를 75%의 트레이닝 세트와 25%의 검증 세트로 랜덤하게 나누어 데이터를 설정하고, 설정된 데이터로부터 서포트 벡터 머신 (SVM) 기법 중에서 C-분류 (C-classification), nu-분류 (nu-classification) 등을 이용하여 상기 식 1을 만족하는 최소값을 찾는 과정을 반복적으로 염기서열 분석 트레이닝함으로써 예측 모델을 설계할 수 있다.
이때, 상기 식 1의 C값은 사용자 지정 파라미터 값으로, 이 값이 작으면 초평면(hyperplane)에 대한 마진(magine)이 넓어지고, 이 값이 크면 잘못된 분류를 할 확률을 낮추어 주므로, 상기 C값의 범위는 예측된 결과의 정확도를 위하여 사용자에 의해 적절히 그 값이 제어될 수 있다. 또한, e는 알맞게 분류된 경우 이 허용치는 0; 초평면(hyperplane)의 반대편에 분류된 경우 1보다 크고, 초평면(hyperplane)과 마진(magine) 사이에 분류된 경우에는 값이 0 보다 크고, 1 보다 작다.
아울러, 상기 전처리된 특징 데이터는 도 3에 나타낸 바와 같이 선형분류가 어려운 저차원 데이터로 커널 함수 (kernel function)에 의해 가공되어 고차원 공간으로 맵핑될 수 있으며, 이에 따라 용이하게 분류될 수 있다.
여기서, 상기 고차원의 차원이 매우 큰 차원으로 변환하게 되는 경우 가중치 벡터의 내적을 처리하는 연산 비용이 매우 높아지게 되는데, 이를 해결하기 위하여 전처리된 특징 데이터에 커널 함수가 적용된다. 수학적으로 고차원 데이터의 내적하는 것과 내적한 결과를 고차원으로 보내는 것은 동일하기 때문에, 커널 함수로 대체하여 내적을 구하게 되는 것이다. 여기에 사용될 수 있는 커널 함수들은 내적을 구하는 식이 있는 Linear, Polynomial, Sigmoid 등이 있다.
한편, 본 발명은 예측 모델 생성 과정에서 발생하는 편향을 최소화하기 위하여 10-폴드 교차 검증 (10-folds cross validation), 외부 검증 (external validation) 등의 검증법을 적용할 수 있다.
또한, 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법은 분석 가능으로 판단받은 cfDNA와 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 단계(S140)를 포함한다.
상기 단계(S140)는 차세대 염기서열 분석 (NGS) 가능하다고 판단된 샘플의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 얻는 단계로서, 이때 상기 분석 결과는 염기서열 범위 (coverage), 크기 (size) 및 리드 길이 (read length)로 이루어진 군으로부터 선택되는 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.
나아가, 본 발명은 일실시예에서,
생체시료로부터 분리된 cfDNA 및 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 수집부;
수집된 cfDNA 및 cfDNA 라이브러리의 특징데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 분석부;
분석 가능으로 판단받은 cfDNA 및 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 산출부를 포함하고,
상기 예측 모델은 미리 수집된 DNA 특징 데이터들로부터 머신 러닝 기법을 이용하여 생성되는 것을 특징으로 하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템을 제공한다.
본 발명에 따른 차세대 염기서열 분석 (NGS)을 위한 샘플의 결과 예측 시스템은 앞서 언급된 결과 예측 방법을 구현하기 위한 것으로서,
도 4를 참고하면, 본 발명의 상기 시스템은 수집부 (310), 분석부(320) 및 산출부(330)를 포함한다.
여기서, 상기 수집부(310)는 생체시료로부터 분리된 cfDNA 및 cfDNA의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 기능을 가지며, 생체시료로부터 분리된 cfDNA 및 cfDNA 라이브러리의 특징 데이터 및/또는 측정 방식에 대한 정보를 사용자가 직접 입력하는 수단(미도시)을 포함할 수 있다.
이때, 상기 생체시료는 혈액, FFPE, 담즙, 소변, 타액 및 객담으로 이루어진 군으로부터 선택되는 1종일 수 있으나, 이에 제한되는 것은 아니다.
또한, 상기 cfDNA의 특징 데이터는 생체시료 내에 있는 전체 DNA 농도, DNA 크기, 전체 DNA 내 cfDNA 농도, 및 DNA 내 cfDNA의 비율로 이루어진 군으로부터 선택되는 1종 이상일 수 있다.
아울러, 상기 cfDNA 라이브러리의 특징 데이터는 라이브러리의 농도 및 DNA의 크기 중 어느 하나 이상을 포함할 수 있다.
또한, 상기 분석부(320)는 수집부(310)와 연결되어 수집부(310)에서 수집된 cfDNA 및 cfDNA 라이브러리의 특징데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 기능을 수행한다.
이때, 상기 분석부(320)는 예측 모델을 설정 및 검증하기 위하여 미리 수집된 DNA 특징 데이터들을 포함하는 데이터 베이스(321)를 구비할 수 있다.
아울러, 상기 산출부(330)는 분석부(320)와 연결되어 분석부(320)에서 분석 가능으로 판단받은 cfDNA 및 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 기능을 수행한다.
이때, 상기 분석 결과는 염기서열 범위 (coverage), 크기 (size) 및 리드 길이 (read length)로 이루어진 군으로부터 선택되는 1종 이상일 수 있으나, 이에 제한되는 것은 아니다.
또한, 상기 산출부(330)는 산출된 결과는 나타내는 표시장치(미도시)를 더 포함할 수 있으며, 그 형태나 종류는 특별히 제한되는 것은 아니다.
이하, 본 발명을 실시예 및 실험예에 의해 보다 상세히 설명한다.
단, 하기 실시예 및 실험예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예 및 실험예에 한정되는 것은 아니다.
1. 예측 모델 설계 예시
1,167개의 혈액에서 추출한 DNA 샘플들의 QC 데이터 및 NGS 분석 성공 여부가 기록된 데이터베이스에서, Qubit 및 Agilent 4200 Tape Station으로 측정한 샘플 농도 값과 라이브러리의 농도를 특징 데이터로 추출하였다. 보다 상세하게는 Qubit 농도 값, Tape Station에서 측정된 전체 DNA의 농도, cfDNA의 농도 및 cfDNA의 비율 (%)을 특징 데이터로 사용하였다.
이상치 (outlier)에서 발생하는 편향을 제거하기 위하여 추출된 데이터 중에서 사분위 범위 3배 높은 데이터를 제거하여 1,032개의 사용 가능한 데이터를 얻었으며, 얻어진 데이터에 Z-스코어 정규화 기법 (Z-score normalization)을 적용하여 정규화하고, 마지막으로 결측값 (missing data)이 존재하는 샘플의 데이터는 모두 제거하여 샘플의 특징 데이터를 모두 전처리하였다.
이렇게 전처리된 특징 데이터를 75%의 트레이닝 세트와 25%의 검증 세트로 랜덤하게 나누어 데이터를 설정하고 이들 데이터로 예측 모델 검증을 진행하였다. 상기 특징 데이터들은 모델 생성 과정에서 커널 함수 (kernel function)가 적용되어 도 3에 나타낸 바와 같이 특징 데이터들이 선형 분할선을 갖도록 가공되었으며, 서포트 벡터 머신 (SVM) 기법 중에서 C-분류 (C-classification)을 이용하여 상기 식 1을 만족하는 최소값을 찾는 과정을 반복적으로 염기서열 분석 트레이닝함으로써 모델을 설정하였다:
[식 1]
Figure 112020005690714-pat00003
식 1에서,
C는 서포트 벡터 (support vector)와 초평면 (hyperplane)의 거리인 마진 크기를 조절하는 사용자 지정 파라미터 값이고,
WT는 가중치 벡터의 전치 행렬 벡터이며,
ε는 잘못 분류된 데이터 포인트들이 초평면 (hyperplane)에서 얼마나 멀리 떨어져 있는지를 나타내는 오차 값이다.
이때, 예측 모델 생성 과정에서 발생하는 편향을 최소화하기 위해, 10-폴드 교차 검증 (10-folds cross-validation) 기법을 적용하였다.
2. 예측 모델의 검증 예시
본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템의 임상적인 성능 검증을 위하여, 238명으로부터 10 ml EDTA 진공채혈관 (BD, Cowley, Oxon, UK)에 혈액(7 ml)을 채혈하고, 밀도 구배 원심분리기 (Ficoll-Paque ?? PLUS, GE Healthcare)를 사용하여 전혈로부터 혈장을 분리하였다. cfDNA는 QIAamp Circulating Nucleic Acid Kit (Qiagen, Hilden, Germany)를 사용하여 제조사의 지시에 따라 혈장 시료(약 4 ml)에서 추출되었다. Qubit 3.0 형광계 (Thermo-Fisher Scientific, MA, USA, Waltham) 및 Agilent 4200 Tape Station을 사용하여 각 cfDNA의 품질과 수량을 분석했다.
cfDNA 라이브러리 제작을 위해 총 10 ng의 cfDNA가 사용하였다. cfDNA 라이브러리의 제작은 라이브러리 키트 제조사의 지시에 따라 Ion Ampliseq Library Kit 2.0 (Thermo-Fisher Scientific)을 사용하여 수행되었다. 샘플 멀티플렉싱을 위해 Ion Xpress Barcode Adaptors Kit (Thermo-Fisher Scientific)를 사용하였고, 결과 라이브러리는 Agencourt AMPure XP 시약 (Beckman Coulter, MA, USA, MA)으로 정제하였다. 이어서, Qubit 3.0 형광계 및 TapeStation을 사용하여 합성 라이브러리를 정량화하였다. 라이브러리에 대한 템플릿 제작은 Ion 540 Chef Kit (Thermo-Fisher Scientific)와 함께 Ion Chef Instrument (Thermo-Fisher Scientific)를 사용하여 수행되었다. 다중화된 템플릿은 Ion S5 XL System (Thermo-Fisher Scientific)으로 시퀀싱하였다.
이와 같은 방식으로 238개 샘플 중 cfDNA 농도 측정에 성공하고 cfDNA 라이브러리 제작 및 농도 측정까지 성공한 151개의 샘플을 대상으로, 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법을 수행하여 분석 성공률을 예측하였다. 예측된 결과는 표 2의 예측값에 나타내었으며, 예측 모델을 통해 분석이 가능할 것으로 판단된 샘플은 "TRUE"로 표시하고, 분석이 불가능할 것으로 판단된 샘플은 "FALSE"로 표시하였다.
이와 별도로 상기 151개 샘플에 대한 차세대 염기서열 분석 (NGS) 데이터 품질 확인 (QC)를 수행하여 실제로 분석 가능한 샘플의 개수를 확인하였으며, 그 결과는 표 2의 참값에 나타내었다. 실제 샘플 분석 결과 차세대 염기서열 분석 (NGS)이 가능한 샘플은 "TRUE"로 표시하고, 분석이 불가능할 것으로 판단된 샘플은 "FALSE"로 표시하였다.
Figure 112020005690714-pat00004
결과 예측 방법의 성능 분석
민감도 91~95%
특이도 78~82%
정밀도 92~96%
정확도 88~92%
상기 표 2 및 3에서 알 수 있듯이, 본 발명에 따른 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템은 90% 이상의 높은 민감도와 정밀도로 샘플의 분석 성공률을 예측할 수 있는 것을 알 수 있다.

Claims (15)

  1. 생체시료로부터 분리된 cfDNA의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계;
    특징 데이터가 수집된 cfDNA 라이브러리를 제작하여, 제작된 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 단계;
    수집된 cfDNA와 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 단계;
    분석 가능으로 판단받은 cfDNA와 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 단계를 포함하고,
    상기 예측 모델은 미리 수집된 DNA 특징 데이터들로부터 머신 러닝 기법을 이용하여 생성되는 것을 특징으로 하는, 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  2. 제1항에 있어서,
    상기 cfDNA의 특징 데이터는 전체 DNA 농도, DNA 크기, cfDNA 농도, 및 DNA 내 cfDNA의 비율로 이루어진 군으로부터 선택되는 1종 이상인 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  3. 제1항에 있어서,
    상기 cfDNA 라이브러리의 특징 데이터는 라이브러리의 농도 및 DNA의 크기 중 어느 하나 이상을 포함하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  4. 제1항에 있어서,
    특징 데이터와 관련된 측정방식은 형광 정량계 또는 전기영동 시스템인 것을 특징으로 하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  5. 제1항에 있어서,
    상기 예측 모델은,
    미리 수집된 DNA 특징 데이터들을 전처리하는 단계; 및
    전처리된 DNA 특징 데이터에 대한 머신 러닝을 수행하여 하기 식 1을 계산하고, 계산된 결과값을 최소화하는 모델을 설정하는 단계,
    를 수행하여 생성되는 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법:
    [식 1]
    Figure 112022086211051-pat00005

    식 1에서,
    C는 서포트 벡터 (support vector)와 초평면 (hyperplane)의 거리인 마진 크기를 조절하는 사용자 지정 파라미터 값이고,
    WT는 가중치 벡터의 전치 행렬 벡터이며,
    ε는 잘못 분류된 데이터 포인트들이 초평면 (hyperplane)에서 얼마나 멀리 떨어져 있는지를 나타내는 오차 값이다.
  6. 제5항에 있어서,
    전처리하는 단계는,
    미리 수집된 DNA 특징 데이터들 중 사분위 범위 값보다 3배 높은 데이터를 삭제하여 이상치 (outlier)를 제거하는 단계;
    이상치가 제거된 데이터를 Z-스코어 정규화하는 단계: 및
    정규화된 데이터에서 결측값 (missing data)이 존재하는 DNA 특징 데이터를 제거하는 단계,
    를 포함하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  7. 제5항에 있어서,
    전처리된 DNA 특징 데이터는 커널 함수에 의해 가공되는 것을 특징으로 하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  8. 제1항에 있어서,
    생체시료는 혈액, FFPE, 담즙, 소변, 타액 및 객담으로 이루어진 군으로부터 선택되는 1종인 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  9. 제1항에 있어서,
    차세대 염기서열 분석 (NGS) 결과는 염기서열 범위 (coverage), 크기 (size) 및 리드 길이 (read length)로 이루어진 군으로부터 선택되는 1종 이상인 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법.
  10. 생체시료로부터 분리된 cfDNA 및 cfDNA 라이브러리의 특징 데이터와 상기 특징 데이터와 관련된 측정 방식을 수집하는 수집부;
    수집된 cfDNA 및 cfDNA 라이브러리의 특징데이터와 상기 특징 데이터와 관련된 측정 방식을 예측 모델에 적용하여 차세대 염기서열 분석 (NGS)의 분석 가능 여부를 판단하는 분석부;
    분석 가능으로 판단받은 cfDNA 및 cfDNA 라이브러리의 특징 데이터로부터 차세대 염기서열 분석 (NGS) 결과를 산출하는 산출부를 포함하고,
    상기 예측 모델은 미리 수집된 DNA 특징 데이터들로부터 머신 러닝 기법을 이용하여 생성되는 것을 특징으로 하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템.
  11. 제10항에 있어서,
    cfDNA의 특징 데이터는 전체 DNA 농도, DNA 크기, cfDNA 농도, 및 DNA 내 cfDNA의 비율로 이루어진 군으로부터 선택되는 1종 이상인 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템.
  12. 제10항에 있어서,
    cfDNA 라이브러리의 특징 데이터는 라이브러리의 농도 및 DNA의 크기 중 어느 하나 이상을 포함하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템.
  13. 제10항에 있어서,
    분석부는 예측 모델을 설정 및 검증하기 위하여 미리 수집된 DNA 특징 데이터들을 포함하는 데이터 베이스를 구비하는 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템.
  14. 제10항에 있어서,
    생체시료는 혈액, FFPE, 담즙, 소변, 타액 및 객담으로 이루어진 군으로부터 선택되는 1종인 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템.
  15. 제10항에 있어서,
    차세대 염기서열 분석 (NGS) 결과는 염기서열 범위 (coverage), 크기 (size) 및 리드 길이 (read length)로 이루어진 군으로부터 선택되는 1종 이상인 차세대 염기서열 분석을 위한 샘플의 결과 예측 시스템.
KR1020200006615A 2020-01-17 2020-01-17 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템 KR102465244B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200006615A KR102465244B1 (ko) 2020-01-17 2020-01-17 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200006615A KR102465244B1 (ko) 2020-01-17 2020-01-17 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20210093000A KR20210093000A (ko) 2021-07-27
KR102465244B1 true KR102465244B1 (ko) 2022-11-10

Family

ID=77125609

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200006615A KR102465244B1 (ko) 2020-01-17 2020-01-17 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102465244B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101850437B1 (ko) 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G. Marceddu, "Analysis of machine learning algorithms as integrative tools (후략)", European Review for Medical and Pharmacological Science, 2019.
J. Akker, "A machine learning model to determine the accuracy of variant calls (후략)", BMC Genomics 19:263, 2018.

Also Published As

Publication number Publication date
KR20210093000A (ko) 2021-07-27

Similar Documents

Publication Publication Date Title
Patruno et al. A review of computational strategies for denoising and imputation of single-cell transcriptomic data
US20100088255A1 (en) Method and system for determining the accuracy of dna base identifications
WO2020198068A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
KR20220069943A (ko) 단일 세포 rna-seq 데이터 처리
US20190073445A1 (en) Identifying false positive variants using a significance model
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
CN116486913B (zh) 基于单细胞测序从头预测调控突变的系统、设备和介质
KR102465244B1 (ko) 차세대 염기서열 분석을 위한 샘플의 결과 예측 방법 및 시스템
KR102543757B1 (ko) 이종 플랫폼의 dna 메틸레이션 데이터를 이용한 암의 예후 예측용 바이오마커 발굴 방법 및 장치
WO2023196928A2 (en) True variant identification via multianalyte and multisample correlation
CN116612814A (zh) 基于回归模型的基因样本污染批量检测方法、装置、设备及介质
US9672271B2 (en) Method for identifying and employing high risk genomic markers for the prediction of specific diseases
Simon BRB-ArrayTools Version 4.3
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
Bouland et al. Differential dropout analysis captures biological variation in single-cell RNA sequencing data
CN110751983A (zh) 一种筛选特征mRNA用于诊断早期肺癌的方法
US20230053405A1 (en) Neural network for variant calling
Muhammad et al. Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification
Mukherjee et al. A theoretical analysis of the selection of differentially expressed genes
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
CN116978554B (zh) 一种多发性骨髓瘤预后数据处理方法、系统及设备
CN116030983B (zh) 一种基于机器学习的子宫内膜癌组织学等级预测方法
CN113571130B (zh) 一种简洁全面的拷贝数变异模式识别方法及其应用
Sun et al. W-Test for Genetic Epistasis Testing

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right