KR102659915B1 - 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 - Google Patents

환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 Download PDF

Info

Publication number
KR102659915B1
KR102659915B1 KR1020200174965A KR20200174965A KR102659915B1 KR 102659915 B1 KR102659915 B1 KR 102659915B1 KR 1020200174965 A KR1020200174965 A KR 1020200174965A KR 20200174965 A KR20200174965 A KR 20200174965A KR 102659915 B1 KR102659915 B1 KR 102659915B1
Authority
KR
South Korea
Prior art keywords
patient
genetic data
group
gene
people
Prior art date
Application number
KR1020200174965A
Other languages
English (en)
Other versions
KR20220085139A (ko
Inventor
이성영
고영일
윤홍석
송효진
Original Assignee
서울대학교병원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교병원 filed Critical 서울대학교병원
Priority to KR1020200174965A priority Critical patent/KR102659915B1/ko
Publication of KR20220085139A publication Critical patent/KR20220085139A/ko
Application granted granted Critical
Publication of KR102659915B1 publication Critical patent/KR102659915B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Primary Health Care (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)

Abstract

본 발명은 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용에 관한 것으로, 보다 상세하게는 전사편차점수(Transcriptional deviance score, 이하 'TDS'라 함)라는 새로운 지표를 활용한 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용에 관한 것이다.
본 발명이 제공하는 새로운 지표인 전사편차점수를 이용하면 질병의 진단, 예후 예측, 약물 반응성 예측 등에 활용될 수 있는 유전자군을 효과적으로 선별할 수 있으며, 이를 통해 환자의 임상 정보를 보다 정확하게 예측할 수 있는 예측모델을 제공할 수 있다.

Description

환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용{Method of gene selection for predicting medical information of patients and uses thereof}
본 발명은 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용에 관한 것으로, 보다 상세하게는 전사편차점수(Transcriptional deviance score, 이하 'TDS'라 함)라는 새로운 지표를 활용한 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용에 관한 것이다.
질병을 진단하고, 예후를 예측하며, 특정 환자에서 특정 약물의 반응성을 예측하는 것을 가능케하는 '바이오 마커'는 정밀의학(precision medicine) 및 맞춤형 의료(personalized medicine) 시대에서 그 중요성이 점점 증가하고 있다.
이와 같은 필요성에 의해 암, 염증성 질환, 자가면역질환과 같은 일반적이면서도 복합적인 질병과 연관성이 있는 마커 유전자를 찾기 위한 노력이 계속되고 있다. 현재까지, 질병 관련 유전자를 발굴하기 위하여 다양한 방법들이 시도되고 있으며 대체적으로는 특정 질병에서 특정 유전자가 얼마나 동시에 출현하는가에 대한 빈도를 가지고, 관련성을 통계나 수학적인 방법을 통해 측정하는 방법과 유전자 본체론을 이용한 관련성 측정 방법이 많이 시도되고 있다.
그러나, 이 같은 방법은 기존에 알려진 사실들에 의해 유전자의 질병 관련성이 밀접하게 반영되는 방법으로, 새로운 질병 관련 유전자군을 찾기에는 한계가 있고, 생물 시스템에서 질병과 관련된 유전자들의 복합적인 상관관계 등을 반영하지 못하고 있다.
이러한 연유로, 현재까지 보고된 질병 관련 바이오 마커들은 미래가 불확실한 잠재 환자의 발병, 예후, 약물 반응성 등을 일관되게 예측하는데 한계를 나타내고 있다.
또한, 바이오 마커를 선별했다고 하더라도 바이오 마커를 통해 환자의 임상적 정보를 정확하게 예측할 수 있는 마땅한 예측 모형이 존재하지 않아, 연구 단계에서 확인된 바이오 마커의 유용성이 실제 임상 현장에서 활용이 되지 못하는 문제가 존재하기도 한다.
이에, 본 발명자는 다양한 생물학적 현상을 일관되게 기술하고 종래의 유전자 마커와 비교해 질병 관련 정보를 보다 정확하게 예측할 수 있는 유전자군을 선별하고, 의학적 혹은 생물학적 가설에 대한 자료 간의 이질성(heterogeneity)에 의해 발생하는 예측 모형의 부정확성을 해결하기 위해, 해당 가설에 알맞은 도메인 지식을 기반으로 전사편차점수라는 새로운 지표를 제시하고, 이에 기초하여 예측 모형을 구축함으로써 종래기술의 문제점을 극복하고자 하였다.
따라서, 본 발명의 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 단계;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계; 및
(i) 상기 예측모델의 예측력을 평가하는 단계를 포함하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법을 제공하는 것이다.
본 발명의 다른 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 단계;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계;
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 단계;
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 단계; 및
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 단계를 포함하는, 환자의 비-유전자 데이터 예측 방법을 제공하는 것이다.
본 발명의 다른 목적은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 데이터 수신부 A;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자가 선별되어 입력되는 입력부;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 필터링부;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 행렬 생성부;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 연산부;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 전사 점수 산출부;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 전사 편차 점수 산출부;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 예측모델 구축부;
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 데이터 수신부 B;
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 전사 편차 점수 산출부 B; 및
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 예측부를 포함하는, 환자의 비-유전자 데이터 예측 장치를 제공하는 것이다.
전술한 본 발명의 목적을 달성하기 위하여, 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 단계;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계; 및
(i) 상기 예측모델의 예측력을 평가하는 단계를 포함하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법을 제공한다.
본 발명의 다른 목적을 달성하기 위하여, 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 단계;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계;
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 단계;
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 단계; 및
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 단계를 포함하는, 환자의 비-유전자 데이터 예측 방법을 제공한다.
본 발명의 다른 목적을 달성하기 위하여, 본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 데이터 수신부 A;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자가 선별되어 입력되는 입력부;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 필터링부;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 행렬 생성부;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 연산부;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 전사 점수 산출부;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 전사 편차 점수 산출부;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 예측모델 구축부;
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 데이터 수신부 B;
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 전사 편차 점수 산출부 B; 및
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 예측부를 포함하는, 환자의 비-유전자 데이터 예측 장치를 제공한다.
이하, 본 발명에 대해 상세히 설명한다.
본 발명은 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 단계;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계; 및
(i) 상기 예측모델의 예측력을 평가하는 단계를 포함하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법을 제공한다.
이하, 본 발명이 제공하는 상기 방법의 각 단계를 보다 구체적으로 설명한다.
(a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
상기 (a) 단계는 임상적으로 수집된 환자의 유전자 데이터 및 비-유전자 데이터를 기반으로, 비-유전자 데이터와 연관성이 높은 유전자군을 선별을 위한 데이터베이스를 확보하는 단계이다.
본 발명에서 상기 '환자'란 특정 질병에 걸린 피검체만을 의미하는 것이 아니며, 건강한 피검체(즉, 대조군)도 포함하는 것으로 이해될 수 있다. 상기 환자의 범위는 특별히 제한되지 않으며 어떠한 원인에 의하든 의료기관에 유전자 데이터 및 비-유전자 데이터를 남긴 피검체를 의미할 수 있다. 또한, 상기 환자는 특정 질병에 의해 사망한 이후에 유전자 데이터 및 비-유전자 데이터가 확보된 피검체도 포함하는 것으로 이해될 수 있다. 바람직하게는, 상기 환자는 본 발명의 방법에 따라 임의의 유전자군과의 연관성을 분석하고자 하는 특정 질병에 걸린 환자이거나, 특정 질병에 걸린 것으로 의심되는 환자이거나, 특정 질병에 걸린 것으로 의심되었으나 건강한 것으로 판정된 환자이거나, 특정 질병에 걸린 것으로 의심되고 실제 질병에 걸린 것으로 판정된 환자이거나, 특정 질병에 걸린 것으로 판정된 이후에 완치된 환자이거나, 특정 질병에 걸린 것으로 판정된 이후에 사망한 환자이거나 또는 특정 질병이 완치된 이후에 재발한 환자일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 '질병'이란 본 발명의 방법에 따라 임의의 유전자군과의 연관성을 확보하고자 하는 비정상적인 병리상태를 의미하는 것으로, 그 종류가 특별히 제한되는 것은 아니다. 상기 질병은, 예를 들어, 암, 면역성 질환, 염증성 질환, 바이러스성 질환, 감염성 질환, 대사성 질환 또는 퇴행성 신경질환일 수 있다.
본 발명에서 상기 '유전자 데이터'란 환자로부터 제공된 생물학적 시료에서 측정된 유전체(genome) 정보로서, 유전자 발현량, 단일염기 다형성 및 유전자 돌연변이로 이루어진 군에서 선택된 1종 이상이 벡터로 제공되는 것을 의미할 수 있으며, 바람직하게는 유전자 발현량일 수 있다.
상기 유전자 데이터는 환자로부터 제공된 생물학적 시료를 전유전체 시퀀싱(WGS, Whole Genome Sequencing), 전엑솜 시퀀싱(WES, Whole Exome Sequencing), 마이크 로어레이(Microarray), 타켓 시퀀싱(Target Sequencing), 생어 시퀀싱(Sanger sequencing), 전기영동법(Electrophoresis), 차세대염기서열분석법(NGS), 알엔에이 시퀀싱(RNA Sequenicng), 중합효소연쇄반응법(PCR), 전기영동법(Electrophoresis) 등의 유전자 분석 방법을 통해 분석한 데이터일 수 있다.
상기 유전자 데이터는 기 구축된 데이터베이스로부터 제공받을 수 있으며, 또는 필요에 따라 환자로부터 확보된 생물학적 시료에서 공지된 유전자 분석방법에 따라 분석되고 처리된 데이터일 수도 있다.
본 발명에서 상기 '비-유전자'데이터란 환자로부터 수득된 질병 진단 데이터, 질병 예후 데이터, 약물 반응 데이터, 병리학 데이터, 생화학 데이터 또는 이들의 임의의 조합을 포함할 수 있으며, 바람직하게는 질병 진단 데이터, 질병 예후 데이터, 약물 반응성 데이터 또는 이들의 조합일 수 있다.
상기 질병 진단 데이터는 환자가 특정 질병에 걸린 것으로 진단되었는지 여부, 진단 시점에서의 연령, 성별, 기타 임상정보 등을 포함하며, 바람직하게는 특정 질환의 진단 여부를 의미할 수 있다.
상기 질병 예후 데이터란 환자가 특정 질병에 걸린 것으로 진단된 이후 진행 경과를 의미하는 것으로, 사망률, 재발율, 완치율, 질병 경과의 좋고 나쁨의 정도 등을 포함한다.
상기 약물 반응성 데이터는 특정 약물을 투여 받은 특정 질환의 환자에서 약효의 발휘 정도를 의미하는 것으로, 약물을 투여한 이후에 질병의 치료율, 재발율, 사망률, 질병 경과의 좋고 나쁨의 정도, 약물을 투여한 시점의 및 중단한 시점에서의 환자의 질병의 진행 정도, 약물의 투여 농도 등을 포함한다.
본 발명에서 상기 유전자 데이터 및 비-유전자 데이터는 동일한 환자로부터 확보된 것이며, 유전자 데이터 및 비-유전자 데이터 중 어느 한 가지 데이터만 확보된 환자의 데이터는 본 발명의 상기 (a) 단계에서 제외되는 것이 바람직하다.
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
본 발명에서 상기 (b) 단계는 실시자가 관심을 갖고 있는, 환자의 비-유전자 데이터 중 어느 한 가지 이상, 바람직하게는 어느 한 가지와의 연관성이 공지된 유전자를 선별하는 단계이다.
본 발명에서 상기 비-유전자 데이터와의 연관성이 공지된 유전자는 본 발명이 속하는 기술분야에서 일반적으로 질병의 '진단 마커', '예후 마커', '약물 반응성 마커' 등으로 불리는 '바이오 마커' 유전자 또는 상기 바이오 마커 단백질을 코딩하는 유전자로 쉽게 이해될 수 있다.
보다 구체적으로는, 상기 유전자는 비-유전자 데이터, 예를 들어 질병의 진단, 질병의 예후 또는 약물의 반응성 정도와 양의 상관관계 또는 음의 상관관계가 공지된 유전자일 수 있다.
바람직한 일 구현예에 따르면, 상기 질병 관련 유전자는 특정 유전자의 발현이 증가되어 있는 환자에서 특정 질병의 진단 가능성이 증가하거나, 질병의 예후가 나쁘거나 또는 약물의 반응성이 증가하거나, 또는 이와 반대되는 등 유전자의 발현 경향성이 비-유전자 데이터의 경향성과 직접적인 상관관계가 있음이 공지된 유전자일 수 있다.
상기 비-유전자 데이터와의 연관성이 공지된 유전자는 1종 이상일 수 있으며, 이 경우 복수의 질병 관련 유전자가 선별될 수 있다.
본 발명에서 상기 질병 관련 유전자는 종래 공지된 데이터베이스를 통해서 선별할 수 있으며, 상기 공지된 데이터베이스는, 예를 들어 OMIM(Online Mendelian Inheritance in Man), Genetic Association Database, KEGG DISEASE, PharmGKB, Cancer Gene Census, HuGE Navigator, PharmGKB, ClinVar 또는 Leiden Open Variation Database일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 상기 유전자는 공지된 문헌 검색을 통해 선별되거나, 실험을 통해 새롭게 규명하여 선별될 수도 있다.
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
본 발명에서 상기 (c) 단계는 상기 (b) 단계에서 선별된 1종 또는 그 이상의 유전자와 달리 상기 비-유전자 데이터와의 직접적인 연관성이 공지되어 있지는 않지만, 상기 비-유전자 데이터와 직간접적으로 연관성이 있을 가능성이 높은 유전자 후보군을 선정하기 위하여 도메인 지식(domain knowledge)을 활용하는 단계이다.
본 발명의 일 양태에 따르면, 본 발명에서 상기 (b) 단계에서 선별된 유전자와 네트워크를 형성하는 유전자군이란 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 질병 관련 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 집단을 의미하는 것일 수 있다.
예를 들어, 상기 (b) 단계에서 선별된 유전자가 특정 질병에서의 약물 반응 관련 유전자였다면, 이와 네트워크를 형성하는 유전자군이란 약물의 생물학적 작용 기전에 관여하고 있는 유전자군을 의미할 수 있다.
본 발명에서 “유전자 네트워크(gene network)”의 용어는 유전자들간에 서로 복잡하게 연결된 네트워크를 나타내기 위한 용어로서, 유전자들이 노드들(nodes)로 표현되고 유전자들 간의 연결들은 에지들(edges)로 표현된 유전자 집단을 의미할 수 있다.
본 발명에서 정의하는 상기 유전자 네트워크의 종류는 크게 발현, 단백질 상호작용, 전사조절 네트워크가 포함될 수 있으나, 이에 제한되는 것은 아니다.
상기 발현 네트워크는 유전자 발현 데이터를 활용하여 특정 환경 또는 형질에서 발현 차이를 보이는 유전자들을 대량 발굴하여, 유전자들 사이에서 공발현을 가지고 있는 관계가 규명된 유전자군을 의미한다.
상기 단백질 상호작용 네트워크는 상호간에 물리적 접촉을 나타내는 단백질 네트워크, 특정 단백질의 기능이 타 단백질의 기능 발현에 직접적으로 영향을 주는 단백질 네트워크, 또는 이를 코딩하는 유전자군을 의미한다.
상기 전사조절 네트워크는 조절인자와 표적인자의 관계로 설명되는 네트워크이다. 보다 구체적으로는, 특정 대사경로에 참여하는 단백질군의 발현이 그들에게 공통적으로 특이성을 갖는 전사조절인자에 의해 결정되는 경우, 이들 전사조절인자들과 그들의 표적유전자들 간의 종속관계를 갖는 네트워크이다.
상기 유전자 네트워크는 현재 많은 논문들, 특허들을 통해 접할 수 있는 개념으로서, 당해 기술분야의 통상의 기술자라면 상기 예시한 유전자 네트워크 이외에도 그 범위와 의미를 명확하게 이해할 수 있다.
본 발명의 다른 일 양태에 따르면, 본 발명에서 상기 (b) 단계에서 선별된 유전자와 유전자 네트워크를 형성하는 유전자군은 상기 유전자와 직접적인 네트워크를 형성하고 있는 유전자군으로 제한되지 않는다.
즉, 본 발명에서 정의되는 상기 (c) 단계에서의 유전자군은 통상적인 의미의 유전자 네트워크를 포함할 뿐 아니라 하기 단계를 포함하는 방법에 따라 선별된 유전자군도 포함될 수 있다:
(c1) 상기 (b) 단계에서 선별된 유전자와 동일한 생물학적 기능을 나타내는 유전자군; 및 상기 (b) 단계에서 선별된 유전자와 연관성이 공지된 비-유전자 데이터에 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 선별하는 단계; 및
(c2) 상기 (c1) 단계에서 선별된 유전자군과 유전자 네트워크를 형성하는 유전자군을 선별하는 단계.
상기 (c2) 단계에서 정의된 '유전자 네트워크'는 전술한 통상적인 의미의 유전자 네트워크를 의미한다.
본 발명의 상기 (c) 단계는 상기 비-유전자 데이터와 연관성이 공지된 유전자와 직간접적으로 상호작용하여 상기 비-유전자 데이터에 영향을 미칠 가능성이 있는 유전자를 1차적으로 선별하는 과정이므로, 종래 공지된 유전자 네트워크 이외에도 다양한 도메인 지식을 활용한 문헌 조사, 분석 등을 통해 그 범위가 충분히 확장되는 것이 바람직할 수 있다.
상기 공지된 유전자 네트워크는 기 구축된 데이터베이스를 통해서 확보할 수 있으며 상기 데이터베이스는, 예를 들어, HPRD, BioGrid, IntAct, MINT, DIP, iRefWeb data, pathway map, MsigDB 등이 포함될 수 있으나 이에 제한되는 것은 아니다.
본 발명에서 상기 '필터링'이란 상기 (a) 단계에서 수신한 환자의 유전자 데이터 중에서 상기 (b) 단계에서 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군에 대한 데이터만을 이후의 절차에서 활용하고, 나머지 유전자 데이터는 이후의 절차에서 활용하지 않는 것을 의미한다.
본 발명에서는 상기 (a) 단계에서 유전자 데이터를 수신한 이후에 유전자를 필터링하는 것으로 설명하였으나, 상기 (b) 단계 및 (c) 단계를 통해서 질병 관련 유전자 및 이와 유전자 네트워크를 형성하는 유전자군을 먼저 선별한 후, 상기 선별된 유전자군에 대한 환자의 유전자 데이터만 수신하는 것으로 단계가 변경될 수 있다.
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
본 발명에서 상기 (d) 단계는 상기 (c) 단계에서 필터링된 상기 환자군 A(q명)의 유전자(p개) 데이터를 이용하여 p ⅹ q의 Z 행렬을 생성하는 단계이다.
상기 p ⅹ q의 행렬에서 각 행렬의 값은 상기 환자의 유전자 데이터를 벡터화한 수치이며, 바람직하게는 필터링된 각 유전자의 발현량일 수 있다.
본 발명에서 상기 유전자 데이터를 벡터화한 수치란 정량적인 수치로 표현 가능한 유전자 발현량의 경우 유전자의 발현량 값, 정량적인 수치로 표현되지 않는 유전자 데이터, 예를 들어, 유전자 돌연변이, SNP(single nucleotide polymorphism) 등의 경우 발현 또는 미발현으로 이분화하여 0 또는 1로 표현하는 방법을 의미한다.
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수( R 2 ) 행렬을 생성하는 단계;
본 발명에서 상기 상관계수 산출은 당업계에 공지된 임의의 방법을 사용하여 수행될 수 있으며, 이의 비제한적인 예시로 코사인 유사도 (Cosine Similarity) 측정 기법, 피어슨 상관계수(Pearson Correlation Coefficient), 스피어만 상관계수(Spearman Correlation Coefficient), 켄달 상관계수(Kendall Correlation Coefficient) 등을 들 수 있다.
본 발명의 바람직한 일 양태에서, 상기 상관계수는 피어슨 상관계수(Pearson Correlation Coefficient)일 수 있으며, 상기 피어슨 상관계수는 하기 식에 따라 계산될 수 있다.
(상기 Z 행렬에서 i 번째 환자 표본의 j 번째 유전자 데이터 값을 로 표현함)
상기 상관계수 i 번째 유전자와 k 번째 유전자 간의 상관 정도를 의미하며, 계수값의 부호는 상관성에 대한 방향성을 의미한다.
상관계수의 제곱은 j 번째 유전자와 k 번째 유전자가 서로를 어느 정도 설명하는지를 나타내는 결정계수로 통용되며, 본 발명에서 결정계수는 아래와 같은 수식으로 계산될 수 있다.
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
본 발명에서 제안하는 전사편차점수(Transcriptional Deviance Score, 이하 )란 통계학의 개념 중 하나인 편차(deviance)로부터 창안한 개념이다. 통계적 편차는 주어진 통계모형의 적합도를 판별하는 개념으로써, 전체 모형의 로그가능도()와 전체 모형의 일부분인 축소된 모형의 로그가능도()의 차로 표현된다. 본 발명의 전사편차점수는 이를 반영하여 표본 집단 “전체”로부터 계산한 전사점수(TSfull)와 “i 번째 표본에 대한 행렬 값을 제외했을 때”의 전사점수(TS(- i ))의 차를 계산함으로써 얻을 수 있다.
상기 식 1 및 식 2에 따라 계산한 TDS 값은 각 환자마다 구할 수 있으므로 환자수(q명)에 대응되는 개수의 TDS값과, 각 환자별 TS값을 산출할 수 있다.
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계;
본 발명의 상기 (h) 단계에서는 상기 각 환자의 TDS값을 학습용 입력 데이터, 상기 환자들의 비-유전자 데이터에 대한 판정값을 학습용 출력 데이터로 하는 수학적 학습을 통해 예측모델을 생성할 수 있다.
본 발명에서 상기 "예측모델"이란 환자의 비-유전자 데이터 예측모델을 의미한다. 보다 구체적으로는, 상기 학습용 입력 데이터와 학습용 출력 데이터의 수학적 관계를 분석하여 상기 각 환자의 TDS값에 따른 환자의 비-유전자 데이터를 예측하는 입출력함수를 의미한다.
상기 예측모델은 그 종류가 특별히 제한되지 않으나, 일반화 선형 모델(generalized linear model), 최소 제곱 모델 (least squares model), 로지스틱 회귀분석 모델(logistic regression model), 선형 회귀분석 모델 (linear regression model), LASSO 회귀분석 모델(least absolute shrinkage and selection operator regression model), 선형 판별분석 모델 (linear discriminant analysis model), 능형 회귀분석 모델 (ridge regression model), 서포트 벡터 머신 모델(support vector machine model) 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 이루어진 군에서 선택될 수 있다.
본 발명의 상기 (h) 단계에서는 TDS를 단독 변수로 고려하여 환자의 비-유전자 데이터와의 관계를 나타내는 예측모델을 구축할 수도 있고, 또는 상기 환자의 비-유전자 데이터를 예측하기 위해 당업계에서 종래 사용되고 있던 변수들과 함께 예측모델을 구축할 수도 있다.
본 발명의 일 양태에서, 상기 (h) 단계에서는 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 다양한 예측모델을 구축한 후, 이후의 단계에서 각 예측모델의 예측력을 평가하여 검증함으로써 최적의 예측모델을 선정할 수 있다.
(i) 상기 예측모델의 예측력을 평가하는 단계;
본 발명에서 상기 (i) 단계에서는 상기 (h) 단계에서 구축된 예측모델의 정확도를 평가하고, 최적의 예측모델을 선정하는 단계이다. 상기 예측모델의 “예측력을 평가”한다는 것은 상기 예측모델의 “성능을 검증”한다는 것과 동일하게 이해될 수 있다.
본 발명의 상기 (i) 단계에서 예측모델의 예측력을 평가하는데 사용되는 방법은 특별히 제한되지 않으며, 독립변수(x)와 종속변수(y) 사이의 연관성을 확인하기 위해 통상적으로 사용되는 수학적 방법(통계적 혹은 컴퓨팅적 방법을 포함)을 사용할 수 있다. 예를 들어, 종속변수에 해당하는 비-유전자 데이터가 연속형일 때 상관분석 및 회귀분석 등을, 비-유전자 데이터가 불연속형일 때 t-test, chi-square test, 로지스틱 회귀분석 등을 사용할 수 있다. 지도학습으로 상기 예측모델의 예측력을 검증할 경우, 비-유전자 데이터가 연속형일 때 회귀분석을, 비-유전자 데이터가 불연속형일 때 로지스틱 회귀분석, K-최근접이웃알고리즘, 결정트리 등을 사용할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 일 양태에서, 상기 예측모델의 예측력은 ROC의 곡선 아래 면적(AUC), 밸런스 정확도(BA), 민감도, 특이도, 양성 예측값(PPV), 음성 예측값(NPV), 위양성률(FPR), 위발견율(FDR) 및 F1 스코어로 이루어진 군에서 선택된 하나 이상의 결과에 의해 평가될 수 있다.
본 단계에서는 ROC(Recver Operating Characteristics) 곡선의 곡선 하 면적(AUC)을 기준으로 구축된 모델의 정확도를 평가하고 정확도가 높은 모델을 최적의 모델로 선정할 수 있다.
본 발명의 다른 일 양태에서, 상기 예측모델의 예측력 평가는 교차 검증(cross-validation) 방법에 의해 수행되는 것을 특징으로 할 수 있다. 구체적으로, 상기 단계에서는 전체 환자의 데이터 세트를 무작위 비반복 추출을 통해 미리 설정된 수의 서브데이터 세트로 분류하고, n개(n은 자연수, n은 예를 들면, 1일 수 있음)의 서브데이터 세트는 상기 예측모델의 검증 데이터 세트로, 나머지 서브데이터 세트는 하나의 데이터 세트로 묶어 상기 예측모델의 예측력을 평가할 수 있다.
상기 (i) 단계에서 예측모델의 예측력을 평가한 결과 환자의 비-유전자 데이터 예측력이 우수한 것으로 평가된 경우, 상기 TDS 산출에 사용된 상기 (c) 단계에서의 유전자군(p개)이 환자의 비-유전자 데이터를 정확하게 예측할 수 있는 유전자군인 것으로 판단할 수 있다.
또한, 상기 (i) 단계에서 예측모델의 예측력을 평가한 결과 환자의 비-유전자 데이터 예측력이 우수한 것으로 평가된 경우, 상기 유전자군(p개)를 이용하여 산출된 TDS가 환자의 비-유전자 데이터를 예측하는 지표로서 활용이 가능하다고 판단할 수 있다.
본 발명은 또한 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 선별하는 단계;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 단계;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계;
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 단계;
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 단계; 및
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 단계를 포함하는, 환자의 비-유전자 데이터 예측 방법을 제공한다.
본 발명이 제공하는 상기 방법은 전술한 TDS를 이용하여, 비-유전자 데이터 정보를 알지 못하는 임의의 환자 비-유전자 데이터를 예측하는 방법에 관한 것이다.
상기 "임의의 환자의 비-유전자 데이터를 예측하는 방법"이란, 환자의 비-유전자 예측에 유용한 정보를 제공하기 위하여 TDS라는 신규한 변수를 활용하는 것을 의미한다.
상기 (a) 내지 (h) 단계는 전술한 각 단계의 설명이 동일하게 적용될 수 있다.
본 발명의 일 양태에서, 상기 (h) 단계 이후에 상기 (h) 단계에서 구축한 예측모델의 예측력을 평가하는 단계가 추가로 수행될 수 있다.
본 발명의 다른 일 양태에서, 상기 (h) 단계 이후 상기 TDS에 기초하여, 분류 기준점(cut-off/threshold value)을 설정하고, 상기 TDS의 민감도(sensitivity) 및 특이도(specificity)를 산출하여 상기 예측모델의 예측력을 평가하는 분류 기준점을 설정하는 단계; 및 상기 설정된 분류 기준점을 토대로 상기 환자군 A의 비-유전자 데이터의 성질을 구분하는 단계가 추가로 수행될 수 있다.
본 발명에서 상기 분류 기준점(cut-off/threshold value)은 추정회귀계수 값으로 예측확률을 구하기 위하여 ROC 곡선 분석을 수행할 수 있고, 이때, 민감도 및 특이도의 합을 구함으로써 분류 기준점으로 설정할 수 있다. 보다 구체적으로, ROC 곡선의 유덴 인덱스(Youden index)를 사용하여 분류 기준점을 설정할 수 있다.
또는, 본 발명에서 상기 분류 기준점(cut-off/threshold value)은 유덴 인덱스(Youden index or Youden's J statistic), 균형 정확도 인덱스(index of balanced accuracy) 또는 이의 조합을 이용하여 설정될 수 있다.
본 발명에서 상기 분류 기준점(cut-off/threshold value)은 목적에 따라 1 내지 4개의 범위 내에서 설정될 수 있으며, 바람직하게는 1 내지 2개의 범위 내에서 설정될 수 있다.
본 발명에서 상기 비-유전자 데이터의 성질의 구분은 (i) 질병 발생 고위험군 및 저위험군의 구분; (ii) 질병 예후 불량군 및 양호군의 구분; 또는 (iii) 약물 비반응군 및 반응군의 구분일 수 있다.
또는, 본 발명에서 상기 비-유전자 데이터의 성질의 구분은 (i) 질병 발생 고위험군, 중위험군 및 저위험군의 구분; (ii) 질병 예후 불량군, 중간군 및 양호군의 구분; 또는 (iii) 약물 비반응군, 중간군 및 반응군의 구분일 수 있다.
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 단계;
본 단계에서 상기 환자군 B(t명)은 질병의 발생 가능성, 질병의 예후, 약물 반응성 등과 같은 비-유전자 데이터를 예측하고자 하는 임의의 환자군을 의미한다.
상기 환자군 B(t명)의 유전자 데이터는 바람직하게는 상기 (c) 단계에서 환자군 A의 유전자군을 필터링했던 유전자군(p개)의 데이터일 수 있다.
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 단계;
본 단계에서는 상기 환자군 A(q명)의 TDS를 산출한 방법과 마찬가지로 상기 환자군 A 및 환자군 B(q+t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t)의 TDS를 산출한다.
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 단계;
본 단계에서는 상기 (j) 단계에서 산출한 환자군 B(t명) 각각의 TDS를 상기 (h) 단계의 예측모델이 입력하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측한다.
본 발명의 바람직한 일 양태에서, 상기 (h) 단계 이후에 상기 TDS에 기초하여 환자의 비-유전자 데이터의 분류 기준점(cut-off/threshold value)을 설정하고, 상기 분류 기준점에 근거하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측할 수 있다.
본 발명의 일 구체예에서, 상기 비-유전자 데이터가 환자의 질병 진단 데이터인 경우, 상기 하나의 분류 기준점을 기준으로 상기 예측모델이 질병 발생 고위험군 또는 저위험군으로 구분되며, 상기 예측모델에 따라 산출된 환자군 B(t명)의 질병 발생 위험도를 상기 분류 기준점에 따라 예측할 수 있다.
본 발명의 다른 일 구체예에서, 상기 비-유전자 데이터가 환자의 질병 진단 데이터인 경우, 상기 두 개의 분류 기준점을 기준으로 상기 예측모델이 질병 발생 고위험군, 중위험군 또는 저위험군으로 구분되며, 상기 예측모델에 따라 산출된 환자군 B(t명)의 질병 발생 위험도를 상기 분류 기준점에 따라 예측할 수 있다.
본 발명의 일 구체예에서, 상기 비-유전자 데이터가 환자의 질병 예후 데이터인 경우, 상기 하나의 분류 기준점을 기준으로 상기 예측모델이 질병 예후 불량군 또는 양호군으로 구분되며, 상기 예측모델에 따라 산출된 환자군 B(t명)의 질병 예후를 상기 분류 기준점에 따라 예측할 수 있다.
본 발명의 다른 일 구체예에서, 상기 비-유전자 데이터가 환자의 질병 예후 데이터인 경우, 상기 두 개의 분류 기준점을 기준으로 상기 예측모델이 질병 예후 불량군, 중간군 또는 양호군으로 구분되며, 상기 예측모델에 따라 산출된 환자군 B(t명)의 질병 예후를 상기 분류 기준점에 따라 예측할 수 있다.
본 발명의 일 구체예에서, 상기 비-유전자 데이터가 환자의 약물 반응성 데이터인 경우, 상기 하나의 분류 기준점을 기준으로 상기 예측모델이 약물 비반응군 또는 반응군으로 구분되며, 상기 예측모델에 따라 산출된 환자군 B(t명)의 약물 반응성을 상기 분류 기준점에 따라 예측할 수 있다.
본 발명의 다른 일 구체예에서, 상기 비-유전자 데이터가 환자의 약물 반응성 데이터인 경우, 상기 두 개의 분류 기준점을 기준으로 상기 예측모델이 약물 비반응군, 중간군 또는 반응군으로 구분되며, 상기 예측모델에 따라 산출된 환자군 B(t명)의 약물 반응성을 상기 분류 기준점에 따라 예측할 수 있다.
본 발명은 또한 (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 데이터 수신부 A;
(b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자가 선별되어 입력되는 입력부;
(c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 필터링부;
(d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 행렬 생성부;
(e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R 2 ) 행렬을 생성하는 연산부;
(f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 전사 점수 산출부;
[식 1]
(상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
(g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 전사 편차 점수 산출부;
[식 2]
TDS(i)=TSfull-TS(- i )
(상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
(h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 예측모델 구축부;
(i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 데이터 수신부 B;
(j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 전사 편차 점수 산출부 B; 및
(k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 예측부를 포함하는, 환자의 비-유전자 데이터 예측 장치를 제공한다.
본 발명이 제공하는 새로운 지표인 전사편차점수를 이용하면 질병의 진단, 예후 예측, 약물 반응성 예측 등에 활용될 수 있는 유전자군을 효과적으로 선별할 수 있으며, 이를 통해 환자의 임상 정보를 보다 정확하게 예측할 수 있는 예측모델을 제공할 수 있다.
도 1은 본 발명의 방법에 따라 전사편차점수(TDS)를 산출하는 과정을 나타낸 모식도이다.
도 2는 TDS 및 종래 공지된 마커를 이용하여 PD-1 억제제에 대한 약물 반응성을 예측하는 예측모델을 구축하고, 이들의 예측력을 k-겹 교차검증 방법으로 평가한 결과이다(좌측: 5-fold, 우측: 10-fold).
도 3은 비-유전자 데이터 정보가 없는 환자군 B(t명)이 추가된 경우, TDS 기반의 회귀 모델을 훈련 모델(training model)을 기반으로 하여, 해당 환자군의 약물 반응 여부를 예측한 결과를 예시로 나타낸 것이다. 약물 반응 여부는 다음과 같이 3 가지로 분류하여 예측할 수 있다고 가정된다: 비반응군(Non-Responding), 중간군(Grey zone) 및 반응군(Responding). 이 때, 중간군은 유덴 지수(Youden index 혹은 Youden's J statistic)에 따라, 민감도 및 특이도 수치가 동시에 최댓값인 시점을 기준으로 정의된다.
이하, 본 발명을 하기 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하기 위한 것일 뿐, 본 발명이 이들에 의해 제한되는 것은 아니다.
1. 데이터셋의 구성 및 관련 정보
본 실시예를 수행하기 위해, 약물의 치료 반응 정보와 짝 지어진 환자의 유전자 데이터셋 (즉, 형태의 표본 집단 행렬 Z)이 필요하다. 따라서, 2 가지 독립적인 흑색종 환자 데이터셋을 사용하였으며, 각 데이터셋은 면역 관문 억제제 (immune checkpoint inhibitor, ICI)의 일종인 Programmed cell death protein 1 (PD-1) 억제제 치료를 받은 흑색종 환자들의 종양 세포에서 추출한 RNA를 이용하여 생산한 데이터이다.
위에서 언급한 2 가지 데이터셋은 Science Citation Index (SCI) 학술지에 출판된 2 건의 연구 논문에서 생산 및 보고되어 있으며, 상세 내용은 아래 표 1에 나타냈다.
각 데이터셋의 약물 치료 반응 정보에 따르면, PD-1 억제제에 대한 치료 반응은 아래 표 2와 같이 구분될 수 있다.
본 실시예에서는 효과적인 예측 모델 구축을 위해, 치료 반응이 명확한 양 극단에 해당하는 표본들 (즉, 완전 관해/부분 관해=responder 및 진행=nonresponder)을 선별하여 사용하였다. 추가로, 타 교란 요인(confounder)을 최소화하기 위해, PD-1 억제제 투여 받기 전 시점에서 수집된 종양 세포를 표본 데이터로 선별하여 사용하였다.
최종적으로, 본 실시예에 사용된 선택된 표본 수를 아래 표 3에 나타내었다.
2. 도메인 지식을 활용한 유전자군의 선별
본 실시예에서 사용한 유전자군은 해당 분야 (생물정보학) 전문가에 의한 심층 문헌 조사를 기반으로 선정되었다. 해당 과정에서의 선별은 상기 언급된 PD-1 억제제 및 면역관문조절인자들의 생물학적 메커니즘에 관여하는 유전자가 포함되었다. 이 때, 각 유전자의 수용체-리간드 상호작용(receptor-ligand interaction)에 따라 각각의 결합 파트너를 짝 지어 구성하여, 최종 유전자 군에 모두 포함하였다.
3. TDS를 이용한 약물 반응성 예측모델의 효능 평가
(1) TDS를 이용한 예측모델의 구축
상기 선별된 환자의 유전자 데이터셋을 상기 도메인 지식을 통해 선별된 유전자군으로 필터링하여 행렬(N X P)을 생성하였다.
상기 행렬로부터 피어슨 상관계수 행렬 및 결정계수 행렬을 산출하고, 전술한 식 1 및 식 2에 따라 전사점수(TS) 및 각 환자의 전사편차점수(TDS)를 산출하였다(도 1).
상기 각 환자의 TDS와 약물 반응성 정보를 변수로 예측모델을 구축하였다.
본 실시예에서는 예측 변수를 선택하고 약물 치료 반응에 대한 예측 모델을 구축하는 과정에서 least absolute shrinkage and selection operator (LASSO) 회귀 분석법을 응용하여 적용하였다. 이외에도, 적용 가능한 방법으로는 서포트 벡터 머신 (support vector machine (SVM)) classifier를 사용하여 변수를 선택하고 이를 기반으로 지도 학습 모델을 구축하는 방법이 활용될 수 있다.
(2) 공지의 변수를 이용한 예측모델의 구축
본 실시예에서는 TDS 기반의 예측모델과의 성능을 비교하기 위하여, 공지의 변수를 이용한 예측모델을 병행하여 구축하였다. 이 때, 예측모델을 구축하는 방법은 TDS 기반의 예측모델에 사용된 방법과 동일한 방법인 일반화 선형 회귀 모델 (generalized linear regression model) 방법을 사용하였다.
해당 예측모델의 구축 과정에는, 면역관문억제제의 타겟으로 잘 알려진 다음과 같은 유전자의 발현량을 공지의 변수로 사용하였다: PD-1, PD-L1, PD-L2 및 CTLA-4. 각 유전자에 대한 기능 및 약제로서의 쓰임새에 대한 정보는 미국 암 학회(American Cancer Society) 웹 페이지(https://www.cancer.org/treatment/treatments-and-side-effects/treatment-types/immunotherapy/immune-checkpoint-inhibitors.html)에 공개되어 있으며, 2017년 임상 암 연구 (Clinical Cancer Research) 학술지 및 다양한 국제 연구 학술지에 보고된 바 있다 (https://clincancerres.aacrjournals.org/content/23/12/3158). 해당 자료에 따르면, PD-1은 T세포라는 면역 세포에서 발현하며, PD-L1 및 PD-L2와 결합함으로써 T세포를 무력화시키는 역할을 한다. 또한, CTLA-4의 경우에도, PD-1과 유사하게, T세포의 기능을 저해하는 역할을 하는 것으로 알려져 있다. 따라서 면역관문억제제의 개발 과정에 이와 같은 면역관문조절인자들의 기능을 제어하는 메커니즘을 반영하였다. 즉, 앞서 언급한 물질들의 발현을 억제함으로써, 체내 면역 시스템을 구성하는 T세포가 암세포를 인식하여 공격할 수 있는 환경을 조성하며, 결과적으로는 암세포를 제거하도록 유도한다.
(3) 예측모델에 대한 검증 및 성능 평가
상기 구축된 각 모델의 예측력 검증 및 성능을 평가하기 위해, 두 가지 데이터셋을 병합하여 k-겹 교차 검증(k-fold cross validation)을 진행했다. 교차 검증 결과의 일관성 (consistency) 및 안정성 (stability)을 유지하기 위해, 두 가지 경우(5-fold 및 10-fold)에서 교차 검증을 진행하였고, 동일한 방법을 100 번 반복한 AUC 평균 값 (mean AUC)을 계산하였다.
그 결과 도 2에 나타낸 바와 같이, 를 단독 변수로 사용한 예측 모델에서 가장 높은 성능을 보임을 확인하였다. 이 때, 성능 평가는 각 모델로부터 계산한 곡선 아래의 면적 (area under the curve (AUC))을 비교함으로써 진행하였다.
이외에도, 교차 검증 결과를 통해, 단독 변수 모델의 성능은 타 모델 대비, 비교적 안정적인 예측력을 보임을 확인하였다. 따라서 를 치료 반응 예측 지표로서의 활용 가능성을 입증하였다.
4. 약물 반응성 정보가 없는 미지의 환자 표본에서 약물 반응성 예측 방법
(1) 분류 기준점(역치)의 설정
상기 3.(1)에서 TDS를 이용해 구축한 예측모델에서 약물에 대한 치료 반응군 및 비반응군 사이에 존재하는 미지의 구간 경계를 정의하기 위해, 유덴 인덱스 지표를 사용하여 분류 기준점을 설정했다.
구체적으로, 미지의 환자 표본에 대한 예측 결과를 지정하기 위해 두 역치 t1과 t2를 두고 (t1 < t2), 예측 결과인 적합된 확률값 가 t1 미만일 경우 비반응군(nonresponder), t1 이상 t2 미만일 경우 미확정군(inconclusive), t2 이상일 경우 반응군(responder)으로 판정할 수 있도록, 두 개의 분류 기준점을 설정하였다.
예측 결과에서 “최적의 역치(best threshold)”를 도출하기 위해, 유덴 통계 지표(Youden's J statistic) 혹은 유덴 지수(Youden's index)와 같은 통계적 방법을 적용할 수 있다. “최적의 역치”란, 민감도 및 특이도에 대한 각각의 수치가 동시에 최댓값일 때를 나타내며, 이는 예측 결과를 판단하는 과정에서 기준선으로 활용할 수 있다. 예컨대, 본 실시예의 경우, 최적의 역치는 0.72와 같다(도 3).
도 3에서 “미확정 구간(혹은 회색 구간(혹은 grey zone)”은 예측 결과에 대한 구분이 명확하지 않은 구간을 의미하며, 이는 치료 반응군에 대한 판단이 모호한 군으로 해석할 수 있다. 이 때, 미확정 구간 범위는 분류 기준점 t1 과 t2 사이의 구간으로 정의할 수 있으며, 각 분류 기준점에 대한 수치를 결정하는 일례로 아래와 같은 일례의 방법을 이용하여 도출할 수 있다:
미확정 구간에 대한 정의는 선택적으로, 도출된 단일 역치에 의한 성능평가 시 만족스러운 성능이 나오지 않거나 의학적 가설이 미확정 구간을 포함하는 경우 등 다양한 경우에 미확정 구간을 도입할 수 있다. 이 때 미확정 구간에 대한 정의는 사용하는 성능평가 지수 (예: 민감도/특이도) 및 미확정 구간의 선정 방법에 따라 달라질 수 있다. 본 실시예에서는 하기와 같은 방법을 통해 미확정 구간을 선정하였으나 이는 다양한 접근 방법이 존재하는 부분으로써, 상기 목적 등에 따라 임의의 미확정 구간을 설정하거나 계산된 미확정 구간을 다소 조정함으로써 변동될 수 있는 소지가 존재한다. 그러나 대체적으로 미확정 구간을 설정하는 목적은 두 개의 역치(t1, t2)를 도입함으로써 성능평가 지수를 최대화함과 동시에 의학적 질문에 대한 해답을 도출함에 있어 적정한 여유를 두는 것에 있다.
앞서 언급한 유덴 지수를 기반으로, 최적의 역치를 가지는 시점에서의 예측 평가 수치(민감도, 특이도, 음성 예측도 및 양성 예측도) 및 각 수치에 대한 95% 신뢰 구간을 확인할 수 있음; 진음성(즉, 비반응군) 검출 정도를 나타내는 '음성 예측도(NPV)' 및 진양성(즉, 반응군) 검출 정도를 나타내는 '양성 예측도(PPV)'에 대한 수치를 의미함. 이와 같은 수치들을 종합하여, 미확정 구간을 대략적으로 결정할 수 있다.
예컨대, 최적의 역치를 가지는 시점에서의 민감도(0.72) 및 특이도(0.72) 수치를 확인할 수 있다. 추가로, 본 실시예에서는 95% 신뢰 구간 내에서 NPV와 PPV가 각각 최댓값을 가지는 시점을 미확정 구간으로 정의하였다. 이로부터 도출된 수치는 t1과 t2는 각각 0.25, 0.55였다(도 3). 해당 역치 구간에서의 비반응군에 대한 NPV는 0.82, 반응군에 대한 PPV는 1이었다.
이와 같은 역치(t1, t2)를 기반으로, “미확정 구간(회색 음영 표시)”으로 구분 지을 수 있었다. 즉, 해당 미확정 구간보다 예측 값이 작은 경우는 “비반응군” 혹은 예측 값이 큰 경우는 “반응군”으로 판별하는 데 활용할 수 있다.
(2) 미지의 환자 표본의 TDS 산출
상기 3.(1)에서 TDS를 이용해 구축한 예측모델을 이용해 미지의 새로운 환자 표본의 약물 반응성을 예측해보고자 하였다.
미지의 새로운 환자 표본의 유전자 데이터와 상기 약물 반응성 정보가 있는 60개의 환자 데이터셋을 통합하여 전술한 방법에 따라 미지의 환자 표본을 포함한 61명 환자 각각의 TDS를 산출하였다.
상기 약물 반응성 정보가 없는 미지의 환자 표본의 TDS를 상기 구축한 예측모델에 입력하여 약물 반응성을 예측한 결과 그 값이 0.32인 것으로 확인되었다. 0.32는 상기 설정한 분류기준점(역치) t1과 t2 각각 0.25, 0.55의 사이에 해당하기 때문에 미확정 구간, 즉 약물 반응성이 중간인 환자인 것으로 판정할 수 있었다.
본 발명이 제공하는 새로운 지표인 전사편차점수를 이용하면 질병의 진단, 예후 예측, 약물 반응성 예측 등에 활용될 수 있는 유전자군을 효과적으로 선별할 수 있으며, 이를 통해 환자의 임상 정보를 보다 정확하게 예측할 수 있는 예측모델을 제공할 수 있어 산업상 이용가능성이 높다.

Claims (15)

  1. (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
    (b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 공지된 데이터베이스로부터 선별하는 단계;
    (c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개: 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
    (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
    (e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R2 ) 행렬을 생성하는 단계;
    (f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
    [식 1]

    (상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
    (g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
    [식 2]
    TDS(i)=TSfull-TS(- i )
    (상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
    (h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계; 및
    (i) 상기 예측모델의 예측력을 평가하는 단계를 포함하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  2. 제1항에 있어서, 상기 유전자 데이터는 환자로부터 제공된 생물학적 시료에서 측정된 유전자 발현량 데이터인 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  3. 제1항에 있어서, 상기 비-유전자 데이터는, 환자의 질병 진단 데이터, 질병 예후 데이터 및 약물 반응 데이터로 이루어진 군에서 선택되는 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  4. 제1항에 있어서, 상기 (b) 단계에서 유전자는 유전자의 발현량과 상기 비-유전자 데이터 사이에 양의 상관관계 또는 음의 상관관계가 존재하는 것으로 공지된 유전자인 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  5. 제1항에 있어서, 상기 (c) 단계에서 유전자 네트워크를 형성하는 유전자군은 유전자의 기능적 링크(functional link)를 포함하는 네트워크 내에서 상기 (b) 단계에서 선별된 유전자의 생물학적 경로(biological pathway)와 관련된 유전자 집단인 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  6. 제1항에 있어서, 상기 (c) 단계의 유전자 네트워크를 형성하는 유전자군은 하기 단계를 포함하는 방법에 의해 선별되는 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법:
    (c1) 상기 (b) 단계에서 선별된 유전자와 동일한 생물학적 기능을 나타내는 유전자군; 상기 (b) 단계에서 선별된 유전자와 상호작용을 하는 것으로 공지된 유전자군; 및 상기 (b) 단계에서 선별된 유전자와 연관성이 공지된 비-유전자 데이터에 연관성을 나타내는 유전자군으로 이루어진 군에서 선택된 1종 이상의 유전자군을 선별하는 단계; 및
    (c2) 상기 (c1) 단계에서 선별된 유전자군과 유전자 네트워크를 형성하는 유전자군을 선별하는 단계.
  7. 제1항에 있어서, 상기 (h) 단계에서 예측모델은 일반화 선형 모델(generalized linear model), 최소 제곱 모델 (least squares model), 로지스틱 회귀분석 모델(logistic regression model), 선형 회귀분석 모델 (linear regression model), LASSO 회귀분석 모델(least absolute shrinkage and selection operator regression model), 선형 판별분석 모델 (linear discriminant analysis model), 능형 회귀분석 모델 (ridge regression model), 서포트 벡터 머신 모델(support vector machine model) 및 트리-기반 반복 분할 모델(tree-based recursive partitioning model)로 이루어진 군에서 선택된 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  8. 제1항에 있어서, 상기 (f) 단계에서 예측모델의 예측력 평가는 교차 검증(cross-validation) 방법에 의해 수행되는 것을 특징으로 하는, 환자의 비-유전자 데이터 예측용 유전자군 선별 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하기 위한 프로그램이 기록되는, 컴퓨터 판독 가능한 기록 매체.
  10. (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 단계;
    (b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자를 공지된 데이터베이스로부터 선별하는 단계;
    (c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개: 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 단계;
    (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 단계;
    (e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R2 ) 행렬을 생성하는 단계;
    (f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 단계;
    [식 1]

    (상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
    (g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 단계;
    [식 2]
    TDS(i)=TSfull-TS(- i )
    (상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
    (h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 단계;
    (i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 단계;
    (j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 단계; 및
    (k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 단계를 포함하는, 환자의 비-유전자 데이터 예측 방법.
  11. 제10항에 있어서, 상기 (h) 단계 이후 상기 예측모델의 예측력을 평가하는 단계를 추가로 포함하는 것을 특징으로 하는, 환자의 비-유전자 데이터 예측 방법.
  12. 제10항에 있어서, 상기 (h) 단계 이후 상기 TDS에 기초하여, 분류 기준점(cut-off/threshold value)을 설정하고, 상기 TDS의 민감도(sensitivity) 및 특이도(specificity)를 산출하여 상기 예측모델의 예측력을 평가하는 분류 기준점을 설정하는 단계; 및 상기 설정된 분류 기준점을 토대로 상기 환자군 A의 비-유전자 데이터의 성질을 구분하는 것을 특징으로 하는, 환자의 비-유전자 데이터 예측 방법.
  13. 제12항에 있어서, 상기 분류 기준점(cut-off/threshold value)는 유덴 인덱스(Youden index or Youden's J statistic), 균형 정확도 인덱스(index of balanced accuracy) 또는 이의 조합을 이용하여 설정하는 것을 특징으로 하는, 환자의 비-유전자 데이터 예측 방법.
  14. 제12항에 있어서, 상기 비-유전자 데이터의 성질의 구분은 (i) 질병 발생 고위험군, 중위험군 및 저위험군의 구분; (ii) 질병 예후 불량군, 중간군 및 양호군의 구분; 또는 (iii) 약물 비반응군, 중간군 및 반응군의 구분인 것을 특징으로 하는, 환자의 비-유전자 데이터 예측 방법.
  15. (a) 유전자 데이터 및 비-유전자 데이터를 포함하는 환자군 A(q명) 데이터를 수신하는 데이터 수신부 A;
    (b) 상기 비-유전자 데이터와의 연관성이 공지된 유전자가 공지된 데이터베이스로부터 선별되어 입력되는 입력부;
    (c) 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자군(p개: 상기 선별된 유전자 및 이와 유전자 네트워크를 형성하는 유전자)으로 상기 환자군 A(q명)의 유전자 데이터를 필터링하는 필터링부;
    (d) 상기 필터링된 유전자 데이터(p개)와 상기 환자군 A(q명)의 행렬 Z(q x p)를 생성하는 행렬 생성부;
    (e) 상기 행렬의 상관계수(r) 행렬 및 결정계수(R2 ) 행렬을 생성하는 연산부;
    (f) 하기 식 1에 따라 전사 점수(Transcriptional Score, TS)를 산출하는 전사 점수 산출부;
    [식 1]

    (상기 식에서, p는 유전자 개수를 의미하며, jk는 각각 j 번째와 k 번째의 유전자들을 의미함 (j,k=1,…p), 는 2개의 변수 (j, k)를 사용하여 계산한 결정계수를 의미함)
    (g) 하기 식 2에 따라 상기 각 환자(q명)의 전사 편차 점수(Transcriptional deviance score, TDS)를 산출하는 전사 편차 점수 산출부 A;
    [식 2]
    TDS(i)=TSfull-TS(- i )
    (상기 식에서, i는 상기 q명 환자 샘플의 번호를 의미하며, 상기 TSfull은 상기 q명의 환자 전체의 TS값을 의미하며, 상기 TS(- i )i번 환자 1명을 제외한 나머지 환자 전체(q-1명)의 TS값을 의미함)
    (h) 상기 각 환자의 TDS와 상기 각 환자의 비-유전자 데이터 사이의 관계를 나타내는 예측모델을 구축하는 예측모델 구축부;
    (i) 비-유전자 데이터 정보가 없는 환자군 B(t명)의 유전자 데이터를 수신하는 데이터 수신부 B;
    (j) 상기 환자군 A(q명) 및 환자군 B(t명)의 유전자 데이터로 상기 (b) 내지 (g) 단계를 수행하여 상기 환자군 B(t명)의 TDS를 산출하는 전사 편차 점수 산출부 B; 및
    (k) 상기 (h) 단계의 예측모델에 상기 환자군 B(t명)의 TDS를 입력으로 하여 상기 환자군 B(t명)의 비-유전자 데이터를 예측하는 예측부를 포함하는, 환자의 비-유전자 데이터 예측 장치.
KR1020200174965A 2020-12-15 2020-12-15 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용 KR102659915B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200174965A KR102659915B1 (ko) 2020-12-15 2020-12-15 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200174965A KR102659915B1 (ko) 2020-12-15 2020-12-15 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용

Publications (2)

Publication Number Publication Date
KR20220085139A KR20220085139A (ko) 2022-06-22
KR102659915B1 true KR102659915B1 (ko) 2024-04-23

Family

ID=82216890

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200174965A KR102659915B1 (ko) 2020-12-15 2020-12-15 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용

Country Status (1)

Country Link
KR (1) KR102659915B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
H-Q. Wang 외, Bioinformatics, 31권, 42호, pp. 572-580, 2015.
J-P. Brunet 외, PNAS, 101권, 12호, pp. 4164-4169, 2004.05.23.
N. Fujita 외, Scientific Reports, 8:9743, 2018.07.27.

Also Published As

Publication number Publication date
KR20220085139A (ko) 2022-06-22

Similar Documents

Publication Publication Date Title
US20240029892A1 (en) Disease monitoring from insurance claims data
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
JP5479431B2 (ja) バイオマーカー抽出装置および方法
US20240079092A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
CN112020565A (zh) 用于确保基于测序的测定的有效性的质量控制模板
JP2018532214A (ja) マルチオミック癌プロファイルを用いて機能的な患者固有の体細胞異常を識別するための統合された方法及びシステム
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
Chen et al. Detecting the tipping points in a three-state model of complex diseases by temporal differential networks
WO2024027032A1 (zh) 一种肿瘤形成风险与肿瘤组织来源的评估方法及系统
KR102042824B1 (ko) 류마티스관절염 예후 예측용 snp 마커 세트
Barnett et al. Genomic machine learning meta-regression: insights on associations of study features with reported model performance
Vijayan et al. Blood-based transcriptomic signature panel identification for cancer diagnosis: benchmarking of feature extraction methods
US20130218581A1 (en) Stratifying patient populations through characterization of disease-driving signaling
KR102659915B1 (ko) 환자의 의학적 정보를 예측하기 위한 유전자 선별 방법 및 이의 활용
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
KR102042823B1 (ko) 류마티스관절염 예후 예측용 snp 마커 세트
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
KR20220103819A (ko) 개인의 생물학적 상태를 예측하기 위한 시스템, 방법 및 유전자 시그니처
Veytsman et al. Practical detection of biological age: why it is not a trivial task
Elden et al. Transcriptomic marker screening for evaluating the mortality rate of pediatric sepsis based on Henry gas solubility optimization
JP2022534236A (ja) 多重オミックス分析を利用した鬱病または自殺危険の予測用マーカー発掘方法、鬱病または自殺危険の予測用マーカー、及び多重オミックス分析を利用した鬱病または自殺危険の予測方法
CN117476097B (zh) 一种基于三级淋巴结构特征基因的结直肠癌预后和治疗反应预测模型及其构建方法和应用
Zlobina et al. Method for Identifying Proteomic Biomarkers of Health
Sharma et al. Prioritizing Variants using Rough-set based Relevance Algorithm for GWAS

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant