KR101818103B1 - 동반진단 예측 장치 및 그 방법 - Google Patents

동반진단 예측 장치 및 그 방법 Download PDF

Info

Publication number
KR101818103B1
KR101818103B1 KR1020160068889A KR20160068889A KR101818103B1 KR 101818103 B1 KR101818103 B1 KR 101818103B1 KR 1020160068889 A KR1020160068889 A KR 1020160068889A KR 20160068889 A KR20160068889 A KR 20160068889A KR 101818103 B1 KR101818103 B1 KR 101818103B1
Authority
KR
South Korea
Prior art keywords
target
single nucleotide
patient
protein
nucleotide sequence
Prior art date
Application number
KR1020160068889A
Other languages
English (en)
Other versions
KR20160144318A (ko
Inventor
이관수
차기훈
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20160144318A publication Critical patent/KR20160144318A/ko
Application granted granted Critical
Publication of KR101818103B1 publication Critical patent/KR101818103B1/ko

Links

Images

Classifications

    • G06F19/3431
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • G06F19/20
    • G06F19/22
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

동반진단 예측 방법 및 이를 수행하는 장치가 제공된다. 여기서, 표적 항암제에 대한 환자의 반응성을 예측하는 동반진단 예측 장치로서, 환자의 단일염기서열 정보, 유전자 발현 데이터 및 단백질 발현 데이터를 입력받는 입력부, 상기 표적 항암제의 표적 부위에 존재하는 상기 환자의 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열, 상기 환자의 유전자 발현 데이터에서 확인한 상기 표적 항암제의 표적 유전자의 발현양 및 상기 환자의 단백질 발현 데이터에서 확인한 상기 표적 항암제의 표적 단백질의 발현양을 토대로 상기 환자가 상기 표적 항암제에 반응하는 환자군인지 아닌지를 평가하는 통합 평가부, 그리고 상기 통합 평가부의 평가 결과를 출력하는 출력부를 포함한다.

Description

동반진단 예측 장치 및 그 방법{APPARATUS AND METHOD FOR COMPANION DIAGNOSIS}
본 발명은 동반진단 예측 장치 및 그 방법에 관한 것이다.
동반진단(Companion Diagnosis)은 환자의 특정 약물 치료에 대한 반응성을 미리 예측하기 위한 진단 기법이다.
암세포와 정상세포에 대해 모두 작용하여 부작용이 큰 기존 대부분의 항암제의 단점을 극복하기 위해 특정 표적 단백질을 선택적으로 공격하도록 하는 표적 항암제가 개발되었다.
그러나 표적 항암제는 같은 종류의 암이라도 특정 표적 단백질을 가지는 암환자에게만 효과를 보이기 때문에 표적 분자를 가진 환자를 선별하지 않으면 치료 효율이 매우 낮다.
또한, 표적 항암제는 세포 사멸보다 세포 성장과 증식 억제에 의존하기 때문에 장기간에 걸쳐 지속적인 약물 투여로 인한 내성 발생 가능성이 높다.
따라서, 항암제의 표적에 대한 분석을 통해 약물을 투여 하기전 약물에 효과를 보이는 환자군을 선별하는 것이 필요하다.
다국적 제약사 중 하나인 Roche는 최초의 유방암 표적 항암제인 "Herceptin"과 이에 대한 동반진단키트인 "Herceptest"를 개발한 Genentech를 인수하여 동반진단 기반의 표적 항암제 치료를 시작하게 되었다.
동반진단키트는 DAKO, HercepTest 와 같은 면역조직화학검사를 통해 특정 단백질의 과발현을 확인하는 방법, Ventana Medical Systems, INFORM HER-2/NEU 와 같은 특정 유전자의 유전자 증폭을 DNA probe를 이용한 FISH 또는 CISH 검사를 통해 확인하는 방법, 그리고 Roche Diagnostics, cobas EGFR mutation test 와 같은 q-PCR 등 유전체학적 기법을 이용하여 바이오 마커 유전자의 돌연변이 여부를 검사하여 확인하는 방법 등이 있다.
제약회사의 신약 개발 비용 절감과 표적 항암제에 대한 수요가 증가함에 따라 동반진단의 세계 시장은 2013~2019년 사이에 매년 18%씩 성장하여 2019년에는 58억 달러에 이를 것으로 예측되고 있다.
기존의 전산학적 동반진단 예측 방법은 단일염기서열 및 유전자 발현 데이터를 분석하는 방법으로 할 때 개별 단일염기서열, 유전자 발현, 단백질 발현의 단편적인 생물학적 정보만을 이용하여 동반진단 예측을 수행한다는 한계가 존재한다. 또한, 항암제의 반응률이 15% 미만으로 매우 낮은 정확도를 가지고 있으며, 동반진단키트 기반 표적 항암제 또한 60% 정도로 낮은 반응성을 보인다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 환자의 단일염기서열, 유전자 발현, 단백질 발현을 통합 분석하고, 약물에 반응을 보일 수 있는 환자군을 선별함으로써, 맞춤형 치료를 가능하게 하고, 나아가 항암제 표적의 세포내 기능 분석을 통하여 약물의 효과를 예측할 수 있는 동반진단 예측 장치 및 그 방법을 제공하는 것이다.
본 발명의 하나의 특징에 따르면, 동반진단 예측 장치는 표적 항암제에 대한 환자의 반응성을 예측하는 동반진단 예측 장치로서, 환자의 단일염기서열 정보, 유전자 발현 데이터 및 단백질 발현 데이터를 입력받는 입력부, 상기 표적 항암제의 표적 부위에 존재하는 상기 환자의 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열의 개수를 점수화한 제1 감수성 점수, 상기 환자의 유전자 발현 데이터에서 확인한 상기 표적 항암제의 표적 유전자의 발현양을 점수화한 제2 감수성 점수 및 상기 환자의 단백질 발현 데이터에서 확인한 상기 표적 항암제의 표적 단백질의 발현양을 점수화한 제3 감수성 점수를 통합한 환자의 감수성 점수가 기 정의된 기준값 이상인지 여부에 따라 상기 환자가 상기 표적 항암제에 반응하는 환자군인지 아닌지를 평가하는 통합 평가부, 그리고 상기 통합 평가부의 평가 결과를 출력하는 출력부를 포함한다.
상기 통합 평가부는,
상기 제1 감수성 점수, 상기 제2 감수성 점수 및 상기 제3 감수성 점수의 평균값을 상기 환자의 감수성 점수로 최종 산출하여 상기 기준값과 비교하고, 상기 기준값 이상인 경우, 상기 표적 항암제에 반응하는 환자군으로 분류하고, 상기 기준값 미만인 경우, 부작용이나 효과가 없는 환자군으로 분류하여 상기 출력부를 통해 출력할 수 있다.
상기 동반진단 예측 장치는,
상기 단백질 번역후 변형에 영향을 주는 제1 단일염기서열의 개수와, 상기 제1 단일염기서열 중에서 변형된 제2 단일염기서열의 개수를 각각 측정하고, 상기 제1 단일염기서열의 개수와 상기 제2 단일염기서열의 개수 간의 비를 상기 제1 감수성 점수로 산출하는 단일염기서열 분석부, 상기 환자의 유전자 발현 데이터에서 사전에 선정된 상기 표적 항암제의 표적 유전자의 유전자 발현양이 기준값 이상인지 아닌지를 점수화한 상기 제2 감수성 점수를 산출하는 유전자 발현 분석부, 그리고 상기 환자의 단백질 발현 데이터에서 사전에 선정된 상기 표적 항암제의 표적 단백질의 단백질 발현양이 기준값 이상인지 아닌지를 점수화한 상기 제3 감수성 점수를 산출하는 단백질 발현 분석부를 더 포함할 수 있다.
상기 동반진단 예측 장치는,
전장 유전체 연관분석(GWAS, Genome Wide Association Study) 데이터가 저장된 제1 데이터베이스, 적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장하는 약물-표적 DB, 그리고 단백질 유전체 부위에 있는 유전체 마커(nsSNP) 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열 정보가 저장된 제2 데이터베이스를 더 포함하고,
상기 단일염기서열 분석부는,
상기 약물-표적 DB에 저장된 정보를 이용하여 상기 표적 항암제와 상기 표적 항암제의 표적을 선정하고, 상기 제1 데이터베이스로부터 획득한 암관련 전장 유전체 연관분석 데이터에 포함된 단일염기서열 중에서 독립적으로 표현형과 연관성이 있는 단일염기서열을 추출하며, 추출된 단일염기서열을 연관불평형(Linkage Disequilibrium, LD) 기반으로 필터링하고, 필터링된 단일염기서열 중에서 상기 표적 항암제의 표전 유전자에 위치하는 표적 연관 단일염기서열을 선정하며, 상기 표적 연관 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열을 확인하여 상기 환자의 단일염기서열과 비교할 수 있다.
상기 동반진단 예측 장치는,
적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장하는 약물-표적 DB, 그리고 유전자에 대한 암조직 세포 조건과 정상 조직 세포 조건에서의 mRNA 발현양으로 구성된 유전자 발현 데이터를 저장하는 제3 데이터베이스를 더 포함하고,
상기 유전자 발현 분석부는,
암환자의 암조직 세포 및 정상조직 세포의 유전자 발현 데이터에서 상기 표적 항암제의 표적 유전자의 발현양을 통계 분석을 통해 확인하고, 상기 발현양이 통계적으로 유의한 적어도 하나의 표적 유전자를 포함하는 표적 세트를 선정하며, 상기 표적 세트에 포함된 유전자의 암조직세포 조건에서의 평균 유전자 발현양을 상기 기준값으로 선정하고, 상기 환자의 유전자 발현 데이터에서 상기 표적 세트에 포함되는 표적 유전자의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하며, 상기 표적 세트에 포함된 모든 표적 유전자에 대해 평가한 값을 합산하여 상기 제2 감수성 점수를 산출할 수 있따.
상기 동반진단 예측 장치는,
적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장하는 약물-표적 DB, 그리고 암조직세포 및 정상조직세포에서 각각 단백질 발현양을 측정한 단백질 발현 데이터를 저장하는 제3 데이터베이스를 더 포함하고,
상기 단백질 발현 분석부는,
암환자의 암조직 세포 및 정상조직 세포의 단백질 발현 데이터에서 상기 표적 항암제의 표적 단백질의 발현양을 통계 분석을 통해 확인하고, 상기 표적 단백질의 발현양이 통계적으로 유의한 적어도 하나의 표적 단백질을 포함하는 표적 세트를 선정하며, 상기 표적 세트에 포함된 단백질의 암조직세포 조건에서의 평균 단백질 발현양을 상기 기준값으로 선정하여 상기 환자의 단백질 발현 데이터와 비교하고, 상기 환자의 단백질 발현 데이터에서 상기 표적 세트에 포함되는 표적 단백질의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하며, 상기 표적 세트에 포함된 모든 표적 단백질에 대해 평가한 값을 합산하여 상기 제3 감수성 점수를 산출할 수 있다.
본 발명의 다른 특징에 따르면, 동반진단 예측 방법은 동반진단 예측 장치가 표적 항암제에 대한 환자의 반응성을 예측하는 동반진단 예측 방법으로서, 환자의 단일염기서열 정보, 유전자 발현 데이터 및 단백질 발현 데이터를 입력받는 단계, 상기 표적 항암제의 표적 부위에 존재하는 상기 환자의 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열의 개수를 점수화한 제1 감수성 점수를 산출하는 단계, 상기 환자의 유전자 발현 데이터에서 확인한 상기 표적 항암제의 표적 유전자의 발현양을 점수화한 제2 감수성 점수를 산출하는 단계, 상기 환자의 단백질 발현 데이터에서 확인한 상기 표적 항암제의 표적 단백질의 발현양을 점수화한 제3 감수성 점수를 산출하는 단계, 상기 제1 감수성 점수, 상기 제2 감수성 점수 및 상기 제3 감수성 점수를 통합한 환자의 감수성 점수가 기 정의된 기준값 이상인지 판단하는 단계, 상기 기준값 이상이면, 상기 환자가 상기 표적 항암제에 반응하는 환자군으로 분류하는 단계, 상기 기준값 미만이면, 상기 환자가 부작용이나 효과가 없는 환자군으로 분류하는 단계, 그리고 분류 결과를 출력하는 단계를 포함한다.
상기 판단하는 단계는,
상기 제1 감수성 점수, 상기 제2 감수성 점수 및 상기 제3 감수성 점수의 평균값을 상기 환자의 감수성 점수로 최종 산출하는 단계, 그리고 상기 환자의 감수성 점수가 상기 기준값 이상인지 판단하는 단계를 포함할 수 있다.
상기 제1 감수성 점수를 산출하는 단계는,
상기 단백질 번역후 변형에 영향을 주는 제1 단일염기서열의 개수를 측정하는 단계, 상기 제1 단일염기서열 중에서 변형된 제2 단일염기서열의 개수를 측정하는 단계, 그리고 상기 제1 단일염기서열의 개수와 상기 제2 단일염기서열의 개수 간의 비를 상기 제1 감수성 점수로 산출하는 단계를 포함할 수 있다.
상기 제1 단일염기서열의 개수를 측정하는 단계 이전에,
상기 표적 항암제와 상기 표적 항암제의 표적을 선정하는 단계, 암관련 전장 유전체 연관분석 데이터에 포함된 단일염기서열 중에서 독립적으로 표현형과 연관성이 있는 단일염기서열을 추출하는 단계, 추출된 단일염기서열을 연관불평형(Linkage Disequilibrium, LD) 기반으로 필터링하는 단계, 필터링된 단일염기서열 중에서 상기 표적 항암제의 표전 유전자에 위치하는 표적 연관 단일염기서열을 선정하는 단계, 그리고 상기 표적 연관 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열을 확인하여 상기 환자의 단일염기서열과 비교하여 상기 제1 단일염기서열을 확인하는 단계를 더 포함할 수 있다.
상기 표현형과 연관성이 있는 단일염기서열을 추출하는 단계는,
상기 암관련 전장 유전체 연관분석 데이터에 포함된 단일염기서열 중에서 전장 유전체 연관분석을 통해 암환자 샘플 조건과 정상인 샘플 조건에서 유의하게 다른 양상을 보이는 단일염기서열을 상기 표현형과 연관성이 있는 단일염기서열로 추출할 수 있다.
상기 표적 연관 단일염기서열을 선정하는 단계는,
상기 연관불평형 블록 구성을 통해 상대적으로 가까운 거리에 위치하는 적어도 하나의 단일염기서열로 구성된 적어도 하나의 단일염기서열 세트를 선정하는 단계, 상기 적어도 하나의 단일염기서열 세트 별로 각 세트에 포함되는 각각의 단일염기서열의 P값(p-value)을 확인하는 단계, 상기 P값이 가장 낮은 단일염기서열을 해당 세트의 대표 단일염기서열로 선정하는 단계, 그리고 각 세트의 대표 단일염기서열 중에서 표적 유전자에 위치하는 단일염기서열을 상기 표적 연관 단일염기서열로 선정하는 단계를 포함할 수 있다.
상기 제2 감수성 점수를 산출하는 단계는,
암환자의 암조직 세포 및 정상조직 세포의 유전자 발현 데이터에서 상기 표적 항암제의 표적 유전자의 발현양을 통계 분석을 통해 확인하는 단계, 상기 발현양이 통계적으로 유의한 적어도 하나의 표적 유전자를 포함하는 표적 세트를 선정하는 단계, 상기 표적 세트에 포함된 유전자의 암조직세포 조건에서의 평균 발현양을 상기 기준값으로 선정하는 단계, 상기 환자의 유전자 발현 데이터에서 상기 표적 세트에 포함되는 표적 유전자의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하는 단계, 그리고 상기 표적 세트에 포함된 모든 표적 유전자에 대해 평가한 값을 합산하여 상기 제2 감수성 점수를 산출하는 단계를 포함할 수 있다.
상기 제3 감수성 점수를 산출하는 단계는,
암환자의 암조직 세포 및 정상조직 세포의 단백질 발현 데이터에서 상기 표적 항암제의 표적 단백질의 발현양을 통계 분석을 통해 확인하는 단계, 상기 발현양이 통계적으로 유의한 적어도 하나의 표적 단백질을 포함하는 표적 세트를 선정하는 단계, 상기 표적 세트에 포함된 단백질의 암조직세포 조건에서의 평균 발현양을 상기 기준값으로 선정하는 단계, 상기 환자의 단백질 발현 데이터에서 상기 표적 세트에 포함되는 표적 단백질의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하는 단계, 그리고 상기 표적 세트에 포함된 모든 표적 단백질에 대해 평가한 값을 합산하여 상기 제3 감수성 점수를 산출하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 환자의 단일염기서열, 유전자 발현, 단백질 발현 정보를 통합 및 분석을 통해 정확한 환자군 선별을 할 수 있다. 즉, 환자의 유전체 정보와 해당 질병관련 질병조직/정상조직에서 추출한 유전자 발현 및 단백질 발현 정보에 기반하여 약물에 적합한 환자군 선별에 활용할 수 있다.
또한, 환자에게 적합한 치료 기준을 제공하여 불필요한 항암제 투여를 막음으로써 치료 효율향상과 치료 시기 지연을 방지할 수 있다.
또한, 불필요한 치료를 통한 의료비 지출을 최소화할 수 있다.
도 1은 본 발명의 실시예에 따른 동반진단 예측 장치의 세부적인 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 GWAS(Genome Wide Association Study, 전장 유전체 연관분석) 데이터의 예시도이다.
도 3은 본 발명의 실시예에 따른 유전자 발현 데이터의 예시도이다.
도 4는 본 발명의 실시예에 따른 동반진단 예측 방법의 일련의 과정을 나타낸 순서도이다.
도 5는 본 발명의 실시예에 따른 단일염기서열 분석 과정을 나타낸 순서도이다.
도 6은 본 발명의 실시예에 따른 유전자 발현 분석 과정을 나타낸 순서도이다.
도 7은 본 발명의 실시예에 따른 단백질 발현 분석 과정을 나타낸 순서도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 도면을 참조로 하여 본 발명의 실시예에 따른 동반진단 예측 장치 및 그 방법에 대하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 동반진단 예측 장치의 세부적인 구성을 나타낸 블록도이고, 도 2는 본 발명의 실시예에 따른 GWAS(Genome Wide Association Study, 전장 유전체 연관분석) 데이터의 예시도이며, 도 3은 본 발명의 실시예에 따른 유전자 발현 데이터의 예시도이고, 도 4는 본 발명의 실시예에 따른 동반진단 예측 방법의 일련의 과정을 나타낸 순서도이다.
먼저, 도 1을 참조하면, 동반진단(Companion diagnosis) 예측 장치(100)는 항암제의 표적에 대한 분석을 통해 약물을 투여하기전 약물에 효과를 보이는 환자군을 선별한다. 이때, 환자의 의료 데이터를 각각 단일염기서열 분석, 유전자 발현 분석 및 단백질 발현 분석을 통해 표적 항암제 감수성 환자군 또는 부작용이나 효과가 없는 환자군으로 분류하고, 분류한 정보를 출력한다. 여기서, 환자의 의료 데이터는 단일염기서열, 유전자 발현 데이터 및 단백질 발현 데이터를 포함한다.
이러한 동반진단 예측 장치(100)는 컴퓨터 기반의 장치로서, 하나의 실시예에 따르면, 서버 컴퓨터로 구현되어 네트워크를 통해 접속된 사용자 단말로 웹 기반의 동반진단 예측 서비스를 제공할 수 있다.
다른 실시예에 따르면, 동반진단 예측 장치(100)는 사용자 컴퓨터에 설치되어 동반진단 예측 서비스를 제공할 수 있다.
동반진단 예측 장치(100)는 입력부(101), GWAS(Genome Wide Association Study, 전장 유전체 연관분석) DB(103), 약물-표적 DB(105), 번역후 변형(Post-Translational Modification, 이하, 'PTM'이라 통칭함)-단일염기다형성(single nucleotide polymorphism, 이하, 'SNP'라 통칭함) DB(107), 유전자 발현 DB(109), 단백질 발현 DB(111), 단일염기서열 분석부(113), 유전자 발현 분석부(115), 단백질 발현 분석부(117), 통합 평가부(119), 출력부(121) 및 유전체 주석 DB(123)를 포함한다.
여기서, GWAS DB(103)는 영국 의학연구지원단체인 웰컴트러스트의 연구 컨소시엄(Welcome Trust Case Control Consortium, 이하, 'WTCCC'라 통칭함)에서 공개한 GWAS 데이터를 수집하여 구축된다.
GWAS 데이터는 각 사람마다 차이나는 유전자 염기서열 정보로서, 즉, 사람이 가지는 단일염기 다형성 변이(single nucleotide polymorphisms, SNP) 데이터를 의미한다. 여기서, SNP는 DNA 염기서열에서 하나의 염기서열(A,T,G,C)의 차이를 보이는 유전적 변화 또는 변이를 지칭한다.
도 2를 참조하면, GWAS 데이터(200)는 첫번째 컬럼(column)(sample1, sample2,...)(201)은 환자 샘플을 의미하고, 첫번째 행(SNP1, SNP3, SNP6, ...)(203)은 각각의 SNP를 의미한다.
이때, Sample1의 SNP1 의 값은 GG 이고, SNP6의 값은 GT 라고 볼 수 있다. 뉴클레오타이드(nucleotide)의 경우 A, G, C, T의 값을 가질수 있고, 2개의 염색체를 가지기 때문에 GG, GT 처럼 두 개의 영문으로 구성된 데이터 값을 가진다. 이때, 염기는 A, T, G, C로 구성되는데, DNA(deoxyribonucleic acid)는 A(아데닌) C(시토신) G(구아닌) T(티민) 네 종류의 염기가 나열된 이중나선구조로 4가지 염기가 3개씩 조합된 유전암호가 아미노산을 만들고 아미노산이 단백질을 형성한다.
GWAS는 인간 질병의 유전적인 특정을 밝히는데 유용한 도구로 사용되어 왔는데, 어떤 형질과 관련된 변이가 존재할 때, 다른 개체들 사이에서 유전적인 변이를 조사하는 방법으로, 주로 질환과 같은 형질과 SNP 사이의 관련성에 초점을 맞추고 있다.
GWAS는 보통 질환군(case)과 정상군(control) 두 그룹의 DNA를 비교하게 되며, 질환군과 정상군의 그룹 사이에 유의하게 변화가 있는 대립유전자의 빈도를 조사하기 위해 오즈비(odds ratio)를 기본적인 단위로 사용한다.
약물-표적 DB(105)는 적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장한다. 여기서, 공개된 약물-표적 관련 데이터베이스는 TTD(Therapeutic Target Database), KEGG(Kyoto Encyclopedia of Genes and Genomes) Drug, DrugBank 등을 포함할 수 있다. 이러한 약물-표적 정보는 약물과, 그 약물의 표적이 되는 정보를 포함한다. 예를들면, 허셉틴(Herceptin)이라는 약물은 유방암 성장을 부추기는 단백질을 억제한다. 따라서, 약물-표적 정보는 허셉틴과 허셉틴이라는 항체의 표적이 되는 단백질 정보를 포함한다.
PTM-SNP DB(107)는 단백질 유전체 부위에 있는 유전체 마커(nsSNP) 중에서 PTM에 영향을 주는 PTM 연관 SNP(이하, 'PTM-SNP'라 통칭함)를 저장한다. PTM 연관 SNP는 기존에 이미 구축된 데이터베이스들이 존재한다. PTM-SNP DB(107)는 이러한 데이터베이스들로부터 수집한 데이터들로 구성된다.
유전자 발현 DB(109)는 유전자 발현 데이터를 저장한다. 유전자 발현 데이터는 미국 국립 의학도서관(National Library of Medicine, NLM)이 운영하는 유전자 발현 옴니버스 데이터베이스(Gene Expression Omnibus Database)로부터 암환자의 암조직세포 및 정상조직세포로 구성된 암관련 유전자 발현 데이터를 수집하여 구축될 수 있다.
유전자 발현 DB(109)는 여러가지 유전자발현 데이터가 있다. 암종별 암조직세포 및 정상조직세포의 유전자 발현 데이터 뿐만 아니라 다른 질병의 환자 조직세포 및 정상인의 조직세포의 유전자 발현 데이터 또한 저장되어 있다. 예를 들어, 폐암일 경우 정상 폐조직세포(Control)와 폐암조직세포(Case)로 두 개의 조건을 가지는 데이터로 구성되어 있다. 이러한 유전자 발현 데이터는 암조직세포 및 정상조직세포에서 각각 유전자 발현양을 측정한 데이터로서, 도 3과 같다.
도 3을 참조하면, 유전자 발현 데이터(300)는 첫번째 컬럼(1007_s_at, …, 1552263_at)(301)은 유전자를 의미한다. 그리고 첫번째 행 중에서 4열의 astrocytoma는 암조직세포 조건(303)을 의미하고, 4열의 non-tumor는 정상조직세포 조건(305)을 의미한다. 따라서, 유전자 발현 데이터(300)는 각 유전자(301)에 대한 암조직세포 조건(303)과 정상 조직 세포 조건(305)에서의 mRNA 발현양(307)으로 구성된다. 여기서, mRNA(messenger RNA)은 핵 안에 있는 DNA의 유전정보를 세포질 안의 리보솜에 전달하는 RNA로서, 유전정보를 단백질에 변환하는 기능을 맡고 있다.
단백질 발현 DB(111)는 단백질 발현 데이터를 저장한다. 여기서, 단백질 발현 데이터는 The Human Protein Atlas(HPA)에서 수집한 암환자의 암조직세포 및 정상조직세포로 구성된 단백질 발현 데이터를 수집하여 구축된다. 이러한 단백질 발현 데이터는 암조직세포 및 정상조직세포에서 각각 단백질 발현양을 측정한 데이터이다.
도 4를 참조하면, 입력부(101)는 환자의 유전체 데이터, 즉, 단일염기서열, 환자의 유전자 발현 데이터 및 환자의 단백질 발현 데이터를 입력받는다(S101).
단일염기서열 분석부(113)는 GWAS DB(103), 약물-표적 DB(105) 및 PTM-SNP DB(107)와 연동하여 입력부(101)로부터 전달된 환자의 단일염기서열을 분석하여 단일염기서열 기반 표적 항암제의 감수성 점수를 산출한다(S103).
유전자 발현 분석부(115)는 약물-표적 DB(105) 및 유전자 발현 DB(109)와 연동하여 입력부(101)로부터 전달된 환자의 유전자 발현 데이터를 분석하여 유전자 발현 기반 표적 항암제의 감수성 점수를 산출한다(S105).
단백질 발현 분석부(117)는 약물-표적 DB(105) 및 단백질 발현 DB(109)와 연동하여 입력부(101)로부터 전달된 환자의 단백질 발현 데이터를 분석하여 단백질 발현 기반 표적 항암제의 감수성 점수를 산출한다(S107).
통합 평가부(119)는 단일염기서열 분석부(113), 유전자 발현 분석부(115) 및 단백질 발현 분석부(117)가 출력한 각각의 감수성 점수의 평균값을 계산한다(S109). 이때, 계산된 평균값은 최종적으로 환자의 표적 항암제 감수성 점수가 된다.
통합 평가부(119)는 S109 단계에서 계산된 평균값, 즉, 환자의 표적 항암제감수성 점수가 기준값 이상인지를 판단한다(S111).
이때, 기준값 이상일 경우, 해당 환자를 표적 항암제에 반응하는 환자, 즉, 표적 항암제 감수성 환자군으로 분류한다(S113).
반면, 기준값 미만일 경우, 해당 환자를 부작용이나 효과가 없는 환자군으로 분류한다(S115).
여기서, 약물에 반응하기 위해서는 약물이 직접적으로 결합하는 표적 단백질이 제 기능을 하기 위해 단일염기서열로 인한 신호전달부위의 변형이 안되어있어야 하고, 유전자 발현, 단백질 발현이 정상적으로 되어 있어야 약물과 결합하고, 다음 신호전달을 할수 있기 때문에 환자의 단일염기서열, 유전자발현, 단백질발현을 모두 확인하여 환자의 데이터상에서 각 데이터를 확인하는 것이다. 직접적인 약물반응 여부는 확인할 수 없지만 변형이 되어있거나 발현이 되지 않을 경우 약물과 결합하지 않을 확률이 매우 높다. 그런 환자들에게는 약물 투여해도 반응이 일어나지 않을 확률이 높기 때문에 그런 환자에게는 다른 약물을 투여하도록 할 수 있다.
암환자의 감수성 점수의 평균값을 기준값으로 하여 새로운 입력으로 들어오는 환자 데이터가 이 기준값 이상인지 확인하면, 항암제 표적의 단일염기서열의 변이가 적고, 유전자 발현/단백질 발현이 높은 것으로 기준값을 선정하고 이 기준값 이상일 경우만 약물에 반응하는 환자군으로 선별한다.
출력부(160)는 통합 평가부(150)의 선별 결과를 출력한다. 즉, S113 단계에서 분류한 정보 또는 S115 단계에서 분류한 정보를 출력한다(S117).
출력부(160)는 사용자 단말로 출력할 수도 있고, 출력부(160) 자체가 화면을 구비하여 화면 상에 출력할 수도 있다. 출력부(160)의 출력 실시예는 다양하게 구현될 수 있으므로, 본 발명의 실시예에서는 특정하지 않는다.
이제, 단일염기서열 분석부(113), 유전자 발현 분석부(115), 단백질 발현 분석부(117) 각각의 동작에 대하여 상세히 설명하면 다음과 같다.
도 5는 본 발명의 실시예에 따른 단일염기서열 분석 과정을 나타낸 순서도로서, 도 1 및 도 4에서 설명한 단일염기서열 분석부(113)의 동작을 나타낸다.
도 5를 참조하면, 단일염기서열 분석부(113)는 약물-표적 DB(105)로부터 동반진단 예측 분석의 대상인 약물, 즉, 표적 항암제를 선정하고, 선정된 표적 항암제의 표적을 선정한다(S201).
단일염기서열 분석부(113)는 GWAS DB(103)로부터 획득한 암관련 GWAS 데이터로부터 GWAS 기반 SNP 정보를 선정한다(S203). 이때, 암관련 GWAS 데이터는 S201 단계에서 선정한 표적 항암제와 관련된 암과 관련된 데이터이다. 예컨대, S201 단계에서 유방암에 대한 표적 항암제가 선정되었다면, 암관련 GWAS 데이터는 유방암과 관련된 GWAS 데이터이다.
암관련 GWAS 데이터는 도 2와 구성이 동일하되, 첫번째 컬럼(201)이 암환자의 샘플들과 정상인의 샘플들로 구성된다. 예를들면, 유방암 환자 100명에서 측정한 SNP 정보와 정상인 100명에서 측정한 SNP 정보가 암관련 GWAS 데이터가 된다.
이때, 단일염기서열 분석부(113)는 GWAS DB(103)의 질병 컬럼에서 'cancer', 'tumor', 'carcinoma', 'neoplasm'으로 검색하여 GWAS DB(103)에 저장된 GWAS 데이터들 중에서 암관련 GWAS 데이터를 추출한다.
단일염기서열 분석부(113)는 GWAS DB(103)로부터 검색한 암관련 GWAS 데이터에 포함된 SNP 중에서 독립적으로 표현형(phenotype)과 연관성이 있는 SNP를 추출한다.
표현형은 개체의 형질 또는 특성을 나타내고 다양할 수 있다. 표현형은 알려진 유전형 또는 알려질 유전형의 영향을 받아 발현되는 어떠한 표현형을 모두 포함할 수 있다. 표현형은 의학적 병태와 비의학적 병태를 포함할 수 있다. 의학적 병태는 질병 또는 질환을 포함한다. 비의학적 병태는 신체적 형질, 예를 들어, 머리카락 색, 생리학적 형질 등이 될 수 있다.
하나의 예시를 들면, 표현형이 만성 B형 간염(Chronic Hepatitis B)인 경우, 만성 B형 간염과 관련된 SNP는 rs3077 및 rs2856718로 이루어진 군으로부터 선택된 어느 하나 또는 그의 조합일 수 있다.
따라서, 단일염기서열 분석부(113)는 표현형과 연관성이 있는 SNP 집합들 중에서 암관련 GWAS 데이터에 포함된 SNP를 추출한다. 이때, 표현형과 연관성이 있는 SNP 집합들은 사전에 수집되어 별도의 DB에 저장되어 있고, 이러한 별도의 DB는 단일염기서열 분석부(113)가 구비하고 있다.
단일염기서열 분석부(113)는 특정 암환자 샘플 조건과 정상인 샘플 조건에서 유의하게 다른 양상을 보이는 SNP들만 추출한다. 이처럼, SNP 하나하나가 독립적으로 표현형과 연관성이 있는지 확인하는 과정이 GWAS 분석이다.
도 2를 예로 들면, Sample1이 특정 암환자의 샘플이고, Sample2가 정상인의 샘플일 경우, SNP9는 각각 GG와, GT로 서로 다르다. 이때, Sample3도 정상인의 샘플일 경우, Sample3의 SNP9는 GG이다. 즉, Sample2의 SNP9가 GT이더라도, Sample1과 Sample3는 GG이므로, 암환자의 샘플에서만 유의한 양상을 나타낸 것은 아니므로, SNP9는 표현형에 대해 유의하지 않은 양상을 나타낸다고 판단한다. 만약, 암환자 샘플에서는 모두 GG로 나타나고, 정상인은 GT로 나타난다면, SNP9는 유의한 양상을 나타낸다고 판단한다. 이러한 방식으로 암관련 GWAS 데이터로부터 유의한 양상을 나타내는 SNP들을 선정한다.
단일염기서열 분석부(113)는 S203 단계에서 선정된 SNP 정보를 연관불평형(Linkage Disequilibrium, LD) 기반으로 필터링한다(S205).
여기서, 연관불평형(LD)은 서로 다른 좌위에 위치한 대립유전자간의 비임의(non random) 결합으로 정의할 수 있으며 집단의 크기, 돌연변이, 선발, 유전적 부동 등 요인들에 의해 발생된다. 즉, 2 이상의 돌연변이 또는 다형이 서로 가까운 유전적 근접성 상태에 있으므로 함께 유전되는 유전적 현상이다.
두 개의 SNP이 염색체 내 가까운 거리에 존재하게 되면 다음 세대에 같이 전달될 확률이 매우 높다. 단일염기서열 분석부(113)는 GWAS 데이터 분석을 통해 추출한 유의한 SNP 들에 대해 연관불평형 블록(LD block)을 구성한다.
연관불평형(LD)은 염색체의 서로 다른 두 유전자좌(Locus)에서 관측되는 대립유전자 사이에 존재하는 무작위적이지 않는 연관관계를 의미한다. 두 유전자좌에서 관측된 대립유전자들로 이루어진 서로 다른 하플로타입(haplotype) 빈도가 무작위로 나타나지 않고 서로 다르게 나타날 경우 두 유전좌는 연관불편형 관계에 있을 가능성이 있다.
하플로타입이란 반수체 유전형을 축약해서 나타낸 용어로 동일 염색체상 복수좌위에서의 대립형질의 조합을 의미하며, 하나의 염색체상에서 서로 연관되어 있는 SNP 집합을 의미한다. 따라서, SNP 간 연관성을 분석하기 위해 Plink라는 Whole genome association analysis 툴에서 Pairwise LD measure for multiple SNPs(genome-wide)를 통해 다수의 SNP 중에서 연관성 0.8 이상을 가지는 대표 SNP set 을 선정한다. 선정 방식은 다음 표 1 및 수학식 1을 이용할 수 있다.
다음 표 1은 두 개의 하플로타입에서 추정된 빈도수를 나타낸다.
표 1에서 Marker 는 SNP set 을 나타낸다. 표 1에서 Locus1, 2 는 SNP 이 위치하는 DNA 내 하나의 위치를 나타낸다. 표 1에서 Allele1, 2는 각 SNP 이 해당 Locus 에서의 major allele(다수로 존재하는 유전자형), minor allele (소수로 존재하는 유전자형) 정보를 나타낸다. 각 유전자형은 A, G, C, T 중 하나를 나타낸다.
Pij는 Locus1의 allele이 i이고 Locus 2의 Allele이 j 로 일 때 추정된 하플로타입 빈도이다.
Marker Locus2 Total
Locus1 Allele 1 Allele 2
Allele 1 p11 p12 p1+
Allele 2 p21 p22 p2+
Total p+1 p+2 1
표 1을 연관불평형(LD) 지수 계산에 적용하면, 두 개의 단일염기 다형성 간에 존재하는 연관 관계의 강도를 계산할 수 있다. 각 단일염기 다형성에서 관측되는 대립유전자를 이용하여 계산한 하플로타입 빈도와 무작위로 나타날 하플로타입 빈도의 차이를 이용하여 LD 지수를 계산한다. LD 지수를 계산하는 방식은 수학식 1에 보인 바와 같다. 이 중에서 현재 D' 이 가장 많이 이용되고 있지만, 본 발명의 실시예는 이러한 방식으로 국한되는 것은 아니다.
일반적으로 |D'| > 0.8 인 경우 두 단일염기 다형성 간에 강한 연관관계가 있다고 판단한다. D 와 D' 은 다음과 같이 정의한다.
Figure 112017091749091-pat00001
단일염기서열 분석부(113)는 연관불평형 블록 구성을 통해 상대적으로 가까운 거리에 위치하는 적어도 하나의 SNP로 구성된 적어도 하나의 SNP 세트를 선정한다. 그리고 SNP 세트 별로 SNP 세트에 포함되는 각각의 SNP들의 p-value를 확인한다. 그리고 p-value 가 가장 낮은 SNP를 해당 SNP 세트의 대표 SNP로 선정함으로써, 추후 SNP 의 분석에서의 계산량을 줄일 수 있다. 이처럼, GWAS 데이터 분석을 통해 추출한 유의한 SNP 들을 SNP 세트 별로 대표 SNP로 필터링을 하게 된다. 여기서, p-value는 GWAS DB(103)에 저장된 질병 GWAS 데이터에 포함되어 있다. 질병 GWAS 데이터는 개별 SNP 별로 질병연관성 정도를 p-value 로 제공한다.
다음, 단일염기서열 분석부(113)는 S205 단계에서 필터링된 SNP 정보 중에서 표적 유전자에 위치하는 표적 연관 SNP를 선정한다(S207).
여기서, 표적 유전자는 S201 단계에서 선정된 표적 유전자를 말한다. 그리고 표적 연관 SNP는 표적 유전자의 exon, enhancer, promoter 부위에 존재하는 SNP를 말한다. ENCODE에는 모든 유전자의 exon, enhancer, promoter 의 부위 정보를 제공하고 있다. 이 정보를 이용하여 표적 유전자의 exon, enhancer, promoter 부위에 위치하는 SNP를 선정한다.
여기서, ENCODE(Encyclopedia of DNA Elements)로 US National Human Genome Research Institute 에서 개발한 데이터베이스로 유전체에 관련된 정보를 제공한다. ENCODE가 제공하는 데이터 중에서 유전자에 직접적으로 연관되어 단백질 생성에 직접적으로 영향을 주는 exon 부위와 해당 유전자의 발현을 조절하는 enhancer, promoter 부위 정보를 구축하여 ENCODE 정보가 포함된 유전체 주석 DB(123)를 구축하였다.
다음, 단일염기서열 분석부(113)는 S207 단계에서 선정된 표적 연관 SNP 중에서 단백질 번역후 변형에 영향을 주는 PTM 연관 SNP를 선정한다(S209). 단백질의 번역후 변형(PTM)은 단백질의 기능을 변화시키는 중요한 세포내 현상으로 단백질의 특정 부위에 phosphorylation, acetylation, ubiquitination 등이 일어나는 것을 말한다. S209 단계에서는 S201 단계에서 선정된 항암제 표적에 연관된 SNP 중에서 '번역후 변형에 영향을 주는 SNP'를 선정한다.
'번역후 변형에 영향을 주는 SNP'인지 여부는 PTM-SNP DB(107)를 통해 알 수 있다. PTM-SNP DB(107)는 단백질 번역후 변형에 연관되어 있다고 정의 되어있는 SNP 정보를 포함한다(Kim Y. et al., 2015 BMC Med Genomics, 'Detection and analysis of disease-associated single nucleotide polymorphism influencing post-translational modification.').
따라서, 단일염기서열 분석부(113)는 S207 단계에서 선정된 표적 연관 SNP가 PTM 연관 SNP인지 여부를 PTM-SNP DB(107)에 저장된지 여부를 확인함으로써, 알 수 있다.
단일염기서열 분석부(113)는 입력부(101)로부터 환자의 단일염기서열 정보가 전달(S211)되면, 단일염기서열의 표적 부위에 PTM 연관 SNP를 확인하여 개수를 측정한다(S213). 그리고 확인한 PTM 연관 SNP 내 변형된 개수를 측정한다(S215).
여기서, 입력받은 환자의 단일염기서열 정보의 표적 부위는 ENCODE 데이터베이스에서 제공하는 유전자의 exon, enhancer, promoter 정보가 있으므로 환자의 단기염기서열(SNP) 정보가 표적 유전자의 exon, enhancer, promoter에 있는지 확인할 수 있다. SNP의 유전체 위치 정보는 dbSNP 에서 제공하고 있다. 따라서, 단일염기서열 분석부(113)는 표적 유전자 연관 부위(exon, enhancer, promoter)의 유전체내 위치 정보와 SNP의 유전체 내 위치 정보를 맵핑하여 환자의 단일염기서열이 표적 유전자 연관 부위에 존재하는지 확인한다.
그리고 환자의 SNP 중에서 표적 유전자 연관 부위에 존재하는 SNP 중에서 PTM과 연관된 SNP를 PTM-SNP DB(107)를 통해 확인한다. 그리고 표적 유전자에 연관된 SNP 중 PTM 연관 SNP의 전체 개수와, 그 중에 유의한 SNP 개수, 즉 변형된 SNP 개수를 측정한다. 즉, 표적 유전자에 연관된 SNP 중 PTM 연관 SNP의 전체 개수와, 환자의 표적 유전자에 존재하는 PTM 연관 SNP 의 개수를 측정한다.
PTM은 단백질의 기능에 중요한 역할을 하기 때문에 PTM이 일어나는 아미노산 부위와 연관된 SNP 이 존재할 경우 단백질의 기능을 제대로 수행하지 못할 확률이 크다. 따라서 맵핑을 통해 PTM-SNP 이 있는 경우 최종 감수성 점수가 낮게 된다. 예를 들어 SNP1이 GG는 PTM 연관 SNP이고 GT는 정상일 경우, 특정 환자(sample)에의 SNP1 이 GG일 경우 PTM 연관 SNP 이라고 말할 수 있다.
여기서, 측정은 단순 맵핑으로 하며, 입력받은 단일염기서열 정보 기반으로 확인한다. 즉, PTM-SNP DB(107)에 저장된 PTM 연관 SNP와 표적 유전자에 연관된 환자의 SNP를 상호 맵핑하여 환자의 SNP가 PTM 연관 SNP인지를 확인한다.
이때, S201 단계에서 선정된 표적 유전자의 PTM 연관 SNP 전체 개수(P1) 중에서 환자의 PTM 연관 SNP 개수(P2)를 각각 측정하고, P2/P1를 단일염기서열 기반 표적 항암제의 감수성 점수로 평가한다. P2/P1은 0~1 사이 값으로 계산된다.
단일염기서열 분석부(113)는 평가된 값을 단일염기서열 기반 표적 항암제의 감수성 점수로 통합 평가부(150)로 출력한다.
단백질 번역후 변형을 통해 세포내 단백질간 신호전달 역할을 담당하게 되는데, SNP 으로 인해 번역후 변형이 일어나지 않게 되면 세포 내에서 신호전달 역할을 수행할 수 없게 된다. 따라서, 단일염기서열 기반 표적 항암제의 감수성 점수를 평가함으로써, 표적 단백질의 신호전달 역할을 하는 부위에 문제가 있을 가능성이 있는지 SNP로 확인하는 것이다.
도 6은 본 발명의 실시예에 따른 유전자 발현 분석 과정을 나타낸 순서도로서, 도 1 및 도 4에서 설명한 유전자 발현 분석부(115)의 동작을 나타낸다.
도 6을 참조하면, 유전자 발현 분석부(115)는 약물-표적 DB(105)로부터 동반진단 예측 분석의 대상인 약물, 즉, 표적 항암제를 선정하고, 선정된 표적 항암제의 표적을 선정한다(S301).
유전자 발현 분석부(115)는 유전자 발현 DB(109)로부터 암환자의 암조직 세포 및 정상조직 세포로 구성된 유전자 발현 데이터를 추출한다(S303). 그리고 통계 분석 기반으로 S301 단계에서 선정된 표적의 유전자 발현 기준값을 선정한다(S305). S305 단계에 대해 세부적으로 설명하면 다음과 같다.
유전자 발현 분석부(115)는 S301 단계에서 선정된 표적 항암제의 표적의 유전자 발현양을 확인한다. 유전자 발현양 확인은 통계 분석을 통해 이루어질 수 있다.
여기서, t-test는 통계 분석의 한 방법으로, 하나의 표적 유전자에 대해 수행하게 된다.
각 조건, 즉 암조직세포 조건 및 정상조직세포 조건에서의 평균 유전자 발현양의 차이가 클수록 같은 조건에서 해당 표적의 유전자 발현양의 분산값이 적을수록 유의하다고 평가한다. t-test에서 계산하는 t-statistic 값(=P값)은 다음과 같다.
Figure 112017091749091-pat00002
여기서,
Figure 112017091749091-pat00003
,
Figure 112017091749091-pat00004
이때,
Figure 112017091749091-pat00005
은 암조직세포 조건을 의미한다.
Figure 112017091749091-pat00006
는 정상조직세포 조건을 의미한다. M은 암조직세포조건 수를 의미한다. N은 정상조직세포 조건 수를 의미한다.
유전자 발현 분석부(115)는 표적 유전자의 유전자 발현양을 토대로 수학식 1과 같은 t-test 를 계산하여 도출된 P값이 0.05 이하로 나왔을 경우 해당 표적 유전자를 유의한 표적 세트로 선정한다.
유전자 발현 분석부(115)는 유의한 발현을 보이는 표적의 발현양을 기준값으로 선정한다. 즉, 선정된 유의한 표적 세트에 포함되는 표적 유전자의 암조직세포 조건에서의 평균 발현양을 기준값으로 선정한다.
이후, 입력부(101)로부터 환자의 유전자 발현 데이터가 전달(S307)되면, 환자의 유전자 발현 데이터에서 기 선정한 유의한 표적 세트의 유전자 발현양을 확인한다(S309). S309 단계는 수학식 1을 이용하여 S305 단계에서 유전자 발현양 확인과 동일한 방법으로 이루어진다.
유전자 발현 분석부(115)는 S309 단계에서 확인된 유전자 발현양과 S305 단계에서 선정한 기준값을 비교하여 유전자 발현양 기반 표적 항암제의 감수성 점수를 평가 및 산출하여 통합 평가부(150)로 출력한다(S311).
유전자 발현양 기반 표적 항암제의 감수성 점수는 다음 수학식 2로 평가한다.
Figure 112017091749091-pat00007
여기서, S=표적항암제 감수성 점수이고, n=표적항암제의 표적 개수이다. i는 변수를 의미한다. 변수 i가 1, 2, 3, ..., n 까지 증가하면서 수행한다. 기준값은 S305 단계에서 선정된다.
도 7은 본 발명의 실시예에 따른 단백질 발현 분석 과정을 나타낸 순서도로서, 도 1 및 도 4에서 설명한 단백질 발현 분석부(117)의 동작을 나타낸다.
도 7을 참조하면, 단백질 발현 분석부(117)는 약물-표적 DB(105)로부터 동반진단 예측 분석의 대상인 약물, 즉, 표적 항암제를 선정하고, 선정된 표적 항암제의 표적을 선정한다(S401).
단백질 발현 분석부(117)는 단백질 발현 DB(111)로부터 암환자의 암조직 세포 및 정상조직 세포로부터 단백질 발현 데이터를 추출한다(S403). 그리고 통계 분석 기반으로 S401 단계에서 선정된 표적의 단백질 발현 기준값을 선정한다(S405).
단백질 발현 분석부(117)는 입력부(101)로부터 환자의 단백질 발현 데이터가 전달(S407)되면, 환자의 단백질 발현 데이터에서 S405 단계에서 기 선정한 유의한 표적 세트의 단백질 발현양을 확인한다(S409). 그리고 확인한 단백질 발현양과 S405 단계에서 선정한 기준값을 비교하여 단백질 발현양 기반 표적 항암제의 감수성 점수를 평가 및 산출하여 통합 평가부(150)로 출력한다(S411).
여기서, S403 단계 ~ S411 단계는 도 6에서 설명한 S303 단계~ S311 단계와 동일하고, 단지 대상이 유전자 발현 데이터와 단백질 발현 데이터로 구분될 뿐이므로, 상세 설명은 생략한다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (14)

  1. 표적 항암제에 대한 환자의 반응성을 예측하는 동반진단 예측 장치로서,
    환자의 단일염기서열 정보, 유전자 발현 데이터 및 단백질 발현 데이터를 입력받는 입력부,
    상기 표적 항암제의 표적 부위에 존재하는 상기 환자의 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열의 개수를 점수화한 제1 감수성 점수, 상기 환자의 유전자 발현 데이터에서 확인한 상기 표적 항암제의 표적 유전자의 발현양을 점수화한 제2 감수성 점수 및 상기 환자의 단백질 발현 데이터에서 확인한 상기 표적 항암제의 표적 단백질의 발현양을 점수화한 제3 감수성 점수를 통합한 환자의 감수성 점수가 기 정의된 기준값 이상인지 여부에 따라 상기 환자가 상기 표적 항암제에 반응하는 환자군인지 아닌지를 평가하는 통합 평가부, 그리고
    상기 통합 평가부의 평가 결과를 출력하는 출력부
    를 포함하는 동반진단 예측 장치.
  2. 제1항에서,
    상기 통합 평가부는,
    상기 제1 감수성 점수, 상기 제2 감수성 점수 및 상기 제3 감수성 점수의 평균값을 상기 환자의 감수성 점수로 최종 산출하여 상기 기준값과 비교하고, 상기 기준값 이상인 경우, 상기 표적 항암제에 반응하는 환자군으로 분류하고, 상기 기준값 미만인 경우, 부작용이나 효과가 없는 환자군으로 분류하여 상기 출력부를 통해 출력하는 동반진단 예측 장치.
  3. 제2항에서,
    상기 단백질 번역후 변형에 영향을 주는 제1 단일염기서열의 개수와, 상기 제1 단일염기서열 중에서 변형된 제2 단일염기서열의 개수를 각각 측정하고, 상기 제1 단일염기서열의 개수와 상기 제2 단일염기서열의 개수 간의 비를 상기 제1 감수성 점수로 산출하는 단일염기서열 분석부,
    상기 환자의 유전자 발현 데이터에서 사전에 선정된 상기 표적 항암제의 표적 유전자의 유전자 발현양이 기준값 이상인지 아닌지를 점수화한 상기 제2 감수성 점수를 산출하는 유전자 발현 분석부, 그리고
    상기 환자의 단백질 발현 데이터에서 사전에 선정된 상기 표적 항암제의 표적 단백질의 단백질 발현양이 기준값 이상인지 아닌지를 점수화한 상기 제3 감수성 점수를 산출하는 단백질 발현 분석부
    를 더 포함하는 동반진단 예측 장치.
  4. 제3항에서,
    전장 유전체 연관분석(GWAS, Genome Wide Association Study) 데이터가 저장된 제1 데이터베이스,
    적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장하는 약물-표적 DB, 그리고
    단백질 유전체 부위에 있는 유전체 마커(nsSNP) 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열 정보가 저장된 제2 데이터베이스를 더 포함하고,
    상기 단일염기서열 분석부는,
    상기 약물-표적 DB에 저장된 정보를 이용하여 상기 표적 항암제와 상기 표적 항암제의 표적을 선정하고, 상기 제1 데이터베이스로부터 획득한 암관련 전장 유전체 연관분석 데이터에 포함된 단일염기서열 중에서 독립적으로 표현형과 연관성이 있는 단일염기서열을 추출하며, 추출된 단일염기서열을 연관불평형(Linkage Disequilibrium, LD) 기반으로 필터링하고, 필터링된 단일염기서열 중에서 상기 표적 항암제의 표전 유전자에 위치하는 표적 연관 단일염기서열을 선정하며, 상기 표적 연관 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열을 확인하여 상기 환자의 단일염기서열과 비교하는 동반진단 예측 장치.
  5. 제3항에서,
    적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장하는 약물-표적 DB, 그리고
    유전자에 대한 암조직 세포 조건과 정상 조직 세포 조건에서의 mRNA 발현양으로 구성된 유전자 발현 데이터를 저장하는 제3 데이터베이스를 더 포함하고,
    상기 유전자 발현 분석부는,
    암환자의 암조직 세포 및 정상조직 세포의 유전자 발현 데이터에서 상기 표적 항암제의 표적 유전자의 발현양을 통계 분석을 통해 확인하고, 상기 발현양이 통계적으로 유의한 적어도 하나의 표적 유전자를 포함하는 표적 세트를 선정하며, 상기 표적 세트에 포함된 유전자의 암조직세포 조건에서의 평균 유전자 발현양을 상기 기준값으로 선정하고, 상기 환자의 유전자 발현 데이터에서 상기 표적 세트에 포함되는 표적 유전자의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하며, 상기 표적 세트에 포함된 모든 표적 유전자에 대해 평가한 값을 합산하여 상기 제2 감수성 점수를 산출하는 동반진단 예측 장치.
  6. 제3항에서,
    적어도 하나의 공개된 약물-표적 관련 데이터베이스로부터 수집된 약물-표적 정보를 저장하는 약물-표적 DB, 그리고
    암조직세포 및 정상조직세포에서 각각 단백질 발현양을 측정한 단백질 발현 데이터를 저장하는 제3 데이터베이스를 더 포함하고,
    상기 단백질 발현 분석부는,
    암환자의 암조직 세포 및 정상조직 세포의 단백질 발현 데이터에서 상기 표적 항암제의 표적 단백질의 발현양을 통계 분석을 통해 확인하고, 상기 표적 단백질의 발현양이 통계적으로 유의한 적어도 하나의 표적 단백질을 포함하는 표적 세트를 선정하며, 상기 표적 세트에 포함된 단백질의 암조직세포 조건에서의 평균 단백질 발현양을 상기 기준값으로 선정하여 상기 환자의 단백질 발현 데이터와 비교하고, 상기 환자의 단백질 발현 데이터에서 상기 표적 세트에 포함되는 표적 단백질의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하며, 상기 표적 세트에 포함된 모든 표적 단백질에 대해 평가한 값을 합산하여 상기 제3 감수성 점수를 산출하는 동반진단 예측 장치.
  7. 적어도 하나의 프로세서에 의해 동작하는 동반진단 예측 장치에서 처리되는 표적 항암제에 대한 환자의 반응성을 예측하는 동반진단 예측 방법으로서,
    환자의 단일염기서열 정보, 유전자 발현 데이터 및 단백질 발현 데이터를 입력받는 단계,
    상기 표적 항암제의 표적 부위에 존재하는 상기 환자의 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열의 개수를 점수화한 제1 감수성 점수를 산출하는 단계,
    상기 환자의 유전자 발현 데이터에서 확인한 상기 표적 항암제의 표적 유전자의 발현양을 점수화한 제2 감수성 점수를 산출하는 단계,
    상기 환자의 단백질 발현 데이터에서 확인한 상기 표적 항암제의 표적 단백질의 발현양을 점수화한 제3 감수성 점수를 산출하는 단계,
    상기 제1 감수성 점수, 상기 제2 감수성 점수 및 상기 제3 감수성 점수를 통합한 환자의 감수성 점수가 기 정의된 기준값 이상인지 판단하는 단계,
    상기 기준값 이상이면, 상기 환자가 상기 표적 항암제에 반응하는 환자군으로 분류하는 단계,
    상기 기준값 미만이면, 상기 환자가 부작용이나 효과가 없는 환자군으로 분류하는 단계, 그리고
    분류 결과를 출력하는 단계
    를 포함하는 동반진단 예측 방법.
  8. 제7항에서,
    상기 판단하는 단계는,
    상기 제1 감수성 점수, 상기 제2 감수성 점수 및 상기 제3 감수성 점수의 평균값을 상기 환자의 감수성 점수로 최종 산출하는 단계, 그리고
    상기 환자의 감수성 점수가 상기 기준값 이상인지 판단하는 단계
    를 포함하는 동반진단 예측 방법.
  9. 제7항에서,
    상기 제1 감수성 점수를 산출하는 단계는,
    상기 단백질 번역후 변형에 영향을 주는 제1 단일염기서열의 개수를 측정하는 단계,
    상기 제1 단일염기서열 중에서 변형된 제2 단일염기서열의 개수를 측정하는 단계, 그리고
    상기 제1 단일염기서열의 개수와 상기 제2 단일염기서열의 개수 간의 비를 상기 제1 감수성 점수로 산출하는 단계
    를 포함하는 동반진단 예측 방법.
  10. 제9항에서,
    상기 제1 단일염기서열의 개수를 측정하는 단계 이전에,
    상기 표적 항암제와 상기 표적 항암제의 표적을 선정하는 단계,
    암관련 전장 유전체 연관분석 데이터에 포함된 단일염기서열 중에서 독립적으로 표현형과 연관성이 있는 단일염기서열을 추출하는 단계,
    추출된 단일염기서열을 연관불평형(Linkage Disequilibrium, LD) 기반으로 필터링하는 단계,
    필터링된 단일염기서열 중에서 상기 표적 항암제의 표전 유전자에 위치하는 표적 연관 단일염기서열을 선정하는 단계, 그리고
    상기 표적 연관 단일염기서열 중에서 단백질 번역후 변형에 영향을 주는 단일염기서열을 확인하여 상기 환자의 단일염기서열과 비교하여 상기 제1 단일염기서열을 확인하는 단계
    를 더 포함하는 동반진단 예측 방법.
  11. 제10항에서,
    상기 표현형과 연관성이 있는 단일염기서열을 추출하는 단계는,
    상기 암관련 전장 유전체 연관분석 데이터에 포함된 단일염기서열 중에서 전장 유전체 연관분석을 통해 암환자 샘플 조건과 정상인 샘플 조건에서 유의하게 다른 양상을 보이는 단일염기서열을 상기 표현형과 연관성이 있는 단일염기서열로 추출하는 동반진단 예측 방법.
  12. 제10항에서,
    상기 표적 연관 단일염기서열을 선정하는 단계는,
    연관불평형 블록(LD Block) 구성을 통해 상대적으로 가까운 거리에 위치하는 적어도 하나의 단일염기서열로 구성된 적어도 하나의 단일염기서열 세트를 선정하는 단계,
    상기 적어도 하나의 단일염기서열 세트 별로 각 세트에 포함되는 각각의 단일염기서열의 P값(p-value)을 확인하는 단계,
    상기 P값이 가장 낮은 단일염기서열을 해당 세트의 대표 단일염기서열로 선정하는 단계, 그리고
    각 세트의 대표 단일염기서열 중에서 표적 유전자에 위치하는 단일염기서열을 상기 표적 연관 단일염기서열로 선정하는 단계
    를 포함하는 동반진단 예측 방법.
  13. 제7항에서,
    상기 제2 감수성 점수를 산출하는 단계는,
    암환자의 암조직 세포 및 정상조직 세포의 유전자 발현 데이터에서 상기 표적 항암제의 표적 유전자의 발현양을 통계 분석을 통해 확인하는 단계,
    상기 발현양이 통계적으로 유의한 적어도 하나의 표적 유전자를 포함하는 표적 세트를 선정하는 단계,
    상기 표적 세트에 포함된 유전자의 암조직세포 조건에서의 평균 발현양을 상기 기준값으로 선정하는 단계,
    상기 환자의 유전자 발현 데이터에서 상기 표적 세트에 포함되는 표적 유전자의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하는 단계, 그리고
    상기 표적 세트에 포함된 모든 표적 유전자에 대해 평가한 값을 합산하여 상기 제2 감수성 점수를 산출하는 단계
    를 포함하는 동반진단 예측 방법.
  14. 제7항에서,
    상기 제3 감수성 점수를 산출하는 단계는,
    암환자의 암조직 세포 및 정상조직 세포의 단백질 발현 데이터에서 상기 표적 항암제의 표적 단백질의 발현양을 통계 분석을 통해 확인하는 단계,
    상기 발현양이 통계적으로 유의한 적어도 하나의 표적 단백질을 포함하는 표적 세트를 선정하는 단계,
    상기 표적 세트에 포함된 단백질의 암조직세포 조건에서의 평균 발현양을 상기 기준값으로 선정하는 단계,
    상기 환자의 단백질 발현 데이터에서 상기 표적 세트에 포함되는 표적 단백질의 발현양이 상기 기준값을 초과하면 1로 평가하고, 상기 기준값 미만이면 0으로 평가하는 단계, 그리고
    상기 표적 세트에 포함된 모든 표적 단백질에 대해 평가한 값을 합산하여 상기 제3 감수성 점수를 산출하는 단계
    를 포함하는 동반진단 예측 방법.

KR1020160068889A 2015-06-08 2016-06-02 동반진단 예측 장치 및 그 방법 KR101818103B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150080337 2015-06-08
KR20150080337 2015-06-08

Publications (2)

Publication Number Publication Date
KR20160144318A KR20160144318A (ko) 2016-12-16
KR101818103B1 true KR101818103B1 (ko) 2018-01-12

Family

ID=57735970

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160068889A KR101818103B1 (ko) 2015-06-08 2016-06-02 동반진단 예측 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101818103B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640508B (zh) * 2020-05-28 2023-08-01 上海市生物医药技术研究院 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用

Also Published As

Publication number Publication date
KR20160144318A (ko) 2016-12-16

Similar Documents

Publication Publication Date Title
AU2020264326B2 (en) Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
JP7487163B2 (ja) がんの進化の検出および診断
Farwell et al. Enhanced utility of family-centered diagnostic exome sequencing with inheritance model–based analysis: results from 500 unselected families with undiagnosed genetic conditions
Oikkonen et al. A genome-wide linkage and association study of musical aptitude identifies loci containing genes related to inner ear development and neurocognitive functions
Bandres‐Ciga et al. The genetic architecture of Parkinson Disease in Spain: Characterizing population‐specific risk, differential haplotype structures, and providing etiologic insight
US20210125683A1 (en) Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring
CN108475300B (zh) 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
Branham et al. Establishing the involvement of the novel gene AGBL5 in retinitis pigmentosa by whole genome sequencing
Ridge et al. Mitochondrial haplotypes associated with biomarkers for Alzheimer’s disease
Muller et al. OutLyzer: software for extracting low-allele-frequency tumor mutations from sequencing background noise in clinical practice
CN113462775B (zh) 用于结直肠癌预后评估的基因标志物
Moreno-Grau et al. Genome-wide significant risk factors on chromosome 19 and the APOE locus
Collins Precision reproductive medicine: multigene panel testing for infertility risk assessment
Zhou et al. Deep learning-based polygenic risk analysis for Alzheimer’s disease prediction
Johnston et al. The ACMG SF v3. 0 gene list increases returnable variant detection by 22% when compared with v2. 0 in the ClinSeq cohort
Watza et al. COPD‐dependent effects of genetic variation in key inflammation pathway genes on lung cancer risk
KR101818103B1 (ko) 동반진단 예측 장치 및 그 방법
Wood et al. Whole-genome sequencing to understand the genetic architecture of common gene expression and biomarker phenotypes
Breen et al. Whole genome methylation sequencing in blood identifies extensive differential DNA methylation in late‐onset dementia due to Alzheimer's disease
Leal et al. A polygenic biomarker to identify patients with severe hypercholesterolemia of polygenic origin
WO2022054086A1 (en) A system and a method for identifying genomic abnormalities associated with cancer and implications thereof
CN111383713B (zh) ctDNA检测分析装置及方法
Nakamichi et al. Targeted long-read sequencing allows for rapid identification of pathogenic disease-causing variants in retinoblastoma
Gao et al. Utility of Polygenic Risk Scoring to Predict Cognitive Impairment as Measured by Preclinical Alzheimer Cognitive Composite Score
Yang et al. Expansion of 5’UTR CGG repeat in RILPL1 is associated with oculopharyngodistal myopathy

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
GRNT Written decision to grant