KR101810528B1 - 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치 - Google Patents

단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치 Download PDF

Info

Publication number
KR101810528B1
KR101810528B1 KR1020160037494A KR20160037494A KR101810528B1 KR 101810528 B1 KR101810528 B1 KR 101810528B1 KR 1020160037494 A KR1020160037494 A KR 1020160037494A KR 20160037494 A KR20160037494 A KR 20160037494A KR 101810528 B1 KR101810528 B1 KR 101810528B1
Authority
KR
South Korea
Prior art keywords
gene
mutation
gene expression
cancer
calculating
Prior art date
Application number
KR1020160037494A
Other languages
English (en)
Other versions
KR20170113900A (ko
Inventor
최정균
양우진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020160037494A priority Critical patent/KR101810528B1/ko
Publication of KR20170113900A publication Critical patent/KR20170113900A/ko
Application granted granted Critical
Publication of KR101810528B1 publication Critical patent/KR101810528B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • G06F19/18
    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

유전자 단위 리커런스 측정 방법 및 장치로서, 복수 명의 암 환자로부터 얻은 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 획득하는 단계, 상기 암 세포에 포함된 유전체에 존재하는 임의의 유전자와 상기 유전체 상에서, 상기 임의의 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 상호작용 자료를 획득하는 단계, 상기 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계, 및 상기 각각의 유전체의 유전자 발현 조절 위치에 돌연변이가 존재한다고 판단된 암 환자의 수를 계산하는 단계를 포함한다.

Description

단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치{Method and apparatus for measuring functional recurrence of cancer somatic mutations in noncoding regions}
본 발명은 컴퓨터 장치에서 실행되는 유전자 단위 리커런스 계산 방법에 관한 것이다.
암은 체세포 내의 돌연변이(somatic mutation)에 의해 주로 발생한다고 알려져 있다. 특히 암 발생에 중요한 역할을 하는 돌연변이를 드라이버 돌연변이(driver mutation)라고 한다. TCGA(The Cancer Genome Atlas) 등의 프로젝트(project)들은 암 조직의 유전체(genome)에서 수많은 돌연변이를 발견하였다. 하지만 이 돌연변이 중 대부분은 암세포에서 유전자의 오류를 감지하고 수리하는 메커니즘이 망가졌거나, 암세포가 빠르게 분열하는 과정에서 DNA의 합성에 필요한 충분한 재료를 얻지 못하기 때문에 발생한다. 이렇게 발생하는 대부분의 돌연변이를 패신져 돌연변이(passenger mutation)라고 한다.
수많은 돌연변이 중에서 드라이버 돌연변이와 패신져 돌연변이를 구별하는 것은 매우 어려운 일이다. 기존의 연구들에서는 많은 암 환자들에게서 반복적으로(recurrently) 관측되는 돌연변이를 드라이버 돌연변이로 판단하고 발굴하였다. 반복적인 돌연변이의 경우 유전체 상에서 똑같은 위치에서 나타나기도 하지만, 많은 경우 다른 위치에 존재하더라도 동일한 유전자의 내부에 나타나 형질 상으로는 같은 영향을 미치는 것이 대부분이다. 단백질을 바꾸는 돌연변이들의 경우 이와 같이 동일한 유전자 내의 다른 아미노산을 바꾸거나 혹은 심지어 같은 아미노산을 바꾸는 것들이 여러 환자 샘플에서 나타나는 것을 확인함으로써 드라이버 돌연변이를 예측할 수 있었다.
그러나 사람의 전체 유전체 서열 중 90%가 넘는 부분은 단백질 정보를 포함하고 있지 않은 지역, 즉 논코딩(noncoding) 지역에 해당한다. 암 유전체에서 나타나는 돌연변이들도 100% 이상은 논코딩 돌연변이, 즉 단백질을 변화시키지 않는 것들이다. 논코딩 지역에는 유전자의 발현을 조절하는 중요한 조절 정보들이 담겨있는 것이 잘 알려져 있으며, 최근 후성유전체학(epigenomics)의 발달로 질병과 관련된 유전변이들 중 대다수를 차지하는 논코딩 지역에 나타나는 변이들이 어떻게 유전자 발현 조절을 통해 작동하는지 그 기능을 해석하는 방법이 매우 활발하게 연구되고 있다. 이러한 유사한 방법을 암 돌연변이, 특히 단백질을 바꾸지 않는 돌연변이들의 기능 연구에 활용할 수 있다. 그러나 이들 중 드라이버 돌연변이를 발굴하기 위한, 즉 리커런스(recurrence)를 측정하기 위한 체계적인 방법론이 아직 전무한 상황이다.
한편, 유전자 단위의 리커런스를 찾기 위해서는 먼저, 유전자 발현(gene expression)에 영향을 주는 유전자 조절(gene regulation)에 관련된 지역을 발굴해야 한다. 최근 후성유전체학의 발전으로 유전자 조절 지역(=유전자 발현 조절 위치)(gene regulatory region)을 발굴하고 이들의 기능, 특히 질병과 관련된 변이들의 영향에 대한 연구가 활발히 이루어지고 있다.
본 발명에서는 유전자의 단백질 코딩 지역이 아닌 곳, 즉 논코딩 지역 중 프로모터(promoter)와 인핸서(enhancer) 지역을 발굴하여 사용한다. 우선 프로모터는 유전자의 전사(transcription)가 시작되는 곳이며, 이 부분에 RNA 중합효소 및 일반 전사 조절 인자(general transcription factor)들이 붙음으로써 유전자의 전사를 시작할 수 있다. 그리고 인핸서는 3차원 DNA 루핑(looping)을 통하여 프로모터에 직접적으로 영향을 미칠 수 있는 곳으로서 전사 조절 인자(transcription factor)들이 이 곳에 결합하여 유전자의 발현 양을 조절한다. 유전 서열상으로는 멀리 떨어져 있지만 프로모터와 상호작용(long range interaction)을 하고 있기 때문에 해당 위치의 돌연변이는 유전자의 발현에 영향을 줄 수 있다.
특정 암 타입에서 어떤 프로모터와 인핸서가 상호작용(interaction)을 하고 있는지는 Hi-C나 ChIA-PET등의 실험 자료로부터 구할 수 있다. 본 발명에서는 더 많은 조절 지역을 발굴하기 위해서 위의 정보에 덧붙여서 계산에 기반한 예측 방법 2 가지를 결합하여 특정 유전자를 조절할 수 있는 모든 부분을 발굴하였다. 그 두 가지는 IM-PET 방법과 DHS 상관(correlation) 방법이며, 이 부분은 이미 여러 연구에서 소개가 되었다.
도 1은 종래 기술에 따른, 위치 기반으로 리커런스를 계산하는 방법을 도시한 것이다. 종래에는, 유전자의 발현과는 상관없이 특정 위치에 몇 개의 돌연변이가 반복적으로 나타나는 지를 관찰해서 그 개수를 리커런스로 정의하여 계산한다. 도 1의 가로축 선은 유전체를 상징하는 것이며, 역삼각형 모양은 상기 유전체의 각 위치에 나타난 돌연변이를 나타낸다. 도 1의 각 점선 부분(10)은 리커런스가 2이상인 위치를 예시한 것이다. 위치(11)는 리커런스가 3이고, 위치(12)와 위치(13)는 각각 리커런스가 2이다.
논코딩 지역에서 드라이버 돌연변이를 찾기 위한 새로운 방법이 필요하다. 이를 위해, 본 발명에서는 조절 지역 암 돌연변이의 기능적인, 즉 유전자 단위의 리커런스를 구하는 방법 및 장치를 제공하고자 한다. 종래의 기술이 단순히 각 돌연변이의 기능적 영향과 상관없이 여러 환자에게서 특정 위치에 반복적으로 나타나는 돌연변이를 찾는 것이라고 한다면, 본 발명의 유전자 단위 리커런스에 기반한 방법은 여러 환자에게서 특정 유전자의 조절 지역에 반복적으로 나타나는 돌연변이를 찾는 것으로서 생물학적으로 정확한 방법이라 할 수 있다. 이를 위해서는 우선 특정 유전자를 조절하는 지역을 찾는 방법과, 해당 지역 안에 몇 명의 환자에게서 돌연변이가 나타나는지를 계산할 수 있는 방법이 필요하다.
한편, 유전자 단위 리커런스를 구할 때 리커런스를 구하기 위한 구역의 크기가 매우 크다는 점이 문제가 된다. 몇몇 유전자는 10개 이상의 인핸서를 가지고 있으며, 관련된 구역을 모두 합칠 경우 1,000bp 이상의 길이를 갖는 경우도 많다. 길이가 길다는 것은 그 만큼 그 안에 돌연변이를 가질 가능성이 높다는 것을 의미한다. 따라서 암 발생에는 중요하지 않으면서, 암 발달 과정에서 자연적으로 발생하는 패신져 돌연변이에 의해 리커런스가 나타날 가능성이 있다. 기존의 연구에 의해 세포 분열 시 DNA가 복제 될 때, 늦게 복제 되는 쪽에서 오류로 인한 패신져 돌연변이가 많다는 것이 알려져 있다. 또한 발현이 자주 되지 않는 유전자가 위치한 쪽도 DNA 복제 오류가 많다는 것이 알려져 있다. 따라서 암 유전체의 특정 부분은 돌연변이 밀도가 자연적으로 높다.
만약에 어떤 유전자가 이러한 위치에 인핸서를 가지고 있다면, 이 유전자는 암 발생에 중요하지 않음에도 불구하고 매우 높은 리커런스를 가지게 될 것이다. 따라서 이러한 돌연변이들을 걸러낼 필요가 있다.
따라서 더 나은 데이터 품질을 위해서 자연적으로 돌연변이가 많이 생기는 곳의 변이를 배제하는 방법이 필요하며, 또한 구해진 유전자 단위 리커런스의 값이 과연 통계적으로 의미 있는 값인지를 판단할 방법이 필요하다.
본 발명에서 제시하는 기능적 리커런스를 계산하기 위하여, 유전자 단위로서, 즉 특정 유전자의 조절 부분에 몇 명의 환자에게서 돌연변이가 발생하는지를 계산할 수 있다. 따라서 특정 유전자의 조절에 관련된 전체 지역을 하나의 구역으로 정하고, 상기 구역 중 어느 한 부분에라도 돌연변이가 존재한다면 해당 유전자와 관련된 돌연변이가 있다고 규정한다. 그리고 해당 유전자 관련 돌연변이가 몇 명의 환자의 암 유전체에 있는지를 세어서 그 샘플 수를 '유전자 단위 리커런스'로 정의할 수 있다.
도 2는 본 발명의 일 관점에 따라 유전자 단위 리커런스를 계산하는 방법을 도시한 것이다. 특정 유전자의 단백질 코딩 지역(protein coding region)(20)근처에는 유전자의 발현을 시작하는 프로모터 부분(30)이 있다. 또한 해당 프로모터와 3차원 상호작용 관계가 있다고 알려진 모든 부분(40)을 해당 유전자의 발현에 관련된 지역으로 간주할 수 있다. 따라서 해당 유전자의 유전자 단위 리커런스는 모든 네모 안의 구역(30, 40) 안에 적어도 하나의 돌연변이가 존재하는 암 환자의 수로 계산할 수 있다. 이때, 돌연변이는 삼각형으로 표시된 것이며, 도 2에 나타낸 예에서는, 도 2에 나타낸 모든 돌연변이가 서로 다른 환자에서 발견된 것이라 가정할 수 있다. 도 2의 실시예에서는 돌연변이가 총 13개 있으며 그 중 단백질 코딩 지역(20)에 관련된 유전자의 발현에 관련된 지역에는 7개의 돌연변이가 있다. 이것이 모두 다른 사람으로부터 발견된 돌연변이이기 때문에 해당 유전자의 리커런스는 7이라 계산될 수 있다.
본 발명의 일 관점에 따라 유전자 단위 리커런스를 구하는 방법은, (1) 환자 별 암 샘플의 유전체 정보로부터 돌연변이 위치를 추출하는 단계, (2) 돌연변이 위치를 조절 관계가 있는 유전자로 연결하는 단계, (3) 각 개인 유전체의 유전자 별로 돌연변이가 존재하는지 여부를 기록하는 단계, 및 (4) 각 유전자 별로 몇 개의 개인 유전체로부터 돌연변이가 존재하는지를 계산하는 단계를 포함할 수 있다.
이때, 더욱 정교한 계산을 위해, 암 유전체의 돌연변이 정보로부터 각 위치에 돌연변이가 나타날 확률을 계산하여 유의성이 낮은 돌연변이를 배제(filter-out)하는 방법과 계산된 리커런스로부터 유전자 별 리커런스 통계적 유의성을 계산할 수 있는 방법을 제시할 수 있다.
이때, 의미 없는 돌연변이를 배제하기 위해, 본 발명의 일 관점에서는 통계적 모델을 제시할 수 있다. 우선 모든 유전체의 각 위치에는 돌연변이가 발생할 확률이 존재한다. 해당 암 종류의 모든 돌연변이 정보를 수집하여 각 위치 근처에 위치한 돌연변이 밀도를 계산함으로써 각 위치의 돌연변이 확률 정보(probability, p)를 구할 수 있다. 이 확률(p)은 해당 부분에 돌연변이가 하나 나타날 확률이므로, N명의 개인에게서 해당 위치에 돌연변이가 x번 나타날 확률은 이항 분포 X ~ B(N, p)를 따르며 이를 통해 돌연변이가 나타난 횟수의 유의미성을 찾을 수 있다. 이때 N값은 상당히 크고 p값은 매우 작으므로 Poisson 분포 X ~ Poisson(Np)로도 근사할 수 있다.
본 발명의 일 관점에 따라 유전자 단위 리커런스를 구하는 방법에서는, 위의 확률 분포에 기초하여 특정 돌연변이의 유의미성이 큰지 작은지를 판단하여, 패신져 돌연변이의 확률이 높은 지역의 돌연변이들을 리커런스의 계산 과정에서 제외시키는 단계를 포함할 수 있다.
도 3은 본 발명의 일 관점에 따라 의미 없는 돌연변이를 배제하는 방법을 설명하기 위한 것이다. 도 3의 (a)는 암 유전체에서 수집된 모든 돌연변이(50)를 표시한 도면이고, 도 3의 (b)는 암 유전체에서부터 수집된 모든 돌연변이(50)의 정보로부터, 유전체 내의 특정 부분 주변에서 돌연변이의 횟수를 관측하여 확률 밀도를 그래프로 나타낸 것이다.
도 3의 (a)에 나타낸 정보를 이용하여 도 3의 (b)에 나타낸 정보를 없을 수 있다. 다만 돌연변이가 수백만 개 수준이기 때문에 도 3의 (a)는 극히 이 중 일부분만을 예시한 것이며, 도 3의 (b)는 주변의 돌연변이 횟수를 관측하기 때문에 부드러운 곡선으로 제시될 수 있다.
이때, 계산된 확률 밀도를 배경(background) 확률 밀도라고 지칭할 수 있다. 상기 확률 밀도로부터 특정 부분에 돌연변이가 하나 이상 나타날 확률을 계산할 수 있으며, 이를 바탕으로 확률 모델을 정립할 수 있다. 상기 모델에 기초하여 돌연변이 정보(도 3의 (a))로부터 관측된 특정 부분의 돌연변이 횟수가 얼마나 유의한지를 판단할 수 있다. 이때 유의성을 p-value로 나타내며 p-value가 작을수록 유의성이 크다. 이후 낮은 유의성을 가진 돌연변이들은 유전자 단위 리커런스를 계산할 때 제외시킬 수 있다. 예컨대, 도 3의 (b)에서, 유의성이 낮은 돌연변이들은 x표시가 되어 있는 부분의 돌연변이일 수 있다. 도 3의 (b)에서 배경 돌연변이 밀도(backgrond contour line)보다 돌연변이 리커런스(forward bar)가 낮은 경우를 'X'로 표시할 수 있다.
본 발명과 같이 유전자 단위 리커런스를 구하는 목적은 특정 암 종류에서 어떤 유전자가 여러 환자에 걸쳐 반복적으로 돌연변이에 의해 조절 받는지를 밝힘으로써, 그 유전자와 관련된 돌연변이가 암 발생에 중요한 연관이 있는지를 알아내고자 하는데 있다. 이를 위해 우선 특정 유전자가 다른 유전자 보다 더 중요한지 아닌지를 리커런스 값을 통해 예측해야 한다. 이 때, 어떤 유전자는 조절 지역이 매우 넓고 해당 부분의 패신져 돌연변이 밀도가 높아서 그 지역에 돌연변이가 발생할 확률이 높은 반면, 다른 유전자는 조절지역에 돌연변이가 발생할 확률이 매우 낮을 수 있다. 따라서 유전자 사이에 리커런스 값을 통계적으로 유의한 값으로 변환해 주어야 할 필요성이 있다.
이를 위해 본 발명은 확률 모델에 기반한 리커런스 유의성 모델을 제시한다. 우선 해당 암 종류에서 수집된 모든 돌연변이 정보에 기반하여 각 유전자의 조절 지역에 위치한 돌연변이의 밀도를 구할 수 있다. 이를 통해 유전자의 전체 조절 지역에서 1개 이상의 돌연변이가 발생할 확률(probability, p)을 구할 수 있다. 정밀하게는 각 위치에 하나의 돌연변이도 일어나지 않을 확률의 곱으로부터 하나 이상의 돌연변이가 나타날 확률을 구할 수 있으나, 확률 값이 매우 작으므로 단순한 합으로 근사하여 구할 수 있다. 확률 p로부터 리커런스가 나타날 확률을 구할 수 있는데 N 명의 개인에게서 해당 유전자의 리커런스가 x일 확률은 이항 분포 X ~ B(N, p)를 따른다. 이것은 Poisson 분포 X ~ Poisson(Np)로도 근사할 수 있다.
본 발명은 위의 확률 분포에 기초하여 특정 유전자의 리커런스가 유의미성이 큰지 작은지를 계산하여, 높은 유의미성을 가진 유전자가 암 발생에 많은 영향을 준 것으로 판단한다. 또한, 해당 유전자와 관련된 돌연변이 역시 드라이버 돌연변이일 확률이 높은 것으로 판단한다.
도 4는 본 발명의 일 실시예에 따라 리커런스의 통계적 유의성을 설명하기 위한 도면이다. 도 4의 (a)는 모든 돌연변이 및 유전자 X, Y에 영향을 미치는 위치를 표시한 도면이다. 도 4의 (b)는 배경 확률 밀도를 나타낸 그래프이다.
전체 유전체의 돌연변이 정보(50, 즉 도 4의 (a)에 나타낸 모든 삼각형들)로부터, 특정 부분 주변에서 돌연변이의 횟수를 관측하여 배경(background) 확률 밀도를 계산할 수 있다. 상기 확률 밀도를 각 유전자의 발현 조절과 관련된 모든 부분에 대해서 적분하면 돌연변이가 나타날 기대 값(expectation)을 계산할 수 있으며 이를 바탕으로 리커런스 확률 모델을 정립할 수 있다. 상술한 실시예에서는 유전자 X(Gene X)와 연결된 부분(45)의 돌연변이 기대 값은 6.0 (2.5+3.5), 유전자 Y(Gene Y)와 연결된 부분(46)의 경우 3.1 (1.5+1.6)이 된다.
그리고 암 유전체에서부터 수집된 돌연변이 중 의미 없는 돌연변이의 배제 과정을 통해 무의미하다고 판단된 돌연변이(55로 표기된 돌연변이, 즉 흰색으로 채워진 삼각형)를 제거한 후, 의미 있는 돌연변이(51)의 개수를 각 유전자의 발현 조절과 관련된 모든 부분에 대해서 계산하면 이 결과가 유전자 단위 리커런스가 된다. 위의 그림에서는 유전자 X(Gene X)와 연결된 부분의 리커런스는 총 6 (3+3)이 되며, 유전자 Y(Gene Y)의 경우 8 (4+4)이 된다. 각 유전자에 대해서 리커런스 확률 모델과 유전자 단위 리커런스를 바탕으로 관측된 값이 얼마나 유의한지를 p-value로 계산 할 수 있으며 p-value가 작을수록 유의하다. 이후 높은 유의성을 가진 유전자들 및 관련 돌연변이들을 발굴할 수 있다.
본 발명의 일 관점에 따른 유전자 단위 리커런스 측정 방법은, 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 획득하는 단계, 상기 복수 개의 암 세포 각각에 대하여, (1) 상기 암 세포에 포함된 유전체에 존재하는 유전자의 유전자 발현 위치와 (2) 상기 유전체 상에서, 상기 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 [유전자 발현 위치, 유전자 발현 조절 위치]의 상호작용 자료를 획득하는 단계(S11, S20), 상기 획득한 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계(S30), 및 상기 검출된 자료를 기반으로, 상기 각각의 유전체의 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수(recurrence)를 계산하는 단계(S40), 및 상기 계산된 암 환자의 수를 상기 유전자에 대한 리커런스로 정의하여 제공하는 단계를 포함할 수 있다.
이때, 상기 임의의 유전자의 발현에 영향을 주는 위치는, 상기 임의의 유전자 중 프로모터의 위치와 상기 프로모터와 3차원 상호작용 관계가 있는 인핸서들의 위치를 포함하는 위치일 수 있다.
이때, 상기 상호작용 자료를 획득하는 단계 이전에, 상기 복수 명의 암 환자로부터 얻은 상기 유전체 정보로부터 상기 유전체에 존재하는 모든 돌연변이 위치를 추출하는 단계(S10)를 더 포함할 수 있다.
이때, 상기 추출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에서의 상기 돌연변이의 밀도를 계산하는 단계(S110), 및 상기 돌연변이 밀도를 이용하여, 상기 유전자 발현 조절 위치에서 상기 돌연변이가 나타날 확률을 계산하는 단계(S110)를 더 포함할 수 있다.
이때, 상기 돌연변이가 나타날 확률을 계산하는 단계는, 상기 계산된 밀도를 상기 유전자 발현 조절 위치에 걸쳐 합하여 상기 돌연변이가 나타날 기댓값을 계산하는 단계일 수 있다.
이때, 상기 각각의 유전체의 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수(recurrence)를 계산하는 단계 이후에, 상기 계산된 암 환자의 수와 상기 기댓값을 통해 리커런스 유의성을 계산하는 단계(S140)를 더 포함할 수 있다.
이때, 상기 각각의 유전체의 각 위치에 존재하는 상기 돌연변이의 밀도를 계산함으로써 상기 각 위치에서의 돌연변이 확률을 얻는 단계, 및 상기 각 위치에서 상기 돌연변이가 나타난 횟수에 대한 상기 리커런스 유의성은 이항 분포 X ~ B(N, p)를 기초로 계산하는 단계를 더 포함하며, 이때, 상기 이항 분포는 N명의 개인에서 상기 각 위치에서 상기 돌연변이가 x번 나타날 확률(p)에 관한 분포일 수 있다.
또는, 상기 각각의 유전체의 각 위치에 존재하는 상기 돌연변이의 밀도를 계산함으로써 상기 각 위치에서의 돌연변이 확률을 얻는 단계, 및 상기 각 위치에서 상기 돌연변이가 나타난 횟수에 대한 상기 리커런스 유의성은 Poisson 분포 X ~ Poisson(Np)를 기초로 계산하는 단계를 더 포함하며, 이때, 상기 Poisson 분포는 N명의 개인에서 상기 각 위치에서 상기 돌연변이가 x번 나타날 확률(p)에 관한 분포일 수 있다.
본 발명의 일 관점에 따른 유전자 단위 리커런스 측정 장치는, 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 저장하도록 되어 있는 저장부, 및 처리부를 포함할 수 있다. 상기 처리부는, 상기 복수 개의 유전체 정보를 획득하는 단계, 상기 복수 종류의 암 세포 각각에 대하여, (1) 상기 암 세포에 포함된 유전체에 존재하는 임의의 유전자와 (2) 상기 유전체 상에서, 상기 임의의 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 상호작용 자료를 획득하는 단계, 상기 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계, 및 상기 검출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수(recurrence)를 계산하는 단계를 수행하도록 되어 있을 수 있다.
이때, 상기 임의의 유전자의 발현에 영향을 주는 위치는, 상기 임의의 유전자의 단백질 코딩 지역이 아닌 곳 중 프로모터의 위치와 상기 프로모터와 3차원 상호작용 관계가 있는 인핸서들의 위치를 포함하는 위치일 수 있다.
이때, 상기 검출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에서의 상기 돌연변이의 밀도를 이용하여 상기 유전자 발현 조절 위치에서 상기 돌연변이가 나타날 확률을 계산하는 단계를 더 포함할 수 있다.
이때, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수(recurrence)를 계산하는 단계 이후에, 상기 계산된 암 환자의 수와 상기 계산된 확률값을 통해 리커런스 유의성을 계산하는 단계를 더 포함할 수 있다.
본 발명의 일 관점에 따른 컴퓨터로 읽을 수 있는 매체는, 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 저장하도록 되어 있는 저장부 및 처리부를 포함하는 컴퓨팅 장치의 상기 처리부가, 상기 복수 개의 유전체 정보를 획득하는 단계, 상기 복수 종류의 암 세포 각각에 대하여, (1) 상기 암 세포에 포함된 유전체에 존재하는 임의의 유전자와 (2) 상기 유전체 상에서, 상기 임의의 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 상호작용 자료를 획득하는 단계, 상기 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계, 및 상기 검출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수(recurrence)를 계산하는 단계를 수행하도록 하는 프로그램이 기록되어 있을 수 있다.
본 발명에 따르면, 유전자 단위 리커런스를 계산할 수 있다. 또한, 자연적으로 돌연변이가 많이 생기는 곳의 변이를 배제하는 방법을 제공할 수 있으며, 이를 통해 통계적으로 의미 있는 리커런스를 계산할 수 있다.
도 1은 종래 기술에 따른, 위치 기반으로 리커런스를 계산하는 방법을 도시한 것이다.
도 2는 유전자 단위 리커런스를 계산하는 방법을 도시한 것이다.
도 3은 본 발명의 일 실시예에 따라 의미 없는 돌연변이를 배제하는 방법을 설명하기 위한 것이다.
도 4는 본 발명의 일 실시예에 따라 리커런스의 통계적 유의성을 설명하기 위한 도면이다.
도 5는 발명의 일 실시예에 따른 유전자 단위 리커런스 계산 과정 순서도를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 각 환자의 유전체에 존재하는 모든 돌연변이 위치를 표로 나타낸 것이다.
도 7a 및 도 7b는 발명의 일 실시예에 따른 리커런스 측정 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따라, 각 유전자 발현 위치에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치 정보를 표로 나타낸 것이다.
도 9는 본 발명의 일 실시예에 따라, 단계(S30)를 수행한 결과를 표로 나타낸 것이다.
도 10은 본 발명의 일 실시예에 따라, 각 유전자 발현 위치에 대한 리커런스를 표로 나타낸 것이다.
도 11은 본 발명의 일 실시예에 따른 리커런스 유의성을 판단 단계가 추가된 순서도를 나타낸 것이다.
이하, 본 발명의 실시예를 첨부한 도면을 참고하여 설명한다. 그러나 본 발명은 본 명세서에서 설명하는 실시예에 한정되지 않으며 여러 가지 다른 형태로 구현될 수 있다. 본 명세서에서 사용되는 용어는 실시예의 이해를 돕기 위한 것이며, 본 발명의 범위를 한정하고자 의도된 것이 아니다. 또한, 이하에서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.
본 발명에서는 유전자 단위 리커런스를 측정하기 위한 방법을 제공하고자 한다. 상기 유전자 단위 리커런스란, 특정 유전자의 조절 지역(=조절 위치)에서 돌연변이가 발생한 환자의 수를 의미할 수 있다.
도 5는 발명의 일 실시예에 따른 유전자 단위 리커런스 계산 과정 순서도를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 각 환자의 유전체에 존재하는 모든 돌연변이 위치를 표로 나타낸 것이다.
도 7a 및 도 7b는 발명의 일 실시예에 따른 리커런스 측정 과정을 설명하기 위한 도면이다. 도 7a 및 도 7b는 각각 특정 암 샘플에 관하여, n명의 환자들의 각 유전체들(G1~Gn) 상의 돌연변이(세모 모양)를 나타낸 것이다.
단계(S10)에서, 환자 별 암 샘플의 유전체 정보(G1~Gn)로부터 돌연변이(ex: 도 7a의 세모 모양) 위치를 추출할 수 있다. 단계(S10)을 실행한 결과, 각 환자 별 상기 유전체 정보로부터 추출한 돌연변이 위치는 도 6과 같이 표로 나타낼 수 있다.
단계(S11)에서, 암 세포 종류별 유전체 정보에서 {유전자 발현 위치, 상기 발현되는 유전자의 발현을 조절하는 복수 개의 유전자 발현 조절 위치들} 간의 상호작용 자료를 수집할 수 있다. 이때, '유전자 발현 위치'는 예컨대 상기 발현되는 유전자의 프로모터일 수 있으며, 상기 '유전자 발현 조절 위치'는 예컨대 인핸서일 수 있다. 상기 상호작용 자료는 예컨대, 도 8의 표와 같이 제공될 수도 있다.
단계(S11)은 하나의 유전체 내에서 전체 유전자와 전체 유전자 조절 위치에 대해서 매핑 정보를 추출하는 과정이며, 이 단계(S11)에 의하여 (위치범위-유전자)에 관한 정보를 얻을 수 있다.
도 7a 및 도 7b에 나타낸 점선에 의해 지시되는 매핑 정보는, 각 환자(1~n)들의 유전체(G1~Gn)에서, '유전자 발현 위치'(k1, k11)와 '유전자 발현 조절 위치'(e1, e2, e3, e11, e12, e13, e14)의 상호작용 관계를 나타내는 것일 수 있다.
도 7a 및 도 7b를 참조하여 설명한다.
도 7a를 살펴보면, 예컨대, 각 환자의 유전체(G1~Gn)에서, 제1 유전자가 발현하는 부분(protein coding region)은 g1이며, 상기 제1 유전자의 발현을 시작하는 부분인 '유전자 발현 위치'는 k1일 수 있다. 이때, '유전자 발현 위치(k1)'는 '유전자 발현 조절 위치'(e1, e2, e3)들로부터 직접적으로 영향을 받을 수 있다.
도 7b를 살펴보면, 각 환자의 유전체(G1~Gn)에서, 제2 유전자가 발현하는 부분(protein coding region)은 g2이며, 상기 제2 유전자의 발현을 시작하는 부분인 '유전자 발현 위치'는 k11일 수 있다. 이때, '유전자 발현 위치(k11)'는 '유전자 발현 조절 위치'(e11, e12, e13, e14)들로부터 직접적으로 영향을 받을 수 있다.
이때, 상기 '유전자 발현 조절 위치'는 상기 유전체 정보에서 추출할 수 있는 모든 위치들을 포함할 수 있다. 단계(S11)에서 수집하는 '유전자 발현 조절 위치'들에는 돌연변이가 있을 수도 있고 없을 수도 있다.
이렇게 서로에게 영향을 주는 특정 '유전자 발현 위치'에 대한 '유전자 발현 조절 위치' 들에 관한 자료를 수집할 수 있다.
단계(S20)에서, '유전자 발현 조절 위치'에 속한 돌연변이 위치로 부터 조절 관계가 있는 '유전자'로 연결(mapping)하여 {돌연변이, 유전자} 연결 정보를 기록할 수 있다.
단계(S20)은 단계(S11)에 의하여 얻은 결과 중에서 돌연변이가 나타난 곳의 위치만을 찾는 단계이며, 단계(S20)에 의하여 (돌연변이-유전자) 정보를 얻을 수 있다.
단계(S20)의 구현을 위한 일 실시예에서, '모든 환자들'의 각 유전체 정보 중 돌연변이가 발견된 위치만을 추출한 후, 상기 추출된 위치가 단계(S20)에서 수집한 유전자 발현 조절 위치인 경우에는, 상기 추출된 위치에 매핑되어 있는 유전자 발현 위치를 찾아낼 수 있다. 그 후 상기 추출된 '유전자 발현 조절 위치'와 상기 찾아낸 '유전자 발현 위치' 간의 연결정보를 저장하여 둘 수 있다.
단계(S20)에서는 모든 환자들의 정보들을 통합하여 유전자 발현 조절 위치에 돌연변이가 존재하는지 아닌지의 여부를 확인할 수 있다.
도 8은 본 발명의 일 실시예에 따라, 각 유전자 발현 위치에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치 정보를 표로 나타낸 것이다. 각 필드는 '유전자 발현 위치', '유전자 발현 조절 위치', 및 '돌연변이가 존재하는 유전자 발현 조절 위치'를 나타낸다.
유전자 발현 위치(k1)의 경우, 유전자 발현 조절 위치(e1, e2, e3) 중 돌연변이가 존재하는 유전자 발현 조절 위치는 e2, 및 e3을 포함할 수 있고, 유전자 발현 위치(k11)의 경우, 유전자 발현 조절 위치(e11, e12, e13, e14) 중 돌연변이가 존재하는 유전자 발현 조절 위치는 e11, e13, 및 e14를 포함할 수 있다.
단계(S30)에서, '각 개인' 유전체 돌연변이 정보로부터 각 유전자의 조절 지역에 돌연변이가 존재하는지 여부를 기록할 수 있다. 이와 같이 특정 유전자의 조절 지역에 돌연변이가 존재하는지 여부를 개인별로 조사하여 생성한 정보를 이하 '유전자-개인 연결정보'라고 지칭할 수 있다.
단계(S30)에서는 단계(S20)에서 확인한 특정 유전자에 대한 '유전자 발현 조절 위치'에 돌연변이가 존재하는지 여부를, 환자 개인별로 확인하여 저장할 수 있다.
도 9는 본 발명의 일 실시예에 따라, 단계(S30)를 수행한 결과를 표로 나타낸 것이다.
표의 각 필드는 '환자 분류', '유전자 발현 위치', '돌연변이가 존재하는 유전자 발현 조절 위치'를 나타낸다. 환자 1의 경우, 유전자 발현 위치(k1)에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치는 e2, 및 e3에 해당하며, 유전자 발현 위치(k11)에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치는 e11, 및 e13에 해당할 수 있다. 환자 k의 경우, 유전자 발현 위치(k1)에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치는 e2, 및 e3에 해당하며, 유전자 발현 위치(k11)에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치는 없을 수 있다. 환자 n의 경우, 유전자 발현 위치(k1)에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치는 e2에 해당하며, 유전자 발현 위치(k11)에 대하여, 돌연변이가 존재하는 유전자 발현 조절 위치는 e13, 및 e14에 해당할 수 있다.
단계(S40)에서, 상술한 '유전자-개인 연결정보'로부터 유전자 단위 리커런스를 계산할 수 있다.
도 10은 본 발명의 일 실시예에 따라, 각 유전자 발현 위치에 대한 리커런스를 표로 나타낸 것이다. 유전자 발현 위치(k1)를 기준으로, 돌연변이가 존재하는 유전자 발현 조절 위치를 갖는 환자는 환자 1, 환자 k, 및 환자 n 이므로, 리커런스는 3이 될 수 있다. 그리고 유전자 발현 위치(k11)를 기준으로, 돌연변이가 존재하는 유전자 발현 조절 위치를 갖는 환자는 환자 1, 환자 n 이므로, 리커런스는 2가 될 수 있다.
단계(S10) 내지 단계(S40)은 유전자 단위 리커런스를 계산하기 위한 단계들이며, 자연적으로 돌연변이가 많이 생기는 곳의 변이를 배제하기 위한 단계들이 추가로 실행될 수 있다.
특정 사람의 유전체에는 수많은 '유전자 발현 위치'가 존재하며, 상기 '유전자 발현 위치'에 영향을 미치는 수많은 '유전자 발현 조절 위치'가 존재한다. 즉, 유전자 단위 리커런스를 구하기 위한 상기 유전체의 전체 구역의 크기가 매우 크며, 많은 사람을 대상으로 리커런스를 구하기 때문에, 의미없는 돌연변이를 배제할 필요가 있다.
도 11은 본 발명의 일 실시예에 따른 리커런스 유의성을 판단 단계가 추가된 순서도를 나타낸 것이다.
상술한 단계(S10) 이후 단계(S110)에서, 추출된 돌연변이 위치를 기반으로, 특정 암 종류에 대하여 유전체에서의 모든 돌연변이 정보를 이용하여 돌연변이의 각 위치 근처에 위치한 돌연변이 밀도를 계산하는 단계를 수행할 수 있다. 그리고 상기 돌연변이 밀도로부터 상기 유전체에서의 특정 위치에 돌연변이가 나타날 확률을 계산할 수 있다.
단계(S120)에서, 상기 각 특정 위치의 돌연변이 확률로부터 의미 없는 돌연변이를 배제할 수 있다. 이때, 상기 각 특정 위치의 돌연변이 횟수가 얼마나 유의한지를 판단할 수 있다. 이때, 판단 기준으로 p-value를 이용할 수 있으며, p-value가 낮을수록 유의성이 클 수 있다. 따라서 낮은 유의성을 가진 돌연변이들을 배제할 수 있다.
단계(S110) 및 단계(S120)은 단계(S10)에서 추출된 돌연변이 위치를 기반으로 수행될 수 있다.
단계(S130)에서, 유전자 조절 지역(=유전자 발현 조절 위치+유전자 발현 위치) 단위로 돌연변이 밀도를 합쳐서 특정 유전자 관련 지역에서 리커런스 예상값을 계산할 수 있다. 이때, 배경 확률 밀도를 계산한 후, 상기 각 유전자 발현 조절 위치에 대해서 적분하면 돌연변이가 나타날 기댓값을 계산할 수 있으며, 상기 기댓값을 바탕으로 리커런스 예상값을 계산할 수 있다.
단계(S140)에서, 계산된 리커런스 값과 리커런스 예상 값으로부터 통계적 방법론을 사용하여 유전자 별로 리커런스 유의성을 계산할 수 있다.
도 11에 나타낸 단계(S110) 내지 단계(S120)는 도 3을 통해 설명한 내용과 연관되어 있으며, 단계(S130) 내지 단계(S140)는 도 4를 통해 설명한 내용과 연관되어 있다.
상술한 실시예에서, 각각의 유전체는 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체일 수 있다. 상기 복수 개의 유전체들은 리커런스 측정 장치의 저장부에 저장되어 있을 수 있다. 상술한 실시예의 모든 단계들((S10) 내지 (S140))은 상기 측정 장치의 처리부를 통해 실행되도록 되어 있을 수 있다.
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.

Claims (13)

  1. 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 획득하는 단계;
    상기 복수 개의 암 세포 각각에 대하여, (1) 상기 암 세포에 포함된 유전체에 존재하는 유전자의 유전자 발현 위치와 (2) 상기 유전체 상에서, 상기 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 [유전자 발현 위치, 유전자 발현 조절 위치]의 상호작용 자료를 획득하는 단계;
    상기 획득한 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계;
    상기 검출된 자료를 기반으로, 상기 각각의 유전체의 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수를 계산하는 단계; 및
    상기 계산된 암 환자의 수를 상기 유전자에 대한 리커런스로 정의하여 제공하는 단계
    를 포함하는,
    유전자 단위 리커런스 측정 방법.
  2. 제1항에 있어서, 상기 임의의 유전자의 발현에 영향을 주는 유전자 발현 조절 위치는, 상기 임의의 유전자 중 프로모터의 위치와 상기 프로모터와 3차원 상호작용 관계가 있는 인핸서들의 위치를 포함하는 위치인, 유전자 단위 리커런스 측정 방법.
  3. 제1항에 있어서,
    상기 상호작용 자료를 획득하는 단계 이전에, 상기 복수 명의 암 환자로부터 얻은 상기 유전체 정보로부터 상기 유전체에 존재하는 모든 돌연변이 위치를 추출하는 단계를 더 포함하는,
    유전자 단위 리커런스 측정 방법.
  4. 제3항에 있어서,
    상기 추출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에서의 상기 돌연변이의 밀도를 계산하는 단계; 및
    상기 돌연변이 밀도를 이용하여, 상기 유전자 발현 조절 위치에서 상기 돌연변이가 나타날 확률을 계산하는 단계;
    를 더 포함하는,
    유전자 단위 리커런스 측정 방법.
  5. 제4항에 있어서,
    상기 돌연변이가 나타날 확률을 계산하는 단계는, 상기 계산된 밀도를 상기 유전자 발현 조절 위치에 걸쳐 합하여 상기 돌연변이가 나타날 기댓값을 계산하는 단계인,
    유전자 단위 리커런스 측정 방법.
  6. 제5항에 있어서,
    상기 각각의 유전체의 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수를 계산하는 단계 이후에,
    상기 계산된 암 환자의 수와 상기 기댓값을 통해 리커런스 유의성을 계산하는 단계를 더 포함하는,
    유전자 단위 리커런스 측정 방법.
  7. 제6항에 있어서,
    상기 각각의 유전체의 각 위치에 존재하는 상기 돌연변이의 밀도를 계산함으로써 상기 각 위치에서의 돌연변이 확률을 얻는 단계; 및
    상기 각 위치에서 상기 돌연변이가 나타난 횟수에 대한 상기 리커런스 유의성은 이항 분포 X ~ B(N, p)를 기초로 계산하는 단계;
    를 더 포함하며,
    이때, 상기 이항 분포는 N명의 개인에서 상기 각 위치에서 상기 돌연변이가 x번 나타날 확률(p)에 관한 분포인,
    유전자 단위 리커런스 측정 방법.
  8. 제6항에 있어서,
    상기 각각의 유전체의 각 위치에 존재하는 상기 돌연변이의 밀도를 계산함으로써 상기 각 위치에서의 돌연변이 확률을 얻는 단계; 및
    상기 각 위치에서 상기 돌연변이가 나타난 횟수에 대한 상기 리커런스 유의성은 Poisson 분포 X ~ Poisson(Np)를 기초로 계산하는 단계;
    를 더 포함하며,
    이때, 상기 Poisson 분포는 N명의 개인에서 상기 각 위치에서 상기 돌연변이가 x번 나타날 확률(p)에 관한 분포인,
    유전자 단위 리커런스 측정 방법.
  9. 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 저장하도록 되어 있는 저장부; 및 처리부를 포함하며,
    상기 처리부는,
    상기 복수 개의 유전체 정보를 획득하는 단계;
    상기 복수 종류의 암 세포 각각에 대하여, (1) 상기 암 세포에 포함된 유전체에 존재하는 임의의 유전자와 (2) 상기 유전체 상에서, 상기 임의의 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 상호작용 자료를 획득하는 단계;
    상기 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계;
    상기 검출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수를 계산하는 단계; 및
    상기 계산된 암 환자의 수를 상기 임의의 유전자에 대한 리커런스로 정의하여 제공하는 단계
    를 수행하도록 되어 있는,
    유전자 단위 리커런스 측정 장치.
  10. 제9항에 있어서,
    상기 임의의 유전자의 발현에 영향을 주는 위치는, 상기 임의의 유전자의 단백질 코딩 지역이 아닌 곳 중 프로모터의 위치와 상기 프로모터와 3차원 상호작용 관계가 있는 인핸서들의 위치를 포함하는 위치인,
    유전자 단위 리커런스 측정 장치.
  11. 제9항에 있어서,
    상기 검출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에서의 상기 돌연변이의 밀도를 이용하여 상기 유전자 발현 조절 위치에서 상기 돌연변이가 나타날 확률을 계산하는 단계;
    를 더 포함하는,
    유전자 단위 리커런스 측정 장치.
  12. 제11항에 있어서,
    상기 각각의 유전체의 상기 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수를 계산하는 단계 이후에,
    상기 계산된 암 환자의 수와 상기 계산된 확률값을 통해 리커런스 유의성을 계산하는 단계를 더 포함하는,
    유전자 단위 리커런스 측정 장치.
  13. 복수 명의 암 환자로부터 얻은 복수 종류의 암에 대한 복수 개의 암 샘플에 있어서, 상기 복수 개의 암 샘플에서 추출한 복수 개의 암 세포에 관한 복수 개의 유전체 정보를 저장하도록 되어 있는 저장부 및 처리부를 포함하는 컴퓨팅 장치의 상기 처리부가,
    상기 복수 개의 유전체 정보를 획득하는 단계;
    상기 복수 종류의 암 세포 각각에 대하여, (1) 상기 암 세포에 포함된 유전체에 존재하는 임의의 유전자와 (2) 상기 유전체 상에서, 상기 임의의 유전자의 발현에 영향을 주는 유전자 발현 조절 위치로 이루어지는 상호작용 자료를 획득하는 단계;
    상기 각각의 유전체 정보로부터, 상기 유전자 발현 조절 위치에 돌연변이가 존재하는지 여부를 검출하는 단계;
    상기 검출된 자료를 기반으로, 상기 각각의 유전체의 상기 유전자 발현 조절 위치에 상기 돌연변이가 존재한다고 판단된 암 환자의 수(recurrence)를 계산하는 단계; 및
    상기 계산된 암 환자의 수를 상기 임의의 유전자에 대한 리커런스로 정의하여 제공하는 단계
    를 수행하도록 하는 프로그램이 기록된,
    컴퓨터로 읽을 수 있는 기록매체.
KR1020160037494A 2016-03-29 2016-03-29 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치 KR101810528B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160037494A KR101810528B1 (ko) 2016-03-29 2016-03-29 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160037494A KR101810528B1 (ko) 2016-03-29 2016-03-29 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20170113900A KR20170113900A (ko) 2017-10-13
KR101810528B1 true KR101810528B1 (ko) 2017-12-21

Family

ID=60139397

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160037494A KR101810528B1 (ko) 2016-03-29 2016-03-29 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101810528B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527057A (ja) * 2012-06-21 2015-09-17 ザ チャイニーズ ユニバーシティー オブ ホンコン 癌検出のための血漿中dnaの突然変異解析

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527057A (ja) * 2012-06-21 2015-09-17 ザ チャイニーズ ユニバーシティー オブ ホンコン 癌検出のための血漿中dnaの突然変異解析

Also Published As

Publication number Publication date
KR20170113900A (ko) 2017-10-13

Similar Documents

Publication Publication Date Title
Selmecki et al. Polyploidy can drive rapid adaptation in yeast
Adie et al. Speeding disease gene discovery by sequence based candidate prioritization
Ramírez et al. A comparative study of ultra-deep pyrosequencing and cloning to quantitatively analyze the viral quasispecies using hepatitis B virus infection as a model
KR101817785B1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
JP2019531700A5 (ko)
CN109767810B (zh) 高通量测序数据分析方法及装置
CN107480470B (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN106834502A (zh) 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
WO2017127741A1 (en) Methods and systems for high fidelity sequencing
KR101686146B1 (ko) 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
US20220223229A1 (en) Analyzing device, analyzing method and storage medium storing program
CN113674800B (zh) 基于单细胞转录组测序数据的细胞聚类方法
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
KR101739535B1 (ko) 태아의 염색체이수성을 검출하는 방법
CN114694749B (zh) 基因数据处理方法、装置、计算机设备和存储介质
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
KR101810528B1 (ko) 단백질을 변화시키지 않는 암 돌연변이의 기능적 recurrence를 구하는 방법 및 장치
Kõks et al. Sequencing and annotated analysis of full genome of Holstein breed bull
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
KR101881098B1 (ko) 태아의 염색체이수성을 검출하는 방법
CN115394359A (zh) 一种鉴定人类胚胎细胞染色体变异的方法及应用
KR101977976B1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
JP2014530629A5 (ko)
CN115798584B (zh) 一种同时检测egfr基因t790m和c797s顺反式突变的方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right