KR20130125617A - 비정상 조직의 유전 정보를 분석하는 방법 및 장치 - Google Patents

비정상 조직의 유전 정보를 분석하는 방법 및 장치 Download PDF

Info

Publication number
KR20130125617A
KR20130125617A KR1020120049275A KR20120049275A KR20130125617A KR 20130125617 A KR20130125617 A KR 20130125617A KR 1020120049275 A KR1020120049275 A KR 1020120049275A KR 20120049275 A KR20120049275 A KR 20120049275A KR 20130125617 A KR20130125617 A KR 20130125617A
Authority
KR
South Korea
Prior art keywords
tissue
abnormal tissue
abnormal
probability
analyzing
Prior art date
Application number
KR1020120049275A
Other languages
English (en)
Inventor
정종석
안태진
손대순
이은진
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120049275A priority Critical patent/KR20130125617A/ko
Priority to US13/686,691 priority patent/US20130304387A1/en
Publication of KR20130125617A publication Critical patent/KR20130125617A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

비정상 조직의 유전 정보를 분석하는 방법 및 장치는 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 서열의 데이터를 획득하고, 획득된 서열 데이터를 이용하여 비정상 조직의 유전자 샘플에 존재하는 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석하고, 분석된 결과를 이용하여 정상 조직의 유전자 샘플에 의한 비정상 조직의 유전자 샘플의 오염 비율을 결정한다.

Description

비정상 조직의 유전 정보를 분석하는 방법 및 장치{Method and apparatus for analyzing genetic information of abnormal tissue}
비정상 조직의 유전자 샘플을 이용하여 비정상 조직의 유전 정보를 분석하는 방법 및 장치에 관한다.
DNA가 발견된 후 개체의 유전자를 분석하는 기술이 발달함에 따라 이를 이용한 돌연변이의 유전형을 분석하고 그 다형성을 밝혀내기 위한 연구도 함께 진행되어 왔다. 다형성의 종류들 중 특히 인간의 게놈에서 가장 많이 발견되는 다형성은 단일염기다형성(SNP, Single Nucleotide Polymorphism)이다.
인간의 유전적인 요소는 모든 인간의 질병과도 연관되며, 또한 인간은 자신의 유전적인 요소에 따라 질병에 대한 저항성, 민감성 및 질병의 정도가 다르다. 특히, SNP는 인간의 질병 발현 등과 상관관계가 있어, 특정 질병들을 갖는 환자군 집단의 SNP를 나타내는 특정 위치들의 염기 서열은 동일한 위치들에 있는 대조군 또는 정상군 집단의 염기 서열과 차이가 있음이 연구를 통해 밝혀졌다. 따라서, DNA 서열을 통하여 밝혀진 염기의 차이에 기초하여 질병의 진단, 처방 및 예방이 가능하다.
최근에는 차세대 유전체 해독 기술(Next Generation Sequencing, NGS)의 도입으로 많은 연구기관 및 의료현장에서 질병의 진단, 처방 및 예방에 대한 다양한 시도를 하고 있는 가운데, 특히 암환자(cancer patient)의 유전자 프로파일(genetic profile)을 통해 개인맞춤 치료방법 개발과 관련한 연구활동 등이 활발하다.
본 발명의 적어도 하나의 실시예가 이루고자 하는 기술적 과제는 암 조직, 종양 조직과 같은 비정상 조직의 유전 정보를 분석하는 방법 및 장치를 제공하는 데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
일 측면에 따르면, 비정상 조직의 유전 정보를 분석하는 방법은 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 적어도 하나의 SNP 사이트에 정렬된 적어도 하나의 서열의 데이터를 획득하는 단계; 상기 획득된 서열 데이터에 포함된 상기 SNP 사이트 각각에서의 대립유전자의 분포에 기초하여, 상기 비정상 조직의 유전자 샘플에 존재하는 상기 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석하는 단계; 및 상기 분석된 결과를 이용하여 상기 정상 조직의 유전자 샘플에 의한 상기 비정상 조직의 유전자 샘플의 오염 비율을 결정하는 단계를 포함한다.
다른 일 측면에 따르면, 상기 비정상 조직의 유전 정보를 분석하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
또 다른 일 측면에 따르면, 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 적어도 하나의 SNP 사이트에 정렬된 적어도 하나의 서열의 데이터를 획득하는 데이터 획득부; 상기 수신된 서열 데이터에 포함된 상기 SNP 사이트 각각에서의 대립유전자의 분포에 기초하여, 상기 비정상 조직의 유전자 샘플에 존재하는 상기 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석하는 유전자 분석부; 및 상기 분석된 결과를 이용하여 상기 정상 조직의 유전자 샘플에 의한 상기 비정상 조직의 유전자 샘플의 오염 비율을 결정하는 오염 비율 결정부를 포함한다.
상기된 바에 따르면, 비정상 조직의 유전자 샘플에 정상 조직의 유전자 샘플이 혼합되어 오염되어 있다 할지라도, 비정상 조직에 특이한 이종접합성소실(Loss of Heterozygosity, LOH)의 특성을 이용하여 비정상 조직의 유전자 샘플에 존재하는 정상 조직의 유전자 샘플의 오염 비율을 정확하게 추정할 수 있으므로, 비정상 조직의 유전자 샘플의 신뢰도 또는 순도 등을 정확하게 분석할 수 있다. 따라서, 암 세포 또는 종양 세포와 같은 비정상적 조직에 관하여 보다 정확한 분석 및 진단을 수행할 수 있다.
도 1은 본 발명의 일 실시예에 따른 유전 정보 분석 장치(10)의 구성도이다.
도 2a는 암 세포가 전이된 체내 조직으로부터 암 조직을 추출하고자 할 때 발생되는 문제점을 도시한 도면이다.
도 2b는 암 세포 또는 암 조직에서 발견되는 이형접합성소실(LOH)의 특성을 설명하기 위한 도면이다.
도 3a는 본 발명의 일 실시예에 따라 데이터 획득부(110)에서 획득된 비정상 조직(암 조직)의 유전자 샘플로부터 획득된 서열 데이터를 도시한 도면이다.
도 3b는 본 발명의 일 실시예에 따라 데이터 획득부(110)에서 획득된 정상 조직의 유전자 샘플로부터 획득된 서열 데이터를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 유전자 분석부(120)의 상세 구성도이다.
도 5는 본 발명의 일 실시예에 따른 확률 산출부(1210)에서 이용되는 대립유전자 분포를 분석하기 위한 테이블이다.
도 6은 본 발명의 일 실시예에 따른 비정상 조직의 유전 정보를 분석하는 방법의 흐름도이다.
이하에서는 도면을 참조하여 본 발명의 실시예들을 상세히 설명하도록 하겠다.
도 1은 본 발명의 일 실시예에 따른 유전 정보 분석 장치(10)의 구성도이다. 도 1을 참고하면, 본 실시예에 따른 유전 정보 분석 장치(10)는 데이터 획득부(110), 유전자 분석부(120) 및 오염 비율 결정부(130)로 구성된다.
여기서, 데이터 획득부(110), 유전자 분석부(120) 및 오염 비율 결정부(130)와 같은 구성 요소들은 프로세서에 해당될 수 있다. 따라서, 이와 같은 프로세서는 다수의 논리 게이트들의 어레이로 구현될 수 있고, 범용적인 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리의 조합으로 구현될 수도 있다. 또한, 다른 형태의 하드웨어로 구현될 수도 있음을 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
본 명세서에서는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 하드웨어 구성요소(hardware component)들만을 기술하기로 한다. 다만, 도 1에 도시된 하드웨어 구성요소들 외에 다른 범용적인 하드웨어 구성요소들이 포함될 수 있음을 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
여기서, 본 실시예에 따른 유전자 시퀀싱 장치(20)는 차세대 유전체 해독 기술(Next Generation Sequencing, NGS)과 같은 유전자 시퀀싱을 수행하는 장치라면, 어떠한 장치라도 무방함을 당해 기술 분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
도 1을 참고하면, 유전 정보 분석 장치(10)는 마이크로어레이(microarray, 미도시) 등과 같은 DNA 칩에서 반응한 피검체들의 유전자 샘플들로부터 유전자 시퀀싱을 수행하는 유전자 시퀀싱 장치(20)로부터 유전자 정보를 획득하여 유전 정보를 분석하는 장치이다.
특히, 본 실시예에 따른 유전 정보 분석 장치(10)는 체내에 암 세포, 종양 세포 등과 같은 비정상 조직이 있는 환자의 유전 정보를 정확하게 분석하는 장치이다. 여기서, 비정상 조직 및 정상 조직은 피검체 내의 동일한 종류의 조직으로부터 획득된 것이다.
유전자 시퀀싱 장치(20)가 비정상 조직에 대한 유전자 샘플에 대한 유전자 시퀀싱을 수행하고자 할 경우에는, 체내로부터 비정상 조직만을 정확하게 추출하여 시퀀싱을 수행하여야 한다.
특히, 차세대 유전체 해독 기술(NGS)를 이용하여 암환자에 대한 서열 데이터(sequence data)를 분석하고자 할 때, 암 조직의 유전자 샘플에 포함되어 있는 정상 조직의 유전자 샘플에 의해 정확한 분석이 어려울 수 있다. 다시 말하면, 암 조직의 유전자 샘플에는 정상 조직의 유전자 샘플에 의한 오염(contamination)의 가능성이 항상 존재한다. 여기서, 차세대 유전체 해독 기술(NGS)를 이용하여 획득된 서열의 데이터는 리드(read)의 데이터에 해당될 수 있다. 다시 말하면, 본 실시예에 따른 서열은, 일정한 크기의 염기서열 조각 또는 염기서열 단편인 리드(read)에 해당될 수 있다.
도 2a는 암 세포가 전이된 체내 조직으로부터 암 조직을 추출하고자 할 때 발생되는 문제점을 도시한 도면이다. 도 2a에 도시된 바와 같이, 유전자 시퀀싱 장치(20)가 비정상 조직에 대한 유전자 샘플에 대한 유전자 시퀀싱을 수행하기 전 암 세포가 전이된 체내 조직에서 암 조직의 일부를 추출하고자 할 때에는, 암 조직뿐만 아니라 정상 조직도 섞여서 함께 추출될 가능성이 매우 높다. 특히, 기계나 사람이 직접 수술 도구를 이용하여도 마찬가지이다.
구체적으로, 혈액 암이나, 표지 인자가 없는 암 세포의 경우에는 이와 같이 정확하게 비정상 조직과 정상 조직을 분류하여 추출할 수 없으므로, 비정상 조직에 관한 정확한 유전 정보를 분석할 수 없게 된다.
따라서, 암 환자로부터 채취된 비정상 조직의 유전자 샘플을 정확하게 분석하기 위해서는 먼저 정상 세포의 유전자 샘플에 의하여 어느 정도 오염이 되었는지를 파악하는 것이 선행되어야 한다.
한편, 암 세포와 같은 비정상 조직은 정상 조직과는 달리, 이형접합성소실 또는 이종접합성소실(Loss of Heterozygosity, LOH)과 같은 현상이 발생된다는 사실이 일반적으로 알려져 있다. 이형접합성소실(LOH)은 아버지 및 어머니로부터 받은 한 쌍의 상동염색체가 복제될 때, 상동염색체의 염기서열 쌍 중 일부가 소실되어 한쪽만 남은 경우를 의미한다. 또는, 이형접합성소실(LOH)은 아버지 또는 어머니의 염색체만 복제됨으로써 한 종류의 염색체가 다른 것보다 우월하게 복제된 경우를 의미할 수도 있다. 이로 인해, 이형접합성소실(LOH)에 의해 비정상적으로 복제된 상동염색체는 원래의 기능을 상실하여 비정상적인 조직으로 성장될 수 있다. 이형접합성소실(LOH)에 대한 보다 상세한 설명은 도 2b를 참고하여 설명하도록 하겠다.
도 2b는 암 세포 또는 암 조직에서 발견되는 이형접합성소실(LOH)의 특성을 설명하기 위한 도면이다. 도 2b를 참고하면, 상동염색체가 복제된 후 발생된 여러 종류의 이형접합성소실(LOH)에 대해서 도시되어 있다. 즉, 상동염색체가 복제된 후 상동염색체의 염기서열 쌍 중 일부가 소실되어 한쪽만 남은 경우(deletion, Del)와, 어느 한 쪽의 염색체만 복제됨으로써 한 종류의 염색체가 다른 것보다 우월하게 복제된 경우(Uniparental disomy, UPD) 등을 모두 포함한다.
이형접합성소실(LOH)에 대해서는 당해 기술분야에서 통상의 지식을 가진 자에게 자명하므로, 자세한 설명은 생략하도록 하겠다.
다시 도 1을 참고하면, 유전 정보 분석 장치(10)는 비정상 조직의 이형접합성소실(LOH)의 특성을 이용하여 비정상 조직에 대한 유전 정보를 정확하게 분석한다. 이하에서는, 이와 같은 유전 정보 분석 장치(10)의 동작에 대해 구체적으로 설명하도록 하겠다.
데이터 획득부(110)는 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 적어도 하나의 SNP 사이트에 정렬된 적어도 하나의 서열의 데이터를 획득한다. 즉, 데이터 획득부(110)는 유전자 시퀀싱 장치(20)에서 수행된 비정상 조직 및 정상 조직 각각에 대한 시퀀싱 결과를 획득한다. 여기서, 서열의 데이터는 앞서 설명한 바와 같이, 리드(read)의 데이터에 해당될 수 있다.
일반적으로, SNP는 DNA 염기서열에서 어느 위치의 염기서열(A,T,G,C)의 차이를 보이는 유전적 변화 또는 변이를 의미하는 것으로써, 동일한 종의 개체 사이의 단일뉴클레오티드 변이의 형태이다. 특히, SNP는 인간의 질병과 연관된 유전적인 요소로써, SNP의 차이로 인해 인간마다 질병에 대한 저항성, 민감성 및 질병의 정도가 다르게 나타난다. 따라서, SNP와 질병의 민감성 등과 상관 관계를 통해 질병의 진단, 처방 및 예방을 할 수 있다.
데이터 획득부(110)에서 획득된 유전자 샘플의 적어도 하나의 SNP 사이트에 정렬된 서열 데이터는 비정상 조직 및 정상 조직 각각에 대해 동일한 개수의 서열들에 대한 염기서열의 데이터이다.
그리고, 데이터 획득부(110)에서 획득하는 서열 데이터는 비정상 조직의 대립유전자는 호모(homo)로 콜(calling)되고, 정상 조직의 대립유전자는 헤테로(hetero)로 콜(calling)된 적어도 하나의 SNP 사이트(SNP site)이다. 다시 말하면, 적어도 하나의 SNP 사이트는 비정상 조직에서 이형접합성소실(LOH)이 발생된 사이트에 해당된다.
도 1에서는 데이터 획득부(110)가 이와 같은 SNP 사이트들의 서열 데이터를 바로 획득하는 것으로 도시되었으나, 다른 실시예에 따른 유전 정보 분석 장치(10)는 비정상 조직의 대립유전자가 호모(homo)로 콜(calling)되고 정상 조직의 대립유전자는 헤테로(hetero)로 콜(calling)된 SNP 사이트를 선별하는 유전 정보 분석 장치(10) 내의 별도의 구성을 구비할 수 있다.
도 3a는 본 발명의 일 실시예에 따라 데이터 획득부(110)에서 획득된 비정상 조직(암 조직)의 유전자 샘플로부터 획득된 서열 데이터를 도시한 도면이다. 그리고, 도 3b는 본 발명의 일 실시예에 따라 데이터 획득부(110)에서 획득된 정상 조직의 유전자 샘플로부터 획득된 서열 데이터를 도시한 도면이다.
먼저, 도 3b를 참고하면, 정상 조직의 어느 SNP 사이트에 정렬된 30개의 서열 데이터에 대하여 대립유전자(allele)는 'AC'로 콜(calling)되었음이 도시되어 있다. 하지만, 도 3a를 참고하면, 비정상 조직의 동일한 SNP 사이트에 정렬된 30개의 서열 데이터에 대하여 대립유전자는 'A'만으로 콜(calling)되었음이 도시되어 있다.
즉, 동일한 조직의 동일한 SNP 사이트라 할지라도, 비정상 조직에서는 정상 조직과 다른 대립유전자로 콜(calling)되었음을 알 수 있다. 이는 정렬된 30개의 서열 데이터에서 대립유전자의 분포가 서로 다르기 때문이다. 이와 같은 현상의 원인은 앞서 설명한 바와 같이, 비정상 조직의 이형접합성소실(LOH)의 특성에 기인한다.
한편, 비정상 조직의 이형접합성소실(LOH)의 특성에 의하면, 도 3a에 도시된 비정상 조직에 대한 30개의 서열 데이터에는 모두 'A'로 구성된 대립유전자가 존재하여야 할 것이다. 하지만, 도 3a에 도시된 비정상 조직에 대한 30개의 서열 데이터에는 염기 'C'가 일부 존재한다. 이와 같이, 비정상 조직에 대한 30개의 서열 데이터에 염기 'C'가 존재하는 이유는 앞서 도 2a에서 설명하였듯이, 비정상 조직의 유전자 샘플과 정상 조직의 유전자 샘플이 정확히 구분되지 않음으로써 비정상 조직의 유전자 샘플이 정상 조직의 유전자 샘플에 의해 오염되었기 때문이다.
그러므로, 비정상 조직의 유전자 샘플에서 호모로 콜(calling)된 SNP 사이트 각각에서 정상 조직에만 존재하는 대립유전자의 분포를 알 수 있다면, 비정상 조직의 유전자 샘플이 정상 조직의 유전자 샘플에 의해 오염된 비율을 유추해 낼 수 있다.
다시 도 1을 참고하면, 유전자 분석부(120)는 수신된 서열 데이터에 포함된 SNP 사이트 각각에서의 대립유전자의 분포에 기초하여, 비정상 조직의 유전자 샘플에 존재하는 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석한다.
유전자 분석부(120)는 비정상 조직에서 발생된 이형접합성소실(LOH)의 특성을 이용하여 서열의 분포를 분석한다. 다시 말하면, 유전자 분석부(120)는 정상 조직에만 존재하는 대립유전자가 비정상 조직에 존재할 확률에 기초하여, 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석한다.
보다 상세하게는, 이하의 도 4를 참고하여 설명하도록 하겠다.
도 4는 본 발명의 일 실시예에 따른 유전자 분석부(120)의 상세 구성도이다. 도 4를 참고하면, 유전자 분석부(120)는 확률 산출부(1210) 및 확률 추정부(1220)로 구성된다.
확률 산출부(1210)는 SNP 사이트 각각에 대하여, 정상 조직에만 존재하는 대립유전자가 비정상 조직에 존재할 확률을 산출한다. 우선, 확률 산출부(1210)는 도 5와 같은 대립유전자 분포를 분석하는 테이블을 이용하여 확률을 산출할 수 있다.
도 5는 본 발명의 일 실시예에 따른 확률 산출부(1210)에서 이용되는 대립유전자 분포를 분석하기 위한 테이블이다. 도 5를 참고하면, 도 3a 및 도 3b에 도시된 비정상 조직 및 정상 조직의 서열 데이터를 이용하여 작성된 테이블이다.
도 5의 테이블에서, n은 total read count를 의미하고, xi는 minor allele read count를 의미하고, a는 정상 조직에서 유래된 대립유전자의 배수를 의미한다.
다시 도 4를 참고하면, 확률 산출부(1210)는 도 3a 및 도 3b에서 예로 든 비정상 조직 및 정상 조직의 서열 데이터에 기초하여 도 5의 테이블로부터 n, xi 및 a의 값을 산출한다.
다음으로, 확률 산출부(1210)는 아래의 수학식 1과 같은 이항분포 확률밀도 함수를 이용하여, 어느 하나의 SNP 사이트에 대한 비정상 조직의 서열 데이터가 정상 조직에 의해 오염되었을 확률을 산출한다.
Figure pat00001
다만, 수학식 1은 설명의 편의를 위하여 예로 들었을 뿐, 본 실시예의 확률 산출부(1210)는 수학식 1 외에도 다른 확률밀도 함수를 이용할 수 있음을 당해 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
결국, 확률 산출부(1210)는 상기 수학식 1을 이용하여, 정상 조직에만 존재하는 대립유전자가 비정상 조직에 존재할 확률 p를 각각의 SNP 사이트에 대하여 산출한다.
확률 추정부(1220)는 SNP 사이트 각각에 대해 산출된 확률을 이용하여 SNP 사이트 전체를 대표하는 하나의 값으로 존재 확률을 추정한다.
즉, 확률 추정부(1220)는 SNP 사이트 각각에 대해 산출된 확률에 기초하여 SNP 사이트 전체에서 정상 조직에만 존재하는 대립유전자가 비정상 조직에 동시에 존재할 가능성을 나타내는 최대 크기의 확률을 추정한다.
예를 들어, 확률 추정부(1220)는 최대 우도 추정법(Maximum Likelihood Estimation, MLE)을 이용하여 SNP 사이트 전체를 대표하는 존재 확률을 추정할 수 있다. 하지만, 본 실시예는 최대 우도 추정법 외에도, SNP 사이트 각각에 대해 산출된 확률을 이용하여 SNP 사이트 전체를 대표하는 존재 확률을 추정하는 다른 알고리즘을 이용할 수 있음을 당해 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
확률 추정부(1220)에서 예를 들어 최대 우도 추정법을 이용하는 방법을 구체적으로 설명하면 다음과 같다.
우선, 확률 추정부(1220)는 앞서 설명한 수학식 1과 유사한 수학식 2를 이용하여, SNP 사이트 각각에 대한 정상 조직에만 존재하는 대립유전자가 비정상 조직에 존재할 확률을 산출한다.
Figure pat00002
다음으로, 확률 추정부(1220)는 수학식 2에서 산출된 SNP 사이트 각각에 대한 확률 p에 기초하여, 수학식 3을 이용하여 SNP 사이트 전체에서 정상 조직에만 존재하는 대립유전자가 비정상 조직에 동시에 존재할 가능성을 나타내는 최대 크기의 확률을 추정한다.
Figure pat00003
확률 추정부(1220)는 최대 우도 추정법을 이용할 경우, 수학식 3을 이용하여 SNP 사이트 전체에서 정상 조직에만 존재하는 대립유전자가 비정상 조직에 동시에 존재할 가능성을 나타내는 최대 크기의 확률인
Figure pat00004
를 추정한다.
다시 도 1을 참고하면, 유전자 분석부(120)는 비정상 조직의 유전자 샘플의 SNP 사이트 전체에서 정상 조직에만 존재하는 대립유전자가 비정상 조직에 동시에 존재할 가능성을 나타내는 최대 크기의 확률인
Figure pat00005
를 추정함으로써, 비정상 조직의 유전자 샘플에 대한 서열의 분포를 분석한다.
오염 비율 결정부(130)는 유전자 분석부(120)에서 분석된 결과를 이용하여 정상 조직의 유전자 샘플에 의한 비정상 조직의 유전자 샘플의 오염 비율을 결정한다. 즉, 오염 비율 결정부(130)는 유전자 분석부(120)에서 추정된 최대 크기의 확률인
Figure pat00006
에 기초하여, 정상 조직의 유전자 샘플에 의한 비정상 조직의 유전자 샘플의 오염 비율을 결정한다.
따라서, 본 실시예에 따르면, 비정상 조직의 유전자 샘플에 정상 조직의 유전자 샘플이 혼합되어 오염되어 있다 할지라도, 유전 정보 분석 장치(10)의 오염 비율 결정부(130)에서 결정된 오염 비율을 이용하여 비정상 조직의 유전자 샘플의 신뢰도 또는 순도 등을 정확하게 분석할 수 있으므로, 암 세포 또는 종양 세포와 같은 비정상적 조직에 관한 정확한 분석 및 진단을 수행할 수 있다.
도 6은 본 발명의 일 실시예에 따른 비정상 조직의 유전 정보를 분석하는 방법의 흐름도이다. 도 6을 참고하면, 본 실시예에 따른 유전 정보 분석 방법은 도 1에 도시된 유전 정보 분석 장치(10)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 1에 도시된 유전 정보 분석 장치(10)에 관하여 이상에서 기술된 내용은 본 실시예에 따른 유전 정보 분석 방법에도 적용된다.
601 단계에서 데이터 획득부(110)는 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 적어도 하나의 SNP 사이트에 정렬된 적어도 하나의 서열의 데이터를 획득한다.
602 단계에서 유전자 분석부(120)는 획득된 서열 데이터에 포함된 SNP 사이트 각각에서의 대립유전자의 분포에 기초하여, 비정상 조직의 유전자 샘플에 존재하는 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석한다.
603 단게에서 오염 비율 결정부(130)는 분석된 결과를 이용하여 정상 조직의 유전자 샘플에 의한 비정상 조직의 유전자 샘플의 오염 비율을 결정한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시에에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
10: 유전 정보 분석 장치 20: 유전자 시퀀싱 장치
110: 데이터 획득부 120: 유전자 분석부
130: 오염 비율 결정부 1210: 확률 산출부
1220: 확률 추정부

Claims (20)

  1. 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 적어도 하나의 SNP 사이트에 정렬된 적어도 하나의 서열의 데이터를 획득하는 단계;
    상기 획득된 서열 데이터에 포함된 상기 SNP 사이트 각각에서의 대립유전자의 분포에 기초하여, 상기 비정상 조직의 유전자 샘플에 존재하는 상기 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석하는 단계; 및
    상기 분석된 결과를 이용하여 상기 정상 조직의 유전자 샘플에 의한 상기 비정상 조직의 유전자 샘플의 오염 비율을 결정하는 단계를 포함하는 비정상 조직의 유전 정보를 분석하는 방법.
  2. 제 1 항에 있어서,
    상기 분석하는 단계는
    상기 비정상 조직에서 발생된 이형접합성소실(Loss of Heterozygosity, LOH)의 특성을 이용하여 상기 서열의 분포를 분석하는 방법.
  3. 제 1 항에 있어서,
    상기 분석하는 단계는
    상기 정상 조직에만 존재하는 대립유전자가 상기 비정상 조직에 존재할 확률에 기초하여, 상기 비정상 조직 및 정상 조직 각각에 대응되는 상기 서열의 분포를 분석하는 방법.
  4. 제 1 항에 있어서,
    상기 적어도 하나의 SNP 사이트는
    상기 비정상 조직의 대립유전자는 호모(homo)로 콜(calling)되고, 상기 정상 조직의 대립유전자는 헤테로(hetero)로 콜(calling)된 사이트인 방법.
  5. 제 4 항에 있어서,
    상기 적어도 하나의 SNP 사이트는
    상기 비정상 조직에서 이형접합성소실(Loss of Heterozygosity, LOH)이 발생된 사이트인 방법.
  6. 제 1 항에 있어서,
    상기 분석하는 단계는
    상기 SNP 사이트 각각에 대하여, 상기 정상 조직에만 존재하는 대립유전자가 상기 비정상 조직에 존재할 확률을 산출하는 단계; 및
    상기 SNP 사이트 각각에 대해 상기 산출된 확률을 이용하여 상기 SNP 사이트 전체를 대표하는 존재 확률을 추정하는 단계를 포함하고,
    상기 추정된 존재 확률에 기초하여 상기 서열의 분포를 분석하는 방법.
  7. 제 6 항에 있어서,
    상기 추정하는 단계는
    상기 SNP 사이트 각각에 대해 상기 산출된 확률에 기초하여 상기 SNP 사이트 전체에서 상기 정상 조직에만 존재하는 대립유전자가 상기 비정상 조직에 동시에 존재할 가능성을 나타내는 최대 크기의 확률을 추정하는 방법.
  8. 제 6 항에 있어서,
    상기 추정하는 단계는
    최대 우도 추정법(Maximum Likelihood Estimation, MLE)을 이용하여 상기 SNP 사이트 전체를 대표하는 존재 확률을 추정하는 방법.
  9. 제 1 항에 있어서,
    상기 획득된 서열 데이터는
    상기 비정상 조직 및 정상 조직 각각에 대해 정렬된 동일한 개수의 서열들에 대한 염기서열의 데이터인 방법.
  10. 제 1 항에 있어서,
    상기 비정상 조직은 암 세포 또는 종양 세포인 것을 특징으로 하는 방법.
  11. 제 1 항에 있어서,
    상기 비정상 조직 및 정상 조직은 피검체 내의 동일한 종류의 조직으로부터 획득된 것인 방법.
  12. 제 1 항 내지 제 11 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  13. 비정상 조직 및 정상 조직 각각의 유전자 샘플로부터 적어도 하나의 SNP 사이트에 정렬된 적어도 하나의 서열의 데이터를 획득하는 데이터 획득부;
    상기 수신된 서열 데이터에 포함된 상기 SNP 사이트 각각에서의 대립유전자의 분포에 기초하여, 상기 비정상 조직의 유전자 샘플에 존재하는 상기 비정상 조직 및 정상 조직 각각에 대응되는 서열의 분포를 분석하는 유전자 분석부; 및
    상기 분석된 결과를 이용하여 상기 정상 조직의 유전자 샘플에 의한 상기 비정상 조직의 유전자 샘플의 오염 비율을 결정하는 오염 비율 결정부를 포함하는 비정상 조직의 유전 정보를 분석하는 장치.
  14. 제 13 항에 있어서,
    상기 유전자 분석부는
    상기 비정상 조직에서 발생된 이형접합성소실(Loss of Heterozygosity, LOH)의 특성을 이용하여 상기 서열의 분포를 분석하는 장치.
  15. 제 13 항에 있어서,
    상기 유전자 분석부는
    상기 정상 조직에만 존재하는 대립유전자가 상기 비정상 조직에 존재할 확률에 기초하여, 상기 비정상 조직 및 정상 조직 각각에 대응되는 상기 서열의 분포를 분석하는 장치.
  16. 제 13 항에 있어서,
    상기 적어도 하나의 SNP 사이트는
    상기 비정상 조직의 대립유전자는 호모(homo)로 콜(calling)되고, 상기 정상 조직의 대립유전자는 헤테로(hetero)로 콜(calling)된 사이트인 장치.
  17. 제 16 항에 있어서,
    상기 적어도 하나의 SNP 사이트는
    상기 비정상 조직에서 이형접합성소실(Loss of Heterozygosity, LOH)이 발생된 사이트인 방법.
  18. 제 13 항에 있어서,
    상기 유전자 분석부는
    상기 SNP 사이트 각각에 대하여, 상기 정상 조직에만 존재하는 대립유전자가 상기 비정상 조직에 존재할 확률을 산출하는 확률 산출부; 및
    상기 SNP 사이트 각각에 대해 상기 산출된 확률을 이용하여 상기 SNP 사이트 전체를 대표하는 존재 확률을 추정하는 확률 추정부를 포함하고,
    상기 추정된 존재 확률에 기초하여 상기 서열의 분포를 분석하는 장치.
  19. 제 18 항에 있어서,
    상기 확률 추정부는
    상기 SNP 사이트 각각에 대해 상기 산출된 확률에 기초하여 상기 SNP 사이트 전체에서 상기 정상 조직에만 존재하는 대립유전자가 상기 비정상 조직에 동시에 존재할 가능성을 나타내는 최대 크기의 확률을 추정하는 장치.
  20. 제 13 항에 있어서,
    상기 수신된 서열 데이터는
    상기 비정상 조직 및 정상 조직 각각에 대해 정렬된 동일한 개수의 서열들에 대한 염기서열의 데이터인 방법.
KR1020120049275A 2012-05-09 2012-05-09 비정상 조직의 유전 정보를 분석하는 방법 및 장치 KR20130125617A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120049275A KR20130125617A (ko) 2012-05-09 2012-05-09 비정상 조직의 유전 정보를 분석하는 방법 및 장치
US13/686,691 US20130304387A1 (en) 2012-05-09 2012-11-27 Method and apparatus for analyzing genetic information of abnormal tissue

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120049275A KR20130125617A (ko) 2012-05-09 2012-05-09 비정상 조직의 유전 정보를 분석하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20130125617A true KR20130125617A (ko) 2013-11-19

Family

ID=49549307

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120049275A KR20130125617A (ko) 2012-05-09 2012-05-09 비정상 조직의 유전 정보를 분석하는 방법 및 장치

Country Status (2)

Country Link
US (1) US20130304387A1 (ko)
KR (1) KR20130125617A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170098648A (ko) * 2016-02-22 2017-08-30 연세대학교 산학협력단 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법
KR20180097581A (ko) 2015-12-25 2018-08-31 토야마 케미칼 컴퍼니 리미티드 1-(3-(2-(1-벤조티오펜-5-일)에톡시)프로필)아제티딘-3-올 또는 그 염을 포함하는 정제
KR20200104615A (ko) 2019-02-27 2020-09-04 에이치엘그린파워 주식회사 배터리 셀 모듈 조립체 및 이의 조립 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108823296B (zh) * 2017-05-05 2021-12-21 深圳华大基因股份有限公司 一种检测核酸样本污染的方法、试剂盒及应用

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180097581A (ko) 2015-12-25 2018-08-31 토야마 케미칼 컴퍼니 리미티드 1-(3-(2-(1-벤조티오펜-5-일)에톡시)프로필)아제티딘-3-올 또는 그 염을 포함하는 정제
KR20170098648A (ko) * 2016-02-22 2017-08-30 연세대학교 산학협력단 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법
KR20200104615A (ko) 2019-02-27 2020-09-04 에이치엘그린파워 주식회사 배터리 셀 모듈 조립체 및 이의 조립 방법

Also Published As

Publication number Publication date
US20130304387A1 (en) 2013-11-14

Similar Documents

Publication Publication Date Title
Frankell et al. The evolution of lung cancer and impact of subclonal selection in TRACERx
Deshwar et al. PhyloWGS: reconstructing subclonal composition and evolution from whole-genome sequencing of tumors
JP4437050B2 (ja) 診断支援システム、診断支援方法および診断支援サービスの提供方法
US12006533B2 (en) Detecting cross-contamination in sequencing data using regression techniques
CA3129831A1 (en) An integrated machine-learning framework to estimate homologous recombination deficiency
KR101828052B1 (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
CN106676178B (zh) 一种评估肿瘤异质性的方法及系统
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
Trifonov et al. SAVI: a statistical algorithm for variant frequency identification
JP2021516962A (ja) バリアント検出の改善
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
JP6122865B2 (ja) 全ゲノム配列を使用する生物学的細胞評価およびこれを使用する腫瘍治療計画
EP3729441B1 (en) Microsatellite instability detection
JP2015531240A (ja) 腫瘍クローン性解析のためのシステムおよび方法
US20210285042A1 (en) Systems and methods for calling variants using methylation sequencing data
EP3431612A1 (en) Method for molecular typing of tumors in a single targeted next generation sequencing experiment
WO2019211418A1 (en) Surrogate marker and method for tumor mutation burden measurement
IL257728A (en) Systems and methods for genetic analysis of metastases
KR20130125617A (ko) 비정상 조직의 유전 정보를 분석하는 방법 및 장치
WO2018150378A1 (en) Detecting cross-contamination in sequencing data using regression techniques
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
JP7332695B2 (ja) 循環核酸からの全ゲノム配列データにおける包括的配列特徴の同定
KR20150039484A (ko) 유전 정보를 이용하여 암을 진단하는 방법 및 장치
do Nascimento et al. Copy number variations detection: unravelling the problem in tangible aspects
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid