KR101967248B1 - 개인의 유전 정보를 분석하는 방법 및 장치 - Google Patents

개인의 유전 정보를 분석하는 방법 및 장치 Download PDF

Info

Publication number
KR101967248B1
KR101967248B1 KR1020120089667A KR20120089667A KR101967248B1 KR 101967248 B1 KR101967248 B1 KR 101967248B1 KR 1020120089667 A KR1020120089667 A KR 1020120089667A KR 20120089667 A KR20120089667 A KR 20120089667A KR 101967248 B1 KR101967248 B1 KR 101967248B1
Authority
KR
South Korea
Prior art keywords
biological data
genetic information
indicators
integrated
index
Prior art date
Application number
KR1020120089667A
Other languages
English (en)
Other versions
KR20140023607A (ko
Inventor
손대순
안태진
이은진
정종석
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120089667A priority Critical patent/KR101967248B1/ko
Priority to US13/750,080 priority patent/US20140052380A1/en
Publication of KR20140023607A publication Critical patent/KR20140023607A/ko
Application granted granted Critical
Publication of KR101967248B1 publication Critical patent/KR101967248B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Abstract

개인의 유전 정보 분석 방법 및 장치는 개인의 유전자 샘플로부터 복수의 생물학적 데이터 군들을 획득하고, 이들에 대하여 유전적 이상의 정도를 나타내는 지표들을 추정하고, 추정된 지표들을 통합하는 통합 지표를 생성한다.

Description

개인의 유전 정보를 분석하는 방법 및 장치{Method and apparatus for analyzing personalized multi-omics data}
서로 다른 종류의 유전 정보들을 하나로 통합함으로써 개인의 유전 정보를 분석하는 방법 및 장치를 제공한다.
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 발전을 거듭하여, 차세대 서열화(Next Generation Sequencing) 기술, 차차세대 서열화(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 핵산 서열, 단백질 등과 같은 유전 정보들은 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 정보들은 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 핵산 서열, 단백질 등과 같은 유전 정보는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 생물의 유전 정보들로서 SNP(Single Nucleotide Polymorphism), CNV(Copy Number Variation) 등을 검출하는 DNA 칩(chip), 마이크로어레이 등과 같은 유전체 검출 장비를 활용하여 개인의 유전 정보를 정확히 분석하는 기술들이 연구 중에 있다.
서로 다른 유전 정보들을 하나로 통합함으로써 개인의 유전 정보를 분석하는 방법 및 장치를 제공하는데 있다. 또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 본 실시예가 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
일 측면에 따르면, 개인의 유전 정보 분석 방법은 개인의 유전자 샘플로부터 서로 다른 종류의 유전적 정보들을 포함하는 복수의 생물학적 데이터 군들을 획득하는 단계; 상기 획득된 생물학적 데이터 군들 각각에 대하여, 상기 포함된 서로 다른 종류의 유전적 정보들 각각의 유전적 이상의 정도를 나타내는 지표들을 추정하는 단계; 및 상기 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 상기 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성하는 단계를 포함한다.
다른 일 측면에 따르면, 개인의 유전 정보 분석 방법은 개인의 유전자 샘플로부터 획득된 서로 다른 종류의 복수의 생물학적 데이터 군들 각각에 대하여 유전적 이상의 정도를 나타내는 지표들을 추정하는 단계; 상기 생물학적 데이터 군들을 획득하는데 이용된 유전 정보 측정 플랫폼으로부터 상기 생물학적 데이터 군들 각각에 대한 신뢰도를 획득하는 단계; 및 상기 획득된 신뢰도를 반영하여 상기 추정된 지표들을 일반화함으로써 상기 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성하는 단계를 포함한다.
또 다른 일 측면에 따르면, 상기 개인의 유전 정보 분석 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또 다른 일 측면에 따르면, 개인의 유전 정보 분석 장치는 개인의 유전자 샘플로부터 서로 다른 종류의 유전적 정보들을 포함하는 복수의 생물학적 데이터 군들을 획득하는 데이터 획득부; 상기 획득된 생물학적 데이터 군들 각각에 대하여, 상기 포함된 서로 다른 종류의 유전적 정보들 각각의 유전적 이상의 정도를 나타내는 지표들을 추정하는 지표 추정부; 및 상기 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 상기 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성하는 통합 지표 생성부를 포함한다.
또 다른 일 측면에 따르면, 개인의 유전 정보 분석 장치는 개인의 유전자 샘플로부터 획득된 서로 다른 종류의 복수의 생물학적 데이터 군들 각각에 대하여 유전적 이상의 정도를 나타내는 지표들을 추정하는 지표 추정부; 상기 생물학적 데이터 군들을 획득하는데 이용된 유전 정보 측정 플랫폼으로부터 상기 생물학적 데이터 군들 각각에 대한 신뢰도를 획득하는 데이터 획득부; 및 상기 획득된 신뢰도를 반영하여 상기 추정된 지표들을 일반화함으로써 상기 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성하는 통합 지표 생성부를 포함한다.
상기된 바에 따르면, 개인의 유전자 샘플로부터 획득된 유전적 정보를 개인화시켜(personalize) 분석할 수 있는바, 어느 개인에 해당되는 유전적 이상을 보다 정확하게 분석할 수 있다. 또한, 개인의 유전자 샘플로부터 획득된 서로 다른 종류의 유전 정보들을 통합하여(combine 또는 merge) 분석할 수 있는바, 단일의 유전 정보를 이용할 때보다 정확하고 효율적으로 개인의 유전 정보를 분석할 수 있다.
도 1은 본 발명의 일 실시예에 따른 개인 유전 정보 분석 시스템(1)의 구성도이다.
도 2a는 본 발명의 일 실시예에 따른 개인 유전 정보 분석 장치(10)의 구성도이다.
도 2b는 본 발명의 일 실시예에 따른 생물학적 데이터 군들 각각에 대한 신뢰도를 설명하기 위한 도면이다.
도 3a는 본 발명의 일 실시예에 따른 지표 추정부(200)가 돌연변이(mutation)에 관한 생물학적 데이터 군에 대해 지표를 추정하는 과정을 도시한 도면이다.
도 3b는 본 발명의 일 실시예에 따른 지표 추정부(200)가 mRNA expression에 관한 생물학적 데이터 군에 대해 지표를 추정하는 과정을 도시한 도면이다.
도 3c는 본 발명의 일 실시예에 따른 지표 추정부(200)가 CNV에 관한 생물학적 데이터 군에 대해 지표를 추정하는 과정을 도시한 도면이다.
도 4a는 본 발명의 일 실시예에 따라 지표 추정부(200)가 정규 분포의 방식으로 지표를 추정하는 것을 도시한 도면이다.
도 4b는 본 발명의 일 실시예에 따라 지표 추정부(200)가 경험 분포의 방식으로 지표를 추정하는 것을 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 통합 지표 p-valuecombine를 도시한 도면이다.
도 6a는 본 발명의 일 실시예에 따른 개인의 유전 정보를 분석하는 방법을 개략적으로 설명하기 위한 도면이다.
도 6b는 본 발명의 일 실시예에 따른 개인의 유전 정보를 분석하는 방법을 전체적으로 설명하기 위한 도면이다.
도 6c는 본 발명의 일 실시예에 따른 개인의 유전 정보를 분석하는 방법을 각 유전자 단위 별로 적용하는 것을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예예 따른 개인 유전 정보 분석 방법의 흐름도이다.
이하에서는 도면을 참조하여 본 발명의 실시예들을 상세히 설명하도록 하겠다.
도 1은 본 발명의 일 실시예에 따른 개인 유전 정보 분석 시스템(1)의 구성도이다. 도 1을 참고하면, 개인 유전 정보 분석 시스템(1)은 환자(2)로부터 채취한 유전자 샘플(20)을 개인 유전 정보 분석 장치(10)를 이용하여 분석하는 시스템이다. 도 1에 도시된 시스템(1)은 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있다. 하지만, 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.
본 실시예에 따른 개인 유전 정보 분석 시스템(1)은 환자(2)의 유전자 샘플(20), 예를 들어 혈액, 타액, 기타 신체조직 등으로부터, DNA 칩과 같은 마이크로어레이들(21, 22)과 Genotype Console, Expression Console 등과 같은 시퀀싱 툴(23)을 이용하여, 핵산 정보, 단백질 정보 등과 같은 다양한 종류의 유전 정보들을 획득한다. 즉, 개인 유전 정보 분석 시스템(1)은 다양한 종류의 유전 정보 측정 플랫폼을 이용하여 다양한 종류의 서로 다른 유전 정보들을 획득할 수 있다.
이와 같이 마이크로어레이들(21, 22) 및 시퀀싱 툴(23) 등과 같은 유전 정보 측정 플랫폼(platform)을 이용하여 환자(2)의 유전자 샘플(20)로부터 핵산 정보, 단백질 정보 등과 같은 다양한 종류의 유전 정보들을 획득하는 과정은 당해 기술분야에서 통상의 지식을 가진 자에게 자명하므로, 자세한 설명은 생략하도록 하겠다.
또한, 본 실시예에 따른 개인 유전 정보 분석 시스템(1)은 환자(2)의 유전자 샘플(20)로부터 핵산 정보, 단백질 정보 등과 같은 다양한 종류의 유전 정보들을 획득할 수 있는 유전 정보 측정 플랫폼이라면, 도 1에 도시된 마이크로어레이들(21, 22) 및 시퀀싱 툴(23) 외의 다른 유전 정보 측정 플랫폼이 이용될 수도 있다.
핵산(nucleic acid)은 개체의 유전 정보를 담고 있는 물질로써, DNA와 RNA로 구별된다. 그 중 개인의 DNA(DeoxyriboNucleic Acid)는 개인의 유전 정보를 포함하는 유전 물질, 즉 유전자에 해당된다. DNA 서열은 개체를 구성하는 세포, 조직 등에 대한 정보를 포함하고, DNA 서열을 구성하는 염기들은 개체의 단백쿼리 구성 성분인 20종의 아미노산의 연결순서 또는 배열순서에 대한 정보를 나타낸다. 즉, 단백질은 핵산으로부터 기인한 것으로써, 개인의 DNA 서열에 따라 다양한 종류로 발현된 산물에 해당된다.
개인의 DNA 서열(DNA sequence), 단백질 등과 같은 유전 정보는 생명 현상을 이해하고 개인의 질병과 관련된 정보를 얻을 수 있는데 도움을 준다. 따라서, 질병이 있는 개인의 DNA 서열 정보와 정상인의 DNA 서열 정보를 비교하여 분석하는 것은 개인의 질병을 예방하거나 질병의 초기 단계에서 최적의 치료방법을 선택하는데 도움을 준다.
개인 유전 정보 분석 시스템(1)은 환자(2)의 유전 정보에 대한 유전적 이상의 정도를 분석하는 시스템으로써, 개인 유전 정보 분석 시스템(1)에 포함된 개인 유전 정보 분석 장치(10)는 유전자 샘플(20)로부터 획득된 핵산 정보, 단백질 정보 등과 같은 다양한 종류의 유전 정보들에 관한 생물학적 데이터 군들을 개인화(personalize)시킨 후 그 결과들을 통합하여(combine) 분석한다.
본 실시예에서 설명되는 생물학적 데이터 군들은 환자(2)의 유전자 샘플(20)로부터 기인한 서로 다른 종류의 오믹스(Omics) 데이터 군들로서, 다차원의 유전체 정보를 의미한다. 오믹스는 생물정보학, 시스템생물학 등에서 사용되는 용어로써, 유전체(genome), 단백체(proteome), 전사체(transcriptome), 대사체(metabolome) 등과 같은 수 많은 유전 정보들을 포함하는 개념이다.
여기서, 유전체(genome)는 개인의 유전자에 관한 정보에 관한 개념으로서, SNP(Single Nucleotide Polymorphism), CNV(Copy Number Variations), 돌연변이(mutation) 등과 같은 유전자에 관한 유전적 현상을 파악하는데 이용될 수 있다. 그리고, 단백체(proteome)는 유전자가 단백질로 변한 뒤 어떤 작용을 하는지 등과 같은 유전적 현상을 파악하는데 이용될 수 있다. 또한, 전사체(transcriptome)는 유전자가 단백질로 변하기 전 중간 단계에서 어떤 작용을 하는지 등과 같은 유전적 현상을 파악하는데 이용될 수 있다.
즉, 본 실시예에 따르면, 돌연변이(mutation), SNP, CNV, 삽입(insertion), 결실(deletion), 유전자 발현(gene expression), DNA 메틸레이션(DNA methylation), 단백질 발현(protein expression), 단백질 표적화(protein targeting), 단백질 인산화 반응(protein phosphorylation), 단백질 결합(protein binding) 등과 같은 환자(2)의 유전자 샘플(20)로부터 기인한 다차원의 유전체 정보들 각각은 본 실시예에서 설명하는 생물학적 데이터 군 각각에 해당될 수 있다.
이 밖에도 오믹스(Omics)에 관하여는 당해 기술분야에서 통상의 지식을 가진 자에게 자명하므로, 자세한 설명은 생략하도록 하겠다.
종래에는 개인의 유전 정보를 분석할 때, 개인의 유전 정보들 중 SNP(Single Nucleotide Polymorphism) 측면에 대해서만 유전적 이상의 정도를 분석하거나, 개인의 유전 정보들 중 돌연변이(mutation) 측면에 대해서만 유전적 이상의 정도를 분석하거나, 또는 개인의 유전 정보들 중 CNV(Copy Number Variations) 측면에 대해서만 유전적 이상의 정도를 분석하는 등, 각각 단편적인 측면의 유전 정보만 분석하여 개별적인 결론을 얻을 수 밖에 없었다. 다시 말하면, 수 많은 서로 다른 정보들을 담고 있는 유전 정보들을 단편적으로밖에 이용하지 않았다.
하지만, 본 실시예에 따른 개인 유전 정보 분석 시스템(1), 특히 개인 유전 정보 분석 장치(10)는 환자(2)의 유전 정보에 대한 유전적 이상의 정도를 분석하고자 할 때, 유전자 샘플(20)로부터 획득된 핵산 정보, 단백질 정보 등과 같은 다양한 종류의 유전 정보들에 관한 생물학적 데이터 군들을 개인화하고 통합하여 분석할 수 있다.
이로써, 하나의 생물학적 데이터 군에 대해서만 단편적으로 분석할 수 없었던 종래와는 달리, 개인 유전 정보 분석 시스템(1) 및 개인 유전 정보 분석 장치(10)는 생물학적 데이터 군들을 개인화하고 그 결과를 전체적으로 통합하여 분석할 수 있는바, 개인의 유전적 이상에 관하여 보다 정확하고 효율적으로 분석할 수 있다. 다시 말하면, 개인 유전 정보 분석 시스템(1) 및 개인 유전 정보 분석 장치(10)는 생물학적 데이터 군들간의 독립성 또는 분포와 관계 없이, 생물학적 데이터 군의 신뢰도를 이용하여 통합하는바, 개인의 유전적 이상에 관한 데이터의 정확도를 향상시킬 수 있다.
이하에서는 본 실시예의 개인 유전 정보 분석 장치(10)의 구성 및 동작에 관하여 보다 상세하게 설명하도록 하겠다.
도 2a는 본 발명의 일 실시예에 따른 개인 유전 정보 분석 장치(10)의 구성도이다. 도 2a를 참고하면, 개인 유전 정보 분석 장치(10)는 데이터 획득부(100), 지표 추정부(200) 및 통합 지표 생성부(300)를 포함한다. 그리고, 통합 지표 생성부(300)는 지표 표준화부(310) 및 통합 지표 산출부(320)를 포함한다.
도 2a에서는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 하드웨어 구성요소(hardware component)들만을 기술하기로 한다. 다만, 도 2a에 도시된 하드웨어 구성요소들 외에 다른 범용적인 하드웨어 구성요소들이 포함될 수 있음을 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다. 특히, 도 2a에 도시된 개인 유전 정보 분석 장치(10)는 프로세서로 구현될 수 있다. 이 프로세서는 다수의 논리 게이트들의 어레이로 구현될 수 있고, 범용적인 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리의 조합으로 구현될 수도 있다. 또한, 다른 형태의 하드웨어로 구현될 수도 있음을 본 실시예가 속하는 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
데이터 획득부(100)는 개인(2)의 유전자 샘플(20)로부터 서로 다른 종류의 유전적 정보들을 포함하는 복수의 생물학적 데이터 군들을 획득한다.
또한, 데이터 획득부(100)는 생물학적 데이터 군들 각각에 대한 신뢰도(confidence)도 더 획득한다. 신뢰도는 생물학적 데이터 군에 대한 정확도를 의미할 수 있다. 보다 상세하게 설명하면, 생물학적 데이터 군들 각각은 Genotype Console, Expression Console과 같은 시퀀싱 툴(tool, 23)인 특정 소프트웨어로부터 획득되는데, 이 과정에서 시퀀싱 툴(23)로부터 획득된 데이터가 얼마나 신뢰할만한 수준인지를 측정할 수 있는 신뢰도(또는 quality measure)도 함께 획득될 수 있다. 즉, 이와 같은 신뢰도는 서로 다른 종류의 생물학적 데이터 군들을 획득하는데 이용된 유전 정보 측정 플랫폼들의 품질점수(quality score)에 기초한 정보일 수 있다. 본 실시예에서 신뢰도는 서로 다른 종류의 생물학적 데이터 군들 각각의 지표에 대한 가중치(weight)로 활용된다. 추후에 설명하겠지만, 이와 같이 서로 다른 시퀀싱 툴(23)에 의해 획득된 데이터라 할지라도 각각의 데이터가 신뢰도에 기반하여 표준화된다면, 서로 비교하는 것이 가능해질 수 있다.
예를 들어, affymetrix 사(社)의 SNP6.0을 이용하여 SNP나 CNV calling을 수행하였을 경우에는, 유전자 사이트(site)마다 신뢰도 값을 함께 획득할 수 있다. 이 신뢰도는 0부터 1 사이의 값을 갖고, 이를 백분위화(percentile)함으로써 데이터를 표준화시킬 수 있다. 또한, affymetrix 사(社)의 U133을 이용하는 경우에는 detection p-value를 획득할 수 있다. 이는 해당 프로브(probe)에 대한 absent(A), marginal(M), present(P) 값이 얼마나 신뢰할만한 수준인가를 보여주는 값에 해당된다. 마찬가지로, 이를 백분위화(percentile)함으로써 데이터를 표준화시킬 수 있다.
도 2b는 본 발명의 일 실시예에 따른 생물학적 데이터 군들 각각에 대한 신뢰도를 설명하기 위한 도면이다. 도 2b를 참고하면, 유전 정보 측정 플랫폼들로서 시퀀서(sequencer), mRNA chip 및 DNA chip를 이용할 수 있다. 이와 같은 시퀀서, mRNA chip 및 DNA chip는 그 플랫폼들로부터 제공되는 유전 정보(DNA base, mRNA expression, genotype 등)와 함께, 고유의 품질점수에 대한 정보도 제공할 수 있다. 다시 말하면, 품질점수는 유전 정보 측정 플랫폼의 제조사(vendor)가 제공하는 유전 정보에 대한 오차 정보(또는 error probability)에 해당될 수 있다.
본 실시예에서는, 앞서 설명한 바와 같이 이와 같은 오차 정보(또는 error probability)에 해당되는 품질점수를 신뢰도(또는 가중치)로 활용한다.
한편, 복수의 생물학적 데이터 군들은 앞서 설명된, 서로 다른 종류의 오믹스(Omics) 데이터 군들인 다차원의 유전체 정보들에 해당되는 것으로서, 본 실시예에서는 설명의 편의를 위하여 돌연변이(mutation)에 관한 생물학적 데이터 군, mRNA expression에 관한 생물학적 데이터 군 및 CNV(Copy Number Variations)에 관한 생물학적 데이터 군만을 예로 들어 설명하도록 하겠다. 그러나, 본 실시예는 이에 한정되지 않고, 다른 종류의 생물학적 데이터 군들을 이용할 수도 있다.
데이터 획득부(100)는 돌연변이(mutation)에 관한 생물학적 데이터 군을 획득하기 위하여, 유전자 샘플(20)이 DNA 칩(예를 들어, SNP 6.0)(21)과 반응하고, Genotype Console과 같은 시퀀싱 툴(tool, 23)에 의해 시퀀싱된 결과 및 그 신뢰도를 획득한다. 그리고, 데이터 획득부(100)는 mRNA expression에 관한 생물학적 데이터 군을 획득하기 위하여, 유전자 샘플(20)이 DNA 칩(예를 들어, U133 Plus2.0)(22)과 반응하고, Expression Console과 같은 시퀀싱 툴(tool, 23)에 의해 시퀀싱된 결과 및 그 신뢰도를 획득한다. 나아가서, 데이터 획득부(100)는 CNV에 관한 생물학적 데이터 군을 획득하기 위하여, 유전자 샘플(20)이 DNA 칩(예를 들어, SNP 6.0)(21)과 반응하고, Genotype Console과 같은 시퀀싱 툴(sequencing tool)(23)에 의해 시퀀싱된 결과 및 그 신뢰도를 획득한다.
즉, 데이터 획득부(100)는 유전자 샘플(20)로부터 복수의 생물학적 데이터 군들에 대한 정보 및 그 신뢰도(confidence)를 개별적으로 획득한다.
지표 추정부(200)는 획득된 생물학적 데이터 군들 각각에 대하여, 그에 포함된 서로 다른 종류의 유전적 정보들 각각의 유전적 이상의 정도를 나타내는 지표들을 추정한다. 본 실시예에서는 설명의 편의를 위하여, 추정된 지표들은 유전적 이상의 정도에 대해 유의성을 통계적으로 검정하기 위한 p-value에 해당되는 것으로 설명하겠으나, 본 실시예는 이에 한정되지 않고 다른 통계적인 지표도 이용될 수 있다.
지표 추정부(200)는 획득된 생물학적 데이터 군들에 포함된 유전적 정보들 각각을 대응되는 대조군들(control groups)과 통계적으로 비교함으로써 지표들을 추정한다. 여기서, 대조군들은 생물학적 데이터 군들 각각에 대응되는 공개 데이터베이스들(public Databases)로부터 획득된 것일 수 있으나, 이에 한정되지 않는다.
지표 추정부(200)는 대조군들과 유전적 정보들을 정규 분포(normal distribution)의 방식 또는 경험 분포(empirical distribution)의 방식에 의해 비교함으로써 지표들을 추정할 수 있다. 특히, 지표 추정부(200)는 생물학적 데이터 군들 각각에 대해서는, 동일한 유형의 분포 방식에 의하여 대조군들과 유전적 정보들을 비교한다.
한편, 이와 같이 지표 추정부(200)에서 수행되는 처리들은 획득된 생물학적 데이터 군들에 포함된 유전적 정보들을 소정의 유전자 단위로 처리될 수 있다.
이하에서는 도 3a 내지 도 3c와 도 4a 및 도 4b를 참고하여, 지표 추정부(200)에서 지표를 추정하는 과정을 보다 상세히 설명하도록 하겠다.
도 3a는 본 발명의 일 실시예에 따른 지표 추정부(200)가 돌연변이(mutation)에 관한 생물학적 데이터 군에 대해 지표를 추정하는 과정을 도시한 도면이다. 참고로, 도 3a에서 설명되는 DNA 칩(SNP 6.0) 및 시퀀싱 툴들(Genotype Console, Mutation Assessor)은 개인 유전 정보 분석 장치(10)의 외부에서 동작되는 유전 정보 측정 플랫폼일 수 있으나, 설명의 편의를 위하여 함께 설명하도록 하겠다.
301 단계에서 DNA 칩(SNP 6.0)은 유전자 샘플과 반응한 결과를 제공한다.
302 단계에서 시퀀싱 툴(Genotype Console)은 반응한 결과에 대하여 Genotype Call을 수행한다.
303 단계에서 시퀀싱 툴(Genotype Console)은 302 단계의 결과에 대하여 주석 처리(annotation)를 수행한다. 여기서, 시퀀싱 툴(Genotype Console)은 302 단계의 결과를 돌연변이(mutation)를 포함하는 유전자의 이름으로 변환하는 처리를 수행할 수 있다. 예를 들어, 시퀀싱 툴(Genotype Console)은 302 단계의 결과를 'hg19.position.ref.change'와 같은 형태의 주석으로 변환하는 처리를 수행할 수 있다.
304 단계에서 MSKCC(Memorial Sloan Kettering Cancer Center)에서 개발된 시퀀싱 툴(Mutation Assessor)은 각각의 유전자에 대한 ZI score 및 신뢰도를 산출한다.
305 단계에서 데이터 획득부(100)는 돌연변이(mutation)에 관한 생물학적 데이터 군과 그에 대한 ZI score 및 신뢰도를 획득한다.
306 단계에서 지표 추정부(200)는 획득된 ZI score를 정규 분포에 피팅(fitting)하여 지표 p-valuem를 추정한다. 추정된 지표 p-valuem는 돌연변이(mutation)에 관한 생물학적 데이터 군에 포함된 유전자 단위별로 구해질 수 있다.
이와 같이, 지표 추정부(200)에 의해 돌연변이의 생물학적 데이터 군에 대한 지표 p-valuem가 추정됨으로써, 이 지표 p-valuem는 돌연변이에 관하여 환자(2)에 개인화된 지표로 사용될 수 있다.
도 3b는 본 발명의 일 실시예에 따른 지표 추정부(200)가 mRNA expression에 관한 생물학적 데이터 군에 대해 지표를 추정하는 과정을 도시한 도면이다. 참고로, 도 3b에서 설명되는 DNA 칩(U133 Plus2.0) 및 시퀀싱 툴(Expression Console)은 개인 유전 정보 분석 장치(10)의 외부에서 동작되는 유전 정보 측정 플랫폼일 수 있으나, 설명의 편의를 위하여 함께 설명하도록 하겠다.
311 단계에서 DNA 칩(U133 Plus2.0)은 유전자 샘플과 반응한 결과를 제공한다.
312 단계에서 시퀀싱 툴(Expression Console)은 반응한 결과에 대하여 Expression Call을 수행한다.
313 단계에서 시퀀싱 툴(Expression Console)은 312 단계의 결과로부터, MAS5 algorithm을 이용하여 각각의 ProbeSetID별로 최초(initial) p-value를 검출하고(detect), 신뢰도를 산출한다.
314 단계에서 데이터 획득부(100)는 mRNA expression에 관한 생물학적 데이터 군과 그에 대한 최초 p-value 및 신뢰도를 획득한다.
315 단계에서 지표 추정부(200)는 획득된 최초 p-value를 정규 분포 또는 경험 분포에 피팅(fitting)하여 지표 p-valueR를 추정한다. 추정된 지표 p-valueR는 mRNA expression에 관한 생물학적 데이터 군에 포함된 유전자 단위별로 구해질 수 있다.
316 단계에서 지표 추정부(200)는 ProbeSetID에 해당되는 Gene Symbol로 주석 처리(annotation)를 수행한다. 만약, 중복되는 유전자가 있다면, 지표 추정부(200)는 최소의 값을 갖는 지표 p-valueR에 기초하여 최종적인 지표 p-valueR 및 그에 대한 신뢰도를 추정한다.
이와 같이, 지표 추정부(200)에 의해 mRNA expression의 생물학적 데이터 군에 대한 지표 p-valueR가 추정됨으로써, 이 지표 p-valueR는 mRNA expression에 관하여 환자(2)에 개인화된 지표로 사용될 수 있다.
도 3c는 본 발명의 일 실시예에 따른 지표 추정부(200)가 CNV에 관한 생물학적 데이터 군에 대해 지표를 추정하는 과정을 도시한 도면이다. 참고로, 도 3c에서 설명되는 DNA 칩(SNP 6.0) 및 시퀀싱 툴(Genotype Console)은 개인 유전 정보 분석 장치(10)의 외부에서 동작되는 유전 정보 측정 플랫폼일 수 있으나, 설명의 편의를 위하여 함께 설명하도록 하겠다.
321 단계에서 DNA 칩(SNP 6.0)은 유전자 샘플과 반응한 결과를 제공한다.
322 단계에서 시퀀싱 툴(Genotype Console)은 반응한 결과에 대하여 Genotype Call을 수행한다.
323 단계에서 시퀀싱 툴(Genotype Console)은 322 단계의 결과에 대하여 주석 처리(annotation)를 수행한다. 여기서, 시퀀싱 툴(Genotype Console)은 322 단계의 결과에서 CNV region에 포함되거나 걸쳐있는 유전자에 대해 주석 처리(hg18 version)를 수행할 수 있다.
324 단계에서 시퀀싱 툴(Genotype Console)은 323 단계의 결과를 각각의 유전자별로 변환하고, 중복 유전자에 대한 데이터를 제거한다.
325 단계에서 데이터 획득부(100)는 CNV에 관한 생물학적 데이터 군 및 신뢰도를 획득한다.
326 단계에서 지표 추정부(200)는 획득된 생물학적 데이터 군을 경험 분포에 피팅(fitting)하여 지표 p-valueC를 추정한다.
이와 같이, 지표 추정부(200)에 의해 CNV의 생물학적 데이터 군에 대한 지표 p-valueC가 추정됨으로써, 이 지표 p-valueC는 돌연변이에 관하여 환자(2)에 개인화된 지표로 사용될 수 있다.
앞서 설명한 도 3a 내지 3c과 같이, 지표 추정부(200)는 획득되는 생물학적 데이터 군의 종류에 따라 서로 다른 방식을 사용하여 생물학적 데이터 군 각각에 대한 지표(p-valuem, p-valueR 또는 p-valueC)를 추정할 수 있다. 또한, 이와 같은 지표는 생물학적 데이터 군에 포함된 유전자 단위별로 추정될 수 있다. 도 3a 내지 3c에서 사용된 DNA 칩 및 시퀀싱 툴은 설명의 편의를 위하여 예로 든 것일 뿐, 다른 종류의 DNA 칩 및 시퀀싱 툴이 이용될 수 있음을 당업자라면 이해할 수 있다.
도 4a는 본 발명의 일 실시예에 따라 지표 추정부(200)가 정규 분포의 방식으로 지표를 추정하는 것을 도시한 도면이다. 그리고, 도 4b는 본 발명의 일 실시예에 따라 지표 추정부(200)가 경험 분포의 방식으로 지표를 추정하는 것을 도시한 도면이다.
도 4a를 참고하면, 지표 추정부(200)는 공개 데이터베이스로부터 정상 유전자에 관한 데이터들을 획득하고, 이를 정규 분포로 변환한다. 이후에, 지표 추정부(200)는 생물학적 데이터 군에 포함된 환자(2)의 유전자 정보가 정규 분포의 어디에 피팅(fitting)되는지를 비교하여 분석함으로써 지표 p-value를 추정한다.
도 4b를 참고하면, 지표 추정부(200)는 공개 데이터베이스로부터 정상 유전자에 관한 데이터들을 획득하고, 이 데이터를 그대로 경험 분포로 변환한다. 이후에, 지표 추정부(200)는 생물학적 데이터 군에 포함된 환자(2)의 유전자 정보가 경험 분포의 어디에 피팅(fitting)되는지를 비교하여 분석함으로써 지표 p-value를 추정한다.
다시 도 2a를 참고하면, 통합 지표 생성부(300)는 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표 p-valuecombine를 생성한다. 여기서, 통합 지표 생성부(300)는 생물학적 데이터 군들 각각에 대한 신뢰도를 반영한 후 추정된 지표들을 일반화함으로써, 통합 지표 p-valuecombine를 생성한다.
보다 상세하게 설명하면, 지표 표준화부(310)는 데이터 획득부(100)에서 획득된 생물학적 데이터 군들 각각의 신뢰도들을 반영하여 지표 추정부(200)에서 생물학적 데이터 군들 각각에 대해 추정된 지표들을 표준화한다. 그리고, 통합 지표 산출부(320)는 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 표준화된 지표들을 일반화함으로써 p-valuecombine를 산출한다.
통합 지표 생성부(300)에서 이용되는 분석 알고리즘은 메타 분석(meta analysis)을 위한 알고리즘에 해당될 수 있다. 일반적으로 알려진 메타 분석을 위한 알고리즘에는, Fisher's inverse chi-square method, Tippett's method (minimum p method), Stouffer's inverse normal method, George's method (logit method), TCGA method 등이 있다.
이와 같이 예로 든 메타 분석을 위한 알고리즘들은 주어진 대량의 p-value들로부터 이들을 대표하는 p-value를 산출하기 위한 알고리즘들로써, 당해 기술분야에서 통상의 지식을 가진 자에게 자명하므로, 자세한 설명은 생략하도록 하겠다. 이 밖에, 본 실시예에 따른 통합 지표 생성부(300)에서 이용되는 분석 알고리즘은, 동일한 대상에 대해 주어진 많은 p-value들로부터 이들을 대표하는 p-value를 산출하기 위한 메타 분석 알고리즘이라면, 어느 것도 이용될 수 있음을 당해 기술분야에서 통상의 지식을 가진 자라면 이해할 수 있다.
나아가서, 통합 지표 생성부(300)에서 이용되는 분석 알고리즘으로서 다음의 메타 분석 알고리즘도 이용될 수 있다.
지표 표준화부(310)는 생물학적 데이터 군들 각각에 대한 신뢰도에 대응되는 가중치(weight)를 적용하여 추정된 지표들을 변환한다. 그리고, 통합 지표 산출부(320)는 변환된 지표들을 통합하여 통합 지표 p-valuecombine를 산출한다. 이와 같은 과정을 수학식으로 표현하면, 수학식 1과 같다.
Figure 112012065674410-pat00001
Figure 112012065674410-pat00002
수학식 1을 참고하여 설명하면, 지표 표준화부(310)는 돌연변이(mutation)에 관한 생물학적 데이터 군으로부터 추정된 지표(p-value)인 pm에 대하여, 이 데이터 군의 신뢰도 wm에 의한 가중치를 반영한다. 그리고, mRNA expression에 관한 생물학적 데이터 군으로부터 추정된 지표(p-value)인 pR에 대하여, 이 데이터 군의 신뢰도 wR에 의한 가중치를 반영한다. 나아가서, CNV에 관한 생물학적 데이터 군으로부터 추정된 지표(p-value)인 pC에 대하여, 이 데이터 군의 신뢰도 wC에 의한 가중치를 반영한다.
다음으로, 통합 지표 생성부(300)는 지표들을 일반화하기 위하여, 가중치가 반영된 지표들을 곱함으로써 통합 지표 pcombine를 산출한다.
여기서, 만약 가중치(신뢰도)를 획득할 수 없는 생물학적 데이터 군이 존재한다면, 아래와 같은 수학식 2를 이용하여 가중치 w를 임의로 설정한다.
Figure 112012065674410-pat00003
수학식 1을 예로 들면, CNV에 관한 생물학적 데이터 군의 가중치(신뢰도)를 획득할 수 없는 경우, 수학식 1에서 WR
Figure 112012065674410-pat00004
으로 가정할 수 있다.
나아가서, 만약 어느 생물학적 데이터 군으로부터 지표(p-value)를 추정할 수 없는 경우에는, 그 지표(p-value)를 1로 가정할 수 있다.
결국, 개인 유전 정보 분석 장치(10)는 통합 지표 생성부(300)에서 생성된 통합 지표 pcombine(또는 p-valuecombine)를 출력함으로써, 서로 다른 종류의 생물학적 데이터 군들 각각의 지표들을 통합한 결과를 제공한다.
도 5는 본 발명의 일 실시예에 따른 통합 지표 p-valuecombine를 도시한 도면이다. 도 5를 참고하면, 통합 지표 p-valuecombine는 각각의 개인에 대하여, 유전자별로 통합되어 생성될 수 있다. 앞서 설명되었듯이, 통합 지표 p-valuecombine 각각은 서로 다른 종류의 생물학적 데이터 군들 각각에서의 유전자 이상의 정도를 나타내는 지표들이 통합된 결과이다. 그러므로, 통합 지표 p-valuecombine 각각은 어느 개인에 있어서, 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 값이다.
도 6a는 본 발명의 일 실시예에 따른 개인의 유전 정보를 분석하는 방법을 개략적으로 설명하기 위한 도면이다. 도 6a를 참고하면, 개인 유전 정보 분석 장치(10)는 첫번째 단계로써, 돌연변이(mutation), CNV 및 mRNA expression 각각에 대한 지표들 pm, pc, pR을 추정한다. 그리고 나서, 개인 유전 정보 분석 장치(10)는 두번째 단계로써, 추정된 지표들 pm, pc, pR을 메타 분석을 이용하여 일반화 또는 통합한다. 그 결과, 개인 유전 정보 분석 장치(10)는 통합 지표 pcombine(또는 p-valuecombine)를 생성하여 출력한다.
이와 같이 출력된 통합 지표 pcombine은 회귀분석(regression analysis), 유전자 분류(classification), 유전자 클러스터링(clustering) 등과 같은 다양한 분야의 입력 데이터로 활용될 수 있다. 특히, c-MET 등과 같은 수용체와 암 유전자와의 관계 분석 등에도 활용될 수 있으므로, 암 환자의 정확한 진단(예를 들어, companion diagnostics for c-MET)이 가능해질 수 있다.
도 6b는 본 발명의 일 실시예에 따른 개인의 유전 정보를 분석하는 방법을 전체적으로 설명하기 위한 도면이다. 도 6b를 참고하면, 개인 유전 정보 분석 장치(10)는 601 단계에서 돌연변이(mutation)에 대한 지표 pm를 추정하고, 602 단계에서 CNV에 대한 지표 pc를 추정하고, 603 단계에서 mRNA expression에 대한 지표 pR를 추정한다. 개인 유전 정보 분석 장치(10)는 이와 같은 601 단계 내지 603 단계를 병렬적으로 수행할 수 있다. 이 때, 개인 유전 정보 분석 장치(10)는 메타 분석의 일 실시예에 의할 때 신뢰도에 기초한 가중치(wm, wc 및 wR)를 함께 이용할 수 있다.
다음으로, 개인 유전 정보 분석 장치(10)는 604 단계에서 추정된 지표들 pm, pc, pR에 대하여 메타 분석을 적용하여 일반화 또는 통합한다. 이 때, 개인 유전 정보 분석 장치(10)는 메타 분석의 일 실시예에 의할 때 신뢰도에 기초한 가중치(wm, wc 및 wR)를 적용하여 일반화 또는 통합할 수 있다.
그 결과, 개인 유전 정보 분석 장치(10)는 605 단계에서 통합 지표 pcombine를 출력한다.
도 6c는 본 발명의 일 실시예에 따른 개인의 유전 정보를 분석하는 방법을 각 유전자 단위 별로 적용하는 것을 설명하기 위한 도면이다. 도 6c를 참고하면, 개인 유전 정보 분석 장치(10)는 통합 지표 pGi(=pcombine)를 산출하는 수학식 1을 이용하여 유전자 G1, G2, G3 및 G4 각각에 대응되는 pG1, pG2, pG3 및 pG4를 산출할 수 있다.
도 7은 본 발명의 일 실시예예 따른 개인 유전 정보 분석 방법의 흐름도이다. 도 7을 참고하면, 본 실시예에 따른 개인 유전 정보 분석 방법은 도 1의 개인 유전 정보 분석 시스템(1) 및 도 1의 개인 유전 정보 분석 장치(10)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 1 및 도 2a에 관하여 이상에서 기술된 내용은 본 실시예에 따른 개인 유전 정보 분석 방법에도 적용된다.
701 단계에서 데이터 획득부(100)는 개인의 유전자 샘플로부터 서로 다른 종류의 유전적 정보들을 포함하는 복수의 생물학적 데이터 군들을 획득한다.
702 단계에서 지표 추정부(200)는 획득된 생물학적 데이터 군들 각각에 대하여, 포함된 서로 다른 종류의 유전적 정보들 각각의 유전적 이상의 정도를 나타내는 지표들을 추정한다.
703 단계에서 통합 지표 생성부(300)는 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
1: 개인 유전 정보 분석 시스템 2: 환자
10: 개인 유전 정보 분석 장치 20: 유전자 샘플
21: DNA 칩 22: DNA 칩
23: 시퀀싱 툴 100: 데이터 획득부
200: 지표 추정부 300: 통합 지표 생성부
310: 지표 표준화부 320: 통합 지표 산출부

Claims (23)

  1. 개인의 유전자 샘플로부터 서로 다른 종류의 유전적 정보들을 포함하는 복수의 생물학적 데이터 군들을 획득하는 단계, 상기 획득된 생물학적 데이터 군들은 상기 유전자 샘플로부터 기인한, 돌연변이(mutation) 데이터에 관한 제 1 생물학적 데이터 군, CNV(Copy Number Variation) 데이터에 관한 제 2 생물학적 데이터 군 및 mRNA 발현(expression)에 관한 제 3 생물학적 데이터 군을 포함하는 서로 다른 종류의 오믹스(Omics) 데이터 군들임;
    상기 획득된 생물학적 데이터 군들 각각에 대하여, 상기 포함된 서로 다른 종류의 유전적 정보들 각각의 유전적 이상의 정도를 나타내는 지표들을 추정하는 단계; 및
    상기 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 상기 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성하는 단계를 포함하고,
    상기 생성하는 단계는
    상기 생물학적 데이터 군들 각각에 대한 신뢰도에 대응되는 가중치를 적용하여 상기 추정된 지표들을 변환하는 단계; 및
    상기 변환된 지표들을 통합하여 상기 통합 지표를 산출하는 단계를 포함하고,
    상기 신뢰도는 상기 서로 다른 종류의 생물학적 데이터 군들을 획득하는데 이용된 유전 정보 측정 플랫폼의 품질점수(quality score)에 기초한 정보이고,
    상기 생성된 통합 지표는 상기 산출된 통합 지표에 기초하여 생성된 것인 개인의 유전 정보 분석 방법.
  2. 제 1 항에 있어서,
    상기 생성하는 단계는
    상기 생물학적 데이터 군들 각각에 대한 상기 신뢰도를 반영하여 상기 추정된 지표들을 일반화함으로써 상기 통합 지표를 생성하는 개인의 유전 정보 분석 방법.
  3. 삭제
  4. 제 2 항에 있어서,
    상기 생성하는 단계는
    상기 신뢰도를 반영하여 상기 추정된 지표들을 표준화하는 단계; 및
    상기 분석 알고리즘을 이용하여 상기 표준화된 지표들을 일반화함으로써 상기 통합 지표를 산출하는 단계를 포함하고,
    상기 생성된 통합 지표는 상기 산출된 통합 지표에 기초하여 생성된 것인 개인의 유전 정보 분석 방법.
  5. 제 1 항에 있어서,
    상기 추정하는 단계 및 상기 생성하는 단계 중 적어도 하나는
    상기 생물학적 데이터 군들에 포함된 상기 유전적 정보들을 소정의 유전자 단위로 처리함으로써 수행되는 개인의 유전 정보 분석 방법.
  6. 제 1 항에 있어서,
    상기 생성하는 단계는
    상기 추정된 지표들을 대표하는 값을 산출하는 메타 분석을 이용함으로써 상기 추정된 지표들이 통합된 상기 통합 지표를 생성하는 개인의 유전 정보 분석 방법.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 추정하는 단계는
    상기 획득된 생물학적 데이터 군들에 포함된 상기 유전적 정보들 각각을 대응되는 대조군들과 통계적으로 비교함으로써 상기 지표들을 추정하는 개인의 유전 정보 분석 방법.
  9. 제 8 항에 있어서,
    상기 대조군들은
    상기 생물학적 데이터 군들 각각에 대응되는 공개 데이터베이스들(public Databases)로부터 획득된 것인 개인의 유전 정보 분석 방법.
  10. 제 9 항에 있어서,
    상기 추정하는 단계는
    상기 대조군들과 상기 유전적 정보들을 정규 분포의 방식에 의해 비교함으로써 상기 지표들을 추정하는 개인의 유전 정보 분석 방법.
  11. 제 9 항에 있어서,
    상기 추정하는 단계는
    상기 대조군들과 상기 유전적 정보들을 경험 분포(empirical distribution)의 방식에 의해 비교함으로써 상기 지표들을 추정하는 개인의 유전 정보 분석 방법.
  12. 제 9 항에 있어서,
    상기 추정하는 단계는
    상기 생물학적 데이터 군들 각각에 대하여, 동일한 유형의 분포 방식에 의해 상기 대조군들과 상기 유전적 정보들을 비교함으로써 상기 지표들을 추정하는 개인의 유전 정보 분석 방법.
  13. 제 1 항에 있어서,
    상기 추정된 지표들 및 상기 생성된 통합 지표 중 적어도 하나는
    상기 유전적 이상의 정도에 대해 유의성을 통계적으로 검정하기 위한 지표들인 개인의 유전 정보 분석 방법.
  14. 삭제
  15. 삭제
  16. 제 1 항, 제 2 항, 제 4 항 내지 제 6 항, 제 8 항 내지 제 13 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  17. 개인의 유전자 샘플로부터 서로 다른 종류의 유전적 정보들을 포함하는 복수의 생물학적 데이터 군들을 획득하는 데이터 획득부, 상기 획득된 생물학적 데이터 군들은 상기 유전자 샘플로부터 기인한, 돌연변이(mutation) 데이터에 관한 제 1 생물학적 데이터 군, CNV(Copy Number Variation) 데이터에 관한 제 2 생물학적 데이터 군 및 mRNA 발현(expression)에 관한 제 3 생물학적 데이터 군을 포함하는 서로 다른 종류의 오믹스(Omics) 데이터 군들임;
    상기 획득된 생물학적 데이터 군들 각각에 대하여, 상기 포함된 서로 다른 종류의 유전적 정보들 각각의 유전적 이상의 정도를 나타내는 지표들을 추정하는 지표 추정부; 및
    상기 추정된 지표들을 일반화하는 분석 알고리즘을 이용하여 상기 생물학적 데이터 군들 전체에 대한 유전적 이상의 정도를 평가하는 통합 지표를 생성하는 통합 지표 생성부를 포함하고,
    상기 통합 지표 생성부는
    상기 생물학적 데이터 군들 각각에 대한 신뢰도에 대응되는 가중치를 적용하여 상기 추정된 지표들을 변환하는 지표 표준화부; 및
    상기 변환된 지표들을 통합하여 상기 통합 지표를 산출하는 통합 지표 산출부를 포함하고,
    상기 신뢰도는 상기 서로 다른 종류의 생물학적 데이터 군들을 획득하는데 이용된 유전 정보 측정 플랫폼의 품질점수(quality score)에 기초한 정보이고,
    상기 생성된 통합 지표는 상기 산출된 통합 지표에 기초하여 생성된 것인 개인의 유전 정보 분석 장치.
  18. 제 17 항에 있어서,
    상기 통합 지표 생성부는
    상기 신뢰도를 반영하여 상기 추정된 지표들을 표준화하는 지표 표준화부; 및
    상기 분석 알고리즘을 이용하여 상기 표준화된 지표들을 일반화함으로써 상기 통합 지표를 산출하는 통합 지표 산출부를 포함하고,
    상기 생성된 통합 지표는 상기 산출된 통합 지표에 기초하여 생성된 것인 개인의 유전 정보 분석 장치.
  19. 삭제
  20. 제 17 항에 있어서,
    상기 통합 지표 생성부는
    상기 추정된 지표들을 대표하는 값을 산출하는 메타 분석을 이용함으로써 상기 추정된 지표들이 통합된 상기 통합 지표를 생성하는 개인의 유전 정보 분석 장치.
  21. 삭제
  22. 제 17 항에 있어서,
    상기 지표 추정부는
    상기 획득된 생물학적 데이터 군들에 포함된 상기 유전적 정보들 각각을 대응되는 대조군들과 통계적으로 비교함으로써 상기 지표들을 추정하는 개인의 유전 정보 분석 장치.
  23. 삭제
KR1020120089667A 2012-08-16 2012-08-16 개인의 유전 정보를 분석하는 방법 및 장치 KR101967248B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120089667A KR101967248B1 (ko) 2012-08-16 2012-08-16 개인의 유전 정보를 분석하는 방법 및 장치
US13/750,080 US20140052380A1 (en) 2012-08-16 2013-01-25 Method and apparatus for analyzing personalized multi-omics data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120089667A KR101967248B1 (ko) 2012-08-16 2012-08-16 개인의 유전 정보를 분석하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140023607A KR20140023607A (ko) 2014-02-27
KR101967248B1 true KR101967248B1 (ko) 2019-04-10

Family

ID=50100642

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120089667A KR101967248B1 (ko) 2012-08-16 2012-08-16 개인의 유전 정보를 분석하는 방법 및 장치

Country Status (2)

Country Link
US (1) US20140052380A1 (ko)
KR (1) KR101967248B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210157978A (ko) 2020-06-23 2021-12-30 농업회사법인 (주)케어앤모어 유전체 분석 정보를 이용한 개인 맞춤형 영양정보 제공방법
WO2024053860A1 (ko) * 2022-09-05 2024-03-14 주식회사 지놈인사이트테크놀로지 유전 정보 분석 결과 제공 방법 및 시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300502A (zh) * 2018-10-10 2019-02-01 汕头大学医学院 一种从多组学数据中分析关联变化模式的系统和方法
AU2019356597A1 (en) * 2018-10-12 2021-05-20 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
CN110957007B (zh) * 2019-11-26 2023-04-28 上海交通大学 一种基于组织外泌体磷酸化蛋白组的多组学分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI363309B (en) * 2006-11-30 2012-05-01 Navigenics Inc Genetic analysis systems, methods and on-line portal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. Sun 외, "A multi-dimensional evidence-based candidate gene prioritization approach for complex diseases-schizophrenia as a case", Bioinformatics, 25권, 19호, 2009.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210157978A (ko) 2020-06-23 2021-12-30 농업회사법인 (주)케어앤모어 유전체 분석 정보를 이용한 개인 맞춤형 영양정보 제공방법
WO2024053860A1 (ko) * 2022-09-05 2024-03-14 주식회사 지놈인사이트테크놀로지 유전 정보 분석 결과 제공 방법 및 시스템

Also Published As

Publication number Publication date
KR20140023607A (ko) 2014-02-27
US20140052380A1 (en) 2014-02-20

Similar Documents

Publication Publication Date Title
CN112020565A (zh) 用于确保基于测序的测定的有效性的质量控制模板
EP1244047A2 (en) Method for providing clinical diagnostic services
KR101828052B1 (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
KR101967248B1 (ko) 개인의 유전 정보를 분석하는 방법 및 장치
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
JP2014506784A (ja) 生物学的ネットワーク内の情報の流れを推定する方法
US20150193577A1 (en) Systems and methods for generating biomarker signatures
WO2012091093A1 (ja) 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
US20140180599A1 (en) Methods and apparatus for analyzing genetic information
WO2014050160A1 (ja) 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム
KR102492977B1 (ko) 마이크로바이옴을 이용한 건강 정보 제공 방법 및 분석장치
JPWO2006088208A1 (ja) 生体の生理変化の予測方法および装置
US10083274B2 (en) Non-hypergeometric overlap probability
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
Fostel et al. Exploration of the gene expression correlates of chronic unexplained fatigue using factor analysis
Chong et al. SeqControl: process control for DNA sequencing
KR20150039484A (ko) 유전 정보를 이용하여 암을 진단하는 방법 및 장치
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
CN109920474A (zh) 绝对定量方法、装置、计算机设备和存储介质
WO2018088635A1 (ko) 유전체내 암 특이적 진단 마커 검출
CN110475874A (zh) 脱靶序列在dna分析中的应用
KR20210157978A (ko) 유전체 분석 정보를 이용한 개인 맞춤형 영양정보 제공방법
Poncelas Preprocess and data analysis techniques for affymetrix DNA microarrays using bioconductor: a case study in Alzheimer disease
KR20200106643A (ko) 바코드 서열 정보 기반 고민감도 유전변이 탐지 및 레포팅 시스템
KR20200085144A (ko) 모체 시료 중 태아 분획을 결정하는 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant