KR20170126846A

KR20170126846A - 출처의 결정을 위한 시스템들 및 방법들

Info

Publication number: KR20170126846A
Application number: KR1020177009265A
Authority: KR
Inventors: 샤흐루즈 라비자데흐; 패트릭 순-시옹; 존 자카리 샌본; 찰스 조셉 바스케; 스테판 찰스 벤츠
Original assignee: 난토믹스, 엘엘씨; 샤흐루즈 라비자데흐; 패트릭 순-시옹
Priority date: 2014-09-05
Filing date: 2015-09-04
Publication date: 2017-11-20
Also published as: AU2015311677A1; EP3189457A1; EP3189457A4; US20160070855A1; CN107735787A; CA2963785A1; WO2016037134A1; JP2017532699A

Abstract

그 내부에서 특유 표지들 또는 표지 컨스텔레이션들이 게놈 서열들을 특징짓고 비교하기 위하여 이용되는 게놈 분석을 위한 시스템들 및 방법들이 고려된다. 특히 선호되는 측면들에 있어서, 특유 표지들은 미리 결정된 SNP들이며, 표지 프로파일은 다른 서열들의 다른 표지 프로파일들을 상호 참조하는 것을 가능하게 하기 위하여 샘플 레코드 내에서 사용된다.

Description

출처의 결정을 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR DETERMINATION OF PROVENANCE}

본 출원은 2014년 09월 05일자로 출원된 일련 번호 제62/046737호를 갖는 미국 가특허 출원에 대한 우선권을 주장한다.

본 발명의 기술분야는 게놈 데이터의 컴퓨터적인 분석이며, 특히 본 발명은 단일 뉴클레오티드 다형성(single nucleotide polymorphism; SNP) 핑거프린팅(fingerprinting)의 다양한 측면들 및 이의 사용에 관한 것이다.

배경기술 설명은 본 발명을 이해하는데 있어서 유용할 수 있는 정보를 포함한다. 이는, 본원에서 제공되는 정보 중 임의의 정보가 종래 기술이거나 또는 현재 청구되는 발명과 관련된다는 것, 또는 구체적으로 또는 암시적으로 참조된 임의의 공개문헌이 종래 기술이라는 것에 대한 인정이 아니다.

단일 염기 다형성은 상이한 개체(individual)들의 게놈들 사이에서의 단일 DNA 염기 쌍 위치의 변형 또는 변화의 발생을 지칭한다. 특히, SNP들은 약 1:1000의 빈도로 인간에서 상대적으로 흔하며, 전사 및 조절/비-코딩 서열들 둘 모두에서 무차별적으로 위치된다. 그들의 상대적으로 높은 빈도 및 공지된 위치 때문에, SNP들은 다수의 분야들에서 사용될 수 있으며, 전장 유전체 연관성 분석(genome-wide association studies), 집단 유전학, 및 진화 연구들에서 몇몇 애플리케이션들이 발견되었다. 그러나, 막대한 양의 정보가 또한 다양한 도전들을 야기하였다.

예를 들어, SNP들이 전장 유전체 연관성 분석에서 사용되는 경우, 전체 게놈이 SNP 또는 SNP 패턴과 표지(maker) 또는 질병의 통계적인 관련 연관성을 획득하기 위하여 적어도 2개의 별개의 그룹들로부터 다수의 개체들에 대하여 서열화되어야만 한다. 반대로, 게놈 또는 선택된 SNP들의 오로지 일 부분만이 분석되는 경우, SNP들이 전체 게놈 전체에 걸쳐 광범위하게 분포됨에 따라 잠재적인 연관성들이 상실될 수 있다. 또한 추가적으로, 환자 조직의 목표된 SNP 분석은 종종 전용 장비(고-스루풋 PCR) 또는 재료들(SNP 어레이들)을 필요로 한다. 이에 더하여, 일단 염기 쌍 위치가 SNP의 유전자 자리(locus)로서 식별되면, 이러한 정보는 전형적으로 단지 특정 SNP가 하나 이상의 임상적 특징들과 연관되는 경우에만 유용한 것으로 여겨진다. 따라서, 이에 대하여 어떠한 질환 또는 특징이 알려지지 않은 다수의 SNP들은 단순히 무관한 것으로 여겨지고 무시된다.

결과적으로, SNP들에 대하여 다양한 측면들 및 방법들이 공지된 경우에도, SNP들을 정보 소스로서 레버리징(leverage)하기 위한 개선된 시스템들 및 방법들에 대한 필요성이 여전히 존재한다.

본 발명의 내용은, 다른 유전 샘플들에 대한 생물학적 샘플의 출처를 결정하거나 및/또는 일치(congruence)를 검증 또는 배제하기 위하여 특유 표지들 또는 표지 컨스텔레이션(constellation)들이 이용되는 게놈 분석에 대한 다양한 구성들, 시스템들, 및 방법들에 관한 것이다. 가장 바람직하게는, 특유 표지들은 SNP들이며, 복수의 미리 결정된 SNP들은 그 유전자 자리 내의 판독(read)의 임의의 임상적인 또는 생리학적인 중요성의 완전한 무시를 갖는 그들의 염기 판독을 사용하는 샘플-특정 식별자들로서 사용된다.

대안으로서, 다양한 다른 특유 표지들이 또한 적절한 것으로 여겨지며, 이들은 다양한 게놈 반복 서열들(예를 들어, SINE 서열들, LINE 서열들, Alu 반복들), 바이러스 및 비-바이러스 엘리먼트들의 LTR 서열들, 다양한 선택된 유전자들의 복제 수, 및 심지어 트랜스포손(transposon) 서열들의 길이/수를 포함한다. 유사하게, 특유 표지들은 또한 게놈의 미리 선택된 영역들 상의 특정 인식 사이트(site)들(예를 들어, 4-염기 인식 서열, 6-염기 인식 서열, 6-염기 인식 서열 등) 사이의 핵산 신장(stretch)들의 미리 선택된 세트들에 의해 정의되는 RFLP들의 인 실리코(in silico) 결정된 세트들을 포함한다.

따라서, 발명의 내용의 일 측면에 있어서, 발명자들은 포유류의 목표 조직의 게놈 서열을 분석하는 시스템들 및 방법들을 고려한다. 특히 선호되는 시스템들 및 방법들에 있어서, 분석 엔진은 포유류의 목표 조직에 대한 게놈 서열을 저장하는 서열 데이터베이스에 결합된다. 그러면, 분석 엔진은 목표 조직의 게놈 서열 내의 복수의 미리 결정된 특유 표지들을 특징짓고, 특징지어진 특유 표지들을 사용하여 디지털 데이터로서 저장되는 특유 표지 프로파일을 생성한다. 또 다른 단계에 있어서, 그런 다음 분석 엔진은 특유 표지 프로파일을 사용하여 목표 조직에 대한 제 1 샘플 레코드를 생성하거나 또는 갱신한다. 그런 다음, 이렇게 수립된 제 1 샘플 레코드에 대한 특유 표지 프로파일이 분석 엔진에 의해 제 2 샘플 레코드에 대한 특유 표지 프로파일과 비교되고 그럼으로써 매치 스코어(match score)를 생성하며, 이는 바람직하게는 제 1 샘플 레코드에 주석을 달기 위해 사용된다.

본 발명의 내용을 제한하지 않지만, 선호되는 미리 결정된 특유 표지들은 SNP들, 후생유전 개량(epigenetic modification)들, 반복 서열들의 반복들의 수, 및/또는 미리 결정된 제한 효소 사이트들의 쌍들 사이의 염기들의 수들을 포함한다. 가장 전형적으로, 2 이상의, 전형적으로는 통계적으로 의미 있는 결과들을 생성하기에 충분한 수의 미리 결정된 특유 표지들이 이용된다. 따라서, 미리 결정된 특유 표지들의 적절한 수는 100 내지 10,000 사이일 것이다.

다수의 경우들에 있어서, 미리 결정된 특유 표지들(예를 들어, SNP들)은 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되거나 및/또는 랜덤하게 선택될 수 있다. 미리 결정된 특유 표지들이 전형적으로 표지와 연관된 질병 또는 질환에 대하여 불가지적(agnostic)이거나 또는 이에 대하여 무지(ignorant)하다는 것을 주의해야만 한다. 따라서, 그리고 상이한 관점에서 바라보면, 미리 결정된 특유 표지들 중 적어도 일부는 상이하고 관련되지 않은(unrelated) 질병들 또는 질환들과 연관될 수 있다. 또한, 그리고 SNP들 또는 다른 특유 표지들의 전형적인 사용과는 대조적으로, 표지들 및/또는 프로파일은, 전형적으로 특유 표지들과 연관되는 질병 또는 질환에 대한 식별 또는 가능성을 포함하지 않을 것이다. 특유 표지의 성질에 의존하여, 특유 표지 프로파일은 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하거나 또는 포함하지 않을 수 있으며, 이는 다양한 디지털 포맷들(예를 들어, VCF 포맷의 특유 표지, 표지 프로파일, 또는 샘플 레코드)로 저장되고, 프로세싱되며, 및/또는 제공될 수 있다는 것이 이해되어야만 한다.

샘플 레코드가 또한 다양한 포맷들을 가질 수 있지만, 샘플 레코드가 게놈 서열을 포함하는 것 및/또는 매치 스코어가 동일성(identity) 퍼센트 값을 포함하는 것이 전형적으로 선호된다. 예를 들어, 매치 스코어는, 동일한 포유류로부터 획득된 이전의 샘플에 대한 매칭 값, 인종(ethnic) 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 연령 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 및/또는 질병에 대한 특성인 특유 표지 프로파일에 대한 매칭 값을 포함한다.

포유류의 목표 조직에 대한 적절한 게놈 서열들은 포유류의 적어도 하나의 염색체를 커버할 수 있으며, 더 전형적으로는 포유류의 게놈 또는 엑솜(exome) 중 적어도 70% 이상을 커버할 수 있다. 또한, 포유류의 목표 조직은 병든 조직이며, 제 2 샘플 레코드는 포유류의 제 2 샘플로부터(예를 들어, 포유류의 병들지 않은 조직 또는 이전에 테스트된 동일한 조직으로부터) 획득될 수 있다.

따라서, 본 발명자들은 또한 서열 데이터베이스 내의 게놈 서열을 선택하는 방법을 고려한다. 특히 고려되는 방법들은, 분석 엔진을 개체에 대한 제 1 게놈 서열 및 연관된 제 1 특유 표지 프로파일을 저장하는 서열 데이터베이스에 결합하는 단계를 포함한다. 가장 전형적으로, 제 1 특유 표지 프로파일은 개체의 제 1 게놈 서열 내의 복수의 미리 결정된 특유 표지들에 대한 특성들에 기초한다. 다른 단계에서, 그런 다음, 분석 엔진은 (예를 들어, 동일한 또는 다른 서열 데이터 베이스로부터 검색된 제 2 개체로부터의) 연관된 제 2 특유 표지 프로파일을 갖는 제 2 게놈 서열을 선택하며, 여기에서, 선택하는 단계는 제 1 및 제 2 특유 표지 프로파일들 및 제 1 특유 표지 프로파일과 제 2 특유 표지 프로파일 사이의 희망되는 매치 스코어를 사용한다.

이상에서 언급된 바와 같이, 다수의 대안적인 특유 표지들이 적절한 것으로 여겨지지만, 선호되는 미리 결정된 특유 표지들은 SNP들, 후생유전 개량들, 반복 서열들의 반복들의 수, 및 미리 결정된 제한 효소 사이트들의 쌍들 사이의 염기들의 수들을 포함하며, 적절한 분석들은 (예를 들어, 100 내지 10,000 사이의) 상대적으로 많은 수를 사용한다. 특유 표지 프로파일의 정확한 포맷은 본 발명의 내용으로 제한되지 않지만, 이는 바람직하게는 다수의 다른 프로파일들에 비하여 빠른 프로세싱을 가능하게 하는 포맷이다(예를 들어, 비트 스트링 포맷, 및/또는 배타적 분리 결정(exclusive disjunction determination)에 기초하는 프로세싱). 희망되는 매치 스코어는 바람직하게는 제 1 및 제 2 게놈 서열들 사이의 차이를 반영하는 사용자-정의형 차단(cut-off) 스코어이지만, 이는 또한 다양한 다른 인자들(예를 들어, 서열 분석의 유형)에 기초하여 미리 결정될 수 있다.

다른 관점에서 바라보면, 본 발명자들이 제 1 게놈 서열을 제 2 게놈 서열과 매칭시키는 방법에서 특유 표지 프로파일의 사용을 고려한다는 것이 이해되어야만 한다. 이러한 사용 시에, 특유 표지 프로파일이 제 1 및 제 2 게놈 서열들에 대하여 수립되며(또는 이전에 수립되었으며), 여기에서 특유 표지 프로파일은 특유 표지와 연관된 질병 또는 질환에 대하여 불가지적이거나 또는 이에 대하여 무지한 복수의 특징지어진 특유 표지들을 사용하여 생성된다. 이상과 같이, 적절한 특유 표지들은 전형적으로 (예를 들어, 100 내지 10,000 SNP들 사이의) 상대적으로 큰 수의 SNP들, 후생유전 개량들, 반복 서열들의 반복들의 수, 및/또는 미리 결정된 제한 효소 사이트들의 쌍들 사이의 염기들의 수들을 포함한다. 이러한 사용 시에 연관된 질환들 또는 질병들에 대한 어떠한 정보 컨텐트도 요구되지 않는다는 것이 이해되어야만 한다. 따라서, 특유 표지들은 게놈 서열 내에서의 그들의 공지된 위치에 기반하여 미리 결정될 수 있으며, 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하거나 또는 포함하지 않을 수 있다. 또한, 그리고 이상의 교시들과 유사하게, 고려되는 사용들에 있어서 게놈 서열들의 매칭은 제 1 및 제 2 게놈 서열들에 대한 특유 표지 프로파일들 사이의 희망되는 또는 미리 결정된 동일성 퍼센트 값에 기초할 수 있다.

본 발명의 내용의 더 추가적으로 고려되는 측면에 있어서, 본 발명자들은 개체의 성별을 결정하기 위하여 게놈 정보를 분석하는 방법을 고려한다. 이러한 방법은 바람직하게는 분석 엔진을 개체에 대한 게놈 서열을 저장하는 서열 데이터베이스에 결합하는 단계를 포함할 것이다. 다른 단계에서, 분석 엔진은 대립 유전자(allele)에 대한 접합성(zygosity)을 생성하기 위하여 적어도 X-염색체 상에 위치된 하나 이상의 대립 유전자들에 대한 접합성을 결정하고, 그런 다음 대립 유전자에 대한 접합성 프로파일을 사용하여 성별 결정을 도출한다. 희망되는 경우, 그런 다음 게놈 정보가 성별 결정을 가지고 주석이 달릴 수 있다. 예를 들어, 접합성은 추가적으로 Y-염색체 상의 적어도 하나의 다른 대립 유전자에 대하여 결정될 수 있거나, 및/또는 접합성을 결정하는 단계가 성 염색체들에 대한 이수성(aneuploidy)의 결정을 포함할 수 있다.

본 발명의 내용의 다양한 목적들, 특징들, 측면들 및 이점들이, 유사한 번호들이 유사한 컴포넌트들을 나타내는 첨부된 도면들과 함께 선호되는 실시예들의 다음의 상세한 설명으로부터 더 명백해질 것이다.

도 1a는 유사도의 함수로서 누적적인 샘플 분율을 도시하는 예시적인 그래프이다.
도 1b는 유사도의 함수로서 누적인 샘플 수들을 도시하는 예시적인 그래프이다.
도 2는 본 발명의 내용에 따른 서열 분석 시스템의 예시적인 예시이다.

본 발명자들은, 게놈 서열 정보가 게놈 내에서의 그들의 역할 또는 기능에 대한 어떠한 관련성이 없는 게놈 내의 특징들을 사용하여 분석될 수 있다는 것, 및 이러한 특징들이 게놈 내의 그들의 특유 존재에 기인하여 특히 적절하다는 것을 발견하였다. 이러한 특유 특징들을 사용하는 것이 유익하게는 빠르고 신뢰할 수 있는 샘플 매칭 및/또는 소팅(sort), 및/또는 샘플 출처 또는 관련성의 정도의 결정을 가능하게 할 것이다.

예를 들어, SNP들이 게놈 전체에 걸쳐 러프하게 통계적인/랜덤한 분포로 상대적으로 높은 빈도로 나타나기 때문에 SNP들은 특유 특징들의 특히 선호되는 예들로서 역할할 수 있다. 따라서, 그리고 다른 관점에서 바라보면, 전체 게놈 전체에 걸친 통계적인 비컨(beacon)으로서의 사용을 위하여 통계적 검증력에 맞춰질 수 있는 수의 SNP들의 서브세트가 선택될 수 있다. 가장 바람직하게, 그리고 본원에서 제공되는 본 발명의 내용의 맥락에서, 선택된 SNP들이 전체 게놈 전체에 걸쳐 분포될 것이지만, 이는 오로지 전체 게놈의 작은 부분(fraction)을 나타낼 것이다. 예를 들어, 게놈 분석은, 예를 들어, 10% 내지 1% 사이의, 1% 내지 0.1% 사이의, 또는 0.1% 내지 0.01% 사이의, 또는 훨씬 더 적은 공지된 SNP들의 매우 제한된 서브세트에 기초할 수 있다. 따라서, 사용되는 SNP들의 수는 10-100 사이, 100 내지 500 사이, 500 내지 5,000 사이, 또는 5,000 내지 10,000 사이일 수 있다. 그러나, 다른 경우들에 있어서 SNP들은 오로지 하나 이상의 선택된 염색체들 또는 심지어 하나 이상의 염색체들 상의 유전자 자리에 위치될 수 있다는 것이 인식되어야만 하며, 특정한 분석 요구 및 사용이 SNP 수 및 위치의 적절한 선택을 결정할 것이다.

SNP들이 미리 선택되고 임의의 연관된 병리학적 및/또는 생리학적 특징들로부터 독립적이기 때문에, SNP들의 컨스텔레이션들은 특정한 목적을 위하여 적절한 임의의 방식으로 선택/배열될 수 있다. 또한, 그리고 이하에서 더 추가로 설명되는 바와 같이, SNP 특성들이 표지 프로파일 내에 배열되고, 예를 들어, 그 이후에 다른 레코드들에 대한 빠른 비교를 위해 적절한 단일화된 레코드를 형성하기 위해 사용될 수 있는 디지털 파일로서 저장될 수 있다. 이에 더하여, 고려되는 표지 프로파일들 또는 레코드들은 데이터 파일 조직에 대한 탐색 특징으로서, 파라미터로서 또는 심지어 개인 식별자로서 사용될 수 있다. 따라서, 분석은 전형적으로 진단의 목적을 위하여 수행되지 않을 것이며, 그 대신에 (예를 들어, 병든 조직 및 정상 조직으로부터의) 2개의 서열 레코드들이 실제로 적절하게 매칭되는지(즉, 동일한 환자로부터 얻어진 것인지)를 확인하기 위하여 (예를 들어, 병든 조직 및 매칭된 정상 조직으로부터의) 동일한 환자의 2개 이상의 샘플들에 대하여 수행될 수 있다는 것이 이해되어야만 한다. 추가적으로, 이하에서 또한 설명되는 바와 같이, 고려되는 표지 프로파일들 또는 레코드들은 게놈 서열 정보에 대한 추가적인 메타(meta) 정보를 제공하기 위하여 특정 인종, 가계(ancestry) 등과 연관될 수 있다.

물론, SNP들이 선호되는 특유 표지들이지만, 표지들이 환자의 게놈의 고유한 특징을 나타내는 한 이러한 다수의 대안적인 또는 추가적인 특유 표지들이 또한 본원에서 사용을 위해 적절한 것으로 여겨질 수 있다는 것이 이해되어야만 한다. 예를 들어, 다양한 반복 서열들의 길이 및/또는 수가 특유 표지들로서 이용될 수 있다는 것이 고려된다. 다른 서열들 중에서도 특히, 산재된 반복 서열들이 적절한 것으로 고려되며, 이는 이러한 서열들이 게놈 전체에 걸쳐 실질적으로 랜덤한 분포 및 길이의 높은 변동성 둘 모두를 제공할 것이기 때문이다. 예를 들어, SINE 서열 길이 및/또는 SINE 서열 간 거리가 사용될 수 있다. 마찬가지로, LINE 서열 길이 및/또는 LINE 서열 간 거리가 특유 표지들로서의 사용을 위해 적절할 수 있다. 유사하게, 바이러스 및 비-바이러스 엘리먼트들의 LTR 서열들의 위치 및 길이, 다양한 선택된 유전자들의 복제 수, 및 심지어 트랜스포손 서열들이, 그들의 유전적 및/또는 생리학적 기능과 독립적인 방식으로 사용될 수 있는 환자/샘플-특정 프록시(proxy) 측정들을 제공하기 위하여 이용될 수 있다.

더 추가적으로 고려되는 측면들에 있어서, 특유 표지들은 또한 게놈의 미리 선택된 영역들 또는 심지어 전체 게놈 상의 하나 이상의 제한 효소들에 대한 특정 인식 사이트들(예를 들어, 4-, 6-, 또는 8-염기 인식 서열 등) 사이의 핵산 신장들의 미리 선택된 세트들에 의해 정의되는 RFLP들의 인 실리코 결정된 세트들을 포함할 수 있다. 따라서, '정적' 프록시 측정들이 일반적으로 선호된다. 그러나, 본 발명의 내용의 추가적으로 고려되는 측면들에 있어서, '동적' 프록시 측정들이 또한 고려되며, 이는 특히 후생유전 개량들(예를 들어, CpG 아일랜드(island) 메틸화)을 포함한다. 또한, 동일한 유형의 특유 표지들이 일반적으로 선호되지만, 상이한 유형들의 특유 표지들의 다양한 조합들이 표지들의 전체 수를 제한하면서 통계적 검증력을 증가시키기 위해 특히 유익할 수 있다는 것이 이해되어야만 한다.

따라서, 특유 표지의 성질이 적어도 부분적으로 표지의 정보 컨텐트를 지시(dictate)할 것이다. 예를 들어, 특유 표지가 SNP인 경우, 정보 컨텐트는 전형적으로 염기 콜(base call)과 함께 게놈 내의 특정 위치를 포함할 것이다. 반면, 특유 표지가 반복 서열인 경우, 정보 컨텐트는 전형적으로 반복들의 수와 함께 서열의 유형을 포함할 것이다. 유사하게, 특유 표지가 제한 단편 길이 다형성(restriction fragment length polymorphism; RFLP)인 경우, 정보 컨텐트는 전형적으로 단편의 계산된 길이와 함께 서열의 위치를 포함할 것이다. 다른 관점에서 바라보면, 따라서 특유 표지의 결정을 위한 시작 재료가 환자의 조직이 아니라, 전체 게놈 서열화, 엑솜 서열화, RNA 서열화 등과 같은 핵산 서열 결정으로부터 이미 수립된 서열 레코드(예를 들어, SAM, BAM, FASTA, FASTQ, 또는 VCF 파일)라는 것이 이해되어야만 한다. 따라서, 시작 재료는 하나 이상의 디지털 포맷들에 따라 저장된 베이스-라인(base-line) 서열을 저장하는 디지털 파일에 의해 표현될 수 있다. 예를 들어, 베이스-라인 서열은 FASTA 포맷으로 저장된 집단(population)에 대한 전체 게놈 기준 서열을 포함할 수 있다.

예를 들어, 환자 종양 샘플 서열 레코드가 동일한 환자의 정상 조직의 대응하는 샘플 서열 레코드와 정확하게 매칭될 수 있다는 것을 보장하기 위해 특유 표지 프로파일들을 사용하는 것을 개념을 검증하기 위해, 본 발명자들은 선험적인 1000개가 넘는 SNP들을 랜덤하게 선택하였고 모든 샘플들에 대하여 표준 프로토콜을 사용하여 전체 서열 게놈 서열화를 수행하였다. 모든 서열 레코드들은 BAM 포맷이었으며, SNP는 1000개 이상의 SNP 위치들의 각각에 대하여 특징지어졌다. 이하의 표 1은 예시적인 샘플들 및 그들의 개별적인 기원(origin)들을 나타낸다.

표 1

이상의 샘플들 및 표준 서열화 프로토콜들을 사용하여, 이하의 표 2에서 개괄되는 바와 같은 다음의 매칭 셋업(setup)이 이용되었다(BL: 혈액 유도 매칭 평균; LoD: 검출의 한계).

표 2

이러한 예에 있어서, 출처 유사도 메트릭(metric)은 2개의 샘플들 사이의 % 유사도에 기초하여 매치/미스매치를 결정하며, 여기에서 매치는 > 90% 유사하고, 미스매치는 < 90% 유사하다. 정확도는 이하의 표 3에 도시되는 바와 같은 다음의 매트릭스에 의해 평가될 것이다(여기에서, TP는 긍정 참, FP는 긍정 오류, TN은 부정 참, FN은 부정 오류이다). 그러면 정확도는 (TP+TN)/(TP+TN+FP+FN)로서 정의된다.

표 3

출처는 각각의 대조의 샘플 1과 샘플 2 사이의 유사한 또는 일치하는 유전자형들에 대하여 이상에서 언급된 바와 같이 결정되었다. % 유사도 스코어가 계산되었으며, 적어도 90% 유사한 샘플들의 임의의 쌍이 매치(동일한 사람에 속하는 샘플들)로 분류되고, 그렇지 않은 경우 미스매치(동일한 사람에 속하지 않는 샘플들)로 분류된다. 이하의 표 4-6는 2개의 독립적인 런(run) 분석들에 걸친 11개의 매칭 쌍들 및 11개의 미스매치된 쌍들 사이의 분석의 결과들을 특징으로 한다.

표 4

표 5

표 6

매치의 결정을 위한 적절한 차단 값들과 관련하여, 다수의 임의적인 값들 또는 목적을 가지고 설계된 값들이 이용될 수 있다는 것이 이해되어야만 한다. 예를 들어, 임의적인 차단 값들은 서열들 사이의 85%, 90%, 92%, 94%, 96%, 또는 98%의 최소 유사도일 수 있다. 반면, 차단 값들은 또한 인종 프로파일들, 이용가능한 샘플들의 품질 또는 유형, 테스트되는 SNP들의 수, 조직 또는 다른 준비된 샘플 내의 핵산의 희석도, 등을 고려할 수 있다. 예를 들어, FFPE 기원의 희석된 샘플들로부터 보호하기 위하여, 차단 값은 90%로 선택되었다(표 4, HCC1954-LoD-25% 대 HCC1954BL 참조).

고려되는 시스템들 및 방법들의 높은 선택성 및 민감성을 증명하는 다른 예에 있어서, 본 발명자들은 이상에서 설명된 바와 같은 시스템을 사용하여 고유한 환자들에 속한 Cancer Genome Atlas의 데이터베이스로부터 획득된 정상 엑솜 서열들과 종양들의 이전에 서열화된 쌍들을 비교하였다. 이하의 표 7로부터 보여질 수 있는 바와 같이, 총 4,756개의 미스매치된 종양-정상 서열들(BAM 파일들로서 9,512개의 서열들)에 대하여, 유사도의 분율(fraction)은 심지어 상당히 높은 유사도 스코어들(예를 들어, 98% 유사도)에 대해서도 상대적으로 낮으며, 오로지 매우 높은 유사도 스코어들(예를 들어, 99.5% 유사도)만이 지수적으로 상승하기 시작한다.

표 7

결과적으로, 본 발명의 내용의 일 측면에 있어서, 본 발명자들은 하나 이상의 특유 표지들을 사용하여 포유류의 목표 조직의 게놈 서열을 분석하는 다양한 방법들을 고려한다. 가장 전형적으로, 고려되는 방법들은, 복수의 포유류들의 개별적인 목표 조직에 대한 게놈 서열들을 저장하는 서열 데이터베이스에 정보적으로 결합된 분석 엔진을 사용할 것이다. 물론, 게놈 서열들이 다양한 포맷들일 수 있다는 것, 및 포맷의 특정 성질이 본원에서 제공되는 본 발명의 내용으로 제한되지 않는다는 것이 이해되어야만 한다. 그러나, 특히 선호되는 포맷들은 적어도 어느 정도까지 포맷될 것이며, 특히 선호되는 포맷들은 SAM, BAM, 또는 VCF 포맷들을 포함한다.

그러면, 분석 엔진은 목표 조직의 게놈 서열 내의 복수의 미리 결정된 특유 표지들을 특징지을 것이다. 물론, 사용되는 특유 표지의 유형에 의존하여 특징화가 변화할 것이라는 것이 이해되어야만 한다. 예를 들어, 표지가 SNP인 경우, 특징화는 특정 위치에서의 특정 염기를 포함할 것이다(예를 들어, chr:bp로서 표현됨, 특정 대립 유전자 내의 염기 수, 또는 특정 SNP 지정(designation)). 반면, 표지가 반복 서열인 경우, 특징화는, 바람직하게는 위치 정보와 함께 반복들의 수 및 서열에 대한 특정 식별자를 포함할 것이다. 물론, 분석/특징화가 복수의 특유 표지들(예를 들어, 100개 내지 10,000개 표지들 사이의 그룹)에 대하여 수행될 수 있다는 것이 인식되어야만 한다.

일단 모든 표지들이 특징지어지면, 그런 다음 분석 엔진이 이전에 특징지어진 표지들을 사용하여 특유 표지 프로파일을 생성할 것이라는 것이 고려된다. 이러한 프로파일은 원시(raw) 데이터 포맷일 수 있거나, 또는 특정 규칙에 의해 프로세싱될 수 있다. 포맷과 무관하게, 그 다음 샘플 레코드가 분석 엔진에 의해 생성되거나 또는 갱신되는 것이 일반적으로 선호되고, 여기에서 샘플 레코드는 목표 조직에 대해 특유하며 원시 또는 프로세싱된 형태의 특유 표지를 포함한다. 본 발명의 내용에 한정되지 않으면서, 특유 표지 프로파일이 게놈 서열 정보에 부착될 수 있거나 (또는 달리 이와 통합될 수 있다는) 것이 고려된다. 이는, 분석 엔진이 매치 스코어를 생성하기 위하여 샘플 레코드 내의 특유 표지 프로파일을 다른 샘플 레코드의 다른 특유 표지 프로파일과 추가로 비교하는 경우에 특히 유용하다. 그런 다음, 매치 스코어는 다양한 방식들로 사용될 수 있다(예를 들어, 샘플 레코드의 주석을 위해). 또한, 그렇지 않았다면 특유 표지와 연관되었을 질환 또는 질병에 대하여 불가지적이거나(정보가 이용가능하지 않음) 또는 무지한(이용가능한 정보가 사용되지 않음) 방식으로 특유 표지 프로파일들을 사용하면, 특히 매우 가변적이지만 위치적으로 불변 정보인 SNP가 2개의 특정 서열들이 실제로 동일한 환자로부터 획득되는 것을 보장하는 비컨으로서 사용될 수 있다. 이러한 제어는, 임상 실험실에서의 샘플의 오식별이 완전히 유효하고 높은 품질이지만 부적절하게 할당된 서열 레코드를 야기할 수 있는 경우에 게놈 서열들의 전자적인 레코드들에 대하여 특히 유익하다. 다른 관점에서 바라보면, 고려되는 시스템들 및 방법들은 동일한 환자(또는 직접적으로 관련된 관련물 또는 동일한 인종 그룹)로부터 비롯될 수 있는 서열들의 집합(collection) 내의 매칭 서열의 발견 또는 동일한 환자로부터의 2개의 서열들의 페어링(pairing)들의 확인을 가능하게 한다는 것이 이해되어야만 한다.

일단 포유류의 목표 조직의 게놈 서열의 분석을 위한 시스템에 대한 예시적이 시스템이 도 2에 도시되며, 여기에서 시스템(200)은 네트워크(215)를 통해 복수의 환자들의 목표 조직들에 대한 게놈 서열을 저장하는 서열 데이터베이스(220)에 결합된 분석 엔진(210)을 포함한다. 물론, 게놈 서열들의 다수의 추가적인 소스들(예를 들어, 서열화 서비스 연구실, 기준 데이터베이스, 환자-소유 디바이스(222)의 메모리, 등)이 존재하며, 이들 전부가 본원에서의 사용을 위해 적절하다는 것이 이해되어야만 한다. 전형적인 시스템에 있어서, 분석 엔진은, 목표 조직의 게놈 서열 내의 복수의 미리 결정된 특유 표지들을 특징짓고, 특징지어진 특유 표지들을 사용하여 특유 표지 프로파일을 생성하며, 특유 표지 프로파일을 사용하여 목표 조직에 대한 제 1 샘플 레코드를 생성하거나 또는 갱신하고, 제 1 샘플 내의 특유 표지 프로파일과 제 2 샘플 내의 제 2 특유 표지 프로파일을 비교함으로써 매치 스코어를 생성하며; 및 매치 스코어를 사용하여 제 1 샘플 레코드에 주석을 달도록 구성된다.

컴퓨터와 관련된 임의의 언어는, 서버들, 인터페이스들, 시스템들, 데이터베이스들, 에이전트(agent)들, 피어(peer)들, 엔진들, 제어기들, 또는 개별적으로 또는 집합적으로 동작하는 다른 유형들의 컴퓨팅 디바이스들을 포함하는 컴퓨팅 디바이스들의 임의의 적절한 조합을 포함하는 것으로 이해되어야만 한다는 것을 주의해야만 한다. 컴퓨팅 디바이스들은 유형적이고 비-일시적인 컴퓨터 판독가능 저장 매체(예를 들어, 하드 드라이브, 고체 상태 드라이브, RAM, 플래시, ROM, 등) 상에 저장된 소프트웨어 명령어들을 실행하도록 구성된 프로세서를 포함한다는 것을 이해해야만 한다. 소프트웨어 명령어들은 바람직하게는, 개시된 장치와 관련하여 이하에서 논의되는 바와 같은 역할들, 책임들, 또는 다른 기능들을 제공하도록 컴퓨팅 디바이스를 구성한다. 특히 선호되는 실시예들에 있어서, 다양한 서버들, 시스템들, 데이터베이스들, 또는 인터페이스들은, 아마도 HTTP, HTTPS, AES, 공개-사설 키 교환들, 웹 서비스 API들, 공지된 금융 트랜잭션(transaction) 프로토콜들, 또는 다른 전자 정보 교환 방법들에 기초하는 표준화된 프로토콜들 또는 알고리즘들을 사용하여 데이터를 교환한다. 데이터 교환들은 바람직하게는 패킷-교환형 네트워크, 인터넷, LAN, WAN, VPN, 또는 다른 유형의 패킷 교환형 네트워크를 통해 수행된다. 특유 표지들과 관련하여, 표지들은, 게놈 내의 이용가능한 모든 표지들의 총계보다 더 적은, 사용자에 의해 선택되거나 또는 미리 결정된 특유 표지들의 세트라는 것이 일반적으로 선호된다. 예를 들어, 특유 표지들은 SNP들, 반복 서열들의 양적인 측정치, 단 연쇄 반복(short tandem repeat; STR), 미리 결정된 제한 효소 사이트들 사이의 염기들의 수, 및/또는 후생유전 개량들을 포함할 수 있다. 대부분의 경우들에 있어서 사용자 선택 또는 사전 결정은, 표지들이 포유류의 게놈 전체에 걸쳐 랜덤하게 분포되거나 또는 표지들이 포유류의 게놈 전체에 걸쳐 통계적으로 균등하게 분포되게 하는 그런 것이다. 표지들은 바람직하게는 전체 게놈을 나타내지만, 반면 포유류의 목표 조직에 대한 게놈 서열은 포유류의 적어도 하나의 염색체를 커버하거나 또는 포유류의 게놈 중 적어도 70%를 커버한다는 것이 또한 고려된다.

용이하게 이해될 바와 같이, 본원에서 고려되는 분석은 다수의 용도(use)들에 대하여 적절할 것이지만, 그러나, 이는, 포유류의 목표 조직이 병든 조직인 경우 및 제 2 샘플 레코드가 동일한(또는 관련된 또는 무관한) 포유류의 제 2의 병들지 않은 샘플로부터 획득되는 경우의 분석들을 위해 특히 고려된다. 따라서, 제 2 샘플이 동일한 포유류의 기준 조직인 경우, 고려되는 분석은 병든 샘플 및 병들지 않은 샘플이 동일한 포유류/환자로부터의 적절하게 매치되는 샘플들인지 또는 다른 파라미터(예를 들어, 인종, 가족 혈통(familial origin))에 대하여 적절하게 매칭되는지를 검증하는데 있어서 특히 적절할 것이다. 이러한 프로파일링은, 샘플이 다른 인종 집단들 사이에서 상이하게 처치되는 질병을 가진 환자로부터 얻어지는 경우에 특히 유익할 수 있다. SNP들의 세트들을 사용하면, 본 발명자들은, 유한한 신체 변화들의 유형들일 수 있는 개체들의 인종 또는 집단 가계가 수립될 수 있다는 것을 고려한다. 예를 들어, 폐암의 EGFR 변이들은 북미 백인(Caucasians)들에서는 상대적으로 희귀한 경우이지만, 아시아계 폐암 집단들에서는 상당히 일반적이다. 이들은 특정 EGFR 치료법들에 더 많이 또는 더 적게 반응할 수 있으며, 따라서 인종에 의한 계층화가 타당할 수 있다. 이러한 목적을 달성하기 위해, 예를 들어, 동일한 포유류로부터 획득된 이전의 샘플인 다른 샘플에 대한 매칭 값, 인종 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 연령 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 및 질병에 대한 특성인 특유 표지 프로파일에 대한 매칭 값을 포함하는 매치 스코어가 구현될 수 있다.

본 발명의 내용의 또 다른 고려되는 측면에 있어서, 본 발명자들은 또한 대응하는, 관련된, 또는 유사한 다른 게놈 서열들을 선택하거나 또는 매칭하기 위한 특유 표지들 및 특유 표지 프로파일들의 다양한 다른 용도들을 고려한다. 예를 들어, 본 발명자들은, 개체에 대한 게놈 서열 및 연관된 특유 표지 프로파일을 저장하는 서열 데이터베이스에 결합된 분석 엔진을 사용하여 서열 데이터베이스 내에서 게놈 서열을 선택하는 방법을 고려한다. 이상에서 논의된 바와 같이, 특유 표지 프로파일은 개체의 게놈 서열 내의 복수의 미리 결정된 특유 표지들에 대한 하나 이상의 특성들에 기초하는 것이 일반적으로 선호되며, 특유 표지 프로파일이 비교를 용이하게 위하여 프로세싱된 형태인 것이 추가로 선호된다. 예를 들어, 프로세싱된 형태는 비트 스트링 형태일 수 있다. 이러한 시스템들에 있어서, 그런 다음 분석 엔진은 연관된 제 2 특유 표지 프로파일을 갖는 제 2 게놈 서열을 선택할 수 있다. 가장 전형적으로, 선택은 특유 표지 프로파일 및 특유 표지 프로파일과 제 2 특유 표지 프로파일 사이의 희망되는 매치 스코어(예를 들어, 프로파일들 사이에 적어도 90%의 동일성을 가져야만 함)를 사용할 것이다.

이상에서 이미 언급된 바와 같이, 미리 결정된 특유 표지들은 SNP들, 반복 서열들의 수들/위치들, 미리 결정된 제한 효소 사이트들 사이의 염기들의 수들, 및/또는 후생유전 개량들이라는 것, 및 미리 결정된 특유 표지들의 수가 컴퓨터적인 분석을 용이하게 하기 위하여 100개 내지 10,000개의 표지들 사이라는 것이 일반적으로 선호된다. 희망되는 매치 스코어와 관련하여, 매치 스코어는 배타적 분리 결정에 기초한다는 것 및/또는 희망되는 매치 스코어는 제 1 및 제 2 게놈 서열들 사이의 "거리"에 대한 사용자-정의형 차단 스코어라는 것이 일반적으로 선호된다.

본 발명의 내용의 또 다른 고려되는 측면에 있어서, 본 발명자들은 개체의 성별을 결정하기 위하여 게놈 정보를 분석하는 방법을 추가로 고려한다. 이러한 방법들에 있어서, 분석 엔진이 개체에 대한 게놈 서열을 저장하는 서열 데이터베이스와 함께 사용될 수 있으며, 여기에서 분석 엔진이 대립 유전자(들)에 대한 접합성 프로파일을 생성하기 위하여 적어도 X-염색체(그리고 더 전형적으로는 X- 및 Y- 염색체들) 상에 위치된 적어도 하나의 대립 유전자에 대한 접합성을 결정한다는 것이 이해되어야만 한다. 일단 결정되면, 그 다음 분석 엔진은 대립 유전자에 대한 접합성 프로파일을 사용하여 성별 결정을 수행할 수 있다. 희망되는 경우, 그런 다음 게놈 정보가 성별 결정을 가지고 주석이 달린다. 가장 주목할 만 하게, 이러한 성별 결정이 간단하며, 이는 또한 클라인펠터 증후군, XXY 증후군, 또는 Xp22 결손 등을 갖는 환자에게 속한 게놈 서열을 용이하게 평가하기 위하여 성 염색체에 대한 이수성을 고려할 수 있다.

이미 설명된 것들 이외의 다수의 더 많은 수정들이 본원의 발명적인 개념들로부터 벗어나지 않고 가능하다는 것이 당업자들에게 자명할 것이다. 따라서, 본 발명의 내용은 첨부된 청구항들의 사상을 제외하고는 제한되지 않아야 한다. 또한, 명세서 및 청구항들 둘 모두를 해석함에 있어서, 모든 용어들은 맥락과 부합되는 가능한 가장 광범위한 방식으로 해석되어야만 한다. 특히, 용어들 "포함한다" 및 "포함하는"은, 언급되는 엘리먼트들, 컴포넌트들, 또는 단계들이 존재하거나, 또는 사용되거나, 또는 명백하게 언급되지 않은 다른 엘리먼트들, 컴포넌트들, 또는 단계들과 조합될 수 있다는 것을 나타내는 비-배타적인 방식으로 엘리먼트들, 컴포넌트들, 또는 단계들을 지칭하는 것으로서 해석되어야만 한다. 명세서 및 청구항들이 A, B, C ... 및 N으로 구성된 그룹으로부터 선택된 어떤 것 중 적어도 하나를 지칭하는 경우, 텍스트는 A 더하기 N, 또는 B 더하기 N, 등이 아니라 그룹으로부터 오로지 하나의 엘리먼트를 요구하는 것으로서 해석되어야만 한다.

Claims

포유류의 목표 조직의 게놈 서열을 분석하는 방법으로서,
분석 엔진을 상기 포유류의 상기 목표 조직에 대한 게놈 서열을 저장하는 서열 데이터베이스에 결합하는 단계;
상기 분석 엔진에 의해, 상기 목표 조직의 상기 게놈 서열 내의 복수의 미리 결정된 특유 표지들을 특징짓고, 상기 특징지어진 특유 표지들을 사용하여 특유 표지 프로파일을 생성하는 단계;
상기 분석 엔진에 의해, 상기 특유 표지 프로파일을 사용하여 상기 목표 조직에 대한 제 1 샘플 레코드를 생성하거나 또는 갱신하는 단계;
상기 분석 엔진에 의해, 상기 제 1 샘플 레코드 내의 상기 특유 표지 프로파일을 제 2 샘플 레코드의 제 2 특유 표지 프로파일과 함께 사용하여 매치 스코어를 생성하는 단계로서,
상기 특유 표지 프로파일들을 사용하는 단계는 그렇지 않았다면 특유 표지와 연관되었을 질환 또는 질병에 대하여 불가지적(agnostic)이거나 또는 무지한(ignorant), 단계; 및
상기 매치 스코어를 사용하여 상기 제 1 샘플에 주석을 다는 단계를 포함하는, 방법.
청구항 1에 있어서,
상기 미리 결정된 특유 표지들은, SNP들, 후생유전 개량(epigenetic modification)들, 반복 서열들의 반복들의 수들, 및 미리 결정된 제한 효소 사이트(site)들의 쌍들 사이의 염기들의 수들로 구성된 그룹으로부터 선택되는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 미리 결정된 특유 표지들을 포함하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들은 SNP들인, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들은 상기 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들은 랜덤(random) 선택을 기반으로 하여 미리 결정되며, 상기 랜덤 선택은 상기 표지와 연관된 질병 또는 질환에 대하여 불가지적이거나 또는 무지한, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들 중 적어도 일부는 개별적인 질병들 또는 질환들과 연관되며, 상기 질병들 또는 질환들은 관련이 없는(unrelated) 질병들 또는 질환들인, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들 중 적어도 일부와 연관된 질병 또는 질환의 식별을 포함하지 않는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 샘플 레코드는 VCF 포맷을 포함하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 샘플 레코드는 상기 게놈 서열을 포함하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 매치 스코어는 동일성(identity) 퍼센트 값을 포함하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 매치 스코어는, 동일한 포유류로부터 획득된 이전의 샘플 중 적어도 하나에 대한 매칭 값, 인종 그룹(ethnic group)에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 연령 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 및 질병에 대한 특성인 특유 표지 프로파일에 대한 매칭 값을 포함하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 포유류의 상기 목표 조직에 대한 상기 게놈 서열은 상기 포유류의 적어도 하나의 염색체를 커버하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 포유류의 상기 목표 조직에 대한 상기 게놈 서열은 상기 포유류의 상기 게놈의 적어도 70%를 커버하는, 방법.
선행하는 청구항들 중 어느 한 항에 있어서,
상기 포유류의 상기 목표 조직은 병든 조직이며, 상기 제 2 샘플 레코드는 상기 포유류의 제 2 샘플로부터 획득되는, 방법.
청구항 16에 있어서,
상기 포유류의 상기 제 2 샘플은 상기 포유류의 병들지 않은 조직으로부터 획득되는, 방법.
청구항 1에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 미리 결정된 특유 표지들을 포함하는, 방법.
청구항 1에 있어서,
상기 미리 결정된 특유 표지들은 SNP들인, 방법.
청구항 1에 있어서,
상기 미리 결정된 특유 표지들은 상기 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되는, 방법.
청구항 1에 있어서,
상기 미리 결정된 특유 표지들은 랜덤 선택을 기반으로 하여 미리 결정되며, 상기 랜덤 선택은 상기 표지와 연관된 질병 또는 질환에 대하여 불가지적이거나 또는 무지한, 방법.
청구항 1에 있어서,
상기 미리 결정된 특유 표지들 중 적어도 일부는 개별적인 질병들 또는 질환들과 연관되며, 상기 질병들 또는 질환들은 관련이 없는 질병들 또는 질환들인, 방법.
청구항 1에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들 중 적어도 일부와 연관된 질병 또는 질환의 식별을 포함하지 않는, 방법.
청구항 1에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하는, 방법.
청구항 1에 있어서,
상기 샘플 레코드는 VCF 포맷을 포함하는, 방법.
청구항 1에 있어서,
상기 샘플 레코드는 상기 게놈 서열을 포함하는, 방법.
청구항 1에 있어서,
상기 매치 스코어는 동일성 퍼센트 값을 포함하는, 방법.
청구항 1에 있어서,
상기 매치 스코어는, 동일한 포유류로부터 획득된 이전의 샘플 중 적어도 하나에 대한 매칭 값, 인종 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 연령 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 및 질병에 대한 특성인 특유 표지 프로파일에 대한 매칭 값을 포함하는, 방법.
청구항 1에 있어서,
상기 포유류의 상기 목표 조직에 대한 상기 게놈 서열은 상기 포유류의 적어도 하나의 염색체를 커버하는, 방법.
청구항 1에 있어서,
상기 포유류의 상기 목표 조직에 대한 상기 게놈 서열은 상기 포유류의 상기 게놈의 적어도 70%를 커버하는, 방법.
청구항 1에 있어서,
상기 포유류의 상기 목표 조직은 병든 조직이며, 상기 제 2 샘플 레코드는 상기 포유류의 제 2 샘플로부터 획득되는, 방법.
청구항 31에 있어서,
상기 포유류의 상기 제 2 샘플은 상기 포유류의 병들지 않은 조직으로부터 획득되는, 방법.
서열 데이터베이스 내의 게놈 서열을 선택하는 방법으로서,
분석 엔진을 개체(individual)에 대한 제 1 게놈 서열 및 연관된 제 1 특유 표지 프로파일을 저장하는 서열 데이터베이스에 결합하는 단계로서,
상기 제 1 특유 표지 프로파일은 상기 개체의 상기 제 1 게놈 서열 내의 복수의 미리 결정된 특유 표지들에 대한 특성들에 기초하는, 단계;
상기 분석 엔진에 의해, 연관된 제 2 특유 표지 프로파일을 갖는 제 2 게놈 서열을 선택하는 단계로서,
상기 선택하는 단계는 상기 제 1 및 제 2 특유 표지 프로파일들 및 상기 제 1 특유 표지 프로파일과 상기 제 2 특유 표지 프로파일 사이의 희망되는 매치 스코어를 사용하며, 및
상기 특유 표지 프로파일들은, 그렇지 않았다면 상기 특유 표지와 연관되었을 질환 또는 질병에 대하여 불가지적이거나 또는 무지한 방식으로 사용되는, 단계를 포함하는, 방법.
청구항 33에 있어서,
상기 미리 결정된 특유 표지들은, SNP들, 후생유전 개량들, 반복 서열들의 반복들의 수들, 및 미리 결정된 제한 효소 사이트들의 쌍들 사이의 염기들의 수들로 구성된 그룹으로부터 선택되는, 방법.
청구항 33 내지 청구항 34 중 어느 한 항에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 미리 결정된 특유 표지들을 포함하는, 방법.
청구항 33 내지 청구항 35 중 어느 한 항에 있어서,
상기 특유 표지 프로파일은 비트 스트링 형태인, 방법.
청구항 33 내지 청구항 36 중 어느 한 항에 있어서,
상기 희망되는 매치 스코어는 배타적 분리 결정(exclusive disjunction determination)에 기초하는, 방법.
청구항 33 내지 청구항 37 중 어느 한 항에 있어서,
상기 희망되는 매치 스코어는 상기 제 1 및 제 2 게놈 서열들 사이의 차이에 대한 사용자-정의형 차단(cut-off) 스코어인, 방법.
청구항 33 내지 청구항 38 중 어느 한 항에 있어서,
상기 연관된 제 2 특유 표지 프로파일을 갖는 상기 제 2 게놈 서열은 제 2 개체로부터 얻어지는, 방법.
청구항 33 내지 청구항 39 중 어느 한 항에 있어서,
상기 연관된 제 2 특유 표지 프로파일을 갖는 상기 제 2 게놈 서열은 상기 서열 데이터베이스로부터 검색되는, 방법.
청구항 33에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 미리 결정된 특유 표지들을 포함하는, 방법.
청구항 33에 있어서,
상기 특유 표지 프로파일은 비트 스트링 형태인, 방법.
청구항 33에 있어서,
상기 희망되는 매치 스코어는 배타적 분리 결정에 기초하는, 방법.
청구항 33에 있어서,
상기 희망되는 매치 스코어는 상기 제 1 및 제 2 게놈 서열들 사이의 차이에 대한 사용자-정의형 차단 스코어인, 방법.
청구항 33에 있어서,
연관된 제 2 특유 표지 프로파일을 갖는 상기 제 2 게놈 서열은 제 2 개체로부터 얻어지는, 방법.
청구항 33에 있어서,
상기 연관된 제 2 특유 표지 프로파일을 갖는 상기 제 2 게놈 서열은 상기 서열 데이터베이스로부터 검색되는, 방법.
제 1 게놈 서열 및 제 2 게놈 서열이 동일한 사람에 속한다는 것을 확인하는 방법에서 특유 표지 프로파일의 용도(use)로서,
상기 특유 표지 프로파일은 상기 제 1 및 제 2 게놈 서열들에 대하여 수립되며, 상기 특유 표지 프로파일은 상기 특유 표지와 연관된 질병 또는 질환에 대하여 불가지적이거나 또는 무지한 복수의 특징지어진 특유 표지들을 사용하여 생성되고, 및 상기 제 1 및 제 2 게놈 서열들이 상기 동일한 사람에 속한다는 것의 확인은 유사도 스코어의 문턱 값에 기초하여 수립되는, 용도.
청구항 47에 있어서,
상기 특유 표지들은, SNP들, 후생유전 개량들, 반복 서열들의 반복들의 수들, 및 미리 결정된 제한 효소 사이트들의 쌍들 사이의 염기들의 수들로 구성된 그룹으로부터 선택되는, 용도.
청구항 47 내지 청구항 48 중 어느 한 항에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 SNP들인, 용도.
청구항 47 내지 청구항 49 중 어느 한 항에 있어서,
상기 특유 표지들은 상기 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되는, 용도.
청구항 47 내지 청구항 50 중 어느 한 항에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하는, 용도.
청구항 47 내지 청구항 51 중 어느 한 항에 있어서,
상기 게놈 서열들의 매칭은 상기 제 1 및 제 2 게놈 서열들에 대한 특유 표지 프로파일들 사이의 동일성 퍼센트 값에 기초하는, 용도.
청구항 47에 있어서,
상기 복수의 특유 표지들은 100개 내지 10,000개 사이의 SNP들인, 용도.
청구항 47에 있어서,
상기 특유 표지들은 상기 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되는, 용도.
청구항 47에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하는, 용도.
청구항 47에 있어서,
상기 게놈 서열들의 매칭은 상기 제 1 및 제 2 게놈 서열들에 대한 특유 표지 프로파일들 사이의 동일성 퍼센트 값에 기초하는, 용도.
포유류의 목표 조직의 게놈 서열을 분석하기 위한 시스템으로서,
상기 포유류의 상기 목표 조직에 대한 게놈 서열을 저장하는 서열 데이터베이스에 결합된 분석 엔진을 포함하며,
상기 분석 엔진은,
상기 목표 조직의 상기 게놈 서열 내의 복수의 미리 결정된 특유 표지들을 특징짓고, 상기 특징지어진 특유 표지들을 사용하여 특유 표지 프로파일을 생성하며;
상기 특유 표지 프로파일을 사용하여 상기 목표 조직에 대한 제 1 샘플 레코드를 생성하거나 또는 갱신하고;
상기 제 1 샘플 레코드 내의 상기 특유 표지 프로파일을 제 2 샘플 레코드 내의 제 2 특유 표지 프로파일과 비교하여 매치 스코어를 생성하되,
상기 특유 표지 프로파일들은, 그렇지 않았다면 상기 특유 표지와 연관되었을 질환 또는 질병에 대하여 불가지적이거나 또는 무지한 방식으로 사용되며; 및
상기 매치 스코어를 사용하여 상기 제 1 샘플에 주석을 달도록 구성되는, 시스템.
청구항 57에 있어서,
상기 미리 결정된 특유 표지들은, SNP들, 후생유전 개량들, 반복 서열들의 반복들의 수들, 및 미리 결정된 제한 효소 사이트들의 쌍들 사이의 염기들의 수들로 구성된 그룹으로부터 선택되는, 시스템.
청구항 57 내지 청구항 58 중 어느 한 항에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 미리 결정된 특유 표지들을 포함하는, 시스템.
청구항 57 내지 청구항 59 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들은 SNP들인, 시스템.
청구항 57 내지 청구항 60 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들은 상기 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되는, 시스템.
청구항 57 내지 청구항 61 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들은 랜덤 선택을 기반으로 하여 미리 결정되며, 상기 랜덤 선택은 상기 표지와 연관된 질병 또는 질환에 대하여 불가지적이거나 또는 무지한, 시스템.
청구항 57 내지 청구항 62 중 어느 한 항에 있어서,
상기 미리 결정된 특유 표지들 중 적어도 일부는 개별적인 질병들 또는 질환들과 연관되며, 상기 질병들 또는 질환들은 관련이 없는 질병들 또는 질환들인, 시스템.
청구항 57 내지 청구항 63 중 어느 한 항에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하는, 시스템.
청구항 57 내지 청구항 64 중 어느 한 항에 있어서,
상기 샘플 레코드는 VCF 포맷을 포함하는, 시스템.
청구항 57 내지 청구항 65 중 어느 한 항에 있어서,
상기 샘플 레코드는 상기 게놈 서열을 포함하는, 시스템.
청구항 57 내지 청구항 66 중 어느 한 항에 있어서,
상기 매치 스코어는 동일성 퍼센트 값을 포함하는, 시스템.
청구항 57 내지 청구항 67 중 어느 한 항에 있어서,
상기 매치 스코어는, 동일한 포유류로부터 획득된 이전의 샘플 중 적어도 하나에 대한 매칭 값, 인종 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 연령 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 및 질병에 대한 특성인 특유 표지 프로파일에 대한 매칭 값을 포함하는, 시스템.
청구항 57 내지 청구항 68 중 어느 한 항에 있어서,
상기 포유류의 상기 목표 조직에 대한 상기 게놈 서열은 상기 포유류의 적어도 하나의 염색체를 커버하는, 시스템.
청구항 57에 있어서,
상기 복수의 미리 결정된 특유 표지들은 100개 내지 10,000개 사이의 미리 결정된 특유 표지들을 포함하는, 시스템.
청구항 57에 있어서,
상기 미리 결정된 특유 표지들은 SNP들인, 시스템.
청구항 57에 있어서,
상기 미리 결정된 특유 표지들은 상기 게놈 서열 내의 그들의 공지된 위치들을 기반으로 하여 미리 결정되는, 시스템.
청구항 57에 있어서,
상기 미리 결정된 특유 표지들은 랜덤 선택을 기반으로 하여 미리 결정되며, 상기 랜덤 선택은 상기 표지와 연관된 질병 또는 질환에 대하여 불가지적이거나 또는 무지한, 시스템.
청구항 57에 있어서,
상기 미리 결정된 특유 표지들 중 적어도 일부는 개별적인 질병들 또는 질환들과 연관되며, 상기 질병들 또는 질환들은 관련이 없는 질병들 또는 질환들인, 시스템.
청구항 57에 있어서,
상기 특유 표지 프로파일은 상기 특징지어진 특유 표지들에 대한 뉴클레오티드 염기 정보를 포함하는, 시스템.
청구항 57에 있어서,
상기 샘플 레코드는 VCF 포맷을 포함하는, 시스템.
청구항 57에 있어서,
상기 샘플 레코드는 상기 게놈 서열을 포함하는, 시스템.
청구항 57에 있어서,
상기 매치 스코어는 동일성 퍼센트 값을 포함하는, 시스템.
청구항 57에 있어서,
상기 매치 스코어는, 동일한 포유류로부터 획득된 이전의 샘플 중 적어도 하나에 대한 매칭 값, 인종 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 연령 그룹에 대한 특성인 특유 표지 프로파일에 대한 매칭 값, 및 질병에 대한 특성인 특유 표지 프로파일에 대한 매칭 값을 포함하는, 시스템.
청구항 57에 있어서,
상기 포유류의 상기 목표 조직에 대한 상기 게놈 서열은 상기 포유류의 적어도 하나의 염색체를 커버하는, 시스템.
개체의 성별을 결정하기 위하여 게놈 정보를 분석하는 방법으로서,
분석 엔진을 상기 개체에 대한 게놈 서열을 저장하는 서열 데이터베이스에 결합하는 단계;
상기 분석 엔진에 의해, 적어도 X-염색체 상에 위치된 복수의 대립 유전자들에 대한 접합성(zygosity)을 결정하여 상기 복수의 대립 유전자들에 대한 접합성 프로파일을 생성하는 단계;
상기 분석 엔진에 의해, 상기 복수의 대립 유전자들에 대한 상기 접합성 프로파일을 사용하여 성별 결정을 도출하는 단계; 및
상기 성별 결정을 가지고 상기 게놈 정보에 주석을 다는 단계를 포함하는, 방법.
청구항 81에 있어서,
상기 접합성은 Y-염색체 상의 적어도 하나의 다른 대립 유전자에 대하여 추가적으로 결정되는, 방법.
청구항 81에 있어서,
상기 결정은 성 염색체들에 대한 이수성의 결정을 포함하는, 방법.