KR102465122B1

KR102465122B1 - 비정상적인 핵형을 검출하기 위한 방법 및 시스템

Info

Publication number: KR102465122B1
Application number: KR1020217040618A
Authority: KR
Inventors: 이반 맥스웰; 루카스 하베거; 제프리 레이드
Original assignee: 리제너론 파마슈티칼스 인코포레이티드
Priority date: 2016-02-12
Filing date: 2017-02-13
Publication date: 2022-11-09
Also published as: HK1259478A1; AU2020244451B2; CA3014292A1; EP3414691A1; CN115273970A; CN109074426A; WO2017139801A1; IL287595A; NZ745249A; US20170233806A1; JP7144493B2; KR20210154877A; US12071669B2; CN109074426B; IL261216A; JP6765433B2; JP2021019586A; AU2017218149A1; KR20180116309A; IL261216B

Abstract

비정상적인 핵형을 검출하기 위한 방법 및 시스템이 개시된다. 예시적인 방법은, 판독 커버리지 데이터, 이형접합 SNP의 대립유전자 균형 분포, 및 이형접합성이 관찰되지 않은 염색체 분절을 결정하는 단계를 포함할 수 있다. 이어서, 상기 방법 및 시스템은 비정상적인 핵형의 표시일 수 있는 하나 이상의 메트릭을 결정할 수 있다.

Description

비정상적인 핵형을 검출하기 위한 방법 및 시스템{Methods and systems for detection of abnormal karyotypes}

인간 게놈 시료에서의 정확한 의학적 해석은 근본적인 핵형의 지식을 요구한다. 카피수 변이체 (CNV)와 같은 비정상적인 핵형을 식별하는 방법은, 비교 게놈 혼성화법(CGH)에서 DNA 마이크로어레이의 사용, 예컨대, 형광 제자리 (in situ) 혼성화 (FISH), 클론 및 PCR-생성물 분석, 올리고뉴클레오티드 어레이, 유전자형 어레이의 사용을 포함한다 (Carter NP, Nature Genetics 2007; 39 S16-21)). 그러나, 어레이 기술의 단점은 추정상의 CNV를 정의 (호출)하기 어려울 수 있다는 것이다.

차세대 시퀀싱 데이터로부터 염색체 이상을 검출하는 방법은 드물다. 판독-쌍 (read-pair), 분리-판독 (split-read), 판독-심도 (read-depth) 및 어셈블리 기반 방법과 같은 특정 차세대 시퀀싱 전체 게놈 카피수 변이체 방법이 이용되어왔다 (Pirooznia, 외, Front. Genet. 2015; 6; 138). 그러나, 기존의 적용은 비침습적 산전 검사 (NIPT)를 위한 이수성 무세포 태아 DNA 분획을 검출하기 위해 모체 혈장 시료의 매우 가벼운 훑기 (skim)의 전체-게놈 시퀀싱 (WGS)의 분석에 초점을 맞추어 왔다. 차세대 시퀀싱은 암 유전체학에서 어느 정도 탐구되어 왔지만, 이러한 분석은 일반적으로 체세포 염색체 이상에서 클론 모자이크의 정도를 정확하게 측정하는데 필요한 커버리지 심도가 주어진 SNP 어레이를 기반으로 한다.

집단-규모 전체 엑솜 시퀀싱 (WES) 데이터로부터 비정상적인 핵형을 검출하기 위한 기존의 방법은 개발되지 않았다. 이러한 단점 및 다른 단점이 본 개시에서 언급된다.

본 발명은 비정상적인 핵형을 검출하기 위한 방법 및 시스템을 제공함에 그 목적이 있다.

이하의 일반적인 설명 및 하기의 상세한 설명은 모두 예시적이고 설명하기 위한 것일 뿐이며 제한적이지 않다는 것을 이해해야 한다. 비정상적인 핵형을 검출하기 위한 방법 및 시스템이 개시된다. 예시적인 방법은 복수의 시료에서 각각의 염색체에 대해, 판독 커버리지 데이터, 이형접합 SNP의 대립유전자 균형 분포, 및 이형접합성이 관찰되지 않은 염색체 분절(이때, 각각의 염색체는 복수의 게놈 영역을 포함함), 상기 복수의 시료에서 각각의 염색체에 대해 기대 판독 커버리지 데이터를 결정하는 단계, 복수의 시료에서 적어도 하나의 염색체에 대해 상기 판독된 커버리지 데이터와 기대 판독 커버리지 데이터 사이의 편차를 결정하는 단계, 복수의 시료에서 적어도 하나의 염색체에 대해 복수의 바이-대립유전자 SNP에 대한 1:1의 기대 비율로부터 대립유전자 균형 분포의 편차를 결정하는 단계, 편차가 전체 염색체에 걸쳐 발생하는지 또는 식별된 염색체의 일부에서만 발생하는지를 결정하는 단계에서 적어도 하나의 염색에 대해 식별된 편차를 추가로 정제하고 검증하기 위해 보완된 판독 커버리지 및 대립유전자 균형 데이터를 사용하는 단계, 및 상기 적어도 하나의 염색체를 비정상적인 핵형으로 식별하는 단계를 포함할 수 있다.

추가의 이점은 부분적으로 하기 설명에 제시되거나 실시에 의해 알 수 있을 것이다. 이점은 첨부된 청구범위에 특별히 언급된 요소 및 조합에 의해 실현되고 달성될 것이다.

본 발명은 비정상적인 핵형을 검출하기 위한 방법 및 시스템을 제공하는 효과가 있다.

본 명세서에 포함되어 본 명세서의 일부를 구성하는 첨부된 도면은 구현예를 도시하여, 상세한 설명과 함께, 본 방법 및 시스템의 원리를 설명하는 역할을 한다:
도 1은 예시적인 비정상적인 핵형 검출 방법을 나타내는 순서도다;
도 2는 예시적인 선형 회귀 모델을 나타내는 그래프이다;
도 3은 큰 잔차를 나타내는 비정상적인 핵형을 나타내는 그래프이다;
도 4는 예시적인 비정상적인 핵형 검출 방법을 나타내는 또 다른 순서도다;
도 5는 GC 함량과 커버리지와의 관계를 나타내는 그래프이다;
도 6은 식별된 비정상적인 핵형과 특이치(outliers)를 나타내는 그래프이다;
도 7a, 7b, 7c, 7d, 7e, 및 7f는 시료에서 염색체 9, 13 및 20번 상의 이상을 나타내는 대립유전자 균형 플롯이다. 서브플롯 번호는 염색체 번호이다. 음영처리된 막대 (701)는 이형접합 SNP 대립유전자 균형이 0.5일 때 예상되는 가변성의 정상 범위를 나타낸다. 실선 (702)은 전체 염색체 중앙 값 대립유전자 균형을 나타낸다. 파선 (703)은 약 20 SNP 롤링 윈도우에서의 국소 중앙 값 대립유전자 균형을 나타낸다. 선 (704)은 runs-of-homozygosity를 나타낸다;
도 8은 도 7a 내지 7f의 동일한 시료에 대한 판독 커버리지 플롯이다;
도 9a, 9b, 9c, 9d, 9e, 및 9f는 시료 중의 21번 염색체 상의 변이 및 모든 염색체 X를 포함하는 run-of-homozygosity를 나타내는 대립유전자 균형 플롯이며, 단 하나의 X 염색체를 갖는 핵형적으로 정상인 남성 시료임을 시사한다. 음영처리된 막대 (901)는 이형접합 SNP 대립유전자 균형이 0.5일 때 예상되는 가변성의 정상 범위를 나타낸다. 실선 (902)은 전체 염색체 중앙 값 대립유전자 균형을 나타낸다. 파선 (903)은 약 20 SNP 롤링 윈도우에서의 국소 중앙 값 대립유전자 균형을 나타낸다. 선 (904)은 runs-of-homozygosity를 나타낸다;
도 10은 도 9a 내지 9f의 동일한 시료에 대한 판독 커버리지 플롯이다;
도 11은 예시적인 비정상적인 핵형 검출 방법을 나타내는 순서도다;
도 12는 4번 염색체 상의 시료의 예시적인 대립유전자 균형 플롯이며, 여기서, 이상 영역에서 동형접합성 SNP 중 소량의 0이 아닌 대립유전자 균형으로 인해 중첩된 LocalHetAB 이벤트 (1204)를 갖는 큰 run-of-homozygosity이 검출된다 (1202);
도 13a는 모든 시료에 대한 염색체 X 대 염색체 Y 커버리지 비율 및 실선 1306으로 표시된 남성 (1302) 및 여성 (1304) 시료를 결정하기 위한 임계값의 플롯이다. 또한, 염색체 Y 중복 (duplication)을 갖는 남성 시료는 염색체 Y 커버리지 비율 임계값 (파선 1308)을 사용하여 식별될 수 있다;
도 13b는 기대 염색체-와이드 중앙 이형접합 SNP 대립유전자 균형(ChromHet AB)이 특정 판독 심도 임계값(예컨대, 50X 커버리지, "PCTTARGETBASES5 0X" QC 메트릭) 이상으로 커버된 염기 분율에 비해 증가함을 보여주는 21번 염색체의 예시적인 플롯이며; 커버리지 메트릭을 기반으로 관찰된 것 대 기대 ChromHetAB의 편차의 유의성에 기초하여 "계층(tier)" 등급이 지정될 수 있다;
도 14는 ChromHetAB 값의 계산 (추정 이형접합 SNP, y-축)에 포함된 SNP 수에 대한 염색체 X 상의 모든 남성 시료에 대한 ChromHetAB 값 (x-축)의 플롯이다. 선은 다수의 SNP에 의해 지지되는 높은, 0이 아닌 ChromHetAB 값에 기초하여 염색체 X에 중복을 갖는 남성 시료를 구별하기 위한 임계값을 나타낸다;
도 15는 이벤트 (y-축)에 포함된 이형접합 SNP의 수에 대해 모든 LocalHetAB 이벤트인, 흑색 및 회색 점 (예시적인 임계값보다 더 큰 영역, 수직선)의 플롯이며, 대각선은 예시적인 계층 등급 임계값을 나타낸다. 회색 점은 중첩된 ROH 이벤트를 갖는 이벤트를 나타낸다; 그리고
도 16은 개시된 방법을 수행하기 위한 예시적인 구동 환경을 나타내는 블록 다이어그램이다.

본 방법 및 시스템이 개시되고 기술되기 전에, 본 방법 및 시스템은 특정 방법, 특정 컴포넌트, 또는 특정 실시를 한정하고자 하는 것이 아님을 이해해야 한다. 또한 본원에서 사용된 용어는 단지 특정한 구현예를 설명하기 위한 것이고 제한하고자 하는 의도가 아닌 것으로 이해된다.

본 명세서 및 첨부된 청구항에 사용된 바와 같이, 문맥에 달리 명시되어 있지 않는 한 단수 형태("a," "an" 및 "the")는 다수의 참조를 포함한다. 범위는 "약" 하나의 특정 값, 및/또는 "약" 또 다른 특정 값까지로서 본원에서 표현될 수 있다. 이러한 범위가 표현될 때, 다른 구현예는 하나의 특정 값으로부터 그리고/또는 다른 특정 값 까지를 포함한다. 유사하게, 값이 근사값으로 표현될 때, 선행하는 "약"의 사용에 의해, 특정 값은 다른 구현예를 형성하는 것으로 이해될 것이다. 각 범위의 종점은 다른 종점과 관련하여, 그리고 다른 종점과 관계없이 모두 유의한 것으로 추가로 이해될 것이다.

"선택적" 또는 "선택적으로"는, 후속으로 기재된 사건 또는 상황이 발생하거나 발생하지 않을 수 있고, 그 기재가 상기 사건 또는 상황이 발생하는 경우 및 발생하지 않는 경우를 포함함을 의미한다.

본 명세서의 상세한 설명 및 청구범위 전체에 걸쳐, "포함하다"라는 단어 및 "포함하는" 및 "포함하고"와 같은 이의 변화형은 "포함하지만 이에 한정되지 않는"을 의미하며, 예를 들어, 다른 구성요소, 정수 또는 단계를 배제하고자 하는 것은 아니다. "예시적인"은 "~의 일례"를 의미하며, 바람직한 또는 이상적인 구현예의 표시를 나타내고자 하는 것은 아니다. "~와 같은"은 제한적인 의미로 사용되지 않고 설명을 목적으로 사용된다.

개시된 방법 및 조성물은 이들이 다양할 수 있으므로 기술된 특정 방법론, 프로토콜, 및 시약에 한정되지 않는 것으로 이해된다. 또한 본 명세서에 사용되는 용어는 특정 구현예를 기술하기 위한 것일 뿐이며, 첨부된 청구범위에 의해서만 한정되는 본 방법 및 시스템의 범위를 한정하고자 하는 것이 아님을 이해해야 한다.

달리 정의되지 않는 한, 본 명세서에 사용된 모든 기술적 및 과학적 용어는 개시된 방법 및 조성물이 속한 당업자에 의해 통상 이해되는 것과 동일한 의미를 가진다. 본원에 기술된 것과 동등하거나 유사한 임의의 방법 및 재료가 본 방법 및 조성물을 실시하거나 시험하기 위해 사용될 수 있지만, 특히 유용한 방법, 장치 및 재료는 기술된 바와 같다. 본원에 인용된 간행물 및 그 간행물이 인용된 자료는 본원에 구체적으로 참조로써 포함된다. 본 명세서 중의 어떠한 것도 선행발명이라는 이유로 본 발명이 그러한 개시보다 앞설 권리가 없음을 인정하는 것으로 해석되지 않아야 한다. 임의의 참고문헌은 선행 기술을 구성하는 것으로 인정되지 않는다. 참고문헌의 논의는 그의 저자들이 주장하는 바를 나타내며, 출원인은 인용된 문헌의 정확성 및 적절성에 이의를 제기할 권리를 유보한다. 다수의 간행물이 본 명세서에 언급되어 있지만, 이러한 언급은 이들 문헌 중 임의의 것이 당업계의 통상적인 일반 지식의 일부를 형성한다는 인정을 구성하지 않는 것으로 명확히 이해될 것이다.

개시된 방법 및 시스템을 수행하는 데 사용될 수 있는 구성요소가 개시된다. 이들 및 다른 구성요소가 본원에 개시되어 있으며, 이러한 구성요소의 조합, 하위 세트, 상호작용, 군 등이 개시되어 있을 때, 이들의 각각의 다양한 개별적 및 집합적 조합과 순열의 구체적인 언급이 명시적으로 개시될 수 없지만, 각각은 본 명세서에서 모든 방법 및 시스템에 대하여 구체적으로 고려되고 기술되어 있는 것으로 이해된다. 이는 개시된 방법의 단계를 포함하지만 이에 한정되지 않는 본 출원의 모든 측면에 적용된다. 따라서, 수행될 수 있는 다양한 추가의 단계들이 존재하는 경우, 이들 추가의 단계 각각은 개시된 방법의 임의의 특정 구현예 또는 구현예의 조합으로 수행될 수 있는 것으로 이해된다.

본 방법 및 시스템은 하기의 바람직한 구현예의 상세한 설명 및 거기에 포함된 실시예 그리고 도면 및 이들의 상기 및 하기 설명을 참조로 더 쉽게 이해될 수 있다.

당업자에 의해 인식되는 바와 같이, 본 방법 및 시스템은 완전한 하드웨어 구현예, 완전한 소프트웨어 구현예, 또는 소프트웨어 측면들과 하드웨어 측면들을 조합한 구현예의 형태를 취할 수 있다. 또한, 본 방법 및 시스템은 컴퓨터 판독가능 프로그램 명령어 (예컨대, 컴퓨터 소프트웨어)가 저장 매체에서 구현되는, 컴퓨터 판독가능 저장 매체 상의 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 보다 구체적으로, 본 방법 및 시스템은 웹 구현 컴퓨터 소프트웨어의 형태를 취할 수 있다. 하드 디스크, CD-ROM, 광 저장 장치, 또는 자기 저장 장치를 포함하는 임의의 적합한 컴퓨터 판독가능 저장 매체가 이용될 수 있다.

본 방법 및 시스템의 구현예는 방법, 시스템, 장치 및 컴퓨터 프로그램 제품의 블록 다이어그램 및 순서도 예시를 참조로 하기에 기술된다. 블록 다이어그램 및 순서도 예시의 각각의 블록, 및 블록 다이어그램 및 순서도 예시의 블록들의 조합은 각각 컴퓨터 프로그램 명령어에 의해 구현될 수 있는 것으로 이해될 것이다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 머신(machine)을 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치에서 실행되는 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 수단을 생성한다.

컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치가 특정 방식으로 기능하도록 지시할 수 있는 이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 판독가능 메모리에 저장될 수 있으며, 이에 따라 컴퓨터 판독가능 메모리에 저장된 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 컴퓨터 판독가능 명령어를 포함하는 제조 물품을 생성한다. 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래밍가능한 데이터 처리 장치 상에 로딩되어 일련의 작동 단계가 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 수행되게 하여 컴퓨터 구현 프로세스를 생성할 수 있으며, 이에 따라 컴퓨터 또는 다른 프로그래밍가능한 장치 상에서 실행되는 명령어는 순서도 블록 또는 블록들에 명시된 기능을 구현하기 위한 단계를 제공할 수 있다.

따라서, 블록 다이어그램 및 순서도 예시의 블록은 명시된 기능을 수행하기 위한 수단들의 조합, 명시된 기능을 수행하기 위한 단계들의 조합 및 명시된 기능을 수행하기 위한 프로그램 명령어 수단을 지지한다. 블록 다이어그램 및 순서도 예시의 각각의 블록, 및 블록 다이어그램 및 순서도 예시의 블록들의 조합은 명시된 기능 또는 단계를 수행하는 특수 목적 하드웨어 기반 컴퓨터 시스템, 또는 특수 목적 하드웨어와 컴퓨터 명령어의 조합에 의해 구현될 수 있는 것으로 또한 이해될 것이다.

일 측면에서, KaryoScan으로도 불리는 집단-규모의 전체 엑솜 시퀀싱 데이터로부터 비정상적인 핵형을 갖는 시료를 검출하는 방법이 개시된다. 비정상적인 핵형은 염색체에 대한 판독 심도 분포를 통해 검출될 수 있지만, 다수의 인자가 노이즈로부터 진정한 염색체 이상을 구별하는 능력을 혼란스럽게 한다. PCR 증폭은 GC 함량 및 실험 조건에 의해 편향되어 종종 게놈에 걸쳐 DNA 단편의 불균일한 증폭을 초래한다. 또한, 엑솜 포착 기술은 균일한 표적 커버리지를 생성하지 않는다. 따라서, 임의의 특정 염색체 또는 염색체 영역의 기대 커버리지는 여러 인자에 의존하며, 그 중 일부는 측정가능하고 일부는 측정할 수 없다.

도 1에 도시된 예시적인 방법 100 인, 개시된 방법은, 102에서 각각의 염색체에 대하여 개별적인 시료에 대한 판독 커버리지 프로파일을 계산할 수 있다. 판독 커버리지의 편향을 감소시키기 위해 대표적인 GC-함량 및 맵핑 가능성 메트릭은 104에서 엑손 영역에 대해 결정될 수 있는데, 이는 변이가 50%에 가까운 GC 함량 및 높은 맵핑 가능성이 있는 영역에서 가장 작기 때문이다. 견고한 판독 커버리지 프로파일 r _i 는 범위 내 (예컨대 45 내지 55%)의 GC 함량을 갖고 임계값에 걸쳐 맵핑 가능성을 갖는 엑솜 영역에 걸친 판독 심도의 합으로서 각각의 염색체 i에 대해 결정될 수 있다. 이러한 메트릭은 중앙 값 염색체 태그 밀도와는 반대로 하위-염색체 해상도를 허용한다.

이어서 염색체 판독 커버리지 프로파일을 106에서 정규화하여 다른 상염색체에 비해 각각의 염색체에 대한 판독 커버리지의 엑솜-와이드 비율을 나타낼 수 있다. 염색체 i의 엑솜-와이드 커버리지 비율

은 다음과 같이 표현될 수 있다:

(1)

이때, (A-i)는 염색체 i를 제외한 상염색체의 세트이고,

은 모든 상염색체 및 염색체 X에 대해 결정된다 (염색체 Y는 독립적으로 고려될 수 있음). 따라서 염색체 i의 커버리지 비율은 모든 다른 상염색체와 비교한 염색체 i의 판독 비율이다.

염색체 이상은 기대치로부터의

의 편차를 나타낸다. 그러나,

의 기대값은 정상 (이배체) 핵형의 시료 사이에서도 일정하지 않으며 실험 조건에 따라 달라진다. 선형 회귀 모델은 108에서 모든 염색체 상의 모든 개별적인 것에 대한

의 기대값

을 예측하는데 사용할 수 있다. 선형 회귀를 피팅한 후 염색체 22에 대한 관측 값(

) 및 기대값 (

)의 예를 도 2에 나타냈다. 판독 심도의 변화와 상관관계가 있는 Picard로부터의 시퀀싱 품질 제어 (QC) 메트릭이 이러한 모델에서 공변량으로서 사용될 수 있다. 예컨대, QC 메트릭은 하나 이상의 GCDROPOUT, ATDROPOUT, MEANINSERTSIZE, ONBAITVSSELECTED, PCTPFUQREADS, PCTTARGETBASES10X, PCTTARGETBASES50X 및/또는 이와 유사한 것을 포함할 수 있다.

이러한 QC 메트릭은 판독 커버리지에서 관찰된 변이의 상당한 부분을 기술할 수 있지만, 측정불가능한 부가적인 편향은 이전에 공지된 방법을 사용하여 수득된 결과에 반영될 수 있다. 이러한 편향은 유사한 엑솜 GC 함량 분포를 갖는 염색체 사이에 상관관계가 있으며, 추가의 공변량으로서 유사한 염색체의

값을 포함하면 변이를 허용가능한 수준으로 감소시킬 수 있다. 일 측면에서, 이는 모델 특이성에 유용하지만, 한 가지 단점은 이러한 다른 염색체 자체가 핵형적으로 비정상적일 수 있다는 것이며, 이는 표적 염색체에 대해 거짓 양성 호출 (false positive call)을 초래할 수 있다. 본 발명의 방법에 의해 제공되는 이점은 다른 염색체로부터 공변량의 수를 제한함으로써 표적 염색체에 대한 거짓 양성 호출이 최소화된다는 것이다. 예컨대, 다른 염색체로부터의 공변량의 수를 2로 제한할 수 있다.

따라서, 선형 모델은 전체 n개 시료 세트에 걸쳐 각각의 염색체에 대해 회귀될 수 있다:

QC 메트릭

(2)

이때, 염색체 j,k는 염색체 i의 GC 함량 분포에 대해 최소 D 통계치를 갖는 2개의 상염색체로 정의된다. 일부 측면에서, 성 (염색체 Y 커버리지 임계값에 의해 정의됨)은 염색체 X에 대한 부가적인 공변량으로서 사용될 수 있다.

비정상적인 핵형의 검출은 110에서, 잔차에 의해 정의되는 특정 시료 (

)에 대한 기대치로부터의

의 편차의 검출에 기초할 수 있다. 그러나, 극단적인 QC 메트릭 공간에 속하는 시료에 대한 추정치는 본질적으로 보다 큰 분산을 갖는 평균 추정치를 산출할 수 있으므로, 원시 잔차의 해석은 모든 시료에 대해 균일하게 가정될 수 없다. 112에서, 공변량 x 를 갖는 개별적인 시료에 대해, 개시된 방법은 평균 추정치

의 표준 오차에 대한 잔차를 Z-스코어 정규화할 수 있고 (도 6 참조):

(3)

이때,

는 잔차 표준 오차이고, n은 모델을 맞추기 위해 사용한 시료의 수이다, 그리고:

(4)

Z-스코어에 기초한 p-값은 114에서 염색체 i에 대한 비정상적인 핵형을 나타내는 상당히 큰 잔차를 식별하기 위해 각 염색체에 대해 결정될 수 있다. 일 측면에서, p<0.05 및 q<0.05 (FDR-조정된 p)에 대한 p-값 컷오프는 상당히 큰 잔차를 식별하는데 사용될 수 있다. 도 3을 참조하면, 선형 회귀를 피팅한 후의 관측 값(

) 및 기대값 (

)이 도시되어 있다. 또 다른 측면에서, 0.1 이하의 p-값이 사용될 수 있다.

큰 잔차는 관심있는 염색체에 대한 실제의 비정상적인 핵형뿐만 아니라 비정상적인 공변량 값 둘 모두의 결과일 수 있다 (QC 메트릭 공간에서의 특이치 또는 공변량 염색체 중 하나의 비정상적인 핵형에 기인한 것임). 116 에서 특이치는 각각의 염색체에 대한 선형 모델에서 극단적인 레버리지 (종종 h _i 로 표시됨, 이때, 1/n < h _i < 1)를 갖는 시료를 표식함으로서 비정상적인 공변량으로 인해 검출될 수 있다. 레버리지는 시료의 x-값 (공변량)이 모델에 미치는 영향을 정량화한다. 레버리지는 관심 염색체에 대한 실제의 비정상적인 핵형을 나타내지 않는 특이치를 표식하는데 사용될 수 있다. 레버리지와 표준 오차는 상관관계가 있으므로, 높은 레버리지 값은 높은 (유의하지 않은) p-값을 가져야 한다. 레버리지는 n과 p의 함수로서 보고될 수 있다:

(5)

이때, p는 모델에서의 공변량의 수이다. 일 측면에서, 임계값보다 큰 h _i (n,p) 값을 갖는 시료가 표식될 수 있다. 예컨대, 임계값은 약 3 내지 약 5일 수 있다. 이는 일반적으로 최적의 피팅을 보장하기 위해 적용될 수 있다. 보다 보수적인 임계값을 사용하여 가장 극단적인 값, 예컨대 99.5번째 및 99.9번째 백분위 수 (~10 및 ~26)에 해당하는 값을 표식할 수 있다. 일부의 경우, 이는 높은 레버리지 시료를 제거하고 모델을 다시 피팅하여 높은 레버리지를 갖지 않는 시료에 대한 표준 오차를 줄이고 p-값 추정치를 개선 (감소)시키는데 유용하다.

도 4는 비정상적인 핵형을 검출하기 위한 예시적인 방법 400을 나타내는 순서도다. 402 단계에서, 복수의 시료에서 각 염색체에 대한 판독 커버리지 데이터가 결정될 수 있다. 일 측면에서, 각각의 염색체는 복수의 게놈 영역을 포함할 수 있다. 복수의 시료에서 각각의 염색체에 대한 판독 커버리지 데이터를 결정하는 단계는 범위 이내의 GC 함량 및 임계값 초과의 맵핑 가능성 스코어를 갖는 엑솜 영역에 대한 판독 심도의 합을 결정하는 단계를 포함할 수 있다.

방법 400은 판독 커버리지 데이터를 필터링하는 단계를 추가로 포함할 수 있다. 판독 커버리지 데이터를 필터링하는 단계는 복수의 게놈 영역 중 하나 이상의 게놈 영역에서 구아닌-시토신 (GC) 함량의 수준에 기초하여 판독 커버리지 데이터를 필터링하는 단계를 포함할 수 있다. 복수의 게놈 영역 중 하나 이상의 게놈 영역에서 구아닌-시토신 (GC) 함량의 수준에 기초하여 판독 커버리지 데이터를 필터링하는 단계는 복수의 게놈 영역의 각각에 대한 GC 함량의 수준을 결정하는 단계 및 범위 밖의 GC 함량의 수준을 갖는 복수의 게놈 영역 중 하나 이상의 게놈 영역을 제외하는 단계를 포함할 수 있다.

일 측면에서, 본 방법은 극단적인 GC 함량을 갖는 하나 이상의 게놈 영역을 필터링할 수 있다. GC-증폭 편향은 편향이 임의의 특정 수준의 GC 함량에 대해 대부분 일관성이 있을 때 보정될 수 있다. 그러나, 매우 낮거나 높은 GC 함량에서는 확률적 커버리지 변동성이 극적으로 증가할 수 있어서 효과적으로 정규화하기 어려울 수 있다. 따라서, 본 방법은 GC-분획이 구성가능한 (예컨대, 또는 미리 정의된) 범위 또는 임계값 밖에 있는 하나 이상의 게놈 영역을 필터링할 수 있다. 예시로서, 구성가능한 범위는 도 5에 도시된 바와 같이 [0.3, 0.7]을 포함할 수 있다. 그러나, 다른 범위 (예컨대, 임계값)가 적절하게 이용될 수 있다는 것을 이해해야 한다. 도 5는 GC 함량과 커버리지와의 관계를 나타내는 그래프를 도시한다. 예컨대, 커버리지의 변이의 계수(예컨대, 표준 편차를 평균값으로 나눈 것)는 y-축에 표시되고 GC 함량은 x-축에 표시된다. 그래프는 50개의 시료를 나타낸다 (예컨대, 가시성을 위해 점이 찍혀 있음). 구성가능한 범위의 디폴트 상한 (예컨대, GC = 0.7) 초과에서, 커버리지 분산은 평균에 비해 매우 높을 수 있다. 구성가능한 범위의 디폴트 하한 (예컨대, GC 함량 = 0.3) 미만에서, 추가의 문제가 발생한다. 예컨대, 커버리지 분산 그 자체가 시료 간에 매우 가변적일 수 있다. 이러한 분산은 특정 윈도우에서 특정 시료에 대한 기대 커버리지 분산을 정확하게 추정하는 것을 어렵게 하는데, 이는 각각의 참조 패널 시료의 커버리지 값이 상이한 분포로부터의 관측치이기 때문이다.

방법 400에서 판독 커버리지 데이터를 필터링하는 단계는 복수의 게놈 영역 중 하나 이상의 게놈 영역의 맵핑 가능성 스코어에 기초하여 복수의 게놈 영역 중 하나 이상의 게놈 영역을 필터링하는 단계를 포함할 수 있다. 복수의 게놈 영역 중 하나 이상의 게놈 영역의 맵핑 가능성 스코어에 기초하여 복수의 게놈 영역 중 하나 이상의 게놈 영역을 필터링하는 단계는 복수의 게놈 영역의 각각의 게놈 영역에 대한 맵핑 가능성 스코어를 결정하는 단계, 및 복수의 게놈 영역 중 하나 이상의 게놈 영역의 맵핑 가능성 스코어가 미리 결정된 임계값 미만인 경우, 복수의 게놈 중 하나 이상의 게놈 영역을 제외시키는 단계를 포함할 수 있다.

예컨대, 본 방법 및 시스템은 윈도우 (디폴트 k=75)의 각 염기에서 시작하는 k-량체에 대한 평균 맵핑 가능성 스코어가 0.75 미만인 경우 복수의 게놈 영역 중에서 하나 이상의 게놈 영역을 필터링할 수 있다. 복수의 게놈 영역 중 각각의 게놈 영역에 대해 맵핑 가능성 스코어를 결정하는 단계는 첫 번째 염기가 복수의 게놈 영역 중 게놈 영역과 중첩하는 k-량체의 역 참조-게놈 빈도의 평균을 결정하는 단계를 포함할 수 있다.

일 측면에서, 방법 400은 판독 커버리지 데이터를 정규화하는 단계를 추가로 포함할 수 있다. 판독 커버리지 데이터를 정규화하는 단계는 다른 상염색체에 대해 각각의 염색체에 대한 판독 커버리지의 엑솜-와이드 비율을 결정하는 단계를 포함할 수 있다. 엑솜-와이드 비율 (γ)은 다음에 의해 각각의 염색체 (i)에 대해 결정될 수 있다:

여기서 Α는 상염색체 세트이고 r은 판독 커버리지이다.

404 단계에서, 복수의 시료에서 각각의 염색체에 대한 기대 판독 커버리지 데이터가 결정될 수 있다. 복수의 시료에서 각각의 염색체에 대한 기대 판독 커버리지 데이터를 결정하는 단계는 선형 회귀 모델을 적용하여 각각의 염색체에 대한 기대 엑솜-와이드 비율을 결정하는 단계를 포함할 수 있으며, 여기서, 복수의 메트릭이 공변량으로 사용된다. 복수의 메트릭은 시퀀싱 품질 제어 메트릭 (QC 메트릭)을 포함할 수 있다. 시퀀싱 조건의 가변성으로 인해 발생하는 체계적인 커버리지 편향은 통상적으로 "배치 효과"라고 지칭된다. 일 측면에서, 본 방법 및 시스템은 배치 효과를 보정하도록 구성될 수 있다. 예컨대, 판독 커버리지 프로파일 -고차원 공간-에 기초하여 판독 커버리지 데이터를 비교하는 대신, 본 방법 및 시스템은 시퀀싱 품질 제어 (QC) 메트릭에 기초하여 저차원 메트릭 공간을 고려하도록 구성될 수 있다. 예컨대, 시퀀싱 QC 메트릭은 7개의 시퀀싱 QC 메트릭을 포함할 수 있다. 시퀀싱 QC 메트릭은 시퀀싱 도구, 예컨대 Picard로부터의 시퀀싱 QC 메트릭을 포함할 수 있다. 저차원 공간에서의 작업은 개선된 확장성을 허용한다. 예컨대, 시료는 (예컨대, 임의의 적절한 인덱싱 및/또는 탐색 알고리즘을 사용하여) 미리 인덱싱될 수 있다.

일 측면에서, 기대 엑솜-와이드 비율(

)은 다음에 의해 각각의 염색체(i)에 대해 결정될 수 있다:

QC 메트릭

여기서, 염색체 j,k 는 염색체 i 의 GC 함량 분포에 대해 최소 D 통계치를 갖는 2개의 상염색체로 정의되고

은

과

사이의 선형 관계의 무작위 성분이다.

단계 406에서, 복수의 시료 중의 적어도 하나의 염색체에 대한 판독 커버리지 데이터와 기대 판독 커버리지 데이터 사이의 편차가 결정될 수 있다. 복수의 시료 중의 적어도 하나의 염색체에 대한 판독 커버리지 데이터와 기대 판독 커버리지 데이터 사이의 편차를 결정하는 단계는 복수의 시료 중의 각각의 염색체에 대해, 판독 커버리지 데이터와 기대 판독 커버리지 데이터 사이의 차이를 결정하여 복수의 잔차를 생성하는 단계 및 공변량 x를 갖는 복수의 시료 중의 개별적인 시료에 대해, 평균 추정치

의 표준 오차에 대한 복수의 잔차를 Z-스코어 정규화하는 단계를 포함할 수 있다:

이때,

는 잔차 표준 오차이다, 그리고:

.

도 6을 참조하면, 이는 선형 회귀 모델을 사용하여 수득된 결과를 나타내며, 여기서, 공변량은 QC 메트릭 및 염색체를 포함하고 있으며, 선형 회귀를 피팅한 후 관찰된 값(

)과 기대값 (

)이 6에 도시되어 있다. 또 다른 측면에서, 상이한 표준 오차 추정치, 예컨대 원시 잔차 표준 오차 (전체 모델에 대한 하나의 값) 또는 이분산성-일관성 표준 오차의 사용이 사용될 수 있다.

방법 400 은 염색체 i에 대해 비정상적인 핵형을 나타내는 상당히 큰 잔차를 식별하기 위해 각각의 염색체에 대한 Z-스코어에 기초하여 p-값을 결정하는 단계를 추가로 포함할 수 있다. 상당히 큰 잔차는 0.05 미만의 p-값을 갖는 잔차를 포함할 수 있다. 도 6을 참조한다.

408 단계에서, 적어도 하나의 염색체는 비정상적인 핵형으로서 식별될 수 있다. 식별된 비정상적인 핵형이 출력될 수 있다. 예컨대, 식별된 비정상적인 핵형은 사용자에게 출력될 수 있다 (예컨대, 사용자 인터페이스를 통해). 식별된 비정상적인 핵형은 네트워크를 통해 원격 위치로 전송될 수 있다. 식별된 비정상적인 핵형은 또 다른 실행가능한 프로그램의 입력으로 제공될 수 있다. 식별된 비정상적인 핵형은 저장 위치, 예컨대 데이터베이스, 또는 다른 파일 형식으로 저장될 수 있다. 예시적인 출력이 도 7 내지 10에 도시되어 있다.

도 7a 내지 7f는 염색체 9, 13, 및 20에 대한 부분적인 염색체 대립유전자 균형 이벤트를 나타내는 대립유전자 균형 플롯이다. 서브플롯 번호는 염색체 번호이다. 음영처리된 막대 701는 0.5의 이형접합 SNP 대립유전자 균형에 대해 기대되는 가변성의 정상 범위를 나타낸다. 선 702 은 전체 염색체 중앙 값 대립유전자 균형을 나타낸다. 파선 703 은 약 20개의 SNP 롤링 윈도우에서의 국소 중앙 값 대립유전자 균형을 나타낸다. 선 704 은 runs-of-homozygosity를 나타낸다. 도 8은 동일한 시료에 대한 13번 및 20번 염색체에 대한 판독의 유의한 과소표현을 나타내는 판독 커버리지 플롯이다.

도 9a 내지 9f는 21번 삼염색체 시료 (다운 증후군)의 대립유전자 균형 플롯이다. 대립유전자 균형 플롯은 시료에서 21번 염색체의 이상과 모든 염색체 X를 포함하는 run-of-homozygosity를 나타내며, 이는 단지 하나의 X 염색체를 갖는 핵형적으로 정상적인 남성 시료를 의미한다. 음영처리된 막대 (901)는 이형접합 SNP 대립유전자 균형이 0.5일 때 예상되는 가변성의 정상 범위를 나타낸다. 실선 (902)은 전체 염색체 중앙 값 대립유전자 균형을 나타낸다. 파선 (903)은 약 20 SNP 롤링 윈도우에서의 국소 중앙 값 대립유전자 균형을 나타낸다. 선 (904)은 runs-of-homozygosity를 나타낸다. 도 10은 동일한 시료에 대한 판독 커버리지 플롯을 나타낸다.

본원에 개시된 방법을 사용하여 수득된 정보는 예를 들어 자폐증 또는 자폐-스펙트럼 상태와 같은 기존의 진단에 대한 추가적인 임상적 통찰력을 제공하기 위해 임상의에 의해 환자에게 보고될 수 있다.

본원에 개시된 방법을 사용하여 수득된 정보는 또한 예를 들어 성 염색체 이상이 있는 환자에서 알려진 또는 알려지지 않은 생식 능력 문제에 대한 명확성을 환자에게 제공하기 위해 임상의에 의해 사용될 수 있다.

본원에 개시된 방법은 또한 암 검출 및 발달을 모니터링하기 위해 사용될 수 있다.

본원에 개시된 방법은 또한 DNA 시료가 2개의 개인으로부터의 DNA를 포함하는지 여부를 결정하기 위해 사용될 수 있으며, 이는 예컨대, 한 개인으로부터의 DNA 시료가 또 다른 개인으로부터의 DNA로 오염된 경우에 발생할 수 있다. 쌍둥이 사망/인간 키메라 이벤트가 발생하는 경우, 즉, 모든 태아가 살아남지 않고 죽은 쌍둥이의 DNA가 살아있는 태아의 DNA에 통합되는 다태 임신인 경우, DNA가 또한 두 개인으로부터 올 수 있다. 이러한 상황에서, 결과는 쌍둥이의 DNA가 동일하지 않은 게놈의 모든 영역에 대해 왜곡된 다형 대립유전자 균형이 될 것이며, 이는 이란성 쌍둥이에 대한 게놈의 약 75%이다. 한 개인으로부터 혈액 또는 조직이 또 다른 개체로 이식될 때 DNA는 또한 두 개인으로부터 나올 수 있다. DNA는 또한 비-침습성 태아 검출 시료가 수득될 때 모체-태아 DNA 가 혼합될 때 두 개인으로부터 나올 수 있다.

도 4로 다시 돌아가면, 방법 400 은 하나 이상의 특이치를 검출하는 단계 및 하나 이상의 특이치를 비정상적인 핵형으로서 식별하기 위한 고려로부터 제거하는 단계를 추가로 포함할 수 있다. 하나 이상의 특이치를 검출하는 단계는 각각의 염색체에 대한 선형 회귀 모델에서 임계값 초과의 레버리지 (h _i , 이때 1/n < h _i < 1)를 갖는 하나 이상의 복수의 시료 중 하나 이상을 표식하는 단계를 포함할 수 있으며, 여기서, 레버리지는 n 과 p의 함수로서 결정된다:

이때, p 는 모델에서 공변량의 수이고, x _i 은 시료 i에 대한 공변량의 벡터를 나타내고,

은 시료 집단에 대한 공변량 평균의 벡터이다. 임계값은 약 3 내지 약 5일 수 있다.

판독 커버리지 데이터는 개별적인 시료에 대한 단일 뉴클레오티드 다형성 (SNP), 삽입 및 결실 (indels)을 검출하기 위한 목적으로, 본원에서 KaryoScan 방법 이전에 생성된 게놈-정렬된 서열 판독으로부터 계산될 수 있다. 두 개의 관찰된 대립유전자 (또는 이러한 특정 시료의 서열 판독에서 관찰되지 않은 참조 게놈에 의해 정의된 제2 대립유전자와 상이한 하나의 관찰된 동형접합성 대립유전자)만을 갖는 SNP를 이중 대립유전자 SNP라고 지칭한다. 이중 대립유전자 SNP에 초점을 맞춤으로써, 게놈에서 특정 부위의 대립유전자 균형을 계산할 수 있다.

추가의 측면에서, 대립유전자 균형 분석은 하나 이상의 핵형을 식별하는데 사용될 수 있다. 대립유전자 균형은 얼마나 많은 서열 판독이 각각의 대립 유전자를 지지하는지를 측정하는 것이다. 예컨대, 이형접합 SNP가 100개의 서열 판독에 의해 커버되고, 시료가 이러한 게놈 영역에서 이배체인 경우, 하나의 대립유전자의 50개의 판독 및 다른 대립유전자의 50개의 판독이 예상되고, 0.5 / 0.5의 대립유전자 균형이 산출될 수 있다. 두 대립유전자의 대립유전자 균형의 합이 1이고 약 0.5에 대해 대칭이기 때문에, 초점은 미미한 대립유전자 균형에 있다 (예컨대, 적은 양의 판독을 갖는 대립유전자, 또는 두 대립유전자가 커버리지에서 정확하게 동일한 경우, 무작위로 선택된 대립유전자). 실제로, 관찰된 대립유전자 균형은 정확히 50%가 되기는 어렵지만, 진정한 비율 p가 주어졌을 때 크기 N (N=정렬된 서열 판독의 수)의 시료에 대해 각각의 대립유전자의 판독이 몇 번 발생했는지를 반영하는 확률 분포를 따를 것이다. 이상적으로, 이배체 시료에서 이형접합 SNP는 p=0.5이고, 대립유전자 균형은 0.5의 기대값을 갖는 이항 분포로 모델링될 수 있다.

비-이배체 영역 (예컨대, 3염색체성 21번)을 가진 시료에서, 비-이배체 영역의 이중 대립유전자 이형접합 SNP는 0.5의 기대 대립유전자 균형을 갖지 않을 것이다. 3염색체성 21번 유전자와 같이 하나의 염색체가 중복되는경우, 21번 염색체의 복사본의 2/3은 하나의 대립유전자를 가질 것이고, 21번 염색체 복사본의 1/3은 나머지를 가져서 약 0.333의 기대 대립유전자 균형을 산출할 것이다. 따라서, 중심 경향의 척도로 전체 염색체에 대한 대립유전자 균형 분포를 모델링함으로써, 상응하는 대립유전자 균형이 약 0.333으로 수렴한다는 것을 보증함으로써 판독 심도 모델로부터 3염색체성의 21번 호출을 검증할 수 있다. 염색체에 걸친 중앙 값 대립유전자 균형 추정치와 같은 메트릭을 사용할 수 있다. 유사하게, 1염색체성 염색체에 대해, 단 하나의 대립유전자가 존재할 수 있으며, 이형접합 SNP가 식별되지 않을 수 있다. 따라서, 대립유전자 균형은 0이거나 완전히 관찰되지 않으며, 동형접합성 SNP (반접합성)가 식별될 수 있다. 이러한 영역은 runs-of-homozygosity를 통해 식별될 수 있다.

이러한 예 둘 모두는 전체 염색체 중복 또는 결실을 가정한다. 그러나, 부분적인 염색체 중복 및 결실이 또한 대립유전자 균형 분포에서 관찰될 수 있다. 부분적인 염색체 이벤트를 구별하기 위해, 중심 경향에 대한 국소적 추정치를 사용하고 염색체의 나머지로부터 이러한 국소적 추정치에서 편차를 식별할 수 있다. 실제로, 대립유전자 균형의 분산은 SNP를 커버하는 판독 수에 비례하고, 국소적 추정치는 개별적인 부위에 의한 총 분산을 감소시키기 위해 충분히 많은 부위 수에 걸쳐 평활화되어야 한다. 이러한 평활화를 달성하기 위해, 20개의 이형접합 이중대립유전자 SNP의 윈도우에 걸쳐 롤링 중앙값을 계산할 수 있다. 이러한 윈도우 크기는, 증가된 시료 크기로 인하여 각각의 특정 부위에서 시퀀싱이 더 깊어질수록 분산이 더 낮아지기 때문에, 시퀀싱 심도에 따라 증가하거나 감소할 수 있다. 유사하게, 염색체의 일부에만 걸쳐있는 runs-of-homozygosity가 식별될 수 있다.

부분적인 염색체 이벤트 외에, 모자이크 이벤트 (전체 또는 부분적인 염색체)가 또한 대립유전자 균형 분포 편차에 반영될 것이다. 모자이크 이벤트는 시퀀싱된 시료에 대해 DNA를 제공하는 세포 집단의 하위 세트에서 발생하는 이벤트이다. 모자이크 현상은 체세포 돌연변이 (예컨대 암에서)의 결과이거나 초기 생식선 세포 분열의 오류일 수 있다. 예컨대, 전체 염색체 결실이 서열분석된 세포의 50%에서만 발생하는 경우, 결실된 염색체로부터의 이형접합 SNP는 판독 커버리지가 25% 결실될 뿐만 아니라 예상되는 25%의 대립유전자 균형을 가질 것이다. 따라서, 대립유전자 균형은 또한 모자이크 이벤트를 구별하는데 사용될 수 있다.

모든 비정상적인 핵형이 상이한 수의 염색체를 생성하는 것은 아니다. 예컨대, 단친성 2염색체성 (UPD)은 염색체가 동일한 부모로부터 온 2개의 복사본을 갖고 다른 부모로부터 온 복사본을 갖지 않는 경우 발생한다. 이러한 이벤트는 판독 커버리지 편차에서는 검출되지 않지만, 이형접합 대립유전자 균형 (이벤트가 모자이크인 경우) 또는 runs-of-homozygosity (이벤트가 모자이크가 아닌 경우)으로부터 식별될 수 있다.

염색체 커버리지 이상은 또한 대립유전자 균형의 이상을 야기하지 않고 발생할 수 있다. 예컨대, 염색체가 4개의 복사본으로 중복되는 경우 (4염색체성), 생성된 핵형은 각각의 부모 기원의 2개의 염색체를 가질 수 있고 약 50%의 정상적인 대립유전자 균형을 생성할 수 있다. 이는 모자이크 및 비-모자이크 이벤트에서 동일한 효과를 갖는다.

도 11은 판독 커버리지 및 대립유전자 균형 분석을 통합하는 비정상적인 핵형을 검출하기 위한 예시적인 방법 1100을 나타내는 순서도다. 방법 1100 은 본원에서 편의상 기술되고 방법 순서도의 기술에서 언급되는 하나 이상의 메트릭을 결정할 수 있다. 방법 1100 은 최소값 (대안적인 대립유전자 판독 #, 참조 대립유전자 판독 #)/총 판독 #을 계산함으로써 결정되는 변이-특이적 메트릭일 수 있는 변이 대립유전자 균형을 결정할 수있다. 일 측면에서, 방법 1100 은 하나 이상의 VCF 파일로부터 "AD" (대립유전자 심도) 및 "DP" (판독 심도) 태그를 사용하여 변이 대립유전자 균형을 결정할 수 있다.

방법 1100 은 염색체 상의 첫 번째와 마지막의 필터링되지 않은 엑손 사이의 염기쌍의 # - 중첩된 동원체 염기의 #를 계산하여 결정된 염색체-특이적 메트릭일 수 있는 호출 가능한 염색체 길이를 결정할 수 있다. 동원체 염기에 대한 조정은 판독 커버리지가 존재하지 않는 동원체에 걸쳐 보이는 큰 이벤트를 설명한다. 실제로, 게놈 동원체 경계는 가장 가까운 엑손 경계로 조정될 수 있다. 유사하게 첫 번째 및 마지막으로 필터링 되지 않은 엑손으로 제한하는 것은 엑손 커버리지가 없는 전체 팔을 갖는 염색체 (예컨대, 다수의 말단동원체 염색체) 뿐만 아니라, 엑손 커버리지가 없는 긴 텔로미어 영역을 설명한다.

방법 1100 은 추정상의 이형접합 SNP에 대한 필터링을 가능케 하는 염색체-특이적 메트릭인 염색체-와이드 이형접합 대립유전자 균형 (ChromHetAB로 지칭됨)을 결정할 수 있고, 이에 따라 변이 대립유전자 균형은 > 0.02이다 (임계값은 시퀀싱 심도에 따라 0에서부터 더 가까워지거나 더 멀리 조정될 수 있다). ChromHetAB는 염색체 내의 모든 필터링되지 않은 변이 중 염색체-와이드 이형접합 SNP 대립유전자 균형을 나타내는 요약 통계 (예컨대, 중앙값)일 수 있다. 예컨대, ChromHetAB는 염색체 내의 모든 필터링되지 않은 변이에 대한 중앙 값 (변이 대립유전자 균형)을 계산함으로써 결정될 수 있다. 특정 SNP, LocalHetAB 이벤트, 또는 ROH 이벤트에 대해 ChromHetAB를 참조하면 SNP 또는 이벤트가 발생한 염색체에 대한 ChromHetAB 값을 참조할 수 있다. ChromHetAB는 염색체 내의 모든 필터링되지 않은 변이 중 염색체-와이드 이형접합 SNP 대립유전자 균형을 나타내는 요약 통계 (예컨대, 중앙값)일 수 있다.

방법 1100 은 가능한 이형접합 SNP에 대한 필터링을 가능케 하는 변이형-특이적 메트릭인 국소적 중앙값 이형접합 대립유전자 균형 (LocalHetAB로 지칭됨)을 결정할 수 있고, 이에 따라 변이 대립유전자 균형은 > 0.02이다 (임계값은 시퀀싱 심도에 따라 0에서부터 더 가까워지거나 더 멀리 조정될 수 있다). LocalHetAB은 20개의 SNP 윈도우 및 일정한 말단을 사용하여 전체 염색체에 대한 변이 대립유전자 균형의 실행 중앙 값을 계산하여 결정될 수 있다. 일 측면에서, LocalHetAB를 결정하는 단계는 염색체 상의 모든 필터링되지 않은 변이에 걸쳐 시료의 이형접합 SNP 대립유전자 균형의 평활화된, 하위-염색체 스케일 (예컨대, 국소) 요약 통계 (예컨대, 실행 중앙값)를 결정하는 단계를 포함할 수 있다.

방법 1100 은 모두 LocalHetAB < ChromHetAB (LocalHetAB 이벤트로 지칭됨)를 갖는 2개 이상의 SNP의 인접 영역을 결정할 수 있다. 방법 1100 은 LocalHetAB 이벤트 내에서 첫 번째 및 마지막 SNP에 의한 좌표 (시작 및 종료 염색체 위치)를 정의할 수 있다. 염색체 당 LocalHetAB 이벤트는 0 내지 복수일 수 있다. 방법 1100 은 LocalHetAB 이벤트에 대한 정규화된 "곡선 아래 영역"을 계산함으로써 LocalHetAB 이벤트 영역을 결정할 수 있다. 예컨대, LocalHetAB 이벤트 내의 이웃 SNP의 쌍에 대해, 쌍 영역(PairwiseArea) = [ChromHetAB - 평균(LocalHetAB(SNP1), LocalHetAB(SNP2))] * (SNP2 위치 - SNP1 위치 - 중첩된 동원체 염기 쌍 #)를 결정한다. 가장 작은 형태의 LocalHetAB 이벤트는 정확히 2개의 이웃 SNP를 가질 수 있다. 2개 이상의 SNP를 갖는 LocalHetAB 이벤트는 N-1 이웃 SNP 쌍의 쇄로서 보일 수 있으며, 이때, N=이벤트의 SNP의 #이다. 2개 이상의 SNP를 갖는 LocalHetAB 이벤트는 합 (LocalHetAB 이벤트에서 모든 N-1 이웃 SNP 쌍에 대한 쌍 영역) / (호출 가능한 염색체 길이 * ChromHetAB)을 계산함으로써 결정될 수 있다.

방법 1100 은 최소값 (LocalHetAB, LocalHetAB 이벤트의 모든 SNP)을 결정하여 LocalHetAB 이벤트 (LocalHetAB 이벤트 AB로 지칭됨)에 대한 요약 대립유전자 균형 (AB) 통계를 결정할 수 있다. LocalHetAB가 대립유전자 균형의 평활화된 (실행 중앙값) 추정치이기 때문에, 최소값은 전체 이벤트에 대한 좋은 추정치이다. 그러나, 다른 적용에서는 (예컨대, 보다 큰 SNP 윈도우 크기, 보다 심도있는 시퀀싱, 전체-게놈 시퀀싱 등), 대안적인 메트릭 (예컨대, 평균값, 중앙값, 1번째 분위 등)이 더 적합할 수 있다.

방법 1100 은 이형접합성이 거의 관찰되지 않거나 없는 염색체 영역에 대한 변이형-특이적 메트릭인 Runs-of-Homozygosity (ROH로 지칭됨)를 결정할 수 있다. ROH는 모든 변이에서 이진수 (네/아니오) 표식이지만, 지지 메트릭을 가질 수 있다 (예컨대, 신뢰 점수). 일 측면에서, ROH를 결정하는 단계는 본원에 그 전체가 참조로써 포함되어 있는 Narasimhan, V., 외 (2016) Bioinformatics, 32(11), 1749-1751)에 의해 기술된 BCF도구/RoH 방법의 사용을 포함할 수 있다. ROH 결정에 대한 예시적인 선택은, 비제한적으로, Autozygous-to-Hardy Weinberg 전이 확률 (-a 옵션) = 6.6e-09, Hardy Weinberg-to-Autozygous 전이 확률 (-H 옵션) = 5.0e-10, Ignore indels (-I 옵션), 엑손 내의 SNP로 제한 (즉, 측부 영역 SNP가 없음), 및 내부 RGC (EVE) 변이 빈도 이용을 포함한다. 일 측면에서, 하나 이상의 대안적인 방법이 사용될 수 있다. 예컨대, 그 전체가 참조로써 본원에 포함되어 있는 Purcell S, Neale B, Todd-Brown K, 외 PLINK: A Tool Set for whole-Genome Association and Population-Based Linkage Analyses. American Journal of Human Genetics. 2007;81(3):559-575에 의해 기술된 Plink.

방법 1100 은 ROH (ROH 이벤트로 지칭됨)에 의해 예측된 하나 이상의 SNP의 인접 영역을 결정할 수 있다. 이벤트 좌표는 ROH 이벤트 내의 첫 번째 및 마지막 SNP의 염색체 위치로서 정의될 수 있다.

도 11로 다시 돌아가면, 모든 시료에 대한 데이터는 블록 1102에서 품질 제어 (QC) 필터링에 적용될 수 있다. 데이터는, 예컨대 VCF 파일 (예컨대, 시료 당 하나의 VCF 파일), 커버리지 파일 심도, 및/또는 외부 품질 제어 메트릭 (예컨대, BAM 판독-맵핑 파일로부터 계산된 Picard 메트릭)을 포함할 수 있다. VCF 파일은 유전자 서열 변이에 대한 마커 및 유전자형 데이터를 포함할 수 있다. 커버리지 파일 심도는 주어진 뉴클레오티드 또는 뉴클레오티드 서열을 포함하는 다수의 판독의 표시를 포함할 수 있다. QC 필터링은 커버리지 파일 깊이, VCF 파일, 및/또는 외부 품질 제어 메트릭에 대한 하나 이상의 시료 필터링 기준의 적용을 포함할 수 있다. 하나 이상의 시료 필터링 기준은, 예컨대 표준 오염 필터 (예컨대, 동형접합성 SNP 호출 비율에 대한 높은 이형접합), 낮은 서열 커버리지 (20X 커버리지 이상에서 <75%의 염기)를 기준으로 한 필터링, 및/또는 낮은 DNA 품질을 기준으로 한 필터링, 및 이들의 조합 등을 포함할 수 있다. 일 측면에서, QC 필터링은 VCF 파일에 대한 하나 이상의 변이 필터링 기준의 적용을 포함할 수 있다. 하나 이상의 변이 필터링 기준은, 예컨대 이중 대립유전자 SNP만의 분석 (다중-대립유전자 부위 및 indels 제거), 최소 변이 품질에 기초한 필터링 (QD > 5, GT > 30, 통과 VQSR 필터 [변이 품질 스코어 재조정]), 최소 판독-심도를 기준으로 하는 필터링 (DP >= 20), 및/또는 유전자좌 품질을 기초로 하는 필터링 (1. >90% 맵핑 가능성을 갖는 엑손만, 2. >2의 복사본이 공통인 경우 엑손 제외 (예컨대 다중-카피 CNV 유전자좌), 3. 맵핑 가능성 이슈가 있는 다른 영역 제외 (예컨대 HLA 유전자)), 및 이들의 조합을 포함할 수 있다.

블록 1104에서, 성별 지정 (gender assignment)은 블록 1102에서 QC 필터링을 통과한 시료와 관련된 데이터 상에서 수행될 수 있다. 성별 지정은 시료가 남성 (임계값 초과) 또는 여성 (임계값 미만)인지를 결정하기 위한 최소 염색체 Y 판독 커버리지 비율 (염색체 X 판독 커버리지 비율에 대한 것임)을 결정하는 단계를 포함할 수 있다. 도 13a는 모든 시료에 대한 염색체 X 대 염색체 Y 커버리지 비율의 플롯 및 실선 1306에 의해 표시된 남성 (1302) 및 여성 (1304) 시료를 결정하기 위한 임계값이다. 추가로, 염색체 Y 중복을 갖는 남성 시료는 염색체 Y 커버리지 비율 임계값 (파선 1308)을 사용하여 식별될 수 있다. 시료 성별이 이미 알려져 있거나 시료에 대해 보고된 경우, 기존 지정을 사용하여 적절한 임계값을 결정하는데 도움이 될 수 있다. 블록 1104에서 성별을 지정한 후, 시료로부터의 각각의 염색체는 방법 1100의 하나 이상의 나머지 블록을 통해 처리될 수 있다.

시료가 남성으로 간주되면, 방법 1100 은 블록 1106으로 진행할 것이다. 블록 1106에서, 방법 1100 은 Y 염색체의 커버리지가 예컨대 0.0015의 임계값을 초과하는지 여부를 결정할 수 있다. Y 염색체의 커버리지가 임계값을 초과하는 경우, 방법 1100 은 블록 1108에서 Y 염색체의 중복이 있다고 결정되고 블록 1138 로 진행하여 Y 염색체가 다른 염색체와 독립적으로 처리될 수 있다. Y 염색체의 커버리지가 임계값 미만인 경우, 방법 1100 은 블록 1108에서 시료가 남성 시료에 대한 Y 염색체 판독의 정상 투여량을 갖는다고 결정할 수 있고 따라서 Y 염색체 상에 검출가능한 이상이 발생하지 않는다.

블록 1104로 돌아가면, 성별 지정은 시료가 1 또는 2개의 X 염색체 (남성 또는 여성)를 가질 것으로 예상되는지 여부를 결정하는 단계를 포함할 수 있으며, 이러한 경우, 방법 1100 은 시료에 대해 염색체 X를 처리하기 위해 블록 1110 로 진행할 것이다. 블록 1110에서, 방법 1100 은 데이터가 남성으로부터 유래되었는지를 결정할 수 있다. 블록 1110에서, 데이터가 남성으로부터 유래된 것으로 결정되면, 방법 1100 은 블록 1112 및 1114로 진행할 것이다. 블록 1110에서, 데이터가 남성으로부터 유래된 것이 아닌 것으로 결정되면, 방법 1100 은 블록 1112, 1114, 1116, 및 1118로 진행할 것이다. 블록 1104로 돌아가면, 성별 지정은 데이터가 상염색체를 포함하는 것을 결정하는 단계를 포함할 수 있으며, 이러한 경우, 방법 1100 은 블록 1112, 1114, 1116, 및 1118로 진행할 것이다.

블록 1112에서, 방법 1100 은 판독 커버리지 이상을 검출할 수 있다. 블록 1112는 도 1 및/또는 도 4의 하나 이상의 부분을 참조하여 본원에 기술된 바와 같이 수행될 수 있다. 블록 1114에서, 방법 1100 은 ChromHetAB 이상을 검출할 수 있다. 블록 1116에서, 방법 1100 은 ROH 이상을 검출할 수 있다. 블록 1118에서, 방법 1100 은 LocalHetAB 이상을 검출할 수 있다.

블록 1114, 1116, 및 1118 은 3개의 대립유전자-균형 메트릭 (각각, ChromHetAB, ROH, 및 LocalHetAB)의 결정과 관련이 있다. 이러한 3개의 대립유전자-균형 메트릭은 다른 유형의 이상을 검출하는데 사용될 수 있지만 중첩된 증거를 야기할 수 있다. 예컨대, ROH는, 이형접합성이 이러한 영역에서는 관찰되어서는 안되기 때문에, 구성적인 염색체 결실 (전체 또는 부분 염색체)을 식별하는데 사용될 수 있다. 유사하게, ROH는 큰 단친성 2염색체성 (UPD) 이벤트 (복제 중립, 전체 또는 부분 염색체)를 식별할 수 있지만, 중복을 식별하는데는 유용하지 않다. 그러나, LocalHetAB 및 ChromHetAB 메트릭은 0에 가까운 변이 대립유전자 균형 값을 갖는, 추정의 이형접합성과 유사한 소량의 노이즈 (시퀀싱 오류와 같은 기술적인 아티팩트 (artifact)에 기인함)를 식별하여 ROH 이벤트 내에서 비정상적인 신호를 생산할 수도 있으며, 이러한 신호는 ROH 이상 대신에 무시될 수 있다 (도 12 참조, 중첩된 LocalHetAB 이벤트를 갖는 ROH 이벤트를 나타냄). 도 12 는 4번 염색체 상의 시료의 예시적인 대립유전자 균형 플롯이며, 여기서, 이상 영역에서 동형접합성 SNP 중 소량의 0이 아닌 대립유전자 균형으로 인해 중첩된 LocalHetAB 이벤트 (1204)를 갖는 큰 run-of-homozygosity가 검출된다 (1202). 전체 염색체 중복 또는 다른 모자이크 전체 염색체 이벤트인 경우, ChromHetAB가 가장 관련있는 메트릭일 수 있다; 이는 3염색체성인 경우 대략 1/3과 동일해야 하거나, 모자이크 이벤트의 카피수와 세포 분획을 나타내는 분획과 같아야 한다. 부분 염색체 이벤트인 경우, LocalHetAB가 가장 관련있는 메트릭일 수 있는데, 그 이유는 이것이 이벤트 시작과 끝의 좌표를 검출하기 때문이다. 그러나, 큰, 부분적인 염색체 이벤트는 또한 염색체-와이드 ChromHetAB 메트릭에 영향을 미칠 수 있으며, LocalHetAB 이벤트에 의해 더 잘 포착되는 이상 신호를 생성할수 있다.

따라서, 각각의 메트릭 (및 각각의 판독 커버리지 이상 신호에 대한 해석)에 의해 제공되는 증거를 균형잡는 것은 염색체 이상의 검출과 특성분석을 자동화하는 요소가 될 수 있다. 감도, 특이성, 스케일, 및 상황정보 (context)에 차이가 있는 신호를 통합하여 처리하기 위해, 각각의 메트릭에 대해 추청된 이상 신호의 3개의 계층이 정의될 수 있으며, 이때, 계층 1 신호가 가장 유의하고 계층 3이 가장 최소이다. 계층 등급은 이러한 이종 메트릭을 표준화하고 통합하여 어떤 신호가 가장 관련있는지에 대한 간단한 결정을 가능케 한다. 다른 수의 계층이 사용되고 정의될 수 있다.

블록 1112로 돌아가면, 판독 커버리지 이상의 검출은 다음의 계층 정의를 사용할 수 있다. 계층 1은 p-값 < 0.05와 같은 임계값 / (염색체의 #/시험된 시료 쌍)인 판독 커버리지를 포함할 수 있다. Bonferroni-보정이 집단별 오차율 (family-wise error rate) = 5%로 적용될 수 있다. 계층 2는 계층 1을 통과하지 못하고 염색체-특이적 FDR-보정된 p-값 (q-값) < 0.05와 같은 임계값을 포함할 수 있다. Benjamini-Hochberg FDR 보정이 염색체 당 위발견율 = 5%로 적용될 수 있다. 계층 3은 계층 1 또는 계층 2를 통과하지 못하고 p-값 < 0.05와 같은 임계값인 판독 커버리지를 포함할 수 있다. 하나 이상의 예외가 X 염색체 분석에 적용될 수 있다. 예컨대, chrX 상의 계층 3 신호는 추정의 염색체 투여량 분획의 절대값 (크기)이 >5%인 경우 계층 2로 촉진될 수 있다.

블록 1114로 돌아가면, 변이 대립유전자 균형 메트릭은 항상 적은 양의 판독을 갖는 이중 대립유전자 SNP의 대립유전자로부터의 판독 분획을 반영하기 때문에, 주어진 염색체에 대한 핵형적으로 정상인 이배체 시료에 대한 예상 ChromHetAB 값은 정확히 50%는 아닐 수 있지만, 시퀀싱 심도가 증가함에 따라 50%에 접근한다. 따라서, 선형 회귀는 PCTTARGETBASES50X 품질 제어 메트릭 (Picard를 사용하여 시료 당 계산됨)에 대해 주어진 염색체 (염색체 X의 여성만)의 모든 시료에 대한 ChromHetAB 값에 피팅될 수 있다 (도 13b, 증가하는 PCTTARGETBASES50X 값에 대해 핵형적으로 정상인 시료 중 증가하는 ChromHetAB 값, 및 상이한 유의한 계층에서 이상 신호 [채색된 점]의 식별을 나타냄]. 선형 회귀 모델이 피팅되면, Z-스코어는 모든 시료의 ChromHetAB 값의 잔차에 대해 계산될 수 있다 (관찰된 ChromHetAB - 회귀에 의해 정의된 기대 ChromHetAB). Z-스코어는 Z = (시료 잔차)/(회귀 모델의 잔차 표준 편차)로 계산될 수 있다. Z-스코어는 p-값으로 변형될 수 있다.

블록 1114에서, ChromHetAB 이상의 검출은 다음의 계층 정의를 이용할 수 있다. 계층 1은 ChromHetAB 잔차 p-값 < 0.05와 같은 임계값 / (염색체의 #/시험된 시료 쌍)을 포함할 수 있다. Bonferroni-보정이 집단별 오차율 = 5%로 적용될 수 있다. 계층 2는 계층 1을 통과하지 못하고 염색체-특이적 FDR-보정된 p-값 (q-값) < 0.05와 같은 임계값을 포함할 수 있다. Benjamini-Hochberg이 염색체 당 FDR 위발견율 = 5%로 적용될 수 있다. 계층 3은 계층 1 또는 계층 2를 통과하지 못하고 ChromHetAB 잔차 p-값 < 0.05와 같은 임계값을 포함할 수 있다. 하나 이상의 예외가 X 염색체 분석에 적용될 수 있다. 시료가 남성인 경우, ChromHetAB가 무시될 수 있고 >75의 SNP가 메트릭의 계산에 포함되고 ChromHetAB > 0.15인 한 시험되지 않는다. 이러한 필터는 남성의 chrX 중복이 예상 (즉, 단일 X 염색체인 경우 0)보다 훨씬 큰 ChromHetAB 값을 갖고 신뢰성 있게 ChromHetAB 값을 호출하는데 사용되는 충분한 수의 SNP를 갖는 경우 포함되도록 하고, 핵형적으로 정상인 남성 시료로부터 노이즈를 제거한다 (도 14, ChromHetAB 값 및 실선에 의해 표시된 최소 임계값을 갖는, 남성 시료에 대한 염색체 X 상에서 시험된 추정상의 이형접합 SNP의 수를 나타냄). 이러한 맥락에서, 남성 시료를 정의하는 단계는 핵형적으로 정상인 상태를 가정하는, 하나의 X 및 하나의 Y 염색체의 기대치를 갖도록 지정하는 것 (X 및 Y 판독 커버리지를 기준으로 함)을 지칭할 수 있다. 이러한 필터를 통과한 chrX로부터의 임의의 남성 ChromHetAB 신호는 (p-값과 무관하게) 계층 1로 지정될 수 있다. 일 측면에서, ChromHetAB 이상을 검출하는 단계는 핵형적으로 정상인 시료에 대해 기대되는 ChromHetAB 값 (또는 값의 범위)보다 상당히 작은 ChromHetAB 값을 갖는 시료를 식별하는 단계를 포함할 수 있다.

블록 1116로 돌아가면, ROH 이상이 검출될 수 있다. 작은 ROH 이벤트는 핵형적으로 정상인 시료에서 비교적 흔하고, 예컨대, 혈연 시료 중에서 특히 빈번할 수 있다. 따라서, ROH 이벤트에 대한 최소 크기 임계값은 대규모 염색체-스케일 이벤트만 포착하도록 정의될 수 있다. ROH 이벤트 검출은 진정한 동형접합성 변이가 기술적인 아티팩트로 인해 0이 아닌 변이 대립유전자 균형을 갖는 경우 어려울 수 있다. 결과적으로, 일부 대규모 ROH 이벤트는 2개 이상의 ROH 이벤트로 분할된다 (도 12). 따라서, 염색체 내의 독립적인 ROH 이벤트가 조합하여 고려된다. ROH 이상의 검출은 다음의 계층 정의를 이용할 수 있다. 길이가 < 5,000,000 bp인 (중첩된 동원체 염기는 제외함) ROH 이벤트는 필터링될 수 있다. 계층 1은 >= 20,000,000의 필터링되지 않은 ROH 이벤트로부터의 비-동원체 ROH의 총 (게놈-와이드) 수를 포함할 수 있다. 계층 2는 계층 1을 통과하지 못한 필터링되지 않은 ROH 이벤트를 포함할 수 있다. 하나 이상의 예외가 X 염색체 분석에 적용될 수 있다. chrX 상의 남성 시료에 대한 모든 ROH 신호는 무시될 수 있다. 이러한 맥락에서, 남성 시료를 정의하는 단계는 핵형적으로 정상인 상태를 가정하는, 하나의 X 및 하나의 Y 염색체의 기대치를 갖도록 지정하는 것 (X 및 Y 판독 커버리지를 기준으로 함)을 지칭한다.

블록 1118으로 돌아가면, LocalHetAB 이상이 검출될 수 있다. 정성적으로 유의한 LocalHetAB 이벤트 이상은 대규모의 LocalHetAB 이벤트 영역 메트릭을 가져야 하고 많은 수의 포함된 SNP에 의해 지지되어야 한다. 선형 함수는 LocalHetAB 이벤트 영역 및 LocalHetAB 이벤트에 포함된 SNP의 # ("# of SNP")에 관한 엑솜 데이터 세트에 대해 경험적으로 피팅되도록 정의될 수 있으며, 계층 정의는 동일한 슬로프 계수에서 상이한 인터셉트를 사용하여 정의된다 (예컨대, 특정 LocalHetAB 이벤트 영역을 갖는 이벤트에 대해 요구되는 최소 SNP의 #). 도 15 를 참조하면, > 0.02 (수직선)의 영역을 갖는 모든 LocalHetAB 이벤트 (점) 및 대각선 사이의 영역을 기준으로 하는 계층으로의 분리를 나타낸다 (붉은 점은 중첩된 ROH 이벤트가 존재함을 나타내고, 이는 LocalHetAB 이벤트가 이상을 검출한다는 지지 증거를 제공한다). LocalHetAB 이상의 검출은 다음의 계층 정의를 이용할 수 있다. LocalHetAB 이벤트 영역이 < 0.02인 이벤트는 필터링될 수 있다. 계층 1은 SNP의 # + (LocalHetAB 이벤트 영역 * 3000과 같은 제1의 양) >= 230과 같은 제2의 양인 것을 포함할 수 있다. 계층 2는 SNP의 # + (LocalHetAB 이벤트 영역 * 3000과 같은 제1의 양) >= 170과 같은 제2의 양인 것을 포함할 수 있다. 계층 3은 SNP의 # + (LocalHetAB 이벤트 영역 * 3000과 같은 제1의 양) >= 110과 같은 제2의 양인 것을 포함할 수 있다. 하나 이상의 예외가 X 염색체 분석에 적용될 수 있다. chrX 상의 남성 시료에 대한 모든 LocalHetAB 신호는 무시될 수 있다. 이러한 맥락에서, 남성 시료를 정의하는 단계는 핵형적으로 정상인 상태를 가정하는, 하나의 X 및 하나의 Y 염색체의 기대치를 갖도록 지정하는 것 (X 및 Y 판독 커버리지를 기준으로 함)을 지칭한다. 일 측면에서, LocalHetAB 이상을 검출하는 단계는, LocalHetAB 값이 염색체 영역에 걸쳐 상응하는 ChromHetAB 값 미만으로 (예컨대, 상당히 미만으로) 떨어지는 경우를 포함할 수 있으며, 이는 가능한 부분 염색체 이상을 나타낸다.

개시된 메트릭에 대한 블록 1112, 1114, 1116, 및 1118에서 수행된 분석은 염색체 이상 예측에 기여한다. 그러나, 메트릭은 계층 등급으로 주석 처리되고, 이상이 없는 메트릭을 제거하도록 필터링되고, 블록 1138에서 핵형 예측 전에 블록 1136에서 집계될 수 있다. 블록 1120에서, 방법 1100 은 블록 1112, 1114, 1116, 및 1118로부터의 각각의 메트릭에 의해 식별된 이상 이벤트를 보고할 수 있고, 각각의 이벤트를 메트릭 간의 스케일링을 표준화하고 비정상적인 핵형 (염색체 이상) 평가에 대한 집계를 단순화하는 계층 (예컨대, 계층 1, 계층 2, 계층 3, 등)으로 점수를 부여할 수 있다. 일 측면에서, 방법 1100 은 사용된 하나 이상의 계층 (예컨대, 계층 1, 계층 2, 계층 3, 등) 각각에 대한 이벤트를 보고 및/또는 점수 부여를 할 수 있다. 블록 1112 에서, 판독 커버리지 이상 메트릭은 염색체 투여량을 평가하는데 사용될 수 있고 나머지 3개는 대립유전자 균형 및 접합성을 평가하는데 사용될수 있다 (ChromMedAB, ROH, 및 LocalHetAB 이벤트).

블록 1122에서, 방법 1100 은 이벤트가 복제 획득, 복제 손실을 반영하는지, 또는 복제 중립인지를 결정할 수 있다. 이러한 평가는 주로 판독 커버리지 이상의 유무에 기초하여 이루어질 수 있지만, 대립유전자 균형-관련 메트릭의 보충 정보도 또한 고려될 수 있다. 예컨대, 모든 계층 1의 판독 커버리지 이상은 독립적으로 획득 또는 손실로 예측될 수 있지만, 계층 2 및/또는 계층 3의 판독 커버리지 이상은 동일한 염색체에서 지지되는 대립유전자 균형 이상이 또한 검출되는 경우에만 획득 또는 손실로 간주될 수 있다. 획득 또는 손실을 호출하기 위한 판독 커버리지 이상이 검출되지 않는 경우, 이벤트는 복제 중립인 것으로 가정되고, 저품질의 판독 커버리지 이상이 검출되지만 필터링되는 경우 추가로 불확실하다고 표식될 수 있다.

블록 1122에서, 이벤트가 복제 획득을 반영한다고 결정되는 경우, 방법 1100 은 블록 1124 로 진행하여 염색체 상에서 이상 LocalHetAB 및 ChromHetAB 이벤트의 비교에 기초하여, 근본적인 염색체가 전체 또는 부분 염색체인지를 결정할 수 있다. 예컨대, LocalHetAB 이벤트가 중첩된 ChromHetAB 이벤트보다 낮은 계층 등급 (예컨대 보다 유의한)을 갖는 경우 (또는 ChromHetAB 이벤트가 보고되지 않는 경우), 이벤트는 LocalHetAB 이벤트가 더 유의하다는 점을 감안할 때 부분 염색체로 예측될 수 있다. 반대로, 보다 낮은 계층 ChromHetAB 이벤트는 전체 염색체 이벤트가 더 많을 수 있는 경우를 시사한다. 두 이벤트가 동일한 계층 등급에서 발생하는 경우, 이러한 방법은 이상을 불확실한 것으로 보고하고/하거나 하나의 이벤트에 더 많은 가중치를 부여할 수 있다 (예컨대, LocalHetAB 선호 및 부분 염색체 이벤트 호출). 또한, 이러한 방법은 또한 판독 커버리지 11로부터 계산된 염색체 분획 수득의 추정치를 각각의 대립유전자 균형 이상으로부터의 유사한 추정치와 비교하고, 대립유전자 균형 이벤트에 얼마나 가깝게 이들의 추정치가 판독 커버리지로부터의 추정치와 일치하는지에 따라 가중치를 부여할 수 있다. 근본적인 염색체 이상이 전체 (ChromHetAB) 또는 부분 (LocalHetAB) 염색체인 것으로 예측되는지 여부와 관계 없이, 방법 1100 은 블록 1126 로 진행하여 이형접합 대립유전자 균형 추정치가 1/N에 얼마나 근접하는지를 결정함으로써 복제 획득이 모자이크 이벤트인지를 결정하기 위해 각각의 대립유전자 균형 메트릭을 이용할 수 있으며, 여기서, N은 예측된 염색체 복제본의 수이다 (예컨대, 단일 복제본 상염색체 수득의 경우 1/3). 모자이크 현상에 대해 이진 (네 또는 아니오) 분류를 만들기 위해 이러한 기대 비율 (예컨대 1/3 ± 0.02) 주변에 오류 임계값을 적용할 수 있다. 중첩된 LocalHetAB 또는 ChromHetAB 이벤트가 보고되지 않는 경우에 대한, 염색체 및 모자이크 분획 추정치를 지정할 수 있거나 불확실성 및/또는 디폴트 값을 설정할 수 있다.

블록 1122에서 이벤트가 복제 손실을 반영한다고 결정되는 경우, 방법 1100 은 복제 손실이 ROH를 이용함으로써 모자이크 이벤트인지를 결정하기 위해 블록 1128 로 진행할 수 있다. 복제 손실이 모자이크가 아닌 경우 (예컨대, ROH 이벤트가 검출되는 경우), 방법 1100 은 호출 가능한 염색체의 비율이 ROH 이벤트에 의해 커버되는지를 평가함으로써 ROH를 이용하여 근본적인 염색체 이상이 전체적인지 또는 부분적인지를 결정할 수 있다. 복제 손실이 모자이크인 경우 (예컨대, ROH 이벤트가 보고되지 않는 경우), 방법 1100 은 근본적인 염색체가 전체적인지 또는 부분적인지를 결정하기 위해 보고된 ChromHetAB 및 LocalHetAB 이벤트로부터의 계층 등급을 이용하고 비교할 수 있다. 이러한 평가는 복제 획득(블록 1124)의 평가와 유사하며, 이때, 보다 유의한 LocalHetAB 이벤트는 부분적인 염색체 이벤트를 나타낼 수 있고, 보다 유의한 ChromHetAB 이벤트는 전체 염색체 이벤트를 나타낼 수 있고, 염색체 분획의 대립유전자 균형 추정치는 판독 커버리지 이벤트의 염색체 분획 추정치와 비교될 수 있다.

블록 1122에서, 이벤트가 복제 중립인 것으로 결정되는 경우, 방법 1100 은 복제 중립 이벤트가 ROH 를 이용하는 모자이크인지를 결정하기 위해 블록 1128 로 진행할 수 있다. 복제 중립 이벤트가 모자이크가 아닌 경우 (예컨대, ROH 이벤트가 보고된 경우), 방법 1100 은 근본적인 염색체가 전체적인지 또는 부분적인지를 결정하기 위해 ROH를 이용할 수 있다. 복제 중립 이벤트가 모자이크인 경우, 방법 1100 은 근본적인 염색체가 전체적인지 또는 부분적인지를 결정하기 위해 ChromHetAB 및 LocalHetAB를 이용할 수 있다.

블록 1126, 1130, 및 1134 의 출력은 블록 1136 으로 흐르고 여기서 모든 이상은 다음 중 하나 이상으로 보고될 수 있다: (1) 복제 중립, 복제 획득, 또는 복제 손실의 예측; (2) 전체 또는 부분 염색체 이벤트 예측; (3) 모자이크 또는 비모자이크 예측; (4) 염색체 상에 보고된 모든 이벤트에 대한 최소 (가장 유의한) 계층 등급과 동일할 수 있는, 또는 이들이 다수의 중간-계층 이벤트를 갖는 경우 상향 또는 하향 가중치 이상으로 추가로 수정될 수 있는 (예컨대, 지지 계층 2의 LocalHetAB 이벤트를 갖는 계층 2 판독 커버리지 이벤트는 계층 1로 간주될 수 있음), 최종 계층 등급; 및 (5) 염색체에 대해 보고된 일부 또는 모든 이벤트의 요약, 이의 계층 등급, 및 이들이 주요 또는 지지 이벤트로서 선택되었는지 여부 (예컨대, 비모자이크, 계층 1의 판독 커버리지를 갖는 전체 염색체 손실, ROH, 및 ChromHetAB 이벤트의 경우, 이들이 중첩된 ROH 이벤트에 의해 트럼핑된 경우, 판독 커버리지 및 ROH는 주요 이벤트이지만, ChromHetAB는 계층 1임에도 불구하고 지지 이벤트이다). 블록 1136 은 0 또는 복수의 염색체로부터 이상을 수신하여 시료에 대해 이를 집계한 다음, 최종 핵형을 예측하기 위해 블록 1138로 진행한다.

블록 1138의 출력은 핵형 예측을 나타내며, 이때, 일부 또는 모든 염색체 이상은 시료에 대해 집계되고 기대 핵형에 대해 해석된다 (블록 1104로부터의 성별 지정인 경우). 이는 전통적인 핵형 코딩 (예컨대, "47,XXY") 및/또는 이상 및 이의 지지 정보 리스트로서 표현될 수 있다. 자동화된 핵형 예측의 불확실성 및 특정 복잡한 핵형 (예컨대, 이소염색체)가 자동으로 쉽게 해석되지 않는 고유한 패턴을 갖는다는 사실로 인해, 지지 판독 커버리지 및 대립유전자 균형 진단 플롯은 모든 시료에 대해 블록 1138에 의해 계산되어 예측된 염색체 이상 및 지지 증거의 수동적인 검사를 가능케 할 수 있다. 일 측면에서, 최종 이상 핵형 호출은 다음 중 하나 이상을 포함할 수 있다: 시료; 염색체; 시작/종결 좌표; 투여량 변화 대 복제 중립 예측 (획득, 손실, 중립, 불확실); 전체 대 부분 염색체 이벤트 예측 (전체, 부분, 불확실); 예측된 모자이크 이벤트 (네, 아니오, 불확실); 판독 커버리지로부터의 분획 추정치, (즉, 염색체 분획 * 모자이크 분획, 이때, 단일 복제의, 비-모자이크 염색체 획득 = 1, 또는 손실 = -1); 대립유전자 균형으로부터의 분획 추정치 (하나 이상이 존재할 경우 가장 관련있는 것으로 간주되는 이상 대립유전자 균형 메트릭에 근거함); 이러한 시료/염색체 쌍에 대한 모든 계층 3 이상의 이상 신호 요약; 최종의 해석된 계층 등급; 지지 판독 커버리지 및 대립유전자 균형 진단 플롯 (예컨대 도 2, 도 3, 도 5, 도 6, 도 7, 도 8, 도 9, 및/또는 도 10에 도시된 유형), 핵형의 수동 검사 및 분류 허용; 이들의 조합 등.

예시적인 측면에서, 이러한 방법 및 시스템은 도 17에 도시되어 있고 아래 기술된 바와 같은 컴퓨터 1701 상에서 실행될 수 있다. 유사하게, 개시된 방법 및 시스템은 하나 이상의 위치에서 하나 이상의 기능을 수행하기 위해 하나 이상의 컴퓨터를 이용할 수 있다. 도 17은 개시된 방법을 수행하기 위한 예시적인 운영 환경을 나타내는 블록 다이어그램이다. 이러한 예시적인 운영 환경은 운영 환경의 예시일 뿐이며 운영 환경 아키텍처의 사용 또는 기능의 범위에 대한 어떠한 제한도 의도하지 않는다. 또한, 운영 환경은 예시적인 운영 환경에 도시된 컴포넌트 중 임의의 하나 또는 조합과 관련된 임의의 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.

본 방법 및 시스템은 다수의 다른 범용 또는 특수 목적 컴퓨터 시스템 환경 또는 구성으로 작동가능할 수 있다. 본 시스템 및 방법과 함께 사용하기에 적절할 수 있는 널리 공지된 컴퓨터 시스템, 환경, 및/또는 구성의 예는, 비제한적으로, 개인 컴퓨터, 서버 컴퓨터, 랩톱 장치, 및 멀티프로세서 시스템을 포함한다. 추가의 예는 셋톱 박스, 프로그램 가능한 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등을 포함한다.

개시된 방법 및 시스템의 처리는 소프트웨어 컴포넌트에 의해 수행될 수 있다. 개시된 방법 및 시스템은 하나 이상의 컴퓨터 또는 다른 장치에 의해 실행되는 프로그램 모듈과 같은, 컴퓨터-실행가능한 명령어의 일반적인 맥락으로 기술될 수 있다. 대체로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 컴퓨터 코드, 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 개시된 방법은, 또한, 태스크가 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 수행되는 그리드 기반 및 분산형 컴퓨팅 환경에서 실시될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 둘 모두에 위치할 수 있다.

또한, 당업자는 본 명세서에 개시된 시스템 및 방법이 컴퓨터1701 형태의 범용 컴퓨팅 장치를 통해 구현될 수 있음을 인식할 것이다. 컴퓨터 1701 컴포넌트는, 비제한적으로, 하나 이상의 프로세서 1703, 시스템 메모리 1712, 및 시스템 메모리 1712에 상기 하나 이상의 프로세서 1703를 포함하는 다양한 시스템 컴포넌트를 결합시키는 시스템 버스 1713를 포함할 수 있다. 시스템은 병렬 컴퓨팅을 이용할 수 있다.

시스템 버스 1713는 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변기기 버스, 가속 그래픽 포트, 또는 로컬 버스를 포함하는 여러 가능한 유형의 버스 구조들 중 하나 이상을 나타낸다. 버스1713, 및 본 설명에서 특정된 모든 버스는 또한 유선 또는 무선 네트워크 접속을 통해 구현될 수 있으며, 하나 이상의 프로세서1703, 대용량 저장 장치1704, 운영 체제1705, KaryoScan 소프트웨어1706, KaryoScan 데이터1707, 네트워크 어댑터1708, 시스템 메모리1712, 입/출력 인터페이스1710, 디스플레이 어댑터1709, 디스플레이 장치1711, 및 인간-기계 인터페이스1702를 포함하는 각각의 하위 시스템은 이 형태의 버스를 통해 접속된 물리적으로 별개의 위치에 있는 하나 이상의 원격 컴퓨팅 장치1714a,b,c 내에 포함되어 사실상 완전 분산형 시스템을 구현할 수 있다.

컴퓨터1701는 전형적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 예시적인 판독가능 매체는 컴퓨터1701에 의해 접근가능하고, 예를 들어 휘발성 및 비휘발성 매체, 착탈식 및 비착탈식 매체를 모두 포함하지만 이들로 한정하고자 하는 것이 아닌 임의의 이용 가능한 매체일 수 있다. 시스템 메모리1712는 무작위 접근 메모리 (random access Memory, RAM)와 같은 휘발성 메모리, 및/또는 판독전용 메모리 (read only memory, ROM)와 같은 비휘발성 메모리 형태의 컴퓨터 판독가 능 매체를 포함한다. 시스템 메모리1712는 전형적으로 KaryoScan 데이터1707와 같은 데이터, 및/또는 하나 이 상의 프로세서1703에 즉시 접근가능하고/하거나 이에 의해 현재 작동되는 운영 체제1705 및 KaryoScan 소프 트웨어1706와 같은 프로그램 모듈을 포함한다. KaryoScan 데이터 1707는 판독 커버리지 데이터 및/또는 기대 판독 커버리지 데이터를 포함할 수 있다.

다른 측면에서, 컴퓨터1701는 또한 다른 착탈식/비착탈식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예로서, 도 17은 컴퓨터1701에 대한 컴퓨터 코드, 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 및 다른 데이터의 비휘발성 저장을 제공할 수 있는 대용량 저장 장치1704 를 도시한다. 예를 들어 그리고 제한하고자 하는 것은 아니지만, 대용량 저장 장치1704는 하드 디스크, 착탈식 자기 디스크, 착탈식 광 디스크, 자기 카세트 또는 다른 자기 저장 장치, 플래시 메모리 카드, CD-ROM, 디지털 다용도 디스크(digital versatile disk, DVD) 또는 다른 광 저장 장치, 무작위 접근 메모리 (RAM), 읽기 전용 메모리 (ROM), 전기적으로 삭제가능한 판독가능한 읽기 전용 메모리 (EEPROM) 등일 수 있다.

선택적으로, 예로서 운영 체제1705 및 KaryoScan 소프트웨어1706를 포함하는 임의의 수의 프로그램 모듈이 대용량 저장 장치1704에 저장될 수 있다. 운영 체제1705와 KaryoScan 소프트웨어1706 각각(또는 이들의 일부 조합)은 프로그래밍 및 KaryoScan 소프트웨어1706의 요소를 포함할 수 있다. KaryoScan 데이터1707는 또한 대용량 저장 장치1704에 저장될 수 있다. KaryoScan 데이터1707는 당업계에 공지된 하나 이상의 데이터베이스 중 임의의 것에 저장될 수 있다. 이러한 데이터베이스의 예는 DB2®, Microsoft® Access, Microsoft® SQL Server, Oracle®, mySQL, PostgreSQL 등을 포함한다. 데이터베이스는 집중화되거나 다수의 시스템에 걸쳐 분산될 수 있다.

다른 측면에서, 사용자는 입력 장치(나타내지 않음)를 통해 컴퓨터1701에 명령어 및 정보를 입력할 수 있다. 이러한 입력 장치의 예는 키보드, 포인팅 장치(예컨대, "마우스"), 마이크로폰, 조이스틱, 스캐너, 장갑과 같은 촉각 입력 장치, 및 다른 신체 착용품 등을 포함하지만 이들로 한정되지 않는다. 이들 및 다른 입력 장치가 시스템 버스1713에 결합된 인간-기계 인터페이스1702 를 통해 하나 이상의 프로세서1703에 접속될 수 있지만, 다른 인터페이스 및 버스 구조, 예컨대 병렬 포트, 게임 포트, IEEE 1394 포트(또한 Firewire 포트로 알려져 있음), 직렬 포트, 또는 범용 직렬 버스(USB)에 의해 접속될 수 있다.

또 다른 측면에서, 디스플레이 장치1711는 또한 디스플레이 어댑터1709와 같은 인터페이스를 통해 시스템 버스1713에 접속될 수 있다. 컴퓨터1701는 1개 초과의 디스플레이 어댑터1709를 가질 수 있고, 컴퓨터1701는 1개 초과의 디스플레이 장치1711를 가질 수 있는 것으로 고려된다. 예를 들어, 디스플레이 장치는 모니터, LCD(액정 디스플레이), 또는 프로젝터일 수 있다. 디스플레이 장치1711 이외에, 다른 출력 주변기기 장치는 입/출력 인터페이스1710를 통해 컴퓨터1701에 접속될 수 있는 스피커(나타내지 않음) 및 프린터(나타내지 않음)와 같은 구성 요소를 포함할 수 있다. 본 방법의 임의의 단계 및/또는 결과는 임의의 형태로 출력 장치에 출력될 수 있다. 이러한 출력은 텍스트, 그래픽, 애니메이션, 오디오, 촉각 등을 포함하지만 이들로 한정되지 않는 임의의 형태의 시각적 표현일 수 있다. 디스플레이 1711 및 컴퓨터1701는 하나의 장치의 일부, 또는 개별 장치일 수 있다.

컴퓨터1701는 하나 이상의 원격 컴퓨팅 장치1714a,b,c에 대한 논리 접속을 사용하여 네트워크 환경에서 작동할 수 있다. 예로서, 원격 컴퓨팅 장치는 개인 컴퓨터, 휴대용 컴퓨터, 스마트폰, 서버, 라우터, 네트워크 컴퓨터, 피어 장치 또는 다른 공통 네트워크 노드 등일 수 있다. 컴퓨터1701와 원격 컴퓨팅 장치1714a,b,c 사이의 논리 접속은 근거리 네트워크(LAN) 및/또는 일반 광역 네트워크(WAN)와 같은 네트워크1715를 통해 이루어질 수 있다. 이러한 네트워크 접속은 네트워크 어댑터1708를 통해 이루어질 수 있다. 네트워크 어댑터1708는 유선 및 무선 환경 둘 모두에서 구현될 수 있다. 이러한 네트워킹 환경은 주택, 사무실, 전사적 컴퓨터 네트워크, 인트라넷, 및 인터넷에서 통상적이고 흔하다.

예시를 위해, 응용 프로그램 및 운영 체제1705와 같은 다른 실행가능한 프로그램 컴포넌트가 본 명세서에 별개의 블록으로 도시되어 있지만, 이러한 프로그램 및 구성 요소는 컴퓨팅 장치1701의 상이한 저장 컴포넌트들에 다양한 시점에서 상주하며, 컴퓨터의 하나 이상의 프로세서1703에 의해 실행되는 것으로 인식된다. 일 측면에서, 적어도 일부의 KaryoScan 소프트웨어1706 및/또는 KaryoScan 데이터1707 는 컴퓨팅 장치 1701, 원격 컴퓨팅 장치 1714a,b,c, 및/또는 이들의 조합 중 하나 이상에서 저장 및/또는 수행될 수 있다. 따라서, KaryoScan 소프트웨어 1706 및/또는 KaryoScan 데이터 1707는 클라우드 컴퓨팅 환경 내에서 작동가능할 수 있으며, 이에 따라 KaryoScan 소프트웨어 1706 및/또는 KaryoScan 데이터 1707 로의 접근은 네트워크 1715 (예컨대, 인터넷) 상에서 수행될 수 있다. 또한, 일 측면에서, KaryoScan 데이터 1707 는 컴퓨팅 장치 1701, 원격 컴퓨팅 장치 1714a,b,c, 및/또는 이들의 조합 중 하나 이상에 걸쳐 동기화될 수 있다.

KaryoScan 소프트웨어 1706의 구현은 일정 형태의 컴퓨터 판독가능 매체에 저장되거나 이를 지나 전송될 수 있다. 임의의 개시된 방법이 컴퓨터 판독가능 매체 상에 구현된 컴퓨터 판독가능 명령어에 의해 수행될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 한정하고자 하는 것이 아니라 예로서, 컴퓨터 판독가능 매체는 "컴퓨터 저장 매체" 및 "통신 매체"를 포함할 수 있다. "컴퓨터 저장 매체"는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 착탈식 및 비착탈식 매체를 포함한다. 예시적인 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다용도 디스크(DVD) 또는 다른 광 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이로 한정되지 않는다.

본 방법 및 시스템은 기계 학습 및 반복 학습과 같은 인공 지능 기법을 이용할 수 있다. 이러한 기법의 예는 전문가 시스템, 사례 기반 추론, 베이지안 네트워크, 행동 기반 AI, 신경망, 퍼지 시스템, 진화 연산(예를 들어, 유전자 알고리즘), 군집 지능(예를 들어, 개미 알고리즘), 및 하이브리드 지능형 시스템(예를 들어, 신경망을 통해 생성된 전문가 추론 규칙 또는 통계 학습으로부터의 생성 규칙)을 포함하지만 이들로 한정되지 않는다.

본원의 KaryoScan 방법은 보다 정확한 커버리지 정규화가 달성될 수 있도록 이의 GC 함량 및 시퀀싱 성능의 맥락에서 염색체를 평가하는 신규한 동시-정규화 기술을 사용한다. 이는 국소 GC-함량 편향에 전적으로 의존하기 때문에 보다 작은 게놈 변화의 검출을 표적화하는 방법과 구별된다. 보다 작은 변화를 표적화하는 방법론은 한번에 더 큰 이벤트의 부분을 감지할 수 있지만, 더 큰 이벤트의 맥락에서 고해상도 카피수 변화를 이해하기 위해 일상적으로 사용되는 평활화 기능 (예: 숨겨진 Markov 모델)은 염색체-팔 스케일로 나누어진다. 또한, 대립유전자 빈도 데이터를 KaryoScan 호출에 통합하면 커버리지 공간에 어떠한 신호도 존재하지 않는 균형잡힌 게놈 변화의 검출을 포함하여 고유한 기능을 제공하지만, 유전적 변이의 손실로 인한 유의한 영향을 나타낼 수 있다.

체세포 암 돌연변이 또는 모자이크 이벤트 (즉, 신체에서 세포의 서브 세트에서만)와 같은 분획 CNV에 대해 정수 값 호출을 강제하거나 제공하는 방법과 달리, 본원의 KaryoScan 방법은 분획의 추정치를 제공한다.

다음의 실시예는 당업자에게 본 명세서에 청구된 화합물, 조성물, 물품, 장치 및/또는 방법이 어떻게 실시되고 평가되는지에 관한 완전한 개시 및 설명을 제공하기 위해 제시되고, 순수하게 예시적인 것으로 의도되며, 본 방법 및 시스템의 범위를 한정하고자 하는 것이 아니다. 수치(예를 들어, 양 등)와 관련하여 정확성을 보장하도 록 노력하였지만, 일부 오차 및 편차가 고려되어야 한다.

개시된 방법을 Regeneron Genetics Center의 인간 엑솜 변이 데이터베이스로부터의 약 100,000개의 시료에 적용하였다. 총 3,150개 시료를 적어도 하나의 시험된 염색체에서 가장 엄격한 수준에서 핵형적으로 비정상적인 것으로 표식하였고, 472개는 획득 또는 손실(복제 중립은 아님)인 것으로 표시하였다. 200개 이상의 시료를, 매우 희귀한 핵형 (48, XXXX) 및 (48, XXXY)을 포함하여, 성 염색체 이상 (염색체 X 또는 염색체 Y)을 갖는 것으로 표식하였다.

본 방법 및 시스템이 바람직한 구현예 및 특정 실시예와 관련하여 기술되었지만, 제시된 특정 실시 형태로 범위가 한정되도록 의도되지 않는데, 이는 본 명세서의 구현예가 모든 면에서 제한적이라기보다는 예시적인 것으로 의도되기 때문이다.

달리 명시적으로 언급되지 않는 한, 본 명세서에 제시된 임의의 방법은 그 단계가 특정 순서로 수행될 것을 요구하는 것으로 해석되도록 의도되지 않는다. 따라서, 방법 청구항이 그 단계가 따라야 할 순서를 실제로 열거하지 않거나 그 단계가 특정 순서로 한정되어야 한다고 청구범위 또는 상세한 설명에 달리 구체적으로 언급되지 않은 경우, 어떠한 방식으로도, 어떠한 면에서든 순서가 추론되도록 의도되지 않는다. 이는 하기를 포함하는 해석을 위한 임의의 가능한 비명시적 근거에 대해서도 마찬가지다: 단계의 배열 또는 작동 상의 흐름에 관한 논리 문제; 문법적 구성 또는 구두점에서 파생된 명백한 의미; 및 본 명세서에 기술된 구현예의 수 또는 유형.

다양한 변형 및 변화가 범위 또는 사상을 벗어나지 않고 이루어질 수 있다는 것이 당업자에게 명백할 것이다. 다른 구현예가 본 명세서 및 본 명세서에 개시된 실시의 고려로부터 당업자에게 명백할 것이다. 본 명세서 및 실시예는 단지 예시적인 것으로 간주되도록 의도되며, 진정한 범위 및 사상은 하기 청구범위에 의해 표현된다.

Claims

컴퓨팅 장치가, 복수의 시료들에서 각각의 염색체에 대해 판독 커버리지 데이터를 결정하는 단계 - 각각의 염색체는 복수의 게놈 영역들을 포함함 -;
상기 컴퓨팅 장치가, 상기 판독 커버리지 데이터에 기초하여, 다른 상염색체들에 대해 각각의 염색체에 대한 판독 커버리지 데이터의 엑솜-와이드 비율(exome-wide ratio)을 결정하는 단계;
상기 컴퓨팅 장치가, 상기 판독 커버리지 데이터에 대한 선형 회귀 모델의 적용에 기초하여, 상기 복수의 시료들에서 각각의 염색체에 대해 판독 커버리지 데이터의 기대 엑솜-와이드 비율을 결정하는 단계 - 상기 선형 회귀 모델은 복수의 시퀀싱(sequencing) 품질 제어(quality control; QC) 메트릭들을 공변량으로서 이용함 -;
상기 컴퓨팅 장치가, 상기 복수의 시료들에서 적어도 하나의 염색체에 대해 상기 판독 커버리지 데이터의 엑솜-와이드 비율과 상기 판독 커버리지 데이터의 기대 엑솜-와이드 비율 간의 편차를 결정하는 단계; 및
상기 컴퓨팅 장치가, 상기 편차에 기초하여, 상기 복수의 시료들 중 상기 적어도 하나의 염색체를 포함하는 시료를 비정상적인 핵형으로 식별하는 단계
를 포함하는, 방법.
제 1 항에 있어서,
복수의 시료들에서 각각의 염색체에 대해 판독 커버리지 데이터를 결정하는 단계는(각각의 염색체는 복수의 게놈 영역들을 포함함),
임계값 초과의 맵핑 가능성 스코어 및 범위 내의 구아닌-시토신(guanine-cytosine; GC) 함량을 갖는 엑솜 영역들(exomic regions)에 대한 판독 심도들(read depths)의 합을 결정하는 단계를 포함하는,
방법.
제 1 항에 있어서,
상기 판독 커버리지 데이터를 필터링하는 단계를 더 포함하는,
방법.
제 3 항에 있어서,
상기 판독 커버리지 데이터를 필터링하는 단계는,
상기 복수의 게놈 영역들 중 하나 이상의 게놈 영역들에서 구아닌-시토신(GC) 함량의 수준에 기초하여 상기 판독 커버리지 데이터를 필터링하는 단계를 포함하는,
방법.
제 4 항에 있어서,
상기 복수의 게놈 영역들 중 하나 이상의 게놈 영역들에서 구아닌-시토신(GC) 함량의 수준에 기초하여 상기 판독 커버리지 데이터를 필터링하는 단계는,
상기 복수의 게놈 영역들 각각에 대해 GC 함량의 수준을 결정하는 단계; 및
범위 밖의 GC 함량의 수준을 갖는 복수의 게놈 영역들 중 하나 이상의 게놈 영역들을 제외하는 단계를 포함하는,
방법.
제 3 항에 있어서,
상기 판독 커버리지 데이터를 필터링하는 단계는,
상기 복수의 게놈 영역들 중 하나 이상의 게놈 영역의 맵핑 가능성 스코어에 기초하여 상기 복수의 게놈 영역들 중 상기 하나 이상의 게놈 영역들을 필터링하는 단계를 포함하는,
방법.
제 6 항에 있어서,
상기 복수의 게놈 영역들 중 상기 하나 이상의 게놈 영역의 맵핑 가능성 스코어에 기초하여 상기 복수의 게놈 영역들 중 상기 하나 이상의 게놈 영역들을 필터링하는 단계는,
상기 복수의 게놈 영역들 중 각각의 게놈 영역에 대해 맵핑 가능성 스코어를 결정하는 단계; 및
상기 복수의 게놈 영역들 중 하나 이상의 게놈 영역의 맵핑 가능성 스코어가 미리 결정된 임계값 미만인 경우, 상기 복수의 게놈 영역들 중 상기 하나 이상의 게놈 영역들을 제외하는 단계를 포함하는,
방법.
삭제
삭제
제 1 항에 있어서,
상기 엑솜-와이드 비율(γ)은 다음의 식에 의해 각각의 염색체(i)에 대해 결정되고,

여기서, Α는 상염색체들의 세트이고 r은 판독 커버리지인,
방법.
삭제
제 1 항에 있어서,
상기 기대 엑솜-와이드 비율(
)은 다음 식에 의해 각각의 염색체(i)에 대해 결정되며,

여기서, 염색체들(j,k)은 염색체(i)의 GC 함량 분포에 대해 최소 D 통계치들을 갖는 2개의 상염색체들로서 정의되는,
방법.
제 1 항에 있어서,
상기 복수의 시료들에서 적어도 하나의 염색체에 대해 상기 판독 커버리지 데이터의 엑솜-와이드 비율과 상기 판독 커버리지 데이터의 기대 엑솜-와이드 비율 간의 편차를 결정하는 단계는,
상기 복수의 시료들에서 각각의 염색체에 대해, 상기 판독 커버리지 데이터의 엑솜-와이드 비율과 상기 판독 커버리지 데이터 기대 엑솜-와이드 비율 간의 차이를 결정하여 복수의 잔차들을 생성하는 단계; 및
공변량들(x)을 갖는 복수의 시료들 중 개별적인 시료에 대해, 평균 추정치
의 표준 오차에 대해 상기 복수의 잔차들을 Z-스코어 정규화하는 단계를 포함하고,

여기서,
는 잔차 표준 오차이며, n은 모델링된 시료들의 수이고,

인,
방법.
제13 항에 있어서,
각각의 염색체에 대한 Z-스코어에 기초하여 p-값을 결정하여, 염색체(i)에 대해 비정상적인 핵형을 나타내는 상당히 큰 잔차들을 식별하는 단계를 더 포함하는,
방법.
제 14 항에 있어서,
상당히 큰 잔차들은 0.05 미만의 p-값을 갖는 잔차들을 포함하는,
방법.
제 14 항에 있어서,
하나 이상의 특이치들(outliers)을 검출하는 단계; 및
상기 하나 이상의 특이치들을 비정상적인 핵형으로서 식별하기 위한 고려 사항에서 제거하는 단계를 더 포함하는,
방법.
제 16 항에 있어서,
상기 하나 이상의 특이치들을 검출하는 단계는,
각각의 염색체에 대한 선형 회귀 모델에서의 임계값 초과의 레버리지(leverage)(h _i , 여기서 1/n < h _i < 1)를 갖는 상기 복수의 시료들 중 하나 이상을 표식(flagging)하는 단계를 포함하고,
여기서 레버리지는 n 과 p의 함수로서 결정되고:

여기서, p 는 모델에서의 공변량들의 수이고, n은 모델링된 시료들의 수이고, x _i 은 시료(i)에 대한 공변량들의 벡터를 나타내고,
은 시료 집단에 대한 공변량 평균의 벡터인,
방법.
제 17 항에 있어서,
상기 임계값은 약 3 내지 약 5인,
방법.