KR20210068554A

KR20210068554A - 배아에서 염색체 이상을 확인하기 위한 시스템 및 방법(systems and methods for identifying chromosomal abnormalities in an embryo)

Info

Publication number: KR20210068554A
Application number: KR1020217013552A
Authority: KR
Inventors: 존 버크; 마이클 제이. 라지; 조슈아 블라젝
Original assignee: 쿠퍼제노믹스, 인크.
Priority date: 2018-10-05
Filing date: 2019-10-07
Publication date: 2021-06-09
Also published as: US20200111573A1; WO2020073058A1; EP3861551A1; CA3115273A1; SG11202103375SA; CN113228191A; CA3115273C; JP2022502786A; AU2019356033A1

Abstract

배아에서 염색체 이상을 확인하는 방법이 개시된다. 배아로부터 얻은 샘플 게놈 서열 정보가 수신되고, 샘플 게놈 서열 정보는 복수의 게놈 서열 리드로 이루어진다. 샘플 게놈 서열 정보는 참조 게놈에 대해 정렬된다. 샘플 게놈 서열 정보는 기준선 게놈 서열 정보에 대해 정규화되어, 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정하고 정규화된 샘플 게놈 서열 정보 데이터 세트를 생성한다. 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자가 정규화된 샘플 게놈 서열 정보 데이터 세트에 적용되어, 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성한다. 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트 내 카피 수 변이는 참조 게놈 상의 염색체 위치에 정렬된 게놈 서열 리드의 빈도가 빈도 임계치에서 벗어날 때 확인된다.

Description

배아에서 염색체 이상을 확인하기 위한 시스템 및 방법(SYSTEMS AND METHODS FOR IDENTIFYING CHROMOSOMAL ABNORMALITIES IN AN EMBRYO)

본원에 개시된 구현예들은 전반적으로 자궁내 이식을 위한 배아 후보를 확인하기 위한 시스템 및 방법에 관한 것이다. 더 구체적으로, 예비 산모(prospective mother)내 이식을 위한 시험관내 수정된 배아 후보에서 염색체 이상을 확인하기 위한 자율 시스템 및 방법이 필요하다.

시험관내 수정은 배아의 예비 산모내 이식이 뒤따르는 것으로 의도된다. 배아가 주어지면, 건강한 아이의 성공적인 출생을 방해할 수 있는 결함을 확인하는 것이 중요하고, 여러 배아가 주어지면 성공적인 착상 확률을 높이기 위해 IVF의 각 주기에 대해 최적의 배아가 선택되어야 한다.

과거에, 배아 형태의 현미경 검사 또는 염색체 분염 패턴의 현미경 검사가 비-최적 배아를 확인하기 위해 임상 전문가에 의해 사용되었다. 이러한 방법은 분해능에 있어서 부최적(sub optimal)이었고, 인간 조작자에 대한 의존으로 인해 일관성이 없었다. 통상적인 핵형 분석은 5 메가베이스(mb)보다 큰 특징을 검출하는 것으로 제한되고, FISH 검정은 단지 1 mb 미만으로 제한되며, 둘 모두 특정 게놈 유전자좌에 대해 설계되어야 하는 일련의 프로브에 의해 제한된다. 현미경 검사를 통해 배아 후보를 조사하기 위한 인간 전문가의 활용은 사무 및 검사 오류율 및 기타 불확실성을 배아 스크리닝 공정에 들이게 된다.

차세대 시퀀싱(next generation sequencing, NGS)의 이용 가능성은 통상적인 핵형 분석 방법보다 훨씬 적은 맞춤형 설계 작업을 필요로 하는 전체 게놈 커버리지를 제공한다. 또한, 검정 비용은 시퀀싱 깊이를 통해 제어될 수 있으며, 시퀀싱 깊이는 더 깊은 시퀀싱이 더 미세한 분해능을 가능하게 하는 원하는 분해능을 위해 또한 최적화될 수 있다.

그러나, NGS 핵형 분석은 신호 대 노이즈와 관련하여 문제가 있다. 구체적으로, 샘플 취급, 증폭 바이어스(bias), 구아닌-사이토신(GC) 함량 및 서로 다른 게놈 유전자좌 간의 기술적 차이와 같은 교란 인자(confounding factor)로 인해, 유사한 크기의 동일 카피 수 영역은 일반적으로 매우 다양한 서열 카운트를 가질 것이다. 이러한 교란 인자에 의해 야기되는 차이는 실제 카피 수 변화에 의해 야기되는 차이보다 진폭이 종종 더 크다. 따라서, NGS 데이터의 정확한 해석을 위해서는 교란 인자로부터 유래된 노이즈로부터 카피 수 신호를 효과적으로 분리할 수 있는 방법이 필요하다.

더욱이, 노이즈 제거된 카피 수 신호가 주어지면, 세포유전학적 상태(이수체(aneuploid) 또는 분절 중복/결실 호출) 또는 핵도(karyogram)로의 해석은 또한 몇 가지 문제를 제기할 수 있다. 첫 번째 문제는 실험실에서 처리해야 하는 샘플의 부피이다. 또 다른 문제는 실제로 정상인 게놈 영역 중 카피 수 변이 특징인 것으로 보이는 (심지어 노이즈 제거된 데이터 내의) 인공물(artifact)의 비율이다(정상 = 체세포 영역이 2개인 카피 수를 갖고, 성 염색체가 2개이며 적어도 1개의 카피 수는 Chr X에 속함을 의미함). 또한, 모든 카피 수 변화가 임상적 중요성이 동일한 것은 아니고, 심각한 결과를 초래하는 염색체 이상에 더 높은 중요성이 부여되어야 한다. 마지막으로, 이전 및 현재의 방법은 불확실성, 주관성 오류, 피로, 부적절한 훈련, 및 기타 부정확성의 원인을 들이는 인간 플롯 검사에 지나치게 의존하고 있다.

이와 같이, 이식될 때 성공적인 임신을 가져올 가능성이 가장 큰 배아의 선택을 가능하게 하도록 배아 후보에서 염색체 이상을 정확하고 강력하게 확인할 수 있는 방법 또는 시스템이 필요하다.

일 양태에서, 배아에서 염색체 이상을 확인하는 방법이 개시된다. 배아로부터 얻은 샘플 게놈 서열 정보가 수신되고, 샘플 게놈 서열 정보는 복수의 게놈 서열 리드(read)로 이루어진다. 샘플 게놈 서열 정보는 참조 게놈에 대해 정렬된다. 샘플 게놈 서열 정보는 기준선 게놈 서열 정보에 대해 정규화되어, 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정하고 정규화된 샘플 게놈 서열 정보 데이터 세트를 생성한다. 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자가 정규화된 샘플 게놈 서열 정보 데이터 세트에 적용되어, 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성한다. 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트 내 카피 수 변이는 참조 게놈 상의 염색체 위치에 정렬된 게놈 서열 리드의 빈도가 빈도 임계치에서 벗어날 때 확인된다.

다른 양태에서, 배아에서 염색체 이상을 확인하기 위한 시스템이 개시된다. 시스템은 데이터 저장 유닛, 컴퓨팅(computing) 장치 및 디스플레이로 이루어지며, 이들 모두는 서로 통신 가능하게 연결(communicatively connected)된다.

데이터 저장 유닛은 배아로부터 얻은 샘플 게놈 서열 정보를 저장하도록 구성된다. 컴퓨팅 장치는 데이터 노이즈 제거 엔진 및 해석 엔진을 호스팅한다. 데이터 노이즈 제거 엔진은, 데이터 저장소로부터 샘플 게놈 서열 정보를 수신하고, 샘플 게놈 서열 정보를 기준선 게놈 서열 정보에 대해 정규화하여 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정하고, 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자를 적용하여 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성하도록 구성된다. 해석 엔진은, 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트에서 염색체 위치에 정렬된 게놈 서열 리드의 빈도가 빈도 임계치에서 벗어날 때 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트에서 카피 수 변이를 확인하도록 구성된다.

디스플레이는 확인된 카피 수 변이를 포함하는 보고서를 표시하도록 구성된다.

또 다른 양태에서, 배아에서 성 이수성(sex aneuploidy)을 확인하는 방법이 개시된다. 배아로부터 얻은 샘플 게놈 서열 정보가 수신되고, 샘플 게놈 서열 정보는 복수의 게놈 서열 리드로 이루어진다. 샘플 게놈 서열 정보는 참조 게놈에 대해 정렬된다. 샘플 게놈 서열 정보는 기준선 게놈 서열 정보에 대해 정규화되어, 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정하고 정규화된 샘플 게놈 서열 정보 데이터 세트를 생성한다. 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자가 정규화된 샘플 게놈 서열 정보 데이터 세트에 적용되어, 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성한다. 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 분석하고 배아의 성 이수성 상태를 분류하기 위해 훈련된 신경망이 사용된다.

본원에 개시된 원리 및 그 이점에 대한 더 완전한 이해를 위해, 이제 첨부된 도면과 함께 취해진 다음 설명이 참조된다.
도 1a 내지 도 1e는, 다양한 구현예에 따른, 정상 및 비정상 염색체 상태를 갖는 배아를 도시하는 BLUEFUSE® 시각화 그래프이다.
도 2는, 다양한 구현예에 따른, 염색체 이상을 확인하기 위한 방법을 보여주는 예시적인 흐름도이다.
도 3은, 다양한 구현예에 따른, 리드 카운트가 유전자좌 효과에 대해 정규화되는 방법을 예시한다.
도 4는, 다양한 구현예에 따른, 관심 샘플과 기준선 샘플 사이의 유사성의 평가를 예시하는 플롯이다.
도 5는, 다양한 구현예에 따른, 기준선 세트에서 다수의 기준선 샘플로부터 기준선 벡터를 구성하는 방법의 도시이다.
도 6a는, 다양한 구현예에 따른, 배아 데이터의 빈(bin) 효과 정규화를 예시하는 플롯이다.
도 6b는, 다양한 구현예에 따른, 실시간 샘플 효과 보정을 예시하는 플롯이다.
도 7은, 다양한 구현예에 따른, LOWESS 기법이 GC 보정을 위해 사용될 수 있는 방법의 도시이다.
도 8a 내지 도 8b는, 다양한 구현예에 따른, 빈 스코어에 대한 GC의 기술적 효과를 보여주는 플롯이다.
도 9는, 다양한 구현예에 따른, 배아에서 염색체 이상을 확인하기 위한 시스템의 개략도이다.
도 10은, 다양한 구현예에 따른, 컴퓨터 시스템을 예시하는 블록 다이어그램이다.
도 11은, 다양한 구현예에 따른, 배아에서 성 이수성을 확인하기 위한 방법을 보여주는 예시적인 흐름도이다.
도 12는, 다양한 구현예에 따른, HMM(Hidden Markov Model) 유한 상태 기계 토폴로지(finite state machine topology)의 도시이다.
도 13a 내지 도 13b는, 다양한 구현예에 따른, 15번 염색체에서의 결실을 보여주는 노이즈 제거되고 정규화된 플롯이다.
도 14는, 다양한 구현예에 따른, 복합 배아 성 이수성을 결정하기 위해 염색체 클러스터를 사용하는 방법을 도시하는 플롯이다.
도 15는, 다양한 구현예에 따른, 배아에서 복합 성 이수성의 예측을 위한 정규화되고 노이즈 제거된 빈 데이터 신경망의 도시이다.
도 16은, 다양한 구현예에 따른, 피드 포워드 네트워크(feed forward network) 구조의 도시이다.
도 17은, 다양한 구현예에 따른, 본원에 개시된 개선된 시스템 및 방법(PGTai)을 통상적인 주관적 호출 방법(ILLUMINA®에서 제공하는 BLUEFUSE® 소프트웨어)과 비교할 때 다양한 배수성(ploidy) 분류의 순 변화를 보여주는 그래프이다.
도면은 반드시 일정한 비율로 그려진 것이 아니고, 도면 내의 대상체들이 반드시 서로에 대해 일정한 비율로 그려진 것도 아님을 이해해야 한다. 도면은 본원에 개시된 장치, 시스템, 및 방법의 다양한 구현예에 대해 명확함과 이해를 가져 오도록 의도된 도시이다. 가능한 한, 도면 전체에 걸쳐 동일하거나 유사한 부분을 지칭하기 위해 동일한 참조 번호가 사용될 것이다. 더욱이, 도면은 어떤 식으로든 본 교시의 범위를 제한하려는 것이 아님을 이해해야 한다.

본 명세서는 이식을 위한 시험관내 수정된 배아 후보에서 염색체 이상을 확인하기 위한 시스템 및 방법의 다양한 예시적인 구현예를 설명한다. 그러나, 본 개시는 이러한 예시적인 구현예 및 응용으로 한정되지 않거나, 예시적인 구현예 및 응용은 본원에서 동작하거나 설명되는 방식으로 한정되지 않는다. 더욱이, 도면은 단순화되거나 부분적인 도면을 보여줄 수 있고, 도면 내의 요소의 치수는 과장되어 있을 수 있거나 그렇지 않으면 비례하지 않을 수 있다. 또한, 용어 "~ 상에", "~에 부착되어", "~에 연결되어", "~에 커플링되어", 또는 유사한 단어가 본원에 사용되는 경우, 하나의 요소(예를 들어, 물질, 층, 기판 등)는 다른 요소 “상에” 존재하거나 그에 “부착”, “연결” 또는 “커플링”될 수 있는 것이며, 하나의 요소가 직접적으로 다른 요소 상에 존재하거나, 그에 부착되거나, 연결되거나, 커플링되는지, 또는 하나의 요소와 다른 요소 사이에 하나 이상의 개재 요소가 존재하는지 여부와는 무관하다. 또한, 요소 목록(예를 들어, 요소 a, b, c)이 참조되는 경우, 그러한 참조는 그 자체로 나열된 요소들 중 어느 하나, 나열된 모든 요소의 수보다 적은 수의 요소들의 조합, 및/또는 나열된 모든 요소의 조합을 포함하도록 의도된다. 명세서의 섹션 구분은 검토의 편의를 위한 것이며, 논의된 요소들의 임의의 조합을 제한하지 않는다.

달리 정의되지 않는 한, 본원에 설명된 본 교시와 관련되어 사용된 학술적 및 기술적 용어는 당업자가 일반적으로 이해하는 의미를 가질 것이다. 또한, 문맥 상 달리 요구되지 않는 한, 단수 용어는 복수를 포함하고 복수 용어는 단수를 포함할 것이다. 일반적으로, 본원에 설명된 세포 및 조직 배양, 분자 생물학, 단백질 및 올리고뉴클레오티드 또는 폴리뉴클레오티드 화학 및 하이브리드화와 관련하여 사용된 명명법 및 그에 관한 기법은 당업계에 잘 알려져 있고 당업계에서 일반적으로 사용되는 것이다. 표준 기법은, 예를 들어, 핵산 정제 및 준비, 화학적 분석, 재조합 핵산, 및 올리고뉴클레오티드 합성을 위해 사용된다. 효소 반응 및 정제 기법은 제조사의 사양에 따라 수행되거나 당업계에서 일반적으로 달성되는 바와 같이 또는 본원에 설명된 바와 같이 수행된다. 본원에 설명된 기법 및 절차는 일반적으로 당업계에 잘 알려진 통상적인 방법에 따라 그리고 본 명세서를 통해 인용되고 논의되는 다양한 일반적인 및 더 구체적인 참고 문헌에 기재된 바와 같이 수행된다. 예를 들어, 문헌[Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000)]을 참조한다. 본원에 설명된 실험실 절차 및 기법, 및 그와 관련하여 사용된 명명법은 당업계에 잘 알려져 있고 당업계에서 일반적으로 사용되는 것이다.

DNA(데옥시리보핵산)는 4가지 유형의 뉴클레오티드인 A(아데닌), T(티민), C(시토신), 및 G(구아닌)으로 구성된 뉴클레오티드 사슬이고, RNA(리보핵산)는 4가지 유형의 뉴클레오티드인 A, U(우라실), G, 및 C로 이루어진다. 특정 쌍의 뉴클레오티드는 상보적 방식으로 서로 특이적으로 결합한다(상보적 염기 쌍으로 일컬어짐). 즉, 아데닌(A)은 티민 (T)과 쌍을 이루고(그러나, RNA의 경우, 아데닌(A)은 우라실(U)과 쌍을 이룸), 시토신(C)은 구아닌(G)과 쌍을 이룬다. 제1 핵산 가닥이 제1 가닥의 뉴클레오티드들에 상보적인 뉴클레오티드들로 구성된 제2 핵산 가닥에 결합할 때, 두 가닥은 결합하여 이중 가닥을 형성한다. 인간 참조 게놈은 이들 가닥 중 하나(이는 본원에 사용되는 바와 같이 가닥 1로 일컬어짐)를 나타낸 것이다. 본원에 사용되는 바와 같이, 가닥 1의 역상보체는 가닥 2로 일컬어진다. 본원에 사용되는 바와 같이, "핵산 시퀀싱 데이터", "핵산 시퀀싱 정보", "핵산 서열", "게놈 서열", "유전자 서열", 또는 "단편 서열", 또는 "핵산 시퀀싱 리드"는 DNA 또는 RNA의 분자(예를 들어, 전체 게놈, 전체 전사체, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 단편 등) 내의 뉴클레오티드 염기들(예를 들어, 아데닌, 구아닌, 시토신, 및 티민/우라실)의 순서를 나타내는 임의의 정보 또는 데이터를 의미한다. 본 교시는 모세관 전기 영동, 마이크로어레이, 리게이션-기반 시스템, 중합 효소-기반 시스템, 하이브리드화-기반 시스템, 직접적 또는 간접적 뉴클레오티드 확인 시스템, 파이로시퀀싱(pyrosequencing), 이온-기반 또는 pH-기반 검출 시스템, 전자 서명-기반 시스템 등을 포함하지만 이로 한정되지 않는 모든 이용 가능한 다양한 기법, 플랫폼 또는 기술을 사용하여 얻은 서열 정보를 고려한다는 것을 이해해야 한다.

"폴리뉴클레오티드", "핵산" 또는 "올리고뉴클레오티드"는 뉴클레오시드간 연결에 의해 결합된 뉴클레오시드들(데옥시리보뉴클레오시드들, 리보뉴클레오시드들, 또는 이들의 유사체들을 포함함)의 선형 중합체를 지칭한다. 전형적으로, 폴리뉴클레오티드는 적어도 3개의 뉴클레오시드를 포함한다. 일반적으로, 올리고뉴클레오티드는 크기가 수개(예를 들어, 3개 내지 4개)의 단량체 단위에서 수백 개의 단량체 단위까지 다양하다. 올리고뉴클레오티드와 같은 폴리뉴클레오티드가 "ATGCCTG"와 같은 일련의 문자로 표현될 때마다, 달리 언급되지 않는 한, 뉴클레오티드들은 좌측에서 우측으로 5'->3' 순서이며, "A"는 데옥시아데노신을 의미하고, "C"는 데옥시시티딘을 의미하고, "G"는 데옥시구아노신을 의미하고, "T"는 티미딘을 의미하는 것으로 이해될 것이다. 문자 A, C, G, 및 T는, 당업계에서 통상적인 바와 같이, 염기 자체, 뉴클레오시드, 또는 염기를 포함하는 뉴클레오티드를 지칭하기 위해 사용될 수 있다.

"차세대 시퀀싱"(NGS)이라는 어구는, 예를 들어 한 번에 수십만 개의 비교적 작은 서열 리드를 생성하는 능력이 있는, 전통적인 생어(Sanger)-기반 및 모세관 전기 영동-기반 접근법에 비해 증가된 처리량을 갖는 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기법의 일부 예에는 합성에 의한 시퀀싱, 리게이션에 의한 시퀀싱, 및 하이브리드화에 의한 시퀀싱이 포함되지만 이로 한정되지 않는다. 더 구체적으로, Illumina의 MISEQ, HISEQ 및 NEXTSEQ 시스템 및 Life Technologies Corp의 PGM(Personal Genome Machine) 및 SOLiD 시퀀싱 시스템은 전체 또는 표적 게놈의 대량 병렬 시퀀싱을 제공한다. SOLiD 시스템 및 관련 워크플로우, 프로토콜, 화학 등은 국제 출원일이 2006년 2월 1일이며 발명의 명칭이 "Reagents, Methods, and Libraries for Bead-Based Sequencing"인 PCT 공개 번호 WO 2006/084132, 2010년 8월 31일에 출원된 발명의 명칭이 "Low-Volume Sequencing System and Method of Use"인 미국 특허 출원 일련 번호 12/873,190, 및 2010년 8월 31일에 출원된 발명의 명칭이 "Fast-Indexing Filter Wheel and Method of Use"인 미국 특허 출원 일련 번호 12/873,132에 더 상세히 설명되어 있으며, 이들 출원 각각의 전문이 본원에 참고로 포함된다.

어구 "시퀀싱 실행(run)"은 적어도 하나의 생체 분자(예를 들어, 핵산 분자)에 관한 일부 정보를 결정하기 위해 수행되는 시퀀싱 실험의 임의의 단계 또는 부분을 지칭한다.

본원에 사용되는 바와 같이, "게놈 특징"이라는 어구는, 돌연변이, 재조합/교차 또는 유전적 부동(genetic drift)으로 인해 특정 종 또는 특정 종 내에서의 하위-집단(sub-population)에 대해 참조된 바와 같은 변화를 겪은 (DNA 또는 RNA 형태의) 단일 유전자 또는 유전자 그룹을 의미하는, 일부 주석이 달린(annotated) 기능이 있는 게놈 영역(예를 들어, 유전자, 단백질 코딩 서열, mRNA, tRNA, rRNA, 반복 서열, 역위 반복체(inverted repeat), miRNA, siRNA 등) 또는 유전자/게놈 변이체(예를 들어, 단일 뉴클레오티드 다형성/변이체, 삽입/결실 서열, 카피 수 변이, 역위 등)를 지칭할 수 있다.

게놈 변이체는 어레이-기반 방법(예를 들어, DNA 마이크로어레이 등), 실시간/디지털/정량적 PCR 기기 방법 및 전체 또는 표적 핵산 시퀀싱 시스템(예를 들어, NGS 시스템, 모세관 전기 영동 시스템 등)을 포함하지만 이로 한정되지 않는 다양한 기법을 사용하여 확인될 수 있다. 핵산 시퀀싱의 경우, 커버리지 데이터는 단일 염기 분해능에서 이용 가능할 수 있다.

어구 "단편 라이브러리"는 하나 이상의 단편이 시퀀싱 주형으로 사용되는 핵산 단편들의 수집물을 지칭한다. 단편 라이브러리는, 예를 들어, 큰 핵산을 작은 단편들으로 절단하거나 전단함으로써 생성될 수 있다. 단편 라이브러리는 포유류 또는 박테리아 핵산과 같은 자연 발생적 핵산으로부터 생성될 수 있다. 합성 단편 라이브러리를 생성하기 위해 유사한 크기의 합성 핵산 서열들을 포함하는 라이브러리가 또한 생성될 수 있다.

"염색체 이상"또는 "염색체 이상들"이라는 어구는 구조적(예를 들어, 결실, 중복, 전좌, 역위, 삽입 등) 및 수치적(즉, 이수성) 염색체 장애 둘 모두를 의미한다.

어구 "모자이크 배아"는 2개 이상의 세포유전학적으로 구별되는 세포주를 포함하는 배아를 의미한다. 예를 들어, 모자이크 배아는 다양한 유형의 이수성이 있는 세포주 또는 임신 동안 배아의 생존력에 해로울 수 있는 유전자 변이체가 있는 DNA를 포함하는 유전적으로 비정상인 세포와 정배수체(euploid) 의 혼합물을 포함할 수 있다.

다양한 구현예에서, 서열 정렬 방법은 단편 서열을 참조 서열 또는 다른 단편 서열에 정렬시킬 수 있다. 단편 서열은, 단편 라이브러리, 페어드-엔드(paired-end) 라이브러리, 메이트-페어(mate-pair) 라이브러리, 콘카터네이션(concatenation)된 단편 라이브러리, 또는 예를 들어 RNA, DNA, 및 단백질 기반 서열 정보를 포함하는 핵산 서열 정보에 의해 반영되거나 이로 표현될 수 있는 다른 유형의 라이브러리로부터 얻을 수 있다. 일반적으로, 단편 서열의 길이는 참조 서열의 길이보다 실질적으로 짧을 수 있다. 단편 서열 및 참조 서열은 각각 일련의 기호를 포함할 수 있다. 단편 서열과 참조 서열의 정렬은 단편 서열의 기호와 참조 서열의 기호 사이에 제한된 수의 미스매치를 포함할 수 있다. 일반적으로, 단편 서열과 참조 서열 사이의 미스매치의 수를 최소화하기 위해 단편 서열은 참조 서열의 일부에 정렬될 수 있다.

특정 구현예에서, 단편 서열 및 참조 서열의 기호는 생체 분자의 조성을 나타낼 수 있다. 예를 들어, 기호는 RNA 또는 DNA와 같은 핵산 내 뉴클레오티드들의 동일성 또는 단백질 내 아미노산들의 동일성에 상응할 수 있다. 일부 구현예에서, 기호는 생체 분자의 이러한 하위 성분과 직접적인 상관 관계를 가질 수 있다. 예를 들어, 각 기호는 폴리뉴클레오티드의 단일 염기를 나타낼 수 있다. 다른 구현예에서, 각각의 기호는 생체 분자의 2개 이상의 인접한 하위 성분, 예컨대 폴리뉴클레오티드의 2개의 인접한 염기를 나타낼 수 있다. 추가적으로, 기호는 인접한 하위 성분들의 중첩 세트 또는 인접한 하위 성분들의 별개의 세트를 나타낼 수 있다. 예를 들어, 각 기호가 폴리뉴클레오티드의 2개의 인접한 염기를 나타낼 때, 중첩 세트를 나타내는 2개의 인접한 기호는 폴리뉴클레오티드 서열의 3개의 염기에 상응할 수 있는 반면, 별개의 세트를 나타내는 2개의 인접한 기호는 일련의 4개 염기를 나타낼 수 있다. 또한, 기호는 뉴클레오티드와 같은 하위 성분에 직접 상응할 수 있거나, 하위 성분의 컬러 호출(color call) 또는 기타 간접 척도에 상응할 수 있다. 예를 들어, 기호는 특정 뉴클레오티드 흐름에 대한 통합(incorporation) 또는 비-통합에 상응할 수 있다.

다양한 구현예에서, 컴퓨터 프로그램 제품은 단편 서열의 연속 부분을 선택하기 위한 명령; 참조 서열에 대한 단편 서열의 연속 부분의 적어도 하나의 매치(match)를 생성하는 근사 문자열 매칭 방법(approximate string matching method)을 사용하여 단편 서열의 연속 부분을 참조 서열에 매핑하기 위한 명령을 포함할 수 있다.

다양한 구현예에서, 핵산 서열 분석을 위한 시스템은 데이터 분석 유닛을 포함할 수 있다. 데이터 분석 유닛은 시퀀싱 기기로부터 단편 서열을 얻고, 참조 서열을 얻고, 단편 서열의 연속 부분을 선택하고, 참조 서열에 대한 단편 서열의 연속 부분의 적어도 하나의 매치를 생성하는 근사 문자열 매칭 방법을 사용하여 단편 서열의 연속 부분을 참조 서열에 매핑하도록 구성될 수 있다.

본원에 사용되는 바와 같이, "실질적으로"는 의도된 목적을 위해 작동하기에 충분함을 의미한다. 따라서, "실질적으로"라는 용어는, 해당 분야의 통상의 기술자가 예상할 것이지만 전반적인 성능에 인식할 만하게 영향을 미치지 않는 바와 같은, 절대적 또는 완전한 상태, 치수, 측정치, 결과 등으로부터의 사소하고 유의하지 않은 변화를 허용한다. 수치 또는 수치로 표현될 수 있는 파라미터 또는 특성과 관련하여 사용될 때, "실질적으로"는 10% 이내를 의미한다.

용어 "~한 것들"이라는 용어는 하나 초과를 의미한다.

본원에 사용되는 바와 같이, 용어 "복수"는 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 또는 그 초과일 수 있다.

본원에 사용되는 바와 같이, 용어 "세포"는 용어 "생물학적 세포"와 상호 교환적으로 사용된다. 생물학적 세포의 비-제한적인 예에는 진핵 세포, 식물 세포, 동물 세포, 예컨대 포유류 세포, 파충류 세포, 조류 세포, 어류 세포 등, 원핵 세포, 박테리아 세포, 진균 세포, 원생 동물 세포 등, 근육, 연골, 지방, 피부, 간, 폐, 신경 조직 등과 같은 조직으로부터 분리된 세포, T 세포, B 세포, 자연 살해 세포, 대식세포 등과 같은 면역 세포, 배아(예를 들어, 접합체), 난모세포, 난자, 정자 세포, 하이브리도마, 배양된 세포, 세포주로부터의 세포, 암 세포, 감염된 세포, 트랜스펙션되고/트랜스펙션되거나 형질 전환된 세포, 리포터 세포 등이 포함된다. 포유류 세포는, 예를 들어, 인간, 마우스, 래트, 말, 염소, 양, 소, 영장류 등으로부터 유래될 수 있다.

염색체 이상을 확인하기 위해 NGS 데이터를 처리하는 통상적인 방법

NGS 데이터를 사용하는 많은 임상 파이프 라인은 유사한 초기 워크플로우를 따른다. 먼저, 시퀀싱 기계를 사용하여 생성된 원시 서열들이 역다중화(demultiplexing)되며; 많은 샘플이 동시에 시퀀싱될 때, 다양한 대상체로부터의 서열들은 서열이 대상체에 할당된 후 제거되는 초기 바코드로 태깅(tagging)된다. 어댑터 또는 기타 인공적 특징은 생성된 서열로부터 제거된다. 서열들은 종종 생성된 서열의 염기를 알려진 게놈 참조 서열에 정렬하거나 매칭시키는 컴퓨터 프로그램에 의해 게놈 유전자좌에 할당되고, PCR 중복체(duplicate) 및 저품질 서열은 종종 정렬 프로세스 동안 또는 그 직후에 제거된다. 처리되고 유전자좌에 매칭된 서열은 종종 정렬된 서열 또는 정렬된 리드로 일컬어진다. 각 관심 샘플로부터 생성된 서열의 수는 종종 "시퀀싱 깊이"로 일컬어진다.

카피 수 변이(CNV) 호출에 대한 통상적인 접근법의 상업적 구현은, 또한 k 근위 빈들에 걸친 슬라이딩 윈도우 내에서 중앙값을 취함으로써 데이터를 또한 평활화하는 Illumina(BLUEFUSE®)에 의해 제공된다.

CNV는, 하나 이상의 유전자의 비정상적인 카피 수를 초래하고 질병에 기여할 수 있는 게놈 변경이다. BLUEFUSE® 소프트웨어는 사용자가 유전적 이상을 시각화하고, 분석하고, 해석할 수 있게 하는 그래프를 생성한다.

정상적인 염색체 수를 가진 배아는 정배수체 배아이다. 도 1a에 도시된 바와 같이, 정배수체 배아는 그래프의 x축에 표시된 각 염색체 번호(1 내지 22)의 두 카피(그래프의 y축에 있음)을 갖는 것으로 BLUEFUSE® 그래프 상에서 시각화된다. 성별 측면에서, 여성 배아는 X 염색체가 두 카피이며 Y 염색체의 카피는 없고(도 1a에 도시된 바와 같음), 남성 배아는 한 카피의 X 염색체와 한 카피의 Y 염색체를 갖는다.

다른 한편, 비정상적인 염색체 수를 가진 배아는 이수체 배아이다. 카피 이득이 있는 염색체(정상적 두 카피 대신 세 카피)는 삼염색체(trisomy)로 일컬어지고, 카피 손실이 있는 염색체(정상적인 두 카피 대신 한 카피)는 일염색체(monosomy)로 일컬어진다. 도 1b는 일염색체가 있는 남성 이수체 배아를 도시한다. 1번 내지 14번, 16번 내지 22번 염색체에 대해서는 두 카피가 시각화되고, 15번 염색체(일염색체)는 한 카피만이 시각화된다. 또한, 한 카피의 X 염색체와 Y 염색체가 존재하며, 이는 배아가 남성임을 나타낸다.

염색체의 일부만 비정상적으로 복사되거나 결실될 때, 이는 각각 복제 또는 결실로 일컬어진다. 도 1c는 5번 염색체 상에 결실이 있는 남성 배아를 도시한다. 1번 내지 4번, 6번 내지 22번 염색체에 대해서는 두 카피가 시각화되고, 5번 염색체는 일부가 결실된다. 또한, 한 카피의 X 염색체와 Y 염색체가 존재하며, 이는 배아가 남성임을 나타낸다.

특정 염색체에 대해 정상 세포와 비정상 세포를 모두 보유하는 배아는 모자이크 배아로 일컬어진다. 시각적으로, 이 배아는 정상(두 카피)과 비정상(삼염색체 또는 일염색체인지 여부에 따라 한 카피 또는 세 카피) 사이에 있는 염색체 카피 수를 갖는다. 도 1d는 모자이크 16번 염색체가 있는 남성 배아를 도시한다. 1번 내지 15번, 17번 내지 22번 염색체에 대해서는 두 카피가 시각화되고, 16번 염색체가 모자이크이다(카피 수가 2.5개임). 또한, 한 카피의 X 염색체와 Y 염색체가 존재하며, 이는 배아가 남성임을 나타낸다.

BLUEFUSE® 소프트웨어가 취하는 접근법에는 상당한 제한이 있다. 배아 생검의 품질이 저하되거나 DNA가 분해되는 경우, 또는 라이브러리 준비 자체에 문제가 있는 경우, 데이터의 노이즈(백그라운드) 수준이 증가함에 따라 데이터를 해석하는 것이 더 어려워진다. 높은 노이즈 수준은, DNA 품질 자체과 관련된 문제와 비교하여 정상으로부터의 어떤 변화가 실제 유전적 이상일 수 있는지를 해독하는 것을 어렵게 만든다. 이러한 결점의 결과는, 분절 또는 모자이크 호출, 또는 복합 성 이수성 호출이 정규화된 빈 스코어의 플롯을 검사하여 인간 기술자에 의해 이루어져야 한다는 것이다. 이미지의 인간 해석과 관련된 주관성 및 불확실성은 염색체 이상에 대한 배아의 분석에서 원치 않는 변동을 초래할 수 있다. 도 1e는 노이즈 수준이 높은 남성 배아를 도시하며, 이는 인간 기술자가 배아에 진정한 유전적 이상이 있는지 여부를 해석하기 어렵게 만든다.

염색체 이상을 확인하기 위해 NGS 데이터를 처리하는 자동화된 기계 해석 방법

분절 중복/결실, 모자이크 특징뿐만 아니라 복합 성 이수성을 포함한 염색체 이상의 자동화된 검출을 위한 시스템 및 방법이 개시된다. 개념적으로, 이러한 시스템 및 방법은 2가지 주된 파이프 라인인 1) (원시 서열 리드의 노이즈를 제거하기 위한) 노이즈 제거/정규화 및 2) (노이즈 제거되고/정규화된 신호를 핵도 및 임상 이수성 호출로 디코딩(decoding)하기 위한) 해석을 갖는다.

도 2는, 다양한 구현예에 따른, 배아 내 염색체 이상의 자동화된 확인을 위한 방법(200)을 보여주는 예시적인 흐름도이다. 단계(202)에서, 배아로부터 얻은 샘플 게놈 서열 정보가 수신된다. 샘플 게놈 정보는 NGS, PCR 등을 포함한 다양한 게놈 시퀀싱 기법을 사용하여 생성된 복수의 게놈 서열 리드로 이루어진다. 단계(204)에서, 샘플 게놈 서열 정보가 참조 게놈에 대해 정렬된다. 다양한 구현예에서, 참조 게놈은 인간 참조 게놈이다.

단계(206)에서, 샘플 게놈 서열 정보가 기준선 게놈 서열 정보에 대해 정규화되어 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정한다. 유전자좌 효과는 카피 수에 변화가 없을 때에도 서열 커버리지의 변화와 관련되는 게놈 위치의 양상이다. 유전자좌 효과의 예에는 1) 염기 위치의 50, 100, 150개 등의 염기 내의 GC 함량, 2) 게놈 위치 주위의 DNA가 2차 구조를 형성할 가능성, 3) 다른 게놈 위치와의 서열 유사성 등이 있을 수 있지만, 이로 한정되지 않는다.

다양한 구현예에서, 유전자좌 효과에 대한 샘플 게놈 서열 정보를 정규화하는 것은 먼저 빈 크기를 설정하는 것을 포함한다. 다양한 구현예에서, 빈 크기는 1 메가베이스(mb)로 설정된다. 그러나, 빈 크기는 인간 게놈의 길이를 초과하지 않는 한 100 kb, 500 kb, 또는 1 백만 내지 2 천만 사이의 임의의 다른 값을 포함하는 임의의 크기로 설정될 수 있는 것으로 이해해야 한다. 다음으로, 샘플 게놈 서열 정보 및 기준선 게놈 서열 정보는 빈 크기에 기초하여 복수의 빈으로 분할된다. 이어서, 복수의 샘플 게놈 서열 정보 빈 각각에 정렬된 샘플 게놈 서열 정보로부터의 게놈 서열 리드의 수가 결정되어 복수의 샘플 게놈 서열 정보 빈 각각에 대한 샘플 빈 스코어를 생성한다.

다음으로, 복수의 기준선 게놈 서열 정보 빈 각각에 정렬된 기준선 게놈 서열 정보로부터의 게놈 서열 리드의 수가 결정되어 복수의 기준선 게놈 서열 정보 빈 각각에 대한 기준선 빈 스코어를 생성한다. 이어서, 샘플 빈 스코어가 기준선 빈 스코어에 대해 정규화되어 정규화된 샘플 게놈 서열 데이터 세트를 생성한다.

다양한 구현예에서, 기준선 빈 스코어는 먼저 정배수체 배아로부터 얻은 복수의 기준선 게놈 서열 정보 데이터 세트를 수신함으로써 결정되었다. 이어서, 복수의 기준선 게놈 서열 정보 데이터 세트 각각에 대한 빈 스코어가 결정되었다. 다음으로, 샘플 게놈 서열 정보에 대한 유사성 임계치를 초과하는 빈 스코어를 갖는 기준선 게놈 서열 정보 데이터 세트의 서브 세트가 복수의 기준선 게놈 서열 정보 데이터 세트로부터 선택되었다. 마지막으로, 기준선 게놈 정보 데이터 세트의 선택된 서브 세트에서 빈 스코어의 중앙값을 결정함으로써 기준선 빈 스코어가 생성되었다.

단계(208)에서, 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자가 적용되어, 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성하였다.

단계(210)에서, CNV는, 참조 게놈 상의 염색체 위치에 정렬된 게놈 서열 리드의 빈도가 빈도 임계치를 벗어날 때 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트로부터 확인된다.

방법(200)의 다양한 양상이 도 3 내지 도 8b에 나타나 있다. 도 3에 나타낸 바와 같이, 각 가닥(앞서 설명된 바와 같은 인간 게놈의 가닥 1 및 가닥 2) 및 각 빈에 대해, nx는 동일한 가닥 상의 관심 샘플에 대한 이배체 염색체에 정렬된 총 리드 수(302)에 의해 크기 조정된 빈 카운트로 정의된다.

도 4에 나타낸 바와 같이, 유전자좌(빈) 효과에 대한 제1 보정은 기준선 정배수체 샘플 세트에 대해 관심 샘플로부터의 빈 카운트를 정규화함으로써 수행될 수 있다. 빈 크기는 먼저 1 메가베이스(304)로 설정될 수 있다. 그러나, 빈 크기는 본질적으로 100 kb, 500 kb, 또는 1 백만 내지 2 천만 사이의 임의의 다른 값을 포함한 임의의 크기로 설정될 수 있음을 인식해야 한다. 다음으로, 도 5에 나타낸 바와 같이, 샘플 게놈 서열 정보는 복수의 빈으로 분할되고, 이어서 최적성이 관심 샘플 nx와 가장 유사한 기준선 nx를 갖는 것으로 정의되는 빈 효과에 대해 정규화되도록 (전체 기준선 세트를 사용하는 대신) 기준선 샘플의 최적 서브 세트가 선택된다. 이어서, 유사성은 기준선 샘플에 대한 nx와 관심 샘플에 대한 nx의 상관 관계로 정량화된다. 다양한 구현예에서, 순위 상관(rank correlation)이 또한 유사성의 척도로 사용될 수 있지만, 많은 대안(예컨대 MSE/잔차 제곱 합, 유클리드 거리(Euclidian distance) 또는 마할라노비스 거리(Mahalanobis distance))이 존재한다.

관심 샘플과 기준 샘플 사이의 유사성을 계산하기 위한 상기 방법이 주어지면, 관심 샘플과 유사성이 가장 높은 기준선으로부터의 샘플이 선택되었다.

기준선 샘플과 관심 샘플 간의 유사성인 유사성 값 세트 s = {s1, s2, ..., s(기준선 샘플 수)}가 주어지면, s > t인 기준선 샘플이 선택되었고, 여기서 t는 s의 g번째 백분위 수이다. 다양한 구현예에서, 파라미터 g는 90%로 설정될 수 있지만, 또한 10%, 30%, 50%, 80% 또는 1과 100 사이의 임의의 다른 숫자로 설정될 수 있다. 유전자좌 카운트에 대한 빈 한계 효과를 보정하는 것 외에도, 이는 하나의 빈의 커버리지가 다른 빈의 커버리지를 알려주는 상관 스코어를 갖는 원위 빈을 보정한다. 기준선 샘플의 최적 서브 세트가 선택된 후, 관심 샘플의 빈 스코어는 중앙 기준선-서브 세트 정규화된 빈 스코어에 의해 정규화된다. 이어서, 정규화는 나눗셈에 의해 수행될 수 있고, 결과는 1.0을 중심으로 하는 빈 스코어의 벡터이다.

유전자좌 효과를 보정하기 위한 이러한 방법의 한 가지 이점은, 실행된 샘플이 축적되어 정배수체 샘플이 향후 정규화를 알려줌으로써 시간이 지남에 따라 정규화된 빈 스코어는 노이즈가 적어지고 오버 시스템(over system)은 더 정확해 지게 한다는 것이다.

시퀀싱 시 관심 샘플의 상태에 특이적인 생물학적 과정(즉, 실시간 샘플 효과), 예컨대 유전자 발현 또는 조절이 또한 시퀀싱 과정 동안 게놈 이용 가능성에 잠재적으로 영향을 미칠 수 있지만, 이는 보정될 수 있다. 이러한 실시간 효과의 한 가지 결과는 개별 가닥의 신호 감쇠이다. 국소 가중 산점도 평활(Locally weighted Scatterplot Smoothing, LOWESS) 추정량(estimator)이 r = (정방향 가닥으로부터 빈 스코어의 비율)에 의한 빈 신호의 가닥 특이적 보정을 유도하는 데 사용될 수 있다. 이어서, 가닥 특이적 빈 스코어가 이 보정 인자에 의해 정규화될(나누어질) 수 있다. 도 6a 내지 도 6b에 나타낸 바와 같이, LOWESS는 r에 가장 가까운 값을 갖는 데이터 포인트의 서브 세트(r, bin_score)만을 사용하는 r을 중심으로 하는 저차 다항식 피팅(low degree polynomial fit)의 추정에 의해 r의 각 값에서 보정 인자(602)를 계산한다.

앞서 언급된 바와 같이, "c" 및 "g" 염기의 유전자좌 특이적 농도 및 기타 기술적 효과(예컨대, 증폭 바이어스, 2 차 구조, 뉴클레오솜 밀도, miRNA 차단, 유전자 발현 등)는 빈에서 서열 카운트에 영향을 미칠 수 있지만, 상기 유전자좌 효과의 보정은 이러한 기술적 효과에 대한 각 샘플의 차별적 응답을 설명하지 않는다. 샘플 상호 작용 보정과 관련된 많은 기술적 효과가 있다. 도 7에 나타낸 바와 같이, GC 함량 효과는 또한 LOWESS를 사용하여 보정될 수 있다. LOWESS는, 기술적 효과의 각 수준에 대한 보정을 정의하고 인자에 의해 빈 스코어를 정규화(감산)하는 데 사용될 수 있다. 도 8a 내지 도 8b에 나타낸 바와 같이, LOWESS는 gc 백분율의 각 값인 p에 가장 가까운 gc 값을 갖는 데이터 포인트의 서브 세트(gc, bin_score)만 사용하는 p를 중심으로 하는 저차 다항식 피팅의 추정에 의해 p에서 보정을 계산한다.

도 9는, 다양한 구현예에 따른, 배아에서 염색체 이상을 확인하기 위한 시스템의 개략도이다. 시스템(900)은 시퀀서(902), 컴퓨팅 장치/분석 서버(904) 및 디스플레이(912)를 포함한다.

시퀀서(902)는 컴퓨팅 장치/분석 서버(904)에 통신 가능하게 연결된다. 다양한 구현예에서, 컴퓨팅 장치(904)는 "하드와이어드(hardwired)" 물리적 네트워크 연결(예를 들어, 인터넷, LAN, WAN, VPN 등) 또는 무선 네트워크 연결(예를 들어, Wi-Fi, WLAN 등)일 수 있는 네트워크 연결을 통해 게놈 시퀀서(902)에 통신 가능하게 연결될 수 있다. 다양한 구현예에서, 컴퓨팅 장치(904)는 워크스테이션, 메인프레임 컴퓨터, 분산 컴퓨팅 노드("클라우드 컴퓨팅" 또는 분산 네트워킹 시스템의 일부), 개인용 컴퓨터, 모바일 장치 등일 수 있다. 다양한 구현예에서, 게놈 시퀀서(902)는 핵산 시퀀서(예를 들어, NGS, 모세관 전기 영동 시스템 등), 실시간/디지털/정량적 PCR 기기, 마이크로어레이 스캐너 등일 수 있다. 그러나, 게놈 시퀀서(902)는 본질적으로 게놈 단편을 포함하는 샘플로부터 핵산 서열 데이터를 생성할 수 있는 임의의 유형의 기기일 수 있음을 이해해야 한다.

당업자는 게놈 시퀀서(502)의 다양한 구현예가 리게이션-기반 방법, 합성에 의한 시퀀싱, 단일 분자 방법, 나노포어 시퀀싱, 및 기타 시퀀싱 기법을 포함한 다양한 시퀀싱 방법을 실행하는 데 사용될 수 있음을 인식할 것이다. 리게이션 시퀀싱은 단일 리게이션 기법, 또는 다중 리게이션이 단일 1차 핵산 서열 가닥 상에서 순서대로 수행되는 변경 리게이션 기법을 포함할 수 있다. 합성에 의한 시퀀싱은 염료 표지된 뉴클레오티드, 사슬 종결, 이온/양성자 시퀀싱, 피로포스페이트 시퀀싱 등의 통합을 포함할 수 있다. 단일 분자 기법은, 핵 유형의 동일성이 시퀀싱 반응을 일시 중지하거나 지연할 필요없이 통합 중에 결정되는 연속 시퀀싱, 또는 통합된 뉴클레오티드의 동일성을 결정하기 위해 시퀀싱 반응이 일시 중지되는 스태거드 시퀀스(staggered sequence)를 포함할 수 있다.

다양한 구현예에서, 게놈 시퀀서(902)는 폴리뉴클레오티드 또는 올리고뉴클레오티드와 같은 핵산의 서열을 결정할 수 있다. 핵산은 DNA 또는 RNA를 포함할 수 있으며, ssDNA 및 RNA와 같은 단일 가닥 또는 dsDNA 또는 RNA/cDNA 쌍과 같은 이중 가닥일 수 있다. 다양한 구현예에서, 핵산은 단편 라이브러리, 메이트 쌍(mate pair) 라이브러리, 염색질 면역-침전(ChIP) 단편 등을 포함하거나 그로부터 유래될 수 있다. 특정 구현예에서, 게놈 시퀀서(902)는 단일 핵산 분자 또는 실질적으로 동일한 핵산 분자들의 그룹으로부터 서열 정보를 얻을 수 있다.

다양한 구현예에서, 게놈 시퀀서(902)는, *.fasta, *.csfasta, *.xsq, *seq.txt, *qseq.txt, *.fastq, *.sff, *prb.txt, *.sms, *srs 및/또는 *.qv.를 포함하지만 이로 한정되지 않는 여러가지 다양한 출력 데이터 파일 유형/포맷으로 핵산 시퀀싱 리드 데이터(게놈 서열 정보)를 출력할 수 있다.

다양한 구현예에서, 시퀀서(902)는, 샘플 실행 동안 시퀀서(902)에 의해 생성된 샘플 게놈 시퀀싱 정보를 저장하도록 구성된 데이터 저장소를 추가로 포함한다.

컴퓨팅 장치/분석 서버(904)는 데이터 노이즈 제거 엔진(906), 인공 지능(AI)/기계 학습(ML) 기반 해석 엔진(908) 및 AI/ML 기반 성 이수성 확인 엔진(910)을 호스팅하도록 구성될 수 있다.

데이터 노이즈 제거 엔진(906)은, 시퀀서(902)(또는 시퀀서(902)와 관련된 데이터 저장소)로부터 샘플 게놈 서열 정보를 수신하고, 샘플 게놈 서열 정보를 기준선 게놈 서열 정보에 대해 정규화하여 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정하고, 샘플링 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자를 적용하여 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성하도록 구성될 수 있다.

AI/ML 기반 해석 엔진(908)은, 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트에서 염색체 위치에 정렬된 게놈 서열 리드의 빈도가 빈도 임계치에서 벗어날 때 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트에서 카피 수 변이를 확인하도록 구성될 수 있다.

AI/ML 기반 성 이수성 엔진(910)은, 훈련된 신경망을 이용하여 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 분석하고 배아의 성 이수성 상태를 분류하도록 구성될 수 있다.

염색체 이상이 확인된 후, 결과는 컴퓨팅 장치(904)에 통신 가능하게 연결되는 디스플레이 또는 클라이언트 단말기(912)에 표시될 수 있다. 다양한 구현예에서, 클라이언트 단말기(912)는 씬 클라이언트(thin client) 컴퓨팅 장치일 수 있다. 다양한 구현예에서, 클라이언트 단말기(912)는 데이터 노이즈 제거 엔진(906), 인공 지능(AI)/기계 학습(ML) 기반 해석 엔진(908) 및/또는 AI/ML 기반 성 이수성 확인 엔진(910)의 동작을 제어하는 데 사용될 수 있는 웹 브라우저(예를 들어, INTERNET EXPLORER^TM, FIREFOX^TM, SAFARI^TM 등)를 갖는 개인용 컴퓨팅 장치일 수 있다.

해석

빈-수준 정규화 및 노이즈 제거가 완료될 때, 빈-스코어는 1.0(카피 수 상태 2를 나타냄)을 중심으로 한다. 이어서, 기계 학습 및 "인공 지능" 방법이 사용되어 유전자좌 스코어를 핵도 및 임상 이수성 호출로 해석(또는 디코딩)할 수 있다.

도 12에 나타낸 바와 같이, HMM(Hidden Markov Model)은 음성 인식 및 신호 처리에서 일반적인 기계 학습 기법들의 패밀리이다. 각 염색체에 대해, 사용자가 원하는 분해능 및 입력 데이터 특성에 의해 매개 변수화된 방출 및 전이 확률로 유한 상태 기계가 구성된다.

각 염색체 위치인 j에서, 모델은 다수의 상태를 가지며, 각 상태는 카피 수 변화의 분율을 나타낸다. 초기 상태에는 모두 동일한 확률이 주어지고, 다음 게놈 빈으로 진행할 때 상태들 간의 이행(transition)은 평균적으로 ≥3 메가베이스의 영역을 만드는 지속시간 모델링(duration modeling)에 의해 정의된다(이는 구성 가능한 매개 변수이므로 메가베이스 빈 크기에서 2.0이 아닌 카피 수 상태에 남아있을 확률은 1/3이고 다른 모든 이행은 동일한 확률을 가짐). 각 상태가 내보내는 스코어는 빈 스코어로부터 추정된 표준 편차 및 카피 수 값인 k*res(여기서 res는 (디폴트(default) 0.01에 의한) 정의된 분해능임)에 대한 평균값인 (k*res)/2.0을 지닌 정규 분포(본 발명의 범위에서 다양한 분포가 가능함)를 따른다. 본 발명의 HMM을 고려하여 카피 수에 빈을 할당하는 과정은 디코딩으로 일컬어지며, 이는 상태의 멤버쉽 확률을 각 관측에 할당하는 표준 방법인 포워드-백워드(forward-backward) 알고리즘을 사용하여 수행된다. Viterbi와 같은 다른 디코딩 알고리즘이 또한 사용될 수 있다. 포워드 백워드 알고리즘에 의한 초기 디코딩은 각 빈이 각 상태로 존재할 확률을 정의하고, 그에 따라 각 빈을 카피 수 상태에 할당한다.

다양한 구현예에서, 본원에 개시된 시스템 및 방법은 데이터의 비균일성을 수용할 수 있다. 앞서 설명된 "Blue Fuse" 방법에서, 모든 유전자좌에 걸쳐 모든 샘플에 대해 일정한 분산(디폴트 0.33)이 가정된다. 본원에 개시된 바와 같이, HMM은 디폴트로 관심 샘플의 동적으로 계산된 분산에 의해 매개 변수화되며, 이는 더 낮은 분산을 지닌 샘플(종종 더 깊은 시퀀싱 깊이 또는 더 높은 DNA 품질을 지닌 샘플)에 대해 더 높은 분해능을 가능하게 하고 더 가변적인 샘플(종종 더 얕은 시퀀싱 깊이 또는 더 낮은 DNA 품질을 지닌 샘플)에 대해 위양성 비-이배체 할당 수를 제어한다.

다양한 구현예에서, 본원에 개시된 시스템 및 방법은 기계 학습을 사용하여 카피 수를 유전자좌에 할당함으로써 데이터의 비균질성 및 이분산성(hetero-scedasticity)이 설명될 수 있게 한다. 예를 들어, 도 13a 내지 도 13b에 나타낸 바와 같이, 정규화되고 노이즈 제거된 빈 스코어는 일정한 중심을 갖지만, 다양한 산포(spread) 또는 표준 편차를 갖는다. 특히, 도 13a는 15번 염색체에서의 결실을 보여주는 핵도 그래프를 도시한다. 노이즈 제거되고 정규화된 빈 스코어(1306)는 디코딩된 카피 수 라인(1302) 주위에 더 밀접하게 분포된다. 도 13b는 기준선 정규화된 배아 샘플의 서브 세트의 정규화된 빈 스코어(1304)가 비정규화된 빈 스코어(1308)의 불변 분산에 대해 보여지는 핵도 그래프를 도시한다. HMM은 유전자좌 특이적 가변성을 수용하기 위해 비균질 방식으로 작동할 수 있다.

순환 이진 분할(circular binary segmentation), 그리디(greedy) 알고리즘, 및 카피 수 상태를 할당하는 데 사용될 수 있으며 여전히 본 개시의 범위에 있을 수 있는 다른 것과 같은 다양한 다른 비-HMM 방법이 존재한다.

다양한 구현예에서, 본원에 개시된 시스템 및 방법은 배아에서 복합 성 이수성의 존재를 정확하게 결정하는 능력을 갖는다. 상기 논의된 BLUEFUSE® 방법은, 예를 들어, 47:XXY(성 이수성), 47:XXX(성 이수성), 69:XXY(삼배수성) 또는 69:XYY(삼배수성)의 자동 복합 이수성 호출을 제공할 수 없다.

도 14는, 다양한 구현예에 따른, 복합 배아 성 이수성을 결정하기 위해 염색체 클러스터를 사용하는 방법을 도시하는 플롯이다. 이 방법은, 마할라노비스 통계 거리를 사용하는 k-최근접 이웃과 같은 분류 방법과 함께 {X에 정렬된 서열의 비율, 빈 정규화된 X 염색체 스코어, Y에 정렬된 서열의 비율, 빈 정규화된 Y 스코어}로 이루어진 벡터 상의 k 최근접 이웃과 같은 기계 학습 방법을 사용하여 성 이수성 상태를 할당한다.

다양한 구현예에서, 본원에 개시된 시스템 및 방법은 또한 신경망 방법 및 다른 "인공 지능" 방법을 이용할 수 있다. 즉, 게놈에 걸쳐서 그로부터의 빈 스코어는 신경 학습 다층 퍼셉트론 방법으로 처리되어 이수성 상태를 예측할 수 있다.

다양한 구현예에서, 피드 포워드 네트워크로 공급되는 게놈에 걸쳐 빈 스코어의 전부 또는 일부의 입력을 지정하기 위해 사용되는 신경망 토폴로지(1500)는 도 15에 나타낸 바와 같이 복합 성 이수성 결과/호출(1506)과 함께 각각 4개(1502) 및 2개(1504)의 노드를 포함하는 2개의 은닉층으로 이루어진다. 이어서, 역전파(backpropagation)가 사용되어 배아 성 이수성 상태가 알려진 훈련 데이터 세트에 걸쳐 신경망 가중치를 구성할 수 있다.

도 16은, 다양한 구현예에 따른, 피드 포워드 네트워크 구조의 도시이다. 다양한 구현예에서, 네트워크에 대한 입력(입력층)은, 위의 "노이즈 제거 및 정규화" 설명에서 또는 유사한 프로세스를 통해 구성된 바와 같은, 정규화된 빈 스코어의 서브 세트이며, 디폴트로 X 및 Y 염색체 및 모든 상 염색체(인간 게놈의 1번 내지 22번 염색체)에서 모든 정규화된 빈이 사용된다. 다양한 구현예에서, 검사에 의해 결정되거나 성별 결정에 더 중요한 빈을 결정하기 위한 프로세스에 의해 추정되는 바와 같은 염색체 또는 염색체 빈의 서브 세트가 또한 사용될 수 있다.

네트워크의 은닉층은 입력과 출력 사이에 있다. 다양한 구현예에서, 배아에서 복합 성 이수성을 확인하기 위한 신경망은 2개의 은닉층을 포함하며, 여기서 첫 번째 은닉층은 4개의 노드로 이루어지고, 두 번째 은닉층은 2개의 노드로 이루어지며, 각 층은 추가적인 바이어스 노드를 갖는다. 그러나, 특정 애플리케이션의 요건에 따라 다양한 노드를 지닌 다양한 수의 은닉층이 또한 사용될 수 있다는 것을 인식해야 한다.

최종 출력층은 가능한 결과 각각에 대해 하나의 노드(이 경우, 각 성별 상태에 대해 하나의 노드)를 갖는다.

각 비-입력 노드의 구조는 출력이 입력의 비선형 "활성화 함수"인 표준 퍼셉트론일 수 있다. 디폴트로 활성화 함수는 ReLU(rectifier linear unit)일 수 있지만, ELU, 시그모이드(sigmoid), ArcTangent, Step, 소프트맥스(softmax) 및 많은 다른 활성화 함수가 본 개시의 범위에서 사용될 수 있다.

ReLU 활성화의 경우, 출력인 f는 노드 입력인 x가 주어지면 max(0, x)이다.

그러나, 많은 다른 유형의 신경망, 예를 들어, 컨벌루션(convolutional) 신경망(추가적인 풀링(pooling) 및 컨벌루션 층을 지님), 순환 신경망(노드가 이전 노드에 연결되어 있음) 등이 본 개시의 범위에서 적용될 수 있음을 이해해야 한다.

본원에 개시된 시스템 및 방법의 뚜렷한 장점 중 하나는 이전에 실행된 샘플 및 해석이 누적되어 시간이 지남에 따라 시스템 및 방법이 더 정확해 지도록 훈련시키는 데 도움이 될 수 있는 향후 디코딩을 알려줄 수 있다는 것이다. 본원에 개시된 시스템 및 방법의 다양한 구현예에서, 부모 샘플 내의 특징 및/또는 전좌에 대한 지식은 학습에 또한 통합되어 작은 전좌의 검출을 가능하게 할 수 있다.

도 11은, 다양한 구현예들에 따른, 배아에서 성 이수성을 확인하기 위한 방법(1100)을 보여주는 예시적인 흐름도이다.

단계(1102)에서, 배아로부터 얻은 샘플 게놈 서열 정보가 수신된다. 샘플 게놈 정보는 NGS, PCR 등을 포함한 다양한 게놈 시퀀싱 기법을 사용하여 생성된 복수의 게놈 서열 리드로 이루어진다. 단계(1104)에서, 샘플 게놈 서열 정보는 참조 게놈에 대해 정렬된다. 다양한 구현예에서, 참조 게놈은 인간 참조 게놈이다.

단계(1106)에서, 샘플 게놈 서열 정보는 기준선 게놈 서열 정보에 대해 정규화되어 유전자좌 효과에 대한 샘플 게놈 서열 정보를 보정한다.

다양한 구현예에서, 유전자좌 효과에 대한 샘플 게놈 서열 정보를 정규화하는 것은 먼저 빈 크기를 설정하는 것을 포함한다. 다양한 구현예에서, 빈 크기는 1 메가베이스(mb)로 설정된다. 그러나, 빈 크기는 인간 게놈의 길이를 초과하지 않는 한 100 kb, 500 kb, 또는 1 백만 내지 2 천만 사이의 임의의 다른 값을 포함하는 임의의 크기로 설정될 수 있는 것으로 이해해야 한다. 다음으로, 샘플 게놈 서열 정보 및 기준선 게놈 서열 정보는 선택된 빈 크기에 기초하여 복수의 빈으로 분할된다. 이어서, 복수의 샘플 게놈 서열 정보 빈 각각에 정렬된 샘플 게놈 서열 정보로부터의 게놈 서열 리드의 수가 결정되어 복수의 샘플 게놈 서열 정보 빈 각각에 대한 샘플 빈 스코어를 생성한다.

단계(1108)에서, 오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자가 적용되어, 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성하였다.

단계(1110)에서, 훈련된 신경망 알고리즘/기법을 사용하여 노이즈 제거된 샘플 서열 정보 데이터 세트가 분석되어 배아의 복합 성 이수성 상태를 분류할 수 있다.

컴퓨터 구현 시스템

다양한 구현예에서, 배아에서 염색체 이상을 확인하기 위한 방법은 컴퓨터 소프트웨어 또는 하드웨어를 통해 구현될 수 있다. 즉, 도 9에 도시된 바와 같이, 방법은 데이터 노이즈 제거 엔진(906), 인공 지능(AI)/기계 학습(ML) 기반 해석 엔진(908) 및 AI/ML 기반 성 이수성 확인 엔진(910)을 포함하는 컴퓨팅 장치/시스템(904)에서 구현될 수 있다. 다양한 구현예에서, 컴퓨팅 장치/시스템(904)은 직접 연결 또는 인터넷 연결을 통해 NGS 시퀀서(902) 및 디스플레이 장치(912)에 통신 가능하게 연결될 수 있다.

도 9에 도시된 다양한 엔진은 특정 애플리케이션 또는 시스템 아키텍처의 요건에 따라 단일 엔진, 컴포넌트 또는 모듈로 합쳐지거나 축소될 수 있다는 것을 인식해야 한다. 더욱이, 다양한 구현예에서, 데이터 노이즈 제거 엔진(906), 인공 지능(AI)/기계 학습(ML) 기반 해석 엔진(908) 및 AI/ML 기반 성 이수성 확인 엔진(910)은 특정 애플리케이션 또는 시스템 아키텍처에서 필요로 하는 경우 추가적인 엔진 또는 컴포넌트를 포함할 수 있다.

도 10은 본 교시의 구현예가 구현될 수 있는 컴퓨터 시스템(1000)을 예시하는 블록 다이어그램이다. 본 교시의 다양한 구현예에서, 컴퓨터 시스템(1000)은 정보를 전달하기 위한 버스(1002) 또는 다른 통신 메커니즘, 및 정보를 처리하기 위해 버스(1002)와 커플링된 프로세서(1004)를 포함할 수 있다. 다양한 구현예에서, 컴퓨터 시스템(1000)은 또한, 프로세서(1004)에 의해 실행될 명령을 결정하기 위해 버스(1002)에 커플링된, 랜덤 액세스 메모리(RAM)(1006) 또는 다른 동적 저장 장치일 수 있는 메모리를 포함할 수 있다. 메모리는 또한 프로세서(1004)에 의해 실행될 명령의 실행 동안 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수 있다. 다양한 구현예에서, 컴퓨터 시스템(1000)은, 프로세서(1004)에 대한 정적 정보 및 명령을 저장하기 위해 버스(1002)에 커플링된 읽기 전용 메모리(ROM)(1008) 또는 다른 정적 저장 장치를 추가로 포함할 수 있다. 정보 및 명령을 저장하기 위해 자기 디스크 또는 광 디스크와 같은 저장 장치(1010)가 제공되어 버스(1002)에 커플링될 수 있다.

다양한 구현예에서, 컴퓨터 시스템(1000)은 컴퓨터 사용자에게 정보를 표시하기 위해 버스(1002)를 통해 음극선관(CRT) 또는 액정 디스플레이(LCD)와 같은 디스플레이(1012)에 커플링될 수 있다. 영숫자 및 기타 키를 포함하는 입력 장치(1014)는 정보 및 명령어 선택을 프로세서(1004)에 전달하기 위해 버스(1002)에 커플링될 수 있다. 다른 유형의 사용자 입력 장치는, 방향 정보 및 명령어 선택을 프로세서(1004)에 전달하고 디스플레이(1012) 상의 커서 이동을 제어하기 위한 마우스, 트랙볼(trackball) 또는 커서 방향 키와 같은 커서 컨트롤(cursor control)(1016)이다. 이 입력 장치(1014)는 일반적으로 2개의 축인 제1 축(즉, x) 및 제2 축(즉, y)에서 2개의 자유도를 가지며, 이는 장치가 평면에서 위치를 지정할 수 있도록 한다. 그러나, 3차원(x, y 및 z) 커서 이동을 가능하게 하는 입력 장치(1014)가 또한 본원에서 고려된다는 것을 이해해야 한다.

본 교시의 특정 구현과 일치하게, 결과는 메모리(1006)에 포함된 하나 이상의 명령의 하나 이상의 시퀀스를 실행하는 프로세서(1004)에 응답하여 컴퓨터 시스템(1000)에 의해 제공될 수 있다. 그러한 명령은 저장 장치(1010)와 같은 다른 컴퓨터 판독 가능 매체 또는 컴퓨터 판독 가능 저장 매체로부터 메모리(1006)로 읽혀질 수 있다. 메모리(1006)에 포함된 명령 시퀀스의 실행은 프로세서(1004)로 하여금 본원에 설명된 프로세스를 수행하게 할 수 있다. 대안적으로, 본 교시를 구현하기 위해 소프트웨어 명령 대신에 또는 소프트웨어 명령과 조합하여 하드-와이어드 회로가 사용될 수 있다. 따라서, 본 교시의 구현은 하드웨어 회로와 소프트웨어의 임의의 특정 조합으로 한정되지 않는다.

본원에 사용되는 바와 같은 "컴퓨터 판독 가능 매체"(예를 들어, 데이터 저장소, 데이터 저장 장치 등) 또는 "컴퓨터 판독 가능 저장 매체"라는 용어는 실행을 위해 프로세서(1004)에 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다. 그러한 매체는 비휘발성 매체, 휘발성 매체, 및 전송 매체를 포함하지만 이로 한정되지 않는 많은 형태를 취할 수 있다. 비휘발성 매체의 예에는 저장 장치(1010)와 같은 광, 고체 상태, 자기 디스크가 포함될 수 있지만 이로 한정되지 않는다. 휘발성 매체의 예에는 메모리(1006)와 같은 동적 메모리가 포함될 수 있지만 이로 한정되지 않는다. 전송 매체의 예에는 버스(1002)를 포함하는 와이어를 포함한 동축 케이블, 구리 와이어, 및 광섬유가 포함될 수 있지만 이로 한정되지 않는다.

컴퓨터 판독 가능 매체의 일반적인 형태는, 예를 들어, 플로피 디스크, 플렉서블 디스크, 하드 디스크, 자기 테이프, 또는 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학 매체, 펀치 카드, 종이 테이프, 구멍 패턴이 있는 임의의 다른 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 또는 컴퓨터가 읽을 수 있는 임의의 다른 유형 매체(tangible medium)를 포함한다.

컴퓨터 판독 가능 매체에 추가하여, 실행을 위해 컴퓨터 시스템(1000)의 프로세서(1004)에 하나 이상의 명령 시퀀스를 제공하기 위해 명령 또는 데이터가 통신 장치 또는 시스템에 포함된 전송 매체 상의 신호로 제공될 수 있다. 예를 들어, 통신 장치는 명령 및 데이터를 나타내는 신호를 갖는 트랜시버(transceiver)를 포함할 수 있다. 명령 및 데이터는 하나 이상의 프로세서가 본원의 개시에 설명된 기능을 구현하게 하도록 구성된다. 데이터 통신 전송 연결의 대표적인 예에는 전화 모뎀 연결, WAN(wide area network), LAN(local area network), 적외선 데이터 연결, NFC 연결 등이 포함될 수 있지만 이로 한정되지 않는다.

본원에 설명된 방법론, 흐름도, 다이어그램 및 수반되는 개시는 컴퓨터 시스템(1000)을 독립형 장치로 사용하여 또는 클라우드 컴퓨팅 네트워크와 같은 공유 컴퓨터 처리 리소스의 분산 네트워크 상에서 구현될 수 있다는 것을 인식해야 한다.

실험 결과

배수성 분류의 전반적 정확도의 개선을 정량화하기 위해 본원에 개시된 개선된 시스템 및 방법을 배아에서 염색체 이상을 확인하는 통상적인 접근법과 비교하였다.

도 17은 본원에 개시된 개선된 시스템 및 방법(PGTai)을 통상적인 주관적 호출 방법(ILLUMINA®에서 제공하는 BLUEFUSE® 소프트웨어)과 비교할 때 다양한 배수성 분류의 순 변화를 보여주는 그래프이다. 6개월 기간에 걸쳐, 본원에 설명된 시스템 및 방법(즉, PGTai)으로 약 20,000개의 배아를 분석하고 분류했다. 분류 비율을 통상적인 주관적 수단(즉, BLUEFUSE®)에 의해 해석된 대조 배아 집단과 비교하였다. 이어서, 분류 비율을 상대적 비교에 의해 평가하고, 본원에 개시된 신규 시스템 및 방법에 의해 달성된 전반적 분류 비율 대 통상적인 수단에 의한 분류 비율에 주목했다. 예를 들어, 본원에 개시된 신규 시스템 및 방법이 배아의 46%가 정배수체로 분류되었음을 나타낸 한편, 통상적인 방법론은 동일한 출처 집단이 통상적인 주관적 해석에 의해 41%의 정배수체 비율을 생성했음을 나타낸 경우, 이는 +5%로 표시된다. 전술한 바와 같이, 특히 완화되지 않은 노이즈가 존재하는 경우 주관적 해석은 부정확한 경향이 있다. 특히, 노이즈의 존재, 또는 비정상적으로 낮은 신호 대 노이즈 비는 과잉 해석(over-interpretation)을 초래한다. 이 설정에서, 과잉 해석은 위양성 범주화로 표시된다. 배아 유전학에서, 일례로서, 이는 모자이크로 해석되는 진정한 정배수체, 또는 이수체로 해석되는 진정한 모자이크로 표시될 수 있다. 도 17에 나타낸 바와 같이, 총합이 대략 40,000개인 배아를 (20,000개는 본원에 개시된 시스템 및 방법에 의해, 20,000개는 통상적인 주관적 방법에 의해) 분석했을 때, 이수체 및 모자이크 비율의 실질적 감소가 관찰된 한편, 정배수체 분류 비율의 실질적 증가가 관찰되었다. 동일한 임상 센터로부터 얻은 물질이 동일한 실험실에서 데이터 분석 방법만 달리하여 처리되었음을 고려할 때, 이러한 결과는 본원에 설명된 개선된 노이즈 제거 프로세스가 노이즈의 과잉 해석으로 인한 부정확한 호출을 감소시켰음을 나타냈다.

본원에 설명된 방법론은 애플리케이션에 따라 다양한 수단에 의해 구현될 수 있다. 예를 들어, 이러한 방법론은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 하드웨어 구현의 경우, 처리 유닛은 하나 이상의 ASIC(application specific integrated circuit), DSP(digital signal processor), DSPD(digital signal processing device), PLD(programmable logic device), FPGA(field programmable gate array), 프로세서, 컨트롤러, 마이크로-컨트롤러, 마이크로프로세서, 전자 장치, 본원에 설명된 기능을 수행하도록 설계된 기타 전자 장치, 또는 이들의 조합 내에서 구현될 수 있다.

다양한 구현예에서, 본 교시의 방법은 C, C++, 파이썬 등과 같은 통상적인 프로그래밍 언어로 작성된 펌웨어 및/또는 소프트웨어 프로그램 및 애플리케이션으로 구현될 수 있다. 펌웨어 및/또는 소프트웨어로 구현되는 경우, 본원에 설명된 구현예는 컴퓨터가 상기 설명된 방법을 수행하게 하기 위해 프로그램이 저장되는 비-일시적 컴퓨터 판독 가능 매체 상에서 구현될 수 있다. 본원에 설명된 다양한 엔진은 컴퓨터 시스템(1000)과 같은 컴퓨터 시스템 상에 제공될 수 있으며, 이에 의해 프로세서(1004)는 메모리 컴포넌트(1006/1008/1010) 및 입력 장치(1014)를 통해 제공되는 사용자 입력 중 어느 하나 또는 이들의 조합에 의해 제공되는 명령에 따라 이러한 엔진에 의해 제공되는 분석 및 결정을 실행할 것임을 이해해야 한다.

본 교시는 다양한 구현예와 관련하여 설명되었지만, 본 교시가 그러한 구현예로 한정되는 것으로 의도되지 않는다. 반대로, 본 교시는 당업자에 의해 인식되는 바와 같이 다양한 대안, 수정, 및 등가물을 포함한다.

다양한 구현예를 설명함에 있어서, 명세서는 방법 및/또는 프로세스를 단계들의 특정 시퀀스로 제시했을 수 있다. 그러나, 방법 또는 프로세스가 본원에 제시된 단계들의 특정 순서에 좌우되지 않는 한, 방법 또는 프로세스는 설명된 단계들의 특정 시퀀스로 한정되지 않아야 한다. 당업자가 인식하는 바와 같이, 단계들의 다른 시퀀스가 가능할 수 있다. 따라서, 명세서에 제시된 단계들의 특정 순서는 청구범위에 대한 제한으로 해석되지 않아야 한다. 또한, 방법 및/또는 프로세스에 관한 청구항은 기록된 순서로의 단계들의 수행으로 한정되지 않아야 하고, 당업자는 시퀀스가 달라질 수 있으며 이것이 여전히 다양한 구현예의 사상 및 범위 내에 있을 수 있음을 쉽게 인식할 수 있다.

Claims

배아로부터 얻은 샘플 게놈 서열 정보를 수신하는 단계로서, 상기 샘플 게놈 서열 정보는 복수의 게놈 서열 리드(read)로 이루어진, 단계;
상기 샘플 게놈 서열 정보를 참조 게놈에 대해 정렬하는 단계;
상기 샘플 게놈 서열 정보를 기준선 게놈 서열 정보에 대해 정규화하여, 유전자좌 효과에 대한 상기 샘플 게놈 서열 정보를 보정하고 정규화된 샘플 게놈 서열 정보 데이터 세트를 생성하는 단계;
오류 인자의 회귀 분석으로부터 도출된 하나 이상의 보정 인자를 상기 정규화된 샘플 게놈 서열 정보 데이터 세트에 적용하여, 기술적 효과를 보정하고 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 생성하는 단계; 및
상기 참조 게놈 상의 염색체 위치에 정렬된 게놈 서열 리드의 빈도가 빈도 임계치에서 벗어날 때 상기 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트에서 카피 수 변이를 확인하는 단계를 포함하는,
배아에서 염색체 이상을 확인하는 방법.
제1항에 있어서, 유전자좌 효과에 대한 상기 샘플 게놈 서열 정보를 정규화하는 것은,
빈(bin) 크기를 설정하는 단계;
상기 샘플 게놈 서열 정보 및 상기 기준선 게놈 서열 정보를 상기 빈 크기에 기초하여 복수의 샘플 게놈 서열 정보 빈으로 분할하는 단계;
상기 복수의 샘플 게놈 서열 정보 빈 각각에 대한 샘플 빈 스코어를 생성하기 위해 상기 복수의 샘플 게놈 서열 정보 빈 각각에 정렬된 상기 샘플 게놈 서열 정보로부터 게놈 서열 리드의 수를 결정하는 단계;
상기 복수의 기준선 게놈 서열 정보 빈 각각에 대한 기준선 빈 스코어를 생성하기 위해 상기 복수의 기준선 게놈 서열 정보 빈 각각에 정렬된 상기 기준선 게놈 서열 정보로부터 게놈 서열 리드의 수를 결정하는 단계;
상기 샘플 빈 스코어를 상기 기준선 빈 스코어에 대해 정규화하는 단계; 및
정규화된 샘플 게놈 서열 정보 데이터 세트를 생성하는 단계를 추가로 포함하는, 방법.
제2항에 있어서,
정배수체(euploid) 배아로부터 얻은 복수의 기준선 게놈 서열 정보 데이터 세트를 수신하는 단계;
상기 복수의 기준선 게놈 서열 정보 데이터 세트 각각에 대한 빈 스코어를 결정하는 단계;
상기 복수의 기준선 게놈 서열 정보 데이터 세트로부터, 상기 샘플 게놈 서열 정보에 대한 유사성 임계치를 초과하는 빈 스코어를 갖는 기준선 게놈 서열 정보 데이터 세트의 서브 세트(subset)를 선택하는 단계; 및
기준선 게놈 서열 정보 데이터 세트 중 상기 선택된 서브 세트에서 빈 스코어의 중앙값을 결정함으로써 기준선 빈 스코어를 생성하는 단계를 추가로 포함하는, 방법.
제3항에 있어서,
상기 복수의 기준선 게놈 서열 정보 데이터 세트 각각에 대한 유사성 값을 계산하는 단계로서, 상기 유사성 값은 각 기준선 게놈 서열 정보 데이터 세트가 상기 샘플 게놈 서열 정보와 얼마나 유사한 지에 대한 척도인, 단계를 추가로 포함하는, 방법.
제4항에 있어서, 상기 유사성 값은 유클리드 거리(Euclidian distance) 분석 또는 마할라노비스 거리(Mahalanobis distance) 분석을 사용하여 결정되거나, 상기 기준선 게놈 서열 정보 데이터 세트와 상기 샘플 게놈 서열 정보 사이의 유사성 백분율인, 방법.
제1항에 있어서, 상기 기술적 효과에 대해 샘플 게놈 서열 정보를 보정하는 것은,
국소 가중 산점도 평활(locally weighted scatterplot smoothing) 회귀 분석을 사용하여 상기 하나 이상의 보정 인자를 계산하는 단계를 추가로 포함하는, 방법.
제1항에 있어서, 상기 오류 인자는 GC 함량 관련되거나, 증폭 바이어스(bias) 관련되거나, 2차 구조 관련되거나, 뉴클레오솜 밀도 관련되거나, miRNA 차단(interdiction) 관련되거나, 유전자 발현 관련되거나, 이들의 조합인, 방법.
제1항에 있어서,
상기 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트로부터 핵도(karyogram) 또는 분자 핵형을 생성하는 단계; 또는 훈련된 신경망을 사용하여 상기 노이즈 제거된 샘플 게놈 서열 정보 데이터 세트를 분석하고 상기 배아의 성 이수성 상태를 분류하는 단계를 추가로 포함하는, 방법.