KR20240031369A - 유전적 조상을 예측하기 위한 시스템, 방법 및 장치 - Google Patents

유전적 조상을 예측하기 위한 시스템, 방법 및 장치 Download PDF

Info

Publication number
KR20240031369A
KR20240031369A KR1020247004167A KR20247004167A KR20240031369A KR 20240031369 A KR20240031369 A KR 20240031369A KR 1020247004167 A KR1020247004167 A KR 1020247004167A KR 20247004167 A KR20247004167 A KR 20247004167A KR 20240031369 A KR20240031369 A KR 20240031369A
Authority
KR
South Korea
Prior art keywords
genetic
populations
genotypes
local
animal
Prior art date
Application number
KR1020247004167A
Other languages
English (en)
Inventor
다니엘 가리건
제이슨 허프
포란 레베카 초드로프
Original Assignee
마아즈, 인코오포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마아즈, 인코오포레이티드 filed Critical 마아즈, 인코오포레이티드
Publication of KR20240031369A publication Critical patent/KR20240031369A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ecology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

일 실시예에서, 방법은 원시 유전자형을 포함하는, 제1 동물과 연관된 유전 물질 샘플에 액세스하는 단계와, 원시 유전자형에 기초하여 단계적 일배체형(phased haplotype)을 생성하는 단계와, 머신 러닝 알고리즘에 의해 단계적 일배체형에 대해, 참조 모집단과 연관된 참조 일배체형을 포함하는 참조 패널과 단계적 일배체형 사이의 비교에 기초하여 유전자 모집단에 대한 로컬 할당을 생성하는 단계와, 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 지침을 사용자 장치로 전송하는 단계를 포함하되, 출력은 유전자 모집단에 대한 로컬 할당에 기초하여 생성된다.

Description

유전적 조상을 예측하기 위한 시스템, 방법 및 장치
관련 출원에 대한 상호 참조
본 출원은 2021년 7월 7일에 출원된 미국 임시 특허 출원 번호 63/219,349의 우선권 혜택을 주장하며, 그 내용은 전체가 본 명세서에 참조로 포함되고 우선권이 주장된다.
기술분야
본 개시에 설명된 실시예는 입력된 DNA 서열에 기초하여 동물의 유전적 조상을 예측하는 시스템 및 방법에 관한 것이다.
현재의 동물 유전자 매핑 방법은 혼합된 유전체 샘플(admixed genome samples)을 정확하고 효율적으로 평가할 수 없다는 문제가 있다. 기존 방법으로는 다수의 쿼리 서열(query sequence)을 효율적으로 처리할 수 없으며, 제공된 특정 샘플의 기원을 정확하게 제공할 수도 없다. 그 결과, 현재 반려동물(및 기타 가축)의 유전체 분석은 단일 기원 샘플과 혼합 샘플 모두에서 만족할 만한 수준의 정확도를 달성하지 못하여 계산 능력이 낭비되고 부정확한 결과를 초래한다. 반려동물 유전체와 연관된 복잡성은 품종 간 교배로 인한 복잡한 유전자 프로파일의 가능성으로 인해 더욱 복잡해진다. 다운스트림 유전자 프로파일의 복잡성이 계속 증가하고 모집단 유전체 데이터 세트의 크기와 복잡성이 증가함에 따라, 상당한 계산 비용을 발생시키지 않고 상당한 정확도를 유지하면서 소정의 유전체 샘플의 로컬 및 글로벌 유전적 조상을 효율적으로 예측할 수 있는 시스템 및 방법이 필요하다.
질병 발생에 대한 유전적 위험 요인과 임상 및 수의사의 권장 사항에 관한 정보는 동물을 최적으로 관리, 모니터링 및 치료하는 데 도움이 될 수 있다. 조상의 기여도를 파악하는 것은 이러한 위험 요인을 결정하는 데 유용할 수 있다. 따라서, 조상의 기여도를 정확하고 효율적으로 파악할 수 있는 방법 및 시스템이 필요하다.
개시된 발명 대상의 목적 및 장점은 다음의 설명에서 명시할 것이며 또한 이로부터 명확할 것이고, 개시된 발명 대상의 실시를 통해 학습할 수 있을 것이다. 개시된 발명 대상의 추가적인 장점은 본 명세서 및 청구범위와, 첨부된 도면에 구체적으로 기재된 방법 및 시스템에 의해 실현되고 달성될 것이다.
이들 장점 및 기타 장점을 달성하기 위해, 그리고 개시된 발명 대상의 목적에 따라, 구체화되고 광범위하게 설명된 바와 같이, 개시된 발명 대상은 데이터를 수집, 수신 및/또는 분석하는 데 사용할 수 있는 시스템, 방법 및 장치를 제시한다. 예를 들어, 일부 비제한적 실시예는 동물의 유전적 조상을 예측하는 데 사용될 수 있다.
일부 비제한적 실시예에서, 본 개시는 원시 DNA 서열만으로부터 반려 동물의 유전적 조상 및 신체적 특성에 대한 예측을 생성하는 계산 및 통계 방법의 시스템을 설명한다. 이 예측 시스템은 유전적 조상 및 특성이 알려진 동물의 대규모 참조 패널의 정보를 활용하여 유전체 내의 작은 조각에 정확한 유전적 조상을 할당할 수 있다. 결과 조각은 이후 동물별로 집계되어 개별 동물이 미리 정의된 수백 가지의 순종 또는 혼합 부류 중 하나에 속하는지 예측하는 데 사용될 수 있다. 또한, 집계된 유전적 조상 분류는 동물의 성체 체중과 같은 신체적 특성을 정확하게 예측하는 데 사용할 수 있다.
일부 비제한적 실시예에서, 하나 이상의 컴퓨팅 시스템은 제1 동물과 연관된 유전 물질 샘플에 액세스할 수 있다. 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함할 수 있다. 컴퓨팅 시스템은 그 후 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형(phased haplotype)을 생성할 수 있다. 이어서, 컴퓨팅 시스템은 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당(local assignment)을 생성할 수 있다. 컴퓨팅 시스템은 또한 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 명령을 사용자 디바이스에 전송할 수 있다. 일부 실시예에서, 출력은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여 생성될 수 있다.
일부 비제한적 실시예에서, 소프트웨어를 구현하는 하나 이상의 컴퓨터 판독 가능한 비일시적 저장 매체는, 실행될 때 제1 동물과 연관된 유전 물질 샘플에 액세스하도록 작동할 수 있다. 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는 또한, 실행될 때 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형을 생성하도록 작동할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는 또한, 실행될 때 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성하도록 작동할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는 또한, 실행될 때 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 명령을 사용자 디바이스로 전송하도록 작동할 수 있다. 일부 실시예에서, 출력은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여 생성될 수 있다.
일부 비제한적인 실시예에서, 시스템은 하나 이상의 프로세서 및 프로세서에 의해 실행 가능한 명령어를 포함하는 프로세서에 결합된 비일시적 메모리를 포함할 수 있다. 프로세서는 명령어를 실행할 때 제1 동물과 연관된 유전 물질 샘플에 액세스하도록 작동할 수 있다. 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함할 수 있다. 프로세서는 또한 명령어를 실행할 때 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형을 생성하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 명령을 사용자 디바이스로 전송하도록 작동할 수 있다. 일부 실시예에서, 출력은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여 생성될 수 있다.
또한, 개시된 방법, 컴퓨터 판독 가능한 비일시적 저장 매체 및 시스템의 실시예는 후술하는 바와 같이 추가적인 비제한적인 특징을 가질 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 또한 하나 이상의 원시 유전자형에 기초하여, 하나 이상의 합의 유전자형(consensus genotype)을 더 생성할 수 있다. 그런 다음, 컴퓨팅 시스템은 하나 이상의 원시 유전자형 및 하나 이상의 합의 유전자형에 기초하여, 하나 이상의 단계적 일배체형을 생성할 수 있다. 일부 실시예에서, 생성하는 것은 하나 이상의 원시 유전자형 및 하나 이상의 합의 유전자형을 모계 및 부계 염색체로 단계적 분류하는 것을 포함할 수 있다. 일 특징으로, 하나 이상의 머신 러닝 알고리즘은 위치 버로우즈-휠러 변환 알고리즘을 포함할 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 하나 이상의 머신 러닝 알고리즘에 기초하여 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당과 연관된 하나 이상의 오류를 제거할 수 있다. 일 특징으로, 하나 이상의 머신 러닝 알고리즘은 은닉 마르코프 모델(hidden Markov model)을 포함할 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 또한 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여, 제1 동물과 연관된 하나 이상의 출처 모집단(source population)을 결정할 수 있다. 일부 실시예에서, 하나 이상의 출처 모집단을 결정하는 것은 모계 및 부계 염색체 모두에 걸쳐 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 집계하는 것과, 이들 집계에 기초하여 하나 이상의 출처 모집단과 연관된 비율을 계산하는 것과, 계산된 비율에 기초하여 하나 이상의 출처 모집단을 결정하는 것을 포함할 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 더 분할할 수 있다. 분할은 하나 이상의 클러스터링 알고리즘에 기초할 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 또한 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당 및 하나 이상의 출처 모집단에 기초하여, 제1 동물과 연관된 하나 이상의 유전적 특성을 결정할 수 있다. 일부 실시예에서, 하나 이상의 유전적 특성을 결정하는 것은 또한, 효과가 큰 변이체의 유전자형, 전장 유전체(genome-wide) 통계, 유전체 주성분 분석(PCA) 예측, DNA 메틸화 프로파일, 또는 다유전적 위험 점수 중 하나 이상에 기초할 수 있다. 일부 실시예에서, 하나 이상의 유전적 특성은 성체 체중 범위, 위험 예측 또는 유전 질환에 대한 소인(predisposition), 영양 권장 사항, 행동 및 기질 부류 예측, 수명 예측, 모든 원인에 의한 사망률 예측(년 단위), 예측된 약리 반응 또는 주사 마취제의 회복 시간 범위(시간 단위) 중 하나 이상을 포함한다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 또한 참조 패널에 추가된 하나 이상의 새로운 참조 샘플에 기초하여 하나 이상의 머신 러닝 알고리즘을 업데이트할 수 있다. 일부 실시예에서, 업데이트하는 것은 참조 패널의 모든 샘플에 걸쳐 교차 검증을 적용하고, 검출 알고리즘에 의한 교차 검증과 연관된 결과에 기초하여 하나 이상의 이상치(outlier)를 식별하고, 식별된 이상치를 참조 패널에서 제거하는 것을 포함할 수 있다. 일부 실시예에서, 업데이트하는 것은 참조 패널에서 하나 이상의 라벨이 없는 샘플에 대해 하나 이상의 라벨을 생성하는 것을 더 포함할 수 있으며, 여기서 업데이트하는 것은 생성된 라벨에 기초하여 이루어진다. 업데이트하는 것은 하나 이상의 머신 러닝 알고리즘의 미리 결정된 정확도 수준에 도달할 때까지 반복적으로 되풀이될 수 있다.
일부 비제한적 실시예에서, 본 개시는 본 명세서에 개시된 방법 중 임의의 방법으로 동물의 로컬 조상 및 글로벌 조상을 결정하기 위한 키트를 제공한다. 특정 실시예에서, 키트는 샘플 수집 장치를 포함한다. 특정 실시예에서, 샘플 수집 장치는 캐리어 및 저장소를 포함한다. 특정 실시예에서, 캐리어는 흡수 부재를 포함하며, 여기서 저장소는 실드를 포함한다. 특정 실시예에서, 키트는 샘플 수집 장치 사용 방법 및/또는 샘플 수집 방법에 대한 서면 지침을 더 포함한다.
일부 비제한적 실시예에서, 하나 이상의 컴퓨팅 시스템은 제1 동물과 연관된 유전 물질 샘플에 액세스할 수 있다. 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함할 수 있다. 그런 다음, 컴퓨팅 시스템은 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형(phased haplotype)을 생성할 수 있다. 그런 다음, 컴퓨팅 시스템은 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성할 수 있다. 컴퓨팅 시스템은 그 후 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여, 제1 동물과 연관된 하나 이상의 출처 모집단을 결정할 수 있다. 이어서, 컴퓨팅 시스템은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 분할할 수 있다. 그런 다음, 컴퓨팅 시스템은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당 및 하나 이상의 출처 모집단에 기초하여, 제1 동물과 연관된 하나 이상의 유전적 특성을 결정할 수 있다. 컴퓨팅 시스템은 또한 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 명령을 사용자 디바이스에 전송할 수 있다. 일부 실시예에서, 출력은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당, 하나 이상의 출처 모집단, 분할과 연관된 결과, 또는 하나 이상의 유전적 특성 중 하나 이상에 기초하여 생성될 수 있다.
일부 비제한적 실시예에서, 소프트웨어를 구현하는 하나 이상의 컴퓨터 판독 가능한 비일시적 저장 매체는, 실행될 때 제1 동물과 연관된 유전 물질 샘플에 액세스하도록 작동할 수 있다. 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는 또한, 실행될 때 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형을 생성하도록 작동할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는 또한, 실행될 때 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성하도록 작동할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는, 실행될 때 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여, 제1 동물과 연관된 하나 이상의 출처 모집단을 결정하도록 작동할 수있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는, 실행될 때 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 분할하도록 작동할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는, 실행될 때 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당 및 하나 이상의 출처 모집단에 기초하여, 제1 동물과 연관된 하나 이상의 유전적 특성을 결정하도록 작동할 수 있다. 소프트웨어를 구현하는 컴퓨터 판독 가능한 비일시적 저장 매체는 또한, 실행될 때 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 명령을 사용자 디바이스로 전송하도록 작동할 수 있다. 일부 실시예에서, 출력은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당, 하나 이상의 출처 모집단, 분할과 연관된 결과, 또는 하나 이상의 유전적 특성 중 하나 이상에 기초하여 생성될 수 있다.
일부 비제한적인 실시예에서, 시스템은 하나 이상의 프로세서 및 프로세서에 의해 실행 가능한 명령어를 포함하는 프로세서에 결합된 비일시적 메모리를 포함할 수 있다. 프로세서는 명령어를 실행할 때 제1 동물과 연관된 유전 물질 샘플에 액세스하도록 작동할 수 있다. 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함할 수 있다. 프로세서는 또한 명령어를 실행할 때 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형을 생성하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여, 제1 동물과 연관된 하나 이상의 출처 모집단을 결정하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 분할하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당 및 하나 이상의 출처 모집단에 기초하여, 제1 동물과 연관된 하나 이상의 유전적 특성을 결정하도록 작동할 수 있다. 프로세서는 또한, 명령어를 실행할 때 제1 동물과 연관된 출력을 사용자에게 제시하기 위한 명령을 사용자 디바이스로 전송하도록 작동할 수 있다. 일부 실시예에서, 출력은 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당, 하나 이상의 출처 모집단, 분할과 연관된 결과, 또는 하나 이상의 유전적 특성 중 하나 이상에 기초하여 생성될 수 있다.
또한, 개시된 방법, 컴퓨터 판독 가능한 비일시적 저장 매체 및 시스템의 실시예는 후술하는 바와 같이 추가적인 비제한적인 특징을 가질 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 또한 하나 이상의 원시 유전자형에 기초하여, 하나 이상의 합의 유전자형(consensus genotype)을 더 생성할 수 있다. 그런 다음, 컴퓨팅 시스템은 하나 이상의 원시 유전자형 및 하나 이상의 합의 유전자형에 기초하여, 하나 이상의 단계적 일배체형을 생성할 수 있다. 일부 실시예에서, 생성하는 것은 하나 이상의 원시 유전자형 및 하나 이상의 합의 유전자형을 모계 및 부계 염색체로 단계적 분류하는 것을 포함할 수 있다. 일 특징으로, 하나 이상의 머신 러닝 알고리즘은 위치 버로우즈-휠러 변환 알고리즘을 포함할 수 있다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 하나 이상의 머신 러닝 알고리즘에 기초하여 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당과 연관된 하나 이상의 오류를 제거할 수 있다. 일 특징으로, 하나 이상의 머신 러닝 알고리즘은 은닉 마르코프 모델(hidden Markov model)을 포함할 수 있다.
일부 비제한적 실시예에서, 하나 이상의 출처 모집단을 결정하는 것은 모계 및 부계 염색체 모두에 걸쳐 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 집계하는 것과, 집계에 기초하여 하나 이상의 출처 모집단과 연관된 비율을 계산하는 것과, 계산된 비율에 기초하여 하나 이상의 출처 모집단을 결정하는 것을 포함할 수 있다. 일부 실시예에서, 분할하는 것은 하나 이상의 클러스터링 알고리즘에 기초할 수 있다.
일부 비제한적 실시예에서, 하나 이상의 유전적 특성을 결정하는 것은 또한 효과가 큰 변이체의 유전자형, 전장 유전체 통계, 유전체 주성분 분석(PCA) 예측, DNA 메틸화 프로파일 또는 다유전적 위험 점수 중 하나 이상에 기초하여 이루어질 수 있다. 일부 실시예에서, 하나 이상의 유전적 특성은 성체 체중 범위, 위험 예측 또는 유전 질환에 대한 소인(predisposition), 영양 권장 사항, 행동 및 기질 부류 예측, 수명 예측, 모든 원인에 의한 사망률 예측(년 단위), 예측된 약리 반응 또는 주사 마취제의 회복 시간 범위(시간 단위) 중 하나 이상을 포함한다.
일부 비제한적 실시예에서, 컴퓨팅 시스템은 또한 참조 패널에 추가된 하나 이상의 새로운 참조 샘플에 기초하여 하나 이상의 머신 러닝 알고리즘을 업데이트할 수 있다. 일부 실시예에서, 업데이트하는 것은 참조 패널의 모든 샘플에 걸쳐 교차 검증을 적용하고, 검출 알고리즘에 의한 교차 검증과 연관된 결과에 기초하여 하나 이상의 이상치(outlier)를 식별하고, 식별된 이상치를 참조 패널에서 제거하는 것을 포함할 수 있다. 일부 실시예에서, 업데이트하는 것은 참조 패널에서 하나 이상의 라벨이 없는 샘플에 대해 하나 이상의 라벨을 생성하는 것을 더 포함할 수 있으며, 여기서 업데이트하는 것은 생성된 라벨에 기초하여 이루어진다. 업데이트하는 것은 하나 이상의 머신 러닝 알고리즘의 미리 결정된 정확도 수준에 도달할 때까지 반복적으로 되풀이될 수 있다.
전술한 일반적인 설명과 다음의 상세한 설명은 모두 예시적인 것이며, 개시된 청구 대상을 보다 상세하게 설명하기 위한 것임을 이해해야 한다. 본 개시의 이들 및 다른 특징, 양태 및 장점은 아래에 간략하게 설명되는 첨부 도면과 함께 다음의 상세한 설명을 읽으면 명백해질 것이다. 본 발명은 상기 언급된 실시예 중 2개, 3개, 4개 또는 그 이상의 조합뿐만 아니라 본 개시에 개시된 특징 또는 요소 중 2개, 3개, 4개 또는 그 이상의 조합을 포함하며, 이러한 특징 또는 요소가 본 개시의 특정 실시예 설명에 명시적으로 결합되어 있는지 여부와 무관하게 포함한다. 본 개시는, 문맥에서 명확하게 달리 지시하지 않는 한, 다양한 양태 및 실시예에서 개시된 본 발명의 임의의 분리 가능한 특징 또는 요소들이 결합 가능한 것으로 보이도록 전체적으로 해석되어야 할 것이다.
본 개시의 상기 및 다른 목적, 특징 및 장점은 첨부된 도면에 도시된 실시예에 대한 다음의 설명으로부터 명백할 것이며, 여기서 참조 부호는 다양한 도면에서 동일한 부분을 지칭한다. 도면은 반드시 축척될 필요는 없으며, 대신 본 개시의 원리를 설명하는 데 중점을 둔다.
도 1은 본 개시의 발명 대상에 따른 시스템의 예시적인 워크플로를 도시한 것이다.
도 2는 로컬 조상 분류기(local ancestry classifier)의 워크플로 예시를 보여준다.
도 3은 6 센티모건(centimorgan)과 48 센티모건 사이의 미리 결정된 하위 영역 길이를 변경한 결과를 보여주는 복수의 모델을 보여준다.
도 4는 본 개시의 발명 대상에 따른 예시적인 주변 매치 길이(marginal match length)를 보여준다.
도 5는 '염색체 페인팅' 모델(A)과 본 개시에서 설명하는 PBWT 기반 모델(B 및 C) 사이의 비교 예를 보여준다.
도 6은 평활화(smoothing) 프로세스의 예를 보여준다.
도 7a는 복수의 동물 종 및/또는 동물 품종과 관련된 혼동 행렬(confusion matrix)을 나타내고, 도 7b는 y축의 동물 품종을 보여주며, 도 7c는 x축의 동물 품종을 보여준다.
도 8은 k-평균 클러스터링(k-means clustering)을 사용하여 염색체 쌍을 모계 및 부계 복제로 분류한 예를 보여준다.
도 9는 염색체 세트에 대한 글로벌 조상 비율의 예시적인 주요 구성 요소를 보여준다.
도 10은 본 개시의 시스템과 최신 기술의 분류기 RFMix의 정확도 벤치마크의 예시적인 결과를 보여준다.
도 11은 글로벌 조상 분류기의 예시적인 수신기 동작 특성(ROC) 곡선을 보여준다.
도 12는 예측된 성체 체중과 실제 관찰된 성체 체중의 예시적인 회귀를 보여준다.
도 13은 이상 징후 탐지를 위해 격리 포리스트(isolation forest) 기법을 사용하여 로컬 조상 참조 패널의 예시적인 반복적 개선을 보여준다.
도 14는 조상 예측의 예시적인 방법을 보여준다.
반려동물 개체군 내에서 로컬 및 글로벌 유전적 조상 특성을 매핑하는 것은 개체군 유전학 연구의 지속적인 양태이다. 이러한 맥락에서 "조상(ancestry)"이라는 용어는 DNA의 일부가 유래된 출처 모집단을 지칭한다. 또한 '로컬 조상(local ancestry)'이라는 용어는 염색체를 구성하는 DNA의 작은 조각의 출처 모집단을 지칭한다. 또는 "글로벌 조상(global ancestry)"이라는 용어는 모든 염색체 전체에 기여하는 하나 이상의 출처 모집단을 지칭한다. 로컬 조상은 DNA의 국지적인 조각에 단일의 출처 모집단을 할당할 수 있는 반면, 글로벌 조상은 유전체의 모든 DNA 조각에 걸친 로컬 조상의 집단을 말할 수 있다. 글로벌 조상은 주어진 출처 모집단으로부터 파생된 유기체의 유전체의 비율로 보고할 수 있다. 중요한 것은, 로컬 및 글로벌 조상 분류 모두 모든 출처 모집단의 DNA 조각을 대표하는 참조 패널에 의존할 수 있다는 것이다. 모집단 유전체 데이터의 샘플 크기가 증가함에 따라, 미리 정의된 모집단 그룹에 새로운 서열을 할당하는 것이 계산적으로 더 복잡해질 수 있다. 특히 고양이, 개, 기타 가축과 같은 많은 반려동물의 경우, 다음 세대가 교배하여 더 복잡한 유전체를 생성함에 따라 유전체 서열이 혼합될 수 있다.
당업계에는 쿼리 샘플의 유전적 조상을 정확하고 효율적으로 예측할 수 있고, 샘플이 단일 기원이든 혼합이든 상관없이 확장할 수 있는 시스템 및 방법이 요구된다. 본 개시는 다음의 방법 및 시스템을 통해 이러한 요구를 해결한다.
본 실시예에 따른 특정 시스템 및 방법은 반려 동물의 원시 DNA 서열로부터 유전적 조상 및 신체적 특성의 예측을 생성하기 위한 계산 및 통계적 방법을 사용한다. 이들 시스템 및 방법은 유전적 조상을 알 수 없는 샘플 세트에서 DNA 서열의 배치(batch)를 수집한 다음, 이 '쿼리' 세트를 알려진 유전적 조상 및 특성을 가진 DNA 서열의 선별된 참조 데이터베이스에 효율적으로 매칭할 수 있다. 특정 실시예에서, 유전적 조상 및 특성이 알려진 동물의 대규모 참조 패널의 정보는 유전체 내의 작은 조각에 정확한 유전적 조상을 할당하는 데 사용될 수 있다. 결과 조각은 이후 동물별로 집계되어 개별 동물이 미리 정의된 수백 가지의 순종 또는 혼합 부류 중 하나에 속하는지 예측하는 데 사용될 수 있다. 또한, 전체 유전적 조상 분류는 동물의 성체 체중과 같은 신체적 특성을 정확하게 예측하는 데에도 사용될 수 있다. 본 실시예의 세부 사항은 아래에 제공된다. 명확성을 위해 그리고 제한을 두지 않고, 본 개시의 상세한 설명은 다음 하위 섹션으로 나누어 설명한다.
1. 정의
2. 시스템 개요
3. 시퀀싱, 키트 및 치료 방법
4. 예들
1. 정의
본 명세서에서 사용되는 용어는 일반적으로 본 개시의 문맥 내에서 그리고 각 용어가 사용되는 특정 문맥 내에서 당업계에서 통상적인 의미를 갖는다. 특정 용어들은 본 개시의 구성 및 방법과 그 제조 및 사용 방법을 설명하는 데 추가적인 지침을 제공하기 위해 아래 또는 본 명세서의 다른 곳에서 논의한다.
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 기술분야의 당업자가 통상적으로 이해하는 의미를 갖는다. 다음 참고 문헌, 즉, King, Mulligan, and Stansfield. A Dictionary of Genetics, Oxford University Press, 2013; Glossary of Bioinformatics Terms, Current Protocols in Bioinformatics, 35, 1934-3396, 2011; 및 Whole-Transcriptome Amplification of Single Cells for Next-Generation Sequencing, Current Protocols in Molecular Biology, 111, 1934-3639, 2015은 당업자에게 본 개시에서 사용된 많은 용어들에 대한 일반적인 정의를 제공한다. 본 명세서에서 사용되는 바와 같이, 다음 용어들은 달리 명시되지 않는 한 아래에서 설명된 의미를 갖는다.
본 명세서에서 사용되는 바와 같이, 청구범위 및/또는 명세서에서 "포함"이라는 용어와 함께 사용되는 단수형 단어는 "하나"를 의미할 수 있지만, "하나 이상", "적어도 하나" 및/또는 "하나 이상"의 의미와도 부합한다. 또한, "갖는다" 또는 "포함한다"라는 용어는 상호 교환 가능하며, 당업자는 이러한 용어가 개방형 용어임을 인식할 것이다.
"약" 또는 "대략"이라는 용어는 당업자에 의해 결정되는 특정 값에 대한 허용 가능한 오차 범위 내를 의미하며, 이는 부분적으로 값이 측정 또는 결정되는 방법, 즉 측정 시스템의 한계에 의존한다. 예를 들어, "약"은 당업계의 관행에 따라 3 또는 3 이상의 표준 편차 이내를 의미할 수 있다. 또는, "약"은 주어진 값의 최대 20%, 바람직하게는 최대 10%, 더 바람직하게는 최대 5%, 더 바람직하게는 최대 1%의 범위를 의미할 수 있다. 또는, 특히 시스템 또는 프로세스와 관련하여, 이 용어는 값의 10배 이내, 바람직하게는 5배 이내, 더 바람직하게는 2배 이내를 의미할 수 있다.
본 명세서에서 사용되는 '포함(하다)' 또는 그 변형어는 비배타적 포함을 커버하고자 하며, 따라서 요소들의 목록을 포함하는 프로세스, 방법, 물품 또는 장치가 해당 요소만을 포함하지 않고 해당 프로세스, 방법, 물품 또는 장치에 명시적으로 나열되지 않거나 고유하지 않은 다른 요소를 포함할 수 있다.
본 명세서에서 사용되는 "로컬 조상(local ancestry)"이라는 용어는 개별 유전체 내의 다른 염색체 조각들의 조상 기원을 지칭한다. 특정 실시예에서, 로컬 조상은 동물의 특정 염색체 조각(예컨대, 개의 품종)에 대한 콜(call)이다. 특정 예시적 실시예에서, 로컬 조상은 특정 염색체 위치에서의 개체의 유전적 조상을 가리키며, 여기서 개체는 각 조상 모집단에서 파생된 대립 유전자의 복제를 0개, 1개 또는 2개 가질 수 있다.
본 명세서에서 사용되는 바와 같이, "글로벌 조상(global ancestry)"이라는 용어는 대상의 유전체에 걸쳐 평균화된 조상 비율을 지칭한다. 특정 실시예에서, 글로벌 조상은 동물의 전체 유전체(예컨대, 개의 품종)에 대한 콜의 비율을 의미한다.
본 명세서에서 사용되는 "일배체형(haplotype)"이라는 용어는 하나의 단위로 함께 유전되는 연결된 유전자 또는 기타 유전자 표지의 집합을 지칭한다. 감수 분열 동안 상동 염색체의 대응 영역과의 재조합이 거의 또는 전혀 이루어지지 않으므로, 상동 영역들 사이의 대립 유전자들의 뒤섞임은 드물다. 특정 실시예에서, 일배체형을 포함하는 DNA의 연장을 "일배체형 블록"이라고 한다. 예를 들어, 개에서 주요 조직 적합성 복합체의 특정 유전자는 제한 없이 12번 염색체의 DLA 좌위에서 밀접하게 연결되어 일배체형으로 작용하며, 모계 및 부계 염색체의 대립 유전자는 일반적으로 동일한 조합으로 자손에게 전달된다. 특정 실시예에서, "일배체형"이라는 용어는 단일 염색체 또는 일배체 염색체 집합을 지칭한다. 본 명세서에서 사용되는 "일배체형 추정(haplotype estimation)" 또는 "일배체형 단계적 분류(haplotype phasing)"라는 용어는 유전자형 데이터로부터 일배체형을 통계적으로 추정하는 프로세스를 지칭한다.
본 명세서에서 사용되는 "센티모건" 또는 "cM"이라는 용어는 유전자 재조합 빈도를 측정하는 단위를 지칭한다. 1 센티모건은 감수분열(난자와 정자 세포의 형성 동안 일어남) 동안 재조합 사건으로 인해 염색체의 두 표지가 서로 분리될 확률이 1%에 해당하는 단위이다. 평균적으로, 1센티모건은 인간 유전체에서 대략 100만 개의 염기쌍에 대응한다.
본 명세서에서 사용되는 바와 같이, "단계적 분류(phasing)"라는 용어는 부계 및 모계 염색체에 대립유전자(예컨대, A, C, T, G)를 할당하는 프로세스를 지칭한다. 이 용어는 일반적으로 재결합하는 DNA의 유형(예컨대, 상염색체 DNA 또는 X 염색체)에 적용된다. 특정 실시예에서, 단계적 분류는 매치가 부계 쪽에 있는지 모계 쪽에 있는지, 아니면 양쪽 모두에 있는지 또는 어느 쪽에도 없는지를 결정하는 데 도움이 될 수 있다. 특정 실시예에서, 단계적 분류는 염색체 매핑 프로세스(예컨대, 특정 조상에 조각 할당)에도 도움이 될 수 있다. 일반적으로, 단계적 분류된 데이터를 사용하면 위양성 매치(false positive matches)의 수를 줄일 수 있다.
본 명세서에서 사용되는 "유전자형(genotype)"라는 용어는 유기체의 유전적 구성을 지칭한다. 예를 들어, 유전자형은 유기체(예컨대, 개)의 전체 유전자 집합을 나타낸다. 특정 실시예에서, "유전자형"이라는 용어는 유기체에 의해 운반되는 대립 유전자 또는 유전자의 변형을 지칭한다. 특정 유전자형은 두 개의 동일한 대립 유전자를 특징으로 하는 경우 동형접합으로, 두 개의 대립 유전자가 다른 경우 이형접합으로 기술된다. 본 명세서에서 사용되는 바와 같이, 유전자형을 결정하는 프로세스를 "유전자형 분석(genotyping)"이라고 한다. 본 명세서에서 사용되는 바와 같이, "유전자형 검출(genotype calling)"이라는 용어 및 그 변형어는 원시 데이터 또는 처리된 데이터로부터 유전자형 값을 추정하는 것을 지칭한다.
본 명세서에서 사용되는 "핵산 분자", "뉴클레오티드 서열" 및 "폴리뉴클레오티드"라는 용어는 각 뉴클레오티드의 3' 및 5' 말단이 포스포디에스테르 결합으로 연결된 단일 또는 이중 가닥의 공유 결합 뉴클레오티드 서열을 지칭한다. 핵산 분자는 데옥시리보뉴클레오티드 염기 또는 리보뉴클레오티드 염기를 포함할 수 있으며 시험관 내에서 합성적으로 제조되거나 천연 소스로부터 분리될 수 있다.
본 명세서에서 "폴리펩타이드(polypeptide)", "펩타이드(peptide)", "아미노산 서열" 및 "단백질"이라는 용어는 상호 교환적으로 사용되며, 적어도 두 개의 아미노산이 연결되어 형성된 분자를 지칭한다. 한 아미노산 잔기(amino acid residue)와 다음 아미노산 잔기 사이의 연결은 아미드 결합이며 펩타이드 결합이라고도 한다. 폴리펩타이드는 천연 소스로부터의 분리, 재조합 발현 시스템에서의 발현, 화학적 합성 또는 효소 합성을 포함한 당해 분야에 공지된 적절한 방법으로 얻을 수 있다. 이들 용어는 하나 이상의 아미노산 잔기가 상응하는 자연 발생 아미노산의 인공 화학 모방체인 아미노산 중합체뿐만 아니라 자연 발생 아미노산 중합체 및 비자연 발생 아미노산 중합체에 적용될 수 있다.
"반려동물 사료" 또는 "반려동물 사료 성분" 또는 "반려동물 사료 제품" 또는 "최종 반려동물 사료 제품"이라는 용어는 고양이, 개, 기니피그, 토끼, 새 또는 말과 같은 반려동물의 섭취를 목적으로 하며 반려동물에게 특정 영양 혜택을 제공하는 제품 또는 성분을 의미한다. 예를 들어, 반려 동물은, 예컨대, 루푸스 푸르밀리스와 같은 "집(domestic)" 개일 수 있지만, 이에 한정되지는 않는다. 특정 실시예에서, 반려 동물은 고양이와 같은 "집" 고양이일 수 있다. "반려동물 사료" 또는 "반려동물 사료 성분" 또는 "반려동물 사료 제품" 또는 "최종 반려동물 사료 제품"은 모든 식품, 사료, 간식, 식품 보조제, 액체, 음료, 간식, 장난감(씹을 수 있거나 섭취할 수 있는 장난감), 식사 대용식 또는 식사 대체제를 포함한다.
본 개시의 목적상 "사용자", "구독자" "소비자" 또는 "고객"이라는 용어는 본 명세서에 기술된 애플리케이션 또는 애플리케이션들의 사용자 및/또는 데이터 제공자가 제공하는 데이터의 소비자를 지칭하는 것으로 이해해야 한다. 예를 들어, '사용자' 또는 '구독자'라는 용어는 브라우저 세션에서 인터넷을 통해 데이터 또는 서비스 제공업체가 제공하는 데이터를 수신하는 사람을 지칭하거나, 데이터를 수신하고 데이터를 저장 또는 처리하는 자동화된 소프트웨어 애플리케이션을 지칭할 수 있지만, 이에 제한되지는 않는다.
2. 시스템 개요
도 1은 본 개시의 발명 대상에 따른 시스템의 예시적인 워크플로(100)를 도시한 것이다. 시스템은 유전적 조상을 알 수 없는 샘플 세트에서 DNA 서열의 배치를 수집한 다음, 이 '쿼리' 세트를 알려진 유전적 조상 및 특성을 가진 DNA 서열의 선별된 참조 데이터베이스에 효율적으로 매치시킬 수 있다. 특정 실시예에서, 본 개시에 의해 다루어지는 DNA 서열은 유전자 서열 및/또는 유전자 표지를 포함한다. 예를 들어, 유전자 표지는 단일 뉴클레오티드 다형성(nucleotide polymorphism(SNP)), 짧은 연쇄 반복(short tandem repeat(STR)), 염기의 삽입 및 결실(인델) 및 복제수 변이(copy number variant(CNV))를 포함하지만 이에 제한되지는 않는다.
특정 실시예에서, 시스템은 복수의 개별 구성 요소 서브시스템을 포함할 수 있다. 이들 서브시스템은 로컬 조상 분류기, 글로벌 조상 분류기, 계보 조상 예측기, 특성(예컨대, 신체, 행동, 대사(metabolic)) 예측기, 또는 상기 분류기의 정확도 향상을 위한 자동화된 시스템 중 하나 이상을 포함할 수 있다. 이들 서브시스템은 각각의 고유한 기능을 가질 수 있다. 이들 서브시스템을 결합하면, 전체 시스템이 원시 DNA 서열만으로 반려동물의 유전적 조상 및 신체적 특성에 대한 예측을 생성할 수 있다.
일부 비제한적 실시예에서, 로컬 조상 분류기는 원시 입력 유전자형(102), 합의 유전자형(104), 단계적 일배체형(106), 트레인 패널(108a-108c), PBWT 매칭(110), 원시 로컬 조상(112), HMM(114) 및 평활화된 로컬 조상(116)과 연관될 수 있다. 로컬 조상 분류기는 원시 입력 유전자형(102)을 취하고 그에 따라 합의 유전자형(104)을 생성할 수 있다. 일부 실시예에서, 원시 입력 유전자형(102)은 쿼리 유전자형으로서 작용할 수 있고, 합의 유전자형(104)은 참조 유전자형으로서 작용할 수 있다. 그 후, 합의 유전자형(104)은 모계 및 부계 염색체를 구별할 수 있는 단계적 일배체형(106)으로 처리될 수 있다. 매칭 프로세스(110)(예컨대, 위치 버로우즈-휠러 변환)는 단계적 일배체형(106)을 복수의 윈도우로 분할할 수 있으며, 이는 참조 또는 트레이닝 패널(108)과 비교될 수 있다. 단계적 일배체형(106)과 참조 또는 트레이닝 패널(108) 사이의 매치 밀도는 계산될 수 있으며, 원시 로컬 조상(112)을 생성할 수 있는데, 이는 매치(또는 다른 기준)의 상대 밀도가 가장 높은 참조 모집단으로 정의될 수 있다. 원시 로컬 조상(112)은 그 후 은닉 마르코프 모델(HMM)(114)에 대한 입력으로 사용될 수 있는데, 이는 평활화된 로컬 조상(116)을 생성하기 위해 원시 로컬 조상(112) 내의 특정 오류를 제거하거나 대체할 수 있다. 이 평활화된 로컬 조상(116)은 최종 사용자에게 출력되어 하나 이상의 염색체의 상대적 기원을 보여줄 수 있다. 제한적이지 않은 일 예로서, 이 출력은 동물의 염색체에 대한 자세한 설명을 포함할 수 있으며, 동물이 각 DNA 조각(예컨대, 그레이트 피레네, 저먼 셰퍼드 독, 보세론, 화이트 스위스 셰퍼드, 마렘마 셰퍼드, 차우차우, 시베리안 허스키, 파슨 러셀 테리어, 보더 테리어 및 호바트)을 어디서 얻었는지 정확히 보여줄 수 있다.
일부 비제한적 실시예에서, 글로벌 조상 분류기는 평활화된 로컬 조상(116)을 사용하여 글로벌 조상(118)을 생성할 수 있다. 이 글로벌 조상(118)은 최종 사용자에게 출력되어 동물의 유전체에서 다양한 기원 모집단의 상대적 기여도를 제공할 수 있다. 제한적이지 않은 일 예로서, 출력은 동물의 DNA에서 검출된 다양한 품종을 포함할 수 있다.
일부 비제한적 실시예에서, 계보 조상 예측기는 평활화된 로컬 조상(116)을 사용하여 계보 조상을 예측할 수 있다. 제한적이지 않은 일 예로서, 계보 조상의 예측은 워크플로(100)가 가계도(120)를 제공하도록 허용할 수 있다. 일부 실시예에서, 동물의 가계도(120 또는 다른 계보 정보)를 생성하기 위해 K-평균 클러스터링(122)(이하, 이하에서 더 상세히 논의됨)이 평활화된 로컬 조상(116)에 적용될 수 있다.
일부 비제한적 실시예에서, 특성 예측기는 글로벌 조상(118)을 사용하여, 특정 유전적 확률에 기초하여 동물에 대한 특성 예측 또는 추정치를 생성할 수 있다. 글로벌 조상(118)은 메타 분류기(124)의 입력으로 사용될 수 있는데, 이는 전체 샘플 하위 집단 라벨을 제공할 수 있다. 이 메타 분류기(124)는 입력된 글로벌 조상(118)에 대해 하나 이상의 예측된 부류/그룹 및 신뢰(confidences)(126)를 식별할 수 있다. 신뢰(126)를 갖는 이들 부류/그룹은 다양한 다운스트림 애플리케이션(128)에서 (단독으로 또는 추가 유전자형과 조합하여) 추가로 사용될 수 있으며, 여기에는 대상의 수명, 유전자 구조, 및 이들의 유전체에 내재된 기타 특성의 예측을 포함할 수 있다. 일부 실시예에서, 다운스트림 애플리케이션(128)은 추가적인 유전자형(130)을 입력으로 취할 수 있다. 이들 다운스트림 애플리케이션(128)은 또한 소비자 경험(132)을 개선하기 위해 사용될 수 있으며, 최종 사용자에게 예측을 제공하는 애플리케이션 또는 기타 서비스를 생성할 수 있게 한다.
일부 비제한적 실시예에서, 정확도 개선을 위한 자동화된 시스템은 새로운 참조 샘플(134), 격리 포리스트 이상치(isolation forest outlier) 탐지(136) 및 교차 검증(138)과 연관될 수 있다. 자동화된 시스템은 참조/트레이닝 패널(108)에 추가되는 새로운 참조 샘플(134)을 평가할 수 있다. 이 평가는 먼저 후보 참조 패널의 모든 샘플에 걸쳐 교차 검증(138)을 수행하는 것을 포함할 수 있다. 그런 다음 교차 검증 결과는 탐지 알고리즘(예컨대, 격리 포리스트 이상치 탐지 알고리즘(136))에 대한 입력으로 사용될 수 있다. 제한적이지 않은 일 예로서, 새로운 참조 샘플(134a), 교차 검증(138a), 격리 포리스트 이상치 탐지(136a) 및 트레이닝 패널(108b)에 기초하여, 자동화된 시스템은 PBWT 매칭(110)에 대한 정확도를 향상시킬 수 있다. 제한적이지 않은 다른 예로서, 새로운 참조 샘플(134b), 교차 검증(138b), 격리 포리스트 이상치 탐지(136b) 및 트레이닝 패널(108d)에 기초하여, 자동화된 시스템은 메타 분류기(124)에 대한 정확도를 개선할 수 있다.
로컬 조상 분류기
기존의 로컬 조상 분류기에는 중요한 한계가 있을 수 있다. 제한적이지 않은 예로서, 이들은 대규모 참조 패널을 수용하도록 쉽게 확장할 수 없으며 예측을 생성하는 데 많은 양의 계산 리소스가 필요할 수 있다. 컨트롤에 의해, 본 명세서에 개시된 로컬 조상 분류기는 종래의 분류기에 비해 정확도가 향상될 수 있고 훨씬 더 많은 참조 패널을 쉽게 수용할 수 있다. 특정 실시예에서, 본 명세서에 개시된 로컬 조상 분류기는 표준 로컬 조상 모델에 대한 수학적 근사치와 함께 위치 버로우즈-휠러 변환(PBWT) 알고리즘을 사용할 수 있다. 일부 비제한적 실시예에서, 표준 로컬 조상 모델은 "염색체 페인팅"을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 염색체 페인팅은, 제한적인 것은 아니지만 형광 표지된 DNA 프로브의 사용을 포함하는 염색체 재배열을 특징짓는 다양한 기술을 설명한다. 또한, 본 명세서에 개시된 로컬 조상 분류기는 참조 패널을 활용하여 일반적인 오분류를 학습함으로써 결과적인 할당을 원활하게 하여 전반적인 정확도를 향상시킬 수 있다. 일부 실시예에서, 로컬 조상 분류기는 결과 분류를 평활화하기 위해 일반적인 오분류 결과를 포함하는 목록 또는 행렬을 참조할 수 있다. 평활화(smoothing)는 일반적으로 잘못 분류된 서열을 제거하고, 이들을 훨씬 더 가능성이 높은 대체제로 대체할 수 있다. 로컬 조상 할당이 평활화되는 정도는 단일 기원 염색체와 고도로 혼합된 염색체 모두를 수용하도록 조정될 수 있다. 제한적이지 않은 예로서, 단일 기원 염색체 또는 복수의 출처로부터의 DNA를 포함하는 고도로 혼합된 염색체를 수용하도록 평활화를 조정할 수 있다.
도 2는 로컬 조상 분류기의 예시적인 워크플로(200)를 도시한다. 일부 비제한적 실시예에서, 클라우드 데이터 모니터링 서비스(205)는 새로운 쿼리 DNA 서열의 존재를 위해 클라우드 스토리지 환경(210)을 정기적으로 조사할 수 있다. 클라우드 스토리지 환경(210)은 확장 가능한 스토리지 인프라일 수 있다. 제한적이지 않은 예로서, 쿼리 DNA 서열은 복수의 일배체형(215)으로 조직된 복수의 유전자형 데이터를 포함할 수 있다. 클라우드 데이터 모니터링 서비스(205)는 양성 신호 감지시 서열을 검색하고 쿼리 배치를 고성능 컴퓨팅 환경에 둘 수 있다. 그런 다음, 컴퓨팅 구성 서비스(220)는 수집된 DNA 서열 배치를 특성화하고 맞춤형 생물정보 워크플로(custom bioinformatic workflow)를 구성할 수 있다. 컴퓨팅 구성 서비스(220)는 로컬 조상 프로파일(230)을 생성하기 위해 쿼리 일배체형(215)을 일배체형의 참조 패널(225)과 비교할 수 있다. 방출/전이(235)는 일배체형의 참조 패널(225)에 기초하여 생성될 수 있다. 일부 실시예에서, 로컬 조상 프로파일(230) 및 방출/전이(225)는 일반적인 오류를 제거하기 위해 HMM 평활화(240)에 기초하여 평활화될 수 있다. 일부 실시예에서, 참조 패널(225)은 순종 트레이닝 세트(245)의 일부로 사용될 수 있으며, 이에 기초하여 순종 분류기(250)가 학습될 수 있다. 평활화가 완료되면, 평활화된 로컬 조상 프로파일은 순종 분류기(250)에 의해 처리되어 순종 메타 분류기 라벨을 생성할 수 있다. 마지막으로, 라벨이 지정된 로컬 조상 프로파일은 보고서(255)로 출력될 수 있다. 제한적이지 않은 예로서, 보고서(255)는 JSON(JavaScript Object Notation) 형식일 수 있다.
일부 비제한적 실시예에서, 로컬 조상 분류기는 대상에 대한 로컬 조상 라벨을 예측할 수 있다. 로컬 조상 분류기는 쿼리 뉴클레오티드 서열에 대응하는 제1 샘플 및 참조 뉴클레오티드 서열에 대응하는 제2 샘플의 두 샘플을 선택할 수 있다. 쿼리 뉴클레오티드 서열은 하나 이상의 알려지지 않은(unknown) 조상 라벨을 포함할 수 있는데, 이들 라벨은 하위 모집단 라벨의 순서 집합(ordered set of subpopulation labels)으로부터 선택될 수 있다. 참조 뉴클레오티드 서열은 알려진 뉴클레오티드 서열에 대응하는 하나 이상의 알려진 유전적 하위 집단을 포함할 수 있다. 제1 샘플 및 제2 샘플 각각은 윈도우라고도 하는 하위 영역으로 더 분할되어 두 샘플을 비교하는 데 사용될 수 있다. 그 후 제1 샘플의 적어도 하나의 하위 영역이 제2 샘플의 적어도 하나의 하위 영역과 비교되고, 두 샘플 간에 매치되는 뉴클레오티드가 식별될 수 있다. 이런 방식으로, 제1 샘플 및 제2 샘플 사이의 뉴클레오티드 매치 개수를 계수하여 샘플들 간의 유사성 정도를 결정할 수 있다. 하나 이상의 뉴클레오티드 매치에 대응하고 이를 포함하는 유전적 하위 집단이 알려진 유전적 하위 집단 정보 목록으로부터 선택될 수 있다. 선택된 유전자 하위 집단에 기초하여 로컬 조상 라벨이 적용될 수 있으며, 선택적으로 하나 이상의 쿼리 뉴클레오티드 서열에 적용될 수 있다.
임의의 예시적인 방법에서, 뉴클레오티드 매치의 식별은 다양한 요소들을 포함할 수 있으며, 뉴클레오티드 매치를 비교되는 두 하위 영역의 모든 요소들 간의 정확한 매치로 제한하려는 것은 아니다. 예를 들어, 일부 비제한적 실시예에서, 하나 이상의 뉴클레오티드 매치는, 제 2 샘플 내의 적어도 하나의 뉴클레오티드 서열과 동일한 제1 샘플 내의 적어도 하나의 뉴클레오티드 서열을 포함할 수 있다. 다른 실시예에서, 뉴클레오티드 매치는, 제1 샘플 내의 적어도 하나의 뉴클레오티드 서열이 제2 샘플 내의 적어도 하나의 뉴클레오티드 서열과 미리 결정된 비율로 동일한 경우에 결정될 수 있다. 또한, 비제한적인 실시예에서, 하나 이상의 뉴클레오티드 매치 각각은 다수의 뉴클레오티드를 포함할 수 있다. 이러한 실시예에서, 복수의 뉴클레오티드 각각은 제1 샘플과 제2 샘플 사이에서 동일할 수 있거나, 또는 대안적으로, 제1 샘플과 제2 샘플 사이에서 미리 결정된 비율의 동일성을 각각 충족할 수 있다. 다른 비제한적 실시예에서, 뉴클레오티드 매치는 인접한 뉴클레오티드를 포함할 수 있다.
뉴클레오티드 매치의 수는 다양한 방법에 따라 결정될 수 있다. 예를 들어, 방법은 뉴클레오티드 매치의 수를 계산하기 위해 제1 샘플(또는 제1 샘플의 하위 영역) 내의 인접 뉴클레오티드 수의 길이가 제 2 샘플(또는 제 2 샘플의 하위 영역) 내의 인접 뉴클레오티드 수와 매치되는 길이를 사용할 수 있다. 이러한 비제한적인 실시예에 따르면, 제1 샘플의 적어도 하나의 하위 영역 내의 인접한 뉴클레오티드 수의 길이 및/또는 제2 샘플의 적어도 하나의 하위 영역 내의 인접한 뉴클레오티드 수의 길이는 대략적인 길이 또는 정확한 길이일 수 있다.
비제한적인 실시예에서, 적어도 하나의 유전적 하위 집단은 뉴클레오티드 매치를 검사함으로써 결정될 수 있다. 예를 들어, 유전적 하위 집단은 가장 많은 수의 뉴클레오티드 매치, 지정된 수의 뉴클레오티드 매치 및/또는 미리 선택된 수의 뉴클레오티드 매치에 기초하여 선택될 수 있다. 다른 실시예에서는, 뉴클레오티드 매치의 수가 특정 값을 초과하거나 특정 범위 내에 속하는 경우에 하위 집단이 선택할 수 있다. 로컬 조상 분류기는 또한 모집단에 대한 특정 이상치를 추가로 식별하고/하거나 모집단에서 이상치를 제거할 수 있다.
일부 비제한적 실시예에서, 로컬 조상 분류기는 일부 모집단 그룹의 구성원에 따라 각각 라벨이 지정될 수 있는 일부 수의 일배체형 서열을 포함하는 선별된 참조 패널의 존재를 가정할 수 있다. 로컬 조상 분류기의 목표는 임의의 쿼리 일배체형을 참조 패널 모집단 중 하나로 분류하는 것을 포함할 수 있다. 로컬 조상 분류기는 쿼리 및 참조 유전자형 모두를 모계 및 부계 염색체로 단계적 분류하는 것으로 시작할 수 있다. 일부 비제한적 실시예에서, 모계 및 부계 유전체의 단계적 분류는 단계적 분류 참조 패널을 사용하여 수행될 수 있다. 또는, 예를 들어, 단계적 분류 참조 패널은 로컬 조상 참조 패널을 사용하여 먼저 코호트-단계적 분류를 수행함으로써 획득될 수 있다. 이 단계적 일배체형 세트는 그 후 참조 기반 단계적 분류를 위한 패널로 사용된다. 단계적 분류된 데이터는 그 후 5센티모건(cM) 창으로 분할될 수 있다. 제한적이지 않은 예로서, 5cM의 창 크기는 개과 동물의 연결 불균형을 정보를 제공할 수 있는 충분한 일배체형 다양성의 회복으로 균형을 맞추도록 선택될 수 있다. 특정 실시예에서 5 cM 윈도우가 사용될 수 있지만, 다른 길이의 윈도우도 고려된다. 도 3은 약 6 센티모건과 약 48 센티모건 사이의 미리 결정된 하위 영역 길이를 변화시킨 결과를 보여주는 복수의 모델을 예시한다. 도 2에 도시된 바와 같이, 길이가 6 cM, 12 cM, 18 cM, 20 cM, 24 cM, 30 cM, 36 cM 및 48 cM인 윈도우도 사용될 수 있다. 또한, 예를 들어 표적 염색체의 하위 영역에 대한 보다 상세한 보기를 제공하기 위해 5 cM 미만의 길이의 창을 사용할 수 있다. 본 개시의 발명 대상의 목적상, 윈도우의 길이는 제1 샘플 또는 제2 샘플의 임의의 하위 영역의 길이와 대응할 수 있다.
일부 비제한적 실시예에서, 각 윈도우의 모집단 할당은 위치 버로우즈-휠러 변환 알고리즘을 사용하여 쿼리 및 참조 일배체형 사이의 모든 쌍별 집합-최대 매치(set-maximal matches)를 복구함으로써 달성될 수 있다. 주어진 쿼리와 모든 참조 일배체형 사이의 집합-최대 매치의 밀도를 계산하고 상대 밀도가 가장 높은 참조 모집단을 '원시' 할당으로 선택할 수 있다. 그런 다음 염색체들로 그룹화된 창에 대한 원시 콜에 대해 은닉 마르코프 모델(HMM)을 실행하여 로컬 조상 할당을 "평활화"할 수 있다. 마지막으로, 글로벌 조상 비율이 로컬 할당으로부터 집계되고 글로벌 조상 분류기에서 사용되어 전체 이배체 유전체에 대한 모집단 할당을 생성할 수 있다.
일부 비제한적 실시예에서, 로컬 조상 분류기는 짧게 매칭되는 DNA 조각을 복구할 수 있다. PBWT에 내재된 알고리즘 세트는 컬렉션에 있는 일배체형 서열 쌍 간의 매치를 효율적으로 복구할 수 있다. 여러 PBWT 기반 알고리즘은 일배체형 서열 컬렉션을 반복하여 집합-최대 매치를 복구할 수 있는데, 이는 현재 서열에 대한 로컬 최대의 깨지지 않은 매치를 보여주는 다른 서열의 집합으로 정의할 수 있다. 본 개시에서, 서열 컬렉션은 쿼리 일배체형과 참조 일배체형을 모두 포함할 수 있다.
전술한 바와 같이, PBWT는 이진 행렬을 빠르게 정렬하기 위한 관련 알고리즘 컬렉션을 포함할 수 있다. 이 알고리즘은 일배체형을 나타내는 N개의 행과 이중 대립 유전자(biallelic) DNA 자리를 나타내는 M개의 열을 갖는 이진 행렬에 대해 작동할 수 있다. 행은 가장 왼쪽 열에서부터 순차적으로 정렬될 수 있다. 알고리즘이 진행됨에 따라 자리별로 두 개의 벡터가 업데이트될 수 있는데, 첫 번째는 일배체형의 순위(위치 접두사 배열)이고 두 번째는 직전 일배체형과의 차이 개수의 측정치(발산 배열)이다. 발산 배열의 요소들은 정렬된 일배체형들에 걸쳐 가산될 수 있으며, 그 결과 일배체형들 사이의 해밍 거리가 생성된다. 위치 접두사 배열에서 인접한 서열 및 발산 배열이 0인지 여부를 추적함으로써, 매칭되는 일배체형 서열을 검색할 수 있다. 일배체형이 더 이상 인접하지 않거나 발산 배열의 대응 요소가 더 이상 0이 아닌 경우 매치가 깨질 수 있다. 일부 비제한적 실시예에서, 집합-최대 매치는 주어진 서열(현재 위치에서 끝나는 구간에 걸쳐)에 대한 로컬 최대 매치일 수 있으며, 해당 구간에 걸쳐 가장 긴 매치를 갖는 하나 이상의 인접한 일배체형을 포함할 수 있다.
도 4는 본 개시의 발명 대상에 따른 예시적인 주변 매치 길이(marginal match length)를 도시한다. 쿼리 서열(410)은 하단에 도시되어 있다. 참조 패널 서열(420)에 대한 매치는 위에 도시되어 있다. 매치(420a)와 매치(420c)는 각각 해당 참조 모집단 라벨에 대응할 수 있다. 참조 모집단당 주변 매치 길이 합은 그 참조 모집단으로부터 유래한 쿼리 서열의 우도(likelihood)에 비례하는 것으로 간주할 수 있다.
도 5는 "염색체 페인팅" 모델(A)과 본 개시에 설명된 PBWT 기반 모델(B 및 C)을 비교한 예시를 보여준다. 패널 A에서는, 쿼리 서열이 모든 참조 패널 서열과 비교되고 참조 패널 서열을 통과할 가능성이 가장 높은 경로가 쿼리 염색체의 라벨링 또는 "페인팅"을 담당할 수 있다. PBWT 기반 방법에서는 로컬 매칭 서열이 목록에서 인접하는 방식으로 서열이 점진적으로 정렬될 수 있다. 예를 들어, 패널 B에서는 PBWT 알고리즘이 6번 위치까지 정렬하였고, 패널 C에서는 이 알고리즘이 최종 위치까지 정렬하였다. 쿼리 염색체는 PBWT 데이터 구조에서 어떤 염기서열이 인접한지를 평가함으로써 "페인트"될 수 있다. 이러한 단순화 덕분에 PBWT 기반 방법은 매우 큰 참조 패널 크기로 더 쉽게 확장될 수 있다. 도 4에 표시된 바와 같이, PBWT는 선택된 쿼리 유전자형 서열 중 특정 위치(예컨대, 쿼리 유전자형 내 6번 위치)에서 정렬하도록 선택될 수 있으며, 다른 예로는 쿼리 유전자형의 말단 위치에서 정렬하도록 선택될 수 있다. 모집단 할당을 달성하기 위한 다른 방법이, 예를 들어 염색체 페인팅에 사용될 수 있다. 주어진 쿼리와 모든 참조 일배체형 사이의 집합-최대 매치 밀도를 계산하고 상대 밀도가 가장 높은 참조 하위 집단을 원시 할당으로 선택할 수 있다. 이 매치 밀도는 또한 선택된 샘플들 사이의 뉴클레오티드 매치의 수에 대응할 수 있다.
일부 비제한적 실시예에서, 로컬 조상 분류기는 총 N개의 단계적 일배체형을 포함하는 선별된 모집단 참조 패널의 가용성을 가정할 수 있다. 각 참조 일배체형에는 K개의 출처 모집단 라벨의 순서 집합인 k로부터 단일 라벨이 할당될 수 있다. 또한, 인 하위 모집단 샘플 크기의 대응하는 순서 집합 n이 있을 수 있다.
로컬 조상 분류기는 참조 패널 일배체형과 더불어 k로부터 라벨이 할당될 단일 쿼리 일배체형을 고려할 수 있다. 전술한 PBWT 기반 알고리즘을 실행한 후, 쿼리 일배체형과 참조 패널 일배체형 사이에서 모든 집합-최대 매치를 복구할 수 있다. 각 세트-최대 매치는 매칭 일배체형의 참조 모집단 라벨로 라벨링될 수 있다(도 4 참조). 출처 모집단에 걸쳐 동형접합률이 높은(따라서 최근의 공통 조상으로 인해 발생할 가능성이 낮은) 작은 일배체형 조각을 제외하기 위해, 0.5 cM보다 긴 집합-최대 매치가 분석에서 고려될 수 있다. 복구된 집합-최대 매치 길이 각각은 해당 출처 모집단 라벨로 라벨링될 수 있다. 라벨 i를 갖는 매치 길이의 주변 합(marginal sum)은 l i 로 표시된다.
일부 비제한적 실시예에서, 로컬 조상 분류기는 쿼리 일배체형이 출처 모집단 i로부터 샘플링될 확률을 결정할 수 있다. 이들 확률은 확률 질량 함수 P(Q=i|p)=p i (여기서 Q는 쿼리 일배체형의 출처 모집단 라벨임)인 범주형 분포(categorical distribution)를 파라미터화하는 출처 모집단 샘플링 확률 p의 순서 집합을 구성할 수 있다. 쿼리 일배체형은 max i p i 기준에 따라 Q=k i 라벨이 할당될 수 있다.
일부 비제한적 실시예에서, 전술한 주변 매치 길이는 p를 추정하기 위한 통계를 공식화할 수 있다. 주변 매치 길이는 모든 출처 모집단 일배체형의 총 길이 L i =L int xn i (여기서, L int 은 고려 중인 유전체 간격의 재조합 거리이다)를 포함하는 샘플 공간에서 도출될 수 있다. 첫 번째 순간의 통계는 다음과 같이 정의할 수 있다.
이 통계는 쿼리와 매칭되는 모든 출처 모집단 일배체형의 비율을 추정할 수 있으며, 실제로는 gi << 1로 예상할 수 있다.
범주형 분포의 파라미터는 통계를 표준화하여 근사치를 구할 수 있다.
다른 로컬 조상 알고리즘과 달리, 본 명세서에 개시된 로컬 조상 분류기는 단순한 모멘트 기반 추정기일 수 있는데, 이는 디리클레 분포(Dirichlet distribution)가 범주형 분포에 대해 켤레 사전 분포로 사용될 때 종종 필요한 복잡한 기본 모집단 유전학 모델에 대한 의존을 최소화한다. 디리클레 사전 분포 하의 베이지안 추론은, 확장성과 계산 시간의 증가를 감수하면서 새로운 파라미터를 갖는 고도로 확률적인 모집단 구조 모델의 시뮬레이션에 내재된 가정을 필요로 할 수 있는데, 흔히 정확도 개선은 알 수 없다. 본 명세서에 개시된 로컬 조상 분류기는 기존의 시뮬레이션 기반 베이지안 추론을 활용하는 대신, 참조 패널 샘플에 대해 학습된 머신 러닝 모델을 적용하여 할당 정확도를 개선하는 데 집중한다.
일부 비제한적 실시예에서, 주변 참조 출처 모집단 매치 길이를 사용하는 방법은 참조 패널 일배체형에 존재하는 일배체형 단계적 분류 오류에 대한 강건성을 증가시킬 수 있다. 그 근거는 페이즈 스위치로 인해 끊어진 긴 매치가 알고리즘에 의해 별도의 매치로 복구되고 매치 길이의 주변 합에 동등하게 기여할 수 있다는 것이다. 그렇지 않을 수 있는 시나리오는 페이즈 스위치가 긴 배치를 끊고 결과의 매치 조각들 중 하나(또는 둘 다)가 너무 짧아서(즉, <0.5 cM) 이 방법으로 기록될 수 없을 때이다. 일부 실시예에서, 주변 모집단 매치 길이의 추정치는 최대 1 cM까지 감소될 수 있다. 이 경우를 해결하기 위한 한 가지 접근 방식은 매치 길이 임계값을 줄이는 것일 수 있다.
일부 비제한적 실시예에서는, 로컬 조상 예측을 평활화할 수 있다. 도 6은 예시적인 평활화 프로세스를 나타낸다. 도 6에 도시된 바와 같이, 원시 할당 데이터는 또한 일반적인 오류를 제거하거나 정확도를 향상시키도록 더욱 평활화될 수 있다. 예를 들어, 일부 비제한적 실시예에서, 원시 할당 데이터 세트의 모든 윈도우에 대한 원시 콜에 대해 머신 러닝 모델을 실행하여 로컬 조상 추정치를 평활화할 수 있다. 은닉 마르코프 모델을 포함하되 이에 제한되지 않는 다양한 머신 러닝 모델을 사용할 수 있다. 또한, 평활화는 로컬 추정치로부터 글로벌 하위 모집단 비율(즉, 글로벌 조상)을 얻을 수 있으며, 이들 글로벌 추정치는 복수의 메타 분류기와 함께 사용되어 전체 샘플 하위 모집단 라벨을 생성할 수 있고 로컬 조상 콜은 모계 또는 부계로 상속된 것으로 분할될 수 있다.
은닉 마르코프 모델(HMM)은 염색체를 따라 특징의 선형적 특성을 모델링하기 때문에 모집단 유전체학에서 널리 사용된다. 본 개시에서, 로컬 조상 라벨의 정렬된 서열은 HMM에서 관찰된 서열로 취급될 수 있다. 이 프레임워크에서 각 참조 모집단은 잠재 변수 또는 쿼리 일배체형의 "은닉 상태"로 간주될 수 있다. 이러한 방식으로 HMM을 사용하는 목적은, 로컬 조상 할당 간의 허위 전이를 제거하고 일반적인 잘못된 할당을 수정하는 것일 수 있다. 일부 비제한적 실시예에서, 로컬 조상 분류기는 로컬 조상 분류기가 고도로 혼합된 샘플에 대해 잘 작동할 수 있도록 전이 확률에 의사 수(pseudo count)를 추가하여 확률이 0이 되지 않도록 하는 등 체인의 혼합을 장려하기 위해 HMM 파라미터를 선호할 수 있다. 일부 실시예에서, HMM은 로컬 조상 할당이 진실의 출처로 가정되는 참조 패널에서 트레이닝될 수 있다.
HMM 방출 확률은 모든 참조 패널 일배체형에 적용되는 리브-원-아웃(leave-one-out) 절차를 통해 추정될 수 있다. 각 참조 일배체형은 쿼리 서열로 사용되며 범주형 분포 p의 추정 파라미터로부터 하위 모집단 라벨을 할당받는다. 이들 추정치는 일배체형의 "참" 하위 모집단 라벨에 의해 비닝된 K×K 행렬로 실행되는 쿼리 일배체형의 모든 N에 대해 집계될 수 있다. 그 결과의 모집단 혼동 행렬의 요소들은 HMM 방출 확률로 사용될 수 있다. 전이 행렬은 참조 패널 일배체형에서 추정된 모집단 라벨의 서열로부터도 학습할 수 있다. 마지막으로, 주어진 은닉 상태에서 시작하는 확률의 벡터는 PBWT 기반 콜의 결과인 글로벌 조상 추정치로부터 추정될 수 있다. 역방향-순방향 알고리즘을 사용하여 각 염색체에 대해 별도의 HMM을 실행할 수 있으며, 비터비 알고리즘을 사용하여 은닉 상태를 통과할 가능성이 가장 높은 경로를 디코딩할 수 있다.
일부 비제한적 실시예에서, 평활화 방법은 복수의 단계를 포함할 수 있다. 제한적이지 않은 일예로서, 이 방법은 유전 물질의 제1 샘플의 둘 이상의 하위 영역 중 적어도 하나의 제1 부분을 식별할 수 있다. 그 후, 이 방법은 유전 물질의 제1 샘플의 둘 이상의 하위 영역 중 적어도 하나의 제2 부분을 식별할 수 있다. 그런 다음 이 방법은 제2 부분을 제1 부분으로 대체할 수 있다. 평활화 방법은 제2 부분이 제1 부분과 일반적으로 혼동되는 부분인 경우, 예를 들어 하위 영역의 제2 부분을 특정 품종으로 식별하는 것이 일반적인 오류이고 제1 부분이 올바른 품종을 나타내는 경우 수행될 수 있다. 평활화 방법은 전체 워크플로의 정확도를 개선하는 데 도움이 될 수 있으며, 그 결과 보다 정확한 품종 식별이 가능해진다. 일부 실시예에서, 일반적으로 혼동되는 품종 및/또는 종의 식별은 혼동 행렬에 의해 촉진될 수 있다. 도 7a는 복수의 동물 종 및/또는 동물 품종과 관련된 혼동 행렬을 예시한다. 도 7b는 y축의 동물 품종을 보여준다. 도 7c는 x축의 동물 품종을 나타낸다. 도 7a 내지 7c는 혼동 행렬이 품종 및/또는 종을 식별하는 데 유용할 수 있음을 보여준다.
전술한 바와 같이 로컬 조상 분류기가 사용하는 기법으로 인해, 로컬 조상 분류기는 기존 작업보다 정확도가 향상될 수 있으며 기존 작업보다 훨씬 더 큰 참조 패널을 쉽게 수용할 수 있다. 이러한 장점은 본 개시 뒷부분의 "예들", 특히 "조상 분류기의 정확도 벤치마킹" 및 "분류 시스템의 확장성 벤치마킹" 섹션에서 설명할 것이다.
글로벌 조상 분류기
일부 비제한적 실시예에서, 글로벌 조상 분류기는 전체 유기체에 대한 출처 모집단을 예측하기 위해 로컬 조상 분류 전체를 고려할 수 있다. 여기에는 단일 출처 모집단에서 유래한 유기체가 포함될 수 있지만, 일반적으로 볼 수 있는 출처 모집단의 조합(또는 혼합물)도 포함될 수 있다. 반려동물의 경우, 간단한 예로 골든 리트리버와 푸들 사이의 교배종인 '골든두들'을 예측하는 것을 들 수 있다. 또한, 글로벌 조상 분류기는 특정 특성에 영향을 미치는 것으로 알려진 특정 DNA 변이에 가중치를 부여하여 전체 유전체 수준에서는 구별할 수 없는 출처 집단에 대한 예측을 개선할 수 있다. 예를 들어, 섬유아세포 성장인자 유전자 FGF5의 변이는 집개(domestic dog)의 털 길이에 영향을 미치는 것으로 알려져 있다. 전체 유전체에 걸쳐서는 구별할 수 없는 다양한 털 길이를 가진 일부 개 품종의 경우, FGF5 유전자 변이에 가중치를 부여하면 장모종과 단모종을 정확하게 구별할 수 있다.
일부 비제한적 실시예에서, 비터비 경로로부터의 로컬 조상 할당은 모계 및 부계 염색체 세트 모두에 대해 집계되어 주어진 이배체 샘플에 대한 글로벌 조상 비율을 계산하는 데 사용될 수 있다. 글로벌 조상 비율은 랜덤 포리스트(Random Forest) 분류기를 사용하여 전체 이배체 샘플의 모집단 라벨을 예측하는 기능으로 사용될 수 있다. 예측은 하나 이상의 알고리즘에 의해 재보정된 신뢰도 점수와 연관될 수 있다. 일부 실시예에서, 랜덤 포리스트 분류기는 (HMM을 통해 실행된 후) 전술한 참조 패널 리브-원-아웃 결과에 대해 트레이닝될 수 있다.
전술한 바와 같이 글로벌 조상 분류기가 사용하는 기법으로 인해, 글로벌 조상 분류기는 기존 작업보다 유리한 기능 및 성능을 가질 수 있다. 이러한 장점은 본 개시의 뒷부분에 있는 "예들", 특히 "조상 분류기의 정확도 벤치마킹", "분류 시스템의 확장성 벤치마킹", "글로벌 조상 분류기의 정확도 평가" 섹션에서 설명할 것이다.
계보 조상(Genealogical Ancestry)의 예측기
로컬 조상 방법은 염색체의 단일의 단계적 분류된 복제에 대한 출처 모집단을 예측하기 때문에, 로컬 조상 예측은 모계 및 부계 유전으로 더 분할될 수 있다. 일부 비제한적 실시예에서, 부모 염색체를 분할하기 위한 계보 조상 예측기는 유전체의 단일 일배체 복제를 구성하는 로컬 조상 비율이 서로 다른 염색체에 걸쳐 유사하다고 가정할 수 있다. 그러면 계보 조상의 예측기는 전체 일배체 염색체들 사이의 유클리드 거리를 최소화하여 모계 및 부계 염색체의 가장 가능성이 높은 분할을 찾을 수 있다. 도 8은 k-평균 클러스터링을 사용하여 염색체 쌍을 모계 및 부계 복제로 분류한 예를 보여준다. 도 8은 염색체별 로컬 조상 비율에 기반한 k-평균 클러스터링을 사용하여 38개의 개과 염색체 쌍을 모계 및 부계 복제로 분할하는 예이다.
일부 비제한적 실시예에서, 계보 조상 예측기는 염색체당 글로벌 조상 비율의 행렬의 고유 분해를 사용할 수 있다. 행렬의 행은 일배체 염색체일 수 있고 열은 출처 모집단 라벨일 수 있다. 두 개의 결과 구성 요소는 k = 2(임의로 모계 및 부계 그룹화)의 k-평균 클러스터링이 적용될 수 있다. 유사한 조상 구성에 따라 염색체를 그룹화하고 이 기준을 사용하여 각 염색체를 모계 및 부계 집합으로 분할하는 것이 목표일 수 있다. 이 절차는 개별 반려동물의 계보 이력을 재구성하는 데 기초 역할을 할 수 있다. 도 9는 염색체 세트에 대한 글로벌 조상 비율로부터의 예시적인 주요 구성 요소를 보여준다. 도 9는 38쌍의 개과 동물 염색체 각각에 대한 글로벌 조상 비율의 처음 두 주성분의 플롯을 보여준다. 부모 염색체 세트는 모계 또는 부계 유전으로 임의로 라벨링된다.
전술한 바와 같이 조상 예측기가 사용하는 기술로 인해, 조상 예측기는 또한 로컬 조상 예측을 모계 및 부계 유전으로 분할할 수 있는데, 이는 고유한 특징일 수 있다.
특성 예측기
일부 비제한적 실시예에서, 로컬 조상 분류기 및/또는 글로벌 조상 분류기의 출력은 일련의 특성 예측 모듈을 포함하는 특성 예측기에 대한 입력으로 사용될 수 있다. 이들 예측 모듈은 큰 영향을 미치는 변종의 유전자형, 전장 유전체 통계(예컨대, 평균 동형접합률), 유전체 주성분 분석(PCA) 예측, DNA 메틸화 프로파일 및/또는 다유전적 위험 점수를 포함한 다양한 보조 입력을 받을 수 있다. 제한적이지 않은 예로서, 특성 예측기는 범위 예측, 위험 예측 및 유전 질환에 대한 소인, 조상 분류에 따른 영양 권장 사항, 행동 및 기질 부류 예측, 수명 및 모든 원인에 의한 사망률 예측(년 단위), 또는 예측된 약리 반응, 주사 마취제의 회복 시간 범위(시간 단위) 중 하나 이상을 예측할 수 있다. 일부 실시예에서, 영양 권장 사항은 상업적으로 이용 가능한 반려동물 사료 제품 및/또는 개별화된 반려동물 사료 제품을 포함하는 하나 이상의 반려동물 사료 제품의 권장 사항을 포함할 수 있다.
일부 비제한적 실시예에서, 특성 예측기는 로컬 조상 분류를 사용하여, 예컨대 특정 특성에 기여하는 알려진 유전자 서열을 식별하기 위해 로컬 조상 라벨을 사용하여, 대상의 다양한 특성에 대한 어떠한 예측 또는 추정을 할 수 있다. 제한적이지 않은 예로서, 특성 예측기는 로컬 조상 분류 라벨을 사용하여 대상의 성체 체중의 하나 이상의 범위를 식별하고, 하나 이상의 유전 질환에 대한 하나 이상의 소인을 식별하고, 하나 이상의 영양 제품 추천 및/또는 하나 이상의 영양 요법 추천을 제공하고, 대상의 연수 및/또는 수명을 추정하고, 그리고/또는 대상에 대한 하나 이상의 약리학적인 반응을 예측할 수 있다.
전술한 바와 같이, 로컬 및 글로벌 조상 분류기의 입력과 다양한 보조 입력을 활용하여 특성 예측기는 기존 작업보다 훨씬 더 많은 특성을 예측할 수 있다. 이러한 장점은 본 개시의 뒷부분의 "예들", 특히 "특성 예측의 성과" 섹션에서 설명한다.
정확도 향상을 위한 자동화 시스템
생성된 분류기의 정확도는 출처 모집단 참조 패널의 개별 샘플에 따라 달라질 수 있다. 제한적이지 않은 예로서, 출처 모집단 참조 패널이 잘못된 모집단 라벨을 포함하는 경우, 시스템의 전체 워크플로(100)의 정확도가 감소될 수 있다. 일부 비제한적 실시예에서, 정확도 개선을 위한 자동화된 시스템은 참조 패널에 추가되는 새로운 샘플을 평가할 수 있다. 이 평가는 먼저 후보 참조 패널 내 모든 샘플에 대해 리브-원-아웃 방식으로 교차 검증을 수행하는 것을 포함할 수 있다. 그 후 교차 검증 결과는 격리 포리스트 이상 탐지 알고리즘과 같은 탐지 알고리즘의 입력으로 사용될 수 있다. 이 알고리즘은 모집단 라벨에 대해 특정 샘플을 이상치로 식별하고, 참조 패널에서 해당 샘플을 제거할 수 있다. 자동화된 시스템은, 미리 결정된 정확도 수준에 도달할 때까지, 예를 들면, 패널 정밀도(precision) 및 재현율(recall)의 대폭적인 향상이 멈출 때까지 적절하게 반복적으로 실행될 수 있다. 다른 비제한적 실시예에서는, 머신 러닝 알고리즘을 사용하여 라벨이 없는 샘플에 대해 라벨을 생성할 수 있다. 제한이 아닌 예로서, 준지도(semi-supervised) 머신 러닝 라벨 전파 알고리즘을 사용하여 라벨이 지정되지 않은 샘플에 대한 추정 라벨 할당을 자동화할 수 있다.
전술한 바와 같이, 정확도 향상을 위한 자동화된 시스템은 리브-원-아웃 절차에 의한 참조 패널의 교차 검증을 활용할 수 있다. 이 시나리오에서, 참조 패널에 포함된 각 샘플은 패널에서 반복적으로 제거되고 그 후 쿼리 서열로서 실행될 수 있다. 그 후 제외된 쿼리 서열에 로컬 조상 라벨이 할당될 수 있다. 이 절차는 참조 패널에 포함된 모든 샘플에 대해 반복할 수 있다. 그 후 샘플들은 추정 출처 모집단 라벨에 의해 그룹화될 수 있다. 로컬 조상 콜을 특징으로 사용하여 출처 모집단 라벨에 의해 그룹화된 각 샘플 세트에 대해 격리 포리스트 기법을 실행할 수 있다. 주어진 샘플을 격리하기 위해 유도된 트리 파티션의 수는 이상 징후를 식별하기 위한 결정 함수로서 사용될 수 있다. 무작위 트리의 숲이 특정 샘플에 대해 예상보다 짧은 경로 길이를 생성하는 경우, 그 샘플은 이상 징후로 라벨링되고 참조 패널로부터 제거될 수 있다. 이 절차는 가중된 재현율 및 정확도의 향상이 미리 지정된 임계값 아래로 떨어질 때까지 반복될 수 있다.
전술한 바와 같이 정확도 개선을 위해 자동화된 시스템이 활용하는 기술로 인해, 자동화된 시스템은 본 명세서에 개시된 바와 같이 시스템 및 서브시스템의 성능을 더욱 향상시킬 수 있다. 이러한 장점은 본 개시의 뒷부분의 "예들", 특히 "자동화된 정확도 향상의 성과" 섹션에서 설명할 것이다.
3. 시퀀싱, 키트 및 치료 방법
본 개시는 동물 또는 반려 동물의 유전체를 시퀀싱하는 방법을 포함한다. 본 개시에서 사용되는 "동물" 또는 "반려 동물"이라는 용어는 집개, 집고양이, 말, 소, 페럿, 토끼, 돼지, 쥐, 생쥐, 저빌, 햄스터, 염소 등을 포함하되, 이에 제한되지 않는 가축을 지칭한다. 애완용 개와 고양이는 특히 반려 동물의 비제한적인 예이다. 본 개시에 따라 사용되는 "동물" 또는 "반려 동물"이라는 용어는 또한, 들소, 엘크, 사슴, 사슴고기, 오리, 새, 물고기 등을 포함하는 야생 동물을 지칭할 수 있다.
본 명세서에서 사용되는 "개" 또는 "케이나인(canine)"이라는 용어는 상호 교환적으로 사용되고, 개과에 속하는 모든 구성원을 지칭하며,여기에는 개과에 속하는 카니스 루푸스(Canis lupus), 카니스 파밀리아리스(Canis familiaris), 카니스 라트랜스(Canis latrans), 카니스 딩고(Canis dingo), 리카온 픽투스(Lycaon pictus), 크리소사이온 브라키유러스(Chrysocyon brachyurus), 아텔로시누스 마이크로티스(Atelocynus microtis), 쿠온 알피너스(Cuon alpinus), 스피토스 베니티투스(Speothos venaticus), 나이테레우스 프로시오노이드(Nyctereutes procyonoides), 벌페스 벌페스(Vulpes vulpes) 및 알로펙스 라고푸스(Alopex lagopus)가 포함되지만, 이에 한정되지는 않는다. 특정 실시예에서, 개 또는 개과 동물은 카니스 파밀리아리스(Canis familiaris)이다.
특정 실시예에서, 이 방법은 동물로부터 샘플을 획득하는 것을 포함한다. 특정 실시예에서, 샘플은 동물로부터 얻은 체액일 수 있다. 일부 비제한적 실시예에서, 샘플은 타액, 객담, 혈액, 발한액(예컨대, 땀), 고름, 눈물, 점막 배설물, 구토물, 소변, 대변, 정액, 질액 또는 다른 유형의 체액일 수 있다. 특정 실시예에서, 샘플은 비액체 샘플일 수 있다. 특정 실시예에서, 샘플은 세포가 없는 샘플일 수 있다. 예를 들어, 샘플은 세포가 없는 핵산 샘플일 수 있지만, 이에 제한되지는 않는다. 특정 실시예에서, 샘플은 세포가 없는 데옥시리보핵산(DNA), 세포가 없는 리보핵산(RNA) 및/또는 세포가 없는 단백질을 포함할 수 있다. 특정 실시예에서, 샘플은 하나 이상의 세포를 포함할 수 있다.
특정 실시예에서, 샘플은 고체 또는 조직 샘플일 수 있다. 특정 실시예에서, 샘플은 피부 샘플일 수 있다. 특정 실시예에서, 샘플은 볼 스왑(cheek swab) 또는 다른 신체 부위의 스왑일 수 있다. 특정 실시예에서, 샘플은 균질 샘플 또는 이질 샘플일 수 있다. 특정 실시예에서, 샘플은 종양 샘플일 수 있다. 특정 실시예에서, 샘플은 하나 이상의 상이한 생물학적 샘플 유형을 포함할 수 있다. 예를 들어, 샘플은 타액 및 피부 조직을 포함할 수 있지만, 이에 제한되지는 않는다. 특정 실시예에서, 샘플은 혈장 또는 혈청 샘플일 수 있다.
특정 실시예에서, 샘플은 객담 샘플이다. 특정 실시예에서, 샘플은 타액 샘플이다. 특정 실시예에서, 샘플은 볼 스왑이다.
특정 실시예에서, 샘플은 동물로부터 수집되고, 추가 처리 및/또는 분석 시점까지 보존 및/또는 안정화될 수 있다. 예를 들어, 어떠한 제한도 없이, 샘플은 이러한 용도의 시약과 함께 배양함으로써 보존 및/또는 안정화될 수 있다. 특정 실시예에서, 샘플을 보존 및/또는 안정화하기 위한 시약은 원하는 효과를 달성하기 위해 수집된 샘플에 작용하는 임의의 물질일 수 있다. 특정 실시예에서, 시약은 유체(예컨대, 액체, 기체, 용액 등) 또는 비유체(예컨대, 고체 분말 등)와 같은 임의의 적합한 형태일 수 있다. 특정 실시예에서, 시약은 샘플에서 데옥시리보핵산(DNA), 리보핵산(RNA), 단백질, 또는 단백질의 다른 성분을 보존할 수 있다. 특정 실시예에서, 시약은 하나 이상의 세포의 세포 후성유전체의 변화를 방지할 수 있다. 특정 실시예에서, 시약은 수집된 샘플의 세포로부터 원하는 분자(예컨대, 핵산 분자)를 추출할 수 있다. 특정 실시예에서, 시약은 수집된 샘플 및/또는 그 하나 이상의 구성 성분을 달리 처리하도록 구성될 수 있다.
다른 비제한적인 예에서, 수집된 샘플은 추가 처리 및/또는 분석이 이루어질 때까지 원래의 상태로 보존될 수 있다. 특정 실시예에서, 수집된 샘플은 박테리아 또는 곰팡이 성장을 방지하도록 보존 및/또는 안정화될 수 있다. 특정 실시예에서, 수집된 샘플은 적어도 약 1시간, 약 2시간, 약 3시간, 약 4시간, 약 5시간, 약 6시간, 약 12시간, 약 1일, 약 2일, 약 3일, 약 4일, 약 5일, 약 6일, 약 7일, 약 1주일, 약 2주, 약 3주, 약 4주, 약 1개월, 약 2개월, 약 3개월, 약 4개월, 약 5개월, 약 6개월, 약 1년, 약 2년, 약 3년 또는 더 긴 시간 동안 보존될 수 있다. 특정 실시예에서, 수집된 샘플은 실온(room temperature) 또는 그 이하에서 장기간 보존 및 보관될 수 있다. 특정 실시예에서, 수집된 샘플은 주변 온도(ambient temperature) 또는 그 이하에서 장기간 보존 및 보관될 수 있다. 특정 실시예에서, 수집된 샘플은 최대 약 60°C의 온도에서 보존될 수 있다.
특정 실시예에서, 안정화 및/또는 보존된 샘플은 외부 시설(예컨대, 원격 시설)에서 추가 처리 및 분석될 수 있다. 예를 들어, 샘플로부터의 핵산 분자(예컨대, DNA 또는 RNA)(이에 제한되지는 않음)는 염기 서열 분석을 위해 분리 및 추출될 수 있다.
샘플 수집 후, 샘플을 처리하여 핵산 분자(예컨대, DNA 또는 RNA)를 추출할 수 있다. 특정 실시예에서, DNA 추출 방법은 유기 추출(예컨대, 페놀-클로로포름 방법), 비유기 방법(예컨대, 염분 제거 및 프로테아제(proteinase) K 처리) 및 흡착 방법(예컨대, 실리카겔 멤브레인)을 포함한다. 핵산을 분리하는 기술의 비제한적인 추가 예로는 Qiagen DNeasy 키트??, Qiagen QIAamp Cador Pathogen Mini 키트??, Nucleospin 96 조직 키트(Macherey-Nagel), QIAzol Lysis Reagent, Qiagen RNeasy 키트, Qiagen TurboCapture mRNA 키트 및 Isopropanol DNA Extraction이 있다.
특정 실시예에서, 본 명세서에 개시된 방법은 동물 또는 반려동물의 유전체의 검출 및 정량화를 포함한다. 특정 실시예에서, 유전체의 검출 및 정량화는 샘플로부터 DNA를 분리하고 DNA를 시퀀싱하는 것을 포함한다. 특정 실시예에서, 유전체의 검출 및 정량화는 샘플로부터 DNA를 분리하고 DNA를 정량화(예컨대, 정량적 PCR)하는 것을 포함한다.
동물 또는 반려동물의 유전체를 검출하고 정량화하기 위한 모든 적절한 기술을 사용할 수 있다. 동물 또는 반려동물의 유전체를 검출하고 정량화하는 기술의 예로는 454 파이로시퀀싱(pyrosequencing), 중합효소 연쇄 반응(polymerase chain reaction, PCR), 정량적(quantitative) PCR(qPCR), 샷건 시퀀싱, 메타유전체 시퀀싱, 일루미나 시퀀싱, 팩바이오(PacBio) 시퀀싱, 나노포어(nanopore) 시퀀싱 및 마이크로어레이 유전자형 분석이 있지만, 이에 제한되지는 않는다. 일부 비제한적 실시예에서, 동물 또는 반려동물의 유전체는 특정 유전자 자리(genetic loci)의 qPCR 증폭(amplification) 및 시퀀싱을 통해 결정될 수 있다. 특정 실시예에서, 시퀀싱 방법은 454-파이로시퀀싱(pyrosequencing)이다. 특정 실시예에서, 시퀀싱 방법은 일루미나(Illumina) 시퀀싱이다. 특정 실시예에서, 시퀀싱 방법은 전장 유전체 시퀀싱이다. 특정 실시예에서, 동물 또는 반려동물의 유전체를 검출하고 정량화하는 방법은 마이크로어레이 유전자형 분석(genotyping)이다. 특정 실시예에서, 마이크로어레이 유전자형 분석은 일루미나 인피니엄 비드칩 마이크로어레이(Illumina Infinium BeadChip microarray) 유전자형 분석이다.
동물 또는 반려동물의 유전체는 본 명세서에 개시된 방법들 중 하나를 사용하여 추가로 분석할 수 있다.
특정 실시예에서, 본 개시는 가정, 현장 또는 원격에서 편리하고 간단하게 샘플을 수집할 수 있는 시스템, 장치 및 방법을 포함한다. 예를 들어, 모든 사용자는 직접적인 지도 없이 샘플을 수집할 수 있다. 특정 실시예에서, 샘플은 샘플 수집 장치에서 수집될 수 있다. 특정 실시예에서, 샘플 수집 장치는 샘플(예컨대, 핵산 분자)의 보존 및/또는 저장을 위한 화학 시약이 미리 채워진 저장소를 포함할 수 있다. 특정 실시예에서, 샘플 수집 장치의 저장소는 사용자에게 직접 노출되지 않도록 차폐되는 것이 바람직할 수 있다. 특정 실시예에서, 사용자에게 따라하기 쉬운 지침이 제공될 수 있다. 특정 실시예에서, 이 지침은 디바이스 사용, 디바이스를 이용한 샘플 수집, 사용 후 디바이스 폐기(예컨대, 원격 위치로 배송), 샘플 분석 결과 액세스 방법, 또는 기타 지침을 지시할 수 있다. 특정 실시예에서, 수집된 샘플은 추가 처리 및/또는 분석을 위해 배송(예컨대, 우편 또는 캐리어를 통한)을 통해 원격 실험실로 운송될 수 있다.
특정 실시예에서, 샘플 수집 장치는 생물학적 샘플이 수집될 캐리어를 포함할 수 있다. 특정 실시예에서, 캐리어는 흡수성 부재일 수 있다. 예를 들어, 캐리어는 면봉, 면, 패드, 스폰지, 폼 또는 생물학적 샘플을 흡수하여 운반할 수 있는 기타 재료 또는 장치일 수 있지만, 이에 제한되지 않는다.
특정 실시예에서, 본 개시는 키트를 제공한다. 특정 실시예에서, 키트는 샘플 수집 장치를 포함한다. 특정 실시예에서, 샘플 수집 장치는 저장소 및 캐리어를 포함한다. 특정 실시예에서, 저장소는 샘플을 안정화 및/또는 보존하기 위한 시약을 포함한다. 특정 실시예에서, 저장소는 사용자가 시약에 직접 노출되지 않도록 보호하기 위한 실드를 포함한다. 특정 실시예에서, 캐리어는 흡수 부재를 포함한다. 특정 실시예에서, 캐리어는 스왑(swab)이다. 특정 실시예에서, 저장소 및 캐리어는 시약 또는 샘플의 유출을 제한하거나 방지하도록 구성 및 배열된다. 특정 실시예에서, 키트는 서면 지침을 포함한다. 서면 지침은 팸플릿으로 제공되거나 인터넷 연결(예컨대, QR 코드 사용)을 통해 제공될 수 있다. 예를 들어, 지침은 시료 채취 장치 사용 방법, 시료 채취 방법, 폐기 방법, 시료 분석 결과에 액세스하는 방법에 대한 정보를 포함할 수 있지만 이에 대한 제한은 없다.
특정 실시예에서, 키트는 샘플 수집 장치를 원격 처리 위치로 배송하기 위한 컨테이너를 포함한다. 특정 실시예에서, 키트는 상자, 봉투 또는 기타 포장재(예컨대, 단열재, 자체 밀봉 또는 다른 밀봉 메커니즘, 우편 요금 등)를 포함한다. 특정 실시예에서, 키트는 반송 라벨 및/또는 선불 라벨을 포함한다.
특정 실시예에서, 키트는 샘플 분석 결과에 액세스하는 방법에 대한 지침을 포함한다. 특정 실시예에서, 지침은 웹사이트에 액세스하거나 개인 디바이스(예컨대, 스마트폰)에서 애플리케이션을 다운로드할 수 있도록 하이퍼링크 또는 빠른 응답 코드(예컨대, QR 코드)를 포함할 수 있다. 특정 실시예에서, 결과는 보고서로 제공된다. 특정 실시예에서, 보고서는 사용자 또는 의료 제공자(예컨대, 수의사)에게 우편으로 또는 전자적으로 전달된다. 특정 실시예에서, 보고서는 개인 디바이스(예컨대, 스마트폰)에서 시각화될 수 있다. 특정 실시예에서, 보고서는 맞춤형 추천을 포함할 수 있다.
특정 실시예에서, 맞춤형 추천은 동물에게 영양학적으로 완전한 개별화된 식단을 제공하는 것을 포함한다. 예를 들어, 어떠한 제한도 없이, 맞춤형 추천은 국제 특허 공개 번호 WO 2021/061743에 설명된 하나의 식단일 수 있는데, 이 문서의 내용은 그 전체가 참고로 본 명세서에 포함된다.
특정 실시예에서, 맞춤형 추천은 체중 증가 식단 또는 체중 감량 식단을 제공하는 것을 포함한다. 특정 실시예에서, 식단(예컨대, 체중 감량 식단 또는 체중 증가 식단)은 동물의 현재 체중 및 동물의 유전체에 기초하여 맞춤화된다. 일부 비제한적 실시예에서, 식단은 에너지 밀도가 약 4100 kcal/kg, 약 4000 kcal/kg, 약 3900 kcal/kg, 약 3800 kcal/kg, 약 3700 kcal/kg, 약 3600 kcal/kg, 약 3500 kcal/kg, 약 3000 kcal/kg, 약 2500 kcal/kg, 약 2000 kcal/kg, 약 1500 kcal/kg, 약 1000 kcal/kg 이하 또는 임의의 중간값 또는 범위인 것을 포함한다. 일부 비제한적 실시예에서, 식단은 약 20% w/w, 19% w/w, 18% w/w, 17% w/w, 16% w/w, 15% w/w, 14% w/w, 13% w/w, 12% w/w, 11% w/w, 10% w/w, 9% w/w, 8% w/w, 7% w/w, 6% w/w, 5% w/w, 4% w/w, 3% w/w, 2% w/w, 1% w/w 이하의 지방량 또는 임의의 중간 값 또는 범위를 포함한다. 일부 비제한적 실시예에서, 식단은 탄수화물의 양이 약 25% w/w, 20% w/w, 15% w/w, 10% w/w, 5% w/w, 1% w/w 이하 또는 임의의 중간값 또는 범위인 것을 포함한다. 일부 비제한적 실시예에서, 식단은 단백질의 양이 약 20% w/w, 25% w/w, 30% w/w, 35% w/w, 40% w/w, 45% w/w 이상, 또는 임의의 중간 값 또는 범위인 것을 포함한다. 일부 비제한적 실시예에서, 식단은 섬유의 양이 약 5% w/w, 10% w/w, 15% w/w, 20% w/w, 25% w/w, 30% w/w, 35% w/w, 40% w/w, 45% w/w 이상 또는 임의의 중간 값 또는 범위인 것을 포함한다. 체중 감량 다이어트 및 체중 증가 다이어트에 대한 추가 정보는 국제 특허 공개 번호 WO 2018/129518에서 찾을 수 있으며, 그 내용은 그 전체가 참고로 본 명세서에 포함된다.
특정 실시예에서, 맞춤형 권장 사항은 피부 상태(예컨대, 수분, 질감, 탄력, 무결성, 장벽 등)를 개선하기 위한 식단을 동물에게 제공하는 것을 포함한다. 특정 실시예에서, 식단은 리놀레산(linoleic acid)을 포함한다. 특정 실시예에서, 식단은 약 7 g/Mcal 내지 약 9 g/Mcal의 양의 리놀레산을 포함한다. 특정 실시예에서, 식단은 약 8 g/Mcal의 리놀레산을 포함한다. 본 명세서에서 사용되는 바와 같이, 식단에 포함된 특정 물질에 대한 "x g/Mcal"이라는 표현은 해당 물질이 식단에 포함된 Mcal당 x 그램의 양으로 포함되어 있다는 것을 의미한다. 특정 실시예에서, 식단은 리놀레산 및 아연을 포함한다. 특정 실시예에서, 식단은 약 40 mg/Mcal 내지 약 60 mg/Mcal의 아연을 포함한다. 특정 실시예에서, 식단은 약 50 mg/Mcal의 아연을 포함한다. 피부 상태를 개성하기 위한 식단에 대한 추가 정보는 국제 특허 공개 번호 WO 2020/055856에서 찾을 수 있으며, 그 내용은 그 전체가 참고로 본 명세서에 포함된다.
본 개시에 포함되는 추가적인 예시적인 식단은 국제 특허 공개 번호 WO 2019/183557, WO 2019/144081 및 미국 특허 공개 번호 US 2022/0096537에서 찾아볼 수 있으며, 이들 각각의 내용은 그 전체가 참고로 포함된다.
4. 예들
본 개시의 발명 대상은 조상 및 특성 분류에서 각 서브시스템의 정확도를 개선하기 위한 것이다. 이러한 분류는 로컬 조상 분류와 글로벌 조상 분류를 포함하지만 이에 제한되지 않는다. 다음은 이들 분류에 대한 예들을 설명한다.
예 1: 조상 분류기의 정확도 벤치마킹하기
87개 품종 그룹의 4,368개의 개 샘플에서 유전자형이 확인된 84,414개의 유전적 변이에 대한 공개적으로 이용 가능한 데이터 세트를 참조 패널(n = 4,168)과 200개의 단일 기원 쿼리 샘플로 분할했다. 또한, 200개의 단일 기원 쿼리 샘플을 사용하여 200개의 고도로 혼합된 합성 샘플을 생성했다. 단일 기원 및 고도로 혼합된 쿼리 샘플은 모두 본 명세서에 개시된 시스템 및 RFMix에서의 로컬 및 글로벌 조상 예측을 거쳤다. 200개의 쿼리 샘플의 실제 라벨이 알려져 있기 때문에, 본 명세서에 개시된 실시예는 본 개시의 시스템의 정확도와 RFMix의 정확도를 비교할 수 있었다. 분류기의 정확도는 예측된 조상 비율과 실제 비율 사이의 평균 제곱 오차(MSE)로 측정되었다.
도 10은 최신 기술의 분류기 RFMix와 비교한 우리 시스템의 정확도 벤치마크의 예시 결과를 보여준다. 도 10 및 표 1은 RFMix와 본 개시의 시스템의 각 쿼리 세트 내의 200개의 샘플에 대한 MSE 분포를 보여준다. 단일 기원 쿼리 샘플에 대해, 본 개시의 시스템과 RFMix 모두 비슷하게 높은 수준의 정확도를 보였다(도 10). 짝을 이룬 샘플 t-테스트 결과 단일 기원 샘플에 대한 RFMix와 비교했을 때 우리 시스템의 MSE에 유의미한 차이가 없었다(t=-1.0749; P=0.2831). 반대로, 단일 기원과 고도로 혼합된 샘플의 평균 MSE는 본 개시의 시스템과 RFMix 간에 유의미한 차이가 있었다(t = 14.1269; P <0.01).
시스템 데이터 세트 평균 MSE
본 개시 단일 기원 0.000113
RFMix 단일 기원 0.000217
본 개시 고도로 혼합된 0.000009
RFMix 고도로 혼합된 0.001647
표 1. 조상 예측 시스템과 RFMix를 사용한 200개 샘플의 평균 평균 제곱 오차
예 2: 분류 시스템의 확장성 벤치마킹하기
본 개시의 시스템의 확장성을 RFMix의 확장성과 비교했다. 본 개시의 시스템과 RFMix가 사용하는 컴퓨팅 리소스에서 극적인 차이가 관찰되었다. 본 명세서에 보고된 결과를 생성하기 위해, 본 개시의 시스템에서는 최대 2Gb의 RAM이 필요하며 모든 염색체에 대해 전체 워크플로를 완료하는 데 평균 6분이 소요된다. 그러나, RFMix는 단일 염색체 데이터 세트를 완료하는 데 최대 60Gb의 RAM이 필요하고 평균 3시간이 소요된다. 상용 클라우드 환경에서 두 가지 워크플로를 모두 실행하려면 현재 시간당 $0.904의 가격이 책정된 r5a.4xlarge 인스턴스 유형이 필요하며 200개 샘플에 대해 단일 염색체 데이터 세트를 실행하는 데 평균 3시간의 런타임이 소요된다. 이러한 요구 사항은 샘플당 $0.515의 비용으로 환산된다. 본 개시의 시스템의 요구사항은 현재 시간당 0.768달러의 가격이 책정된 m5.4xlarge 인스턴스 유형으로, 200개의 샘플에 대해 평균 6분 동안 실행되며, 모든 염색체에 대해 평균 가격은 샘플당 약 0.000384달러가 될 것이다. 참고로 RFMix는 6,000명 이상의 참조 패널을 수용할 수 없는 반면, 본 개시의 시스템은 20,000개 이상의 개별 샘플로 효율적으로 실행되었다는 점에 유의해야 한다.
예 3: 글로벌 조상 분류의 정확도 평가하기
앞서 설명한 바와 같이, 기존의 작업은 로컬 조상 할당으로부터 전체 유기체의 조상을 예측할 수 없다. 본 명세서에 개시된 실시예는 계층화된 K-겹 교차 검증(k-fold cross-validation) 절차를 사용하여 글로벌 조상 분류기의 정확도를 특성화했다. 도 11은 글로벌 조상 분류기의 예시적인 수신기 동작 특성(ROC) 곡선을 보여준다. 공개적으로 사용 가능한 참조 패널을 사용한 매크로 재현율은 0.9939이고 도 11의 수신기 동작 특성(ROC) 곡선은 곡선 아래 면적(AUC)이 0.9192임을 보여준다.
유기체 라벨 예측 외에도, 특정 유전적 변이를 글로벌 조상과 함께 사용하여 예측을 개선할 수 있다. 개념 증명 실험에서는, 표현형에 큰 영향을 미치는 것으로 알려진 10개의 유전자 표지를 사용하여 푸들(토이 푸들과 미니어처 푸들), 콜리(러프헤어와 스무드헤어), 닥스훈트(롱헤어와 쇼트헤어)의 구별할 수 없는 하위 유형을 더 세밀하게 분류할 수 있었다. 표 2는 무작위 포리스트 머신 러닝 모델의 맥락에서 이들 추가 표지를 사용할 때의 정확도를 보여준다.
비교 정확도
푸들 유형 0.869
콜리 유형 0.951
닥스훈트 유형 0.898
표 2. 동물 표현형에 큰 영향을 미치는 것으로 알려진 제한된 유전자 표지 세트에 기초하여 한 집단 하위 유형 예측의 정확도
예 4: 특성 예측 성과
반려동물의 건강한 성체 체중을 예측할 수 있는 모델을 구축하기 위해 특성 예측기에 의사결정 트리 기반 머신 러닝 접근법이 사용되었다. 머신 러닝 알고리즘에 대한 입력은 글로벌 조상 데이터로 구성된 16,168마리의 개 샘플 트레이닝 세트와, 병원 방문 시 수의사 진찰을 통해 얻은 39개의 크기 및 체중 관련 유전자 표지, 성별, 중성화 상태, 체중 데이터에 대한 유전자형 데이터이다.
도 12는 예측된 성체 체중과 실제 관찰된 성체 체중의 예시적인 회귀를 도시한 도면이다. 도 12는 예측된 성체 체중 및 본 실시예에 따라 그리고 전술한 바와 같이 예시적인 성체 체중 예측 모듈을 사용하여 실제 관찰된 성체 체중의 예시적인 회귀 분석을 보여준다. 테스트 샘플 세트에서 체중 예측 모델을 평가한 결과 평균 절대 백분율 오차(MAPE)가 21.8%로 나타났다.
예 5: 자동화된 정확도 향상의 성과
도 13은 이상 검출을 위해 격리 포리스트 기법을 사용하여 로컬 조상 참조 패널을 반복적으로 개선한 예를 보여준다. 도 13은 잘못 라벨링된 참조 샘플을 제거하는 격리 포리스트 반복을 포함한 교차 검증 방법을 추가로 반복 적용하면 참조 패널 정밀도 및 재현율이 향상됨을 보여준다. 일부 비제한적 실시예에서, 교차 검증 방법은 지도 또는 준지도될 수 있다.
표 3은 전술한 대로 지도형 라벨 전파 방법과 준지도형 라벨 전파 방법을 사용하여 하위 유형을 구분하는 정확도를 보여 주는데, 여기서 준지도형 라벨 전파 방법은 하위 유형 라벨의 50%를 할당하는 데 사용되었다.
비교 지도 준지도
푸들 유형 0.869 0.869
콜리 유형 0.951 0.959
표 3. 50%의 하위 유형 라벨을 할당하기 위한 준지도형 라벨 전파만 사용했을 때의 이전 섹션에서 설명한 하위 유형 구분의 정확도
도 14는 조상 예측을 위한 예시적인 방법(1400)을 도시한다. 이 방법은 단계 1410에서 시작될 수 있는데, 여기서 컴퓨팅 시스템은 제1 동물과 연관된 유전 물질 샘플에 액세스할 수 있고, 여기서 유전 물질 샘플은 하나 이상의 원시 유전자형을 포함한다. 단계 1420에서, 컴퓨팅 시스템은 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형을 생성할 수 있다. 단계 1430에서, 컴퓨팅 시스템은 하나 이상의 머신 러닝 알고리즘에 의해 하나 이상의 단계적 일배체형에 대해, 하나 이상의 단계적 일배체형과 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널 사이의 비교에 기초하여, 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성할 수 있다. 단계(1440)에서, 컴퓨팅 시스템은 제1 동물과 연관된 출력을 사용자에게 제공하기 위한 지침을 사용자 디바이스로 전송할 수 있으며, 여기서 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당에 기초하여 출력이 생성된다. 특정 실시예는 적절한 경우, 도 14의 방법의 하나 이상의 단계를 반복할 수 있다. 본 개시는 도 14의 방법의 특정 단계들이 특정 순서로 일어나는 것으로서 설명하고 예시하지만, 본 개시는 도 14의 방법의 임의의 적절한 단계들이 어떠한 적절한 순서로 이루어지는 것도 고려한다. 또한, 본 개시가 도 14의 방법의 특정 단계를 포함하는 조상 예측을 위한 예시적인 방법을 설명하고 예시하지만, 본 개시는 적절한 경우, 도 14의 방법의 단계의 전부 또는 일부를 포함하거나 또는 아무것도 포함하지 않을 수 있는 임의의 적절한 단계를 포함하는 임의의 적절한 조상 예측을 위한 임의의 적절한 방법을 고려한다. 또한, 본 개시가 도 14의 방법의 특정 단계를 수행하는 특정 구성요소, 장치, 또는 시스템을 설명하고 예시하지만, 본 개시는 도 14의 방법의 임의의 적절한 단계를 수행하는 임의의 적절한 구성요소, 장치, 또는 시스템의 임의의 적절한 조합을 고려한다.
당업자는 본 개시의 방법 및 시스템이 다양한 방식으로 구현될 수 있으며, 따라서 전술한 예시적 실시예들 및 예들에 의해 제한되지 않음을 인식할 것이다. 즉, 하드웨어 및 소프트웨어 또는 펌웨어의 다양한 조합에서 단일 또는 복수의 구성요소에 의해 수행되는 기능 요소가 클라이언트 레벨 또는 서버 레벨 또는 양쪽 모두에서 소프트웨어 애플리케이션들 사이에 분산될 수 있다. 이와 관련하여, 본 명세서에 설명된 여러 실시예들의 기능 중 임의의 수의 기능이 단일 또는 복수의 실시예로 결합될 수 있으며, 본 명세서에 설명된 모든 특징보다 적거나 더 많은 특징을 갖는 대체 실시예가 가능하다.
기능은 또한 전체 또는 일부가 현재 알려져 있거나 앞으로 알려지는 방식으로 여러 구성 요소에 분산될 수 있다. 따라서, 본 명세서에 설명된 기능, 특징, 인터페이스 및 기본 설정을 달성하기 위해 무수히 많은 소프트웨어/하드웨어/펌웨어 조합이 가능하다. 또한, 본 개시의 범위는 전술한 특징, 기능 및 인터페이스를 수행하기 위한 종래의 공지된 방식뿐만 아니라, 당업자가 현재 및 향후에 이해할 수 있듯이 본 명세서에 기재된 하드웨어 또는 소프트웨어 또는 펌웨어 구성요소에 대해 이루어질 수 있는 변형 및 수정을 포함한다.
또한, 본 개시에서 순서도로 제시되고 설명되는 방법의 실시예는 기술에 대한 보다 완전한 이해를 제공하기 위해 예를 통해 제공된다. 개시된 방법은 본 명세서에 제시된 동작 및 논리적 흐름에 한정되지 않는다. 다양한 작업의 순서가 변경되고 더 큰 작업의 일부로 기술되는 하위 작업이 독립적으로 수행되는 대안적인 실시예가 고려된다.
본 개시의 목적을 위해 다양한 실시예를 설명하였지만, 그러한 실시예는 본 개시의 가르침을 그러한 실시예로 제한하도록 간주되어서는 안 된다. 본 개시에 설명된 시스템 및 프로세스의 범위 내에서 결과를 얻기 위해 전술한 요소 및 동작에 다양한 변경 및 수정이 이루어질 수 있다.
본 명세서에서 개시된 발명 대상은 특정 바람직한 실시예의 관점에서 설명하였지만, 당업자는 그 범위를 벗어나지 않고 개시된 발명 대상에 대해 다양한 수정 및 개선이 이루어질 수 있음을 인식할 것이다. 또한, 개시된 발명 대상의 하나의 비제한적인 실시예의 개별 특징이 본 명세서에서 논의되거나 다른 실시예가 아닌 하나의 비제한적인 실시예의 도면에 도시될 수 있지만, 하나의 비제한적인 실시예의 개별 특징이 다른 실시예의 하나 이상의 특징 또는 복수의 실시예의 특징과 결합될 수 있음이 명백할 것이다.

Claims (52)

  1. 방법으로서,
    하나 이상의 컴퓨팅 시스템에 의해,
    하나 이상의 원시 유전자형을 포함하는, 제1 동물과 연관된 유전 물질의 샘플에 액세스하는 단계와,
    상기 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형(phased haplotype)을 생성하는 단계와,
    하나 이상의 머신 러닝 알고리즘에 의해 상기 하나 이상의 단계적 일배체형에 대해, 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널과 상기 하나 이상의 단계적 일배체형 사이의 비교에 기초하여 하나 이상의 유전자 모집단(genetic population)에 대한 하나 이상의 로컬 할당을 생성하는 단계와,
    상기 제1 동물과 연관된 출력 - 상기 출력은 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당에 기초하여 생성됨 - 을 사용자에게 제시하기 위한 지침을 사용자 장치로 전송하는 단계를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당에 기초하여, 상기 제1 동물과 연관된 하나 이상의 출처 모집단(source population)을 결정하는 단계를 더 포함하는,
    방법.
  3. 제1항 또는 제2항에 있어서,
    상기 하나 이상의 출처 모집단을 결정하는 단계는,
    모계 염색체 및 부계 염색체 모두에 대해 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당을 집계하는 단계와,
    상기 집계에 기초하여 상기 하나 이상의 출처 모집단과 연관된 비율을 계산하는 단계와,
    상기 계산된 비율에 기초하여 상기 하나 이상의 출처 모집단을 결정하는 단계를 더 포함하는,
    방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 분할하는 단계를 더 포함하는,
    방법.
  5. 제4항에 있어서,
    상기 분할하는 단계는 하나 이상의 클러스터링 알고리즘(clustering algorithm)에 기초하는,
    방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당 및 상기 하나 이상의 출처 모집단에 기초하여, 상기 제1 동물과 연관된 하나 이상의 유전적 특성을 결정하는 단계를 더 포함하는,
    방법.
  7. 제6항에 있어서,
    상기 하나 이상의 유전적 특성을 결정하는 단계는 또한 효과가 큰 변이의 유전자형, 전장 유전체(genome-wide) 통계, 유전체 주성분 분석(PCA) 예측, DNA 메틸화 프로파일 또는 다유전적 위험 점수 중 하나 이상에 기초하는,
    방법.
  8. 제6항 또는 제7항에 있어서,
    상기 하나 이상의 유전적 특성은,
    성체 체중의 범위,
    위험 예측 또는 유전적 질병에 대한 소인(predisposition),
    영양 권장 사항,
    행동 및 기질 부류 예측,
    수명 추정,
    년 단위의 모든 원인에 의한 사망률 예측,
    예상되는 약리학적 반응, 또는
    주사용 마취제의 시간 단위의 회복 시간 범위
    중 하나 이상을 포함하는,
    방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 참조 패널에 추가된 하나 이상의 새로운 참조 샘플에 기초하여 상기 하나 이상의 머신 러닝 알고리즘을 업데이트하는 단계를 더 포함하는,
    방법.
  10. 제9항에 있어서,
    상기 업데이트하는 단계는,
    상기 참조 패널 내의 모든 샘플에 걸쳐 교차 검증을 적용하는 단계와,
    탐지 알고리즘에 의한 상기 교차 검증과 연관된 결과에 기초하여, 하나 이상의 이상치(outlier)를 식별하는 단계와,
    상기 참조 패널로부터 상기 식별된 이상치를 제거하는 단계를 포함하는,
    방법.
  11. 제9항 또는 제10항에 있어서,
    상기 업데이트하는 단계는 상기 하나 이상의 머신 러닝 알고리즘의 미리 결정된 정확도 수준에 도달할 때까지 반복적으로 되풀이되는,
    방법.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서,
    상기 업데이트하는 단계는,
    상기 참조 패널 내의 하나 이상의 라벨이 없는 샘플에 대해 하나 이상의 라벨을 생성하는 단계를 더 포함하되, 상기 업데이트하는 단계는 상기 생성된 라벨에 기초하는,
    방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 하나 이상의 원시 유전자형에 기초하여, 하나 이상의 합의 유전자형(consensus genotype)을 생성하는 단계와,
    상기 하나 이상의 원시 유전자형 및 상기 하나 이상의 합의 유전자형에 기초하여, 상기 하나 이상의 단계적 일배체형을 생성하는 단계 - 상기 생성하는 단계는 상기 하나 이상의 원시 유전자형 및 상기 하나 이상의 합의 유전자형을 모계 염색체 및 부계 염색체로 단계적 분류하는(phasing) 단계를 포함함 - 를 더 포함하는,
    방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘은 위치 버로우즈-휠러 변환 알고리즘(positional Burrows-Wheeler transform algorithm)을 포함하는,
    방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘에 기초하여 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당과 연관된 하나 이상의 오류를 제거하는 단계를 더 포함하는,
    방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘은 은닉 마르코프 모델(hidden Markov model)을 포함하는,
    방법.
  17. 제1항 내지 제16항 중 어느 한 항의 방법을 통해 동물의 로컬 조상 및 글로벌 조상을 결정하기 위한 키트로서, 상기 키트는 샘플 수집 장치를 포함하는,
    키트.
  18. 제17항에 있어서,
    상기 샘플 수집 장치는 캐리어 및 저장소를 포함하는,
    키트.
  19. 제18항에 있어서,
    상기 캐리어는 흡수 부재를 포함하고 상기 저장소는 실드를 포함하는,
    키트.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 샘플 수집 장치 사용 방법 및/또는 샘플 수집 방법에 대한 서면 지침을 더 포함하는,
    키트.
  21. 소프트웨어를 구현하는 하나 이상의 컴퓨터 판독 가능한 비일시적 저장 매체로서, 상기 소프트웨어는 실행될 때,
    제1 동물과 연관된 유전 물질의 샘플에 액세스하고 - 상기 유전 물질의 샘플은 하나 이상의 원시 유전자형을 포함함 - ,
    상기 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형(phased haplotype)을 생성하며,
    하나 이상의 머신 러닝 알고리즘에 의해 상기 하나 이상의 단계적 일배체형에 대해, 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널과 상기 하나 이상의 단계적 일배체형 사이의 비교에 기초하여 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성하고,
    상기 제1 동물과 연관된 출력 - 상기 출력은 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당에 기초하여 생성됨 - 을 사용자에게 제시하기 위한 지침을 사용자 장치로 전송하도록 동작 가능한,
    저장 매체.
  22. 제21항에 있어서,
    상기 소프트웨어는 또한 실행될 때,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당에 기초하여 상기 제1 동물과 연관된 하나 이상의 출처 모집단을 결정하도록 동작가능한,
    저장 매체.
  23. 제21항 또는 제22항에 있어서,
    상기 하나 이상의 출처 모집단을 결정하는 것은,
    모계 염색체 및 부계 염색체 모두에 대해 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당을 집계하는 것과,
    상기 집계에 기초하여 상기 하나 이상의 출처 모집단과 연관된 비율을 계산하는 것과,
    상기 계산된 비율에 기초하여 상기 하나 이상의 출처 모집단을 결정하는 것을 더 포함하는,
    저장 매체.
  24. 제21항 내지 제23항 중 어느 한 항에 있어서,
    상기 소프트웨어는 또한 실행될 때,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 분할하도록 동작가능한,
    저장 매체.
  25. 제24항에 있어서,
    상기 분할하는 것은 하나 이상의 클러스터링 알고리즘에 기초하는,
    저장 매체.
  26. 제21항 내지 제25항 중 어느 한 항에 있어서,
    상기 소프트웨어는 또한 실행될 때,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당 및 상기 하나 이상의 출처 모집단에 기초하여, 상기 제1 동물과 연관된 하나 이상의 유전적 특성을 결정하도록 동작가능한,
    저장 매체.
  27. 제26항에 있어서,
    상기 하나 이상의 유전적 특성을 결정하는 것은, 효과가 큰 변이의 유전자형, 전장 유전체 통계, 유전체 주성분 분석(PCA) 예측, DNA 메틸화 프로파일 또는 다유전적 위험 점수 중 하나 이상에 더 기초하는,
    저장 매체.
  28. 제26항 또는 제27항에 있어서,
    상기 하나 이상의 유전적 특성은
    성체 체중의 범위,
    위험 예측 또는 유전적 질병에 대한 소인(predisposition),
    영양 권장 사항,
    행동 및 기질 부류 예측,
    수명 추정,
    년 단위의 모든 원인에 의한 사망률 예측,
    예상되는 약리학적 반응, 또는
    주사용 마취제의 시간 단위의 회복 시간 범위
    중 하나 이상을 포함하는,
    저장 매체.
  29. 제21항 내지 제28항 중 어느 한 항에 있어서,
    상기 소프트웨어는 또한 실행될 때,
    상기 참조 패널에 추가된 하나 이상의 새로운 참조 샘플에 기초하여 상기 하나 이상의 머신 러닝 알고리즘을 업데이트하도록 동작가능한,
    저장 매체.
  30. 제29항에 있어서,
    상기 업데이트하는 것은,
    상기 참조 패널 내의 모든 샘플에 걸쳐 교차 검증을 적용하는 것과,
    탐지 알고리즘에 의한 상기 교차 검증과 연관된 결과에 기초하여, 하나 이상의 이상치(outlier)를 식별하는 것과,
    상기 참조 패널로부터 상기 식별된 이상치를 제거하는 것을 포함하는,
    저장 매체.
  31. 제29항 또는 제30항에 있어서,
    상기 업데이트하는 것은 상기 하나 이상의 머신 러닝 알고리즘의 미리 결정된 정확도 수준에 도달할 때까지 반복적으로 되풀이되는,
    저장 매체.
  32. 제29항 내지 제31항 중 어느 한 항에 있어서,
    상기 업데이트하는 것은,
    상기 참조 패널 내의 하나 이상의 라벨이 없는 샘플에 대해 하나 이상의 라벨을 생성하는 것을 더 포함하되, 상기 업데이트하는 것은 상기 생성된 라벨에 기초하는,
    저장 매체.
  33. 제21항 내지 제32항 중 어느 한 항에 있어서,
    상기 소프트웨어는 또한 실행될 때,
    상기 하나 이상의 원시 유전자형에 기초하여, 하나 이상의 합의 유전자형을 생성하고,
    상기 하나 이상의 원시 유전자형 및 상기 하나 이상의 합의 유전자형에 기초하여, 하나 이상의 단계적 일배체형을 생성하도록 - 상기 생성하는 것은, 상기 하나 이상의 원시 유전자형 및 상기 하나 이상의 합의 유전자형을 모계 염색체 및 부계 염색체로 단계적 분류하는 것을 포함함 - 동작가능한,
    저장 매체.
  34. 제21항 내지 제33항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘은 위치 버로우즈-휠러 변환 알고리즘을 포함하는,
    저장 매체.
  35. 제21항 내지 제34항 중 어느 한 항에 있어서,
    상기 소프트웨어는 또한 실행될 때,
    상기 하나 이상의 머신 러닝 알고리즘에 기초하여 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당과 연관된 하나 이상의 오류를 제거하도록 동작가능한,
    저장 매체.
  36. 제21항 내지 제35항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘은 은닉 마르코프 모델(hidden Markov model)을 포함하는,
    저장 매체.
  37. 하나 이상의 프로세서와, 상기 프로세서에 결합되어 있으며 상기 프로세서에 의해 실행 가능한 명령어를 포함하는 비일시적 메모리를 포함하는 시스템으로서,
    상기 프로세서는 상기 명령어를 실행할 때,
    제1 동물과 연관된 유전 물질의 샘플에 액세스하고 - 상기 유전 물질의 샘플은 하나 이상의 원시 유전자형을 포함함 - ,
    상기 하나 이상의 원시 유전자형에 기초하여 하나 이상의 단계적 일배체형(phased haplotype)을 생성하며,
    하나 이상의 머신 러닝 알고리즘에 의해 상기 하나 이상의 단계적 일배체형에 대해, 복수의 참조 모집단과 연관된 복수의 참조 일배체형을 포함하는 참조 패널과 상기 하나 이상의 단계적 일배체형 사이의 비교에 기초하여 하나 이상의 유전자 모집단에 대한 하나 이상의 로컬 할당을 생성하고,
    상기 제1 동물과 연관된 출력 - 상기 출력은 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당에 기초하여 생성됨 - 을 사용자에게 제시하기 위한 지침을 사용자 장치로 전송하도록 동작 가능한,
    시스템.
  38. 제37항에 있어서,
    상기 프로세서는 또한 상기 명령어를 실행할 때,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당에 기초하여 상기 제1 동물과 연관된 하나 이상의 출처 모집단을 결정하도록 동작가능한,
    시스템.
  39. 제37항 또는 제38항에 있어서,
    상기 하나 이상의 출처 모집단을 결정하는 것은,
    모계 염색체 및 부계 염색체 모두에 대해 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당을 집계하는 것과,
    상기 집계에 기초하여 상기 하나 이상의 출처 모집단과 연관된 비율을 계산하는 것과,
    상기 계산된 비율에 기초하여 상기 하나 이상의 출처 모집단을 결정하는 것을 더 포함하는,
    시스템.
  40. 제37항 내지 제39항 중 어느 한 항에 있어서,
    상기 프로세서는 또한 상기 명령어를 실행할 때,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당을 모계 유전 그룹 또는 부계 유전 그룹 중 하나 이상으로 분할하도록 동작가능한,
    시스템.
  41. 제40항에 있어서,
    상기 분할하는 것은 하나 이상의 클러스터링 알고리즘에 기초하는,
    시스템.
  42. 제37항 내지 제41항 중 어느 한 항에 있어서,
    상기 프로세서는 또한 상기 명령어를 실행할 때,
    상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당 및 상기 하나 이상의 출처 모집단에 기초하여, 상기 제1 동물과 연관된 하나 이상의 유전적 특성을 결정하도록 동작가능한,
    시스템.
  43. 제42항에 있어서,
    상기 하나 이상의 유전적 특성을 결정하는 것은 또한 효과가 큰 변이의 유전자형, 전장 유전체 통계, 유전체 주성분 분석(PCA) 예측, DNA 메틸화 프로파일 또는 다유전적 위험 점수 중 하나 이상에 기초하는,
    시스템.
  44. 제42항 또는 제43항에 있어서,
    상기 하나 이상의 유전적 특성은
    성체 체중의 범위,
    위험 예측 또는 유전적 질병에 대한 소인(predisposition),
    영양 권장 사항,
    행동 및 기질 부류 예측,
    수명 추정,
    년 단위의 모든 원인에 의한 사망률 예측,
    예상되는 약리학적 반응, 또는
    주사용 마취제의 시간 단위의 회복 시간 범위
    중 하나 이상을 포함하는,
    시스템.
  45. 제37항 내지 제44항 중 어느 한 항에 있어서,
    상기 프로세서는 또한 상기 명령어를 실행할 때,
    상기 참조 패널에 추가된 하나 이상의 새로운 참조 샘플에 기초하여 상기 하나 이상의 머신 러닝 알고리즘을 업데이트하도록 동작가능한,
    시스템.
  46. 제45항에 있어서,
    상기 업데이트하는 것은,
    상기 참조 패널 내의 모든 샘플에 걸쳐 교차 검증을 적용하는 것과,
    탐지 알고리즘에 의한 상기 교차 검증과 연관된 결과에 기초하여, 하나 이상의 이상치(outlier)를 식별하는 것과,
    상기 참조 패널로부터 상기 식별된 이상치를 제거하는 것을 포함하는,
    시스템.
  47. 제45항 또는 제46항에 있어서,
    상기 업데이트하는 것은 상기 하나 이상의 머신 러닝 알고리즘의 미리 결정된 정확도 수준에 도달할 때까지 반복적으로 되풀이되는,
    시스템.
  48. 제45항 내지 제47항 중 어느 한 항에 있어서,
    상기 업데이트하는 것은,
    상기 참조 패널 내의 하나 이상의 라벨이 없는 샘플에 대해 하나 이상의 라벨을 생성하는 것을 더 포함하되, 상기 업데이트하는 것은 상기 생성된 라벨에 기초하는,
    시스템.
  49. 제37항 내지 제48항 중 어느 한 항에 있어서,
    상기 프로세서는 또한 상기 명령어를 실행할 때,
    상기 하나 이상의 원시 유전자형에 기초하여, 하나 이상의 합의 유전자형을 생성하고,
    상기 하나 이상의 원시 유전자형 및 상기 하나 이상의 합의 유전자형에 기초하여, 하나 이상의 단계적 일배체형을 생성하도록 - 상기 생성하는 것은, 상기 하나 이상의 원시 유전자형 및 상기 하나 이상의 합의 유전자형을 모계 염색체 및 부계 염색체로 단계적 분류하는 것을 포함함 - 동작가능한,
    시스템.
  50. 제37항 내지 제49항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘은 위치 버로우즈-휠러 변환 알고리즘(positional Burrows-Wheeler transform algorithm)을 포함하는,
    시스템.
  51. 제37항 내지 제50항 중 어느 한 항에 있어서,
    상기 프로세서는 또한 상기 명령어를 실행할 때,
    상기 하나 이상의 머신 러닝 알고리즘에 기초하여 상기 하나 이상의 유전자 모집단에 대한 상기 하나 이상의 로컬 할당과 연관된 하나 이상의 오류를 제거하도록 동작가능한,
    시스템.
  52. 제37항 내지 제51항 중 어느 한 항에 있어서,
    상기 하나 이상의 머신 러닝 알고리즘은 은닉 마르코프 모델(hidden Markov model)을 포함하는,
    시스템.
KR1020247004167A 2021-07-07 2022-07-07 유전적 조상을 예측하기 위한 시스템, 방법 및 장치 KR20240031369A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163219349P 2021-07-07 2021-07-07
US63/219,349 2021-07-07
PCT/US2022/036384 WO2023283355A1 (en) 2021-07-07 2022-07-07 System, method, and apparatus for predicting genetic ancestry

Publications (1)

Publication Number Publication Date
KR20240031369A true KR20240031369A (ko) 2024-03-07

Family

ID=82748717

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247004167A KR20240031369A (ko) 2021-07-07 2022-07-07 유전적 조상을 예측하기 위한 시스템, 방법 및 장치

Country Status (7)

Country Link
US (1) US20230019141A1 (ko)
EP (1) EP4367671A1 (ko)
KR (1) KR20240031369A (ko)
CN (1) CN117859179A (ko)
AU (1) AU2022308670A1 (ko)
CA (1) CA3223837A1 (ko)
WO (1) WO2023283355A1 (ko)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008815A1 (en) * 2003-10-24 2006-01-12 Metamorphix, Inc. Compositions, methods, and systems for inferring canine breeds for genetic traits and verifying parentage of canine animals
JP2020505588A (ja) 2017-01-09 2020-02-20 マース インコーポレーテッドMars Incorporated 動物の最適な成長を維持するシステム及び方法
ES2953127T3 (es) 2018-01-19 2023-11-08 Mars Inc Biomarcadores y algoritmos de clasificación para enfermedad renal crónica en gatos
GB201804698D0 (en) 2018-03-23 2018-05-09 Mars Inc Reduced methionine diet for dogs
CN112867476B (zh) 2018-09-10 2023-07-21 马斯公司 包含亚油酸的组合物
US20210134387A1 (en) * 2018-09-11 2021-05-06 Ancestry.Com Dna, Llc Ancestry inference based on convolutional neural network
US10692587B2 (en) * 2018-09-11 2020-06-23 Ancestry.Com Dna, Llc Global ancestry determination system
WO2020075145A1 (en) * 2018-10-12 2020-04-16 Ancestry.Com Dna, Llc Enrichment of traits and association with population demography
EP4000070A4 (en) * 2019-07-19 2023-08-09 23Andme, Inc. PHASE-SENSITIVE DETERMINATION OF IDENTICAL DNA SEGMENTS BY DESCENT
AU2020326389B2 (en) * 2019-08-02 2023-10-05 Ancestry.Com Dna, Llc Clustering of matched segments to determine linkage of dataset in a database
BR112022000908A2 (pt) 2019-09-23 2022-06-07 Mars Inc Composição alimentar seca para animais individualizada
US11817176B2 (en) * 2020-08-13 2023-11-14 23Andme, Inc. Ancestry composition determination
US20220096537A1 (en) 2020-09-25 2022-03-31 Mars, Incorporated Methods for treating dilated cardiomyopathy

Also Published As

Publication number Publication date
CN117859179A (zh) 2024-04-09
EP4367671A1 (en) 2024-05-15
AU2022308670A1 (en) 2024-01-25
CA3223837A1 (en) 2023-01-12
AU2022308670A2 (en) 2024-03-07
WO2023283355A1 (en) 2023-01-12
US20230019141A1 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
Kardos et al. The peril of gene-targeted conservation
Ilska et al. Genetic characterization of dog personality traits
Hayes et al. A validated genome wide association study to breed cattle adapted to an environment altered by climate change
Städele et al. Strategies for determining kinship in wild populations using genetic data
Winter et al. Elevated rates of protein secretion, evolution, and disease among tissue-specific genes
Van Eenennaam et al. DNA-based paternity analysis and genetic evaluation in a large, commercial cattle ranch setting
US7729864B2 (en) Computer systems and methods for identifying surrogate markers
Hulsegge et al. Selection of SNP from 50K and 777K arrays to predict breed of origin in cattle
US20060111849A1 (en) Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
CN110997936A (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
Johnsson et al. Quantitative trait locus and genetical genomics analysis identifies putatively causal genes for fecundity and brooding in the chicken
US20220344007A1 (en) Pet genome-based matchmaking social network system and method for providing pet genome-based matchmaking information
Kumar et al. SNPs with intermediate minor allele frequencies facilitate accurate breed assignment of Indian Tharparkar cattle
Lai et al. Genome-wide association studies reveal susceptibility loci for noninfectious claw lesions in Holstein dairy cattle
Saravanan et al. Signatures of selection in riverine buffalo populations revealed by genome-wide SNP data
Waineina et al. Selection signature analyses revealed genes associated with adaptation, production, and reproduction in selected goat breeds in Kenya
Cortes et al. Applications of microsatellites and single nucleotide polymorphisms for the genetic characterization of cattle and small ruminants: An overview
Kasarapu et al. The Bos taurus–Bos indicus balance in fertility and milk related genes
Yin et al. A comprehensive genomic analysis of Chinese indigenous ningxiang pigs: genomic breed compositions, runs of homozygosity, and beyond
Fang et al. Genomic evaluation and genome-wide association studies for total number of teats in a combined American and Danish Yorkshire pig populations selected in China
Saleh et al. Polymorphic characterisation of gallinacin candidate genes and their molecular associations with growth and immunity traits in chickens
KR20240031369A (ko) 유전적 조상을 예측하기 위한 시스템, 방법 및 장치
Czech et al. Host transcriptome and microbiome interactions in Holstein cattle under heat stress condition
US20150286774A1 (en) Method and arrangement for determining traits of a mammal
Kinghorn et al. Quantitative genotyping to estimate genetic contributions to pooled samples and genetic merit of the contributing entities