KR101770884B1 - 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체 - Google Patents

복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체 Download PDF

Info

Publication number
KR101770884B1
KR101770884B1 KR1020147023080A KR20147023080A KR101770884B1 KR 101770884 B1 KR101770884 B1 KR 101770884B1 KR 1020147023080 A KR1020147023080 A KR 1020147023080A KR 20147023080 A KR20147023080 A KR 20147023080A KR 101770884 B1 KR101770884 B1 KR 101770884B1
Authority
KR
South Korea
Prior art keywords
sequence
value
determining
sample
candidate
Prior art date
Application number
KR1020147023080A
Other languages
English (en)
Other versions
KR20140114442A (ko
Inventor
쑤양 인
춘레이 쟝
셩페이 천
츈셩 쟝
샤오위 판
후이 쟝
시우칭 쟝
Original Assignee
비지아이 다이어그노시스 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비지아이 다이어그노시스 씨오., 엘티디. filed Critical 비지아이 다이어그노시스 씨오., 엘티디.
Publication of KR20140114442A publication Critical patent/KR20140114442A/ko
Application granted granted Critical
Publication of KR101770884B1 publication Critical patent/KR101770884B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

복제 개수 변이가 샘플 게놈에 존재하는지의 여부를 확정하는 방법, 이 방법을 구현하도록 적용된 시스템, 및 컴퓨터 판독 가능한 매체가 제공된다. 복제 개수 변이가 샘플 게놈에 존재하는지의 여부를 확정하기 위한 방법은, 복수의 스퀸싱 스퀀스로 이루어진 스퀸싱 결과를 얻기 위하여, 샘플 게놈을 스퀸싱하는 단계; 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포를 확정하기 위하여, 기준 게놈 스퀀스에 스퀸싱 결과를 비교 대조하는 단계; 기준 게놈 스퀀스에서 스퀸싱 스퀀스 분포에 기초하여 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계로서, 스퀸싱 스퀀스의 개수는 상기 돌파점의 양측에서 현저한 차이를 갖는, 복수의 돌파점을 확정하는 단계; 복수의 돌파점에 기초하여 기준 게놈에서 검사 윈도우를 확정하는 단계; 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하는 단계; 및 제 1 파라미터와 예정된 한계치 사이의 차이에 기초하여, 게놈 샘플이 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계를 포함한다.

Description

복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체 {METHOD AND SYSTEM FOR DETERMINING WHETHER COPY NUMBER VARIATION EXISTS IN SAMPLE GENOME, AND COMPUTER READABLE MEDIUM}
본 공개의 실시예는 일반적으로 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체에 관한 것이다.
과학 연구 및 응용의 분야에 있어서는 단일 세포, 복수의 세포, 또는 핵산 샘플의 추적을 분석하는 문제가 일반적으로 발생하는데, 예를 들어, 보조 생식 기술의 분야에서 착상전 유전자 진단(PGD) 및 착상전 유전자 검사(PGS)는 단일 생식 세포, 단일 할구 세포 또는 배아 세포와 함께 분석을 포함하고; 비침습성 태아기 진단 기술의 분야는 모계 말초 혈액에서 태아 세포의 추적을 검출하는 문제를 포함하며; 메타지노믹스(Metagenomics)는 단일 또는 환경의 생물 세포의 추적과 분석을 포함하고; 질병 또는 신체의 연구는 조직 또는 체액에서 단일 세포와 함께 분석을 포함한다.
그러나, 현재 복제 개수 변이(copy number variation)를 확정하는 방법은 여전히 개선될 필요가 있다.
본 공개의 실시예는 종래 기술에 존재하는 문제점 중 적어도 하나를 적어도 일부 해결하려고 시도한다.
본 공개의 제 1 넓은 관점의 실시예는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법을 제공한다. 본 공개의 실시예에 따라, 본 방법은,
복수의 스퀸싱 스퀀스(sequencing sequence)로 이루어진 스퀸싱 결과를 얻기 위하여, 상기 게놈 샘플을 스퀸싱하는 단계; 기준 게놈 스퀀스에서의 상기 스퀸싱 스퀀스 분포를 확정하기 위하여, 상기 기준 게놈 스퀀스에 스퀸싱 결과를 비교 대조하는 단계; 기준 게놈 스퀀스에서 상기 스퀸싱 스퀀스 분포에 기초하여 상기 기준 게놈 스퀀스에서 복수의 돌파점(breakpoint)을 확정하는 단계로서, 스퀸싱 스퀀스의 개수는 상기 돌파점의 양측에서 현저한 차이를 갖는, 복수의 돌파점을 확정하는 단계; 상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 단계: 상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하는 단계; 및 상기 제 1 파라미터와 예정된 한계치 사이의 차이에 기초하여 상기 게놈 샘플이 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계를 포함할 수 있다. 본 공개의 실시예에 따른 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법을 사용함으로써, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부가 효과적으로 확정될 수 있으며, 이는 염색체의 이수성, 염색체 단편의 결실(deletion), 및 염색체 단편의 증가, 미소-결실(micro-deletion) 및 미소-반복(micro-repetition)을 포함하지만, 이에 제한하지 않는 다양한 복제 개수 변이에 적당하다.
본 공개의 제 2 넓은 관점의 실시예는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템을 제공한다. 본 공개의 실시예에 따라, 본 시스템은,
복수의 스퀸싱 스퀀스로 이루어진 스퀸싱 결과를 얻기 위하여, 상기 게놈 샘플을 스퀸싱하도록 구성된 스퀸싱 장치; 및 상기 스퀸싱 장치에 연결되어, 복제 개수 변이가 상기 스퀸싱 결과에 기초하여 상기 게놈 샘플에 존재하는지의 여부를 확정하도록 구성된 분석 장치를 포함할 수 있으며, 상기 분석 장치는, 시퀸싱 시퀀스에서의 기준 시퀀스 분포를 확정하기 위하여, 상기 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하도록 구성된 비교 대조 유닛; 상기 비교 대조 유닛에 연결되어, 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포에 기초하여 상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하도록 구성된 돌파점 확정 유닛으로서, 상기 돌파점 양측의 스퀸싱 스퀀스의 개수는 현저한 차이를 갖는, 돌파점 확정 유닛; 상기 돌파점 확정 유닛에 연결되어, 상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하도록 구성된 검사 윈도우 확정 유닛; 상기 검사 윈도우 확정 유닛에 연결되어, 상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하도록 구성된 파라미터 확정 유닛; 및 상기 파라미터 확정 유닛에 연결되어, 제 1 파라미터와 미리 확정된 한계치 사이의 차이에 기초하여 상기 게놈 샘플이 상기 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하도록 구성된 확정 유닛을 더 포함할 수 있다. 본 공개의 실시예에 따른 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템을 사용함으로써, 본 공개의 실시예에 따른 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법은 효과적으로 구현될 수 있으며, 이는, 염색체의 이수성, 염색체 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미세 반복을 포함하지만, 이에 제한하지 않는 다양한 복제 개수 변이에 적당하다.
본 공개의 제 3 넓은 관점의 실시예는 컴퓨터 판독 가능한 매체를 제공한다. 본 공개의 실시예에 따라, 본 컴퓨터 판독 가능한 매체는 다음 단계들, 즉, 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포를 확정하기 위하여, 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하는 단계; 기준 게놈 스퀀스에서의 상기 스퀸싱 스퀀스 분포에 기초하여, 상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계로서, 스퀸싱 스퀀스의 개수가 상기 돌파점의 양측에서 현저한 차이를 갖는, 복수의 돌파점을 확정하는 단계; 상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 단계; 상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하는 단계; 및 상기 제 1 파라미터와 미리 확정된 한계치 사이의 차이에 기초하여, 상기 게놈 샘플이 상기 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계를 통하여, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 프로세서에 의해 실행되도록 구성된다. 컴퓨터 판독 가능한 매체에 의해, 게놈 샘플에 존재하는지의 여부를 효과적으로 확정하기 위하여, 본 공개의 실시예에 따른 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법은 효과적으로 구현될 수 있으며, 이는, 염색체의 이수성, 염색체 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미세 반복을 포함하지만, 이에 제한하지 않는 다양한 복제 개수 변이에 적당하다.
본 공개의 실시예의 추가적인 관점 및 장점은 다음 설명으로부터 부분적으로 제공되고, 다음의 설명에서 부분적으로 명백해지거나 본 공개의 실시예의 실시로부터 알게 될 것이다.
본 공개의 실시예에 따라, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법이 제공되어, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부가 효과적으로 확정될 수 있으며, 염색체의 이수성, 염색체 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미소-반복을 포함하지만, 이에 제한하지 않는 다양한 복제 개수 변이에 적당하다.
도 1은 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법을 도시하는 흐름도;
도 2는 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부에 대한 시스템을 도시한 개략 선도;
도 3은 본 공개의 다른 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법을 도시하는 흐름도;
도 4는 본 공개의 실시예에 따라 샘플(S1)의 염색체 핵형 분석를 도시한 이미지를 나타내는 도면으로서, 여기서, 좌측 패널은 본 공개의 실시예에 따라 전체 게놈 증폭 처리되었던 단일 배아의 세포와 함께 복제 개수 변이를 검출하는 본 방법에 의해 수득된 결과를 도시하고, 우측 패널은 동일한 단일 배아의 세포에서 추출된 DNA와 직접 스퀸싱(처음에 전체 게놈 증폭 처리 없이)에 의해 수득된 결과를 도시한, 이미지를 나타내는 도면.
도 5는 본 공개의 실시예에 따른 샘플(S2)의 염색체 핵형 분석을 도시한 이미지를 나타내는 도면으로서, 여기서, 좌측 패널은 본 공개의 실시예에 따라 전체 게놈 증폭 처리되었던 단일 배아 세포와 함께 복제 개수 변이를 검출하는 방법에 의해 수득된 결과를 도시하고, 우측 패널은 동일한 단일 배아 세포에서 추출된 DNA와 직접 스퀸싱(처음에 전체 게놈 증폭 처리 없이)에 의해 수득된 결과를 도시한, 이미지를 나타내는 도면.
본 공개의 실시예의 상기 및 다른 관점과 장점은 첨부된 도면을 참조하여 다음 설명으로부터 명백히 되고 보다 쉽게 이해될 것이다.
참조는 본 공개의 실시예에 상세히 구성될 것이다. 동일하거나 유사한 요소와 동일하거나 유사한 기능을 갖는 요소는 설명 전체에 걸쳐 동일한 참조 번호에 의해 표시된다. 도면을 참조하여 본 명세서에 기재된 실시예는 본 공개를 일반적으로 이해하기 위해 설명하고, 예시하고, 사용된다. 본 실시예는 본 공개에 제한하도록 해석되어서는 안된다.
또한, "제 1" 및 "제 2"와 같은 용어는 본 명세서에서 설명을 위해 사용되었으며, 관련된 중요성 및 의미를 나타내거나 암시하는 것으로 의도되지 않는다. 따라서, "제 1" 또는 "제 2"로 정의된 특징은 상기 특징의 하나 이상을 명시적 또는 암시적으로 포함할 수 있다. 또한, 본 공개의 설명에 있어서, 별도로 지정하지 않는 한, "복수의"는 하나 이상을 지칭한다. 만일, 지정하지 않은 경우, 본 명세서에 사용된 수식 또는 부호에 있어서, 동일한 알파벳은 동일한 의미를 나타낸다.
I. 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법
본 공개의 제 1 실시예에 따라, 본 공개에서 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법이 제공된다. 본 명세서에 사용된 "복제 개수 변이(CNV)"의 용어는, 염색체 이수성, 염색체 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미소-반복을 포함하지만, 이에 제한하지 않는 염색체 또는 염색체 단편 복제 개수의 기형(abnormality)을 지칭한다.
도 1을 참조하면, 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법은 다음 단계를 포함한다.
S100 : 복수의 스퀸싱 스퀀스로 이루어지는 스퀸싱 결과를 얻기 위하여, 게놈 샘플을 스퀸싱하는 단계
본 공개의 실시예에 따라, 본 공개의 방법이 특별히 제한되지 않는 게놈 샘플의 형태는 전체 게놈 또는 게놈의 일부, 예를 들어, 염색체 또는 염색체 단편이 될 수 있다. 게다가, 본 공개의 실시예에 따라, 게놈 샘플을 스퀸싱하는 단계 이전에, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 단계는 생물학적 샘플로부터 게놈 샘플을 추출하는 단계들 더 포함할 수 있다. 이에 따라, 생물학적 샘플은 생물학적 샘플이 복제 개수 변이를 갖는지의 여부에 관한 정보를 얻기 위해 원 재료(raw material)로서 직접 사용하여, 유기체의 건강 상태를 반영할 수 있다. 본 공개의 실시예에 따라, 사용된 생물학적 샘플은 특별히 제한되지 않는다. 본 공개의 일부 특정 예에 따라, 생물학적 샘플은 혈액, 오줌, 타액, 조직, 생식 세포, 수정란, 할구, 및 배아로 이루어진 그룹으로부터 선택된 어떤 하나가 된다. 본 기술에 숙련된 사람들은 서로 다른 생물학적 샘플이 다른 질병을 분석하기 위해 사용될 수 있다는 것을 이해할 것이다. 이에 따라, 이들 샘플은 유기체로부터 편리하게 수득될 수 있고, 서로 다른 샘플들은 어떤 질병을 분석하기 위한 특정 수단을 선택하기 위하여 어떤 질병을 특별히 알려 주는데 사용될 수 있다. 예를 들어, 어떤 암을 앓고 있을 수 있는 한 대상에 대해서, 분석을 위해 세포가 더 분리되는 암의 조직 또는 암의 근처 조직에서 수집될 수 있고, 이에 따라, 그러한 조직이 암으로 진행할 지의 여부가 가능한 빨리 정확하게 확정될 수 있다. 본 공개의 특정 예에 따라, 단일 세포는 생물학적 샘플로서 사용될 수 있다. 본 공개의 실시예에 따라, 생물학적 샘플에서 단일 세포를 분리하는 방법 및 장치는 특별히 제한을 받지 않는다. 본 공개의 일부 특정 예에 따라, 단일 세포는, 희석(dilution), 마우스-제어 피펫(mouth-controlled pipette), 현미 조작(micromanipulation)(현미 해부(micro-dissection)가 바람직함), 유동 세포 분리(flow cytometry isolation), 미소 유체 역학(microfluidics) 중 적어도 하나를 사용하여 생물학적 샘플에서 분리될 수 있다. 이에 따라, 단일 세포는 후속 단계를 구현하기 위하여, 생물학적 샘플로부터 효율적 및 편리하게 수득될 수 있다. 그 다음, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성은 더욱 향상될 수 있다.
게다가, 본 공개의 실시예에 따라, 게놈 샘플을 스퀸싱하는 방법은 특별히 제한을 받지 않는다. 본 공개의 실시예에 따라, 게놈 샘플을 스퀸싱하는 단계는 다음 서브-단계, 즉, 첫 번째로, 증폭된 게놈 샘플을 수득하기 위하여 게놈 샘플을 증폭하는 단계, 두 번째로, 증폭된 게놈 샘플로 시퀀싱-라이브러리를 구축하는 단계, 마지막으로, 복수의 스퀸싱 스퀀스로 이루어진 스퀸싱 결과를 수득하기 위하여, 구축된 시퀀싱-라이브러리를 스퀸싱하는 단계를 포함한다. 이에 따라, 게놈 샘플의 스퀸싱 결과의 전체 게놈 정보는 효과적으로 수득될 수 있고, 단일 세포 게놈 또는 핵산 샘플의 추적은 효과적인 스퀸싱 처리될 수 있고, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선할 수 있다. 본 기술에 숙련된 사람들은 게놈 스퀸싱 기술에 사용되는 특정 해법에 따라 시퀀싱-라이브러리를 구축하는 다른 방법을 선택할 수 있다. 게놈 시퀀싱-라이브러리를 구축하는 상세한 공정은 일루미나 컴파니(Illumina Company)와 같은 스퀸싱-계기 제작자에 의해 제공되는 스펙, 예를 들어, 멀티플렉싱 샘플 준비 가이드(Multiplexing Sample Preparation Guide)(Part#1005063; 2010년 2월)를 참조할 수 있다.
선택적으로, 단일 세포일 때 생물학적 샘플에서 게놈 샘플을 추출하는 단계에 대해서, 본 공개의 실시예에 따라, 본 방법은 단일 세포의 전체 게놈을 석방(release)하기 위해 단일 세포를 용해하는 단계를 더 포함할 수 있다. 본 공개의 일부 예에 따라, 전체 게놈을 석방하기 위하여 단일 세포를 용해하는 방법은 단일 세포가 용해되는 한, 특별히 제한을 받지 않는데, 바람직하게는 단일 세포가 완전히 용해된다. 본 공개의 특정 예에 따라, 단일 세포는 단일 세포의 전체 게놈을 석방하기 위하여 알카리성 용해물을 사용하여 용해된다. 본 공개의 발명자들은 단일 세포를 석방하는 단계가 전체 게놈을 석방하기 위해 단일 세포를 효과적으로 용해할 수 있고, 석방된 전체 게놈이 스퀸싱될 때, 정확성이 개선될 수 있으며, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선할 수 있다. 본 공개에 따른 실시예에 따라, 단일 세포 전체 게놈을 증폭하는 방법은 특별히 제한되지 않으며, PCR-기반 방법, 예를 들어, PEP-PCR, DOP-PCR 및 옴니플렉스 WGA(OmniPlex WGA)가 사용될 수 있으며, 비-PCR-기반 방법, 예를 들어, 복수의 변위 증폭(MDA)이 사용될 수 있다. 본 공개의 특정 예에 따라, PCR-기반 방법, 예를 들어, 옴니플렉스 WGA이 바람직하게 사용된다. 제한하지 않지만, 시그마 알드리치(Sigma Aldrich)로부터의 게놈플렉스(GenomePlex), 루비콘 유전체학(Rubicon Genomics)으로부터의 피코플렉스(PicoPlex), 퀴아젠(Qiagen)으로부터의 REPLI-g, 지이 헬스케어(GE Healthcare)로부터의 일러스트라 게놈아이피(illustra GenomiPhi), 등을 포함하는 상업용 키트가 사용될 수 있다. 본 공개의 특정 예에 따라, 시퀀싱-라이브러리를 구축한는 서브-단계 이전에, 단일 세포 전체 게놈은 옴니플렉스 WGA에 의해 증폭될 수 있다. 이에 따라, 전체 게놈은 효과적으로 증폭될 수 있으며, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 유효성을 더 개선할 수 있다. 본 공개의 실시예에 따라, 전체 게놈 시퀀싱-라이브러리를 스퀸싱하는 서브-단계는, 일루미나 컴파니의 하이섹(Hiseq) 시스템, 일루미나 컴파니의 마이섹(Miseq) 시스템, 일루미나 컴파니의 게놈 분석기(GA) 시스템, 로슈 컴파니(Roche Company)의 454 FLX, 어플라이드 바이오시스템즈 컴파니의 SOLiD 시스템, 라이프 테크놀러지 컴파니의 이온 토렌트 시스템으로 이루어진 차세대 스퀸싱 기술로부터 선택된 적어도 하나에 의해 실행된다. 이에 따라, 이들 스퀸싱 장치의 높은 처리량 및 깊은 스퀸싱의 특성들이 사용될 수 있고, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선한다. 명백하게, 본 기술에 숙련된 사람들은 다른 스퀸싱 방법 및 장치, 예를 들어, 헬리코스 바이오사이언스 캄파니(Helicos BioSciences Company)로부터의 헬리스코프(HeliScope) 시스템, 팍바이오 컴파니(PacBio Company)로부터의 RS 시스템, 등 중 어느 하나와 같은 3세대 스퀸싱 기술(즉, 단일 분자 스퀸싱 기술)뿐만 아니라 이후에 개발될 수 있는 더 진보된 스퀸싱 기술이 전체 게놈 스퀸싱을 위해 또한 사용될 수 있다는 것을 이해할 것이다. 본 공개의 실시예에 따라, 전체 게놈 스퀸싱에 의해 수득된 스퀸싱 데이터의 길이는 특별히 제한되지 않는다. 본 공개의 특정 예에 따라, 복수의 스퀸싱 데이터는 약 50 bp의 평균 길이를 갖는다. 본 공개의 발명자들은 놀랍게도 약 50 bp의 길이를 갖는 스퀸싱 데이터가 스퀸싱 데이터를 분석하는데 크게 용이하게 될 수 있다는 것을 발견하였으며, 이는 분석 효율성을 개선하고 분석을 위한 비용을 크게 줄일 수 있으며, 이에 의해, 단일 세포의 염색체 이수성을 확정하는 효율성을 더 개선하고, 단일 세포의 염색체 이수성을 확정하는 비용을 감소시킬 수 있다. 본 명세서에 사용된 "평균 길이"의 용어는 모든 스퀸싱 데이터 길이의 값의 평균값으로 지칭한다.
S200 : 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포를 확정하기 위하여, 기준 게놈 스퀀스에 스퀸싱 결과를 비교 대조하는 단계
게놈 샘플을 스퀸싱하는 단계를 완료한 이후에, 수득된 스퀸싱 결과는 복수의 스퀸싱 데이터를 포함한다. 수득된 스퀸싱 결과는, 기준 게놈 스퀀스에서 얻어진 스퀸싱 결과의 위치를 확정하기 위하여, 기준 게놈 스퀀스에 비교 대조된다. 본 공개의 실시예에 따라, 이들 스퀸싱 데이터의 전체 개수를 계산하기 위하여 어떤 공지된 방법도 사용될 수 있다. 예를 들어, 스퀸싱 계기 제작자에 의해 제공되는 소프트웨어는 분석을 위해 사용될 수 있다. 쇼트 올리고핵산염 분석 패키지(Short Oligonucleotide Analysis Package)(SOAP) 및 버로우-휠러 얼라이너(Burrows-Wheeler Aligner)(BWA)가 사용되는 것이 바람직하며, 이는 기준 스퀀스에서의 스퀸싱 스퀀스의 위치를 수득하기 위하여 기준 게놈 스퀀스에 스퀸싱 스퀀스를 비교 대조한다. 소프트웨어의 프로그램에 의해 제공되는 디폴트 파라미터는 비교 대조에 사용될 수 있거나, 본 기술에 숙련된 사람들에 의해 필요에 따라 파라미터가 선택될 수 있다. 본 공개의 한 실시예에 있어서, SOAP얼라이너/소프2(SOAPaligna/soap2)가 비교 대조 소프트웨어로서 사용된다.
본 공개의 실시예에 따라, 기준 게놈 스퀀스는 NCBI 데이터베이스에서 표준 인간 게놈 기준 스퀀스가 될 수 있거나(예를 들어, hg18, NCBI Build 36이 될 수 있다); 또는, 공지된 게놈 스퀀스의 일부가 될 수 있는데, 예를 들어, 인간의 21번 염색체, 18번 염색체, 13번 염색체, X 염색체, 및 Y 염색체로 이루어진 그룹으로부터 선택된 적어도 하나의 스퀀스가 될 수 있다.
본 공개의 실시예에 따라, 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하는 단계에 의해, 기준 게놈 스퀀스에 유일하게 비교 대조된 시퀸스는 후속 분석을 위해 선택될 수 있다. 이에 따라, 스퀀스를 반복하여 복제 개수 변이의 분석에 대한 간섭은 회피될 수 있으며, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선한다.
S300 : 기준 게놈 스퀀스에서 스퀸싱 스퀀스 분포에 기초하여 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계
본 명세서에 사용된 "돌파점(breakpoints)"의 용어는 하나의 게놈에서 사이트의 종류를 지칭하며, 여기서, 사이트의 양측의 스퀸싱 스퀀스의 개수는 두 영역 사이에서 크게 다르다. 스퀸싱 스퀀스가 게놈 샘플로부터 유도되기 때문에, 특정 영역에 게놈 샘플내의 복제 개수 변이가 존재할 때, 이 영역에 대응하는 스퀸싱 스퀀스의 개수는 또한 현저하게 변화한다. 이에 따라, 복수의 돌파점을 확정한 후에, 두 개의 연속된 돌파점들 사이의 영역에 존재할 수 있는 복제 개수 변이는 예비적으로 확정될 수 있다.
본 공개의 실시예에 따라, 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계는 다음 서브-단계들을 더 포함한다.
첫째로, 기준 게놈 스퀀스는 예정된 길이를 갖는 복수의 일차 윈도우로 분할되고, 각 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스가 확정된다. 본 공개의 특정 예에 따라, 종래의 비교 대조 프로그램에 의해, 수득된 스퀸싱 결과에 포함된 스퀸싱 스퀀스는 기준 게놈 스퀀스에 비교 대조될 수 있고, 이에 의해, 각각의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스가 확정될 수 있으며, 예를 들어, 상술한 단계(S200)에서 성취될 수 있다. 본 공개의 특정 예에 따라, 각각의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스는 유일하게 비교 대조된 스퀸싱 스퀀스이다. 이에 따라, 반복 스퀀스에 의해 복제 개수 변이의 분석에 대한 간섭을 피할 수 있으며, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선한다.
두 번째로, 기준 게놈 스퀀스에서의 적어도 하나의 사이트에 대해서, 사이트의 양측에서 동일한 개수의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스들의 개수를 확정한다. 본 공개의 실시예에 따라, 교정 분석은 기준 게놈 스퀀스에서 모든 사이트, 또는 관심의 염색체와 실행될 수 있으며, 예를 들어, 그와 같은 교정 분석은 인간의 21번 염색체, 18번 염색체, 13번 염색체, X 염색체, 및 Y 염색체 중 적어도 하나에서 모든 사이트와 실행된다. 본 공개의 실시예에 따라, 일차 윈도우의 각각은 동일하거나 상이한 길이를 가질 수 있으며, 각각의 일차 윈도우의 정보가 공지되는 한, 일차 윈도우 사이에 존재하는 오버랩이 존재할 수 있으며, 일차 윈도우의 각각은 동일한 길이를 갖는 것이 바람직하다. 본 공개의 실시예에 따라, 복수의 일차 윈도우의 각각은 100 내지 200 Kbp의 길이를 갖는데, 바람직하게는 150 Kbp의 길이를 갖는 것이 바람직하다. 본 공개의 실시예에 따라, 사이트의 양측에 위치한 일차 윈도우의 개수는 특별히 제한되지 않으며, 본 공개의 특별한 예에 따라, 100개의 일차 윈도우가 사이트의 양측으로부터 각각 선택될 수 있다.
세 번째로, 통계적인 분석에 의해, 사이트의 p 값이 확정될 수 있으며, 여기서, p 값은 사이트의 양측의 스퀸싱 데이터의 개수의 현저한 차이성(significance)을 나타낸다. 사이트의 p 값이 최종 p 값보다 작다면, 그 사이트가 돌파점인 것을 확정한다. 본 공개의 실시예에 따라, 최종 p 값의 범위는 공지된 스퀀스 샘플을 병렬 분석 처리함으로써 확정될 수 있으며, 본 공개의 특정 예에 따라, 최종 p 값은 1.1 X 10-50가 된다.
본 공개의 실시예에 따라, 사이트의 p 값을 확정하는 서브-단계는 다음을 더 포함한다.
선택된 사이트에 대해서, 사이트의 양측에서 동일한 개수를 갖는 일차 윈도우가 선택되며, 각각의 일차 윈도우에 놓이는 상대적 스퀸싱 스퀀스의 개수(Ri)가 계산되며, 여기서, i는 일차 윈도우의 개수를 나타내고,
모든 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)는 런-테스트(Run-Test) 처리되어, 사이트의 p 값을 확정하며, 다음 공식에 의해 상대적 스퀸싱 스퀀스의 개수가 확정된다.
Figure 112014078269999-pct00001
,
여기서, ri는 i-번째 일차 윈도우에 놓이는 스퀸싱 스퀀스의 개수를 나타낸다.
Figure 112014078269999-pct00002
,
n은 일차 윈도우의 전체 개수를 나타낸다.
상세하게, 모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수를 런-테스트 처리하는 단계는, 교정된 상대적 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00003
)를 수득하기 위하여, 각각의 복수의 일차 윈도우에 놓이는 상대적 스퀸싱 스퀀스의 개수(Ri)를 GC 함량의 교정 처리하는 단계; 교정된 상대적 스퀸싱 스퀀스의 개수에 기초하여 각각의 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계; 모든 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 실행-텍스트 처리하는 단계를 더 포함한다.
보다 상세히, 교정된 상대적 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00004
)는 다음 단계에 의해 수득된다.
첫 번째로, 각각의 일차 윈도우의 GC 함량이 계산된다;
두 번째로, GC 함량이 예정된 값에 따라 복수의 영역으로 분할되고, 각각의 복수의 영역에서의 상대적 스퀸싱 스퀀스의 개수의 평균 값(Ms)이 계산되며, 여기서, s는 복수의 영역의 번호이며, 본 공개의 실시예에 따라, 예정된 값은 0.0005 내지 0.01의 범위에 있는 임의의 수치 값이 될 수 있으며, 대응하는 영역이 50 k 내지 300 k의 길이를 갖는데, 0.001이 바람직하며, 이에 의해, 최적의 전력과 교정을 실행할 수 있다.
세 번째로, 다음 공식에 기초하여 교정된 상대적 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00005
)가 확정된다.
Figure 112014078269999-pct00006
마지막으로, 다음 공식에 기초하여 스퀸싱 스퀀스의 표준화된 개수(Zi)는 확정되며, 여기서,
Figure 112014078269999-pct00007
,
Figure 112014078269999-pct00008
,
Figure 112014078269999-pct00009
가 된다.
따라서, 스퀸싱 스퀀스의 개수는 GC 함량에 의해 교정 처리될 수 있다. 따라서, 게놈 증폭의 바이어스에 의해 야기되는 간섭이 제거될 수 있으며, 이에 의해, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 정확성 및 효율성을 개선한다.
복수의 돌파점이 확정된 이후에, 복제 개수 변이가 두 개의 연속된 돌파점들 사이의 영역에 존재할 수 있는 가능성은 예비 확정될 수 있다. 이에 따라, 이와 같은 영역은 복제 개수 변이가 존재하는지의 여부를 더 확정하기 위한 검사 윈도우로서 간주될 수 있다. 예비 확정에서 상대적으로 더 많은 돌파점을 수득하는 경우에, 수득된 돌파점은 더 검사 처리될 수 있다. 따라서, 본 공개의 실시예에 따라, 복수의 돌파점에 기초하여 기준 게놈에서 검사 윈도우를 확정하는 단계는,
1) 복수의 후보 돌파점을 확정하는 단계로서, 다른 돌파점이 상기 후보 돌파점 전후에 모두 존재하는, 복수의 후보 돌파점을 확정하는 단계;
2) 각각의 후보 돌파점의 p 값을 확정하고, 최대 p 값을 갖는 후보 돌파점을 제거하는, 확정 및 제거 단계;
3) 나머지 후보 돌파점의 모든 p 값이 최종 p 값보다 작게 될 때까지 나머지 후보 돌파점으로 단계 2)를 실행하는 단계로서, 나머지 후보 돌파점은 선별된 후보 돌파점으로서 간주되는, 단계 2)를 실행하는 단계; 및
4) 두 개의 인접한 선별된 후보 돌파점 사이의 영역을 검사 윈도우로서 확정하는 단계를 더 포함한다.
본 공개의 실시예에 따라, 상기 후보 돌파점의 p 값은,
상기 후보 돌파점과 전 후보 돌파점 사이의 영역을 제 1 후보 영역으로 하고, 상기 후보 돌파점과 다음의 후보 돌파점 사이의 영역을 제 2 후보 영역으로 하는 단계;
상기 후보 돌파점의 p 값을 확정하기 위하여, 제 1 후보 영역 및 제 2 후보 영역에 모두 포함된 일차 윈도우의 표준화된 시퀀싱 시퀀스의 개수(Zi)를 런-테스트 처리하는 단계(런-테스트는 두 개의 모집단(population)과 혼합된 요소의 균일하게 분산된 상태를 사용하여 두 개의 모집단 사이의 현저한 차이성(significant difference)를 평가하는 미모수 테스트(비모수적 테스트)이다. 이와 같은 테스트에 관한 상세한 설명은 Wald A. WJ의 동일한 모집단으로부터 On a Tesst Whether Two Samples를 참조할 수 있다. 수리 통계학 1940의 연보; 11:147-162는 본 명세서에 참조로서 포함된다.)에 의해 수득된다.
본 공개의 실시예에 따라, 상기 최종 p 값은,
대비 샘플의 스퀸싱 결과에 기초하여, 기준 게놈에서 검사 윈도우를 확정하는 단계를 반복하고, 돌파점의 개수가 제로로 될 때까지 매번 제거되는 돌파점의 p 값을 기록하는, 반복 및 기록 단계로서, 본 명세서에서 사용된 “대비 샘플”의 용어는 복제 개수 변이가 공지된 뉴클레오티드 시퀀스(nucleotide sequence)에 존재하지 않는 샘플을 지칭하는, 반복 및 기록 단계; 및
제거된 돌파점의 p 값의 분포에 기초하여, 최종 p 값을 확정하는 단계로서, 예를 들어, 분포 다이어그램이 제거된 돌파점의 p 값과 표시되고, 최대 변화하는 트렌드를 갖는 p 값은 최종 p 값(
Figure 112014078269999-pct00010
)으로서 간주되는, 최종 p 값을 확정하는 단계에 의해 확정된다.
본 공개의 특정 예에 따라, 상기 최종 p 값은 1.1 X 10-50가 된다.
S400 : 검사 윈도우에 놓이는 스퀸싱 스퀀스 기초하여 제 1 파라미터를 확정하는 단계
검사 윈도우가 확정된 이후에, 검사 윈도우에 포함된 스퀸싱 스퀀스는, 복제 개수 변이가 검사 윈도우에 존재하는지의 여부를 확정하기 위하여, 통계적인 분석 처리될 수 있다. 본 공개의 실시예에 따라, 검사 윈도우에서 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하는 단계는, 검사 윈도우에 포함된 각각의 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00011
)의 평균값을 확정하는 단계를 더 포함하고, 표준화된 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00012
)의 평균값은 제 1 파라미터로서 간주된다. 표준화된 스퀸싱 스퀀스의 개수는 상기에 특별히 설명되었으며, 여기에서는 간략성을 위해 생략되었다.
S500 : 제 1 파라미터와 예정된 한계치 사이의 차이에 기초하여 게놈 샘플이 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계
본 공개의 실시예에 따라, 확정된 제 1 파라미터는 예정된 한계치와 비교될 수 있고, 이때, 제 1 파라미터와 현재의 한계치 사이의 차이에 기초하여, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부는 특정 검사 윈도우에 관하여 확정된다. 게놈 샘플의 스퀸싱 결과에 기초하여, 특정 윈도우에 놓이는 스퀸싱 스퀀스의 개수는 염색체 또는 게놈에서 특정 윈도우의 함량에 분명히 관련되고, 이에 따라, 스퀸싱 결과에서 특정 윈도우로부터 유도된 스퀸싱 스퀀스를 통계적인 분석 처리함으로써, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부는 특정 윈도우에 기초하여 효과적으로 확정될 수 있다. 본 명세서에 사용된 "예정된 한계치"의 용어는 공지된 스퀀스를 갖는 보통의 게놈 샘플을 사용하여 상기 실시예에서 동작 및 분석을 반복함으로써 수득된 특정 윈도우에 기초하여 관련된 파라미터를 지칭한다. 보통의 세포의 특정 윈도우 및 관련된 파라미터에 기초하여 관련된 파라미터는 동일한 스퀸싱 조건 및 수학적인 방법에 의해 수득될 수 있다는 것을 이해할 것이다. 여기서, 보통 세포의 관련된 파라미터는 예정된 한계치으로서 사용될 수 있다. 게다가, 본 명세서에 사용된 "예정된"의 용어는 폭넓게 이해되어야 하며, 이는 실험에 의해 예정될 수 있거나, 생물학적 샘플을 분석할 때 병렬 경험에 의해 수득될 수 있다. 용어 "병렬 경험"은 넓게 이해되어야 하며, 이는 미공지 및 공지된 샘플을 동시에 시퀀싱 및 분석하는 것을 지칭하거나, 동일한 조건 하에서 연속으로 시퀀싱 및 분석하는 단계들을 실행하는 것을 지칭한다. 본 공개의 실시예에 따라, 예정된 한계치는 제 1 한계치 및 제 2 한계치를 포함하고, 제 1 파라미터(
Figure 112014078269999-pct00013
)를 제 1 한계치 및 제 2 한계치와 비교함으로써, 제 1 파라미터(
Figure 112014078269999-pct00014
)가 제 1 한계치보다 작은 경우에, 감소하는 복제 개수가 확정되고(즉, 결실), 제 1 파라미터(
Figure 112014078269999-pct00015
)가 제 2 한계치보다 큰 경우, 증가하는 복제 개수가 확정되며(즉, 부가), 이에 따라, 복제 개수 변이의 유형이 확정될 수 있다. 본 공개의 특정 에에 따라, α=0.05는 현저한 차이성의 경계로서 설정되고, 이에 의해, 복제 개수 변이의 유형이 더 확정된다.
본 공개의 실시예에 따른 게놈 샘플에 복제 개수 변이가 존재하는지의 여부를 확정하는 방법에 의해, 게놈 샘플에 복제 개수 변이가 존재하는지의 여부가 효과적으로 확정될 수 있으며, 이는, 제한하지 않지만, 염색체 이수성, 염색체 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및, 미소-반복을 포함하는 다양한 변이에 적당하다. 복제 개수 변이는 시험관에서 복제의 실패를 유도하는 주요 요인인 시험관에서 배양된 배아에서 또한 매우 일반적인 선천적 장애를 일으키는 주요 요인이다. 또한, 복제 개수 변이는 또한 암과 같은 많은 질병에 대해 발병 인자가 된다. 전체 게놈 증폭은, 요구된 샘플량을 달성하기 위하여, 단일 세포, 복수의 세포 또는 약간의 핵산 샘플과 전체 게놈의 범위에서 증폭을 실행하는 기술이며, 이는 전체 게놈의 대표성을 유지하는 것을 전제로 하여 샘플량을 증가시킬 수 있다. 그러나, 일반적으로, 증폭 바이어스의 문제가 전체 게놈 증폭에 존재하며, 이는 후속 분석에 대한 편차를 야기한다. 본 공개의 실시예에 따라 게놈 샘플에 복제 개수 변이가 존재하는지의 여부를 확정하는 방법은, 단일 세포 또는 약간의 핵산 샘플은 전체 게놈 증폭 처리되고, 데이터는 복제 개수 변이의 분석을 위한 스퀸싱 기술에 의해 얻어진다. 한편, 단일 세포 또는 약간의 핵산 샘플과 분석하는데 여려움을 갖는 문제는 전체 게놈 증폭에 의해 해결되고, 반면에, 전체 게놈 증폭에 의해 유도되는 복제 개수 변이를 분석하는데 있어 편차가 회피되며, 이는 검출이 보다 정밀하고 보다 종합적으로 검출할 수 있으며, 특히 검출 효율성은 GC 함량의 교정에 의해 더 개선될 수 있다. 게다가, 실시예에 따라, 서로 다른 샘플로 시퀀싱-라이브러리를 구축하는 서브-단계 동안, 서로 다른 인덱스가 도입되며, 이에 의해 복수의 샘플들은 동시에 테스트될 수 있으며, 이는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선한다. 복제 개수 변이가 본 공개의 실시예에 따라 게놈 샘플에 존재하는지의 여부를 확정하는 방법을 사용하여, 배아 이식 이전에 복제 개수 변이를 검사(screening) 및 진단, 또는 태아 복제 개수 변이의 비침습적 검사가 확정될 수 있으며, 이는 클리닉 확정을 위한 유전 상담 및 기준을 제공하는 장점이 있으며, 태아기의 진단은 신생아들에 대한 장애를 방지하기 위하여 병변과 배아의 주입을 효과적으로 방지할 수 있다.
II 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템
본 공개의 제 2 관점에 따라, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템이 제공된다. 본 시스템을 이용하면, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 효과적으로 확정하기 위하여, 상술한 것과 같은 게놈 샘플에 복제 개수 변이가 존재하는지의 여부를 확정하는 방법을 효과적으로 구현할 수 있다.
도 2를 참조하면, 본 공개의 실시예에 따라, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 본 시스템(1000)은, 스퀸싱 장치(100) 및 분석 장치(200)를 포함한다.
본 공개의 실시예에 따라, 스퀸싱 장치(100)는, 스퀸싱 결과를 수득하기 위하여, 게놈 샘플을 스퀸싱하도록 구성된다. 본 공개의 실시예에 따라, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 본 시스템(1000)은 게놈 추출 장치(도면들에 도시하지 않음)를 더 포함한다. 게놈 추출 장치는 생물학적 샘플로부터 게놈 샘플을 추출하도록 구성되고, 게놈 추출 장치는 게놈 샘플을 제공하기 위한 스퀸싱 장치(100)에 연결된다. 이에 따라, 생물학적 샘플은 유기체의 건강 상태를 반영하기 위하여, 복제 개수 변이가 생물학적 샘플에 존재하는지의 여부에 관한 정보를 취득하기 위해 원 재료로서 직접 사용될 수 있다. 본 공개의 실시예에 따라, 스퀸싱 장치(100)는 게놈 증폭 유닛, 시퀀싱-라이브러리 구축 유닛, 및 스퀸싱 유닛을 더 포함하고, 게놈 증폭 유닛은 게놈 샘플을 증폭하도록 구성되며; 게놈 증폭 유닛에 연결된 시퀀싱-라이브러리 구축 유닛은 증폭된 게놈 샘플과 시퀀싱-라이브러리를 구축하도록 구성되며, 시퀀싱-라이브러리 구축 유닛에 연결된 스퀸싱 유닛은 시퀀싱-라이브러리를 스퀸싱하도록 구성된다. 본 공개의 실시예에 따라, 전체 게놈 시퀀싱-라이브러리를 스퀸싱하는 서브-단계는 차세대 기술(예를 들어, 일루미나 컴파니의 하이섹 시스템, 일루미나 컴파니의 마이섹 시스템, 일루미나 컴파니의 게놈 분석(GA) 시스템, 로슈 컴파니 454 FLX, 어플라이드 바이오시스템즈 컴파니의 SOLiD 시스템, 라이프 테크놀러지 컴파니의 이온 토런트 시스템) 및 단일 분자 스퀸싱 장치로부터 선택된 적어도 하나에 의해 실행된다. 이에 따라, 이들 스퀸싱 장치의 높은 처리량 및 깊은 스퀸싱의 특징은 게놈 샘플에 존재하는지의 여부를 확정하는 효율성을 더 개선한다.
본 공개의 실시예에 따라, 분석 장치(200)는 스퀸싱 장치(100)에 연결되어, 스퀸싱 결과에 기초하여 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정한다. 본 공개의 실시예에 따라, 분석 장치(200)는 비교 대조 유닛(201), 돌파점 확정 유닛(202), 검사 윈도우 확정 유닛(203), 파라미터 확정 유닛(204) 및 확정 유닛(205)을 더 포함하고, 비교 대조 유닛(201)은 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포를 확정하기 위하여 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하도록 구성된다. 본 공개의 실시예에 따라, 공지된 인간 게놈 스퀀스는 비교 대조 유닛(201)에 기준 게놈 스퀀스로서 저장되고, 선택적으로, 기준 게놈 스퀀스는 인간의 21번 염색체, 18번 염색체, 13번 염색체, X 염색체, 및 Y 염색체로부터 선택된 적어도 하나가 된다. 비교 대조 유닛(201)에 연결된 돌파점 확정 유닛(202)은, 상기 기술한 것처럼, 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포에 기초하여 기준 게놈 스퀀스에서 복수의 돌파점을 확정하도록 구성되고, 스퀸싱 스퀀스의 개수는 돌파점의 양측들 사이의 현저한 차이를 갖는다. 돌파점 확정 유닛(202)에 연결된 검사 윈도우 확정 유닛(203)은 복수의 돌파점에 기초하여 기준 게놈에서 검사 윈도우를 확정하도록 구성된다. 검사 윈도우 확정 유닛에 연결된 파라미터 확정 유닛(204)은 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하도록 구성된다. 파라미터 확정 유닛(204)에 연결된 확정 유닛(205)은 제 1 파라미터와 미리 확정된 한계치 사이의 차이에 기초하여 검사 윈도우에 대하여 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하도록 구성된다.
실시예에 따라, 돌파점 확정 유닛(202)은 다음 서브-단계들,
기준 게놈 스퀀스를 예정된 길이를 갖는 복수의 일차 윈도우로 분할하고, 각 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스를 확정하는, 분할 및 확정하는 단계를 실행하기 위한 모듈을 더 포함한다.;
첫째로, 기준 게놈 스퀀스는 예정된 길이를 갖는 복수의 일차 윈도우로 분할되고, 각각의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스가 확정된다. 본 공개의 특정 예에 따라, 종래의 비교 대조 프로그램에 의해, 수득된 스퀸싱 결과에 포함된 스퀸싱 스퀀스는 기준 게놈 스퀀스에 비교 대조될 수 있고, 이에 의해 각각의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스가 확정될 수 있다. 본 공개의 실시예에 따라, 일차 윈도우의 각각은 동일하거나 서로 다른 길이를 가질 수 있으며, 각각의 일차 윈도우의 정보가 공지되는 한, 일차 윈도우들 사이에 오버랩이 존재할 수 있으며, 일차 윈도우의 각각은 동일한 길이를 갖는 것이 바람직하다. 본 공개의 실시예에 따라, 복수의 일차 윈도우의 각각은 100 내지 200 Kbp의 길이를 가질 수 있으며, 바람직하게는 150 Kbp의 길이를 갖는다. 본 공개의 실시예에 따라, 사이트의 양측에 위치된 일차 윈도우의 개수는 본 공개의 특정 예에 따라 특별히 제한되지 않으며, 100개의 일차 윈도우가 사이트의 양측으로부터 각각 선택될 수 있다.
두 번째로, 사이트이 p 값이 확정되며, 이와 같은 p 값은 사이트의 양측의 스퀸싱 데이터 개수의 현저한 차이성을 반영할 수 있다. 게다가, 사이트의 p 값은 최종 p 값보다 작고, 사이트는 돌파점으로서 확정된다. 본 공개의 실시예에 따라, 최종 p 값의 범위는 본 공개의 특정 예에 따라, 공지된 스퀀스 샘플을 병렬 분석 처리함으로써 확정될 수 있으며, 최종 p 값은 1.1 X 10-50이다.
본 공개의 실시예에 따라, 돌파점 확정 유닛(202)은 다음 서브-단계들을 실행하기 위한 모듈을 더 포함한다.
선택된 사이트에 대해서, 사이트의 양측에서 일차 윈도우의 동일한 개수가 각각 선택되고, 모든 일차 윈도우에 놓이는 상대적 스퀸싱 스퀀스의 개수(Ri)가 계산되며, 여기서 i는 일차 윈도우의 개수를 나타낸다.
모든 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)는 런-테스트 처리되며, o는 사이트의 p 값을 확정하며,여기서,
다음 공식에 의해 상대적 스퀸싱 스퀀스의 개수는 확정된다.
Figure 112014078269999-pct00016
,
여기서, ri는 i-번째 일차 윈도우에 놓이는 스퀸싱 스퀀스의 개수를 나타낸다.
Figure 112014078269999-pct00017
,
n은 일차 윈도우의 전체 개수를 나타낸다.
본 공개의 실시예에 따라, 돌파점 확정 유닛(202)은, 모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수를 런-테스트 실행하기 위해,
교정된 상대적 스퀸싱 스퀀스의 값(
Figure 112014078269999-pct00018
)을 수득하기 위하여, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 GC 함량의 교정 처리하는 단계;
상기 교정된 상대적 스퀸싱 스퀀스의 개수에 기초하여, 각각의 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계; 및
모든 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계를 실행하기 위한 모듈을 더 포함한다. .
본 공개의 실시예에 따라, 상기 교정된 상대적 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00019
)는,
각각의 복수의 일차 윈도우의 GC 함량을 계산하는 단계;
GC 함량을 0.001의 단위로 복수의 영역으로 분할하고, 각각의 복수의 영역에서의 상대적 스퀸싱 스퀀스의 개수들의 평균값(Ms)를 계산하는 단계;
다음 공식에 기초하여 상기 교정된 상대적 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00020
)를 계산하는 단계;
Figure 112014078269999-pct00021
다음 공식에 기초하여 표준화된 스퀸싱 스퀀스(Zi)를 확정하는 단계를 실행하기 위한 모듈에 의해 수득되며,
여기서,
Figure 112014078269999-pct00022
, 여기서,
Figure 112014078269999-pct00023
,
Figure 112014078269999-pct00024
복수의 돌파점이 확정된 이후에, 복제 개수 변이가 두 개의 연속된 돌파점들 사이의 영역에 존재할 수 있는 가능성이 예비적으로 확정될 수 있다. 이에 따라, 이러한 영역은 복제 개수 변이가 존재하는지의 여부를 더 확정하기 위한 검사 윈도우로서 간주된다. 예비 확정에서 관련된 더 많은 돌파점을 수득하는 경우에, 수득된 돌파점은 다른 검사를 받을 수 있다. 복수의 돌파점에 기초하여, 본 공개의 실시예에 따라, 검사 윈도우 확정 유닛은,
1) 복수의 후보 돌파점을 확정하는 단계로서, 여기서, 다른 돌파점이 후보 돌파점의 전후에 모두 존재하는, 복수의 후보 돌파점을 확정하는 단계;
2) 각각의 후보 돌파점의 p 값을 확정하고, 최대 p 값을 갖는 후보 돌파점을 제거하는, 확정 및 제거 단계;
3) 나머지 후보 돌파점의 모든 p 값이 최종 p 값보다 작게 될 때까지 나머지 후보 돌파점으로 단계 2)를 실행하는 단계로서, 상기 나머지 후보 돌파점은 선별된 후보 돌파점으로서 간주되는, 단계 2)를 실행하는 단계; 및
4) 두 개의 인접한 선별된 후보 돌파점들 사이의 영역을 검사 윈도우로서 확정하는 단계를 실행하기 위한 모듈을 더 포함한다..
여기서, 본 공개의 실시예에 따라, 상기 후보 돌파점의 p 값은,
후보 돌파점과 전 후보 돌파점 사이의 영역을 제 1 후보 영역으로 하고, 후보 돌파점과 다음 후보 돌파점 사이의 영역을 제 2 후보 영역으로 하는 단계; 및
상기 후보 돌파점의 p 값을 확정하기 위하여, 제 1 후보 영역과 제 2 후보 영역에 모두 포함된 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계에 의해 확정된다.
본 공개의 실시예에 따라, 상기 최종 p 값은,
대비 샘플의 스퀸싱 결과에 기초하여, 기준 게놈에서 검사 윈도우를 확정하는 단계를 반복하고, 돌파점의 개수가 제로가 될 때까지 매번 제거되는 돌파점의 p 값을 기록하는, 반복 및 기록 단계; 및
제거된 돌파점의 p 값의 분포에 기초하여, 최종 p 값을 확정하는 단계로서, 예를 들어, 분포 다이어그램은 제거된 돌파점의 p 값으로 플롯되고, 최대 변경 트렌드를 갖는 p 값은 최종 p 값 (
Figure 112014078269999-pct00025
)으로서 간주되는, 최종 p 값을 확정하는 단계에 의해 확정된다.
본 공개의 특정 예에 따라, 상기 최종 p 값은 1.1 X 10-50이다.
본 공개의 실시예에 따라, 파라미터 확정 유닛(204)은 검사 윈도우에 포함된 모든 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00026
)의 평균값을 확정하는 단계로서, 표준화된 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00027
)의 평균값은 제 1 파라미터로서 고려되는, 확정하는 단계를 실행하기 위한 모듈을 더 포함한다. 또한, 예정된 한계치는 확정 유닛(205)에서 저장되고, 이에 따라, 확정 유닛(205)은, 복제 개수 변이가 수득된 검사 윈도우에 존재하는지의 여부를 확정하기 위하여, 파라미터 확정 유닛(204)에서 확정된 제 1 파라미터를 비교할 수 있으며, 여기서, 본 공개의 실시예에 따라, 예정된 한계치는 제 1 한계치 및 제 2 한계치를 포함하고, 제 1 파라미터(
Figure 112014078269999-pct00028
)를 제 2 한계치와 비교함으로써, 제 1 파라미터(
Figure 112014078269999-pct00029
)가 제 1 한계치보다 작은 경우에, 복제 개수 감소가 확정되고(즉, 결실), 제 1 파라미터(
Figure 112014078269999-pct00030
)가 제 2 한계치보다 큰 경우, 복제 개수 증가가 확정되며(즉, 증가), 이에 따라, 복제 개수 변이의 형태가 확정될 수 있다. 본 공개의 특정 예에 따라, α=0.05가 현저한 차이성의 경계로서 설정되고, 이에 의해, 복제 개수 변이의 형태가 더 확정된다.
이에 따라, 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템을 사용하여, 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법은 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 효과적으로 확정하도록 효과적으로 구현될 수 있으며, 이는 염색체의 이수성, 염색체의 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미세 반복을 포함하지만, 이들에 제한하지 않는 여러 복제 개수 변이에 적당하다.
복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법의 상술한 특징 및 장점은 편리성 및 간편성을 위해 생략된 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 시스템에 또한 적당하다는 것을 본 기술 분야에 숙련된 사람들에 의해 알 수 있다는 것을 주목해야 한다.
III . 컴퓨터 판독 가능한 매체
본 공개의 제 2 관점에 따라, 컴퓨터 판독 가능한 매체가 제공된다. 본 공개의 실시예에 따라, 컴퓨터 판독 가능한 매체에 명령이 저장되며, 이 명령은, 기준 게놈 스퀀스에서의 스퀸싱 스퀀스 분포를 확정하기 위하여, 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하는 단계; 기준 게놈 스퀀스에서의 상기 스퀸싱 스퀀스 분포에 기초하여, 상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계로서, 스퀸싱 스퀀스의 개수가 상기 돌파점의 양측에서 현저한 차이를 갖는, 복수의 돌파점을 확정하는 단계; 상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 단계; 상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 제 1 파라미터를 확정하는 단계; 및 상기 제 1 파라미터와 미리 확정된 한계치 사이의 차이에 기초하여, 상기 게놈 샘플이 상기 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계를 통하여, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 프로세서에 의해 실행되도록 구성된다. 컴퓨터 판독 가능한 매체를 사용하여, 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법은 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 효과적으로 확정하도록 효과적으로 구현될 수 있으며, 이는 염색체의 이수성, 염색체 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미세 반복을 포함하지만, 이들에 제한하지 않는 여러 복제 개수 변이에 적당하다.
복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법의 상술한 특징 및 장점은 편리성 및 간편성을 위해 생략된 컴퓨터 판독 가능한 매체에 또한 적당하다는 것을 본 기술 분야에 숙련된 사람들에 의해 알 수 있다는 것을 주목해야 한다.
참조는 본 공개의 예에 대해 보다 상세히 기술될 것이다. 본 기술에 숙련된 사람들은 다음 예가 설명을 위한 것이고 본 공개의 범위를 제한되는 것으로 해석될 수 없다는 것을 이해할 것이다. 특정 기술 또는 조건이 예에서 특정되지 않은 경우, 본 기술의 문헌(예를 들어, J. Sambrook, 등을 참조(Huang PT에 의해 번역), 분자 클로닝: 실험 메뉴얼, 3번째 판, 과학 출판사)에 기재된 기술 또는 조건에 따라, 또는 제품 설명에 따라 단계가 실행될 것이다. 시약 또는 기구의 제조자가 특정되지 않은 경우, 시약 또는 기구는 상업적으로 사용 가능하며, 예를 들어, 일루미나에서 상업적으로 이용할 수 있다.
일반적인 방법
도 3을 참조하면, 복제 개수 변이가 예에 사용된 게놈 샘플에 존재하는지의 여부를 확정하는 방법은,
첫째로, 전체 게놈 샘플이 증폭되고, 이후에, 증폭된 전체 게놈은 스퀸싱 스퀀스(스퀸싱 데이터)을 얻기 위해 스퀸싱되며,
두 번째로, 게놈에서 스퀸싱 스퀀스의 위치 정보를 수득하기 위하여, 수득된 스퀸싱 스퀀스가 SOAP2에 의해 NCBI 데이터베이스에 표준 인간 게놈 기준 스퀀스로 비교 대조된다. 반복 스퀀스에 의해 복제 개수 변이의 분석에 대한 간섭을 회피하기 위하여, 인간 게놈 기준 스퀀스에 유일하게 비교 대조된 스퀸싱 스퀀스는 오로지 순차 분석을 위해 선택된다.
세 번째로, 통계적인 현저한 차이를 갖는 양측에 각각 놓이는 스퀸싱 스퀀스의 개수가 발견되는 사이트는, 다음 단계들,
a) 테스팅 샘플의 상대적 스퀸싱 스퀀스의 개수를 계산하는 단계(복수의 샘플은 동시에 분석될 수 있다):
w의 길이를 갖는 윈도우가 인간 게놈 기준 스퀀스에 선택된다(w는 1보다 큰 정수가 될 수 있는데, 예를 들어, 10 K 내지 10 M bp, 50 K 내지 1 M bp가 바람직하며, 150 K bp와 같은 100 K 내지 300 K bp가 더욱 바람직하다),
각각의 윈도우에 놓이는 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00031
)가 모든 수득된 값들에서 게산되는데, 아래 첨자 i는 윈도우의 개수를 나타내고, 아래 첨자 j는 샘플들의 개수를 나타내며, 각각의 윈도우의 GC 함량(
Figure 112014078269999-pct00032
)이 또한 계산되며, 이때, 상대적 스퀸싱 스퀀스의 개수는
Figure 112014078269999-pct00033
에 의해 계산되며, 여기서, 스퀸싱 스퀀스의 평균 개수는
Figure 112014078269999-pct00034
가 되며,
b) 데이터 교정 및 표준화
GC 함량을 X-좌표로서 고려하고, 상대적 스퀸싱 스퀀스(R)의 개수를 Y-좌표로서 고려하는 좌표 시스템에 있어서, X-좌표는 동일한 단위들을 갖는 복수의 영역으로 분할되고, 모든 영역에서 R의 평균 값(Ms)이 계산되며, s는 GC 영역의 번호이며;
샘플의 모든 윈도우에 대해서, 교정된 상대적 스퀸싱 스퀀스의 개수는
Figure 112014078269999-pct00035
에 의해 계산되며, 윈도우의 GC 함량은 s-번째 GC 영역에 있으며;
샘플의 모든 윈도우에 대해서, 표준화된 상대적 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00036
)는 다음에 의해 계산되며,
Figure 112014078269999-pct00037
,
여기서,
Figure 112014078269999-pct00038
,
Figure 112014078269999-pct00039
,
c) 돌파점을 확정 및 검사
돌파점을 확정하는 단계: 기준 게놈 스퀀스에서 각각의 사이트에 대해서, n 윈도우(예를 들어, 100 윈도우)는 통계적 테스트를 위해 사이트의 양측으로부터 두 개의 모집단으로서 각각 선택되고, 각각의 사이트에 대응하는 하나의 p 값은 사이트의 양측 사이의 차이를 계산함으로써 수득되고, m 사이트(예를 들어, 3000 사이트)는 돌파점으로서 최소 p 값을 갖는다.
돌파점을 검사하는 단계: 모든 배열된 돌파점은
Figure 112014078269999-pct00040
로서 기록되며, 각각의 돌파점은 두 개의 연속된 단편들 사이에 존재하며, 여기서 이러한 두 개의 단편은 이전 돌파점에서 상기 돌파점까지, 그리고, 상기 돌파점에서 다음 돌파점까지 각각의 영역이 되며, 이와 같은 두 개의 단편에서 모든
Figure 112014078269999-pct00041
는 통계적 테스트 처리된다(예를 들어, 비모수적 테스트이며, 두 집단과 혼합된 요소들의 균일하게 분포된 상태를 사용하는 두 개의 모집단 사이의 현저한 차이성을 평가하는 런-테스트 처리된다). 수득된 p 값(
Figure 112014078269999-pct00042
)은 "
Figure 112014078269999-pct00043
가 돌파점의 현저한 차이성으로서 간주"된 것으로서 고려된다. 최대 p 값(
Figure 112014078269999-pct00044
)을 갖는 후보 돌파점이 제거되고, 이는 이와 같은 염색체의 최종 p 값(
Figure 112014078269999-pct00045
)보다 작은 모든 p 값까지 반복된다.
최종 p 값을 수득하는 단계: 검출 동안, 복수의 돌파점을 확정하는 단계는 대비 샘플을 테스팅 샘플로서 실행되며, 전체 게놈에서 모든 배열 후보 돌파점은
Figure 112014078269999-pct00046
로서 기록되며, 각각의 후보 돌파점(
Figure 112014078269999-pct00047
)은 두 개의 연속된 단편들 사이에 존재하며, 이와 같은 두 개의 단편의 모든
Figure 112014078269999-pct00048
는 통계적 테스트 처리되며, 수득된 p 값(
Figure 112014078269999-pct00049
)은 "
Figure 112014078269999-pct00050
가 돌파점의 현저한 차이성으로서 간주"되는 것으로서 고려된다. 적어도 현저한 차이성 p 값(
Figure 112014078269999-pct00051
)을 갖는 후보 돌파점은 제거되고, 이는 후보 돌파점의 개수가 제로가 될 때까지 반복된다. 분포 다어그램은 제거된 후보 돌파점으로 플롯되고, 최대 변경 트렌드를 갖는 p 값은 최종 p 값(
Figure 112014078269999-pct00052
)으로서 간주된다.
검사 윈도우를 확정하고, 검사 윈도우를 검증하는 단계: 검사된 돌파점이 수득된 이후에, 검사 윈도우가 확정된다. 검사 윈도우를 더 확정하기 위하여, 그와 같은 단편에서
Figure 112014078269999-pct00053
의 평균값이 계산되는데, 이는
Figure 112014078269999-pct00054
로서 기록된다.
Figure 112014078269999-pct00055
가 한계치를 초과하는 경우, 복제 개수 변이가 그와 같은 단편에 존재하는 것을 확정되며, 여기서, 한계치는 다음과 같이 확정된다.
윈도우 조합 이후의 각각의 단편에 대해서, 모든 대비 샘플의 그와 같은 단편에서 표준화된 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00056
)의 표준 에러 및 평균값이 계산된다.
각각의 단편에서
Figure 112014078269999-pct00057
가 정상 분포에 적합할 때, 누적 확률이 0.05일 때 그와 같은 단편의 임계의 범위가 상기 단계들에서 수득된 표준 에러 및 계산된 평균 값에 따라 계산되며, 그러한 임계의 범위는 복제 개수 변이가 단편에 존재하는지의 여부를 필터링하는 임계로서 사용된다.
예 1: 배아 단일 세포 샘플로 태아 단편의 복제 개수 변이 검출, 및 아 단일 세포 샘플로 염색체 이수성 검출
1. 전체 게놈 증폭: 시그마 알드리치 컴파니로부터의 게놈플렉스 단일 세포 전체 게놈 증폭 키트가 본 예에서 두 개의 배아 단일 세포 샘플로 전체 게놈 증폭에 사용되었다. 배아 단일 세포 샘플은 레이저 캡처 현미 해부 방법에 의해 배반포(blastaea)로 분리되었던 5일 배반포의 영양 세포였다. 두 개의 배아 단일 세포 샘플이 용해된 이후에, 전체 게놈 증폭은 제조자에 의해 제공된 키트를 위한 설명에 따라 실행되었다.
2. 스퀸싱: 본 예에서는, 일루미나 컴파니로부터의 하이섹2000 스퀸싱 플랫폼이 두 개의 배아 단일 세포 샘플로부터 증폭된 전체 게놈 DNA를 스퀸싱하는데 사용되었다. 일루미나 컴파니에 의해 제공된 지침서에 따라, 시퀀싱-라이브러리 구성과 컴퓨터 상의 스퀸싱이 실행되었으며, 이에 의해, 다른 인덱스 스퀀스에 의해 구별되는 각각의 샘플의 약 0.36 G 데이터 볼륨이 생성되었다. 인간 게놈 기준 스퀀스에서 수득된 스퀸싱 스퀀스를 찾기 위하여, 비교 대조 소프트웨어 SOAP2를 사용하여, 스퀸싱에 의해 수득된 스퀸싱 스퀀스는 Build 36, NCBI 데이터베이스에서 스퀸싱하는 인간 게놈 기준에 비교 대조되었다.
3. 데이터 분석
a) 테스팅 샘플과 대비 샘플의 상대적 스퀸싱 스퀀스의 개수를 계산하는 단계(대비 샘플은 정상 핵형을 갖는 샘플로 지칭).
인간 게놈 기준 스퀀스는 150K bp의 길이를 갖는 복수의 윈도우로 분할되었다. 각각의 윈도우에 놓이는 단계 2)에서 수득된 스퀸싱 스퀀스의 개수(
Figure 112014078269999-pct00058
)가 계산되는데, 아래 첨자 i는 복수의 윈도우의 개수를 나타내고, j는 샘플의 번호를 나타낸다. GC 함량은 또한 각각의 윈도우에 대해 계산되었다. 상대적 스퀸싱 스퀀스의 개수는 일반적인 방법에서 주어진 공식에 따라 계산되었다.
b) 데이터 교정 및 표준화
GC 함량을 X-좌표로서 간주하고, 상대적 스퀸싱 스퀀스(R)의 개수를 Y-좌표로서 간주하는 좌표 시스템에 있어서, X-좌표는 동일한 단위를 갖는 복수의 영역으로 분할되며, 단위는 0.001 이다. 모든 영역에서 R의 평균 값(Ms)이 계산되었으며, 모든 영역에서 계산되었고, s는 표 1에 도시된 GC 영역의 번호이다. 수득된 스퀸싱 스퀀스는 일반적인 방법에서 주어진 공식에 따라 교정 및 표준화 처리되었다.
Figure 112014078269999-pct00059
Figure 112014078269999-pct00060
Figure 112014078269999-pct00061
c) 윈도우 조합
돌파점을 확정하는 단계: 기준 게놈 스퀀스에서 각각의 사이트에 대해서, 사이트의 양측에 위치한 100 윈도우가 런-테스트를 위해 두 개의 모집단으로서 사이트의 양측으로부터 각각 선택되고, 각각의 사이트에 대응하는 하나의 p 값은 사이트의 양측 사이의 차이를 계산함으로써 최소 p 값을 갖는 3000 사이트를 돌파점으로서 수득되었다.
돌파점을 검사하는 단계(screening): 모두 배열된 돌파점은
Figure 112014078269999-pct00062
으로서 기록되었고, 각각의 돌파점은 두 개의 연속된 단편에 존재하고, 여기서, 이와 같은 두 개의 단편은 이전 돌파점에서 상기 돌파점까지, 그리고, 상기 돌파점에서 다음 돌파점까지 각각 영역이며, 이러한 두 개의 단편에서 모든
Figure 112014078269999-pct00063
는 런-테스트 처리되었다. 수득된 p 값(
Figure 112014078269999-pct00064
)은 "
Figure 112014078269999-pct00065
가 돌파점의 현저한 차이성으로서 간주"된 것으로 고려되었다. 최대 p 값(
Figure 112014078269999-pct00066
)을 갖는 후보 돌파점이 제거되었고, 이는 1.1 X 10-50으로 되는 그와 같은 염색체의 최종 p 값(
Figure 112014078269999-pct00067
)보다 작은 모든 p 값까지 반복되었다.
d) 돌파점이 검사된 이후에, 두 개의 연속된 돌파점 사이의 영역이 윈도우 조합을 위해 검사 윈도우로서 확정되었다. 윈도우 조합에 의해 수득된 단편을 더 필터링하기 위하여, 그러한 단편에서
Figure 112014078269999-pct00068
의 평균값이 계한되었으며, 이는
Figure 112014078269999-pct00069
로서 기록되었다. 만일,
Figure 112014078269999-pct00070
가 한계치를 초과한다면, 복제 개수 변이가 그와 같은 단편에 존재하는 것으로 확정되었다. -1.645가 제 1 한계치으로서 사용되었고, 1.645가 제 2 한계치으로서 사용되었다.
4. 결과
표 2는 본 예에서 배아 단일 세포 샘플을 증폭한 전체 게놈 이후에 복제 개수 변이의 검출 결과 리스트를 도시한다.
Figure 112014078269999-pct00071

표 2로부터, 본 공개의 실시예에 따라 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법을 사용하여, 복제 개수 변이의 여러 유형을 효과적으로 검출할 수 있는 것을 알 수 있다.
예 2
예 1의 것과 동일한 배아 단일 세포 샘플을 사용하여, 게놈 DNA가 직접 스퀸싱 처리되었던 것(먼저 전체 게놈 증폭 처리되지 않고)을 제외하고, 모든 단계들이 예 1과 같이 반복되었다. 예 1과 예 2 사이의 비교 결과는 표 3, 도 4 및 도 5에 도시되었다.
Figure 112014078269999-pct00072

표 3의 데이터와 도 4 및 도 5에서 염색체 핵형의 이미지로부터, 전체 게놈 증폭 처리되었던 게놈 DNA 샘플과 전체 게놈 증폭 처리되지 않은 게놈 DNA 샘플 사이의 스퀸싱 스퀀스 복제 개수 변이의 검출 결과가 일치한다는 것을 알 수 있을 것이다. 표 3에서 "결실" 또는 "반복"의 시작 및 종료 지점의 차이에 대해서, 복제 개수 변이의 경계가 정확하게 확정되기 어려웠기 때문에, 일반적으로, 약 150K의 길이를 갖는 일차 윈도우에 대해서, 100 내지 300 Kb의 범위 이내의 차이를 갖는 두 개의 경계는 완전히 일치하는 것으로 확정될 수 있으며, 300Kb 내지 1 Mb의 범위 이내의 차이를 갖는 두 경계는 상당히 일치되는 것으로서 확정될 수 있었다. 표 3에서 두 방법에 의해 확정된 복제 개수 변이의 경계들 사이의 차이가 100 내지 300 Kb의 범위 이내 또는 300Kb 내지 1 Mb의 범위 이내 이기 때문에, 두 방법에 의해 확정된 복제 개수 변이의 경계가 일치한다는 것을 확정할 수 있었다.
산업상 이용 가능성
복제 개수 변이가 본 공개의 게놈 샘플에 존재하는지의 여부를 확정하는 본 방법, 시스템 및 컴퓨터 판독 가능한 매체는 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위해 효과적으로 사용될 수 있다.
명세서 전체를 통해, "실시예" "일부 실시예" "한 실시예", "다른 예", "한 예", "한 특정 예" 또는 "일부 예"에 대한 참조는 실시예 또는 예와 함께 기재된 특정 기능, 구조, 재료, 또는 특징이 본 공개의 적어도 하나의 실시예 또는 예에 포함된다는 것을 의미한다. 따라서, 본 명세서의 다양한 위치에서 "일부 실시예에 있어서," "한 실시예에 있어서", "실시예에 있어서", "다른 예에 있어서, "예에 있어서," "특정 예에 있어서," 또는 "일부 예에 있어서,"와 같은 문구의 출현은 본 공개의 동일한 실시예 또는 예를 반드시 지칭하는 것은 아니다. 또한, 특정 기능, 구조, 재료, 또는 특징들은 하나 이상의 실시예 또는 예에서 임의의 적당한 방식으로 결합될 수 있다.
비록, 설명적인 실시예가 도시 및 기재되었지만, 본 기술에 숙련된 사람들은 상기 실시예가 본 공개를 제한하는 것으로 해석될 수 없고, 변경, 대안, 수정이 본 공개의 정신, 원리 및 범위로부터 벗어나지 않고 실시예에서 구성될 수 있다는 것을 이해할 수 있을 것이다.
100: 스퀸싱 장치
200: 분석 장치
201: 비교 대조 유닛
202: 돌파점 확정 유닛
203: 검사 윈도우 확정 유닛
204: 파라미터 확정 유닛
205: 확정 유닛

Claims (57)

  1. 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법으로서,
    스퀸싱 장치에 의해, 복수의 스퀸싱 스퀀스(sequencing sequence)로 이루어진 스퀸싱 결과를 얻기 위하여, 상기 게놈 샘플을 스퀸싱하는 단계;
    비교 대조 유닛에 의해, 기준 게놈 스퀀스에서 얻어진 상기 스퀸싱 결과의 위치를 확정하기 위하여, 상기 기준 게놈 스퀀스에 스퀸싱 결과를 비교 대조하는 단계;
    돌파점 확정 유닛에 의해, 기준 게놈 스퀀스에서 얻어진 상기 스퀸싱 결과의 위치에 기초하여 상기 기준 게놈 스퀀스에서 복수의 돌파점(breakpoint)을 확정하는 단계로서, 스퀸싱 스퀀스의 개수는 상기 돌파점의 양측에서 크게 다른, 복수의 돌파점을 확정하는 단계;
    검사 윈도우 확정 유닛에 의해, 상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 단계:
    파라미터 확정 유닛에 의해, 상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 비교 대조를 위한 제 1 파라미터를 확정하는 단계; 및
    복제 개수 변이 존재 여부 확정 유닛에 의해, 상기 제 1 파라미터와 미리 확정된 한계치를 비교하여 상기 게놈 샘플이 상기 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계를 포함하고,
    상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계는,
    기준 게놈 스퀀스를 복수의 예정된 길이를 갖는 복수의 일차 윈도우로 분할하고, 각 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스를 확정하는, 분할 및 확정하는 서브-단계;
    기준 게놈 스퀀스에서의 적어도 하나의 사이트에 대해서, 상기 사이트의 양측에서 동일한 개수의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스들의 개수를 확정하는 서브-단계;
    상기 사이트의 p 값을 확정하는 단계로서, 상기 p 값은 사이트의 양측의 스퀸싱 스퀀스 데이터 개수의 현저한 차이성을 나타내는, 상기 사이트의 p 값을 확정하는 서브-단계;
    상기 사이트의 p 값이 최종 p 값보다 작은 경우, 상기 사이트가 돌파점인 것을 확정하는 서브-단계를 더 포함하며,
    상기 사이트의 p 값을 확정하는 서브-단계는,
    상기 사이트에 대해서, 상기 사이트의 양측에서 동일 개수를 갖는 복수의 일차 윈도우를 각각 선택하고, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 계산하되, i가 복수의 일차 윈도우의 번호를 나타내는, 선택 및 계산하는 단계;
    상기 사이트의 p 값을 확정하기 위하여, 모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 런-테스트(Run-Test) 처리하는 단계를 더 포함하고,
    상대적 스퀸싱 스퀀스의 개수는 다음 공식에 의해 확정되며:
    Figure 112017018795732-pct00112
    ,
    여기서, ri는 i-번째 일차 윈도우에 놓이는 스퀸싱 스퀀스의 개수를 나타내고,
    Figure 112017018795732-pct00113
    ,
    n은 복수의 일차 윈도우의 전체 개수를 나타내는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  2. 제 1 항에 있어서,
    생물학적 샘플로부터 게놈 샘플을 추출하는 단계를 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  3. 제 2 항에 있어서,
    상기 생물학적 샘플은 임신 샘플 또는 태아 샘플인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  4. 제 2 항에 있어서,
    상기 생물학적 샘플은 혈액, 오줌, 타액, 조직, 생식 세포, 수정란, 할구 및 배아로 이루어진 그룹으로부터 선택된 적어도 하나인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  5. 제 1 항에 있어서,
    상기 게놈 샘플을 스퀸싱하는 단계는,
    상기 게놈 샘플을 증폭하는 서브-단계;
    증폭된 상기 게놈 샘플로 시퀀싱-라이브러리를 구축하는 서브-단계; 및
    상기 시퀀싱-라이브러리를 스퀸싱하는 서브-단계를 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  6. 제 4 항에 있어서,
    상기 생물학적 샘플은 단일 세포이고,
    상기 단일 세포의 전체 게놈을 석방하기 위하여, 상기 단일 세포를 용해하는 단계를 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  7. 제 6 항에 있어서,
    상기 단일 세포의 전체 게놈을 석방하기 위하여, 알칼리성 용해물을 사용하여 상기 단일 세포를 용해하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  8. 제 7 항에 있어서,
    상기 전체 게놈은 PCR-기반 전체 게놈 증폭 방법에 의해 증폭되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  9. 제 8 항에 있어서,
    상기 PCR-기반 전체 게놈 증폭 방법은 옴니플렉스 WGA인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  10. 제 5 항에 있어서,
    상기 시퀀싱-라이브러리를 스퀸싱하는 서브-단계는 하이섹 시스템, 마이섹(Miseq) 시스템, 게놈 분석 시스템, 454 FLX, SOLiD 시스템, 이온 토런트(Ion Torrent) 시스템, 및 단일 분자 스퀸싱 장치로 이루어진 그룹으로부터 선택된 적어도 하나에 의해 수행되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  11. 제 1 항에 있어서,
    상기 복제 개수 변이는 염색체의 이수성, 염색체의 단편의 결실, 및 염색체 단편의 증가, 미소-결실 및 미소-반복으로부터 선택된 적어도 하나인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  12. 삭제
  13. 제 1 항에 있어서,
    상기 각 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스는 유일하게 비교 대조된 스퀸싱 스퀀스인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  14. 제 1 항에 있어서,
    100개의 일차 윈도우가 상기 사이트의 양측으로부터 선택되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  15. 제 1 항에 있어서,
    상기 복수의 일차 윈도우는 100 Kbp 내지 200 Kbp의 길이를 갖는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  16. 제 1 항에 있어서,
    상기 최종 p 값은 1.1 X 10-50 이하인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  17. 삭제
  18. 제 1 항에 있어서,
    모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 런-테스트(Run-Test) 처리하는 단계는,
    교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112017018795732-pct00114
    )를 수득하기 위하여, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 GC 함량의 교정 처리하는 단계,
    상기 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112017018795732-pct00115
    )에 기초하여 각각의 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계; 및
    모든 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계를 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  19. 제 18 항에 있어서,
    상기 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00077
    )는,
    각각의 복수의 일차 윈도우 GC 함량을 계산하는 단계;
    GC 함량을 0.001의 단위로 복수의 영역들로 분할하고, 각각의 복수의 영역에서의 상대적 스퀸싱 스퀀스의 개수의 평균값(Ms)를 계산하되, s는 복수의 영역의 번호인, 분할 및 계산 단계;
    다음 공식에 기초하여 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00078
    )를 확정하는 단계;
    Figure 112014078269999-pct00079

    다음 공식에 기초하여 스퀸싱 스퀀스의 표준화된 개수(Zi)를 확정하는 단계에 의해 수득되고,
    Figure 112014078269999-pct00080
    ,
    Figure 112014078269999-pct00081
    ,
    Figure 112014078269999-pct00082
    인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  20. 제 19 항에 있어서,
    상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 단계는,
    1) 복수의 후보 돌파점을 확정하는 단계로서, 다른 돌파점이 상기 후보 돌파점 전후에 모두 존재하는, 복수의 후보 돌파점을 확정하는 단계;
    2) 각각의 후보 돌파점의 p 값을 확정하고, 최대 p 값을 갖는 후보 돌파점을 제거하는, 확정 및 제거 단계;
    3) 나머지 후보 돌파점의 모든 p 값이 최종 p 값보다 작게 될 때까지 나머지 후보 돌파점으로 단계 2)를 실행하는 단계로서, 상기 나머지 후보 돌파점은 선별된 후보 돌파점으로서 간주되는, 단계 2)를 실행하는 단계; 및
    4) 두 개의 인접한 선별된 후보 돌파점 사이의 영역을 검사 윈도우로서 확정하는 단계를 더 포함하고,
    상기 후보 돌파점의 p 값은,
    상기 후보 돌파점과 전 후보 돌파점 사이의 영역을 제 1 후보 영역으로 하고, 상기 후보 돌파점과 다음의 후보 돌파점 사이의 영역을 제 2 후보 영역으로 하는 단계;
    상기 후보 돌파점의 p 값을 확정하기 위하여, 제 1 후보 영역 및 제 2 후보 영역에 모두 포함된 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계에 의해 확정되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  21. 제 20 항에 있어서,
    상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 비교 대조를 위한 제 1 파라미터를 확정하는 단계는,
    상기 검사 윈도우에 포함되는 모든 복수의 일차 윈도우의 스퀸싱 스퀀스의 표준화된 개수(
    Figure 112017018795732-pct00116
    )의 평균값을 확정하는 단계로서, 상기 표준화된 스퀸싱 스퀀스의 개수(
    Figure 112017018795732-pct00117
    )의 평균값은 제 1 파라미터로서 간주되는, 평균값을 확정하는 단계를 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  22. 제 1 항에 있어서,
    상기 예정된 한계치는 -1.645인 제 1 한계치와 1.645인 제 2 한계치를 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  23. 제 1 항에 있어서,
    상기 기준 게놈 스퀀스는 인간의 21번 염색체, 18번 염색체, 13번 염색체, X 염색체, 및 Y 염색체로부터 선택된 적어도 하나인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  24. 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템으로서,
    복수의 스퀸싱 스퀀스로 이루어진 스퀸싱 결과를 얻기 위하여, 상기 게놈 샘플을 스퀸싱하는 스퀸싱 장치; 및
    상기 스퀸싱 장치에 연결되어, 복제 개수 변이가 상기 스퀸싱 결과에 기초하여 상기 게놈 샘플에 존재하는지의 여부를 확정하는 분석 장치를 포함하고,
    상기 분석 장치는,
    기준 게놈 스퀀스에서 얻어진 상기 스퀸싱 결과의 위치를 확정하기 위하여, 상기 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하는 비교 대조 유닛;
    상기 비교 대조 유닛에 연결되어, 기준 게놈 스퀀스에서 얻어진 상기 스퀸싱 결과 위치에 기초하여 상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 돌파점 확정 유닛으로서, 상기 돌파점 양측의 스퀸싱 스퀀스의 개수는 크게 다른, 돌파점 확정 유닛;
    상기 돌파점 확정 유닛에 연결되어, 상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 검사 윈도우 확정 유닛;
    상기 검사 윈도우 확정 유닛에 연결되어, 상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 비교 대조를 위한 제 1 파라미터를 확정하는 파라미터 확정 유닛; 및
    상기 파라미터 확정 유닛에 연결되어, 상기 제 1 파라미터와 미리 확정된 한계치를 비교하여 상기 게놈 샘플이 상기 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 확정 유닛을 더 포함하고,
    상기 돌파점 확정 유닛은,
    기준 게놈 스퀀스를 예정된 길이를 갖는 복수의 일차 윈도우로 분할하고, 각 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스를 확정하는, 분할 및 확정하는 서브-단계;
    기준 게놈 스퀀스에서의 적어도 하나의 사이트에 대해서, 상기 사이트의 양측에서 동일한 개수의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스들의 개수를 확정하는 서브-단계;
    상기 사이트의 p 값을 확정하는 단계로서, 상기 p 값은 사이트의 양측의 스퀸싱 데이터 개수의 현저한 차이성을 나타내는, 상기 사이트의 p 값을 확정하는 서브-단계; 및
    상기 사이트의 p 값이 최종 p 값보다 작은 경우, 상기 사이트가 돌파점인 것을 확정하는 서브-단계를 실행하기 위한 모듈을 더 포함하며,
    상기 돌파점 확정 유닛은, p 값을 확정하기 위하여,
    상기 사이트에 대해서, 상기 사이트의 양측에서 동일 개수를 갖는 복수의 일차 윈도우를 각각 선택하고, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 계산하되, i가 복수의 일차 윈도우의 번호를 나타내는, 선택 및 계산하는 단계; 및
    상기 사이트의 p 값을 확정하기 위하여, 모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 런-테스트 처리하는 단계를 실행하기 위한 모듈을 더 포함하고,
    상기 상대적 스퀸싱 스퀀스의 개수는 다음 공식에 의해 확정되며:
    Figure 112017018795732-pct00118
    ,
    여기서, ri는 i-번째 일차 윈도우에 놓이는 스퀸싱 스퀀스의 개수를 나타내고,
    Figure 112017018795732-pct00119
    ,
    n은 복수의 일차 윈도우의 전체 개수를 나타내는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  25. 제 24 항에 있어서,
    생물학적 샘플로부터 게놈 샘플을 추출하는 게놈 추출 장치를 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  26. 제 24 항에 있어서,
    상기 스퀸싱 장치는,
    상기 게놈 샘플을 증폭하는 게놈 증폭 유닛;
    상기 게놈 증폭 유닛에 연결되어, 증폭된 상기 게놈 샘플로 시퀀싱-라이브러리를 구축하는 시퀀싱-라이브러리 구축 유닛; 및
    상기 시퀀싱-라이브러리 구축 유닛에 연결되어, 시퀀싱-라이브러리를 스퀸싱하는 스퀸싱 유닛을 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  27. 제 26 항에 있어서,
    상기 스퀸싱 유닛은 하이섹 시스템, 마이섹 시스템, 게놈 분석 시스템, 454 FLX, SOLiD 시스템, 이온 토런트 시스템, 및 단일 분자 스퀸싱 장치로 이루어진 그룹으로부터 선택된 적어도 하나인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  28. 삭제
  29. 삭제
  30. 제 24 항에 있어서,
    상기 돌파점 확정 유닛은, 모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수를 런-테스트 처리하기 위하여,
    교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112017018795732-pct00120
    )를 수득하기 위하여, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수((Ri))를 GC 함량의 교정 처리하는 단계;
    상기 교정된 상대적 스퀸싱 스퀀스의 개수에 기초하여 각각의 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계; 및
    모든 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계를 실행하기 위한 모듈을 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  31. 제 30 항에 있어서,
    상기 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00088
    )는,
    각각의 복수의 일차 윈도우의 GC 함량을 계산하는 단계;
    GC 함량을 0.001의 단위로 복수의 영역들로 분할하고, 각각의 복수의 영역에서의 상대적 스퀸싱 스퀀스의 개수의 평균값(Ms)를 계산하는 단계로서, s는 복수의 영역의 번호인, 분할 및 계산 단계;
    다음 공식에 기초하여 상기 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00089
    )를 확정하는 단계;
    Figure 112014078269999-pct00090

    다음 공식에 기초하여 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계를 실행하는 모듈에 의해 수득되고,
    Figure 112014078269999-pct00091
    ,
    여기서,
    Figure 112014078269999-pct00092
    ,
    Figure 112014078269999-pct00093
    인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  32. 제 31 항에 있어서,
    상기 복수의 돌파점에 기초하여, 검사 윈도우 확정 유닛은,
    1) 복수의 후보 돌파점을 확정하는 단계로서, 다른 돌파점이 후보 돌파점 전후에 모두 존재하는, 복수의 후보 돌파점을 확정하는 단계;
    2) 각각의 후보 돌파점의 p 값을 확정하고, 최대 p 값을 갖는 후보 돌파점을 제거하는, 확정 및 제거 단계;
    3) 나머지 후보 돌파점의 모든 p 값이 최종 p 값보다 작게 될 때까지 나머지 후보 돌파점으로 단계 2)를 실행하는 단계로서, 상기 나머지 후보 돌파점은 선별된 후보 돌파점으로서 간주되는, 단계 2)를 실행하는 단계; 및
    4) 두 개의 인접한 선별된 후보 돌파점들 사이의 영역을 검사 윈도우로서 확정하는 단계를 실행하기 위한 모듈을 더 포함하고,
    상기 후보 돌파점의 p 값은,
    후보 돌파점과 전 후보 돌파점 사이의 영역을 제 1 후보 영역으로 하고, 후보 돌파점과 다음 후보 돌파점 사이의 영역을 제 2 후보 영역으로 하는 단계; 및
    상기 후보 돌파점의 p 값을 확정하기 위하여, 제 1 후보 영역 및 제 2 후보 영역에 모두 포함된 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계에 의해 확정되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  33. 제 32 항에 있어서,
    파라미터 확정 유닛은,
    상기 검사 윈도우에 포함된 모든 복수의 일차 윈도우의 스퀸싱 스퀀스의 표준화된 개수(
    Figure 112014078269999-pct00094
    )의 평균값을 확정하는 단계로서, 상기 표준화된 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00095
    )의 평균값은 제 1 파라미터로서 간주되는, 평균값을 확정하는 단계를 실행하기 위한 모듈을 더 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  34. 제 24 항에 있어서,
    상기 확정 유닛에 예정된 한계치가 저장되고, 상기 예정된 한계치는 -1.645인 제 1 한계치와 1.645인 제 2 한계치를 포함하는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  35. 제 24 항에 있어서,
    기준 게놈 스퀀스는 상기 비교 대조 유닛에 저장되고, 상기 기준 게놈 스퀀스는 공지된 인간 게놈 스퀀스인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  36. 컴퓨터 판독 가능한 매체로서,
    복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 프로세서에 의해 실행되도록 지시하는 명령을 포함하되,
    기준 게놈 스퀀스에서 얻어진 스퀸싱 스퀀스 결과의 위치를 확정하기 위하여, 스퀸싱 결과를 기준 게놈 스퀀스에 비교 대조하는 단계;
    기준 게놈 스퀀스에서 얻어진 상기 스퀸싱 결과의 위치에 기초하여, 상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계로서, 스퀸싱 스퀀스의 개수가 상기 돌파점의 양측에서 크게 다른, 복수의 돌파점을 확정하는 단계;
    상기 복수의 돌파점에 기초하여 상기 기준 게놈에서 검사 윈도우를 확정하는 단계;
    상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여 비교 대조를 위한 제 1 파라미터를 확정하는 단계; 및
    상기 제 1 파라미터와 미리 확정된 한계치를 비교하여, 상기 게놈 샘플이 상기 검사 윈도우에 대하여 복제 개수 변이가 존재하는지의 여부를 확정하는 단계를 통하여, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 프로세서에 의해 실행되도록 지시하는 명령을 포함하고,
    상기 기준 게놈 스퀀스에서 복수의 돌파점을 확정하는 단계는,
    기준 게놈 스퀀스를 복수의 예정된 길이를 갖는 복수의 일차 윈도우로 분할하고, 각 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스를 확정하는, 분할 및 확정하는 서브-단계;
    기준 게놈 스퀀스에서의 적어도 하나의 사이트에 대해서, 사이트의 양측에서 동일한 개수의 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스들의 개수를 확정하는 서브-단계;
    상기 사이트의 p 값을 확정하는 단계로서, 상기 p 값은 사이트의 양측의 스퀸싱 데이터의 개수의 현저한 차이성을 나타내는, 상기 사이트의 p 값을 확정하는 서브-단계; 및
    사이트의 p 값이 최종 p 값보다 작은 경우, 상기 사이트가 돌파점인 것을 확정하는 서브-단계를 더 포함하며,
    상기 사이트의 p 값을 확정하는 서브-단계는,
    상기 사이트에 대해서, 사이트의 양측에서 동일 개수를 갖는 복수의 일차 윈도우를 각각 선택하고, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 계산하되, i가 복수의 일차 윈도우의 번호를 나타내는, 선택 및 계산하는 단계;
    상기 사이트의 p 값을 확정하기 위하여, 모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 런-테스트 처리하는 단계를 더 포함하고,
    상대적 스퀸싱 스퀀스의 개수는 다음 공식에 의해 확정되며:
    Figure 112017018795732-pct00121
    ,
    여기서, ri는 i-번째 일차 윈도우에 놓이는 스퀸싱 스퀀스의 개수를 나타내고,
    Figure 112017018795732-pct00122
    ,
    n은 복수의 일차 윈도우의 전체 개수를 나타내는, 컴퓨터 판독 가능한 매체.
  37. 삭제
  38. 제 36 항에 있어서,
    상기 복수의 일차 윈도우에 놓이는 스퀸싱 스퀀스는 유일하게 비교 대조된 스퀸싱 스퀀스인, 컴퓨터 판독 가능한 매체.
  39. 제 36 항에 있어서,
    100개의 일차 윈도우는 상기 사이트의 양측으로부터 선택되는, 컴퓨터 판독 가능한 매체.
  40. 제 36 항에 있어서,
    상기 복수의 일차 윈도우는 100 Kbp 내지 200 Kbp의 길이를 갖는, 컴퓨터 판독 가능한 매체.
  41. 제 36 항에 있어서,
    상기 최종 p 값은 1.1 X 10-50 이하인, 컴퓨터 판독 가능한 매체.
  42. 삭제
  43. 제 36 항에 있어서,
    모든 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 런-테스트 처리하는 단계는,
    교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112017018795732-pct00123
    )를 수득하기 위하여, 각각의 복수의 일차 윈도우의 상대적 스퀸싱 스퀀스의 개수(Ri)를 GC 함량의 교정 처리하는 단계,
    상기 교정된 상대적 스퀸싱 스퀀스의 개수에 기초하여 각각의 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계; 및
    모든 복수의 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계를 더 포함하는, 컴퓨터 판독 가능한 매체.
  44. 제 43 항에 있어서,
    상기 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00099
    )는,
    각각의 복수의 일차 윈도우의 GC 함량을 계산하는 단계;
    GC 함량을 0.001의 단위로 복수의 영역들로 분할하고, 각각의 복수의 영역에서의 상대적 스퀸싱 스퀀스의 개수의 평균값(Ms)를 계산하되, s는 복수의 영역의 번호인, 분할 및 계산 단계;
    다음 공식에 기초하여 상기 교정된 상대적 스퀸싱 스퀀스의 개수(
    Figure 112014078269999-pct00100
    )를 확정하는 단계;
    Figure 112014078269999-pct00101

    다음 공식에 기초하여 표준화된 스퀸싱 스퀀스의 개수(Zi)를 확정하는 단계에 의해 수득되고,

    Figure 112014078269999-pct00102
    ,
    여기서,
    Figure 112014078269999-pct00103
    ,
    Figure 112014078269999-pct00104
    인, 컴퓨터 판독 가능한 매체.
  45. 제 43 항에 있어서,
    상기 복수의 돌파점에 기초하여, 상기 기준 게놈에서 검사 윈도우를 확정하는 단계는,
    1) 복수의 후보 돌파점을 확정하는 단계로서, 다른 돌파점이 후보 돌파점 전후에 모두 존재하는, 복수의 후보 돌파점을 확정하는 단계;
    2) 각각의 후보 돌파점의 p 값을 확정하고, 최대 p 값을 갖는 후보 돌파점을 제거하는, 확정 및 제거 단계;
    3) 나머지 후보 돌파점의 모든 p 값이 최종 p 값보다 작게 될 때까지 나머지 후보 돌파점으로 단계 2)를 실행하는 단계로서, 상기 나머지 후보 돌파점은 선별된 후보 돌파점으로서 간주되는, 단계 2)를 실행하는 단계; 및
    4) 두 개의 인접한 선별된 후보 돌파점 사이의 영역을 검사 윈도우로서 확정하는 단계를 더 포함하고,
    상기 후보 돌파점의 p 값은,
    상기 후보 돌파점과 전 후보 돌파점 사이의 영역을 제 1 후보 영역으로 하고, 후보 돌파점과 다음 후보 돌파점 사이의 영역을 제 2 후보 영역으로 하는 단계;
    상기 후보 돌파점의 p 값을 확정하기 위하여, 제 1 후보 영역 및 제 2 후보 영역에 모두 포함된 일차 윈도우의 표준화된 스퀸싱 스퀀스의 개수(Zi)를 런-테스트 처리하는 단계에 의해 확정되는, 컴퓨터 판독 가능한 매체.
  46. 제 45 항에 있어서,
    상기 검사 윈도우에 놓이는 스퀸싱 스퀀스에 기초하여, 비교 대조를 위한 제 1 파라미터를 확정하는 단계는,
    상기 검사 윈도우에 포함되는 모든 복수의 일차 윈도우의 스퀸싱 스퀀스의 표준화된 개수(
    Figure 112017018795732-pct00124
    )의 평균값을 확정하는 단계로서, 스퀸싱 스퀀스의 표준화된 개수(
    Figure 112017018795732-pct00125
    )의 평균값은 제 1 파라미터로서 간주되는, 평균값을 확정하는 단계를 더 포함하는, 컴퓨터 판독 가능한 매체.
  47. 제 46 항에 있어서,
    상기 예정된 한계치는 -1.645인 제 1 한계치, 및 1.645인 제 2 한계치를 포함하는, 컴퓨터 판독 가능한 매체
  48. 제 36 항에 있어서,
    상기 기준 게놈 스퀀스는 인간의 21번 염색체, 18번 염색체, 13번 염색체, X 염색체, 및 Y 염색체로부터 선택된 적어도 하나인, 컴퓨터 판독 가능한 매체.
  49. 제 3 항에 있어서,
    상기 생물학적 샘플은 임신 혈장, 융모막융모, 양수, 제대혈, 태반 및 태아 힐 혈액으로 이루어진 그룹으로부터 선택되는 적어도 하나인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  50. 제 4 항에 있어서,
    상기 생물학적 샘플은 단일 세포인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  51. 제 20 항에 있어서,
    상기 최종 p 값은,
    대비 샘플의 스퀸싱 결과에 기초하여, 기준 게놈에서 검사 윈도우를 확정하는 단계를 반복하고, 돌파점의 개수가 제로가 될 때까지 매번 제거되는 돌파점의 p 값을 기록하는, 반복 및 기록 단계; 및
    제거된 돌파점의 p 값의 분포에 기초하여, 최종 p 값을 확정하는 단계에 의해 확정되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  52. 제 20 항에 있어서,
    상기 최종 p 값은 1.1 X 10-50인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법.
  53. 제 32 항에 있어서,
    상기 최종 p 값은,
    대비 샘플의 스퀸싱 결과에 기초하여, 기준 게놈에서 검사 윈도우를 확정하는 단계를 반복하고, 돌파점의 개수가 제로가 될 때까지 매번 제거되는 돌파점의 p 값을 기록하는, 반복 및 기록 단계; 및
    제거된 돌파점의 p 값의 분포에 기초하여, 최종 p 값을 확정하는 단계에 의해 확정되는, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  54. 제 32 항에 있어서,
    상기 최종 p 값은 1.1 X 10-50인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  55. 제 35 항에 있어서,
    상기 기준 게놈 스퀀스는 인간의 21번 염색체, 18번 염색체, 13번 염색체, X 염색체, 및 Y 염색체로부터 선택된 적어도 하나인, 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하기 위한 시스템.
  56. 제 45 항에 있어서,
    상기 최종 p 값은,
    대비 샘플의 스퀸싱 결과에 기초하여, 기준 게놈에서 검사 윈도우를 확정하는 단계를 반복하고, 돌파점의 개수가 제로가 될 때까지 매번 제거되는 돌파점의 p 값을 기록하는, 반복 및 기록 단계; 및
    제거된 돌파점의 p 값에 기초하여, 최종 p 값을 확정하는 단계에 의해 확정되는, 컴퓨터 판독 가능한 매체.
  57. 제 45 항에 있어서,
    상기 최종 p 값은 1.1 X 10-50인, 컴퓨터 판독 가능한 매체.
KR1020147023080A 2012-01-20 2012-01-20 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체 KR101770884B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/070680 WO2013107048A1 (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Publications (2)

Publication Number Publication Date
KR20140114442A KR20140114442A (ko) 2014-09-26
KR101770884B1 true KR101770884B1 (ko) 2017-09-05

Family

ID=48798533

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147023080A KR101770884B1 (ko) 2012-01-20 2012-01-20 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체

Country Status (11)

Country Link
US (1) US20150012252A1 (ko)
EP (1) EP2826865B8 (ko)
JP (1) JP5938484B2 (ko)
KR (1) KR101770884B1 (ko)
CN (1) CN105392894B (ko)
AU (1) AU2012366077B2 (ko)
HK (1) HK1215454A1 (ko)
IL (1) IL233691B (ko)
RU (1) RU2593708C2 (ko)
SG (1) SG11201404079SA (ko)
WO (1) WO2013107048A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107111692B (zh) 2014-10-10 2021-10-29 生命科技股份有限公司 用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体
WO2017161201A1 (en) * 2016-03-16 2017-09-21 Cynvenio Biosystems Inc. Cancer detection assay and related compositions, methods and systems
CN108090325B (zh) * 2016-11-23 2022-01-25 中国科学院昆明动物研究所 一种应用β-稳定性分析单细胞测序数据的方法
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
CN107590362B (zh) * 2017-08-21 2019-12-06 武汉菲沙基因信息有限公司 一种基于长读序测序判断重叠组装正误的方法
CN108251532B (zh) * 2018-03-29 2021-12-28 上海锐翌生物科技有限公司 基于ngs技术的粪便dna结直肠肿瘤多基因预测模型
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN112639129A (zh) * 2018-09-03 2021-04-09 深圳华大智造科技有限公司 确定新发突变在胚胎中的遗传状态的方法和装置
CN111379032A (zh) * 2018-12-28 2020-07-07 北京贝瑞和康生物技术有限公司 一种用于构建同时实现基因组拷贝数变异检测和基因突变检测的测序文库的方法和试剂盒
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN114502744B (zh) * 2019-12-11 2023-06-23 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN111968701B (zh) * 2020-08-27 2022-10-04 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN112562787B (zh) * 2020-12-03 2021-09-07 江苏先声医学诊断有限公司 一种基于ngs平台的基因大片段重排检测方法
CN114220481B (zh) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN114999573B (zh) * 2022-04-14 2023-07-07 哈尔滨因极科技有限公司 一种基因组变异检测方法及检测系统
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN114758720B (zh) * 2022-06-14 2022-09-02 北京贝瑞和康生物技术有限公司 用于检测拷贝数变异的方法、设备和介质
CN115579054B (zh) * 2022-11-17 2023-06-02 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质
CN116240273B (zh) * 2023-04-19 2023-08-15 北京优迅医学检验实验室有限公司 一种基于低深度全基因组测序的判断母源污染比例的方法及其应用
CN116863998B (zh) * 2023-06-21 2024-04-05 扬州大学 一种基于遗传算法的全基因组预测方法及其应用
CN117116344A (zh) * 2023-10-25 2023-11-24 北京大学第三医院(北京大学第三临床医学院) 一种单细胞水平pmp22重复变异的检测系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011032040A1 (en) 2009-09-10 2011-03-17 Centrillion Technology Holding Corporation Methods of targeted sequencing
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082606A1 (en) * 2001-09-04 2003-05-01 Lebo Roger V. Optimizing genome-wide mutation analysis of chromosomes and genes
JP5491171B2 (ja) * 2006-04-12 2014-05-14 メディカル リサーチ カウンシル 方法
US7702468B2 (en) * 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
EP3378951B1 (en) * 2008-09-20 2020-05-13 The Board of Trustees of the Leland Stanford Junior University Noninvasive diagnosis of aneuploidy by sequencing
CA2786564A1 (en) * 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
CN104204220B (zh) * 2011-12-31 2017-06-06 深圳华大基因股份有限公司 一种遗传变异检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011032040A1 (en) 2009-09-10 2011-03-17 Centrillion Technology Holding Corporation Methods of targeted sequencing
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation

Also Published As

Publication number Publication date
EP2826865B1 (en) 2017-06-21
RU2014134175A (ru) 2016-03-20
AU2012366077B2 (en) 2016-01-21
JP5938484B2 (ja) 2016-06-22
EP2826865A1 (en) 2015-01-21
IL233691B (en) 2019-01-31
SG11201404079SA (en) 2014-10-30
JP2015506684A (ja) 2015-03-05
KR20140114442A (ko) 2014-09-26
EP2826865B8 (en) 2017-08-16
CN105392894A (zh) 2016-03-09
IL233691A0 (en) 2014-09-30
CN105392894B (zh) 2018-05-29
US20150012252A1 (en) 2015-01-08
WO2013107048A1 (zh) 2013-07-25
HK1215454A1 (zh) 2016-08-26
EP2826865A4 (en) 2015-05-27
RU2593708C2 (ru) 2016-08-10
AU2012366077A1 (en) 2014-08-07

Similar Documents

Publication Publication Date Title
KR101770884B1 (ko) 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체
US11629378B2 (en) Non-invasive prenatal diagnosis of fetal genetic condition using cellular DNA and cell free DNA
KR101817785B1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN113362891A (zh) 用短读测序数据检测重复扩增
US20220106642A1 (en) Multiplexed Parallel Analysis Of Targeted Genomic Regions For Non-Invasive Prenatal Testing
CN111052249B (zh) 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
WO2020192680A1 (en) Determining linear and circular forms of circulating nucleic acids
CN108475301A (zh) 用于确定包含核酸的混合物的样品中的拷贝数变异的方法
Avent et al. Non invasive prenatal diagnosis of aneuploidy: next generation sequencing or fetal DNA enrichment?
CN106929595B (zh) 一种鉴定胚胎平衡易位携带状态的系统和方法
Huffman et al. Single cell genomics applications in forensic science: Current state and future directions
US20210280270A1 (en) Method to determine if a circulating fetal cell isolated from a pregnant mother is from either the current or a historical pregnancy
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
TWI564742B (zh) Methods for determining the aneuploidy of fetal chromosomes, systems and computer-readable media

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant