WO2013107048A1 - 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 - Google Patents

确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 Download PDF

Info

Publication number
WO2013107048A1
WO2013107048A1 PCT/CN2012/070680 CN2012070680W WO2013107048A1 WO 2013107048 A1 WO2013107048 A1 WO 2013107048A1 CN 2012070680 W CN2012070680 W CN 2012070680W WO 2013107048 A1 WO2013107048 A1 WO 2013107048A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequencing
candidate
breakthrough
window
value
Prior art date
Application number
PCT/CN2012/070680
Other languages
English (en)
French (fr)
Inventor
殷旭阳
张春雷
陈盛培
张春生
潘小瑜
蒋慧
张秀清
Original Assignee
深圳华大基因健康科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP12865785.5A priority Critical patent/EP2826865B8/en
Priority to CN201280067240.2A priority patent/CN105392894B/zh
Priority to PCT/CN2012/070680 priority patent/WO2013107048A1/zh
Priority to AU2012366077A priority patent/AU2012366077B2/en
Priority to US14/373,072 priority patent/US20150012252A1/en
Priority to KR1020147023080A priority patent/KR101770884B1/ko
Application filed by 深圳华大基因健康科技有限公司 filed Critical 深圳华大基因健康科技有限公司
Priority to RU2014134175/10A priority patent/RU2593708C2/ru
Priority to SG11201404079SA priority patent/SG11201404079SA/en
Priority to JP2014552471A priority patent/JP5938484B2/ja
Publication of WO2013107048A1 publication Critical patent/WO2013107048A1/zh
Priority to IL233691A priority patent/IL233691B/en
Priority to HK16103403.7A priority patent/HK1215454A1/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Definitions

  • the present invention relates to a method of determining the presence or absence of copy number variation in a sample genome and a system and computer readable medium suitable for performing the method.
  • PDD pre-implantation diagnosis
  • PPS pre-implantation screening
  • problems Involved in the analysis of single germ cells or single blastomeres or embryonic cells; non-invasive prenatal diagnostic technology, involving the detection of trace amounts of fetal cells in maternal peripheral blood; in metagenomics, in the environment Analysis of single or microscopic biological cells; and in disease or physiological studies involving the analysis of cells in tissues or body fluids.
  • the present invention aims to solve at least one of the technical problems existing in the prior art.
  • the invention proposes a method of determining the presence or absence of copy number variation in a sample genome.
  • the method comprises the steps of: sequencing the sample genome to obtain sequencing results consisting of a plurality of sequencing sequences; comparing the sequencing results to a reference genome sequence to determine the a distribution of the sequencing sequence on the reference genomic sequence; based on the distribution of the sequencing sequence on the reference genomic sequence, determining a plurality of breakthrough points on the reference genomic sequence, the number of sequencing sequences on both sides of the breakthrough point is significant Determining a test window on the reference genome based on the plurality of breakthrough points; determining a first parameter based on a sequencing sequence falling within the test window; and determining based on a difference between the first parameter and a predetermined threshold
  • the sample genome is for copy number variation for the test window.
  • the method for determining whether a copy number variation exists in a sample genome can effectively determine whether a copy number variation exists in a sample genome, and is applicable to various copy number variations, including but not limited to chromosome aneuploidy. , deletion of chromosome fragments, increase in chromosome fragments, microdeletions, microduplication.
  • the invention proposes a system for determining the presence or absence of copy number variation in a sample genome.
  • the system includes: a sequencing device for sequencing the sample genome to obtain a sequencing result composed of a plurality of sequencing sequences; an analyzing device, the analyzing device and the The sequencing device is coupled to determine whether there is copy number variation in the genome based on the sequencing result, the analysis device further comprising: a comparison unit, wherein the comparison unit is adapted to perform the sequencing result and the reference genome sequence Aligning to determine a distribution of the sequencing sequence on the reference genomic sequence; a breakthrough point determining unit, the breakthrough point determining unit being coupled to the aligning unit, and adapted to be based on the sequencing sequence in the reference genomic sequence a distribution on the reference genome sequence, wherein a plurality of breakthrough points are determined, and there is a significant difference in the number of sequencing sequences on both sides of the breakthrough point; a verification window determining unit, the verification window determining unit is connected to the breakthrough
  • a method of determining whether a copy number variation exists in a sample genome according to an embodiment of the present invention can be effectively implemented, thereby being able to effectively determine whether or not a sample genome is present
  • copy number variations and are applicable to a variety of copy number variations including, but not limited to, chromosomal aneuploidy, chromosomal fragment deletion, chromosome fragmentation, microdeletions, microduplication.
  • the invention provides a computer readable medium.
  • instructions are stored on the computer readable medium, the instructions being adapted to be executed by the processor to determine whether copy number variation is present in the sample genome by: comparing the sequencing result to a reference genome sequence ⁇ / RTI> to determine the distribution of the sequencing sequence on the reference genomic sequence, wherein the sequencing result is composed of a plurality of sequencing sequences obtained by sequencing the sample genome; based on the sequencing sequence in the reference genome a distribution on the sequence, determining a plurality of breakthrough points on the reference genome sequence, wherein there is a significant difference in the number of sequencing sequences on both sides of the breakthrough point; determining a test window on the reference genome based on the plurality of breakthrough points; Based on falling into the inspection window a sequencing sequence, determining a first parameter; and determining, based on the difference between the first parameter and a predetermined threshold, whether the sample genome has copy number variation for the test window.
  • a method for determining whether a copy number variation exists in a sample genome can be effectively implemented, thereby being capable of effectively determining whether a copy number variation exists in a sample genome, and is applicable to various copy numbers.
  • Variations including but not limited to chromosomal aneuploidy, deletion of chromosomal fragments, increase in chromosomal fragments, microdeletions, microduplication.
  • FIG. 1 shows a schematic flow diagram of a method of determining whether a copy number variation is present in a sample genome, in accordance with one embodiment of the present invention
  • FIG. 2 shows a schematic structural diagram of a system for determining whether a copy number variation exists in a sample genome according to an embodiment of the present invention
  • FIG. 3 shows a method for determining whether a copy number variation exists in a sample genome according to still another embodiment of the present invention. Schematic diagram of the process
  • Figure 4 shows a chromosomal digital karyotype of sample S1 in accordance with an embodiment of the present invention.
  • the left panel shows the results of copy number variation detection using the present invention after whole-genome amplification of embryonic single cells, and the right image shows the results of direct sequencing (without WGA) of the same embryo extracted DNA;
  • Figure 5 shows a chromosome karyogram of sample S2 in accordance with an embodiment of the present invention.
  • the left panel shows the results of copy number variation detection using the present invention after whole-genome amplification of embryonic single cells.
  • the right panel shows the results of direct sequencing (without WGA) of the same embryo extracted DNA.
  • first and second are used for descriptive purposes only, and are not to be construed as indicating or implying a relative importance or implicitly indicating the number of technical features indicated.
  • features defining “first” and “second” may include one or more of the features, either explicitly or implicitly.
  • the meaning of “multiple” is two or more unless otherwise specified. If not explicitly stated, in the formula or logo herein, the same letter represents the same meaning. .
  • the invention proposes a method of determining the presence or absence of copy number variation in a sample genome.
  • copy number variation means an abnormality in the copy number of a chromosome or a chromosomal fragment, including but not limited to chromosomal aneuploidy, deletion of a chromosomal fragment, increase in a chromosomal fragment, Microdeletion, microrepetition.
  • a method for determining whether a copy number variation exists in a sample genome includes:
  • the type of the sample genome that can be employed by the method of the present invention is not particularly limited, and may be either a whole genome or a part of a genome, and may be, for example, a chromosome or a fragment thereof.
  • the step of extracting the sample genome from the biological sample is further included prior to sequencing the sample genome. Thereby, it is possible to directly obtain information on whether or not the biological sample has copy number variation using the biological sample as a raw material, thereby reflecting the health state of the living body.
  • the biological sample that can be employed according to an embodiment of the present invention is not particularly limited.
  • the biological sample that can be employed is any one selected from the group consisting of blood, urine, saliva, tissue, germ cells, fertilized eggs, blastomeres, and embryos.
  • the biological sample can be used for analysis for different diseases.
  • a sample may be taken from the tissue or its vicinity, and the cells may be further separated for analysis, whereby the tissue may be accurately and as early as possible known to be cancerous.
  • a single cell can be employed as a biological sample.
  • the method and apparatus for separating single cells from a biological sample are not particularly limited.
  • single cells may be isolated from a biological sample using at least one selected from the group consisting of a dilution method, a mouth pipette separation method, a micromanipulation (preferably microdissection), a flow cytometry, and a microfluidic method. .
  • a method of sequencing a sample genome is not particularly limited.
  • sequencing the sample genome further comprises: first, amplifying the sample genome to obtain an amplified genome; and, subsequently, constructing a sequencing library using the amplified sample genome; and finally, obtaining the obtained
  • the sequencing library is sequenced to obtain sequencing results consisting of multiple sequencing sequences.
  • a sequencing library can select different methods for constructing a sequencing library according to the specific scheme of the genome sequencing technology employed. For details on constructing a genome sequencing library, refer to the protocol provided by a manufacturer of a sequencing instrument such as Illumina, for example, see Illumina Multiplexing Sample Preparation Guide (Part #1005361; Feb 2010) or Paired-End SamplePrep Guide (Part# 1005063; Feb 2010), which is incorporated herein by reference.
  • the step of lysing the single cell to release the whole genome of the single cell may be further included.
  • a method which can be used for lysing a single cell and releasing the whole genome is not particularly limited as long as single cell lysis can be preferably sufficiently lysed.
  • the single cell can be cleaved with an alkaline lysate and the whole genome of the single cell can be released.
  • the method of single-cell whole genome amplification is not particularly limited, and PCR-based methods such as PEP-PCR, DOP-PCR, and OmniPlex WGA may be employed, and non-PCR-based methods may be employed, for example. MDA (multiple strand displacement amplification). According to a specific example of the invention, a PCR based method, such as the OmniPlex WGA method, is preferably employed.
  • kits of choice include, but are not limited to, GenomePlex from Sigma Aldrich, PicoPlex from Rubicon Genomics, REPLI-g from Qiagen, illustra GenomiPhi from GE Healthcare, and the like.
  • the single cell whole genome can be amplified using OmniPlex WGA prior to construction of the sequencing library. Thereby, the whole genome can be efficiently amplified, thereby further improving the efficiency of determining whether or not copy number variation exists in the sample genome.
  • a Heseq system selected from a second generation sequencing technology such as Illumina, a Miseq system, a Genome Analyzer (GA) system, a 454 FLX from Roche, a SOLiD system from Applied Biosystems, and a Life Technologies company may be employed.
  • a second generation sequencing technology such as Illumina, a Miseq system, a Genome Analyzer (GA) system, a 454 FLX from Roche, a SOLiD system from Applied Biosystems, and a Life Technologies company
  • At least one of the Ion Torrent system or the like sequences the whole genome sequencing library. Thereby, the efficiency of determining the aneuploidy of single cell chromosomes can be further improved by utilizing the characteristics of high-throughput and deep sequencing of these sequencing devices.
  • the length of the sequencing data obtained by whole genome sequencing is not particularly limited.
  • the plurality of sequencing data has an average length of about 50 bp. Applicants have surprisingly found that when the average length of the sequenced data is about 50 bp, it is greatly facilitated to analyze the sequencing data, improve the efficiency of the analysis, and at the same time significantly reduce the cost of the analysis.
  • the efficiency of determining aneuploidy of single cell chromosomes is further improved, and the cost of determining aneuploidy of single cell chromosomes is reduced.
  • average length refers to the average of the length values of individual sequencing data.
  • the obtained sequencing result includes a plurality of sequencing sequences.
  • the resulting sequencing results are aligned with a reference genomic sequence to determine the location of the resulting sequencing sequence on the reference genomic sequence.
  • the total number of such sequencing data can be calculated by any known method.
  • analysis can be performed using software provided by the manufacturer of the sequencing instrument.
  • the Short Oligonucleotide Analysis Package (SOAP) and the BWA alignment are used, and the sequencing sequence is aligned with the reference genome sequence to obtain the position of the sequencing sequence on the reference genome.
  • Sequence alignment can be performed using default parameters provided by the program, or can be selected by those skilled in the art as needed.
  • the alignment software employed is SOAPaligner/soap2.
  • the reference genomic sequence is a standard human genome reference sequence in the NCBI database (e. g., may be hgl8, NCBI Build 36). It may also be a part of a known genomic sequence, and may be, for example, a sequence selected from at least one of human chromosome 21, chromosome 18, chromosome 13, X chromosome and Y chromosome.
  • a sequence uniquely aligned with the reference genomic sequence can be selected for subsequent analysis, thereby avoiding interference of the repeated sequence on the copy number variation analysis. Further improve the determination Whether there is efficiency in copy number variation in this genome.
  • S300 Based on the distribution of sequencing sequences on a reference genomic sequence, determining multiple breakthrough points on a reference genomic sequence.
  • breakthrough point refers to a site on the genome where two There is a significant difference in the number of sequencing sequences between the same segments on the side. Since the sequencing is derived from the sample genome, the number of sequencing sequences corresponding to the region will also significantly change when a copy number variation occurs in a particular region of the sample genome. Thus, after determining a plurality of breakthrough points, it may be preliminarily determined that there may be copy number variation in the segment between two adjacent breakthrough points.
  • determining the breakthrough point on the reference genome may further comprise:
  • the reference genome sequence is divided into a plurality of first-length windows of predetermined length, and the sequencing sequences falling into each of the first-order windows are determined.
  • the sequencing sequence contained in the obtained sequencing result can be aligned with the reference genome sequence by a conventional alignment program to determine the sequencing sequence falling into each of the first-order windows. For example, it can be done in the S200 step described above.
  • the sequencing sequences that fall within each of the primary windows are unique alignment sequencing sequences.
  • the number of sequencing sequences in the same number of first order windows falling on both sides of the site is determined.
  • correlation analysis can be performed on all sites on the reference genome sequence, and also on chromosomes of interest, such as human chromosome 21, chromosome 18, chromosome 13, X chromosome, and Y chromosome. This analysis is performed at all sites on at least one of the above.
  • the lengths of the first level windows may be the same or different, and there may be overlap between the first level windows, as long as the information of each level one window is known, preferably each level window has the same length.
  • each of the primary windows may have a length of 100-200 Kbp, preferably 150 Kbp.
  • the number of primary windows selected on both sides of the site is not particularly limited. According to a specific example, 100 primary windows may be taken on each side of the site.
  • the site is judged to be a breakthrough point.
  • the range of terminating p values may be determined by parallel analysis of samples of known sequences, according to one embodiment of the invention, the terminating p value is 1.1 X 10-50 .
  • determining a significant difference in the number of sequencing data on both sides of the site p value further comprises:
  • the same number of first-level windows are taken on both sides of the locus, and the relative number of sequencing sequences Ri of each level window is calculated, where i represents the number of the first-level window,
  • represents the number of sequencing sequences falling into the i-th level window
  • ri represents the total number of first-level windows
  • performing a run-length test on the number of relative sequencing sequences of all the primary windows includes: correcting the GC content of the relative sequencing sequence number Ri of each primary window to obtain the corrected relative sequencing sequence number " ⁇ ; Correcting the number of relative sequencing sequences, determining the number of normalized sequencing sequences for each primary window; and performing a run-length test on the number of standardized sequencing sequences for all primary windows. More specifically, the number of relative sequencing sequences corrected ' is obtained by the following steps:
  • a predetermined value It may be any value in the range of 0.0005-0.01, and the corresponding area size is 50k-300k, preferably 0.001, so that the power of the rod correction is optimal;
  • the number of sequencing sequences can be verified by GC content.
  • the interference caused by the preference of genomic amplification can be eliminated, thereby further improving the accuracy and efficiency of determining whether copy number variation exists in the sample genome.
  • determining the test window on the reference genome based on the plurality of breakthrough points further comprises:
  • the candidate breakthrough point refers to such a breakthrough point, and there are other breakthrough points before and after the breakthrough point;
  • step 2) for the remaining candidate breakthrough points, and remove some candidate breakthrough points until the p value of the remaining candidate breakthrough points is smaller than the ending p value, and the remaining candidate breakthrough points serve as the selected candidate breakthrough points;
  • the p value of the candidate breakthrough point can be determined by the following steps:
  • a region between the candidate breakthrough point and the adjacent previous breakthrough point is used as a first candidate region, and a region between the candidate breakthrough point and the adjacent next breakthrough point is used as a second candidate region;
  • the run-length test is performed on the number of standardized sequencing sequences of the first-level window included in the first candidate region and the second candidate region (the run-length test is a nonparametric test, and the two are uniformly evaluated by the distributed uniform state of the two group elements) The difference in the significance of the group. For details of the test, see Wald A. WJ. On a Test and Two Samples are from the Same Population. The Annals of Mathematical Statistics 1940; 11: 147-162, which is incorporated by reference. In this paper, in order to determine the p value of the candidate breakthrough point.
  • terminating the p value is determined by the following steps:
  • control sample refers to Samples in which no copy number variation is known to exist in the nucleus
  • the termination p value is determined based on the p-value distribution of the candidate breakthrough point, for example, the /? value of the candidate breakthrough point to be eliminated is used as a distribution map, and the place where the p-value change trend is the largest is selected as the termination p-value (p, ) .
  • the p-value may be terminated 1.1X10_ 5Q.
  • determining the first parameter based on the sequencing sequence falling within the verification window further comprises: determining an average standardized number of sequencing sequences of all the primary windows included in the verification window, the average normalized sequencing sequence The number ⁇ "as the first parameter.
  • the number of standardized sequencing sequences has been described in detail above and will not be described here.
  • S500 determining, according to a difference between the first parameter and the predetermined threshold, whether the sample genome has a copy number variation for the check window, according to an embodiment of the present invention, by comparing the first parameter determined above with a predetermined threshold, based on The difference between a parameter and a predetermined threshold determines whether the genomic sample has copy number variation with respect to a particular test window.
  • sequencing results based on genome sequencing the number of sequencing sequences for a particular window is positively correlated with the content of the window in the genome or genome in the whole genome, and thus, by sequencing the results from a particular window The sequencing sequence is statistically analyzed to effectively determine whether the sample genome has copy number variation with respect to the window.
  • predetermined threshold refers to the repetition of a sample genome that is known to be normal for the specific window-related data obtained for the operation and analysis of the above-described implementation. Those skilled in the art will appreciate that the same sequencing conditions and mathematical operations can be used to obtain the relevant parameters of a particular window, as well as the relevant parameters of a normal cell, respectively. Here, the relevant parameters of the normal cells can be taken as a predetermined threshold.
  • predetermined as used herein shall be understood broadly and may be determined experimentally in advance, or may be obtained by parallel experiments in the analysis of biological samples.
  • parallel experiment as used herein shall be understood broadly to mean both sequencing and analysis of unknown and known samples, or sequencing and analysis under the same conditions.
  • the predetermined threshold adopts a first threshold and a second threshold, and by comparing the first parameter ⁇ " with the first threshold and the second threshold, less than the first threshold is a copy number reduction (ie, missing)
  • the greater than the second threshold is an increase in copy number (ie, repetition), whereby the copy number variation type can be determined.
  • is set
  • the copy number variation type can be further effectively determined.
  • the method for determining whether a copy number variation exists in a sample genome can effectively determine whether a copy number variation exists in a sample genome, and is applicable to various copy number variations, including but not limited to chromosome aneuploidy. , deletion of chromosome fragments, increase in chromosome fragments, microdeletions, microduplication.
  • Copy number variation is a major cause of birth defects and is also very common in embryos cultured in vitro, which is the main cause of reproductive failure in vitro. Copy number variation is also a causative factor in many diseases such as cancer.
  • Whole Genome Amplification is a technique for genome-wide amplification of single cells, several cells, or micronucleic acid samples.
  • the sample size can be increased to achieve the required sample size while maintaining full genome representation.
  • whole-genome amplification has the problem of amplification bias, which may bring errors to subsequent analysis.
  • a method for determining whether a copy number variation exists in a sample genome after performing whole genome amplification on a single cell or a micronucleic acid sample, obtaining data by a sequencing technique, and performing copy number variation analysis, on the one hand
  • Genomic amplification solves the problem of difficult analysis of single- or micro-nucleic acid samples.
  • it avoids the deviation of whole-genome amplification from copy number variation analysis, making the detection more accurate and comprehensive, especially through GC content correction. Further improve the detection efficiency.
  • different tags are introduced during library construction of different samples, whereby multiple samples can be tested simultaneously, further improving the efficiency of determining the presence of copy number variation in the sample genome.
  • the method for determining whether there is copy number variation in the sample genome enables screening and diagnosis of pre-implantation copy number mutation or screening of non-invasive fetal copy number variation, which is beneficial for providing genetic counseling and clinical decision-making basis. Prenatal diagnosis can effectively prevent the implantation of diseased embryos and prevent the birth of children. Second, determine whether there is a copy number variation system in the sample genome
  • the present invention provides a system for determining whether a copy number variation exists in a sample genome, by which the method for determining whether a copy number variation exists in a sample genome can be effectively implemented, thereby being effective Determine if copy number variation is present in the sample genome.
  • a system 1000 for determining whether a copy number variation is present in a sample genome includes: 100 and analysis device 200 are placed.
  • the sequencing device 100 is configured to sequence the sample genome to obtain sequencing results consisting of a plurality of sequencing sequences.
  • the system 1000 for determining whether a copy number variation is present in a sample genome may further comprise a genome extraction device (not shown) adapted to extract a sample genome from the biological sample, and the genome An extraction device is coupled to the sequencing device to provide a sample genome for the sequencing device 100.
  • the sequencing apparatus may further include: a genomic amplification unit, a sequencing library construction unit, and a sequencing unit.
  • the genomic amplification unit is adapted to amplify the sample genome
  • the sequencing library building unit is coupled to the genomic amplification unit, and is adapted to construct a sequencing library using the amplified sample genome; and a sequencing unit, a sequencing unit and a The sequencing library building blocks are ligated and are suitable for sequencing the sequencing library.
  • the sequencing unit is selected from a second generation sequencing technology such as Ilhexa's Hiseq system, Miseq system, Genome Analyzer (GA) system, Roche's 454 FLX, Applied Biosystems' SOLiD system, Life Technologies At least one of the Ion Torrent system and the single molecule sequencing device.
  • the analysis device 200 is coupled to the sequencing device 100 to determine if copy number variation is present in the genome based on the sequencing results.
  • the analyzing device 200 further includes: a matching unit 201, a breakthrough point determining unit 202, a check window determining unit 203, a parameter determining unit 204, and a determining unit 205.
  • the alignment unit 201 is adapted to align the sequencing result with the reference genomic sequence to determine the distribution of the sequencing sequence on the reference genomic sequence.
  • the comparison unit 201 stores a human genome sequence whose reference genome sequence is known, and optionally, the reference genome sequence is selected from human chromosome 21, chromosome 18, chromosome 13, X A sequence of at least one of a chromosome and a Y chromosome.
  • the breakthrough point determining unit 202 is coupled to the comparing unit 201 and is adapted to determine a plurality of breakthrough points on the reference genome sequence based on the distribution of the sequencing sequence on the reference genome sequence, as described above, the number of sequencing sequences on both sides of the breakthrough point There are significant differences.
  • the check window determining unit 203 is connected to the breakpoint determining unit 202 and is adapted to determine a check window on the reference genome based on these breakthrough points.
  • the parameter determining unit 204 is connected to the check window determining unit 203, and is adapted to determine that the first parameter determining unit 205 is connected to the parameter determining unit 204 based on the sequencing sequence falling into the check window, and is adapted to be based on the obtained first parameter and predetermined.
  • the difference in thresholds determines whether the sample genome has copy number variation for the determined test window.
  • the breakthrough point determining unit 202 may further include a module adapted to perform the following to determine a breakthrough point: dividing the reference genome sequence into a plurality of first-length windows of a predetermined length, and determining to fall into each of the first-level windows Sequencing sequence; First, the reference genomic sequence is divided into a plurality of first-length windows of predetermined length, and the sequencing sequences falling into each of the first-order windows are determined.
  • the sequencing sequence contained in the obtained sequencing result can be aligned with the reference genome sequence by a conventional alignment program to determine the sequencing sequence falling into each of the first-order windows.
  • the lengths of the first level windows may be the same or different, and there may be overlap between the first level windows, as long as the information of each level one window is known, preferably each level window has the same length.
  • each of the first-order windows may have a length of 100-200 Kbp, preferably 150 Kbp.
  • the number of primary windows selected on both sides of the site is not particularly limited. According to a specific example, 100 primary windows may be taken on each side of the site.
  • the p-value of the site is determined, which can reflect a significant difference in the number of sequencing data on both sides. And if the p value of the site is less than the terminating p value, the site is judged to be a breakthrough point.
  • the range of p values can be terminated by a known sequence of samples analyzed in parallel, which is determined according to a particular embodiment of the invention, the value of p may be terminated 1.1X10- 5Q.
  • the breakthrough point determining unit 202 may further comprise a module adapted to perform the following to determine a p value: for the selected site, take the same number of first level windows on both sides of the site, and calculate The number of relative sequencing sequences per first window, where i represents the number of the primary window
  • the number of relative sequencing sequences is determined by a formula: 1
  • represents the number of sequencing sequences that fall into the first-order window
  • n the total number of primary windows.
  • the breakthrough point determining unit 202 may further comprise means adapted to perform the following run-length check on the number of relative sequencing sequences of all primary windows:
  • the corrected number of relative sequencing sequences is obtained by means adapted to perform the following steps:
  • the GC content is divided into a plurality of regions in units of predetermined values, and the average value M s of the number of relative sequencing sequences in each region is counted, where s is the number of the GC region, and according to an embodiment of the present invention, the predetermined value may be Any value in the range of 0.0005-0.01, the corresponding area size is 50k-300k, preferably 0.001, so that the power for correction is optimal;
  • the corrected relative sequencing sequence number R i is determined according to the following formula:
  • determining a test window on a reference genome based on a plurality of breakthrough points further includes means adapted to perform the following:
  • the candidate breakthrough point refers to such a breakthrough point, and there are other breakthrough points before and after the breakthrough point;
  • step 2) for the remaining candidate breakthrough points, and remove some candidate breakthrough points until the p value of the remaining candidate breakthrough points is smaller than the ending p value, and the remaining candidate breakthrough points serve as the selected candidate breakthrough points;
  • the p value of the candidate breakthrough point is determined by the following steps:
  • a region between the candidate breakthrough point and the adjacent previous breakthrough point is used as a first candidate region, and a region between the candidate breakthrough point and the adjacent next breakthrough point is used as a second candidate region;
  • Run test is performed on the number of normalized sequencing sequences of the first window included in the first candidate region and the second candidate region to determine the p value of the candidate breakthrough point.
  • terminating the p value is determined by the following steps:
  • control sample refers to Samples in which no copy number variation is present in the nucleic acid sequence
  • the termination p-value is determined. For example, the p-value of the candidate breakthrough point to be culled is used as a distribution map, and the place where the p-value change trend is the largest is selected as the final p-value (p final ).
  • the p-value may be terminated UX10- 5Q.
  • the parameter determining unit 204 may further comprise a module adapted to: determine an average standardized number of sequencing sequences of all the primary windows included in the verification window, wherein the resulting average standardized sequencing The number of sequences is "as a first parameter.
  • a predetermined threshold value is stored in the judging unit 205, whereby the judging unit 205 can compare the first parameter determined by the parameter determining unit 204 with the predetermined threshold value, thereby judging the obtained value.
  • the predetermined threshold adopts a first threshold and a second threshold by using the first parameter ⁇ " and the first threshold
  • the second threshold is compared, the smaller than the first threshold is the copy number reduction (ie, the deletion), and the second threshold is the copy number increase (ie, the repetition), thereby determining the copy number variation type.
  • 0 5 is a significant boundary 'the first threshold is -I. 645 and the second threshold is I. 645 , whereby the copy number variation type can be further effectively determined.
  • a method of determining whether copy number variation exists in a sample genome according to an embodiment of the present invention can be effectively implemented, thereby enabling effective determination of a sample Whether there are copy number variations in the genome, and is applicable to various copy number variations, including but not limited to chromosomal aneuploidy, chromosomal fragment deletion, chromosome fragment increase, microdeletion, microduplication.
  • the invention provides a computer readable medium.
  • instructions are stored on the computer readable medium, the instructions being adapted to be executed by the processor to determine whether copy number variation is present in the sample genome by: comparing the sequencing result to a reference genome sequence ⁇ / RTI> to determine the distribution of the sequencing sequence on the reference genomic sequence, wherein the sequencing result is composed of a plurality of sequencing sequences obtained by sequencing the sample genome; based on the sequencing sequence in the reference genome a distribution on the sequence, determining a plurality of breakthrough points on the reference genome sequence, wherein there is a significant difference in the number of sequencing sequences on both sides of the breakthrough point; determining a test window on the reference genome based on the plurality of breakthrough points; Determining a first parameter based on a sequencing sequence falling within the test window; and determining, based on a difference between the first parameter and a predetermined threshold, whether the copy number variation is present for the test window.
  • a method for determining whether a copy number variation exists in a sample genome can be effectively implemented, thereby being capable of effectively determining whether a copy number variation exists in a sample genome, and is applicable to various copy numbers.
  • Variations including but not limited to chromosomal aneuploidy, deletion of chromosomal fragments, increase in chromosomal fragments, microdeletions, microduplication.
  • the methods used in the examples to determine the presence or absence of copy number variation in a sample genome include the following:
  • sequencing data the whole genome of the sample is amplified and sequenced to obtain a sequencing sequence (sequencing data);
  • SOAP2 is compared with the standard human genome reference sequence in the NCBI database by SOAP2 to obtain the positional information of the sequenced sequence on the genome.
  • SOAP2 In order to avoid the interference of repeated sequences on copy number variation analysis, only the sequencing sequences uniquely aligned with the human genome reference sequence were selected for subsequent analysis.
  • W can be any integer greater than 1, such as 10K - 10M bp, preferably 50K - 1M bp, more preferably 100K - 300 bp, eg, about 150K bp), Institute
  • the resulting sequencing sequence falls within each 'representing the window number and sample number, respectively, and calculates the GC content of each window.
  • the GC from small to large is divided into regions of equal size, the statistical average value of R 5 in each region, s is the number of GC area;
  • the obtained ⁇ value ( ⁇ ) is regarded as "3 ⁇ 4 as the significant point of the breakthrough point", and the maximum candidate breakthrough point of /3 ⁇ 4 is eliminated, and this step is repeated until all ⁇ values Both are less than the ending ⁇ value of the chromosome ( ⁇ ; );
  • each candidate breakthrough point 3 ⁇ 4 has two windows on the left and right sides, and the ⁇ value ( ft) obtained by running the run test in all the two windows is regarded as " 3 ⁇ 4 as a breakthrough point "Significantness", removes the least significant candidate breakthrough point and records the ⁇ value corresponding to the breakthrough point, until the candidate breakthrough point is 0, the ⁇ value of the candidate breakthrough point to be eliminated is used as a distribution map, and the ⁇ value change trend is selected. The largest place is the ending ⁇ value ( ⁇ 1 );
  • the average value in the segment is calculated and recorded as ⁇ . If the ⁇ of the segment exceeds the threshold range, the segment is a copy number variation, wherein the threshold is determined as follows: For each Ji segment after the merge window, calculate the mean and standard deviation of the number of normalized relative sequencing sequences of all control samples in the fragment; since the ⁇ in each fragment conforms to the normal distribution, it is calculated according to the previous step. The mean and standard deviation, the threshold range of the segment at which the cumulative probability is 0.05 is calculated as a threshold for filtering whether the segment has copy number variation.
  • Example 1 Detection of fetal fragment copy number variation in an embryo single cell sample, and detection of achromatic aneuploidy variation in SJ! ⁇ -embryo single cell samples
  • Genome Amplification In this example, genomic amplification of two embryonic single-cell samples was performed using Sigma Aldrich's GenomePlex® Single Cell Whole Genome Amplification Kit.
  • the embryonic single cell sample is the outer trophoblast single cell of the fifth day blastocyst stage and is isolated from the blastocyst by laser capture microdissection. After lysis of the two single embryo cells, the whole genome amplification was performed according to the kit instructions provided by the manufacturer.
  • Sequencing In this example, Ilgifia's Hiseq2000 sequencing platform was used to sequence the DNA obtained from the above two embryonic single-cell whole genome amplifications, and the library was constructed and sequenced according to the instructions provided by Illumina. Each sample was given a data volume of approximately 0.36 G, and each sample was distinguished according to the tag sequence. Using the alignment software SOAP2, the sequenced sequencing sequence was aligned with the human genome reference sequence of version 36 (hgl 8; NCBIBuild36) in the NCBI database, and the sequencing sequence was mapped on the human genome reference sequence.
  • the human genome reference sequence is divided into a plurality of windows of 150K bp in length, and the number of sequencing sequences falling on each window in the sequence obtained in the previous step 2) is counted, wherein the subscripts/and respectively represent the window number and Sample number, and calculate the GC content of each window GC. . , Calculate the relative sequencing sequence according to the formula in the general method.
  • Table 2 shows a list of detection results of copy number variation after amplification of each embryo single cell sample by WGA whole genome in this example. Table 2. List of WGA copy number variation test results for each embryo single cell sample of Example 1
  • Example 1 was repeated using the same embryo as Example 1, except that the DNA was directly subjected to sequencing (without WGA) after DNA extraction.
  • the comparison of the results of Example 1 and Example 2 is shown in Table 3, Figure 4 and Figure 5.
  • Figure 4 and Figure 5 show that the samples are consistent with the results of WGA and copy number variation without WGA sequencing data.
  • Table 3 "missing" or "repetition” difference in the starting termination position (the boundary where the copy number variation occurs), since the boundary of the copy number variation is difficult to determine accurately, generally, for a first window of about 150K, it can be determined
  • the difference between the two is 100-300Kb, which is consistent in the range of 300Kb-lMb.
  • Table 3 shows that the difference of the copy number variation boundary determined by the two methods is within 100-300Kb or 300Kb-1Mb. The boundaries of the determined copy number variation are consistent.
  • the methods, systems, and computer readable media of the present invention for determining the presence or absence of copy number variation in a sample genome can be effectively used to determine the presence or absence of copy number variation in a sample genome.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Organic Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

提供了确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读介质。其中,确定样本基因组中是否存在拷贝数变异的方法,包括步骤:对所述样本基因组进行测序,以便获得由多个测序序列构成的测序结果;将所述测序结果与参照基因组序列进行比对,以便确定所述测序序列在所述参照基因组序列上的分布;基于所述测序序列在参照基因组序列上的分布,在所述参照基因组序列上确定多个突破点,所述突破点两侧的测序序列数目存在显著差异;基于所述多个突破点,在所述参照基因组上确定检验窗口;基于落入所述检验窗口的测序序列,确定第一参数;以及基于所述第一参数与预定阈值的差异,确定所述样本基因组,针对所述检验窗口是否存在拷贝数变异。

Description

确定样本基因组中是否存在拷贝数变异的方法、 系统和计算机可读介质 优先权信息
技术领域
本发明涉及确定样本基因组中是否存在拷贝数变异的方法和适于执行该方法的系统和计算机可读 介质。
背景技术
在科学研究及应用领域, 时常遇到需要对单个细胞或几个细胞, 或微量核酸样本进行分析的问 题, 比如 ^辅助生殖技术领域的植入前诊断(PGD)和植入前筛查(PGS) , 涉及对单个生殖细胞或单 个卵裂球细胞或胚胎细胞进行分析; 无创产前诊断技术领域, 涉及通过母体外周血中微量的胎儿细 胞进行检测的问题; 在宏基因组学中, 对环境中单个或微量的生物细胞进行分析; 以及在疾病或生 理研究中, 涉及对组织或体液中 ^个细胞进行分析。
然而, 目前确定拷贝数变异的方法仍有待改进。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
根据本发明的一个方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的方法。 根据本 发明的实施例, 该方法包括以下步骤: 对所述样本基因组进行测序, 以便获得由多个测序序列构成的测 序结果; 将所述测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上 的分布; 基于所述测序序列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所 述突破点两侧的测序序列数目存在显著差异; 基于所述多个突破点,在所述参照基因组上确定检验窗口; 基于落入所述检验窗口的测序序列, 确定第一参数; 以及基于所述第一参数与预定阈值的差异, 确定所 述样本基因组, 针对所述检验窗口是否存在拷贝数变异。 利用根据本发明实施例的确定样本基因组中是 否存在拷贝数变异的方法, 能够有效地确定样本基因组中是否存在拷贝数变异, 并且适用于各种拷贝数 变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
根据本发明的第二方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的系统。 根据本 发明的实施例, 该系统包括: 测序装置, 所述测序装置用于对对所述样本基因组进行测序, 以便获得由 多个测序序列构成的测序结果; 分析装置, 所述分析装置与所述测序装置相连, 以便基于所述测序结果 确定所述基因组中是否存在拷贝数变异, 所述分析装置进一步包括: 比对单元, 所述比对单元适于将所 述测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布; 突破 点确定单元, 所述突破点确定单元与所述比对单元相连, 并且适于基于所述测序序列在参照基因组序列 上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列数目存在显著差异; 检验窗口确定单元,所述检验窗口确定单元与所述突破点确定单元相连,并且适于基于所述多个突破点, 在所述参照基因组上确定检验窗口; 参数确定单元, 所述参数确定单元与所述检验窗口确定单元相连, 并且适于基于落入所述检验窗口的测序序列, 确定第一参数; 以及判断单元, 所述判断单元与所述参数 确定单元相连, 并且适于基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所述检验窗 口是否存在拷贝数变异。 利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的系统, 能够 有效地实施根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样 本基因组中是否存在拷贝数变异, 并且适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体 片段缺失、 染色体片段增加、 微缺失、 微重复。
根据本发明的第三方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 该计算机可读 介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变 异: 将测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布, 其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的; 基于所述测序序 列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列 数目存在显著差异; 基于所述多个突破点, 在所述参照基因组上确定检验窗口; 基于落入所述检验窗口 的测序序列, 确定第一参数; 以及基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所 述检验窗口是否存在拷贝数变异。 借助该计算机可读介质, 能够有效地实施根据本发明实施例的确定样 本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样本基因组中是否存在拷贝数变异, 并且 适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
本发明的附加方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变得明显, 或通 过本发明的实践了解到。
附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理 解, 其中:
图 1 显示了根据本发明一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意 图;
图 2显示了根据本发明一个实施例的确定样本基因组中是否存在拷贝数变异的系统的结构示意图; 图 3 显示了根据本发明又一个实施例的确定样本基因组中是否存在拷贝数变异的方法的流程示意 图;
图 4显示了根据本发明的实施例, 样品 S1的染色体数字核型图。 左图为胚胎单细胞经全基因 组扩增后用本发明进行拷贝数变异检测的结果, 右图为相同的胚胎提取 DNA 后直接测序(未经 WGA)的结果; 以及
图 5显示了根据本发明的实施例, 样品 S2染色体数字核型图。 左图为胚胎单细胞经全基因组 扩增后用本发明进行拷贝数变异检测的结果,右图为相同的胚胎提取 DNA后直接测序(未经 WGA) 的结果。
发明详细描述
下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终相同或类似的 标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例 性的, 仅用于解释本发明, 而不能理解为对本发明的限制。
需要说明的是, 术语 "第一" 、 "第二" 仅用于描述目的, 而不能理解为指示或暗示相对重要 性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一'' 、 "第二'' 的特征可以明示或者 隐含地包括一个或者更多个该特征。 进一步地, 在本发明的描述中, 除非另有说明, "多个'' 的含 义是两个或两个以上。 如果没有明确说明, 在本文的公式或标识中, 相同的字母代表相同的含义。
一、 确定样本基因组中是否存在拷贝数变异的方法
根据本发明的一个方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的方法。 在本发 明中所使用的术语 "拷贝数变异(copy number variation, CNV )" 的含义是染色体或染色体片段拷贝数 的异常, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
参考图 1 , 根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法包括:
S100: 对样本基因组进行测序, 以便获得由多个测序序列构成的测序结果
根据本发明的实施例, 本发明的方法可以采用的样本基因组的类型并不受特别限制, 既可以是全基 因组, 也可以是基因组的一部分, 例如可以是染色体或其片段。 另外, 根据本发明的实施例, 在对样本 基因组进行测序之前, 进一步包括从生物样本中提取样本基因组的步骤。 由此, 能够直接以生物样本作 为原材料, 获得关于该生物样本是否具有拷贝数变异的信息, 从而反映生物体的健康状态。 根据本发明 的实施例, 可以采用的生物样本并不受特别限制。 根据本发明的一些具体示例, 可以采用的生物样本为 选自血液、 尿液、 唾液、 组织、 生殖细胞、 受精卵、 卵裂球和胚胎的任意一种。 本领域技术人员能够理 解的是, 针对不同的疾病, 可以采用不同的生物样本来进行分析。 由此, 可以方便地从生物体获取这些 样本, 并且能够具体地针对某些疾病采取不同的样本, 从而针对某些特殊疾病采取特定的分析手段。 例 如, 对于可能罹患特定癌症的测试对象, 可以从该组织或其附近采集样本, 并进一步分离细胞进行分析, 由此, 能够精确并且尽可能早地获知该组织是否发生癌变。 根据本发明的具体实施例, 可以采用单细胞 作为生物样本。 根据本发明的实施例, 从生物样本分离单细胞的方法和设备不受特别限制。 根据本发明 的一些具体示例, 可以采用选自稀释法、 口吸管分离法、 显微操作 (优选显微切割)、 流式细胞分离术、 微流控法的至少一种从生物样本分离单细胞。 由此, 能够有效便捷地获得生物样本的单细胞, 以便实施 后续操作, 由此, 可以进一步提高确定样本基因组中是否存在拷贝数变异的效率。
另外, 根据本发明的实施例, 对样本基因组进行测序的方法不受特别限制。 根据本发明的一个实施 例, 对样本基因组进行测序进一步包括: 首先, 对样本基因组进行扩增得到经过扩增的基因组; 接下来, 利用经过扩增的样本基因组构建测序文库; 最后, 对所得到的测序文库进行测序, 以便获得由多个测序 序列构成的测序结果。 由此, 能够有效地获取样本基因组的测序结果的全基因组信息, 并且能够对单细 胞基因组或者微量核酸样本进行有效测序, 从而进一步提高了确定样本基因组中是否存在拷贝数变异的 效率。 本领域技术人员可以根据采用的基因组测序技术的具体方案选择不同的构建测序文库的方法, 关 于构建基因组测序文库的细节, 可以参见测序仪器的厂商例如 Illumina公司所提供的规程, 例如参见 Illumina公司 Multiplexing Sample Preparation Guide ( Part#1005361; Feb 2010 )或 Paired-End SamplePrep Guide ( Part# 1005063; Feb 2010 ), 通过参照将其并入本文。
任选地, 对于以单细胞作为生物样本提取基因组, 根据本发明的实施例, 可以进一步包括对单细胞 进行裂解, 以便释放所述单细胞的全基因组的步骤。 根据本发明的一些示例, 可以用于裂解单细胞并释 放全基因组的方法不受特别限制, 只要能够将单细胞裂解优选充分裂解即可。 根据本发明的具体示例, 可以利用碱性裂解液将所述单细胞裂解并释放所述单细胞的全基因组。 发明人发现, 这样能够有效地裂 解单细胞并释放出全基因组, 并且所释放的全基因组在进行测序时, 能够提高准确率, 从而进一步提高 了确定样本基因组中是否存在拷贝数变异的效率。 根据本发明的实施例, 单细胞全基因组扩增的方法不 受特别限制, 可以采用基于 PCR的方法例如可以采用 PEP-PCR、 DOP-PCR、 和 OmniPlex WGA, 也可 以采用非基于 PCR的方法例如 MDA (多重链置换扩增)。 根据本发明的具体示例, 优选采用基于 PCR的 方法, 例如 OmniPlex WGA方法。 可选用的商业化试剂盒包括但不限于 Sigma Aldrich的 GenomePlex , Rubicon Genomics的 PicoPlex, Qiagen的 REPLI-g, GE Healthcare的 illustra GenomiPhi等。 根据本发明 的具体示例, 在构建测序文库之前, 可以采用 OmniPlex WGA对单细胞全基因组进行扩增。 由此, 能够 有效地对全基因组进行扩增, 从而进一步提高了确定样本基因组中是否存在拷贝数变异的效率。 根据本 发明的实施例, 可以采用选自第二代测序技术如 Illumina公司的 Hiseq 系统, Miseq 系统, Genome Analyzer(GA)系统, Roche公司的 454 FLX, Applied Biosystems公司的 SOLiD系统, Life Technologies 公司的 Ion Torrent系统等的至少一种对所述全基因组测序文库进行测序。 由此, 能够利用这些测序装置 的高通量、 深度测序的特点, 进一步提高了确定单细胞染色体非整倍性的效率。 当然, 本领域技术人员 能够理解的是, 还可以采用其他的测序方法和装置进行全基因组测序, 例如第三代测序技术即单分子测 序技术如 Helicos Biosciences公司的 HeliScope系统, PacBio公司的 RS系统等的任一种, 以及以后可能 开发出来的更先进的测序技术。 根据本发明的实施例, 通过全基因组测序所得到的测序数据的长度不受 特别限制。 根据本发明的一个具体示例, 所述多个测序数据的平均长度为约 50bp。 申请人惊奇地发现, 当测序数据的平均长度为约 50bp时, 能够极大地方便对测序数据进行分析, 提高分析效率, 同时能够显 著降低分析的成本。 进一步提高了确定单细胞染色体非整倍性的效率, 并且降低了确定单细胞染色体非 整倍性的成本。 这里所使用的术语 "平均长度" 是指各个测序数据长度数值的平均值。
S200: 将测序结果与参照基因组序列进行比对, 以便确定测序序列在参照基因组序列上的分布 在完成对样本基因组进行测序之后, 所得到的测序结果中包含了多个测序序列。 将所得到的测序结 果与参照基因组序列进行比对, 从而可以确定所得到的测序序列在参照基因组序列上的定位。 根据本发 明的实施例, 可以采用任何已知的方法对这些测序数据的总数目进行计算。 例如, 可以采用测序仪器的 制造商所提供的软件进行分析。 优选采用短寡核苷酸分析包(Short Oligonucleotide Analysis Package , SOAP )和 BWA比对(Burrows-Wheeler Aligner )进行, 将测序序列与参考基因组序列比对, 得到测序 序列在参考基因组上的位置。 进行序列比对可以使用程序提供的默认参数进行, 或者由本领域技术人员 根据需要对参数进行选择。 在本发明的一个实施方案中, 所采用的比对软件是 SOAPaligner/soap2。
根据本发明的实施例, 参照基因组序列是 NCBI数据库中的标准人类基因组参考序列 (例如可以为 hgl8, NCBI Build 36 )。 也可以是已知基因组序列的一部分, 例如可以为选自人类 21号染色体、 18号染 色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。
根据本发明的实施例, 通过将测序结果与参照基因组序列进行比对, 可以选择与参照基因组序列唯 一比对的序列, 进行后续分析, 由此, 能够避免重复序列对拷贝数变异分析的干扰, 进一步提高确定样 本基因组中是否存在拷贝数变异的效率。
S300: 基于测序序列在参照基因组序列上的分布, 在参照基因组序列上确定多个突破点 在本文中所使用的术语 "突破点" 指的是基因组上这样一种位点, 在该位点两侧相同的区段之间测 序序列数目存在显著差异。 因为测序序列 (reads )是来源于样本基因组的, 因而当样本基因组中特定区 域出现拷贝数变异时, 与该区域对应的测序序列的数目也会有显著变牝。 由此, 在确定多个突破点后, 可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。
根据本发明的实施例, 在参照基因组上确定突破点可以进一步包括:
首先, 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列。 根据本发明的具体实例, 可以通过常规的比对程序, 将所得到的测序结果中所包含的测序序列与参照基 因组序列进行比对, 从而确定落入各一级窗口中的测序序列。 例如可以在前面描述的 S200步骤中完成。 根据本发明的具体实例, 落入各一级窗口中的测序序列为唯一比对测序序列。 由此, 能够避免重复序列 对拷贝数变异分析的干扰, 进一步提高确定样本基因组中是否存在拷贝数变异的效率。
接下来, 针对参考基因组序列上的至少一个位点, 确定落入位点两侧相同数目一级窗口中的测序序 列数目。 根据本发明的实施例, 可以对参考基因组序列上的所有位点进行相关夯析, 也可以对感兴趣的 染色体, 例如人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种上的所有 位点进行该分析。 根据本发明的实施例, 各一级窗口的长度可以相同或者不同, 并且一级窗口之间可以 有重叠, 只要各个一级窗口的信息是已知的即可, 优选各一级窗口具有相同的长度。 根据本发明的实施 例, 各一级窗口的长度可以均为 100-200Kbp, 优选 150Kbp。 根据本发明的实施例, 在位点两侧选择的 一级窗口的数目并不受特别限制, 根据具体实例, 可以在位点两侧各取 100个一级窗口。
接下来, 可以通过统计分析, 确定所研究位点两侧测序序列数据分布的 p值, 该 p值可以反映两侧 测序数据数目的显著差异性。 如果所述位点的 p值小于终止 p值, 判断该位点为突破点。 根据本发明的 实施例, 终止 p值的范围可以是通过对已知序列的样本进行平行分析而确定的, 根据本发明的一个具体 实例, 终止 p值为 1.1X10-50
根据本发明的一个实施例, 确定位点两侧测序数据数目的显著差异性 p值进一步包括:
针对选定的位点, 在该位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 Ri, 其中 i表示一级窗口的编号,
对所有一级窗口的相对测序序列数目 ¾进行游程检验, 以便确定该位点的 p值,
其中, .
述相对测序序列数目是通过下列公式确定的:
Figure imgf000005_0001
其中 η表示落入第 i一级窗口的测序序列数目, ri , n表示一级窗口的总数目。
Figure imgf000005_0002
具体地, 对所有一级窗口的相对测序序列数目进行游程检验进一奇包括: 对每个一级窗口的相对测序序 列数目 Ri进行 GC含量校正, 以便获得校正的相对测序序列数目 "^; 基于校正的相对测序序列数目, 确 定每个一级窗口的标准化的测序序列数目 ; 以及对所有一级窗口的标准化的测序序列数目 ¾进行游程 检验。 更具体地, 所述校正的相对测序序列数目^'是通过下列步骤获得的:
首先, 计算每个一级窗口的 GC含量; 接下来, 将 GC含量以预定数值为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的 平均值 Ms, 其中 s为 GC区域的编号,根据本发明的实施例, 预定数值可以为在 0.0005-0.01范围内的任 意数值, 对应的区域大小为 50k-300k, 优选采用 0.001, 由此进杆矫正的力度 (power)最佳;
接下来, 根据下列公式确定所述校正的相对测序序列数目
Figure imgf000006_0001
R = R —M - 最后, 通过下列公式确定标准化的测序序列数目
Z, = ( - Rt - mean )/SD
其中,
Figure imgf000006_0002
SD = —— Y (R - R; - mean )'
V » o
由此, 可以通过 GC含量对测序序列数目进行校验。 由此, 可以消除基因组扩增的偏好所造成的干 扰, 从而进一步提高确定样本基因组中是否存在拷贝数变异的精确性和效率。
在确定多个突破点后, 可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。 因而可以将 这些区段作为检验窗口,用于进一步判断是否存在拷贝数变异。对于初步判断得到的突破点较多的情形, 可以对突破点进一步进行筛选。 由此, 根据本发明的实施例, 基于多个突破点, 在参照基因组上确定检 验窗口进一步包括:
1 )确定多个候选突破点, 候选突破点是指这样一种突破点, 在该突破点的前后均存在其他突破点;
2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 在剔除一部分候选突破点, 直到剩余候选突破点的 p值均小 于终止 p值, 剩余候选突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口。
根据本发明的实施例, 可以通过下列步骤确定候选突破点的 p值: .
将候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的下 一个突破点之间的区域作为第二候选区域;
对第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验 (游程 检验是一种非参数检验, 利用两个群体元素混合后的分布均匀状态评价此两个群体的差异显著性, 关于 该检验的细节, 可以参见 Wald A. WJ. On a Test Whether Two Samples are from the Same Population. The Annals of Mathematical Statistics 1940; 11 :147-162, 通过参照将其并入本文), 以便确定所述候选突破点的 p值。
根据本发明的实施例, 终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零, 这里所使用的术语对照样品指的是已知核 列中不存在拷贝 数变异的样品; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值, 例如将被剔除的候选突破点的/?值做分布 图, 选取 p值变化趋势最大的地方作为终止 p值( p , ) 。
根据本发明的具体示例, 终止 p值可以为 1.1X10_5Q
S400: 基于落入检验窗口的测序序列, 确定第一参数
替换页(细则 26 ) 在确定检验窗口后, 可以通过对检验窗口中所包含的测序序列进行统计分析, 从而确定该检验窗口 是否存在拷贝数变异。 根据本发明的一个实施例, 基于落入所述检验窗口的测序序列, 确定第一参数进 一步包括: 确定检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 该平均标准化的测 序序列数目 ^ "作为第一参数。 关于标准化的测序序列数目, 前面已经进行了详细描述, 此处不再贅述。
S500: 基于第一参数与预定阔值的差异, 确定样本基因组针对该检验窗口是否存在拷贝数变异 根据本发明的实施例, 可以通过将前面所确定的第一参数与预定阈值进行比较, 基于第一参数和预 定阈值之间的差异, 来确定关于特定的检验窗口, 基因组样本是否具有拷贝数变异。 基于基因组测序的 测序结果中, 针对某一特定窗口的测序序列的数目, 是与全基因组中该窗口在染色体或基因组中的含量 呈正相关的, 因而, 通过对测序结果中来源于某一特定窗口的测序序列进行统计分析, 能够有效地确定 关于该窗口, 样本基因组是否具有拷贝数变异。 在本文中所使用的术语 "预定阈值" 是指将已知基因组 正常的样本基因组重复针对上述实施的操作和分析所得到的关于特定窗口的相关数据。 本领域技术人员 能够理解的是, 可以采用相同的测序条件和数学运算方法, 分别获得特定窗口的相关参数, 以及正常细 胞的相关参数。 这里, 可以将正常细胞的相关参数作为预定阈值。 另外, 本文中所使用的术语 "预定", 应做广义理解, 可以是预先通过实验确定的, 也可以是在进行生物样本分析时, 采用平行实验获得的。 这里所使用的术语 "平行实验" 应作广义理解, 既可以指的是同时进行未知样品和已知样品的测序和分 析, 也可以是先后进行在相同条件下的测序和分析。 根据本发明的实施例, 所述预定阈值采用第一阈值 和第二阈值, 通过将第一参数^"与第一阈值和第二阈值相比较, 小于第一阈值为拷贝数减少 (即缺失), 大于第二阈值为拷贝数增加(即重复), 由此可以确定拷贝数变异类型。 根据本发明的具体示例, 设定 α
= 0 5为显著界线, 第一阈值为 -I.645 , 第二阈值为 I.645 , 由此, 可以进一步有效地确定拷贝数变异类 型。
利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 能够有效地确定样本基因 组中是否存在拷贝数变异, 并且适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺 失、 染色体片段增加、 微缺失、 微重复。 拷贝数变异是引起出生缺陷的主要因素, 在体外培养的胚胎中 也非常常见, 是引起体外生殖失败的主要原因。 拷贝数变异也是很多疾病如癌症的致病因素。 全基因组 扩增是对单个细胞、 几个细胞或微量核酸样本进行全基因组范围扩增的技术, 可以在尽量保持全基因组 代表性前提下使样本量增加, 达到所需的样本量。 但是, 通常而言, 全基因组扩增都存在扩增偏向性的 问题,有可能给后续分析带来误差。根据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 在对单细胞或微量核酸样本经全基因组扩增后, 通过测序技术获得数据, 进行拷贝数变异的分析, 一方 面通过全基因组扩增解决了单细胞或微量核酸样本分析难的问题, 另一方面避免了全基因组扩增对拷贝 数变异分析产生的偏差, 使检测更准确更全面, 尤其是通过 GC含量校正, 能够更进一步提高检测效率。 另外, 根据本发明的实施例, 在不同样品的文库构建过程中引入不同的标签, 由此可以同时对多种样品 进行检验, 进一步提高确定样本基因组中是否存在拷贝数变异的效率。 利用根据本发明实施例的确定样 本基因组中是否存在拷贝数变异的方法, 能够进行胚胎植入前拷贝数变异筛查和诊断或无创胎儿拷贝数 变异筛查, 有利于提供遗传咨询和临床决策依据; 进行产前诊断可有效防止病变胚胎植入, 防止患儿出 生。 二、 确定样本基因组中是否存在拷贝数变异的系统
根据本发明的第二方面, 本发明提出了一种确定样本基因组中是否存在拷贝数变异的系统, 利用该 系统能够有效的实施前述确定样本基因组中是否存在拷贝数变异的方法, 从而可以有效的确定样本基因 组中是否存在拷贝数变异。
参考图 2, 根据本发明的实施例, 确定样本基因组中是否存在拷贝数变异的系统 1000包括: 测序装 置 100和分析装置 200。
根据本发明的实施例, 测序装置 100用于对对样本基因组进行测序, 以便获得由多个测序序列构成 的测序结果。根据本发明的实施例,确定样本基因组中是否存在拷贝数变异的系统 1000可以进一步包括 基因组提取装置(图中未示出), 该基因组提取装置适于从生物样本中提取样本基因组, 并且该基因组提 取装置与测序装置相连以便为测序装置 100提供样本基因组。 由此, 能够直接以生物样本作为原材料, 获得关于该生物样本是否具有拷贝数变异的信息, 从而反映生物体的健康状态。 根据本发明的实施例, 测序装置可以进一步包括: 基因组扩增单元、 测序文库构建单元以及测序单元。 其中, 基因组扩增单元 适于对所述样本基因组进行扩增, 测序文库构建单元与基因组扩增单元相连, 并且适于利用经过扩增的 样本基因组构建测序文库; 以及测序单元, 测序单元与所述测序文库构建单元相连, 并且适于对所述测 序文库进行测序。 根据本发明的实施例, 测序单元为选自第二代测序技术如 Illumina公司的 Hiseq系统, Miseq系统, Genome Analyzer(GA)系统, Roche公司的 454 FLX, Applied Biosystems公司的 SOLiD系统, Life Technologies公司的 Ion Torrent系统和单分子测序装置的至少一种。 由此, 能够利用这些测序装置的 高通量、 深度测序的特点, 进一步提高了确定单细胞染色体非整倍性的效率。
根据本发明的实施例, 分析装置 200与测序装置 100相连, 以便基于测序结果确定基因组中是否存 在拷贝数变异。 根据本发明的实施例, 分析装置 200进一步包括: 比对单元 201、 突破点确定单元 202、 检验窗口确定单元 203、 参数确定单元 204以及判断单元 205。 其中, 比对单元 201适于将测序结果与参 照基因组序列进行比对, 以便确定测序序列在参照基因组序列上的分布。 根据本发明的实施例, 比对单 元 201 内存储有参照基因组序列为已知的人类基因组序列, 任选地, 该参照基因组序列为选自人类 21 号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。 突破点确定单元 202 与比对单元 201相连, 并且适于基于测序序列在参照基因组序列上的分布, 在参照基因组序列上确定多 个突破点, 如前所述, 突破点两侧的测序序列数目存在显著差异。 检验窗口确定单元 203与突破点确定 单元 202相连, 并且适于基于这些突破点, 在参照基因组上确定检验窗口。 参数确定单元 204与检验窗 口确定单元 203相连, 并且适于基于落入检验窗口的测序序列, 确定第一参数判断单元 205与参数确定 单元 204相连, 并且适于基于所得到的第一参数与预定阈值的差异, 确定样本基因组针对所确定的检验 窗口是否存在拷贝数变异。
根据本发明的实施例, 突破点确定单元 202可以进一步包括适于执行下列以确定突破点的模块: 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 首先, 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列。 根据本发明的具体实例, 可以通过常规的比对程序, 将所得到的测序结果中所包含的测序序列与参照基 因组序列进行比对, 从而确定落入各一级窗口中的测序序列。 根据本发明的实施例, 各一级窗口的长度 可以相同或者不同, 并且一级窗口之间可以有重叠, 只要各个一级窗口的信息是已知的即可, 优选各一 级窗口具有相同的长度。 根据本发明的实施例, 各一级窗口的长度可以均为 100-200Kbp, 优选 150Kbp。 根据本发明的实施例, 在位点两侧选择的一级窗口的数目并不受特别限制, 根据具体实例, 可以在位点 两侧各取 100个一级窗口。
接下来, 确定所述位点的 p值, 该 p值可以反映两侧测序数据数目的显著差异性。 以及如果所述位 点的 p值小于终止 p值, 判断该位点为突破点。 根据本发明的实施例, 终止 p值的范围可以是通过对已 知序列的样本进行平行分析而确定的, 根据本发明的一个具体实例, 终止 p值可以为 1.1X10—5Q
根据本发明的实施例, 突破点确定单元 202可以进一步包括适于执行下列以确定 p值的模块: 针对选定的位点, 在该位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 , 其中 i表示一级窗口的编号
对所有一级窗口的相对测序序列数目 进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过公式确定的:
Figure imgf000009_0001
1
其中 η表示落入第 i一级窗口的测序序列数目,
, n表示一级窗口的总数目 根据本发明的实施例, 突破点确定单元 202可以进一步包括适于执行下列以对所有一级窗口的相对 测序序列数目进行游程检验的模块:
对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正, 以便获得校正的相对测序序列数目 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ¾; 以及 对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。 其中, 根据本发明的实施例, 校正的相 对测序序列数目 是通过适于执行下列步骤的模块获得的:
计算每个一级窗口的 GC含量;
将 GC含量以预定数值为单位划分为多个区域,并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号, 根据本发明的实施例, 预定数值可以为在 0.0005-0.01范围内的任意数值, 对 应的区域大小为 50k-300k, 优选采用 0.001, 由此进行矫正的力度 (power)最佳;
根据公式下列公式确定所述校正的相对测序序列数目 Ri :
= - MS ;
所述标准化的测序序列数目 ¾是通过下列公式确定的
Z, = ( - R, - mean )/SD
其中,
1 " - mean =—∑ R - - R,
;? /=1 '
SD = —— Y (R, - mean )'
在确定多个突破点后, 可以初步判断两个相邻突破点之间的区段可能存在拷贝数变异。 因而可以将 这些区段作为检验窗口,用于进一步判断是否存在拷贝数变异。对于初步判断得到的突破点较多的情形, 可以对突破点进一步进行筛选。 由此, 根据本发明的实施例, 基于多个突破点, 在参照基因组上确定检 验窗口进一步包括适于执行下列的模块:
1 )确定多个候选突破点, 候选突破点是指这样一种突破点, 在该突破点的前后均存在其他突破点;
2.)确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 在剔除一部分候选突破点, 直到剩余候选突破点的 p值均小 于终止 p值, 剩余候选突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口。 其中, 根据本发明的实施例, 通过下列步骤确定所述候选突破点的 p值:
将候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的下 一个突破点之间的区域作为第二候选区域;
对第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便 确定所述候选突破点的 p值。
根据本发明的实施例, 终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零, 这里所使用的术语对照样品指的是已知核酸序列中不存在拷贝 数变异的样品; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值, 例如将被剔除的候选突破点的 p值做分布 图, 选取 p值变化趋势最大的地方作为终止 p值( p final ) 。
根据本发明的具体示例, 终止 p值可以为 UX10—5Q。 根据本发明的实施例, 参数确定单元 204可以 进一步包括适于执行下列的模块: 确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列 数目 其中, 所得到的平均标准化的测序序列数目 ^"作为第一参数。 进一步, 在判断单元 205中存储 有预定阙值, 由此, 判断单元 205可以参数确定单元 204所确定的第一参数与该预定阈值进行比较, 从 而判断所得到的检验窗口是否具有拷贝数变异, 其中, 根据本发明的实施例, 根据本发明的实施例, 所 述预定阈值采用第一阈值和第二阈值, 通过将第一参数^"与第一阈值和第二阈值相比较, 小于第一阈值 为拷贝数减少 (即缺失), 大于第二阈值为拷贝数增加(即重复), 由此可以确定拷贝数变异类型。 根据 本发明的具体示例, 设定 α = 0 5为显著界线' 第一阈值为 -I.645, 第二阈值为 I.645, 由此' 可以进一 步有效地确定拷贝数变异类型。
由此, 利用根据本发明实施例的确定样本基因组中是否存在拷贝数变异的系统, 能够有效地实施根 据本发明实施例的确定样本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样本基因组中是 否存在拷贝数变异, 并且适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染 色体片段增加、 微缺失、 微重复。
需要说明的是, 本领域技术人员能够理解, 在前面所描述的确定样本基因组中是否存在拷贝数变异 的方法的特征和优点也适合于确定样本基因组中是否存在拷贝数变异的系统, 为描述方便, 不再详述。
计算机可读介质
根据本发明的第三方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 该计算机可读 介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变 异: 将测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布, 其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的; 基于所述测序序 列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列 数目存在显著差异; 基于所述多个突破点, 在所述参照基因组上确定检验窗口; 基于落入所述检验窗口 的测序序列, 确定第一参数; 以及基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所 述检验窗口是否存在拷贝数变异。 借助该计算机可读介质, 能够有效地实施根据本发明实施例的确定样 本基因组中是否存在拷贝数变异的方法, 从而能够有效地确定样本基因组中是否存在拷贝数变异, 并且 适用于各种拷贝数变异, 包括但不限于染色体非整倍性、 染色体片段缺失、 染色体片段增加、 微缺失、 微重复。
需要说明的是, 本领域技术人员能够理解, 在前面所描述的确定样本基因组中是否存在拷贝数变异 的方法的特征和优点也适合于该计算机可读介质, 为描述方便, 不再详述。 下面将结合实施例对本发明的方案进行解释。 本领域技术人员将会理解, 下面的实施例仅用于说明 本发明, 而不应视为限定本发明的范围。 实施例中未注明具体技术或条件的, 按照本领域内的文献所描 述的技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂等译的《分子克隆实验指南》, 第三版, 科学出版 社)或者按照产品说明书进行。 所用试剂或仪器未注明生产厂商者, 均为可以通过市购获得的常规产品, 例如可以采购自 Illumina公司。
一般方法
参考图 3, 在实施例中采用的确定样本基因组中是否存在拷贝数变异的方法包括下列:
首先, 对样品的全基因组进行扩增, 并进行测序得到测序序列 (测序数据);
接下来,通过 SOAP2将所得到的测序序列与 NCBI数据库中的标准人类基因组参考序列进行 SOAP2 比对, 得到所测序序列在基因组上的位置信息。 为避免重复序列对拷贝数变异分析的干扰, 只选取与人 类基因组参考序列唯一比对的测序序列 (reads), 进行后续分析。
接下来, 寻找测试样本基因组上两侧测序序列数目在统计上有显著差异的位点, 其包括下列步骤: a)计算测试样本(可以同时对多个样本进行分析)的相对测序序列数:
在人类基因组参考序列上开长度为 W的窗口 ( W可以是大于 1的任意整数, 例如 10K - 10M bp, 优选 50K - 1M bp, 更优选为 100K - 300 bp, 例如约 150K bp) , 统计所得到的测序序列中落在每 个 '分别代表窗口编号和样本编号, 并计算每个窗口的 GC含量
GC ,
Figure imgf000011_0001
b)数据校正与标准化:
在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中, 将 GC从小到大划分为大小相等的 区域, 统计每个区域中 R的平均值 5 , s为 GC区域的编号;
对样品中的每个窗口, 计算校正的相对测序序列数 i,j = Ri,j -Ms , 窗口 的 GC含量在第 s GC 区域内;
对于样品中每个窗口, 计算标准化的相对测序序列数 Z;
, = (Ri , -Ri , -meani )/SDi , 其中 . =丄 £ .-R. .),
Figure imgf000011_0002
c)确定并筛选突破点
确定突破点: 针对参考基因组序列上每个点, 取其左右两侧各 n个窗口 (例如 100个窗口)作为两 个群体进行统计检验, 每个点会计算得到一个代表该点两侧差异的 p值, 留下 p值最小的 m个点(例如 3000个)作为突破点 ( Breakpoint )
筛选突破点: 将所有排过序的突破点记为 β ={bx,b1,...,b } , 每个突破点都存在左右两个片段, 所 述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域, 将这两个片段中所有 Ζ..进行统计检验(例如进行游程检验, 一种非参数检验, 利用两个群体元素混合后的分布均匀状态评 两个群体的差异显著性)所得的 ρ值( Α), 视作" ¾作为突破点的显著性", 将/¾最大的候选突破点 剔除, 反复此步骤, 直到所有 ρ值都小于该染色体的终止 ρ值( ρ ; );
终止 ρ值的获得: 在测试过程中, 将以对照样本作为测试样本 '行上述步骤确定若干突破点步骤, 将全基因组上所有排过序的候选突破点记为 β ={bx,b1,...,b } , 每个候选突破点¾都存在左右面两个窗 口, 将这两个窗口中所有 Ζ..进行游程检验所得的 ρ值( ft) , 视作" ¾作为突破点的显著性", 将最不显 著的候选突破点剔除并记 亥突破点对应的 Ρ值, 直到候选突破点数为 0, 将被剔除的候选突破点的 ρ 值做分布图, 选取 ρ值变化趋势最大的地方作为终止 ρ值( ρ 1 ) ;
确定检验窗口 , 并验证检 窗口: 在获得经过 ϋ选的突破, Κ后」确定检验窗口。 为了进一步对检验 窗口进行判断, 计算该片段中 的平均值, 记为 ζ, 如果片段的 ζ超出阈值范围, 则该片段为拷贝数 变异, 其中阈值的确定具体如下: 对合并窗口后每个 Ji段, 计算所有对照样品在该片段中的标准化相对测序序列数 ^的平均值和标 准差; 因为每个片段中 ζ符合正态分布, 所以根据前面步骤中计算得到的平均值和标准差, 计算累积概 率在 0.05时该片段的阈值范围, 作为过滤该片段是否存在拷贝数变异的阈值。
实施例 1对一例胚胎单细胞样品进行胎儿片段拷贝数变异检测,以 SJ!†—例胚胎单细胞样品进行染 色体非整倍性变异检测
1、 全基因组扩增: 本实施例采用 Sigma Aldrich公司的 GenomePlex® Single Cell Whole Genome Amplification Kit对两例胚胎单细胞样本进行全基因组扩增。所述胚胎单细胞样本为第五天囊胚期的外滋 养层单细胞, 通过激光捕获显微切割方法从囊胚中分离。 两例胚胎单细胞经裂解后, 均按照制造商所提 供的试剂盒说明书进行全基因组扩增操作。
2、 测序: 本实施例中, 采用 Illumina公司的 Hiseq2000测序平台对于获自上述 2例胚胎单细胞全基 因组扩增的 DNA进行测序, 按照 Illumina公司所提供的说明书, 进行文库构建、 上机测序, 使每个样本 得到约 0.36G数据量, 每个样本根据标签序列进行区分。 利用比对软件 SOAP2 , 将测序所得测序序列与 NCBI数据库中版本 36 ( hgl 8; NCBIBuild36 )的人类基因组参考序列进行比对, 将得到测序序列在人类 基因组参考序列上进行定位。
3、 数据分析
a )计算测试样本和对照样本(对照样本为核型正常的样品) 的相对测序序列数:
在人类基因组参考序列上划分为多个长度为 150K bp的窗口, 统计前面步骤 2 )所得到测序序列中落 在每个窗口上的测序序列数 r ., 其中下标 /和 分别代表窗口编号和样本编号, 并计算每个窗口的 GC 含量 GC. . , 按照一般方法中'挺供的公式计算相对测序序列数
b ) 据校正与标准化:
在 GC含量为横坐标和相对测序序列数 R为纵坐标的坐标系中, 将 GC从小到大划分为大小为 0. 001 的区域, 统计每个区域中 R的平均值 Ms , s为 GC区域的编号, 见表 1。 按照一般方法中提供的公式对 所得到的测序序列进行校正和标准化。
表 1 校正过程中每个 GC区域^ ^列表
Figure imgf000012_0001
/:/:/ O/-οίϊοίΜ>1£20iAV
80 0. 395~0. 396 0. 04 0. 414~0. 415 0. 08 197 0. 512~0. 513 - 1. 39 0. 53广 0. 532 - 1. 06
81 0. 396~0. 397 0. 06 0. 415~0. 416 0. 05 198 0. 513^0. 514 - 1. 43 0. 532~0. 533 - 1. 05
82 0. 397~0. 398 0. 03 0. 416~0. 417 0. 04 199 0. 514~0. 515 - 1. 45 0. 533~0. 534 - 1. 42
83 0. 398~0. 399 0. 02 0. 417~0. 418 0. 09 200 0. 515^0. 516 - 1. 3 0. 534~0. 535 - 0. 89
84 0. 399~0. 4 0. 09 0. 418~0. 419 0. 06 201 0. 516^0. 517 - 1. 38 0. 535~0. 536 - 1. 8
85 0. 4~0. 401 0. 02 0. 419~0. 42 - 0. 01 202 0. 517~0. 518 - 0. 94 0. 536~0. 537 - 0. 81
86 0. 40广 0. 402 0. 01 0. 42~0. 421 0. 09 203 0. 518^0. 519 - 1. 48 0. 537~0. 538 - 0. 89
87 0. 402~0. 403 0. 03 0. 42广 0. 422 0. 08 204 0. 519~0. 52 - 1. 48 0. 538~0. 539 - 0. 91
88 0. 403~0. 404 0 0. 422~0. 423 0. 06 205 0. 52~0. 521 - 0. 91 0. 539~0. 54 - 0. 96
89 0. 404~0. 405 0. 03 0. 423~0. 424 0. 08 206 0. 52广 0. 522 - 0. 89 0. 54~0. 541 - 1. 98
90 0. 405^0. 406 0. 02 0. 424~0. 425 0. 03 207 0. 522~0. 523 - 1. 9 0. 54广 0. 542 - 0. 29
91 0. 406^0. 407 0. 03 0. 425^0. 426 0. 06 208 0. 523~0. 524 - 1. 46 0. 542~0. 543 - 1. 28
92 0. 407~0. 408 0. 02 0. 426^0. 427 0. 05 209 0. 524~0. 525 -2. 02 0. 543~0. 544 - 1. 84
93 0. 408^0. 409 -0. 01 0. 427~0. 428 0. 06 210 0. 525~0. 526 - 1. 39 0. 544~0. 545 -1. 41
94 0. 409~0. 41 -0. 06 0. 428~0. 429 0. 03 211 0. 526~0. 527 - 1. 72 0. 545~0. 546 - 0. 54
95 0. 4Γ0. 411 -0. 06 0. 429^0. 43 0. 04 212 0. 528~0. 529 - 1. 08 0. 547~0. 548 - 1. 31
96 0. 41广 0. 412 -0. 04 0. 43~0. 431 0. 05 213 0. 529~0. 53 - 1. 42 0. 548~0. 549 -1. 11
97 0. 412~0. 413 -0. 04 0. 43广 0. 432 0. 01 214 0. 53~0. 531 - 1. 71 0. 549~0. 55 - 1. 38
98 0. 413~0. 414 -0. 02 0. 432~0. 433 0. 04 215 0. 53广 0. 532 -2. 27 0. 55~0. 551 - 1. 5
99 0. 414~0. 415 -0. 05 0. 433~0. 434 0 216 0. 532~0. 533 - 1. 78 0. 55广 0. 552 - 1. 22
100 0. 415~0. 416 -0. 07 0. 434~0. 435 - 0. 02 217 0. 533~0. 534 - 1. 55 0. 552~0. 553 - 0. 8
101 0. 416~0. 417 -0. 08 0. 435^0. 436 0. 01 218 0. 535~0. 536 - 1. 25 0. 553~0. 554 - 1. 32
102 0. 417~0. 418 -0. 11 0. 436^0. 437 0. 04 219 0. 536~0. 537 - 1. 09 0. 554~0. 555 - 1. 79
103 0. 418~0. 419 -0. 07 0. 437~0. 438 0. 01 220 0. 537~0. 538 -2. 02 0. 556~0. 557 - 1. 3
104 0. 419~0. 42 -0. 09 0. 438^0. 439 - 0. 01 221 0. 54~0. 541 -2. 16 0. 557~0. 558 - 1. 48
105 0. 42~0. 421 -0. 13 0. 439~0. 44 - 0. 01 222 0. 54广 0. 542 - 1. 64 0. 558~0. 559 - 1. 7
106 0. 42广 0. 422 - 0. 1 0. 44~0. 441 - 0. 01 223 0. 544~0. 545 -2. 3 0. 559~0. 56 - 1. 55
107 0. 422~0. 423 -0. 12 0. 44Γ0. 442 - 0. 01 224 0. 546~0. 547 -2. 51 0. 56广 0. 562 - 1. 62
108 0. 423~0. 424 -0. 11 0. 442^0. 443 - 0. 06 225 0. 548~0. 549 -2. 7 0. 563~0. 564 - 1. 68
109 0. 424~0. 425 - 0. 17 0. 443~0. 444 - 0. 04 226 0. 549~0. 55 - 1. 77 0. 564~0. 565 - 1. 47
110 0. 425^0. 426 -0. 14 0. 444~0. 445 - 0. 07 227 0. 55~0. 551 - 1. 08 0. 569~0. 57 - 1. 42
111 0. 426^0. 427 -0. 14 0. 445~0. 446 -0. 11 228 0. 55广 0. 552 -2. 13 0. 58~0. 581 - 1. 74
112 0. 427~0. 428 - 0. 15 0. 446~0. 447 - 0. 13 229 0. 553~0. 554 -2. 19 0. 583~0. 584 -2. 43
113 0. 428~0. 429 - 0. 19 0. 447^0. 448 - 0. 08 230 0. 555~0. 556 -2. 04 0. 6~0. 601 - 1. 79
114 0. 429^0. 43 - 0. 18 0. 448~0. 449 -0. 11 231 0. 556~0. 557 - 1. 93
115 0. 43~0. 431 - 0. 18 0. 449~0. 45 - 0. 07 232 0. 562~0. 563 -2. 51
116 0. 43广 0. 432 -0. 21 0. 45~0. 451 - 0. 16 233 0. 572~0. 573 - 1. 85
117 0. 432~0. 433 - 0. 26 0. 45广 0. 452 0. 08 234 0. 574~0. 575 -2. 74
C )合并窗口
确定突破点, 针对参考基因组序列上每个点, 取其左右两侧各 100个窗口作为两个群体进行游程检 验,每个点会计算得到一个代表该点两侧差异的 β值,留下 值最小的 3000个点作为突破点(Breakpo int ) 筛选突破点: 将所有排过序的突破点记为 β = {bx , b1 , ..., b } , 每个突破点都存在左右两个片段, 所 述片段即上一个突破点到该突破点的区域以及该突破点到下一个突破点的区域, 将这两个片段中所有 Ζ. .进行游程检验所得的 Ρ值(ft ), 视作 "¾作为突破点的显著性", 将/¾最大的候选突破点剔除, 反 步骤, 直到所有 ρ值都小于该染色体的终止 ρ值 1. 1Χ10—5°;
d )在得到筛选后的突破点后, 确定相邻两个突破点之间的区域为检验窗口, _而对窗口进行令并, 为了进一步对合并窗口后获得的片段进行过滤, 计算该片段中 Z. .的平均值, 记为 如果片段的 超 出阈值范围, 则该片段为拷贝数变异。 采用 -1. 645作为第一阈 采用 1. 645作为第二阈值。
4、 结果。 表 2表示了在该实施例中, 各胚胎单细胞样品经 WGA全基因组扩增后, 拷贝数变异的 检测结果列表。 表 2. 实施例 1各胚胎单细胞样品经 WGA拷贝数变异检测结果列表
Figure imgf000015_0001
由表 1的结果, 可以看出, 通过本发明的确定样本基因组中是否存在拷贝数变异的方法, 能够有效 地确定各种类型的拷贝数变异。
实施例 2
使用与实施例 1相同的胚胎, 重复实施例 1 , 只是在提取 DNA后直接进行测序 (未经 WGA)。 实施 例 1和实施例 2结果比较见表 3、 图 4和图 5。
表 3. 实施案例各样品 WGA与未经 WGA样本测序数据拷贝数变异检测结果比较
Figure imgf000015_0002
从表 3数据及染色体数字核型图图 4、 图 5可看出,样品经 WGA与未经 WGA测序数据拷贝数变异 检测结果是一致的。 对于表 3 "缺失'' 或 "重复'' 起始终止位置(发生拷贝数变异的边界) 的差异, 由 于拷贝数变异的边界难以精确确定, 一般地, 对于约 150K 的一级窗口, 可以判定两者的边界差异在 100-300Kb为完全一致, 在 300Kb-lMb范围为较一致, 表 3显示两方法确定的拷贝数变异边界的差异范 围在 100-300Kb或 300Kb- 1Mb之内, 判定两方法确定的发生拷贝数变异的边界一致。
工业实用性
本发明的确定样本基因组中是否存在拷贝数变异的方法、 系统和计算机可读介质能够有效地用于确 定样本基因组中是否存在拷贝数变异。
尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。 根据已经公开的所有 教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范围之内。 本发明的全部范围 由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体 示例"、 或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特点包含于 本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语的示意性表述不一定指的是相同的实施 例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何的一个或多个实施例或示例中以合 适的方式结合。

Claims

1、 一种确定样本基因组中是否存在拷贝数变异的方法, 其特征在于, 包括以下步骤: 对所述样本基因组进行测序, 以便获得由多个测序序列构成的测序结果;
将所述测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分 布;
基于所述测序序列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突 破点两侧的测序序列数目存在显著差异;
基于所述多个突破点, 在所述参照基因组上确定检验窗口;
基于落入所述检验窗口的测序序列, 确定第一参数; 以及
基于所述第一参数与预定阈值的差异, 确定所述样本基因组, 针对所述检验窗口是否存在拷贝数变 异。
2、 根据权利要求 1所述的方法, 其特征在于, 进一步包括从生物样本中提取样本基因组的步骤。
3、 根据权利要求 2所述的方法, 其特征在于, 所述生物样本为孕妇样本或胎儿样本, 任选地, 所述 生物样本为选自孕妇血浆、 绒毛膜绒毛、 羊水、 脐带血、 胎盘和胎儿足跟血的至少一种。
4、 根据权利要求 2所述的方法, 其特征在于, 所述生物样本为选自血液、 尿液、 唾液、 组织、 生殖 细胞、 受精卵、 卵裂球和胚胎的至少一种,
任选地, 所述生物样本为单细胞。
5、 根据权利要求 1所述的方法, 其特征在于, 对所述样本基因组进行测序进一步包括: 对所述样本基因组进行扩增;
利用所述经过扩增的样本基因组构建测序文库; 以及
对所述测序文库进行测序。
6、 根据权利要求 4所述的方法, 其特征在于, 进一步包括对所述单细胞进行裂解, 以便释放所述单 细胞的全基因组的步骤。
7、 根据权利要求 6所述的方法, 其特征在于,
利用碱性裂解液对所述单细胞进行裂解, 以便释放所述单细胞的全基因组。
8、 根据权利要求 7所述的方法, 其特征在于, 利用基于 PCR的全基因组扩增方法对所述全基因组 进行扩增。
9、 根据权利要求 8所述的方法, 其特征在于,
所述基于 PCR的全基因组扩增方法为 OmniPlex WGA方法。
10、 根据权利要求 5所述的方法, 其特征在于,
利用选自 Hiseq系统、 Miseq系统、 Genome Analyzer(GA)系统、 454 FLX、 SOLiD系统、 Ion Torrent 系统和单分子测序装置的至少一种对所述测序文库进行测序。
11、 根据权利要求 1所述的方法, 其特征在于, 所述拷贝数变异为选自染色体非整倍性、 染色体片 段缺失、 染色体片段增加、 微缺失、 微重复的至少一种。
12、 根据权利要求 1所述的方法, 其特征在于, 在所述参照基因组上确定突破点进一步包括: 将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 针对参考基因组序列上的至少一个位点, 确定落入所述位点两侧相同数目一级窗口中的测序序列数 目;
确定所述位点的 p值, 所述 p值表示两侧测序数据数目的显著差异性; 以及
如果所述位点的 p值小于终止 p值, 判断所述位点为突破点。
13、根据权利要求 12所述的方法, 其特征在于, 所述落入各一级窗口中的测序序列为唯一比对测序 序列。
14、 根据权利要求 12所述的方法, 其特征在于, 在所述位点两侧各取 100个一级窗口。
15、根据权利要求 12所述的方法,其特征在于,所述一级窗口的长度均为 100-200Kbp,优选 150Kbp。 16、 根据权利要求 12所述的方法, 其特征在于, 所述终止 p值为至多 1.1 Χ10-5<)
Π、 根据权利要求 12 所述的方法, 其特征在于, 确定所述位点两侧测序数据数目的显著差异性 ρ 值进一步包括:
针对所述位点, 在所述位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 Ri, 其中 i表示一级窗口的编号
对所有一级窗口的相对测序序列数目 进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过下列公式确定的: = log2 ―'
{ '' J
其中 η表示落入第 i一级窗口的测序序列数目, ― 1 » , n表示一级窗口的总数目。
18、根据权利要求 17所述的方法, 其特征在于, 对所有一级窗口的相对测序序列数目进行游程检验 进一步包括: 对每个一级窗口的相对测序序列数目. R(进行 GC含量校正, 以便获得校正的相对测序序列数目 R'; 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ; 以及 对所有一级窗口的标准化的测序序列数目 进行游程检验。
19、 根据权利要求 18所述的方法, 其特征在于, 所述校正的相对测序序列数目 J ^是通过下列步骤获得的:
计算每个一级窗口的 GC含量;
将 GC含量以 0.001为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号;
R. = R. - Ms - 根据下列公式确定所述校正的相对测序序列数目 Ri :
所述标准化的测序序列数目 是通过下列公式确定的
其中,
Figure imgf000017_0001
1 n 、
mean =—∑ l R - - R - I
SD = —— Y iR, - R; - mean )'
V » - 1 =i o
20、 根据权利要求 19所述的方法, 其特征在于, 基于所述多个突破点, 在所述参照基因组上确定检 验窗口进一步包括:
1 )确定多个候选突破点, 其中在所述候选突破点的前后均存在其他突破点;
16
替换页(细则笫 26条) 2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值, 所述剩余候选 突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,
其中, 通过下列步骤确定所述候选突破点的 p值:
将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的 下一个突破点之间的区域作为第二候选区域;
对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便确定所述候选突破点的 p值,
任选地, 所述终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值,
任选地, 所述终止 p值为 1.1X10—5Q
21、 根据权利要求 20所述的方法, 其特征在于, 基于落入所述检验窗口的测序序列, 确定第一参数 进一步包括:
确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 所述平均标准化的测 序序列数目 作为第一参数。
22、根据权利要求 1所述的方法, 其特征在于, 所述预定阈值采用 -1.645作为第一阈值和 1.645作为 第二阈值。
23、 根据权利要求 1所述的方法, 其特征在于, 所述参照基因组序列为选自人类 21号染色体、 18 号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。
24、 一种确定样本基因组中是否存在拷贝数变异的系统, 其特征在于, 包括:
测序装置, 所述测序装置用于对对所述样本基因组进行测序, 以便获得由多个测序序列构成的测序 结果;
分析装置, 所述分析装置与所述测序装置相连, 以便基于所述测序结果确定所述基因组中是否存在 拷贝数变异, 所述分析装置进一步包括:
比对单元, 所述比对单元适于将所述测序结果与参照基因组序列进行比对, 以便确定所述测序 序列在所述参照基因组序列上的分布;
突破点确定单元, 所述突破点确定单元与所述比对单元相连, 并且适于基于所述测序序列在参 照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突破点两侧的测序序列数 目存在显著差异;
检验窗口确定单元, 所述检验窗口确定单元与所述突破点确定单元相连, 并且适于基于所述多 个突破点, 在所述参照基因组上确定检验窗口;
参数确定单元, 所述参数确定单元与所述检验窗口确定单元相连, 并且适于基于落入所述检验 窗口的测序序列, 确定第一参数; 以及
判断单元, 所述判断单元与所述参数确定单元相连, 并且适于基于所述第一参数与预定阈值的 差异, 确定所述样本基因组, 针对所述检验窗口是否存在拷贝数变异。
25、 根据权利要求 24所述的系统, 其特征在于, 进一步包括基因组提取装置, 所述基因组提取装置 适于从生物样本中提取样本基因组。
26、 根据权利要求 24所述的系统, 其特征在于, 所述测序装置进一步包括:
基因组扩增单元, 所述基因组扩增单元适于对所述样本基因组进行扩增;
测序文库构建单元, 所述测序文库构建单元与所述基因组扩增单元相连, 并且适于利用所述经过扩 增的样本基因组构建测序文库; 以及 测序单元, 所述测序单元与所述测序文库构建单元相连, 并且适于对所述测序文库进行测序。 j7、根据权利要求 26所述的系统,其特征在于,所述测序单元为选自 Hiseq系统、 Miseq系统、 Genome Analyzer(GA)系统、 454 FLX、 SOLiD系统、 Ion Torrent系统和单分子测序装置的至少一种。
28、根据权利要求 24所述的系统, 其特征在于, 所述突破点确定单元进一步包括适于执行下列以确 定突破点的模块:
将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 针对参考基因组序列上的至少一个位点, 确定落入所述位点两侧相同数目一级窗口中的测序序列数 目;
确定所述位点的 p值, 所述 p值表示两侧测序数据数目的显著差异性; 以及
如果所述位点的 p值小于终止 p值, 判断所述位点为突破点。
29、根据权利要求 28所述的系统, 其特征在于, 所述突破点确定单元进一步包括适于执行下列以确 定 p值的模块:
针对所述位点, 在所述位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 , 其中 ί表示一级窗口的编号
对所有一级窗口的相对测序序列数目 进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过公式确定的:
Figure imgf000019_0001
其 η表示落入第 i一级窗口的测序序列数 B,
Figure imgf000019_0002
n表示一级窗口的总数目。
30、根据权利要求 29所述的系统, 其特征在于, 所述突破点确定单元进一步包括适于执行下列以对 所有一级窗口的相对测序序列数目进行游程检验的模块: 对每个一级窗口的相对测序序列数目 Ri进行 GC含量校正, 以便获得校正的相对测序序列数目 Ri; 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ¾; 以及 . 对所有一级窗口的标准化的测序序列数目 ¾进行游程检验。
31、 根据权利要求 30所述的系统, 其特征在于, 所述校正的相对测序序列数目 是通过适于执行下列步骤的模块获得的:
计算每个一级窗口的 GC含量;
将 GC含量以 0.001为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号;
R = R -M - 根据公式下列公式确定所述校正的相对测序序列数目 .
所述标准化的测序序列数目 Zi是通过下列公式确定的
18
替换页 (细则第 26条)
Figure imgf000020_0001
其中,
Figure imgf000020_0002
32、 根据权利要求 31所述的系统, 其特征在于, 基于所述多个突破点, 检验窗口确定单元进一步包 括适于执行下列的模块:
1 )确定多个候选突破点, 其中在所述候选突破点的前后均存在其他突破点;
2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值, 所述剩余候选 突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,
其中, 通过下列步骤确定所述候选突破点的 p值:
将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域, 将所述候选突破点与相邻的 下一个突破点之间的区域作为第二候选区域;
对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便确定所述候选突破点的 p值,
任选地, 所述终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数目为零; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值,
任选地, 所述终止 p值为 1.1X10-5G
• 33、 根据权利要求 32所述的系统, 其特征在于, 参数确定单元进一步包括适于执行下列的模块: 确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 ϊ , 所述平均标准化的测 序序列数目 作为第一参数。
34、 根据权利要求 24所述的系统, 其特征在于, 所述确定单元中存储有预定阙值, 所述预定阈值采 用 -1.645作为第一阈值和 1.645作为第二阁值。
35、根据权利要求 24所述的系统, 其特征在于, 所述比对单元内存储有参照基因组序列为已知的人 类基因组序列, 任选地, 所述参照基因组序列为选自人类 21号染色体、 18号染色体、 〗3号染色体、 X 染色体和 Y染色体的至少一种的序列。
36、 一种计算机可读介质, 其特征在于, 所述计算机可读介质上存储有指令, 所述指令适于被处理 器执行以便通过下列步骤确定样本基因组中是否存在拷贝数变异:
将测序结果与参照基因组序列进行比对, 以便确定所述测序序列在所述参照基因组序列上的分布, 其中所述测序结果是由通过对所述样本基因组进行测序所获得的多个测序序列构成的;
基于所述测序序列在参照基因组序列上的分布, 在所述参照基因组序列上确定多个突破点, 所述突 破点两侧的测序序列数目存在显著差异;
基于所述多个突破点, 在所述参照基因组上确定检验窗口;
基于落入所述检验窗口的测序序列, 确定第一参数; 以及
基于所述第一参数与预定罔值的差异, 确定所述样本基因组, 针对所述检验窗口是否存在拷贝数变 异。
37、根据权利要求 36所述的计算机可读介质, 其特征在于, 在所述参照基因组上确定突破点进一步 包括:
将参考基因组序列划分为多个预定长度的一级窗口, 并确定落入各一级窗口中的测序序列; 针对参考基因组序列上的至少一个位点, 确定落入所述位点两侧相同 '数目一级窗口中的测序序列数 目;
确定所述位点的 p值, 所述 p值表示两侧测序数据数目的显著差异性; 以及
如果所述位点的 p值小于终止 p值, 判断所述位点为突破点。
38、根据权利要求 37所述的计算机可读介质, 其特征在于, 所述落入各一级窗口中的测序序列为唯 一比对测序序列。
39、 根据权利要求 37所述的计算机可读介质, 其特征在于, 在所述位点两侧各取 100个一级窗口。 40、 根据权利要求 37所述的计算机可读介质, 其特征在于, 所述一级窗口的长度均为 100-200Kbp, 优选 150Kbp。
41、 根据权利要求 37所述的计算机可读介质, 其特征在于, 所述终止 p值为至多 1.1X10-5Q
42、根据权利要求 37所述的计算机可读介质, 其特征在于, 确定所述位点两侧测序数据数目的显著 差异性 p值进一步包括:
针对所述位点, 在所述位点两侧各取相同数目的一级窗口, 并且计算每个一级窗口的相对测序序列 数目 Ri, 其中 i表示一级窗口的编号
对所有一级窗口的相对测序序列数目 1¾进行游程检验, 以便确定所述位点的 p值,
其中,
所述相对测序序列数目是通过公式确定的:
Figure imgf000021_0001
其中 ri表^落入第 i一级窗口的测序序列数目,
_ 1 ^ , n表示一级窗口的总数目。
43、根据权利要求 42所述的计算机可读介质, 其特征在于, 在对所有一级窗口的相对测序序列数目 进行游程检验进一步包括: 对每个一级窗口的相对测序序列数目 进行 GC含量校正, 以便获得校正的相对测序序列数目 基于所述校正的相对测序序列数目, 确定每个一级窗口的标准化的测序序列数目 ¾; 以及 对所有一级窗口的标准化的测序序列数目 进行游程检验。
44、 根据权利要求 43所述的计算机可读介质, 其特征在于, 所述校正的相对测序序列数目 是通过下列步骤获得的:
计算每个一级窗口的 . GC含量;
将 GC含量以 0.001为单位划分为多个区域, 并且统计每个区域中相对测序序列数目的平均值 Ms, 其中 s为 GC区域的编号;
R = R - Ms , 根据公式下列公式确定所述校正的相对测序序列数目 ·
所述标准化的测序序列数目 ¾是通过下列公式确定的
替换页 则第 26条)
Figure imgf000022_0001
其中, mean 、 R
R
SD = —— Y ( R, - R,. - mean )'
V " o
45、根据权利要求 43所述的计算机可读介质, 其特征在于, 基于所述多个突破点, 在所述参照基因 组上确定检验窗口进一步包括:
1 )确定多个候选突破点, 其中在所述候选突破点的前后均存在其他突破点;
2 )确定每个候选突破点的 p值, 并剔除 p值最大的候选突破点;
3 )对剩余的候选突破点重复步骤 2 ), 直到剩余候选突破点的 p值均小于终止 p值, 所述剩余候选 突破点作为经过筛选的候选突破点; 以及
4 )确定相邻两个经过筛选的候选突破点之间的区域为检验窗口,
其中, 通过下列步骤确定所述候选突破点的 p值:
将所述候选突破点与相邻的上一个突破点之间的区域作为第一候选区域 , 将所述候选突破点与相邻的 下一个突破点之间的区域作为第二候选区域;
对所述第一候选区域和第二候选区域中所包含一级窗口的标准化的测序序列数目 进行游程检验, 以便确定所述候选突破点的 p值,
任选地, 所述终止 p值是通过下列步骤确定的:
利用对照样品的测序结果, 重复在参照基因组上确定检验窗口的操作, 并记录每次被剔除候选突破 点的 p值, 直到候选突破点的数 S为零; 以及
基于被剔除候选突破点的 p值分布, 确定所述终止 p值,
任选地, 所述终止 p值为 1.1Χ10-5°。
46、根据权利要求 45所述的计算机可读介质, 其特征在于, 基于落入所述检验窗口的测序序列, 确 定第一参数进一步包括:
确定所述检验窗口中所包含的所有一级窗口的平均标准化的测序序列数目 ϊ , 所述平均标准化的测 序序列数目 作为第一参数。 47、 根据权利要求 46所述的计算机可读介质, 其特征在于, 所述预定阈值采用 -1.645作为第一阈值 和 1.645作为第二阈值。
48、 根据权利要求 36所述的计算机可读介质, 其特征在于, 所述参照基因组序列为选自人类 21号 染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种的序列。
替换页(细 ¾第 26条)
PCT/CN2012/070680 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质 WO2013107048A1 (zh)

Priority Applications (11)

Application Number Priority Date Filing Date Title
CN201280067240.2A CN105392894B (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
PCT/CN2012/070680 WO2013107048A1 (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
AU2012366077A AU2012366077B2 (en) 2012-01-20 2012-01-20 Method and system for determining whether copy number variation exists in sample genome, and computer readable medium
US14/373,072 US20150012252A1 (en) 2012-01-20 2012-01-20 Method and system for determining whether copy number variation exists in sample genome, and computer readable medium
KR1020147023080A KR101770884B1 (ko) 2012-01-20 2012-01-20 복제 개수 변이가 게놈 샘플에 존재하는지의 여부를 확정하는 방법 및 시스템, 및 컴퓨터 판독 가능한 매체
EP12865785.5A EP2826865B8 (en) 2012-01-20 2012-01-20 Method and system for determining whether copy number variation exists in sample genome, and computer readable medium
RU2014134175/10A RU2593708C2 (ru) 2012-01-20 2012-01-20 Способ и система выявления вариации числа копий в геноме
SG11201404079SA SG11201404079SA (en) 2012-01-20 2012-01-20 Method and system for determining whether copy number variation exists in sample genome, and computer readable medium
JP2014552471A JP5938484B2 (ja) 2012-01-20 2012-01-20 ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体
IL233691A IL233691B (en) 2012-01-20 2014-07-17 Method, system and computer readable medium for determining whether copy number variation exists in sample genome
HK16103403.7A HK1215454A1 (zh) 2012-01-20 2016-03-23 確定樣本基因組中是否存在拷貝數變異的方法、系統和計算機可讀介質

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/070680 WO2013107048A1 (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Publications (1)

Publication Number Publication Date
WO2013107048A1 true WO2013107048A1 (zh) 2013-07-25

Family

ID=48798533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/070680 WO2013107048A1 (zh) 2012-01-20 2012-01-20 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Country Status (11)

Country Link
US (1) US20150012252A1 (zh)
EP (1) EP2826865B8 (zh)
JP (1) JP5938484B2 (zh)
KR (1) KR101770884B1 (zh)
CN (1) CN105392894B (zh)
AU (1) AU2012366077B2 (zh)
HK (1) HK1215454A1 (zh)
IL (1) IL233691B (zh)
RU (1) RU2593708C2 (zh)
SG (1) SG11201404079SA (zh)
WO (1) WO2013107048A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108251532A (zh) * 2018-03-29 2018-07-06 上海锐翌生物科技有限公司 基于ngs技术的粪便dna结直肠肿瘤多基因预测模型
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统
CN111968701A (zh) * 2020-08-27 2020-11-20 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
WO2021114139A1 (zh) * 2019-12-11 2021-06-17 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN114792548A (zh) * 2022-06-14 2022-07-26 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN116863998A (zh) * 2023-06-21 2023-10-10 扬州大学 一种基于遗传算法的全基因组预测方法及其应用

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3204882A4 (en) 2014-10-10 2018-06-06 Life Technologies Corporation Methods, systems, and computer-readable media for calculating corrected amplicon coverages
WO2017161201A1 (en) * 2016-03-16 2017-09-21 Cynvenio Biosystems Inc. Cancer detection assay and related compositions, methods and systems
CN108090325B (zh) * 2016-11-23 2022-01-25 中国科学院昆明动物研究所 一种应用β-稳定性分析单细胞测序数据的方法
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
CN107590362B (zh) * 2017-08-21 2019-12-06 武汉菲沙基因信息有限公司 一种基于长读序测序判断重叠组装正误的方法
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN112639129A (zh) * 2018-09-03 2021-04-09 深圳华大智造科技有限公司 确定新发突变在胚胎中的遗传状态的方法和装置
CN111379032A (zh) * 2018-12-28 2020-07-07 北京贝瑞和康生物技术有限公司 一种用于构建同时实现基因组拷贝数变异检测和基因突变检测的测序文库的方法和试剂盒
CN111916150A (zh) * 2019-05-10 2020-11-10 北京贝瑞和康生物技术有限公司 一种基因组拷贝数变异的检测方法和装置
CN112562787B (zh) * 2020-12-03 2021-09-07 江苏先声医学诊断有限公司 一种基于ngs平台的基因大片段重排检测方法
CN114220481B (zh) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN114999573B (zh) * 2022-04-14 2023-07-07 哈尔滨因极科技有限公司 一种基因组变异检测方法及检测系统
CN114758720B (zh) * 2022-06-14 2022-09-02 北京贝瑞和康生物技术有限公司 用于检测拷贝数变异的方法、设备和介质
CN115579054B (zh) * 2022-11-17 2023-06-02 北京大学 单细胞拷贝数变异探测方法、装置、设备及介质
CN116240273B (zh) * 2023-04-19 2023-08-15 北京优迅医学检验实验室有限公司 一种基于低深度全基因组测序的判断母源污染比例的方法及其应用
CN117116344A (zh) * 2023-10-25 2023-11-24 北京大学第三医院(北京大学第三临床医学院) 一种单细胞水平pmp22重复变异的检测系统和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082606A1 (en) * 2001-09-04 2003-05-01 Lebo Roger V. Optimizing genome-wide mutation analysis of chromosomes and genes
WO2007131135A2 (en) * 2006-05-03 2007-11-15 Population Diagnostics Evaluating genetic disorders
WO2007129000A2 (en) * 2006-04-12 2007-11-15 Medical Research Council Method for determining copy number
WO2011091046A1 (en) * 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3069082C (en) * 2008-09-20 2022-03-22 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
HUE047193T2 (hu) * 2011-12-31 2020-04-28 Bgi Genomics Co Ltd Módszer genetikai variáció kimutatására

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030082606A1 (en) * 2001-09-04 2003-05-01 Lebo Roger V. Optimizing genome-wide mutation analysis of chromosomes and genes
WO2007129000A2 (en) * 2006-04-12 2007-11-15 Medical Research Council Method for determining copy number
WO2007131135A2 (en) * 2006-05-03 2007-11-15 Population Diagnostics Evaluating genetic disorders
WO2011091046A1 (en) * 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J. SAMBROOK ET AL.: "Molecular Cloning: A Laboratory Manual", SCIENCE PRESS
See also references of EP2826865A4
WALD A. WJ.: "The Annals of Mathematical Statistics", vol. 11, 1940, article "On a Test Whether Two Samples are from the Same Population", pages: 147 - 162

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108251532A (zh) * 2018-03-29 2018-07-06 上海锐翌生物科技有限公司 基于ngs技术的粪便dna结直肠肿瘤多基因预测模型
CN108251532B (zh) * 2018-03-29 2021-12-28 上海锐翌生物科技有限公司 基于ngs技术的粪便dna结直肠肿瘤多基因预测模型
CN111383717A (zh) * 2018-12-29 2020-07-07 北京安诺优达医学检验实验室有限公司 一种构建生物信息分析参照数据集的方法及系统
WO2021114139A1 (zh) * 2019-12-11 2021-06-17 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN114502744A (zh) * 2019-12-11 2022-05-13 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN114502744B (zh) * 2019-12-11 2023-06-23 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN111968701A (zh) * 2020-08-27 2020-11-20 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN114792548A (zh) * 2022-06-14 2022-07-26 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN116863998A (zh) * 2023-06-21 2023-10-10 扬州大学 一种基于遗传算法的全基因组预测方法及其应用
CN116863998B (zh) * 2023-06-21 2024-04-05 扬州大学 一种基于遗传算法的全基因组预测方法及其应用

Also Published As

Publication number Publication date
IL233691A0 (en) 2014-09-30
AU2012366077B2 (en) 2016-01-21
EP2826865B8 (en) 2017-08-16
US20150012252A1 (en) 2015-01-08
EP2826865A4 (en) 2015-05-27
AU2012366077A1 (en) 2014-08-07
IL233691B (en) 2019-01-31
RU2593708C2 (ru) 2016-08-10
JP5938484B2 (ja) 2016-06-22
KR101770884B1 (ko) 2017-09-05
JP2015506684A (ja) 2015-03-05
EP2826865B1 (en) 2017-06-21
EP2826865A1 (en) 2015-01-21
RU2014134175A (ru) 2016-03-20
KR20140114442A (ko) 2014-09-26
SG11201404079SA (en) 2014-10-30
HK1215454A1 (zh) 2016-08-26
CN105392894B (zh) 2018-05-29
CN105392894A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
WO2013107048A1 (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
US11142799B2 (en) Detecting chromosomal aberrations associated with cancer using genomic sequencing
JP6585117B2 (ja) 胎児の染色体異数性の診断
CN107077537B (zh) 用短读测序数据检测重复扩增
KR102113896B1 (ko) 모체 혈장으로부터의 비침습적 산전 분자 핵형분석
DK2514842T3 (en) Diagnosis of fetal chromosomal aneuploidy using genome sequencing
EP4266314A2 (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
JP5964432B2 (ja) 単細胞染色体の非整倍数性を確定する方法及びシステム
TR201904345T4 (tr) Genetik Varyasyonları Non-İnvazif Değerlendirme Yöntemi
BR112013020220B1 (pt) Método para determinar o estado de ploidia de um cromossomo em um feto em gestação
AU2020246747A1 (en) Determining linear and circular forms of circulating nucleic acids
CN115989544A (zh) 用于在基因组的重复区域中可视化短读段的方法和系统
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
WO2014075228A1 (zh) 确定生物样本中染色体数目异常的方法、系统和计算机可读介质
EP3596229A1 (en) Method and system for nucleic acid sequencing
TWI564742B (zh) Methods for determining the aneuploidy of fetal chromosomes, systems and computer-readable media
WO2014153755A1 (zh) 确定胎儿染色体非整倍性的方法、系统和计算机可读介质

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280067240.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12865785

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 233691

Country of ref document: IL

ENP Entry into the national phase

Ref document number: 2014552471

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14373072

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2012366077

Country of ref document: AU

Date of ref document: 20120120

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2012865785

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012865785

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20147023080

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2014134175

Country of ref document: RU

Kind code of ref document: A