WO2015035555A1 - 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质 - Google Patents

用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质 Download PDF

Info

Publication number
WO2015035555A1
WO2015035555A1 PCT/CN2013/083217 CN2013083217W WO2015035555A1 WO 2015035555 A1 WO2015035555 A1 WO 2015035555A1 CN 2013083217 W CN2013083217 W CN 2013083217W WO 2015035555 A1 WO2015035555 A1 WO 2015035555A1
Authority
WO
WIPO (PCT)
Prior art keywords
chromosome
fetus
sample
sequencing data
male
Prior art date
Application number
PCT/CN2013/083217
Other languages
English (en)
French (fr)
Inventor
李旭超
潘小渝
葛会娟
张艳艳
陈芳
陈盛培
Original Assignee
深圳华大基因科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大基因科技有限公司 filed Critical 深圳华大基因科技有限公司
Priority to CN201380006956.6A priority Critical patent/CN104169929B/zh
Priority to PCT/CN2013/083217 priority patent/WO2015035555A1/zh
Publication of WO2015035555A1 publication Critical patent/WO2015035555A1/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the invention relates to the field of biomedicine.
  • it relates to methods, systems, and computer readable media for determining whether a fetus has an abnormal number of sex chromosomes.
  • Chromosomes are the basic substances that make up the nucleus.
  • the normal human somatic chromosome number is 46, and has a certain shape and structure. Abnormalities in the morphological structure or number of chromosomes are called chromosome abnormalities, chromosomal abnormalities are also called chromosome dysgenesis, and diseases caused by chromosomal abnormalities are called chromosomal diseases. More than 3,000 species of abnormal chromosomes and structural aberrations have been found, and more than 100 species of chromosomal syndrome have been identified. Abnormal chromosomes can lead to abnormal gene expression and abnormal body development.
  • chromosomal abnormalities The pathogenesis of chromosomal abnormalities is unknown, probably due to the absence of chromosome segregation in the late stage of cell division or the rupture and reconnection of chromosomes under the influence of various factors inside and outside the body. In chromosomal abnormalities, it is mainly divided into autosomal abnormalities and sex chromosome abnormalities.
  • sex chromosome abnormalities include Turner syndrome, Klinefelter syndrome, XXX syndrome, and XYY syndrome. Many years of research have found that sex chromosome abnormalities account for about one-third of all chromosomal diseases, and the total incidence rate is about 1/500. Mainly manifested as hypoplasia or malformation of sexual characteristics, mental retardation.
  • the present invention aims to solve at least one of the technical problems existing in the prior art.
  • the invention proposes a method of determining whether a fetus has an abnormal number of sex chromosomes.
  • the method comprises: performing nucleic acid sequencing on a pregnant woman sample comprising fetal nucleic acid to obtain a plurality of sequencing data; comparing the sequencing data with a human reference genome sequence to obtain alignment sequencing data And determining the number Q of the aligned sequencing data contained in the aligned sequencing data set; determining the number Ni of the sequencing data derived from the chromosome i in the aligned sequencing data set, wherein i represents the number of the chromosome, The i
  • the chromosome includes at least a Y chromosome and optionally an X chromosome; determining the sex of the fetus based on the number N y of sequencing data derived from the Y chromosome; and determining whether the fetus has an abnormal number of sex chromosomes,
  • determining whether the fetus has an abnormal number of sex chromosomes comprises the following steps: determining the X chromosome content of the female pregnant female sample X-chromosome content of normal fetal pregnant women Whether a significant difference, wherein the significant difference is the presence of an abnormal number of chromosomes indicate female fetuses.
  • the inventors have surprisingly found that with the method according to an embodiment of the present invention, it is possible to accurately and efficiently determine whether a fetus has an abnormal number of sex chromosomes.
  • the invention provides a computer readable medium.
  • the computer readable medium stores instructions adapted to be executed by the processor to determine whether the fetus has an abnormal number of sex chromosomes by: obtaining a plurality of sequencing data from the pregnant woman sample, The pregnant woman sample comprises fetal nucleic acid; the sequencing data is aligned with a human reference genome sequence to obtain a aligned sequencing data set; and the number Q of aligned sequencing data contained in the aligned sequencing data set is determined; Determining, in the alignment sequencing data set, the number Ni of sequencing data derived from the chromosome i, wherein i represents the number of the chromosome, and the chromosome ith includes at least the Y chromosome and optionally the X chromosome; The number of sequencing data of the chromosome N y , determining the sex of the fetus; and determining whether the fetus has an abnormal number
  • the invention further provides a system for determining whether a fetus has an abnormal number of sex chromosomes.
  • the system comprises: a sequencing device for performing nucleic acid sequencing on a pregnant woman sample to obtain a plurality of sequencing data; and the computer readable medium described above.
  • the inventors have surprisingly found that with a system for determining whether a fetus has an abnormal number of sex chromosomes according to an embodiment of the present invention, Accurately and effectively determine whether the fetus has an abnormal number of sex chromosomes.
  • the present invention uses the target region capture method to simultaneously reduce the sequencing data at a higher sequencing depth, and can effectively detect ⁇ , XXX, XXY, and XYY, and the method of the present invention greatly reduces the data. The cost incurred.
  • the present invention can increase the precision by enlarging the number of control groups to reduce the pressure on the amount of starting DNA.
  • Fig. 1 is a flow chart showing a method of determining whether a fetus has an abnormal number of sex chromosomes according to an embodiment of the present invention. Detailed description of the invention
  • the invention proposes a method of determining whether a fetus has an abnormal number of sex chromosomes.
  • the method comprises:
  • the sample of the pregnant woman to be tested is a nucleic acid sample
  • the type of the nucleic acid is not particularly limited, and may be deoxyribonucleic acid (DNA) or ribonucleic acid (RNA), preferably DNA.
  • DNA deoxyribonucleic acid
  • RNA ribonucleic acid
  • the properties of the sample of the pregnant woman to be tested are not particularly limited.
  • a genomic DNA sample may be employed, or a portion of the genomic DNA may be employed as a test sample.
  • maternal samples that can be used include, but are not limited to, maternal peripheral blood, maternal urine, pregnant women with cervical defecating trophoblasts, pregnant women with cervical mucus, fetal nucleated red blood cells, and maternal plasma.
  • the inventors have found that by extracting a nucleic acid sample from the above pregnant woman sample, It can effectively analyze the genetic variation in the fetal genome to achieve prenatal diagnosis or detection of the fetus.
  • the present invention is capable of performing non-invasive fetal genetic variation detection, for example, the sample is peripheral blood of a pregnant woman, but the method of the present invention is also applicable to invasive detection, for example, the sample may be derived from fetal cord blood, placental tissue.
  • the subject to be tested and the normal control subject are the same species, and it should be noted that since the normal control individual is determined in advance, any detection or calculation data on the control sample may be pre-selected. It is generated and saved, and the embodiment of the present invention adopts the method of presetting the relevant data of the sample, and reads and uses it when necessary, and the following refers to the comparison of the sample data, and the details are not described again. In other embodiments, the manner in which the control samples are simultaneously detected and calculated may also be employed.
  • the mutation detection of the present invention is not necessarily used for disease diagnosis or related purposes, because the presence of an abnormal number of sex chromosomes does not represent a disease risk or a health condition, and may be purely for scientific research purposes.
  • DNA may be extracted from the pregnant woman sample using at least one selected from the group consisting of a salting out method, a column chromatography method, a magnetic bead method, and an SDS method to perform the nucleic acid sequencing. That is, in the present invention, the DNA molecule can be obtained by a conventional DNA extraction method such as a salting out method, a column chromatography method, a magnetic bead method or an SDS method, and preferably a magnetic bead method.
  • the so-called magnetic bead method refers to the blood, tissue or cell through the action of cell lysate and proteinase K to obtain a naked DNA molecule, which is a reversible affinity adsorption of DNA molecules by using specific magnetic beads, after rinsing After liquid cleaning removes impurities such as proteins and lipids, the DNA molecules are eluted from the magnetic beads with a purification solution.
  • Magnetic beads are well known in the art and are commercially available, for example from Tiangen.
  • the purpose of the present invention can be achieved by directly performing sequencing and subsequent steps on DNA molecules obtained from a sample, and the extracted DNA can be used in subsequent steps without treatment.
  • only fragments of 50-700 bp, preferably 100-500 bp, more preferably 150-300 bp, especially about 200 bp, of the electrophoretic backbone can be studied.
  • the DNA molecule can be interrupted such that the electrophoretic backbone is concentrated in a fragment of a certain size, for example 50-700 bp, preferably 100-500 bp, more preferably 150-300 bp, especially near 200 bp. , then proceed to the next steps.
  • the random disruption treatment of the DNA molecules can be carried out by enzymatic cleavage, agglutination, ultrasound, or HydroShear.
  • an ultrasonic method such as Covaris S-series (which is based on AFA technology, dissolves gas to form bubbles when the acoustic/mechanical energy released by the sensor passes through the DNA sample, and when the energy is removed, the bubble collapses and The ability to generate DNA molecules is broken, so DNA molecules can be broken to a certain extent by setting conditions such as energy intensity and time interval.
  • Covaris S-series which is based on AFA technology
  • a nucleic acid to be subjected to nucleic acid sequencing may be screened using a chip carrying a predetermined probe.
  • the chip used is a capture chip designed according to the chromosome to be detected.
  • the capture chip carries a predetermined probe capable of identifying a chromosome to be detected, and a predetermined probe capable of recognizing other chromosomes.
  • the capture chip designed by the present invention carries a recognizable chromosomal region
  • the sequencing data of the sex chromosome of the sample is analyzed to be able to accurately and effectively determine whether the fetus has a sex chromosome abnormality.
  • the ratio of the probe identifying the sex chromosome X, Y in the capture chip to the recognition autosomal control probe can be flexibly adjusted according to the detection needs.
  • the number of probes for capturing the Y chromosome library is increased, whereby the proportion of the Y chromosome sequencing data is larger than the proportion of the Y chromosome data in the conventional genome sequencing ( Conventional whole-genome sequencing of Y chromosome data has a relatively small proportion of values, which is conducive to determining whether there is a sex chromosome abnormality in the fetus of the pregnant woman sample to be tested.
  • the chip used is designed using the Agilent platform, covering all autosomes and sex chromosomes, and thus, it is possible to perform anomaly detection of all chromosomes.
  • the sequencing data has a length of 25 to 200 nt.
  • the nucleic acid sequencing is performed using a second generation sequencing technique or a single molecule sequencing technique.
  • the sequencing data refers to a sequence fragment output by the sequencer, i.e., reads, preferably about 25-200 nt.
  • the sequencing data obtained from the test sample can be performed by a sequencing method, which can be performed by any sequencing method, including but not limited to the dideoxy chain termination method; preferably a high-throughput sequencing method, including but not limited to the first Second generation sequencing technology or single molecule sequencing technology.
  • the second generation sequencing platform (Metzker ML. Sequencing technologies-the next generation.
  • Nat Rev Genet. 2010 Jan; ll(l): 31-46) includes but is not limited to Illumina-Solexa (GATM, HiSeq2000TM, etc.), ABI- Solid and Roche-454 (pyrophosphate sequencing) sequencing platforms; single-molecule sequencing platforms (technologies) including but not limited to Helicos' True Single Molecule DNA sequencing, Pacific Biosciences single-molecule real-time sequencing (single molecule) Real-time (SMRTTM) ), and nanopore sequencing technology from Oxford Nanopore Technologies, etc. (Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446 (4).
  • Sequencing The type can be single-end sequencing and Pair-end sequencing, and the sequencing length can be 50 bp, 90 bp, or 100 bp.
  • the sequencing platform is Illumina.
  • sequencing type is Pair-end sequencing, which yields a 100 bp DNA sequence molecule with a bidirectional positional relationship.
  • Each sample can be labeled with a different tag sequence for sample differentiation during sequencing (Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers for Pyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol. 5 No. 3), thereby enabling simultaneous sequencing of multiple samples.
  • Tag sequences are used to distinguish different sequences, but do not affect the DNA molecules to which the tag sequence is added. Function
  • the tag sequence length can be 4-12 bp.
  • the sequencing data is aligned with a human reference genomic sequence to obtain a aligned sequencing data set.
  • the human genome reference sequence is a human genome reference sequence in the NCBI database.
  • the human genome sequence is the human genome reference sequence of version 37 (hgl9; NCBI Build 37) in the NCBI database.
  • the alignment may be an error-tolerant alignment or a mismatch of 1 base.
  • Sequence alignments can be performed by any sequence alignment program, such as the Short Oligonucleotide Analysis Package (SOAP) and the BROWA Aligner available to those skilled in the art,
  • SOAP Short Oligonucleotide Analysis Package
  • BROWA Aligner available to those skilled in the art
  • the sequencing data is aligned with the reference genome sequence to obtain the position of the sequencing data on the reference genome. Sequence alignment can be performed using default parameters provided by the program, or can be selected by those skilled in the art as needed.
  • the alignment software employed is SOAPaligner/soap2.
  • the number Q of aligned sequencing data contained in the aligned sequencing data set is determined.
  • the obtained aligned sequencing data set contains only unique aligned sequencing data, i.e., Q is the number of unique aligned sequencing data contained in the aligned sequencing data set.
  • the number of sequencing data derived from the chromosome i of the alignment sequencing data set is Ni, wherein i represents the number of the chromosome, and the chromosome ith includes at least the Y chromosome and the optional X chromosome.
  • the chromosome ith derived from the ith chromosome The number of sequencing data, Ni, is normalized.
  • the normalization process includes dividing the number Ni of the i chromosome-derived sequencing data by the number Q or Q of the aligned sequencing data contained in the aligned sequencing data set. a portion (for example, the number of aligned sequencing data derived from one or more autosomes in Q) to obtain the number of sequenced data of the normalized chromosome ith', and using the normalized sequencing data of the i-th chromosome The number of substitutions replaces the number Ni of sequencing data derived from chromosome i.
  • the number Ni of the sequencing data derived from the i-th chromosome is normalized because: when the pregnant woman sample such as maternal plasma is used to detect the abnormal number of sex chromosomes of the fetus, the variation of the fetus is difficult due to the influence of the mother DNA background. It is highlighted, so it is necessary to standardize to reduce the mother's DNA background noise and amplify the fetal variation signal. It should be noted that the "standardization processing" described in the present embodiment is normalized by using the respective sequencing data amounts, so that the relative value A' is in the range of 0-1, and the subsequent analysis is performed by using the relative sequencing data amount.
  • the calculation is to eliminate the difference in the amount of sequencing data between samples and highlight the statistical significance of the data itself.
  • the normalization process can also be performed using GC correction, or both normalization and GC correction can be achieved for the same purpose.
  • determining the sex of the fetus based on the number N y of sequencing data derived from the Y chromosome includes: comparing the number of sequenced data r y ' of the normalized Y chromosome of the pregnant woman sample, against a plurality of A sample of pregnant women who know the sex of the fetus is subjected to a Z-value test, and the sex of the fetus is determined based on the obtained Z value of the Y chromosome of the pregnant woman sample.
  • the Z-value test is performed against a plurality of normal female pregnant women samples.
  • determining the sex of the fetus based on the obtained Z value of the Y chromosome of the pregnant woman sample is achieved by comparing the obtained z value of the Y chromosome of the pregnant woman sample with a threshold value.
  • the threshold is obtained by setting a confidence level to calculate statistics on the Y chromosome of a plurality of pregnant female pregnant women samples.
  • the threshold since the threshold is obtained from the control sample, it can be pre-calculated and saved. When the target individual is detected later, the same threshold setting can be used as long as the number of control samples does not change.
  • a Y chromosome threshold calculation method for determining the sex of a fetus includes the following steps: 1) using a plurality of normal fetus samples as a control sample, preferably, the number of control samples is greater than or equal to 30; calculate the average value of r y 'm ea and
  • the confidence level is calculated as the boundary of the Zy value corresponding to the normal, and this is used as the threshold of the Y chromosome.
  • the inspection rule can be selected according to the number of the control samples and the required detection precision, and the corresponding confidence degree can be set, which can be specifically performed according to the existing statistical data processing manner.
  • other inspection rules such as T-test may also be selected.
  • the confidence may be selected from 90% to 99.9%, such as 99%, 99.5%, 99.9%, and the like.
  • the Z value of the Y chromosome of the pregnant woman sample is calculated by the following formula:
  • the Z value of the Y chromosome of the pregnant woman sample is greater than 3, and the Z value of the Y chromosome of the pregnant woman sample is not more than 3. It is an indication that the fetus is a female fetus.
  • determining whether there is a number of fetal chromosomal abnormality comprising the steps of: based on the sequencing data derived from the Y chromosome number N y, the computing a fetal nucleic acid concentration in a sample of a maternal pregnant woman; constructing a control sample data set D, wherein the control sample data set D has the same fetal nucleic acid concentration as the male pregnant female sample; and determining the X chromosome of the control sample data set
  • There is a significant difference between the content and the X-chromosome content of the normal fetal pregnant woman sample wherein there is a significant difference in the presence of an abnormal number of sex chromosomes in the male fetus.
  • the male fetal fetal nucleic acid concentration is determined based on the following formula:
  • ⁇ imy, /OTMfe is the average of the proportion of tt vs. Y-stained 3 ⁇ 4 sequencing data in the pre-determined female fetuses;
  • m ei m y mafe is the average of the proportion of the number of sequencing data aligned to the Y chromosome in the pregnant female sample of the known male fetus scheduled to be determined first.
  • the z value test comprises determining by using the following formula The X chromosome z value of the male pregnant woman sample:
  • the X chromosome Z value of the male pregnancy sample is less than or equal to -3 is an indication that the sex chromosome of the male pregnancy is XYY
  • the X chromosome Z value of the male pregnancy sample is greater than or Equal to 3 is an indication that the sex chromosome of the male fetus is XXY
  • the X chromosome Z value of the male fetus sample is greater than -3 and less than 3 is an indication that the sex chromosome of the male fetus is XY.
  • Determining whether the fetus has an abnormal number of sex chromosomes for the female pregnant woman sample includes the following steps: determining whether there is a significant difference between the X chromosome content of the pregnant female pregnant woman sample and the X chromosome content of the normal fetal pregnant female sample, wherein A significant difference is an indication of the abnormal number of sex chromosomes present in the female fetus.
  • the z value test comprises determining by using the following formula The X chromosome z value of the female pregnant woman sample:
  • the X chromosome Z value of the female pregnant woman sample is less than or equal to -3 is an indication that the female chromosome of the female fetus is X
  • the X chromosome Z value of the female pregnant female sample is greater than or Equal to 3 is an indication that the sex chromosome of the female fetus is XXX
  • the X chromosome Z value of the female fetus sample is greater than -3 and less than 3 is an indication that the sex chromosome of the fetus is XX.
  • the null hypothesis of the test is that the number of chromosomes of the sample to be tested is normal.
  • the chromosome Z value of the sample to be tested exceeds a certain threshold, it indicates that it has a significant difference compared with the chromosome of the control sample data set D, thereby rejecting the null hypothesis and being judged to be abnormal in the number of chromosomes.
  • the sequencing data of the control sample can be subjected to the aforementioned normalization processing, and then the number of sequencing data of the target chromosome can be counted, so that the Z value of each chromosome can conform to the normal distribution.
  • the aforementioned Z values -3 and 3 are not integers, but a quantile of a 99.9% confidence interval in the normal distribution.
  • Those skilled in the art can also select values of larger and smaller Z values as needed to correspond to a larger or smaller confidence interval in the normal distribution.
  • the inventors have surprisingly found that with the method according to an embodiment of the present invention, it is possible to accurately and efficiently determine whether a fetus has an abnormal number of sex chromosomes.
  • the invention provides a computer readable medium.
  • instructions are stored on the computer readable medium, the instructions being adapted to be executed by the processor to determine if the fetus has an abnormal number of sex chromosomes by the following steps:
  • a plurality of sequencing data from a sample of a pregnant woman is obtained, the pregnant woman sample comprising fetal nucleic acid.
  • the sequencing data is aligned with a human reference genomic sequence to obtain a aligned sequencing data set.
  • the number Q of aligned sequencing data contained in the aligned sequencing data set is determined.
  • the number Ni of sequencing data derived from the chromosome i in the alignment sequencing data set is determined, wherein i represents the number of the chromosome, and the chromosome i includes at least the Y chromosome and the optional X chromosome.
  • the sex of the fetus is determined based on the number N y of sequencing data derived from the Y chromosome.
  • determining whether the fetus has a sex chromosome number abnormality for the male fetus comprises the following steps: First, calculating a fetal nucleic acid concentration in the male fetus pregnant woman sample based on the number N y of the Y chromosome-derived sequencing data. Next, a control sample data set D is constructed, wherein the control sample data set D has the same fetal nucleic acid concentration as the male fetal pregnant woman sample.
  • the term "constructing" as used herein shall be understood broadly and may also include selecting a set of control samples having the same fetal (male) nucleic acid concentration, or using existing data to simulate having the same fetus ( Male fetus) Concentration of control sample sets.
  • determining whether the fetus has an abnormal number of sex chromosomes includes the following steps: determining whether there is a significant difference between the X chromosome content of the pregnant female pregnant woman sample and the X chromosome content of the normal fetal pregnant female sample, wherein there is a significant difference It is an indication that the female fetus has an abnormal number of sex chromosomes.
  • the invention further provides a system for determining whether a fetus has an abnormal number of sex chromosomes.
  • the system comprises: a sequencing device for performing nucleic acid sequencing on a pregnant woman sample to obtain a plurality of sequencing data; and the computer readable medium described above.
  • the inventors have surprisingly found that with a system for determining whether a fetus has an abnormal number of sex chromosomes according to an embodiment of the present invention, it is possible to accurately and efficiently determine whether or not a fetus has an abnormal number of sex chromosomes.
  • the present invention uses the target region capture method to simultaneously reduce the sequencing data at a higher sequencing depth, and can effectively detect ⁇ , XXX, XXY, and XYY, and the method of the present invention greatly reduces the data. The cost incurred.
  • the present invention can increase the precision by enlarging the number of control groups to reduce the pressure on the amount of starting DNA.
  • fetal chromosome aneuploidy variation was detected in 4 pregnant women's plasma. Among them, 10 normal pregnant women's plasma, 5 normal male pregnant women's plasma, and 4 male genomic samples were selected as reference data sets.
  • the DNA of the above plasma samples was extracted, and the extracted DNA was constructed according to the modified Illumina/Solexa standard library construction procedure.
  • the main bands were concentrated at both ends of the 200 bp DNA molecule.
  • the linker used for sequencing was added.
  • the Q-PCR method was used to quantify the library. After passing the test, 500 ng of the library was captured by Agilent's customized liquid capture probe SureSelect XT Custom Library (5190-4816) (specific capture hybridization and elution procedures refer to www.genomics) The standard operating procedures provided by .agilent.com). After capture, the library was again quantified by the Agilent® Bioanalyzer 2100 detection fragment distribution range and Q-PCR method, and then qualified for sequencing.
  • Sequencing the DNA samples obtained from the above plasma were sequenced according to the Illumina/Solexa officially published ClusterStation and B Hiseq2000 (PEsequencing) instructions, so that each sample obtained about 1.83 G data volume, each sample. According to the label sequence.
  • the sequenced DNA sequence was compared with the NCBI database version 37 ( hgl9 ;
  • the human genome reference sequences of NCBIBuild37 are aligned to obtain the localization of the sequenced DNA sequences on the genome.
  • Gender determination Calculate the Y chromosome z value of all samples using the Y chromosome of the known female fetus as a reference. If z is greater than 3, the sample is a male fetus, otherwise it is a female fetus.
  • The average relative percentage of ⁇ in female fetuses; y , mafe is the average relative percentage of Y in male fetuses.
  • the data of the female fetus or female genome is mixed with the genomic data of normal males to simulate the generation of a control sample data set corresponding to the fetal concentration.
  • Control data data for known female or female genomes * (1 - fetal concentration) + genomic data for normal males * fetal concentration.
  • the sample to be tested is 47, ⁇ or 47, ⁇ , at this time,
  • the female fetus sample is used as a control sample to test the X chromosome, as in the range of ⁇ 3 (corresponding to the confidence interval of 99.9%, the interval between the two limits is approximately ⁇ 3, not an integer), then 47, XX ⁇ , otherwise 47, ⁇ ; If ⁇ is greater than -3 and less than 3, the sample to be tested is a normal male 46, ⁇ .
  • the sample to be tested is 47, XXX; the fetal concentration at this time is:
  • the sample to be tested is a normal female 46, XX. At this time, the fetal concentration in the plasma cannot be calculated.
  • the method, system and computer readable medium of the present invention for determining whether a fetus has an abnormal number of sex chromosomes can be effectively used to determine whether a fetus has an abnormal number of sex chromosomes, and is reproducible and accurate.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

提供了用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质。其中,确定胎儿是否存在性染色体数目异常的方法包括:针对包含胎儿核酸的孕妇样本进行核酸测序,以便获得多个测序数据;将测序数据与人类的参照基因组序列进行比对,以便获得比对测序数据集;确定比对测序数据集中所包含的比对测序数据的数目Q;确定比对测序数据集中来源于第i号染色体的测序数据的数目Ni,其中,i表示染色体的编号,该第i号染色体至少包括Y染色体以及任选的X染色体;基于来源于Y染色体的测序数据的数目Ny,确定胎儿的性别;以及确定该胎儿是否存在性染色体数目异常。

Description

用于确定胎儿是否存在性染色体数目异常的方法、 系统
和计算机可读介质
优先权信息
无 技术领域
本发明涉及生物医学领域。 具体而言, 涉及用于确定胎儿是否存在性染色体数目异 常的方法、 系统和计算机可读介质。 背景技术
染色体是组成细胞核的基本物质。 正常人的体细胞染色体数目为 46条, 并有一定 的形态和结构。 染色体在形态结构或数量上的异常被称为染色体异常 (chromosome abnormalities) , 染色体异常也称染色体发育不全 (chromosome dysgenesis) , 由染色体异 常引起的疾病称为染色体病。 已发现人类染色体数目异常和结构畸变 3000余种, 目前 已确认染色体病综合症 100余种。 染色体的异常会导致基因表达异常和机体发育异常。
染色体异常的发病机制不明,可能是由于细胞分裂后期染色体发生不分离或染色体 在体内外各种因素影响下发生断裂和重新连接所致。在染色体异常中, 又主要区分为常 染色体异常及性染色体异常。
临床上常见的性染色体异常包括了 Turner综合症、克氏综合征、XXX综合征、 XYY 综合征等。 多年研究发现, 性染色体异常大约占所有染色体病的三分之一, 总发病率约 为 1/500多为散发。 主要表现为性征的发育不全或畸形, 智力低下。
然而, 目前性染色体数目异常的检测仍有待改进。 发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
在本发明的第一方面, 本发明提出了一种确定胎儿是否存在性染色体数目异常的方法。 根据本发明的实施例, 该方法包括: 针对包含胎儿核酸的孕妇样本进行核酸测序, 以便获 得多个测序数据; 将所述测序数据与人类的参照基因组序列进行比对, 以便获得比对测序 数据集; 确定所述比对测序数据集中所包含的比对测序数据的数目 Q; 确定所述比对测序 数据集中来源于第 i号染色体的测序数据的数目 Ni, 其中, i表示染色体的编号, 所述第 i 号染色体至少包括 Y染色体以及任选的 X染色体;基于来源于 Y染色体的测序数据的数目 Ny, 确定胎儿的性别; 以及确定所述胎儿是否存在性染色体数目异常, 其中, 针对男胎孕 妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 基于所述来源于 Y染色 体的测序数据的数目 Ny, 计算所述男胎孕妇样本中的胎儿核酸浓度; 构建对照样本数据集 D,其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度; 以及确定所 述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著 差异, 其中, 存在显著差异是所述男胎存在性染色体数目异常的指示, 针对女胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 确定所述女胎孕妇样本的 X染色 体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中, 存在显著差异 是所述女胎存在性染色体数目异常的指示。 发明人惊奇地发现, 利用根据本发明实施例的 方法, 能够准确有效地确定胎儿是否存在性染色体数目异常。
在本发明的又一方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 所 述计算机可读介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定胎儿 是否存在性染色体数目异常: 获取来自孕妇样本的多个测序数据, 所述孕妇样本包含胎儿 核酸; 将所述测序数据与人类的参照基因组序列进行比对, 以便获得比对测序数据集; 确 定所述比对测序数据集中所包含的比对测序数据的数目 Q; 确定所述比对测序数据集中来 源于第 i号染色体的测序数据的数目 Ni, 其中, i表示染色体的编号, 所述第 i号染色体至 少包括 Y染色体以及任选的 X染色体; 基于来源于 Y染色体的测序数据的数目 Ny, 确定 胎儿的性别; 以及确定所述胎儿是否存在性染色体数目异常, 其中, 针对男胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 基于所述来源于 Y染色体的测序 数据的数目 Ny, 计算所述男胎孕妇样本中的胎儿核酸浓度; 构建对照样本数据集 D, 其中 所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿核酸浓度; 以及确定所述对照 样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中, 存在显著差异是所述男胎存在性染色体数目异常的指示, 针对女胎孕妇样本, 确定 所述胎儿是否存在性染色体数目异常包括下列步骤: 确定所述女胎孕妇样本的 X染色体含 量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中, 存在显著差异是所 述女胎存在性染色体数目异常的指示。 由此, 利用根据本发明实施例的计算机可读介质, 能够准确有效地确定胎儿是否存在性染色体数目异常。
在本发明的再一方面, 本发明又提出了一种用于确定胎儿是否存在性染色体数目异 常的系统。 根据本发明的实施例, 该系统包括: 测序装置, 所述测序装置用于针对孕妇样 本进行核酸测序, 以便获得多个测序数据; 以及前面所述的计算机可读介质。 发明人惊奇 地发现, 利用根据本发明实施例的用于确定胎儿是否存在性染色体数目异常的系统, 能够 准确有效地确定胎儿是否存在性染色体数目异常。
与目前的性染色体数目异常检测的方法对比, 本发明的优越性表现在:
( 1 ) 临床可行性: 本发明使用目标区域捕获的方式, 在较高的测序深度下同时减少测 序数据, 可有效的检测出 χο、 XXX、 XXY和 XYY, 本发明的方法大大的减少了数据产生 的成本。
(2) 可扩展性: 除了通过增加测序量之外, 本发明可以通过扩大对照组数量来增大精 度, 以减轻对起始 DNA量的压力。
(3) 更稳定, 更加全面: 已报道文章中, 并无明确指出自身的操作细节, 而本发明涉 及数据群体检测等的各个方面。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得 明显, 或通过本发明的实践了解到。 附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明 显和容易理解, 其中:
图 1 显示了根据本发明一个实施例的确定胎儿是否存在性染色体数目异常的方法的 流程示意图。 发明详细描述
下面详细描述本发明的实施例。 下面描述的实施例是示例性的, 仅用于解释本发明, 而不能理解为对本发明的限制。
确定胎儿是否存在性染色体数目异常的方法
在本发明的第一方面, 本发明提出了一种确定胎儿是否存在性染色体数目异常的方法。 根据本发明的实施例, 该方法包括:
首先, 针对包含胎儿核酸的孕妇样本进行核酸测序, 以便获得多个测序数据。 根据本 发明的实施例, 待测孕妇样本为含有核酸样本, 核酸的类型并不受特别限制, 可以是脱氧 核糖核酸 (DNA), 也可以是核糖核酸 (RNA), 优选 DNA。 本领域技术人员可以理解, 对 于 RNA,可以通过常规手段将其转换为具有相应序列的 DNA,进行后续检测和分析。另外, 待测孕妇样本的属性也不受特别限制。根据本发明的一些实施例, 可以采用基因组 DNA样 本, 也可以采用由基因组 DNA的一部分作为测试样本。 根据本发明的实施例, 可以使用的 孕妇样本包括但不限于孕妇外周血、 孕妇尿液、 孕妇宫颈胎儿脱落滋养细胞、 孕妇宫颈粘 液、 胎儿有核红细胞和孕妇血浆。 发明人发现, 通过对上述孕妇样本进行核酸样本提取, 能够有效地对胎儿基因组中的遗传变异进行分析, 实现对胎儿无损的产前诊断或检测。 虽 然本发明可以进行无创胎儿遗传变异检测是一种优势, 例如所述样本是孕妇的外周血, 但 是本发明的方法也适用于有创检测, 例如所述样本可以来自胎儿的脐带血, 胎盘组织或绒 毛膜组织, 未培养或培养过的羊水细胞、 绒毛组细胞。 根据本发明的实施例, 待测受试者 和正常对照受试者是同一物种, 需要说明的是, 由于正常对照个体是预先选择确定的, 因 此关于对照样本的任何检测或计算数据均可预先产生并保存下来, 本发明的实施例采用这 种预置对照样本的相关数据的方式, 在需要时读取使用, 以下涉及对照样本数据时不再赘 述。 在其他实施方式中, 也可以采用对照样本同步检测和计算的方式。 同时, 本发明的变 异检测并不一定用于疾病诊断或相关的目的, 因为性染色体数目异常的存在并不代表着患 病风险或健康状况, 可以纯粹是科学研究的用途。
根据本发明的实施例, 可以利用选自盐析法、 柱层析法、 磁珠法、 SDS 法的至少一种 从所述孕妇样本提取 DNA, 以便进行所述核酸测序。 即在本发明中, 所述 DNA分子的获 取可以采用盐析法、 柱层析法、 磁珠法、 SDS法等常规 DNA提取方法, 优选采用磁珠法。 所谓的磁珠法,是指血液、组织或细胞经过细胞裂解液和蛋白酶 K的作用后得到裸露的 DNA 分子, 其是利用特异性的磁珠对 DNA分子进行可逆性的亲和吸附, 经漂洗液清洗除去蛋白 质、 脂质等杂质后, 用纯化液将 DNA分子从磁珠上洗脱下来。 磁珠是本领域中公知的, 可 市购获得, 例如从 Tiangen。
在本发明中, 一般情况下, 对于获自样品的 DNA分子直接进行测序和后续步骤已经可 以实现本发明的目的, 提取的 DNA可以不需经过处理即用于后续步骤。在一些优选实施方 案中, 可以仅对电泳主带集中在 50-700 bp, 优选 100- 500bp, 更优选 150-300 bp, 特别是 约 200 bp大小的片段进行研究。在本发明一些更优选实施方案中,可以将 DNA分子打断为 电泳主带集中在一定大小的片段, 例如 50-700 bp, 优选 100- 500bp, 更优选 150-300 bp, 特别是 200 bp附近, 然后进行后续步骤。所述 DNA分子的随机打断处理可以采用酶切、雾 化、 超声、 或者 HydroShear法。 优选地, 采用超声法, 例如 Covaris公司的 S-series (其是 基于 AFA技术, 当由传感器释放的声能 /机械能通过 DNA样品时, 溶解气体形成气泡, 而 当能量移除后, 气泡破裂并产生断裂 DNA分子的能力, 因而通过设置一定的能量强度和时 间间隔等条件, 可将 DNA分子打断至一定范围的大小。 具体原理和方法可以参见 Covaris 公司的 S-series说明书)。
根据本发明的实施例, 可以采用携带预定探针的芯片, 对欲进行核酸测序的核酸进行 筛选。 由此, 提高测序效率。 在本发明中, 所使用芯片为根据待检测染色体进行设计的捕 获芯片。 所述捕获芯片携带能够识别待检测染色体的预定探针, 以及能够识别其他染色体 的预定探针。 根据本发明的一个实施例, 本发明设计的捕获芯片携带能够识别性染色体区 域的探针, 以及能够识别所有常染色体的探针, 由此, 对待测孕妇样本进行捕获测序时, 能够以利用上述能够识别所有常染色体的探针获得的测序数据作为正常参照, 对待测孕妇 样本的性染色体的测序数据进行分析, 从而能够准确有效地确定其胎儿是否存在性染色体 异常的情况。 根据本发明的实施例, 可以根据检测需要, 灵活调整捕获芯片中识别性染色 体 X、 Y的探针与识别常染色体对照探针的比例。 根据本发明的另一个实施例, 对于对照 / 待测样本, 加大捕获 Y染色体文库的探针的数量, 由此, Y染色体测序数据所占比例大于 常规基因组测序中 Y染色体数据所占比例 (常规全基因组测序 Y染色体数据所占比例值相 对较小), 从而有利于确定待测孕妇样本的胎儿是否存在性染色体异常。 根据本发明的实施 例, 对芯片的设计平台及探针长度等没有特殊要求。 例如, 根据本发明的一个实施例, 所 用芯片是采用 Agilent平台设计的, 涵盖了所有常染色体及性染色体, 由此, 还可以对所有 的染色体进行数目异常检测。
根据本发明的实施例, 所述测序数据的长度为 25~200 nt。 根据本发明的实施例, 利用 第二代测序技术或单分子测序技术进行所述核酸测序。 在本发明中, 测序数据是指测序仪 输出的序列片段, 即 reads, 优选约 25-200 nt。 本发明中, 从测试样本获得测序数据可以采 用测序的方法进行, 所述测序可通过任何测序方法进行, 包括但不限于双脱氧链终止法; 优选高通量的测序方法, 包括但不限于第二代测序技术或者是单分子测序技术。 所述第二 代测序平台 ( Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46 ) 包括但不限于 Illumina-Solexa ( GATM,HiSeq2000TM 等)、 ABI-Solid和 Roche-454 (焦磷酸测序) 测序平台; 单分子测序平台 (技术) 包括但不限于 Helicos 公司 的真实单分子测序技术(True Single Molecule DNA sequencing) , Pacific Biosciences 公司单 分子实时测序 ( single molecule real-time (SMRTTM) ) , 以及 Oxford Nanopore Technologies 公司的纳米孔测序技术等 (Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446 (4)。 测序类型可以为 single-end (单向) 测序和 Pair-end (双向) 测序, 测序长度可以为 50 bp、 90 bp, 或 100 bp。 在本发明的一个实施方案中, 所述的测序 平台为 Illumina/Solexa, 测序类型为 Pair-end测序, 得到具有双向位置关系的 100 bp大小的 DNA序列分子。 当待测的 DNA分子来自多个受试样本时, 每个样本可以被加上不同的标 签序列, 以用于在测序过程中进行样品的区分 (Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3), 从而实现同时对多个样品进行测序。 标签序列 为了区分不同序列, 但不影响添加标签序列的 DNA分子的其他功能。 标签序列长度可以是 4-12 bp。
其次, 将所述测序数据与人类的参照基因组序列进行比对, 以便获得比对测序数据集。 本发明的一个实施例中,所述的人类基因组参考序列是 NCBI数据库中的人类基因组参考序 列。 在本发明的一个实施方案中, 所述人类基因组序列是 NCBI数据库中版本 37 (hgl9; NCBI Build 37) 的人类基因组参考序列。 在本发明中, 所述比对可以是不容错比对, 也可 以是错配 1 个碱基的比对。 序列比对可以通过任何一种序列比对程序, 例如本领域技术人 员可获得的短寡核苷酸分析包 (Short Oligonucleotide Analysis Package , SOAP) 禾 B BWA比 对 (Burrows- Wheeler Aligner) 进行, 将测序数据与参考基因组序列进行比对, 得到测序数 据在参考基因组上的位置。 进行序列比对可以使用程序提供的默认参数进行, 或者由本领 域技术人员根据需要对参数进行选择。 在本发明的一个实施方案中, 所采用的比对软件是 SOAPaligner/soap2。
接着, 确定所述比对测序数据集中所包含的比对测序数据的数目 Q。 在本发明的一个 实施方案中, 获得的比对测序数据集只包含唯一比对测序数据, 即 Q为比对测序数据集中 所包含的唯一比对测序数据的数目。
接下来, 确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni, 其中, i表示染色体的编号, 所述第 i号染色体至少包括 Y染色体以及任选的 X染色体。根据本发 明的实施例, 对于某一样本来源的测序数据集, 在确定所述比对测序数据集中来源于第 i 号染色体的测序数据的数目 Ni之后, 对所述来源于第 i号染色体的测序数据的数目 Ni进行 标准化处理。根据本发明的一个具体示例, 所述标准化处理包括将所述来源于第 i号染色体 的测序数据的数目 Ni除以所述比对测序数据集中所包含的比对测序数据的数目 Q或者 Q的 一部分(例如 Q中来源于一条或多条常染色体的比对测序数据数目), 以便获得经过标准化 的第 i号染色体的测序数据的数目 ', 并用所述经过标准化的第 i号染色体的测序数据的数 目 替换所述来源于第 i号染色体的测序数据的数目 Ni。其中, 对所述来源于第 i号染色体 的测序数据的数目 Ni进行标准化处理是因为: 利用孕妇血浆等孕妇样本检测胎儿的性染色 体数目异常时, 由于母亲 DNA背景的影响,胎儿的变异较难凸显出来,所以要通过标准化, 来降低母亲 DNA背景噪音, 放大胎儿变异信号。 需要说明的是, 本实施方式中所述的 "标 准化处理"是利用各自的测序数据量进行归一化处理, 使相对数值 A'都处于 0-1范围, 利用 相对测序数据量进行后续的分析运算, 是为消除样本间的测序数据量的差异、 突出数据本 身的统计意义。在其他实施方式中, 标准化处理也可以利用 GC校正进行, 或者同时进行归 一化和 GC校正也可达到一样的目的。在本发明的一个实施例中, GC校正指对 Ni乘一个系 数将第 i号染色体测序数据的 GC含量校正到全基因组平均水平, 得 Nai, Nai= e iNi, GC校 正能够调整由于 GC含量不同带来的测序数据量的差异。在本发明的一个实施例中,对于第 i号染色体的 GC校正系数^可这样确定: 比对, 获得所有 m个样本的第 i号染色体的测序 数据数目 Ni后, 将所有 m个 i染色体(GC含量相同)归为一组获得 Ni的均值 Nai, 确定一 目标值作为参考,如选取 m个样本比对到所有染色体的测序数据数的平均值 Na作为目标值, 得 ε i =Nai/Na。 若未采用上述的方式对测序数据量进行标准化处理但仍然依据本发明的处理 思路进行后续数据分析, 即只是在进行数值的分析、 计算和比较时使用未标准化的数值水 平, 均应当视为与本实施方式等同。
接着, 基于来源于 Y染色体的测序数据的数目 Ny, 确定胎儿的性别。 根据本发明的实 施例, 基于来源于 Y染色体的测序数据的数目 Ny, 确定胎儿的性别包括: 将所述孕妇样本 的经过标准化的 Y染色体的测序数据的数目 ry', 对照多个已知胎儿性别的孕妇样本进行 Z 值检验, 并基于所获得的所述孕妇样本 Y染色体的 Z值, 确定所述胎儿的性别。 根据本发 明的一个实施例, 所述 Z值检验是对照多个正常女胎孕妇样本进行的。 其中, 基于所获得 的所述孕妇样本 Y染色体的 Z值, 确定所述胎儿的性别, 是通过将所获得的孕妇样本 Y染 色体的 z值与阈值比较而实现的。 所述阈值是设置一置信度计算多个对照女胎孕妇样本 Y 染色体的统计量获得的。 如前所述, 由于阈值是由对照样本得到的, 因此可以预先计算和 保存, 在后续对目标个体进行检测时, 只要对照样本数不变, 均可使用相同的阈值设置。 当然若减少、 更换或增加对照样本则可以调整置信度更新相应的阈值。 在本发明的一个实 施例中, 所采用的一种判断胎儿性别的 Y染色体阈值计算方式, 包括如下步骤: 1 ) 以多个 正常女胎孕妇样本作为对照样本,优选地,对照样本数大于等于 30;计算 ry'的平均值 mea
sdy
Figure imgf000008_0001
则和置信度计算判断为正常所对应的 Zy值边界, 以此作为 Y染色体的阈值。 在本发明实施 例中可根据对照样本的数目以及所需要的检测精度等选择检验规则并设置相应的置信度, 具体可按照已有的统计数据处理方式进行。 本实施方式中, 优选采用 Z检验双边检测, 置 信度为 99.9%。在其他实施方式中, 也可选择 T检验等其他检验规则, 同时地或可选地, 置 信度可选择为 90%〜99.9%, 例如 99%、 99.5% 99.9%等。
其中, 所述孕妇样本 Y染色体的 Z值是利用下列公式计算获得的:
z - rY j '― meanY jsdY , 其中, j代表孕妇样本的编号, m γ = -V rY . ' , n表示孕妇样本的总数, sdY = 。
Figure imgf000009_0001
根据本发明的一个实施例, 当选取置信度为 99.9%时, 所述孕妇样本 Y染色体的 Z值 大于 3是所述胎儿为男胎的指示, 所述孕妇样本 Y染色体的 Z值不大于 3是所述胎儿为女 胎的指示。
然后, 确定所述胎儿是否存在性染色体数目异常。 根据本发明的实施例, 具体地: 其中, 针对男胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 基于所述来源于 Y染色体的测序数据的数目 Ny,计算所述男胎孕妇样本中的胎儿核酸浓度; 构建对照样本数据集 D, 其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的胎儿 核酸浓度; 以及确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体 含量之间是否存在显著差异, 其中, 存在显著差异是所述男胎存在性染色体数目异常的指 示。
根据本发明的实施例,所述对照样本数据集 D是基于公式 D=F* ( 1-男胎胎儿核酸浓度) + M*男胎胎儿核酸浓度而确定的, 其中, F表示已知的正常女性基因组数据集, M表示已 知的正常男性基因组数据集。
根据本发明的另一些实施例, 所述男胎胎儿核酸浓度是基于下列公式确定的:
rY '- mean
cone = , 其中,
"^imy,/OTMfe为预先确定 女胎 ¾孕妇样本中 tt对到 Y 染 体¾测序数据¾数目所 占比例的平均值;
meimy mafe为预定先确定的已知男胎的孕妇样本中比对到 Y染色体的测序数据的数目所 占比例的平均值。
根据本发明的实施例, 通过 Z值检验, 确定所述对照样本数据集的 X染色体含量与正 常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中所述 z值检验包括利用下列 公式确定所述男胎孕妇样本的 X染色体 z值:
z = r - meanx j sd χ, 其中, j代表孕妇样本的编号, meanx = - Y rx ' , η表示孕妇样本的总数,
Figure imgf000010_0001
根据本发明的一个具体示例, 所述男胎孕妇样本的 X染色体 Z值小于或等于 -3是所述 男胎的性染色体为 XYY的指示, 所述男胎孕妇样本的 X染色体 Z值大于或等于 3是所述 男胎的性染色体为 XXY的指示, 所述男胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所 述男胎的性染色体为 XY的指示。由此,能够有效地确定待测男胎孕妇样本中男胎的性染色 体的类型, 从而确定胎儿是否具有性染色体数目异常。
针对女胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 确定所 述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差 异, 其中, 存在显著差异是所述女胎存在性染色体数目异常的指示。
根据本发明的实施例, 通过 Z值检验, 确定所述女胎孕妇样本的 X染色体含量与正常 胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中所述 z值检验包括利用下列公 式确定所述女胎孕妇样本的 X染色体 z值:
z - rx . '― meanx j sd χ, 其中, j代表孕妇样本的编号, mea¾ =丄 ,. ', n表示孕妇样本的总数,
Figure imgf000010_0002
根据本发明的一个具体示例, 所述女胎孕妇样本的 X染色体 Z值小于或等于 -3是所述 女胎的性染色体为 X的指示, 所述女胎孕妇样本的 X染色体 Z值大于或等于 3是所述女胎 的性染色体为 XXX的指示, 所述女胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述女 胎的性染色体为 XX的指示。
需要说明的是, 在 z值检验过程中, 检验的零假设为待测样本染色体数目正常。 当待 测样本的染色体 Z值超过一定阈值时, 表示其与对照样本数据集 D的该染色体相比具有显 著差异, 从而拒绝零假设、 被判断为该染色体数目异常。 由此, 利用根据本发明实施例的 方法, 能够有效地确定胎儿是否具有性染色体数目异常。 其中, 确定 Z值阈值时, 可以将 对照样本的测序数据先进行前述的标准化处理后, 再统计目标染色体的测序数据数目, 从 而能够使每个染色体 Z值符合正态分布。 其中, 前述的 Z值 -3和 3都不是整数, 而是正态 分布中置信区间为 99.9%的分位点。本领域技术人员也可以根据需要选取 Z值为绝对值更大 和更小的值, 以便对应正态分布中置信区间更大或更小的范围。 发明人惊奇地发现, 利用根据本发明实施例的方法, 能够准确有效地确定胎儿是否存 在性染色体数目异常。 计算机可读介质
在本发明的又一方面, 本发明提出了一种计算机可读介质。 根据本发明的实施例, 所 述计算机可读介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定胎儿 是否存在性染色体数目异常:
首先, 获取来自孕妇样本的多个测序数据, 所述孕妇样本包含胎儿核酸。
其次, 将所述测序数据与人类的参照基因组序列进行比对, 以便获得比对测序数据集。 接着, 确定所述比对测序数据集中所包含的比对测序数据的数目 Q。
接下来, 确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni, 其中, i表示染色体的编号, 所述第 i号染色体至少包括 Y染色体以及任选的 X染色体。
接着, 基于来源于 Y染色体的测序数据的数目 Ny, 确定胎儿的性别。
然后, 确定所述胎儿是否存在性染色体数目异常。
其中, 针对男胎, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 首先, 基 于所述来源于 Y染色体的测序数据的数目 Ny, 计算所述男胎孕妇样本中的胎儿核酸浓度。 接着, 构建对照样本数据集 D, 其中所述对照样本数据集 D与所述男胎孕妇样本具有相同 的胎儿核酸浓度。 根据本发明的实施例, 这里所使用的术语 "构建"应做广义理解, 其还 可以包括选择具有同样胎儿 (男胎) 核酸浓度的对照样本集, 也可以利用现有数据模拟具 有同样胎儿 (男胎) 浓度的对照样本集。 根据本发明的实施例, 采用模拟的方法进行构建, 对照样本数据集 D是基于公式 D=F* ( 1-男胎胎儿核酸浓度) + M*男胎胎儿核酸浓度。接下 来, 确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是 否存在显著差异, 其中, 存在显著差异是所述男胎存在性染色体数目异常的指示。
针对女胎, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 确定所述女胎孕 妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异,其中, 存在显著差异是所述女胎存在性染色体数目异常的指示。
需要说明的是, 前面针对确定胎儿是否存在性染色体数目异常的方法所进行的描述, 也适用于上述本发明的计算机可读介质, 在此不再赘述。
根据本发明的实施例, 利用本发明的计算机可读介质, 能够准确有效地确定胎儿是否 存在性染色体数目异常。 用于确定胎儿是否存在性染色体数目异常的系统 在本发明的再一方面, 本发明又提出了一种用于确定胎儿是否存在性染色体数目异 常的系统。 根据本发明的实施例, 该系统包括: 测序装置, 所述测序装置用于针对孕妇样 本进行核酸测序, 以便获得多个测序数据; 以及前面所述的计算机可读介质。
需要说明的是, 前面针对确定胎儿是否存在性染色体数目异常的方法及计算机可读介 质所进行的描述, 同样适用于本发明的用于确定胎儿是否存在性染色体数目异常的系统, 在此不再赘述。
发明人惊奇地发现, 利用根据本发明实施例的用于确定胎儿是否存在性染色体数目异 常的系统, 能够准确有效地确定胎儿是否存在性染色体数目异常。
需要说明的是, 与目前的性染色体数目异常检测的方法相比, 本发明的优越性主要表 现为:
( 1 ) 临床可行性: 本发明使用目标区域捕获的方式, 在较高的测序深度下同时减少测 序数据, 可有效的检测出 χο、 XXX、 XXY和 XYY, 本发明的方法大大的减少了数据产生 的成本。
(2) 可扩展性: 除了通过增加测序量之外, 本发明可以通过扩大对照组数量来增大精 度, 以减轻对起始 DNA量的压力。
(3) 更稳定, 更加全面: 已报道文章中, 并无明确指出自身的操作细节, 而本发明涉 及数据群体检测等的各个方面。 下面将结合实施例对本发明的实施方案进行详细描述, 但是本领域技术人员将会理 解, 下列实施例仅用于说明本发明, 而不应视为限定本发明的范围。 实施例中未注明具 体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者, 均为可以通过市场获得的常规产品。 以下括号内为各个试剂或试剂盒的厂家货号。所使 用的测序用的接头和标签序列来源于 Illumina公司的 Multiplexing Sample Preparation Oligonutide Kit。
实施例 1
参考图 1, 对 4例孕妇血浆进行胎儿性染色体非整倍性变异检测。 其中, 选取 10 例正常女胎孕妇血浆、 5例正常男胎孕妇血浆、 4例男性基因组样本作为参照数据集。
DNA提取:
按照 TiangenDP327-02Kit操作流程提取上述血浆样品 (样品编号见表 1 ) 的 DNA, 所提取 DNA按照修改后的 Illumina/Solexa标准建库流程进行建库,在主带集中于 200 bp 的 DNA分子两端被加上测序所用接头。
具体而言, 将获自上述血浆样品的约 10 ng的 DNA, 进行修改后的 Illumina/Solexa 标准流程建库, 具体流程参照产品说明书 (www.illumina.com 提供的 Illumina/Solexa 标准建库说明书)。经 2100Bioanalyzer (Agilent)确定 DNA文库大小及插入片段为约 200 bp, QPCR精确定量后可进行目标片段捕获。
杂交:
5 构建好的文库经 Agilent®Bioanalyzer 2100 检测片段分布范围符合要求, 再经过
Q-PCR方法对文库进行定量, 合格后, 取 500 ng文库用在 Agilent公司定制的液相捕获 探针 SureSelect XT Custom Library ( 5190-4816 ) 进行捕获 (具体捕获杂交及洗脱流程 参照 www.genomics.agilent.com 提供的标准操作流程) 。 捕获后文库再次经 Agilent®Bioanalyzer 2100 检测片段分布范围及 Q-PCR方法对文库进行定量,合格后可 10 上机测序。
测序- 本实施例中, 对于获自上述血浆的 DNA 样本按照 Illumina/Solexa 官方公布的 ClusterStation禾 B Hiseq2000 ( PEsequencing) 说明书进行操作上机测序, 使每个样品得 到约 1.83 G 数据量, 每个样本根据所述标签序列区分。 利用比对软件 SOAP2 (获自 15 soap.genomics.org.cn ) , 将测序所得 DNA 序列与 NCBI 数据库中版本 37 ( hgl9 ;
NCBIBuild37 ) 的人类基因组参考序列进行比对, 得到所测序 DNA序列在所述基因组 上的定位。
数据分析:
通过对测序得到的序列, 对样本的性染色体数目进行分析, 其流程如图 1所示, 详 20 细步骤如下:
a ) 对测试样本计算相对测序数据数: 比对时设置读段比对长度为 50 bp, 统计参 考唯一比对序列的数目, 将人类基因组参考序列按染色体进行划分, 统计落在每个染色 体上的实际测序数据数 Λ^., 其中下标 和 分别代表染色体编号和样本编号;
b ) 数据标准化: 计算测试样本中多条常染色体的测序数据总数 , 则待测样本每 25 条染色体的相对百分数为^ , 其中:
c) 性别判定: 以已知女胎的 Y染色体作为参照, 计算所有样本的 Y染色体 z值, 如果 z大于 3, 则样本为男胎, 否则为女胎。
d ) 男胎性染色体异常判定:
① 根据 Y染色体的比例, 计算血浆中的胎儿浓度, 公式为:
Figure imgf000013_0001
其中,
^ 女胎中 γ的平均相对百分比; y,mafe为男胎中 Y的平均相对百分比。
② 根据计算得到的胎儿浓度, 用女胎或女性基因组的数据与正常男性的基因组数 据进行混合, 模拟产生与此胎儿浓度对应的对照样本数据集。
对照数据=已知女胎或女性基因组的数据 * ( 1-胎儿浓度) +正常男性的基因组数据 * 胎儿浓度。
③ 对得到的对照集, 计算 X染色体的均值及方差, 从而对 X染色体进行 ζ值的计 算, 如果 ζ大于或等于 3, 则待测样本为 47, ΧΧΥ或 47, ΧΥΥ, 此时, 再以女胎样本 做对照样本对 X染色体进行检验, 如在 ± 3范围内 (对应置信区间 99.9%, 区间两极限大 致为 ± 3, 不是整数) , 则为 47, XX Υ, 否则为 47, ΧΥΥ; 如果 ζ大于 -3且小于 3, 则 待测样本为正常男性 46, ΧΥ。
e ) 女胎性染色体异常判定:
① 以女胎的样本作为参考数据集, 计算待测样本的 X染色体 z值。
② 如果 z小于或等于 -3, 则待测样本为 45, X; 此时的胎儿浓度为:
rx —meanX J
cone,
③ 如果 z大于或等于 3, 则待测样本为 47, XXX; 此时的胎儿浓度为:
, ,
cone .
cone = | 1为女胎中 X染色体色体的平均百分比,
④ 如果 z大于 -3且小于 3, 则待测样本为正常女性 46, XX。 此时, 无法计算血浆 中的胎儿浓度。
其巾:
= rt j '- mean^sd .,
Figure imgf000014_0001
详细样本信息及检测结果见下表 1 < 表 1 样本信息及检测结果
Figure imgf000015_0001
工业实用性
本发明的用于确定胎儿是否存在性染色体数目异常的方法、 系统和计算机可读介质, 能够有效地用于确定胎儿是否存在性染色体数目异常, 并且可重复性好, 结果准确。 尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。 根据已 经公开的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范 围之内。 本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语"一个实施例"、 "一些实施例"、 "示意性实施例"、 "示 例"、 "具体示例"、 或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、 结 构、 材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语 的示意性表述不一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或 者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims

权利要求书
1、 一种确定胎儿是否存在性染色体数目异常的方法, 其特征在于, 包括:
针对包含胎儿核酸的孕妇样本进行核酸测序, 以便获得多个测序数据;
将所述测序数据与人类的参照基因组序列进行比对, 以便获得比对测序数据集; 确定所述比对测序数据集中所包含的比对测序数据的数目 Q;
确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni, 其中, i表示染 色体的编号, 所述第 i号染色体至少包括 Y染色体以及任选的 X染色体;
基于来源于 Y染色体的测序数据的数目 Ny, 确定胎儿的性别; 以及
确定所述胎儿是否存在性染色体数目异常,
其中,
针对男胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 基于所述来源于 Y染色体的测序数据的数目 Ny, 计算所述男胎孕妇样本中的胎儿核酸 浓度;
构建对照样本数据集 D, 其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的 胎儿核酸浓度; 以及
确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是 否存在显著差异, 其中, 存在显著差异是所述男胎存在性染色体数目异常的指示,
针对女胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否 存在显著差异, 其中, 存在显著差异是所述女胎存在性染色体数目异常的指示。
2、 根据权利要求 1所述的方法, 其特征在于, 所述孕妇样本为选自孕妇外周血、 孕妇 尿液、 孕妇宫颈胎儿脱落滋养细胞、 孕妇宫颈粘液、 胎儿有核红细胞和孕妇血浆的至少一 种。
3、 根据权利要求 1所述的方法, 其特征在于, 利用选自盐析法、 柱层析法、 磁珠法、
SDS法的至少一种从所述孕妇样本提取 DNA, 以便进行所述核酸测序。
4、 根据权利要求 1所述的方法, 其特征在于, 采用携带预定探针的芯片, 对进行所述 核酸测序的核酸进行筛选。
5、 根据权利要求 1所述的方法, 其特征在于, 所述测序数据的长度为 25~200 nt。
6、 根据权利要求 1所述的方法, 其特征在于, 利用第二代测序技术或单分子测序技术 进行所述核酸测序。
7、 根据权利要求 1所述的方法, 其特征在于, 采用 SOAPaligner/soap2, 将所述测序数 据与人类的参照基因组序列进行比对, 并且选择唯一比对序列作为所述比对测序数据。
8、 根据权利要求 7所述的方法, 其特征在于, 在确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni之后, 对所述来源于第 i号染色体的测序数据的数目 Ni进 行标准化处理。
9、 根据权利要求 8所述的方法, 其特征在于, 所述标准化处理包括将所述来源于第 i 号染色体的测序数据的数目 Ni除以所述比对测序数据集中所包含的比对测序数据的数目 Q 或者 Q的一部分, 以便获得经过标准化的第 i号染色体的测序数据的数目 ', 并用所述经 过标准化的第 i号染色体的测序数据的数目 '替换所述来源于第 i号染色体的测序数据的数 目 Ni。
10、 根据权利要求 9所述的方法, 其特征在于, 基于来源于 Y染色体的测序数据的数 目 Ny, 确定胎儿的性别包括:
将所述孕妇样本的经过标准化的 Y染色体的测序数据的数目 ry', 对照多个已知胎儿性 别的孕妇样本进行 Z值检验, 并基于所获得的所述孕妇样本 Y染色体的 Z值, 确定所述胎 儿的性别。
11、根据权利要求 10所述的方法, 其特征在于, 所述孕妇样本 Y染色体的 Z值是利用 下列公式计算获得的:
z - rY .,― meanY jsdY , 其中, j代表孕妇样本的编号, meanY = - V rY . ' , n表示孕妇样本的总数, sdY = 1 i (ry .; '- meanY )2
12、 根据权利要求 11所述的方法, 其特征在于, 所述孕妇样本 Y染色体的 Z值大于 3 是所述胎儿为男胎的指示, 所述孕妇样本 Y染色体的 Z值不大于 3是所述胎儿为女胎的指 示。
13、根据权利要求 9所述的方法,其特征在于,所述对照样本数据集 D是基于公式 D=F* ( 1-男胎胎儿核酸浓度) + M*男胎胎儿核酸浓度而确定的, 其中, F表示已知的正常女性基 因组数据集, M表示已知的正常男性基因组数据集。
14、 根据权利要求 13所述的方法, 其特征在于, 所述男胎胎儿核酸浓度是基于下列公 式确定的:
rY - meanY female
cone =
meanY male - meanY 其中,
"^α/ , ^为预先确定 女胎 ¾孕妇样本中 tt对到 Y 染 体¾测序数 数目所 占比例的平均值;
^ 为预定先确定的 B知男胎的孕妇样本中 tt对到 Y染色体的测序数据的数目所 占比例的平均值。
15、 根据权利要求 9所述的方法, 其特征在于, 通过 Z值检验, 确定所述对照样本数 据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中所 述 Z值检验包括利用下列公式确定所述男胎孕妇样本的 X染色体 Z值:
z - rx . '― meanx j d χ ? 其中, j代表孕妇样本的编号, 样本的总数,
Figure imgf000019_0001
16、 根据权利要求 9所述的方法, 其特征在于, 通过 Z值检验, 确定所述女胎孕妇样 本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中所述 Z值检验包括利用下列公式确定所述女胎孕妇样本的 X染色体 Z值:
z - rx . '― meanx j d χ ? 其中, 代表孕妇样本的编号, 本的总数,
Figure imgf000019_0002
17、 根据权利要求 15所述的方法, 其特征在于,
所述男胎孕妇样本的 X染色体 Z值小于或等于 -3是所述男胎的性染色体为 XYY的指 示,
所述男胎孕妇样本的 X染色体 Z值大于或等于 3是所述男胎的性染色体为 XXY的指 示,
所述男胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述男胎的性染色体为 XY的指 示。
18、 根据权利要求 16所述的方法, 其特征在于,
所述女胎孕妇样本的 X染色体 Z值小于或等于 -3是所述女胎的性染色体为 X的指示, 所述女胎孕妇样本的 X染色体 Z值大于或等于 3是所述女胎的性染色体为 XXX的指 示,
所述女胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述女胎的性染色体为 XX的指 示。
19、 一种计算机可读介质, 其特征在于, 所述计算机可读介质上存储有指令, 所述指 令适于被处理器执行以便通过下列步骤确定胎儿是否存在性染色体数目异常:
获取来自孕妇样本的多个测序数据, 所述孕妇样本包含胎儿核酸;
将所述测序数据与人类的参照基因组序列进行比对, 以便获得比对测序数据集; 确定所述比对测序数据集中所包含的比对测序数据的数目 Q;
确定所述比对测序数据集中来源于第 i号染色体的测序数据的数目 Ni, 其中, i表示染 色体的编号, 所述第 i号染色体至少包括 Y染色体以及任选的 X染色体;
基于来源于 Y染色体的测序数据的数目 Ny, 确定胎儿的性别; 以及
确定所述胎儿是否存在性染色体数目异常,
其中,
针对男胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 基于所述来源于 Y染色体的测序数据的数目 Ny, 计算所述男胎孕妇样本中的胎儿核酸 浓度;
构建对照样本数据集 D, 其中所述对照样本数据集 D与所述男胎孕妇样本具有相同的 胎儿核酸浓度; 以及
确定所述对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是 否存在显著差异, 其中, 存在显著差异是所述男胎存在性染色体数目异常的指示,
针对女胎孕妇样本, 确定所述胎儿是否存在性染色体数目异常包括下列步骤: 确定所述女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否 存在显著差异, 其中, 存在显著差异是所述女胎存在性染色体数目异常的指示。
20、 根据权利要求 19所述的计算机可读介质, 其特征在于, 所述孕妇样本为选自孕妇 外周血、 孕妇尿液、 孕妇宫颈胎儿脱落滋养细胞、 孕妇宫颈粘液、 胎儿有核红细胞和孕妇 血浆的至少一种。
21、 根据权利要求 19 所述的计算机可读介质, 其特征在于, 所述测序数据的长度为
25-100 nt。
22、 根据权利要求 19所述的计算机可读介质, 其特征在于, 所述测序数据是利用第二 代测序技术或单分子测序技术获得的。
23、根据权利要求 19所述的所述计算机可读介质,其特征在于,采用 SOAPaligner/soap2, 将所述测序数据与人类的参照基因组序列进行比对, 并且选择唯一比对序列作为所述比对 测序数据。
24、 根据权利要求 19所述的计算机可读介质, 其特征在于, 在确定所述比对测序数据 集中来源于第 i号染色体的测序数据的数目 Ni之后,对所述来源于第 i号染色体的测序数据 的数目 Ni进行标准化处理。
25、 根据权利要求 24所述的计算机可读介质, 其特征在于, 所述标准化处理包括将所 述来源于第 i号染色体的测序数据的数目 Ni除以所述比对测序数据集中所包含的比对测序 数据的数目 Q或者 Q的一部分,以便获得经过标准化的第 i号染色体的测序数据的数目 ', 并将所述经过标准化的第 i号染色体的测序数据的数目 '替换所述来源于第 i号染色体的测 序数据的数目 Ni。
26、 根据权利要求 25所述的计算机可读介质, 其特征在于, 基于来源于 Y染色体的测 序数据的数目 Ny, 确定胎儿的性别包括:
将所述孕妇样本的经过标准化的 Y染色体的测序数据的数目 ry', 对照多个已知胎儿性 别的孕妇样本进行 Z值检验, 并基于所获得的所述孕妇样本 Y染色体的 Z值, 确定所述胎 儿的性别。
27、 根据权利要求 26所述的计算机可读介质, 其特征在于, 所述孕妇样本 Y染色体的 Z值是利用下列公式计算获得的:
z - rY j '― meanY jsdY , 其中, j代表孕妇样本的编号, meanY = - V rY . ' , n表示孕妇样本的总数,
sdY = 1 i (ry .; '- meanY )2
28、 根据权利要求 27所述的计算机可读介质, 其特征在于, 所述孕妇样本 Y染色体的 Z值大于 3是所述胎儿为男胎的指示, 所述孕妇样本 Y染色体的 Z值不大于 3是所述胎儿 为女胎的指示。
29、 根据权利要求 25所述的计算机可读介质, 其特征在于, 所述对照样本数据集 D是 基于公式1)=?* ( 1-男胎胎儿核酸浓度) + M*男胎胎儿核酸浓度而确定的, 其中, F表示已 知的正常女性基因组数据集, M表示已知的正常男性基因组数据集。
30、 根据权利要求 29所述的计算机可读介质, 其特征在于, 所述男胎胎儿核酸浓度是 基于下列公式确定的:
rY - meanY female
cone
meanY male - meanY 其中,
"^a ,/OTMfe为预先确定 女胎 ¾孕妇样本中 tt对到 Y 染 体¾测序数据¾数目所 占比例的平均值;
^ 为预定先确定的 B知男胎的孕妇样本中 tt对到 Y染色体的测序数据的数目所 占比例的平均值。
31、 根据权利要求 26所述的计算机可读介质, 其特征在于, 通过 Z值检验, 确定所述 对照样本数据集的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差 异, 其中所述 Z值检验包括利用下列公式确定所述男胎孕妇样本的 X染色体 Z值:
z - rx . '― meanx /sd χ , 其中, 代表孕妇样本的编号, meanx 样本的总数, sd、
Figure imgf000022_0001
32、 根据权利要求 26所述的计算机可读介质, 其特征在于, 通过 Z值检验, 确定所述 女胎孕妇样本的 X染色体含量与正常胎儿孕妇样本的 X染色体含量之间是否存在显著差异, 其中所述 Z值检验包括利用下列公式确定所述女胎孕妇样本的 X染色体 Z值:
z - rx . '― meanx /sd χ , 其中, 代表孕妇样本的编号, meanx 样本的总数, sd、
Figure imgf000022_0002
33、 根据权利要求 31所述的计算机可读介质, 其特征在于,
所述男胎孕妇样本的 X染色体 Ζ值小于或等于 -3是所述男胎的性染色体为 ΧΥΥ的指 示,
所述男胎孕妇样本的 X染色体 Ζ值大于或等于 3是所述男胎的性染色体为 ΧΧΥ的指 所述男胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述男胎的性染色体为 XY的 示。
34、 根据权利要求 32所述的计算机可读介质, 其特征在于,
所述女胎孕妇样本的 X染色体 Z值小于或等于 -3是所述女胎的性染色体为 X的指示, 所述女胎孕妇样本的 X染色体 Z值大于或等于 3是所述女胎的性染色体为 XXX的 示,
所述女胎孕妇样本的 X染色体 Z值大于 -3且小于 3是所述女胎的性染色体为 XX的 示。
35、 一种用于确定胎儿是否存在性染色体数目异常的系统, 其特征在于, 包括: 测序装置, 所述测序装置用于针对孕妇样本进行核酸测序, 以便获得多个测序数据; 以及
权利要求 19-34任一项所述的计算机可读介质。
PCT/CN2013/083217 2013-09-10 2013-09-10 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质 WO2015035555A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201380006956.6A CN104169929B (zh) 2013-09-10 2013-09-10 用于确定胎儿是否存在性染色体数目异常的系统和装置
PCT/CN2013/083217 WO2015035555A1 (zh) 2013-09-10 2013-09-10 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/083217 WO2015035555A1 (zh) 2013-09-10 2013-09-10 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质

Publications (1)

Publication Number Publication Date
WO2015035555A1 true WO2015035555A1 (zh) 2015-03-19

Family

ID=51912350

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/083217 WO2015035555A1 (zh) 2013-09-10 2013-09-10 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质

Country Status (2)

Country Link
CN (1) CN104169929B (zh)
WO (1) WO2015035555A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1022789B1 (nl) * 2015-07-17 2016-09-06 Multiplicom Nv Werkwijze en systeem voor geslachtsinschatting van een foetus van een zwangere vrouw
GB2556955A (en) * 2016-09-30 2018-06-13 Yourgene Bioscience Non-invasive fetal sex determination system and method thereof
CN109545279A (zh) * 2018-11-29 2019-03-29 深圳市第二人民医院 染色体微阵列数据的分析方法、装置、设备及存储介质
CN113793641A (zh) * 2021-09-29 2021-12-14 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354443A (zh) * 2015-12-14 2016-02-24 孔祥军 无创产前基因检测分析软件
GB201522665D0 (en) * 2015-12-22 2016-02-03 Premaitha Ltd Detection of chromosome abnormalities
CN110191964B (zh) * 2017-01-24 2023-12-05 深圳华大基因股份有限公司 确定生物样本中预定来源的游离核酸比例的方法及装置
CN108256296B (zh) * 2017-12-29 2021-05-25 北京科迅生物技术有限公司 数据处理装置
CN108900319B (zh) * 2018-05-30 2021-05-25 北京百度网讯科技有限公司 故障检测方法和装置
CN109554485B (zh) * 2018-12-26 2022-04-19 北京迈基诺基因科技股份有限公司 一种用于无创检测待测胎儿染色体是否为非整倍体的试剂盒及其专用探针组
CN110033828B (zh) * 2019-04-03 2021-06-18 北京各色科技有限公司 基于芯片检测dna数据的性别判断方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060292602A1 (en) * 2005-04-13 2006-12-28 Yale University DNA diagnostic screening for turner syndrome and sex chromosome disorders
CN102094083A (zh) * 2010-11-15 2011-06-15 北京大学 单细胞核酸扩增新技术对植入前胚胎的遗传学诊断
WO2013052557A2 (en) * 2011-10-03 2013-04-11 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
CN103108960A (zh) * 2010-02-19 2013-05-15 西昆诺姆有限公司 用于检测胎儿核酸和诊断胎儿异常的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2398233T3 (es) * 2005-03-18 2013-03-14 The Chinese University Of Hong Kong Un método para la detección de aneuploidías cromosómicas
CN101530336A (zh) * 2008-03-11 2009-09-16 广州医学院 无创性染色体异常出生缺陷孕早期筛查方法
CA2767028A1 (en) * 2009-11-25 2011-06-03 Quantalife, Inc. Methods and compositions for detecting genetic material

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060292602A1 (en) * 2005-04-13 2006-12-28 Yale University DNA diagnostic screening for turner syndrome and sex chromosome disorders
CN103108960A (zh) * 2010-02-19 2013-05-15 西昆诺姆有限公司 用于检测胎儿核酸和诊断胎儿异常的方法
CN102094083A (zh) * 2010-11-15 2011-06-15 北京大学 单细胞核酸扩增新技术对植入前胚胎的遗传学诊断
WO2013052557A2 (en) * 2011-10-03 2013-04-11 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1022789B1 (nl) * 2015-07-17 2016-09-06 Multiplicom Nv Werkwijze en systeem voor geslachtsinschatting van een foetus van een zwangere vrouw
WO2017012954A1 (en) * 2015-07-17 2017-01-26 Multiplicom Nv Method and system for estimating a gender of a foetus of a pregnant female
US11155854B2 (en) 2015-07-17 2021-10-26 Agilent Technologies, Inc. Method and system for estimating a gender of a foetus of a pregnant female
GB2556955A (en) * 2016-09-30 2018-06-13 Yourgene Bioscience Non-invasive fetal sex determination system and method thereof
CN109545279A (zh) * 2018-11-29 2019-03-29 深圳市第二人民医院 染色体微阵列数据的分析方法、装置、设备及存储介质
CN109545279B (zh) * 2018-11-29 2023-12-29 深圳市第二人民医院 染色体微阵列数据的分析方法、装置、设备及存储介质
CN113793641A (zh) * 2021-09-29 2021-12-14 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法
CN113793641B (zh) * 2021-09-29 2023-11-28 苏州赛美科基因科技有限公司 一种从fastq文件中快速判断样本性别的方法

Also Published As

Publication number Publication date
CN104169929B (zh) 2016-12-28
CN104169929A (zh) 2014-11-26

Similar Documents

Publication Publication Date Title
WO2015035555A1 (zh) 用于确定胎儿是否存在性染色体数目异常的方法、系统和计算机可读介质
JP6585117B2 (ja) 胎児の染色体異数性の診断
JP6534191B2 (ja) コピー数変動を決定することにおける検出の感度を向上させるための方法
US20170363628A1 (en) Means and methods for non-invasive diagnosis of chromosomal aneuploidy
CN105722994B (zh) 用于确定性染色体中的拷贝数变异的方法
JP5659319B2 (ja) 胎児の遺伝的異常の非侵襲的検出
TWI641834B (zh) 藉由大量平行rna定序之母體血漿轉錄體分析
ES2741966T3 (es) Método para detectar una variación genética
WO2013053183A1 (zh) 对核酸样本中预定区域进行基因分型的方法和系统
JP6045686B2 (ja) 胎児ゲノムにおける所定領域の塩基情報を確定する方法、システム及びコンピューター読み取り可能な記録媒体
JP2018531583A (ja) 血漿dnaの単分子配列決定
HUE030510T2 (hu) Magzati kromoszómális aneuploidia diagnosztizálása genomszekvenálás alkalmazásával
WO2015042980A1 (zh) 确定染色体预定区域中snp信息的方法、系统和计算机可读介质
WO2011130880A1 (zh) 胎儿染色体非整倍性的检测方法
CN103923987A (zh) 一种基于高通量测序检测13、18、21三体综合征的方法
WO2014075228A1 (zh) 确定生物样本中染色体数目异常的方法、系统和计算机可读介质
JP2016518811A (ja) 多胎妊娠における胎児ゲノムの決定
TWI717547B (zh) 以表觀遺傳區分dna
WO2014101126A1 (zh) 确定胎儿性别的方法、系统和计算机可读介质
CN111321210B (zh) 一种无创产前检测胎儿是否患有遗传疾病的方法
TWI489305B (zh) 對胎兒遺傳異常的無創性檢測
JAGTAP et al. Cell Free Fetal DNA: Noninvasive Prenatal Diagnostic Methods and Applications.
Fu et al. High-Throughput Sequencing of Plasma Free DNA In the Second Trimester for Non-Invasive Prenatal Testing of 21-Trisomy Syndrome
WO2014101024A1 (zh) 确定双胞胎中胎儿性别的方法、系统和计算机可读介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13893331

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC, FORM 1205A DATED 03-08-2016

122 Ep: pct application non-entry in european phase

Ref document number: 13893331

Country of ref document: EP

Kind code of ref document: A1