WO2014153755A1 - 确定胎儿染色体非整倍性的方法、系统和计算机可读介质 - Google Patents

确定胎儿染色体非整倍性的方法、系统和计算机可读介质 Download PDF

Info

Publication number
WO2014153755A1
WO2014153755A1 PCT/CN2013/073373 CN2013073373W WO2014153755A1 WO 2014153755 A1 WO2014153755 A1 WO 2014153755A1 CN 2013073373 W CN2013073373 W CN 2013073373W WO 2014153755 A1 WO2014153755 A1 WO 2014153755A1
Authority
WO
WIPO (PCT)
Prior art keywords
chromosome
predetermined
ratio
relative
internal reference
Prior art date
Application number
PCT/CN2013/073373
Other languages
English (en)
French (fr)
Inventor
潘小瑜
陈盛培
曾玺
李旭超
张春雷
郭靖
Original Assignee
深圳华大基因研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大基因研究院 filed Critical 深圳华大基因研究院
Priority to CN201380006955.1A priority Critical patent/CN104205106A/zh
Priority to PCT/CN2013/073373 priority patent/WO2014153755A1/zh
Publication of WO2014153755A1 publication Critical patent/WO2014153755A1/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material

Definitions

  • This invention relates to the field of biomedicine and, in particular, to the field of prenatal diagnosis, and more particularly to a method, system and computer readable medium for determining chromosome aneuploidy in a fetus. Background technique
  • a chromosome is a genetic material in a cell that is named for its ability to be dyed dark by basic dyes.
  • Normal human somatic cells contain 23 pairs of chromosomes, all of which have a certain shape and structure, and have important significance for human normal morphology and physiological functions. Abnormalities in the structure or number of chromosomes can lead to abnormal gene expression and abnormal body development. The most common clinical chromosome abnormalities are Down syndrome (DS), Edwards syndrome, Patau syndrome, and some abnormal chromosome numbers, such as 45X0.
  • DS Down syndrome
  • Edwards syndrome Patau syndrome
  • 45X0 abnormal chromosome numbers
  • the present invention is directed to solving at least some of the above technical problems or at least providing a useful commercial choice. To this end, it is an object of the present invention to provide a means for effectively diagnosing whether a fetus has chromosomal aneuploidy.
  • the invention proposes a method of determining whether a fetus has aneuploidy for a predetermined chromosome.
  • the method comprises: obtaining a sample nucleic acid unique alignment sequencing data set from a sample comprising fetal nucleic acid and a parent nucleic acid; determining a relative alignment ratio of the predetermined chromosome for the unique alignment sequencing data set, respectively And a relative aligning ratio of at most one internal reference chromosome, wherein the relative aligning ratio is determined based on a relationship between a unique alignment of the sequenced data set uniquely aligned to the predetermined chromosome and a predetermined chromosome length; Determining a relative aligning ratio of the chromosome and a relative aligning ratio of the internal reference chromosome, determining a metric value of the predetermined chromosome; and determining whether the fetus has aneuploidy for the predetermined chromosome based
  • the total number of sequencing data located on a chromosome and the length of the chromosome and the chromosome The content in the biological sample is proportional, and thus, according to the method of the embodiment of the present invention, in the present invention, by introducing the internal reference chromosome, and by calculating the number of sequencing data, it is possible to effectively determine whether the fetus has a non- Euploidy.
  • the invention proposes a computer readable medium.
  • the computer readable medium stores instructions adapted to be executed by the processor to determine whether the fetus is aneuploid for a predetermined chromosome by: from containing fetal nucleic acid and maternal nucleic acid Obtaining a sample nucleic acid unique alignment sequencing data set in the sample; determining, for the unique alignment sequencing data set, a relative alignment ratio of the predetermined chromosome and a relative alignment ratio of at most one internal reference chromosome, wherein the relative alignment The rate is determined based on the relationship between the amount of sequencing data uniquely aligned to the predetermined chromosome in the unique alignment sequencing data set and the predetermined chromosome length; based on the relative alignment ratio of the predetermined chromosome and the relative alignment ratio of the internal reference chromosome, determining the ratio a metric of the predetermined chromosome; and determining whether the fetus is aneuploid for
  • the total number of sequencing data located on a chromosome is proportional to the length of the chromosome and the content of the chromosome in the biological sample, thereby using the computer readable medium of the embodiment of the present invention, in the present invention It is possible to effectively determine whether the fetus has aneuploidy by introducing an internal reference chromosome and by calculating the number of sequencing data.
  • the invention proposes a system for determining whether a fetus has aneuploidy for a predetermined chromosome.
  • the system comprises: comprising: a sequencing device adapted to sequence a sample comprising fetal nucleic acid and a parent nucleic acid to obtain a unique aligned sequencing data set of sample nucleic acid;
  • the analyzing device is connected to the sequencing device, and the analyzing device is adapted to: determine, for the unique aligned sequencing data set, a relative alignment ratio of a predetermined chromosome and a relative alignment ratio of at most one internal reference chromosome, wherein
  • the relative alignment ratio is determined based on a relationship of a unique alignment to a predetermined chromosome to a predetermined chromosome in a unique alignment sequencing data set and a predetermined chromosome length; a relative ratio based on the relative alignment ratio of the predetermined chromosome and the internal reference chromosome Rate, determining
  • the system according to an embodiment of the present invention can effectively implement the foregoing.
  • the method of determining whether a fetus has aneuploidy can be achieved by introducing an internal reference chromosome, and by calculating the number of sequencing data, it is possible to effectively determine whether the fetus has aneuploidy.
  • the invention proposes a system for determining whether a fetus has aneuploidy for a predetermined chromosome.
  • the system includes: a sequencing device, wherein the sequencing device is adapted to perform nucleic acid sequencing on a sample to be detected and a plurality of control samples to obtain sequencing data of each sample, wherein the sample to be detected comprises The nucleic acid of the fetus is measured, the control sample comprising normal fetal nucleic acid; and the computer readable medium described above.
  • the total number of sequencing data located on a chromosome is proportional to the length of the chromosome and the content of the chromosome in the biological sample, whereby the system according to an embodiment of the present invention can effectively implement the foregoing
  • the method of determining whether a fetus has aneuploidy can be achieved by introducing an internal reference chromosome, and by calculating the number of sequencing data, it is possible to effectively determine whether the fetus has aneuploidy.
  • Figure 1 shows a schematic diagram of the structure of a system for determining fetal chromosome aneuploidy
  • Figure 2 shows a T13 samples zscore check chart in accordance with one embodiment of the present invention
  • Figure 3 shows a T18 samples zscore check chart in accordance with one embodiment of the present invention
  • FIG. 4 shows a T21 samples zscore check plot in accordance with one embodiment of the present invention. detailed description
  • the terms “installation”, “connected”, “connected”, “fixed” and the like should be understood broadly, and may be either a fixed connection or a detachable connection, unless otherwise explicitly stated and defined. , or connected integrally; can be mechanical or electrical; can be directly connected, or indirectly connected through an intermediate medium, can be the internal communication of the two components.
  • the specific meanings of the above terms in the present invention can be understood on a case-by-case basis. Unless otherwise stated, “multiple” means two or more.
  • the invention proposes a method of determining whether a fetus has aneuploidy for a predetermined chromosome.
  • the method comprises:
  • a sample nucleic acid unique alignment sequencing data set is obtained from a sample comprising fetal nucleic acid and maternal nucleic acid.
  • the type of the sample to be detected employed is not particularly limited.
  • the sample to be tested used contains the nucleic acid of the fetus to be tested, for example, a pregnant woman blood sample containing the nucleic acid of the fetus to be tested and the maternal nucleic acid, such as maternal plasma, may be used.
  • the type of nucleic acid to be used is not particularly limited, and It is deoxyribonucleic acid (DNA), and may also be ribonucleic acid (RNA), preferably DNA.
  • RNA it can be converted to DNA having the corresponding sequence by conventional means for subsequent detection and analysis.
  • the source of the sample is not particularly limited.
  • maternal plasma can be used as a sample, whereby DNA sequences can be extracted therefrom, and thus fetal DNA status can be detected and analyzed.
  • types of samples that may be used include, but are not limited to, maternal blood, maternal serum, maternal plasma, placental tissue, villus tissue, amniocytes, villus progenitor cells, fetal cord blood, fetal umbilical cord serum, and fetal umbilical cord plasma. , pregnant women's plasma is preferred.
  • a unique alignment sequencing set can be obtained by the following steps:
  • the sample nucleic acid containing the fetal nucleic acid and the parent nucleic acid is sequenced to obtain sequencing data; next, the obtained sequencing data is aligned with the human reference genome sequence to obtain a plurality of unique alignment sequencing data.
  • the sample nucleic acid uniquely aligns the sequencing data set.
  • the method further comprises the step of extracting a nucleic acid, such as DNA, from the biological sample.
  • a nucleic acid such as DNA can be extracted from a biological sample by a conventional nucleic acid extraction method such as a salting out method, a column method, or an SDS method.
  • DNA in order to sequence the obtained nucleic acid, can be randomly interrupted as an example.
  • the random interruption treatment can be performed by using at least one of enzymatic cleavage, atomization, ultrasound, and HydroShear.
  • the HydroShear method is employed (when the solution containing DNA passes through a smaller area of the channel, the fluid accelerates, the force generated causes the DNA to suddenly break, and the flow rate and channel size determine the size of the DNA fragment.
  • breaking DNA molecules into relatively concentrated fragments of a certain size is distributed in the range of 200 to 300 bp, i.e., the length of the preferred DNA fragment is 200 to 300 bp. It should be noted that when the sample to be tested is plasma DNA, since plasma DNA is naturally present in the form of fragmented DNA, no interruption is required.
  • sequencing device that can be employed according to an embodiment of the present invention is not particularly limited.
  • sequencing is performed by at least one selected from the group consisting of Roche/454 GS Junior, Illumina/MiSeq, and Life Tecnologies/Ion Torrent PGM, taking into account the advantages of instrument portability and high throughput performance.
  • the high throughput the obtained sequencing yield can reach 1G
  • the deep sequencing characteristics of these sequencing devices can be utilized to further improve the efficiency of determining the abnormal number of chromosomes.
  • the sequencing type can be single-end (one-way) sequencing or pair-end (bidirectional) sequencing.
  • the sequencing method is Illumina/MiSeq
  • the sequencing type is a one-way sequence
  • the result of the sequencing is a 50 bp-sized reads.
  • the nucleic acid sample to be detected is subjected to fragmentation to obtain a DNA fragment; After obtaining the DNA fragment, the DNA fragment is blunt-ended and the base A is added at the end, and the linker is ligated to obtain a DNA fragment having the linker;
  • the DNA having the adaptor is amplified to obtain an amplification product, that is, a sequencing library.
  • a tag sequence Index can be introduced into the sequencing library during the process of constructing the sequencing library, for example, an index can be introduced in the linker, or a tag sequence Index can be introduced during the amplification process.
  • simultaneous sequencing of multiple test samples can be achieved by employing different tag sequences for different samples.
  • a tag sequence length of 4-12 bp can be employed, thereby not affecting other functions of the DNA molecule to which the tag sequence Index is added.
  • the human reference genomic sequence employed in the present invention is a reference sequence obtained by masking a repeat sequence of a human genome sequence, such as the latest version of the human genome reference sequence in the NCBI database.
  • the reference genomic sequence is the human genome reference sequence in the NCBI database.
  • sequence alignment can be performed by any sequence alignment program, such as Short Oligo nucleotide Analysis Package (SOAP) and BWA alignment available to those skilled in the art. At least one of (Burrows-Wheeler Aligner) is performed, and the sequencing data is compared with the reference genome sequence to obtain the position of the sequencing data on the reference genome. Sequence alignment can be performed using default parameters provided by the program, or can be selected by those skilled in the art as needed. In a particular embodiment of the invention, the comparison software employed is SOAP aligner/soap2.
  • SOAP Short Oligo nucleotide Analysis Package
  • unique alignment sequencing data refers to a sequence having only a unique position on a reference genomic sequence when the sequencing data is aligned with a reference genomic sequence, as Unique reads.
  • unique reads in order to avoid interference from repetitive sequences, it is necessary to remove those DNA sequences that are located in tandem repeats and transposition repeat positions in the human genome reference sequence, and only those DNA sequences that can be mapped to unique positions in the genome are counted. That is, the only alignment of the sequencing data.
  • the unique alignment sequencing data is capable of localizing each DNA sequence that has been disrupted and sequenced from a DNA molecule of a fetal-related biological sample to a particular chromosome.
  • the sequencing data can be subjected to removal of low quality sequencing data and removal of sequencing data containing the linker prior to the alignment, whereby the efficiency and accuracy of the subsequent processing can be further improved.
  • the strategy for removing low-quality sequencing data is: when the number of bases whose sequencing quality value is less than or equal to 5 in a sequencing data accounts for more than 50% of the total number of bases of the sequencing data, the sequence data is considered to be With low quality sequencing data, low quality sequencing data will be removed.
  • Strategy for removing sequencing data containing linkers When a sequence of linker data contains a linker sequence, the sequenced data is considered to be sequenced data containing the linker. Sequencing data containing the linker will be removed.
  • the relative alignment ratio of the predetermined chromosomes and the relative alignment ratio of at most one internal reference chromosome can be determined separately for the obtained unique alignment sequencing data set.
  • relative The alignment ratio is determined based on the relationship between the amount of sequencing data uniquely aligned to a predetermined chromosome in the unique alignment data set and the predetermined chromosome length. According to an embodiment of the present invention, it may be based on a formula Calculate the relative alignment ratio C of each chromosome in each sample, where CR represents the relative alignment ratio, i represents the chromosome number, TNi represents the number of sequencing data aligned to chromosome i, and WN represents the unique alignment sequencing data.
  • different internal reference chromosomes may be employed for different predetermined chromosomes. For example, if the predetermined chromosome is chromosome 18, the internal reference chromosome is chromosome 8. If the predetermined chromosome is the 13th chromosome, the internal reference chromosome is chromosome 4. If the predetermined chromosome is chromosome 21, the internal reference chromosome is not used.
  • the metric value that can be employed is the ratio of the relative aligning ratio of the predetermined chromosome to the relative aligning ratio of the fitted internal reference chromosome.
  • the relative alignment ratio of the fitted internal reference chromosomes is determined based on a fitting relationship between the relative alignment ratio of the predetermined chromosomes in the control sample and the relative alignment ratio of the internal reference chromosomes.
  • the fitting relationship may be a fitting relationship determined according to a least squares method. According to a further embodiment of the invention, the fitting relationship is
  • CRR. fi ned a ⁇ CRR + P ⁇
  • n represents the number of control samples
  • CR T is the relative alignment ratio of the predetermined chromosomes, 01 ⁇ 2 internal reference relative alignment of chromosomes, CR R fitted to the fitting of the relative ratio of internal reference chromosomes, X for each control sample CR R,;. F for each control sample CR R.
  • the predetermined chromosome is chromosome 18
  • the internal reference chromosome is chromosome 8.
  • the internal reference chromosome is chromosome 4.
  • the predetermined chromosome is chromosome 21 and the internal reference chromosome is not used, and the metric value is a relative alignment ratio of the predetermined chromosome.
  • the relative alignment ratio of the fitted internal reference chromosomes is determined based on the fitted relationship of the relative contrast rate of the predetermined chromosomes in the control sample and the relative alignment ratio of the internal reference chromosomes.
  • the fit relationship may be a fit relationship determined according to a least squares method. Specifically, the fitting relationship can be
  • CRR. fi ned a ⁇ CRR + P ⁇
  • n represents the number of control samples
  • CR T is the relative alignment ratio of the predetermined chromosomes, 01 ⁇ 2 internal reference relative alignment of chromosomes, CR R fitted to the fitting of the relative ratio of internal reference chromosomes, X for each control sample CR R,;.
  • the candidate metric with the smallest coefficient of variation and its corresponding candidate internal reference chromosome are selected.
  • Sd represents the standard deviation of each value
  • mean represents the average of each value.
  • a set of candidate metric values may be a ratio of a relative alignment ratio of the predetermined chromosome, a relative alignment ratio of the predetermined chromosome to a relative alignment ratio of an internal reference chromosome, and a ratio of the relative alignment ratio of the predetermined chromosome to the relative ratio of the fitted internal reference chromosomes, wherein the relative alignment ratio of the fitted internal reference chromosomes is based on the relative alignment ratio of the predetermined chromosomes in the control sample and the relative ratio of the internal reference chromosomes
  • the fitting relationship of the comparison ratio is determined.
  • the fitting relationship may be a fitting relationship determined according to a least squares method, specifically, fitting
  • a set of candidate internal reference chromosomes may be all chromosomes other than the predetermined chromosome.
  • S4 Determine if the fetus has aneuploidy for the predetermined chromosome.
  • this step after determining the metric value of the predetermined chromosome and the internal reference chromosome, it is possible to determine whether the fetus has aneuploidy for the predetermined chromosome based on the relationship between the metric value of the predetermined chromosome and the predetermined threshold.
  • the predetermined threshold is determined by statistically testing the metric values of the control sample.
  • the control sample used herein may be a corresponding pregnant sample of a normal fetus, such as a maternal plasma sample.
  • the metric obtained after parallel analysis and processing of the control sample can be used as a threshold.
  • the statistical test can be a Z-score test.
  • the normal value range in the predetermined threshold is a statistically tested 95% confidence interval for the metric value of the control sample, preferably the normal value range in the predetermined threshold is a statistically verified 99% confidence interval for the metric value of the control sample.
  • the metric values selected by the above method are represented by NCR R , and meanc and sdc represent the mean and standard deviation of the NCR R values in the control sample, respectively.
  • the zscore value is calculated as follows:
  • Zscore (NCRT - meanc) I sdc
  • zscore conforms to a standard normal distribution. In the case where the confidence interval is [-3, 3], a 99.9% confidence level can be achieved.
  • BP When the Z wr e value is less than -3, the fetus has a deletion for the predetermined chromosome. When the z ⁇ re value is greater than 3, the fetus has a trisomy for the predetermined chromosome.
  • the calculated size of zscore can not only qualitatively determine whether there is abnormal chromosome number in the sample to be tested, such as T21/T18/T13, but also quantitatively give the number of chromosomes of the sample to be tested abnormally, such as T2 T18/ The severity of T13.
  • the method according to an embodiment of the present invention can be introduced in the present invention.
  • the internal reference chromosome, and by calculating the number of sequencing data, can effectively determine whether the fetus has aneuploidy.
  • the invention proposes a computer readable medium.
  • the computer readable medium stores instructions adapted to be executed by the processor to determine whether the fetus is aneuploid for the predetermined chromosome by:
  • the relative alignment ratio of the predetermined chromosome and the relative alignment ratio of at most one internal reference chromosome are respectively determined, wherein the relative alignment ratio is based on the unique alignment of the unique alignment to the predetermined chromosome in the sequencing data set.
  • the amount of data is determined by the relationship between the predetermined chromosome length;
  • the fetus Based on the relationship between the metric value of the predetermined chromosome and a predetermined threshold, it is determined whether the fetus has aneuploidy for the predetermined chromosome.
  • the total number of sequencing data located on a chromosome is proportional to the length of the chromosome and the content of the chromosome in the biological sample, thereby using the computer readable medium of the embodiment of the present invention, in the present invention It is possible to effectively determine whether the fetus has aneuploidy by introducing an internal reference chromosome and by calculating the number of sequencing data.
  • a "computer-readable medium” can be any apparatus that can contain, store, communicate, propagate, or transport the program for use by the instruction execution system, apparatus, or device, or in conjunction with the instruction execution system, apparatus, or device.
  • computer readable media include the following: electrical connections (electronic devices) having one or more wires, portable computer disk cartridges (magnetic devices), random access memory (RAM), Read only memory (ROM), erasable editable read only memory (EPROM or flash memory), fiber optic devices, and portable compact disk read only memory (CDROM).
  • the computer readable medium may even be a paper or other suitable medium on which the program can be printed, as it may be optically scanned, for example by paper or other medium, followed by editing, interpretation or, if appropriate, other suitable The method proceeds to obtain the program electronically and then store it in computer memory.
  • portions of the invention may be implemented in hardware, software, firmware or a combination thereof.
  • multiple steps or methods may be implemented in software or firmware stored in a memory and executed by a suitable instruction execution system.
  • a suitable instruction execution system For example, if implemented in hardware, as in another embodiment, it can be implemented with any one or combination of the following techniques well known in the art: having logic gates for implementing logic functions on data signals Discrete logic circuits, application specific integrated circuits with suitable combinational logic gates, programmable gate arrays (PGAs), field programmable gate arrays (FPGAs), etc.
  • each functional unit in each embodiment of the present invention may be integrated into one processing module, or each unit may exist physically separately, or two or more units may be integrated into one module.
  • the above integrated modules can be implemented in the form of hardware or in the form of software functional modules.
  • the integrated modules, if implemented in the form of software functional modules and sold or used as stand-alone products, may also be stored in a computer readable storage medium.
  • the invention proposes a system for determining whether a fetus has aneuploidy for a predetermined chromosome.
  • the system includes: a sequencing device 100, and an analysis device 200.
  • the sequencing device 100 is adapted to perform nucleic acid sequencing on a sample to be detected in order to obtain sequencing data of each sample, wherein the sample to be detected contains nucleic acid of the fetus to be tested, in order to obtain sequencing data from multiple unique alignments The only alignment of the sequenced data set.
  • the analyzing device 200 is connected to the sequencing device 100 and is adapted to determine whether the fetus has chromosomal aneuploidy by: determining, for the unique aligned sequencing data set, a relative alignment ratio of the predetermined chromosome and at most one internal reference chromosome Relative aligning ratio, wherein the relative aligning ratio is determined based on a relationship between the unique aligning of the sequencing data set to the predetermined chromosome and the predetermined chromosomal length; Determining a metric value of the predetermined chromosome based on a relative alignment ratio of the predetermined chromosome and a relative alignment ratio of the internal reference chromosome; and determining whether the fetus exists for the predetermined chromosome based on a relationship between the metric value of the predetermined chromosome and a predetermined threshold Aneuploidy.
  • the total number of sequencing data located on a chromosome is proportional to the length of the chromosome and the content of the chromosome in the biological sample, whereby the system according to an embodiment of the present invention can effectively implement the foregoing
  • the method of determining whether a fetus has aneuploidy can be achieved by introducing an internal reference chromosome, and by calculating the number of sequencing data, it is possible to effectively determine whether the fetus has aneuploidy. It should be noted that the foregoing description of the method for determining fetal aneuploidy and the characteristics and advantages of the readable medium are also applicable to the system, and will not be described herein.
  • the invention proposes a system for determining whether a fetus has aneuploidy for a predetermined chromosome.
  • the system comprises:
  • a sequencing device adapted to sequence a sample comprising the fetal nucleic acid and the parent nucleic acid to obtain a unique aligned sequencing data set of the sample nucleic acid
  • the total number of sequencing data located on a chromosome is proportional to the length of the chromosome and the content of the chromosome in the biological sample, whereby the system according to an embodiment of the present invention can effectively implement the foregoing
  • the method of determining whether a fetus has aneuploidy can be achieved by introducing an internal reference chromosome, and by calculating the number of sequencing data, it is possible to effectively determine whether the fetus has aneuploidy. It should be noted that the foregoing description of the method for determining fetal aneuploidy and the characteristics and advantages of the readable medium are also applicable to the system, and will not be described herein.
  • sample source The source of the sample is the plasma of the pregnant woman, including 100 normal control samples and 176 samples to be tested, for a total of 276 samples.
  • the pre-experimental part includes the following steps: Extracting DNA and preparing a sample library.
  • the DNA of the above plasma samples was extracted according to the operation procedure of Tiangen DP327-02Kit, and the extracted DNA was constructed according to the modified Illumina/Solexa standard library construction procedure, and the linker used for sequencing was added to both ends of the 170 bp DNA molecule in the main band. Each sample was labeled with a different tag sequence and then hybridized to the complementary junction of the flowcell surface.
  • a single-stranded primer is attached to the surface of the flowcell, and the DNA fragment becomes single-stranded and is "fixed” on the chip by complementary to the primer base on the surface of the chip; the other end (5' or 3') is random and another nearby Primers are complementary, also "fixed", forming "bridges", repeated 30 rounds of amplification, each single molecule is amplified approximately 1000-fold into a monoclonal DNA cluster. Then passes through a single end on IlluminaHiseq2000 Sequencing gave a DNA fragment sequence of about 50 bp in length.
  • DNA obtained from the above plasma sample was used to construct a modified Illumina/Solexa standard procedure, and the specific procedure was referred to the product specification (Illumina/Solexa standard provided by http://www.illumina.com/). Library manual).
  • the DNA library size and insert were determined to be about 170 bp by the 2100 Bioanalyzer (Agilent), and the QPCR was accurately quantified and sequenced.
  • the DNA samples obtained from the above 276 plasma samples were operated according to the Illumina/Solexa officially published ClusterStation and Hiseb2000 (SEsequencing) instructions, and each sample was subjected to about 1G data amount for sequencing on the machine, each sample was based on The tag sequence is distinguished.
  • the processing method of the offline data of the test group and the control group is consistent.
  • soap2 is compared, deduplicated, and the relative ratio is calculated.
  • This step actually consists of two parts, one part is to compare the sample data of the control group, to repeat, calculate each The ratio of chromosome alignment; the other part is the soap2 comparison of the sample data of the test group, deduplication, and calculation of the ratio of the chromosomes.
  • the specific processing steps for SO ap2 alignment and deduplication are consistent between the test group and the control group; the difference is that the comparison ratio of each chromosome is calculated, specifically, the control group needs to calculate the ratio of all chromosomes.
  • the test group only needs to calculate the relative alignment of the target chromosome and its corresponding internal reference chromosome (ie chromosome 21, chromosome 18, chromosome 13, chromosome 21 internal reference chromosome, chromosome 18 internal reference chromosome, number 13 The internal reference chromosome of the chromosome). If there is no internal reference, only the relative alignment rate CR of the target chromosome itself needs to be calculated.
  • the DNA sequence from the sequencing of the previous contamination treatment was compared with the human genome reference sequence of version 36 (hgl8; NCBIBuild36) in the NCBI database to obtain the sequenced DNA. The location of the sequence on the genome. After the alignment is completed, the PCR repeat is removed using the alignment result.
  • the strategy for removing PCR repeats is: If the alignment of the two sequencing data is the same at the start of the human genome, then the two sequencing data are considered to have PCR repeats, and one of the sequencing data is removed. Similarly, PCR duplicates for more than two sequencing data are processed in the same way, ie, duplicate sequencing data is removed, leaving only one.
  • the relative alignment ratio C of each chromosome is calculated using the comparison result of the remaining sequencing data, and the formula is as follows:
  • CR represents the relative aligning ratio
  • i represents the chromosome number
  • TNi represents the number of sequencing data aligned to chromosome i
  • WN represents the total number of sequencing data aligned to the human genome
  • LENi represents chromosome i.
  • Length i.e., the number of bases on chromosome i
  • G represents the total length of the human genome (ie, the sum of the number of bases of all chromosomes in the human nuclear genome).
  • the metric is represented by NCR T , and the following three sets of parameters are selected as candidate metrics: For each of the predetermined chromosomes, any other chromosome is used as a candidate internal reference chromosome.
  • the values of the candidate metric values corresponding to the respective candidate internal reference chromosomes are calculated.
  • Zscore (NCRT - meanc) I sdc, meanc and sdc represent the mean and standard deviation of the NCR R values in the control sample, respectively.
  • the zscore of chromosome 21 is used to determine whether T21 is present.
  • the zscore of chromosome 18 is used to determine whether T18 exists.
  • the zscore of chromosome 13 is used to determine whether T13 is present.
  • the specific implementation is to determine whether the sample is T21/T18/T13 by the size of zscore ( -3,3 ). The principle of judgment is: When the value of zscore is [-3, 3], the sample to be tested is normal, there is no T21/T18/T13; when the value of zscore is (negative infinity, -3), the sample to be tested exists. Chromosome 21/18/13 is missing; when zscore is (3, positive infinity), the sample to be tested has T21/T18/T13.
  • the zscore test results of the tested samples were compared with their actual karyotypes to determine whether each sample was correct or not, and the specificity and sensitivity of all tested samples were counted (Table 1).
  • the actual karyotype is detected by the Gbanding method.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了确定胎儿针对预定染色体是否存在非整倍性的方法,系统和计算机可读介质。所述确定胎儿针对预定染色体是否存在非整倍性的方法包括:从包含胎儿和母体核酸的样品中获得样品核酸唯一比对测序数据集;分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率,所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的;基于所述预定染色体的相对比对率和内参染色体的相对比对率,确定所述预定染色体的度量值;以及基于所述预定染色体的度量值与预定阈值的关系,确定胎儿针对预定染色体是否存在非整倍性。

Description

确定胎儿染色体非整倍性的方法、 系统和计算机可读介质
优先权信息
无 技术领域
本发明涉及生物医学领域, 具体的, 涉及产前诊断领域, 更具体的, 本发明涉及确定胎 儿染色体非整倍性的方法、 系统和计算机可读介质。 背景技术
染色体 (chromosome ) 是细胞内具有遗传性质的物质, 因易被碱性染料染成深色而命 名。 正常人的体细胞内含有 23对染色体, 这些染色体均具有一定的形态和结构, 对人的正 常形态和生理功能具有重要的意义。 染色体发生结构或数目的异常, 均可导致基因表达异 常和机体发育异常。 临床上常见的染色体数目异常主要为 21三体综合症 (Down syndrome, DS)、 18三体综合症 (Edwards syndrome )、 13三体综合症 (Patau syndrome) , 以及一些性 染色体数目异常,如 45X0 ( Turner' s Syndrome )、 47XXX 47XXY ( Klinefelter syndrome )、 47XYY (XYY syndrome )o 染色体异常约占出生人口的 1/160, 不仅患者本身常伴有严重疾 病, 同时也给家庭和社会带来极大的精神和经济负担。 因此, 针对适龄孕妇的普遍筛查及 产前诊断具有积极的社会意义。
然而, 目前针对染色体非整倍性的诊断仍有待改进。 发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。 为此, 本发明的一个目的在于提出一种能够有效诊断胎儿是否具有染色体非整倍性的手段。
在本发明的第一方面,本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的 方法。 根据本发明的实施例, 该方法包括: 从包含胎儿核酸和母体核酸的样品中获得样品 核酸唯一比对测序数据集; 针对所述唯一比对测序数据集, 分别确定预定染色体的相对比 对率和至多一条内参染色体的相对比对率, 其中, 所述相对比对率是基于唯一比对测序数 据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的; 基于所述预 定染色体的相对比对率和内参染色体的相对比对率, 确定所述预定染色体的度量值; 以及 基于所述预定染色体的度量值与预定阈值的关系, 确定胎儿针对预定染色体是否存在非整 倍性。 由于理论上, 定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体 在生物样本中的含量成比例, 由此, 根据本发明的实施例的方法, 在本发明中可以通过引 入内参染色体, 并且通过对测序数据的数目进行运算, 能够实现有效地确定胎儿是否具有 非整倍性。
在本发明的第二方面, 本发明提出了一种计算机可读介质。根据本发明的实施例, 所述 计算机可读介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定胎儿针 对预定染色体是否存在非整倍性: 从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一 比对测序数据集; 针对所述唯一比对测序数据集, 分别确定预定染色体的相对比对率和至 多一条内参染色体的相对比对率, 其中, 所述相对比对率是基于唯一比对测序数据集中唯 一比对至预定染色体的测序数据量与预定染色体长度的关系确定的; 基于所述预定染色体 的相对比对率和内参染色体的相对比对率, 确定所述预定染色体的度量值; 以及基于所述 预定染色体的度量值与预定阈值的关系, 确定胎儿针对预定染色体是否存在非整倍性。 由 于理论上, 定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生物样 本中的含量成比例, 由此, 利用本发明的实施例的计算机可读介质, 在本发明中可以通过 引入内参染色体, 并且通过对测序数据的数目进行运算, 能够实现有效地确定胎儿是否具 有非整倍性。
在本发明的第三方面,本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的 系统。 根据本发明的实施例, 该系统包括: 包括: 测序装置, 所述测序装置适于对包含胎 儿核酸和母体核酸的样品进行测序, 以便获得样品核酸的唯一比对测序数据集; 分析装置, 所述分析装置与所述测序装置相连, 并且所述分析装置适于: 针对所述唯一比对测序数据 集, 分别确定预定染色体的相对比对率和至多一条内参染色体的相对比对率, 其中, 所述 相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色 体长度的关系确定的; 基于所述预定染色体的相对比对率和内参染色体的相对比对率, 确 定所述预定染色体的度量值; 以及基于所述预定染色体的度量值与预定阈值的关系, 确定 胎儿针对预定染色体是否存在非整倍性。 由于理论上, 定位到某条染色体上的测序数据的 总数与该染色体的长度以及染色体在生物样本中的含量成比例, 由此, 根据本发明的实施 例的系统, 能够有效地实施前面所述的确定胎儿是否存在非整倍性的方法, 可以通过引入 内参染色体, 并且通过对测序数据的数目进行运算, 能够实现有效地确定胎儿是否具有非 整倍性。
在本发明的第四方面,本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的 系统。 根据本发明的实施例, 该系统包括: 测序装置, 所述测序装置适于针对待检测样品 和多个对照样品进行核酸测序, 以便获得各样品的测序数据, 其中, 所述待检测样品包含 待测胎儿的核酸, 所述对照样品包含正常胎儿核酸; 以及前面所述的计算机可读介质。 由于理论上,定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生 物样本中的含量成比例, 由此, 根据本发明的实施例的系统, 能够有效地实施前面所述的 确定胎儿是否存在非整倍性的方法, 可以通过引入内参染色体, 并且通过对测序数据的数 目进行运算, 能够实现有效地确定胎儿是否具有非整倍性。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显, 或通过本发明的实践了解到。 附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和 容易理解, 其中:
图 1显示了用于确定胎儿染色体非整倍性的系统的结构示意图;
图 2显示了根据本发明一个实施例的 T13 samples zscore检验图;
图 3显示了根据本发明一个实施例的 T18 samples zscore检验图; 以及
图 4显示了根据本发明一个实施例的 T21 samples zscore检验图。 具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或 类似的标号表示相同或类似的元件或具有相同或类似功能的元件。 下面通过参考附图描述 的实施例是示例性的, 旨在用于解释本发明, 而不能理解为对本发明的限制。
在本发明中, 除非另有明确的规定和限定, 术语 "安装"、 "相连"、 "连接"、 "固定"等 术语应做广义理解, 例如, 可以是固定连接, 也可以是可拆卸连接, 或一体地连接; 可以 是机械连接, 也可以是电连接; 可以是直接相连, 也可以通过中间媒介间接相连, 可以是 两个元件内部的连通。 对于本领域的普通技术人员而言, 可以根据具体情况理解上述术语 在本发明中的具体含义。 除非另有说明, "多个" 的含义是两个或两个以上。
确定胎儿针对预定染色体是否存在非整倍性的方法
在本发明的第一方面,本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的 方法。 根据本发明的实施例, 该方法包括:
S1 : 获得样品核酸唯一比对测序数据集
在该步骤中, 从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集。 根据本发明的实施例, 所采用的待检测样品的类型并不受特别限制。 具体的, 所采用的待 检测样品包含待测胎儿的核酸, 例如可以采用包含待测胎儿的核酸和孕妇核酸的孕妇血液 样品, 例如孕妇血浆。 根据本发明的实施例, 所采用的核酸的类型并不受特别限制, 可以 是脱氧核糖核酸(DNA), 也可以是核糖核酸 (RNA), 优选 DNA。 本领域技术人员可以理 解,对于 RNA,可以通过常规手段将其转换为具有相应序列的 DNA,进行后续检测和分析。 根据本发明的实施例, 样本的来源并不受特别限制。 根据本发明的示例, 可以采用孕妇血 浆作为样本, 从而可以从其中提取 DNA序列, 进而可以对胎儿 DNA状态进行检测和分析。 根据本发明的实施例, 可以使用的样本的类型包括但不限于孕妇血、 孕妇血清、 孕妇血浆、 胎盘组织、 绒毛组织、 羊水细胞、 绒毛祖细胞、 胎儿脐带血、 胎儿脐带血清和胎儿脐带血 浆, 优选孕妇血浆。
根据本发明的实施例, 可以通过下列步骤获得唯一比对测序集:
首先, 对包含胎儿核酸和母体核酸的样品核酸进行测序, 以便获得测序数据; 接下来,将所得到的测序数据与人类参照基因组序列进行比对, 以便获得由多个唯一比 对测序数据构成的样品核酸唯一比对测序数据集。
根据本发明的实施例, 进一步包括从生物样本提取核酸例如 DNA的步骤。 根据本发明 的实施例, 可以采用盐析法、 过柱法和 SDS法等常规核酸提取方法从生物样本提取核酸例 如 DNA。 根据本发明的实施例, 为了对所获得的核酸进行测序, 以 DNA为例, 可以对其 进行随机打断。 根据本发明的实施例, 随机打断处理可以通过采用酶切、 雾化、 超声和 HydroShear法的至少之一进行。 优选地, 采用 HydroShear法 (当含有 DNA的溶液通过较 小面积的通道时, 流体加速, 产生的力使 DNA突然断裂, 流速和通道大小决定 DNA片段 的大小, 具体原理和方法参见 Life Sciences Wiki公司的 HydroShear说明书), 将 DNA分子 打断为比较集中的一定大小的片段。 根据本发明的实施例, 经过随机打断的主带分布在 200〜300bp范围内, 即优选 DNA片段的长度为 200~300bp。 需要说明的是, 当待测样本为 血浆 DNA时, 由于血浆 DNA天然地以片段化 DNA形式存在, 因此无需打断。 根据本发 明的实施例, 可以采用的测序装置的类型并不受特别限制。 根据本发明的具体实施例, 考 虑到仪器便携性的优势以及高通量性能, 测序是通过选自 Roche/454 GS Junior , Illumina/MiSeq以及 Life Tecnologies/Ion Torrent PGM的至少之一进行的。 由此, 能够利用 这些测序装置的高通量 (所得到的测序产量可以达到 1G)、 深度测序的特点, 进一步提高 确定染色体数目异常的效率。 测序类型可以为 single-end (单向) 测序或者 Pair-end (双向) 测序。 在本发明的一个实施方案中, 所述的测序方法为 Illumina/MiSeq, 测序类型为单向测 序, 测序得到的结果为 50bp大小的片段 (reads)。 由此, 可以进一步提高后续分析的效率。 由此, 可以降低测序成本, 并且可以极大縮小测序时间, 从而提高确定胎儿性别的效率。
本领域技术人员可以根据所采用的测序平台来选择适当的测序文库构建方法, 简言之, 构建测序文库的方法可以包括:
首先, 将待检测的核酸样本进行片段后, 以便得到 DNA片段; 在得到 DNA片段之后, 对 DNA片段进行平端化处理和末端添加碱基 A, 并连接接头, 以便得到具有接头的 DNA片段; 以及
对具有接头的 DNA进行扩增, 得到扩增产物即测序文库。
根据本发明的实施例, 可以在构建测序文库的过程中, 在测序文库中引入标签序列 Index, 例如可以在接头中引入 Index, 或者在扩增过程中引入标签序列 Index。 由此, 可以 通过针对不同的样本采用不同的标签序列, 从而实现同时对多个检测样本进行测序。 根据 本发明的实施例, 可以采用的标签序列长度为 4-12bp, 由此不会影响添加标签序列 Index 的 DNA分子的其他功能。
根据本发明的实施例,本发明中,所采用的人类的参照基因组序列是人类基因组序列经 过屏蔽掉重复序列后所得到的参考序列,例如 NCBI数据库中最新版本的人类基因组参考序 列。 在本发明的具体实施例中, 参照基因组序列是 NCBI数据库中的人类基因组参考序列。
根据本发明的实施例,可以通过任何一种序列比对程序进行序列比对,例如本领域技术 人员可获得的短寡核苷酸分析包 (Short Oligo nucleotide Analysis Package , SOAP) 禾卩 BWA 比对(Burrows- Wheeler Aligner)的至少之一进行, 将测序数据与参考基因组序列进行比对, 得到测序数据在参考基因组上的位置。 进行序列比对可以使用程序提供的默认参数进行, 或者由本领域技术人员根据需要对参数进行选择。 在本发明的具体实施例中, 所采用的比 对软件是 SOAP aligner/soap2。
在本文中所使用的术语"唯一比对测序数据"是指在将测序数据与参照基因组序列进行 比对时, 在参考基因组序列上仅有唯一位置的序列, 以 Unique reads表示。在本发明的实施 例中, 为了避免重复序列的干扰, 需要去除那些定位于人类基因组参考序列中的串联重复 及转座重复位置的 DNA序列, 只统计那些可以定位到基因组唯一位置的 DNA序列, 即唯 一比对测序数据。唯一比对测序数据能够将来自胎儿相关生物样品的 DNA分子经打断并测 序后的各 DNA序列定位于特定染色体。
根据本发明的实施例,在比对之前,可以对测序数据进行去除低质量测序数据以及去除 含有接头的测序数据, 由此, 可以进一步提高后续处理的效率和准确性。 具体的, 去除低 质量测序数据的策略为: 当一条测序数据中测序质量值小于或等于 5 的碱基数目占这条测 序数据总碱基数目的 50%以上时, 则认为这条测序数据为低质量测序数据, 低质量的测序 数据将被去除。 去除含接头的测序数据的策略: 当一条测序数据中含有一段接头序列时, 则认为这条测序数据是含接头的测序数据。 含有接头的测序数据将被去除。
S2: 确定染色体的相对比对率
在获得唯一比对测序数据集之后,可以针对所得到的唯一比对测序数据集,分别确定预 定染色体的相对比对率和至多一条内参染色体的相对比对率。 根据本发明的实施例, 相对 比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长 度的关系确定的。 根据本发明的实施例, 可以基于公式
Figure imgf000007_0001
计算各样品中每条染色体的相对比对率 C , 其中, CR表示相对比对率, i代表染色体号, TNi代表比对到 i号染色体的测序数据的条数, WN表示唯一比对测序数据集中所包含的唯 一比对测序数据的数目 M, LENi表示 i号染色体的长度, G表示人类全基因组的总长度。
S3: 确定预定染色体的度量值及内参染色体
根据本发明的实施例, 可以针对不同的预定染色体采用不同的内参染色体, 例如, 如 果预定染色体为 18号染色体, 则内参染色体为 8号染色体。 如果预定染色体为 13号染色 体, 则内参染色体为 4号染色体。 如果预定染色体为 21号染色体, 则不使用内参染色体。
根据本发明的实施例,可以采用的度量值为预定染色体的相对比对率与拟合的所述内参 染色体的相对比对率的比值。 根据本发明的实施例, 所述拟合的内参染色体的相对比对率 是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。 所述拟合关系可以为根据最小二乘法确定的拟合关系。 根据本发明进一步的实施例, 所述 拟合关系为,
(∑Υ) β(∑χ ) η∑ΧΥ -∑Χ∑Υ
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, «∑z2 -(∑z)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR。 选择上述度量值和拟合关系的情况下, 所述预定染色体为 18号染色体时, 所述内参染色体 为 8号染色体。 所述预定染色体为 13号染色体时, 所述内参染色体为 4号染色体。
根据本发明的实施例, 所述预定染色体为 21号染色体且不使用内参染色体, 所述度量 值为预定染色体的相对比对率。
根据具体的实施例,拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相 对比对率和内参染色体的相对比对率的拟合关系确定。 根据一些示例, 拟合关系可以为根 据最小二乘法确定的拟合关系。 具体的, 拟合关系可以为
(∑Υ) β(∑Χ ) 3 ηχγ -∑χγ
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, «∑z2 -(∑z)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR。 确定每个候选内参染色体对应下的各个候选度量值的数值;
确定各个候选度量值在对照样品间的变异系数,
选择变异系数最小的候选度量值及其对应的候选内参染色体。
根据本发明的实施例,变异系数可以按照 CV = sd / mean来确定。 sd表示各个数值的标 准偏差, mean表示各个数值的平均值。
由此,根据本发明的具体实施例,一组候选度量值可以为所述预定染色体的相对比对率、 所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述预定染色体的相对 比对率与拟合的内参染色体的相对比对率的比值, 其中, 拟合的内参染色体的相对比对率 是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关系确定。 根据本发明的实施例, 拟合关系可以为根据最小二乘法确定的拟合关系, 具体的, 拟合关
(∑Y) Η∑Χ) 3 ηΧΥ ~∑ΧΥ 系可以为 CRR fited = α * CRr + , 其中, a _ ~n ; ~, "∑X2 - (∑X , n表示 对照样品的数目, CRT为预定染色体的相对比对率, CRR为内参染色体的相对比对率, 0½. £(1为拟合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样 品中的 CRR
根据本发明的实施例, 一组候选内参染色体可以是预定染色体之外的所有染色体。 S4: 确定胎儿针对预定染色体是否存在非整倍性。
在该步骤中,在确定预定染色体的度量值及内参染色体之后,可以基于预定染色体的度 量值与预定阈值的关系, 确定胎儿针对预定染色体是否存在非整倍性。
根据本发明的实施例, 所述预定阈值是通过对对照样品的度量值进行统计检验确定的。 这里所采用的对照样品可以为正常胎儿的相应孕妇样品, 例如孕妇血浆样品。 例如对对照 样品进行平行分析和处理之后所得的度量值可以作为阈值,具体的,统计检验可以为 Z-score 检验。根据本发明的实施例,预定阈值中正常值范围是对照样品的度量值经统计检验的 95% 置信区间, 优选预定阈值中正常值范围是对照样品的度量值经统计检验的 99%置信区间。
以 NCRR表示经上述方法选定的度量值, meanc和 sdc分别表示对照样品中 NCRR数值的 平均值和标准差。 zscore值的计算公式如下:
zscore = (NCRT - meanc) I sdc 根据本发明的实施例, zscore符合标准正态分布。 在置信区间为 [-3, 3]的情况下, 可 达到 99.9%的置信度。 BP : 当所述 Zwre值小于 -3时, 所述胎儿针对所述预定染色体存在缺 失。 当所述 z^re值大于 3时, 所述胎儿针对所述预定染色体存在三体型。 即, 当 zscore取 值为 [-3,3]时, 被测样本正常, 不存在染色体非整倍性, 例如 T2 T18/T13; 当 zscore取值为 (负无穷, -3 )时, 被测样本存在染色体缺失, 例如 21号 /18号 /13号染色体缺失; 当 zscore 取值为 (3,正无穷)时, 则被测样本存在染色体三体型的染色体非整倍性, 例如 Τ21 Π8/Τ13。 由此, 调整 zscore 的阈值可以进一步提高染色体非整倍性分析的效率和准确性。 研究人员 应理解, 所算得的 zscore 的大小不仅能定性的判断被测样本是否存在染色体数目异常, 例 如 T21/T18/T13, 也可以定量的给出被测样本的染色体数目异常, 例如 T2 T18/T13的严重 程度。
由于理论上,定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生 物样本中的含量成比例, 由此, 根据本发明的实施例的方法, 在本发明中可以通过引入内 参染色体, 并且通过对测序数据的数目进行运算, 能够实现有效地确定胎儿是否具有非整 倍性。
计算机可读介质
在本发明的第二方面, 本发明提出了一种计算机可读介质。根据本发明的实施例, 所述 计算机可读介质上存储有指令, 所述指令适于被处理器执行以便通过下列步骤确定胎儿针 对预定染色体是否存在非整倍性:
从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集;
针对唯一比对测序数据集,分别确定预定染色体的相对比对率和至多一条内参染色体的 相对比对率, 其中, 相对比对率是基于唯一比对测序数据集中唯一比对至预定染色体的测 序数据量与预定染色体长度的关系确定的;
基于预定染色体的相对比对率和内参染色体的相对比对率,确定所述预定染色体的度量 值; 以及
基于预定染色体的度量值与预定阈值的关系,确定胎儿针对预定染色体是否存在非整倍 性。
由于理论上,定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生 物样本中的含量成比例, 由此, 利用本发明的实施例的计算机可读介质, 在本发明中可以 通过引入内参染色体, 并且通过对测序数据的数目进行运算, 能够实现有效地确定胎儿是 否具有非整倍性。
需要说明的是, 前面针对确定胎儿染色体非整倍性的方法的特征和优点所进行的描述, 也适用于该计算机可读介质, 在此不再赘述。
另外, 需要说明的是, 在流程图中表示或在此以其他方式描述的逻辑和 /或步骤, 例如, 可以被认为是用于实现逻辑功能的可执行指令的定序列表, 可以具体实现在任何计算机可 读介质中, 以供指令执行系统、 装置或设备 (如基于计算机的系统、 包括处理器的系统或 其他可以从指令执行系统、 装置或设备取指令并执行指令的系统) 使用, 或结合这些指令 执行系统、装置或设备而使用。就本说明书而言, "计算机可读介质"可以是任何可以包含、 存储、 通信、 传播或传输程序以供指令执行系统、 装置或设备或结合这些指令执行系统、 装置或设备而使用的装置。 计算机可读介质的更具体的示例 (非穷尽性列表) 包括以下: 具有一个或多个布线的电连接部 (电子装置), 便携式计算机盘盒 (磁装置), 随机存取存 储器 (RAM), 只读存储器 (ROM), 可擦除可编辑只读存储器 (EPROM或闪速存储器), 光纤装置, 以及便携式光盘只读存储器 (CDROM)。 另外, 计算机可读介质甚至可以是可 在其上打印所述程序的纸或其他合适的介质, 因为可以例如通过对纸或其他介质进行光学 扫描, 接着进行编辑、 解译或必要时以其他合适方式进行处理来以电子方式获得所述程序, 然后将其存储在计算机存储器中。
应当理解, 本发明的各部分可以用硬件、 软件、 固件或它们的组合来实现。在上述实施 方式中, 多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固 件来实现。 例如, 如果用硬件来实现, 和在另一实施方式中一样, 可用本领域公知的下列 技术中的任一项或他们的组合来实现: 具有用于对数据信号实现逻辑功能的逻辑门电路的 离散逻辑电路, 具有合适的组合逻辑门电路的专用集成电路, 可编程门阵列 (PGA), 现场 可编程门阵列 (FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成, 所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时, 包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个 单元单独物理存在, 也可以两个或两个以上单元集成在一个模块中。 上述集成的模块既可 以采用硬件的形式实现, 也可以采用软件功能模块的形式实现。 所述集成的模块如果以软 件功能模块的形式实现并作为独立的产品销售或使用时, 也可以存储在一个计算机可读取 存储介质中。
确定胎儿针对预定染色体是否存在非整倍性的系统
在本发明的第三方面,本发明提出了一种确定胎儿针对预定染色体是否存在非整倍性的 系统。 参考图 1, 根据本发明的实施例, 该系统包括: 测序装置 100、 和分析装置 200。 根 据本发明的实施例, 测序装置 100适于针对待检测样品进行核酸测序, 以便获得各样品的 测序数据, 其中, 待检测样品包含待测胎儿的核酸, 以便获得由多个唯一比对测序数据构 成的唯一比对测序数据集。 分析装置 200与测序装置 100相连, 并且适于通过下列步骤进 行确定胎儿是否存在染色体非整倍性: 针对所述唯一比对测序数据集, 分别确定预定染色 体的相对比对率和至多一条内参染色体的相对比对率, 其中, 所述相对比对率是基于唯一 比对测序数据集中唯一比对至预定染色体的测序数据量与预定染色体长度的关系确定的; 基于所述预定染色体的相对比对率和内参染色体的相对比对率, 确定所述预定染色体的度 量值; 以及基于所述预定染色体的度量值与预定阈值的关系, 确定胎儿针对预定染色体是 否存在非整倍性。
由于理论上,定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生 物样本中的含量成比例, 由此, 根据本发明的实施例的系统, 能够有效地实施前面所述的 确定胎儿是否存在非整倍性的方法, 可以通过引入内参染色体, 并且通过对测序数据的数 目进行运算, 能够实现有效地确定胎儿是否具有非整倍性。 需要说明的是, 前面针对确定 胎儿染色体非整倍性的方法以及可读介质的特征和优点所进行的描述, 也适用于该系统, 在此不再赘述。 需要说明的是,前面所述的比对装置和分析装置的功能可以由前面所述的计算机可读介 质来执行。 在本发明的第四方面, 本发明提出了一种确定胎儿针对预定染色体是否存在非 整倍性的系统。 根据本发明的实施例, 该系统包括:
测序装置,所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序, 以便获得样 品核酸的唯一比对测序数据集; 以及
前面所述的计算机可读介质。
由于理论上,定位到某条染色体上的测序数据的总数与该染色体的长度以及染色体在生 物样本中的含量成比例, 由此, 根据本发明的实施例的系统, 能够有效地实施前面所述的 确定胎儿是否存在非整倍性的方法, 可以通过引入内参染色体, 并且通过对测序数据的数 目进行运算, 能够实现有效地确定胎儿是否具有非整倍性。 需要说明的是, 前面针对确定 胎儿染色体非整倍性的方法以及可读介质的特征和优点所进行的描述, 也适用于该系统, 在此不再赘述。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解, 下面的实 施例仅用于说明本发明, 而不应视为限定本发明的范围。实施例中未注明具体技术或条 件的, 按照本领域内的文献所描述的技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂 等译的 《分子克隆实验指南》 , 第三版, 科学出版社) 或者按照产品说明书进行。 实施 例中未注明具体条件者, 按照常规条件或制造商建议的条件进行。所用试剂或仪器未注 明生产厂商者, 均为可以通过市场获得的常规产品。所使用的测序用的接头和标签序列 来源于 Illumina公司的 Multiplexing Sample Preparation Oligonutide Kit。 实施例 1
1、 样本来源 样品的来源为孕妇的血浆, 包括 100正常的对照样品和 176例待测样品,总计 276例样
Π
ΡΠ。
2、 前期实验
前期实验部分包括以下步骤: 提取 DNA, 制备样本文库。
按照 TiangenDP327-02Kit操作流程提取上述例血浆样品的 DNA, 所提取 DNA按照修 改后的 Illumina/Solexa标准建库流程进行建库, 在主带集中于 170bp的 DNA分子两端被加 上测序所用接头, 每个样本被加上不同的标签序列, 然后与 flowcell表面互补接头杂交。通 过 flowcell表面连接有一层单链引物, DNA片段变成单链后通过与芯片表面的引物碱基互 补被一端 "固定"在芯片上; 另外一端 (5 ' 或 3 ' ) 随机和附近的另外一个引物互补, 也被 "固定 "住, 形成 "桥 (bridge) ,,, 反复 30轮扩增, 每个单分子得到了约 1000倍扩增, 成 为单克隆 DNA簇。然后在 IlluminaHiseq2000上通过单末端测序,得到长度为约 50bp的 DNA 片段序列。
具体而言, 将获自上述血浆样品的约 10ng的 DNA, 进行修改后的 Illumina/Solexa标准 流程建库, 具体流程参照产品说明书 ( http://www.illumina.com/提供的 Illumina/Solexa标准 建库说明书)。经 2100Bioanalyzer (Agilent)确定 DNA文库大小及插入片段为约 170bp, QPCR 精确定量后可上机测序。
3、 测序
本实施例中, 对于获自上述 276例血浆的 DNA样本按照 Illumina/Solexa官方公布的 ClusterStation和 Hiseq2000 ( SEsequencing)说明书进行操作, 使每个样品得到约 1G数据量 进行上机测序, 每个样本根据所述标签序列区分。
4、 生物信息学分析
1 ) 去除低质量测序数据以及去除含接头的测序数据
拿到待测组样品和对照组样品的下机数据后, 分别去除两组样品数据中低质量测序数 据以及含接头的测序数据。 在本步骤中, 对待测组和对照组的下机数据的处理方法是一致 的。
去除低质量测序数据的策略: 当一条测序数据中测序质量值小于或等于 5的碱基数目 占这条测序数据总碱基数目的 50%以上时, 则认为这条测序数据为低质量测序数据, 低质 量的测序数据将被去除。
去除含接头的测序数据的策略: 当一条测序数据中含有一段接头序列时, 则认为这条 测序数据 是含接头的测序数据。 含有接头的测序数据将被去除。
2) 对对照组和待测组数据进行, soap2比对, 去重复, 计算相对比对率
本步骤实际包含两部分, 一部分是对对照组样品数据进行 soap2比对, 去重复, 计算各 染色体的比对率; 另一部分是对待测组样品数据进行 soap2比对, 去重复, 计算各染色体的 比对率。其中对于 SOap2比对和去重复的具体处理步骤, 待测组和对照组是一致的; 所不同 的是, 计算各染色体的比对率, 具体来说就是对照组需要计算所有染色体比对率, 而待测 组只需要计算目标染色体及其相对应的内参染色体的相对比对(即 21号染色体、 18号染色 体、 13号染色体、 21号染色体内参染色体、 18号染色体的内参染色体、 13号染色体的内 参染色体)。 如果没有内参则只需要计算目标染色体自身的相对比对率 CR。
运用 soap2软件 (获自 soap.genomics.org.cn) 将进行过去污染处理的测序所得 DNA序 列与 NCBI数据库中版本 36(hgl8; NCBIBuild36)的人类基因组参考序列进行不容错比对, 得到所测序 DNA序列在所述基因组上的定位。比对完之后,利用比对结果去除 PCR重复。 去除 PCR重复的策略是: 如果两条测序数据的比对上人类基因组的起始位置相同, 则认为 这两条测序数据发生了 PCR重复, 去掉其中的一条测序数据。 同理, 对于两条以上的测序 数据发生的 PCR重复, 也采用同样的方法处理, 即去掉重复的测序数据,只保留一条。
去除比对结果中的 PCR重复测序数据之后, 利用剩下的测序数据的比对结果计算每条 染色体的相对比对率 C , 公式如下:
CR
Figure imgf000013_0001
其中 CR表示相对比对率, i代表染色体号, TNi代表比对到 i号染色体的测序数据的条 数, WN表示比对到人类全基因组的测序数据的总条数, LENi表示 i号染色体的长度 (即 i 号染色体上碱基数目), G表示人类全基因组的总长度 (即人类核基因组中所有染色体的碱 基数目之和)。 以上统计量都是对于单个样品而言的。
3) 选择内参染色体和度量值
以 NCRT表示度量值, 选择下列三组参数为候选度量值:
Figure imgf000013_0002
针对每条预定染色体, 其它任一条染色体都作为候选内参染色体。
计算各个候选内参染色体对应的候选度量值的数值。
然后计算各数值的变异系数(cv), 选择 CV值最小的候选度量值和对应的内参染色体 的组合。 最后确定:
18号染色体的内参染色体为 8号染色体, 相应的度量值选择 NCRr = CRr / CR«./;w。
13号染色体的内参染色体为 4号染色体, 相应的度量值选择 NCRT = CRT I CRRJ^。 4) zscore检验
根据步骤 4选定的 NCRT和内参染色体, 利用下述公式计算 21号 /18号 /13号染色体的 zscore值:
zscore = (NCRT - meanc) I sdc, meanc和 sdc分别表示对照样品中 NCRR数值的平均值和 标准差。
利用 21号染色体的 zscore判断是否存在 T21 ; 利用 18号染色体的 zscore判断是否存 在 T18 ; 利用 13号染色体的 zscore判断是否存在 T13。 具体实施是通过 zscore ( -3,3 ) 的大 小判断改被测样品是否存在 T21/T18/T13。判断的原则是: 即当 zscore取值为 [-3,3]时, 被测 样本正常, 不存在 T21/T18/T13 ; 当 zscore取值为(负无穷, -3 )时, 被测样本存在 21号 /18 号 /13号染色体缺失; 当 zscore取值为 (3,正无穷)时, 被测样本存在 T21/T18/T13。
5 ) 统计特异性与敏感性。
将被测样品的 zscore检验结果与其实际核型进行比较, 确定每一样品检验结果正确与 否, 统计所有被测样品的特异性和敏感性 (表 1 )。 实际核型是用 Gbanding方法检出的。
T21/T18/T13检测的特异性和敏感性统计表
Figure imgf000014_0001
在本说明书的描述中,参考术语 "一个实施例 "、 "一些实施例 "、 "示例 "、 "具体示例 "、 或 "一些示例"等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特点 包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语的示意性表述不一 定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例, 可以理解的是, 上述实施例是示例性的, 不能理解为对本发明的限制, 本领域的普通技术人员在不脱离本发明的原理和宗旨的情况 下在本发明的范围内可以对上述实施例进行变化、 修改、 替换和变型。

Claims

权利要求书
1、 一种确定胎儿针对预定染色体是否存在非整倍性的方法, 其特征在于, 包括: 从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集;
针对所述唯一比对测序数据集,分别确定预定染色体的相对比对率和至多一条内参染色 体的相对比对率, 其中, 所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染 色体的测序数据量与预定染色体长度的关系确定的;
基于所述预定染色体的相对比对率和内参染色体的相对比对率,确定所述预定染色体的 度量值; 以及
基于所述预定染色体的度量值与预定阈值的关系,确定胎儿针对预定染色体是否存在非 整倍性。
2、 根据权利要求 1所述的方法, 其特征在于 , 所述包含胎儿核酸和母体核酸的样品为 孕妇血浆。
3、 根据权利要求 1所述的方法, 其特征在于, 所述预定阈值是通过对对照样品的度量 值进行统计检验确定的。
4、 根据权利要求 3所述的方法, 其特征在于 , 所述统计检验为 Z-score检验。
5、 根据权利要求 3所述的方法, 其特征在于 , 所述预定阈值中正常值范围是对照样品 的度量值经统计检验的 95%置信区间。
6、 根据权利要求 5所述的方法, 其特征在于 , 所述预定阈值中正常值范围是对照样品 的度量值经统计检验的 99%置信区间。
7、 根据权利要求 1所述的方法, 其特征在于, 所述唯一比对测序集是通过下列步骤获 得的:
对包含胎儿核酸和母体核酸的样品核酸进行测序, 以便获得测序数据; 以及 将所述测序数据与人类参照基因组序列进行比对,以便获得由多个唯一比对测序数据构 成的所述样品核酸唯一比对测序数据集。
8、 根据权利要求 1-7任一项所述的方法, 其特征在于, 所述度量值为所述预定染色体 的相对比对率与拟合的所述内参染色体的相对比对率的比值, 所述拟合的内参染色体的相 对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合关 系确定。
9、 根据权利要求 8所述的方法, 其特征在于, 所述拟合关系为根据最小二乘法确定的 拟合关系。
10、 根据权利要求 9所述的方法, 其特征在于, 所述拟合关系为 (∑γ) β(∑χ ) η∑ΧΥ -∑Χ∑Υ
CRR.fined = a ^ CRR + P ^ 其中, α -—η -η ~, η∑Χ2 - (∑Χ)2η表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR
11、 根据权利要求 10所述的方法, 其特征在于, 所述预定染色体为 18号染色体, 所述 内参染色体为 8号染色体。
12、 根据权利要求 10所述的方法, 其特征在于, 所述预定染色体为 13号染色体, 所 述内参染色体为 4号染色体。
13、 根据权利要求 1-7任一项所述的方法, 其特征在于, 所述预定染色体为 21号染色 体且不使用内参染色体, 所述度量值为预定染色体的相对比对率。
14、 根据权利要求 1-7任一项所述的方法, 其特征在于, 通过下列步骤确定所述度量值 和内参染色体:
选择一组候选度量值和一组候选内参染色体;
确定每个候选内参染色体对应下的各个候选度量值的数值;
确定各个候选度量值在对照样品间的变异系数,
选择变异系数最小的候选度量值及其对应的候选内参染色体。
15、 根据权利要求 14所述的方法, 其特征在于, 所述一组候选度量值为所述预定染色 体的相对比对率、 所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述 预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值;
所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内 参染色体的相对比对率的拟合关系确定。
16、 根据权利要求 15所述的方法, 其特征在于, 所述拟合关系为根据最小二乘法确定 的拟合关系。
17、 根据权利要求 16所述的方法, 其特征在于, 所述拟合关系为
(∑Υ) β(∑χ ) η∑ΧΥ -∑Χ∑Υ
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, n∑Z2 - (∑Z)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR
18、 根据权利要求 1-17任一项所述的方法, 其特征在于,
基于公式 TNi lWN
Figure imgf000016_0001
LENi l G 确定各样品中每条染色体的相对比对率 CRi, 其中, CR表示相对比对率, i代表染色体号, TNi代表唯一比对到 i号染色体的测序数据的数目, WN表示唯一比对测序数据集中所包含 的唯一比对测序数据的数目 M, LENi表示 i号染色体的长度, G表示人类全基因组的总长 度。
19、 根据权利要求 1-18任一项所述的方法, 其特征在于, 所述预定染色体为常染色体。
20、 根据权利要求 19所述的方法, 其特征在于, 所述预定染色体为 21号染色体、 18 号染色体以及 13号染色体的至少之一。
21、 根据权利要求 1-18任一项所述的方法, 其特征在于, 所述预定染色体为性染色体。
22、 根据权利要求 1-21任一项所述的方法, 其特征在于, 在进行比对之前, 进一步包 括: 去除低质量的测序数据以及含有接头的测序数据。
23、 一种确定胎儿针对预定染色体是否存在非整倍性的系统, 其特征在于, 包括: 测序装置,所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序, 以便获得样 品核酸的唯一比对测序数据集;
分析装置, 所述分析装置与所述测序装置相连, 并且所述分析装置适于:
针对所述唯一比对测序数据集,分别确定预定染色体的相对比对率和至多一条内参染色 体的相对比对率, 其中, 所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染 色体的测序数据量与预定染色体长度的关系确定的;
基于所述预定染色体的相对比对率和内参染色体的相对比对率,确定所述预定染色体的 度量值; 以及
基于所述预定染色体的度量值与预定阈值的关系,确定胎儿针对预定染色体是否存在非 整倍性。
24、 根据权利要求 23所述的系统, 其特征在于, 所述包含胎儿核酸和母体核酸的样品 为孕妇血浆。
25、 根据权利要求 23所述的系统, 其特征在于, 所述预定阈值是通过对对照样品的度 量值进行统计检验确定的。
26、 根据权利要求 25所述的系统, 其特征在于, 所述统计检验为 Z-score检验。
27、 根据权利要求 25所述的系统, 其特征在于, 所述预定阈值中正常值范围是对照样 品的度量值经统计检验的 95%置信区间。
28、 根据权利要求 27所述的系统, 其特征在于, 所述预定阈值中正常值范围是对照样 品的度量值经统计检验的 99%置信区间。
29、 根据权利要求 23所述的系统, 其特征在于, 所述唯一比对测序集是通过下列步骤 获得的: 对包含胎儿核酸和母体核酸的样品核酸进行测序, 以便获得测序数据; 以及 将所述测序数据与人类参照基因组序列进行比对,以便获得由多个唯一比对测序数据构 成的所述样品核酸唯一比对测序数据集。
30、 根据权利要求 23-29任一项所述的系统, 其特征在于, 所述度量值为所述预定染色 体的相对比对率与拟合的所述内参染色体的相对比对率的比值, 所述拟合的内参染色体的 相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比对率的拟合 关系确定。
31、 根据权利要求 30所述的系统, 其特征在于, 所述拟合关系为根据最小二乘法确定 的拟合关系。
32、 根据权利要求 31所述的系统, 其特征在于, 所述拟合关系为
(∑Υ) β(∑Χ ) 3 ηχγ ~∑χγ
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, n∑Z2 - (∑Z)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR
33、根据权利要求 32所述的系统, 其特征在于, 所述预定染色体为 18号染色体, 所述 内参染色体为 8号染色体。
34、 根据权利要求 32所述的系统, 其特征在于, 所述预定染色体为 13号染色体, 所 述内参染色体为 4号染色体。
35、 根据权利要求 23-29任一项所述的系统, 其特征在于, 所述预定染色体为 21号染 色体且不使用内参染色体, 所述度量值为预定染色体的相对比对率。
36、 根据权利要求 23-29任一项所述的系统, 其特征在于, 通过下列步骤确定所述度量 值和内参染色体:
选择一组候选度量值和一组候选内参染色体;
确定每个候选内参染色体对应下的各个候选度量值的数值;
确定各个候选度量值在对照样品间的变异系数,
选择变异系数最小的候选度量值及其对应的候选内参染色体。
37、 根据权利要求 36所述的系统, 其特征在于, 所述一组候选度量值为所述预定染色 体的相对比对率、 所述预定染色体的相对比对率与内参染色体的相对比对率的比值和所述 预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值;
所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内 参染色体的相对比对率的拟合关系确定。
38、 根据权利要求 37所述的系统, 其特征在于, 所述拟合关系为根据最小二乘法确定 的拟合关系。
39、 根据权利要求 38所述的系统, 其特征在于, 所述拟合关系为
(∑γ) β(∑χ ) n∑XY -∑X∑Y
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, n∑X2 - (∑X)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR
40、 根据权利要求 23-39任一项所述的系统, 其特征在于,
基于公式 D TNi /WN
Figure imgf000019_0001
确定各样品中每条染色体的相对比对率 CRi, 其中, CR表示相对比对率, i代表染色体号, TNi代表唯一比对到 i号染色体的测序数据的数目, WN表示唯一比对测序数据集中所包含 的唯一比对测序数据的数目 M, LENi表示 i号染色体的长度, G表示人类全基因组的总长 度。
41、根据权利要求 23-40任一项所述的系统,其特征在于,所述预定染色体为常染色体。
42、 根据权利要求 41所述的系统, 其特征在于, 所述预定染色体为 21号染色体、 18 号染色体以及 13号染色体的至少之一。
43、根据权利要求 23-40任一项所述的系统,其特征在于,所述预定染色体为性染色体。
44、 根据权利要求 23-43任一项所述的系统, 其特征在于, 在进行比对之前, 进一步 包括: 去除低质量的测序数据以及含有接头的测序数据。
45、一种计算机可读介质, 所述计算机可读介质上存储有指令, 所述指令适于被处理器 执行以便通过下列步骤确定胎儿针对预定染色体是否存在非整倍性:
从包含胎儿核酸和母体核酸的样品中获得样品核酸唯一比对测序数据集;
针对所述唯一比对测序数据集,分别确定预定染色体的相对比对率和至多一条内参染色 体的相对比对率, 其中, 所述相对比对率是基于唯一比对测序数据集中唯一比对至预定染 色体的测序数据量与预定染色体长度的关系确定的;
基于所述预定染色体的相对比对率和内参染色体的相对比对率,确定所述预定染色体的 度量值; 以及
基于所述预定染色体的度量值与预定阈值的关系,确定胎儿针对预定染色体是否存在非 整倍性。
46、 根据权利要求 45所述的计算机可读介质, 其特征在于, 所述预定阈值是通过对对 照样品的度量值进行统计检验确定的。
47、 根据权利要求 46 所述的计算机可读介质, 其特征在于, 所述统计检验为 Z-score 检验。
48、 根据权利要求 47所述的计算机可读介质, 其特征在于, 所述预定阈值中正常值范 围是对照样品的度量值经统计检验的 95%置信区间。
49、 根据权利要求 48所述的计算机可读介质, 其特征在于, 所述预定阈值中正常值范 围是对照样品的度量值经统计检验的 99%置信区间。
50、 根据权利要求 45所述的计算机可读介质, 其特征在于, 所述唯一比对测序集是通 过下列步骤获得的:
对包含胎儿核酸和母体核酸的样品核酸进行测序, 以便获得测序数据; 以及
将所述测序数据与人类参照基因组序列进行比对,以便获得由多个唯一比对测序数据构 成的所述样品核酸唯一比对测序数据集。
51、 根据权利要求 45-50任一项所述的计算机可读介质, 其特征在于, 所述度量值为所 述预定染色体的相对比对率与拟合的所述内参染色体的相对比对率的比值, 所述拟合的内 参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内参染色体的相对比 对率的拟合关系确定。
52、 根据权利要求 51所述的计算机可读介质, 其特征在于, 所述拟合关系为根据最小 二乘法确定的拟合关系。
53、 根据权利要求 52所述的计算机可读介质, 其特征在于, 所述拟合关系为,
(∑Υ) β(∑Χ ) 3 ηχγ ~∑χγ
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, n∑Z2 - (∑Z)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR
54、根据权利要求 53所述的计算机可读介质, 其特征在于, 所述预定染色体为 18号染 色体, 所述内参染色体为 8号染色体。
55、 根据权利要求 53所述的计算机可读介质, 其特征在于, 所述预定染色体为 13号 染色体, 所述内参染色体为 4号染色体。
56、 根据权利要求 45-51任一项所述的计算机可读介质, 其特征在于, 所述预定染色体 为 21号染色体且不使用内参染色体, 所述度量值为预定染色体的相对比对率。
57、 根据权利要求 45-51任一项所述的计算机可读介质, 其特征在于, 通过下列步骤确 定所述度量值和内参染色体: 选择一组候选度量值和一组候选内参染色体;
确定每个候选内参染色体对应下的各个候选度量值的数值;
确定各个候选度量值在对照样品间的变异系数,
选择变异系数最小的候选度量值及其对应的候选内参染色体。
58、 根据权利要求 57所述的计算机可读介质, 其特征在于, 所述一组候选度量值为所 述预定染色体的相对比对率、 所述预定染色体的相对比对率与内参染色体的相对比对率的 比值和所述预定染色体的相对比对率与拟合的内参染色体的相对比对率的比值;
所述拟合的内参染色体的相对比对率是基于对照样品中预定染色体的相对比对率和内 参染色体的相对比对率的拟合关系确定。
59、 根据权利要求 58所述的计算机可读介质, 其特征在于, 所述拟合关系为根据最小 二乘法确定的拟合关系。
60、 根据权利要求 59 所述的计算机可读介质, 其特征在于, 所述拟合关系为
(∑Υ) β(∑χ ) n∑XY -∑X∑Y
CRR.fined = a ^ CRR + P ^ 其中, a -—n -n ~, n∑X2 - (∑X)2n表示对照样品 的数目, CRT为预定染色体的相对比对率, 0½为内参染色体的相对比对率, CRR.fitted为拟 合的内参染色体的相对比对率, X为各个对照样品中的 CRR, ; F为各个对照样品中的 CRR
61、 根据权利要求 45-60任一项所述的计算机可读介质, 其特征在于,
基于公式 D TNi /WN
Figure imgf000021_0001
确定各样品中每条染色体的相对比对率 CRi, 其中, CR表示相对比对率, i代表染色体号, TNi代表唯一比对到 i号染色体的测序数据的数目, WN表示唯一比对测序数据集中所包含 的唯一比对测序数据的数目 M, LENi表示 i号染色体的长度, G表示人类全基因组的总长 度。
62、 根据权利要求 45-61任一项所述的计算机可读介质, 其特征在于, 所述预定染色体 为常染色体。
63、根据权利要求 62所述的计算机可读介质, 其特征在于, 所述预定染色体为 21号染 色体、 18号染色体以及 13号染色体的至少之一。
64、 根据权利要求 45-61任一项所述的计算机可读介质, 其特征在于, 所述预定染色体 为性染色体。
65、 根据权利要求 45-64任一项所述的计算机可读介质, 其特征在于, 在进行比对之 前, 进一步包括: 去除低质量的测序数据以及含有接头的测序数据。
66、 确定胎儿针对预定染色体是否存在非整倍性的系统, 其特征在于, 包括: 测序装置,所述测序装置适于对包含胎儿核酸和母体核酸的样品进行测序, 以便获得样 ,核酸的唯一比对测序数据集; 以及
权利要求 45-65任一项所述的计算机可读介质。
PCT/CN2013/073373 2013-03-28 2013-03-28 确定胎儿染色体非整倍性的方法、系统和计算机可读介质 WO2014153755A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201380006955.1A CN104205106A (zh) 2013-03-28 2013-03-28 确定胎儿染色体非整倍性的方法、系统和计算机可读介质
PCT/CN2013/073373 WO2014153755A1 (zh) 2013-03-28 2013-03-28 确定胎儿染色体非整倍性的方法、系统和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2013/073373 WO2014153755A1 (zh) 2013-03-28 2013-03-28 确定胎儿染色体非整倍性的方法、系统和计算机可读介质

Publications (1)

Publication Number Publication Date
WO2014153755A1 true WO2014153755A1 (zh) 2014-10-02

Family

ID=51622391

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/073373 WO2014153755A1 (zh) 2013-03-28 2013-03-28 确定胎儿染色体非整倍性的方法、系统和计算机可读介质

Country Status (2)

Country Link
CN (1) CN104205106A (zh)
WO (1) WO2014153755A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111226281A (zh) * 2019-12-31 2020-06-02 深圳华大临床检验中心 确定染色体非整倍性、构建分类模型的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012019323A1 (zh) * 2010-08-13 2012-02-16 深圳华大基因科技有限公司 一种细胞染色体分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101851626A (zh) * 2009-03-31 2010-10-06 王志钢 绒山羊4E-BP1基因cDNA编码区核苷酸序列
CN102409088B (zh) * 2011-09-22 2014-11-12 郭奇伟 一种基因拷贝数变异的检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012019323A1 (zh) * 2010-08-13 2012-02-16 深圳华大基因科技有限公司 一种细胞染色体分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROSSA W. K. CHIU ET AL.: "Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma.", PNAS, vol. 105, no. 51, December 2008 (2008-12-01) *
TZE KIN LAU ET AL.: "Noninvasive prenatal diagnosis of common fetal chromosomal aneuploidies by maternal plasma DNA sequencing", JOURNAL OF MATERNAL-FETAL AND NEONATAL MEDICINE., vol. 25, no. 8, August 2012 (2012-08-01), pages 1370 - 1374 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111226281A (zh) * 2019-12-31 2020-06-02 深圳华大临床检验中心 确定染色体非整倍性、构建分类模型的方法和装置
WO2021134513A1 (zh) * 2019-12-31 2021-07-08 深圳华大医学检验实验室 确定染色体非整倍性、构建分类模型的方法和装置
CN111226281B (zh) * 2019-12-31 2023-03-21 深圳华大医学检验实验室 确定染色体非整倍性、构建分类模型的方法和装置

Also Published As

Publication number Publication date
CN104205106A (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
JP7119014B2 (ja) まれな変異およびコピー数多型を検出するためのシステムおよび方法
US11031100B2 (en) Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer
JP6585117B2 (ja) 胎児の染色体異数性の診断
JP6525894B2 (ja) 超並列rna配列決定による母体血漿のトランスクリプトーム解析
BR112013020220B1 (pt) Método para determinar o estado de ploidia de um cromossomo em um feto em gestação
CN114574581A (zh) 检测稀有突变和拷贝数变异的系统和方法
WO2013107048A1 (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN110622250A (zh) 用于检测插入和缺失的方法和系统
WO2015089726A1 (zh) 一种染色体非整倍性检测方法及装置
TWI675918B (zh) 基於單倍型之通用非侵入性單基因疾病產前檢測
WO2014153755A1 (zh) 确定胎儿染色体非整倍性的方法、系统和计算机可读介质
TWI564742B (zh) Methods for determining the aneuploidy of fetal chromosomes, systems and computer-readable media
WO2014101126A1 (zh) 确定胎儿性别的方法、系统和计算机可读介质
GB2564848A (en) Prenatal screening and diagnostic system and method
WO2014101024A1 (zh) 确定双胞胎中胎儿性别的方法、系统和计算机可读介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13880543

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 10/02/2016)

122 Ep: pct application non-entry in european phase

Ref document number: 13880543

Country of ref document: EP

Kind code of ref document: A1