WO2017082034A1 - 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法 - Google Patents
細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法 Download PDFInfo
- Publication number
- WO2017082034A1 WO2017082034A1 PCT/JP2016/081476 JP2016081476W WO2017082034A1 WO 2017082034 A1 WO2017082034 A1 WO 2017082034A1 JP 2016081476 W JP2016081476 W JP 2016081476W WO 2017082034 A1 WO2017082034 A1 WO 2017082034A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- cells
- genotype
- cell
- persons
- same person
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Definitions
- the present invention relates to a method for determining whether or not a cell or a cell group is the same person, whether it is another person, a parent-child, or a related relationship.
- fetal cells that enter the maternal vein from the placenta are present in the peripheral blood of pregnant women.
- non-invasive prenatal diagnosis of fetal chromosomal and genetic abnormalities can be performed.
- the presence of fetal cells in the peripheral blood of pregnant women is about 1 in 10 5 to 10 7 as the frequency of nucleated cells, and it is difficult to distinguish fetal cells from mother cells from appearance Therefore, there is a high possibility that cells derived from the fetus obtained by extraction from maternal blood are mixed with cells derived from the mother. Therefore, in prenatal diagnosis based on fetal cells in pregnant woman's peripheral blood, it is necessary to identify whether the cells to be examined are derived from a fetus or a mother based on genetic information.
- Patent Document 1 it was obtained with respect to plasma collected from a pregnant mother together with the genetic measurement of the pseudofather and the genetic measurement of the mother in order to determine whether or not the pseudofather is a fetal real father.
- a non-invasive prenatal parentage testing method that uses genetic measurements. This method is a method in which peripheral blood of a pseudofather and a pregnant woman is collected and used for identification by using genetic information such as SNP (Single Nucleotide Polymorphism) contained in the blood. That is, it is a method for estimating the true father's true fatherhood from the pseudofather DNA and the mother-fetal mixed DNA.
- SNP Single Nucleotide Polymorphism
- Patent Document 1 In the prenatal diagnosis based on fetal cells in the pregnant woman's peripheral blood, it is necessary to distinguish fetal cells from mother cells on a cell-by-cell basis, so the technique disclosed in Patent Document 1 cannot be applied as it is.
- the present invention has a large error due to DNA amplification and sequencing in gene analysis for a small amount of DNA (Deoxyribonucleic Acid; deoxyribonucleic acid), and even when errors occur frequently in polymorphic information of the obtained gene.
- Cells or cells that can be derived from multiple people, capable of determining whether they are the same person, determining whether they are other people, determining whether they are parents and children, or determining whether they are related It is an object of the present invention to provide a method for determining whether a group is the same person between cells or between cell groups, whether it is another person, whether it is a parent-child, or whether it is related.
- the present inventor obtained genotype data for a gene polymorphic site of a cell or a group of cells, weighted with a preset weight distribution, and weighted genetics.
- the method for determining whether or not a parent-child or a related relationship in gene analysis for a small amount of DNA (Deoxyribonucleic Acid), DNA amplification and sequencing Even if there is a large error due to aging and errors frequently occur in the polymorphism information of the obtained gene, it is highly accurate, whether it is the same person, whether it is another person, whether it is a parent and child, It was also learned that it was possible to
- the present invention includes the following [1] to [9].
- [1] A method for determining whether a cell or a group of cells that may be derived from a plurality of people is the same person between cells or between groups of cells, whether it is another person, whether it is a parent-child, or whether it is related.
- the weight distribution set in advance is set by associating the apparent genotype to be measured with the true genotype for the genetic polymorphic site.
- the determination method according to any one of [2] to [6] above, which is estimated. [8] The determination method according to [3], wherein the distance is a likelihood or a posterior probability. [9] Furthermore, for the cells constituting the cell group that may be derived from N persons, the process of calculating the distance between the cells and the clustering of the cells according to the identity of the same person, the final cluster number k is obtained, k 1, it is determined that the cell group is composed of cells derived from the same person, and when k ⁇ 1 and k ⁇ N, it is determined that the cell group is composed of cells derived from k of N persons, and k ⁇ The determination according to any one of [1] to [7] above, further comprising the step of determining that the cell group is composed of cells derived from k persons including those other than N when 1 and k> N. Method.
- N and k are integers of 1 or more.
- a cell or group of cells that can be derived from multiple persons, capable of determining whether they are the same person, determining whether they are other persons, determining whether they are parents and children, or determining whether they are related. It is possible to provide a method for determining whether or not a cell, or a group of cells, is the same person, whether it is another person, whether it is a parent-child, or whether it is related.
- FIG. 1 is a schematic diagram for explaining a method of acquiring weighted genotype data from observed genotype data.
- Figure 2 shows the relationship between the observed base depth ratio (horizontal axis: depth ratio) and the conditional probability that the observed base is present as a heterogeneous true genotype (vertical axis: conditional probability). It is a graph showing.
- Figure 3 shows the relationship between the observed base depth ratio (horizontal axis: depth ratio) and the conditional probability that the observed base is present as a true genotype (vertical axis: conditional probability). It is a graph showing.
- FIG. 4 is a dendrogram showing the hierarchical clustering performed in the first embodiment. A numerical value attached to a branch (lineage) is a distance between clusters (representing the same faceds).
- the invention described in Patent Document 1 is a method for determining whether or not an actual father of a fetus in pregnancy is a pseudo-father using genetic information obtained from the pseudo-father and peripheral blood of pregnant women. Specifically, the invention described in Patent Document 1 obtains genetic information such as SNP (Single Nucleotide Polymorphism) of pseudofather from pseudofather, and SNP of pregnant woman and fetus from peripheral blood of pregnant woman. (A) determining the probability that the pseudo father is the fetal real father, and (b) determining whether the pseudo father is the fetal real father based on the probability.
- this method does not target single cells, it is difficult to separate individual cells by origin in a situation where maternal and fetal cells may coexist.
- the present invention in a situation where cells of different origins may coexist, individual cells are classified by origin using genetic information such as SNP (Single Nucleotide Polymorphism).
- SNP Single Nucleotide Polymorphism
- the present invention obtains genetic information such as SNP from a cell group isolated from pregnant peripheral blood and possibly mixed with maternal cells and fetal cells, By examining the genotype and frequency of occurrence, weighting each genotype, and using the weighted genotype data obtained by weighting the genotype data, It is different from the above-described prior art in that it makes a determination, a determination as to whether it is another person, a determination as to whether it is a parent or child, or a determination as to whether it is a related relationship.
- the present invention is highly accurate, whether it is the same person, another person, whether it is a parent-child, or whether it is related to a single cell with a large error due to DNA amplification and / or sequencing. A determination can be made.
- a method for determining whether or not a person, another person, a parent / child, or a related relationship is obtained by obtaining genotype data for a gene polymorphism site of a cell or a group of cells, and setting a weight distribution set in advance. Weighted genotype data to obtain weighted genotype data, and whether the same person, another person, parent-child, or relatedness between cells or cell groups using the weighted genotype data Including the step of determining whether or not, wherein the preset weight distribution is set by associating a measured genotype with a true genotype for the genetic polymorphic site. .
- Step of obtaining genotype data for a gene polymorphic site of a cell or a group of cells and obtaining weighted genotype data by weighting with a preset weight distribution >> This will be described with reference to FIG.
- the observed genotype data (depth ratio) is weighted with a preset weight distribution to obtain weighted genotype data (depth ratio).
- the observed genotype depths d 1 , d 2 , and d 3 are calculated from the sequence read and represented as an observed data matrix D, and the weighted genotype depths d ′ 1 , d ′ 2 are calculated.
- D ′ 3 is expressed as a weighted data matrix D ′
- D ′ is calculated as a product WD of the weighting matrix W and the observation data matrix D.
- weighted genotype data is used to define the distance between cells or groups of cells, whether they are the same person or not, Judgment is made whether the child is a parent or child or is related.
- the distance between cells or cell groups is preferably a likelihood or a posterior probability.
- Likelihood means the probability that data observed under a hypothesis or model will occur.
- the numerical value indicating the likelihood that the precondition is estimated to be “what was” from the observation result as a function with “what” as a variable Is called a likelihood function.
- the posterior probability is a kind of conditional probability, and is a kind of subjective probability that expresses a degree known to a variable as a probability under a condition that takes into account some evidence (data or information).
- the data collection is divided into multiple subsets (clusters) based on the similarity between the data, whether it is the same person, whether it is another person, whether it is a parent-child, or whether it is related Judgment is made.
- the clustering may use either hierarchical clustering or non-hierarchical clustering. Hierarchical clustering sets individual data as one cluster, calculates similarity or dissimilarity between clusters, merges the most similar clusters, and merges all clusters into one cluster repeat.
- the nearest neighbor method in which the distance between the nearest data is defined as the distance between the two clusters, and the distance between the farthest data is defined as the distance between the two clusters.
- the distance between data the above-described likelihood, posterior probability, or the like may be used.
- non-hierarchical clustering which is also referred to as a partition optimization method
- a function representing a partition state can be used to perform a search so that the function value becomes an optimal solution.
- a non-hierarchical clustering method for example, a k-average method that uses an average of clusters and classifies it into a given number k of clusters can be cited.
- Hierarchical cluster analysis is an analysis method that aims to construct a tree-like classification structure called a dendrogram or dendrogram based on such dissimilarity (d ij ) between objects. .
- An arbitrary number of 1 to n clusters can be obtained by cutting the tree diagram with an appropriate cross section.
- a cluster consisting of a small number of structural units that can be cut near the tip of a branch is a cluster consisting of a large number of structural units that can be cut at the root of a larger branch with that branch. Is included as is.
- Step 1 Start with n clusters, each of which is an object.
- Step 2 Referring to the dissimilarity matrix (d ij ) between the clusters, the two clusters having the highest similarity are merged to create one cluster.
- Step 3 If the number of clusters is 1, finish. If not, proceed to the next step.
- Step 4 the newly created cluster in step 2, by calculating the dissimilarity with other clusters, update the dissimilarity matrix (d ij), the flow returns to step 2.
- the likelihood of each genotype of the gene polymorphic site is calculated by multiplying the weighted depth ratio by the likelihood function for all target gene polymorphic sites. Then, the maximum likelihood with / without restraint is calculated, the likelihood ratio is obtained, and it is possible to determine whether it is the same person, whether it is another person, whether it is a parent-child, or whether it is related by the magnitude.
- weighted genotype data is used to define the distance between cells or cell groups, and the genetic positional relationship between cells or cell groups is determined to determine the same between cells or cell groups. It is preferable to determine whether it is a person, another person, a parent-child, or a related relationship.
- a genetic positional relationship refers to a genetic connection between cells, and is closer to a closer relationship.
- a more specific example is a distance between cells, and the distance is more preferably a likelihood or a posterior probability.
- Cells that may be derived from multiple persons are not particularly limited, but those that perform genotype analysis of one cell are preferable, for example, because fetal cells and mother cells are likely to be mixed And nucleated cells in peripheral blood of pregnant women, particularly nucleated red blood cells.
- a cell group means a group of cells including one or more cells.
- the gene polymorphism site is not particularly limited as long as it includes a locus where the gene polymorphism exists.
- the gene polymorphism is not particularly limited, and examples thereof include SNP (Single Nucleotide Polymorphism), STR (Short Tandem Repeat), CNV (Copy Number Variation) and the like. Can be mentioned.
- the gene polymorphic site is one or both of a single nucleotide polymorphic site and a copy number polymorphic site. It is preferable that a single nucleotide polymorphism site is included.
- Single nucleotide polymorphisms are widely used in the technical field related to the determination of whether they are the same person, whether they are different persons, whether they are parents or children, or whether they are related, and the present invention can be applied to the accumulation of data and the enhancement of analysis methods. This is because there are advantages in implementation.
- the gene polymorphic site is a single nucleotide polymorphic site, and the weight distribution includes a plurality of weight distributions. More preferably, it is set in consideration of the haplotype of the single nucleotide polymorphism site. This is because, depending on the haplotype, possible genotypes may be limited.
- the weight distribution is set by associating an apparent genotype with a true genotype for the gene polymorphic site. This setting is preferably performed by defining or estimating the association between the apparent genotype and the true genotype from the results of experiments and / or simulations using a plurality of cells or large amounts of DNA. This will be described below with an example.
- Example 1 An example of defining the relationship between an observed genotype and a true genotype using probability.
- SNP Single Nucleotide Polymorphism
- the probability P genotype apparent when the true genotype is p 1 q 1 is p 1 q 1 (B 1
- a 1) 0.90
- a 2 ) 0.10 that the apparent genotype is p 2 q 2 when the true genotype is p 1 q 1 and the true genotype is p 2 q 2
- a 2 ) 0.70 when the apparent genotype is p 2 q 2
- a 2 ) 0.30.
- a 1 is event event true genotype is p 1 q 1
- a 2 the event the true genotype is p 2 q 2
- B 1 is genotype apparent is p 1 q 1
- B 2 is an event whose apparent genotype is p 2 q 2 .
- the probability true genotype if apparent genotype is p 1 q 1 is p 1 q 1 P (A 1
- B j ) ⁇ P (A i ) P (B j
- B 1 ) ⁇ P (A 1 ) P (B 1
- a k ) ⁇ (0.50 ⁇ 0.
- Example 2 An example in which the relationship between the true genotype and the apparent genotype is defined using variation.
- SNP Single Nucleotide Polymorphism
- r 1 s 1 As a genotype of a certain SNP (Single Nucleotide Polymorphism) locus Y, r 1 s 1 , r 1 Assume that there are four possibilities of s 2 , r 2 s 1 , and r 2 s 2 .
- data obtained by normalizing the depth obtained for each possible genotype of the SNP locus Y with the total depth is (d 1 , d 2 , d 3 , d 4 ).
- Distribution Estimation Method Experimental Estimation Method The distribution of (d 1 , d 2 , d 3 , d 4 ) is estimated experimentally. First, DNA amplification and sequencing are performed using a large amount of DNA (Deoxyribonucleic Acid) to determine the true genotype. Next, DNA amplification and sequencing experiments are performed multiple times using a single cell to estimate the distribution of (d 1 , d 2 , d 3 , d 4 ) and the true genotype. It may be assumed that there is no difference between cells, between individuals, or between regions of the PCR reaction, or the difference may be taken into account.
- DNA Deoxyribonucleic Acid
- Distribution Estimation Method Simulation Estimation Method
- the distribution of (d 1 , d 2 , d 3 , d 4 ) is estimated by simulation. First, models such as DNA amplification and sequencing are constructed. Next, assuming a genotype, a plurality of (d 1 , d 2 , d 3 , d 4 ) obtained at that time are obtained by Monte Carlo simulation, and the distribution is estimated. When constructing a model, it may be assumed that there is no difference between cells, individuals, PCR reaction regions, etc., or the difference may be taken into account.
- Distribution Estimation Method Experiment Method and Simulation Estimation Method
- the distribution of (d 1 , d 2 , d 3 , d 4 ) is estimated by experiment and simulation. First, parameters are estimated by the above-described method for estimating distribution, and a model such as DNA amplification and sequencing is constructed. Next, assuming a genotype, a plurality of (d 1 , d 2 , d 3 , d 4 ) obtained at that time are obtained by Monte Carlo simulation, and the distribution is estimated. The distribution estimated in this way is used for weighting.
- FIG. 2 is a graph showing the relationship between the observed depth ratio of a base and the conditional probability that the base exists in a heterogeneous state as a true genotype. For example, when a depth ratio of 0.5 is observed for a base C at a certain SNP (Single Nucleotide Polymorphism) position Z, the conditional probability that C exists as a true genotype is heterogeneous. To about 0.025.
- SNP Single Nucleotide Polymorphism
- 3 is a graph showing the relationship between the observed depth ratio of a base and the conditional probability that the base is present as a true genotype. For example, when a depth ratio of 0.98 is observed for a base C at a certain SNP position, the conditional probability that C exists as a true genotype is about 0.02 from FIG.
- Example 4 Example of experimental association Using a commercially available genomic DNA (Deoxyribonucleic Acid) extraction kit, cell lysis and genome extraction for a large number of cultured cells ( ⁇ 10 6 cells) I do. About 10 ng of the obtained genome, a region containing the desired SNP (Single Nucleotide Polymorphism) is amplified by PCR (Polymerase Chain Reaction) and sequenced using a next-generation sequencer To do.
- genomic DNA Deoxyribonucleic Acid
- SNP Single Nucleotide Polymorphism
- sequencer output was compared with the reference genome by using BWA (Burrows-Wheeler Aligner) (Bioinformatics, 2009, 25 (14): 1754-1760 .; Bioinformatics, 2010, 26 (5): 589-595 .; http: / Alignment / mapping is performed using an alignment tool / mapping tool such as /bio-bwa.sourceforge.net/) to obtain depth information of a desired region.
- SAMtools SAM: Sequence Alignment / Map
- Bioinformatics, 2009, 25 (16): 2078-2079; http://github.com/samtools/samtools) is used to count up each position and obtain depth information.
- the SNP call is performed using BCFtools (BCF: Binary Call Format) (http://github.com/samtools/bcftools) to determine the genotype at each SNP for a large number of cells.
- BCFtools BCF: Binary Call Format
- a similar operation is performed on isolated single cells for about 100 cells to obtain a depth distribution. Using the obtained true genotype and depth distribution in each SNP, the depth and true genotype in a single cell are associated.
- Example of association by simulation An example of an amplification model is shown.
- SNP Single Nucleotide Polymorphism
- the ratio of (A, C, G, T) after the r-th PCR (Polymerase Chain Reaction) (A (r), C ( r), G (r), T (r)).
- the initial values (A (0), C (0), G (0), T (0)) are, for example, (2, 0, 0, 0) for A homo, and for AC hetero ( 1, 1, 0, 0).
- r is an integer of 1 or more.
- a (r + 1) A (r) * p * q + C (r) * p * (1-q) / 3 + G (r) * p * (1-q) / 3 + T (r) * p * (1-q) / 3
- C (r + 1) C (r) * p * q + A (r) * p * (1-q) / 3 + G (r) * p * (1-q) / 3 + T (r) * p * (1-q) / 3
- G (r + 1) G (r) * p * q + A (r) * p * (1-q) / 3 + C (r) * p * (1-q) / 3 + T (r) * p * (1-q) / 3
- T (r + 1) T (r) * p * q + A (r) * p * (1-q) / 3 + C (r) * p * (1-q) / 3 + G (r) * p * (1-q
- the best fit value is estimated by the KS test (Kolmogorov-Smirnov test).
- KS test Karlmogorov-Smirnov test
- the correspondence between the true base type and the depth when the initial value is hetero is estimated by Monte Carlo simulation.
- the graphs shown in FIG. 2 and FIG. 3 correspond to example results when the initial value is hetero and the initial value is homo, respectively.
- the weight distribution may be corrected with reference to the determined genotype of the father and / or mother.
- the genotype of the child may be limited based on the genotype of the father and / or mother.
- the apparent genotype data of the child is significantly different from the genotype data predicted from the father and / or mother's genotype, contamination may be suspected and no further analysis will be performed. it can.
- the cell or group of cells that may be derived from a plurality of persons is preferably a mother or a fetus.
- the data is derived from either of them, if the observed genotype data includes data indicating the presence of the Y chromosome, it is estimated that the cell or the cell group is derived from the fetus. Since mother cells have only the X chromosome as a sex chromosome, the presence of the Y chromosome is strong evidence that the cell from which the genotype data was obtained is derived from the fetus.
- N and k are integers of 1 or more.
- the clustering method described above can be used.
- Example 1 (subject) Three families, C, D and E, were targeted. From family C, there are two sons (symbol: Cson) and mother (symbol: Cmom). From family D, there are 3 sisters (symbol: Dsis1), sister (symbol: Dsis2) and mother (symbol: Dmom). From the family E, three subjects were selected as subjects: a son (symbol: Eson), a mother (symbol: Emom), and a father (symbol: Edad). (experimental method) SNPs (Single Nucleotide Polymorphism) on chromosomes 13, 18, 21, 21 and X were analyzed.
- SNPs Single Nucleotide Polymorphism
- Hierarchical clustering was performed using the obtained weighted genotype data.
- the obtained dendrogram is shown in FIG.
- a numerical value attached to a branch (lineage) represents a distance between clusters. The smaller the distance, the greater the personality.
- the distance increases in the order of the same person ⁇ parent-child ⁇ blood relationship (blood relationship other than parent-child) ⁇ other person (other person who has no blood relationship). Since the X chromosome is seen, the father of the family E (symbol: Edad) is separated from the son of the family E (symbol: Eson) and the mother (symbol: Emom).
- the present invention is particularly useful for mother-child discrimination, parent-child discrimination, or blood relationship discrimination in prenatal diagnosis.
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Plant Pathology (AREA)
- Ecology (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
複数人に由来する可能性がある細胞または細胞群における、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法であって、細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、予め設定された重み分布は、遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定される、少量DNAに対する遺伝子解析において、DNA増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能な、複数人に由来する可能性がある細胞または細胞群の、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法が提供される。
Description
本発明は、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法に関する。
妊婦の末梢血中には胎盤から母体静脈に入った胎児細胞が存在していることが知られている。この胎児細胞の染色体や遺伝子を検査することにより、胎児の染色体異常や遺伝子異常の非侵襲的な出生前診断を行うことができる。
妊婦末梢血中の胎児細胞の存在頻度は有核球の頻度として105~107個に1個程度であること、また、胎児細胞と母親細胞とを外見から区別することは困難であることから、母体血から抽出して得られた胎児由来とされる細胞または細胞群には母親由来の細胞が混入している可能性が高い。そのため、妊婦末梢血中の胎児細胞に基づく出生前診断では、検査対象の細胞が胎児由来であるのかまたは母親由来であるのかを遺伝子情報に基づいて識別することが必要である。
しかし、単一細胞に含まれるDNA(Deoxyribonucleic Acid;デオキシリボ核酸)は少量である。現在のところ、このような少量DNAに対するシーケンシング技術およびバイオインフォマティックス技術は発展途上にあり、DNA増幅およびシーケンシングによる誤差が大きいため、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう。例えば、DNA増幅やシーケンシングの際のエラーのため、アレルドロップアウトやアレルドロップインなどが発生し、存在するはずのアレルが検出されなかったり、存在しないはずのアレルが検出されたりする場合がある。その結果、各細胞が胎児由来であるのかまたは母親由来であるのかを正確に判定することが困難となっている。
一方、特許文献1には、擬父が胎児の実父であるか否かを決定するために擬父の遺伝的測定値および母親の遺伝的測定値と共に妊娠中の母親から採取した血漿に関して取得した遺伝的測定値を使用することを特徴とする非侵襲性出生前親子鑑定法が開示されている。この方法は、擬父と妊婦の末梢血を採取し、血液に含まれるSNP(Single Nucleotide Polymorphism;一塩基多型)等の遺伝子情報を用いることで鑑定を行う方法である。すなわち、擬父DNAと母親胎児混合DNAとから、擬父の実父らしさを推定する方法である。
しかしながら、妊婦末梢血中の胎児細胞に基づく出生前診断では、胎児細胞と母親細胞とを細胞単位で区別する必要があるため、特許文献1に開示された技術をそのまま適用することはできない。
そこで、本発明は、少量DNA(Deoxyribonucleic Acid;デオキシリボ核酸)に対する遺伝子解析において、DNA増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能な、複数人に由来する可能性がある細胞または細胞群の、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法を提供することを課題とする。
本発明者は、上記課題を解決すべく鋭意検討を重ねた結果、細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、予め設定された重み分布は、遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定される、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法によれば、少量DNA(Deoxyribonucleic Acid;デオキシリボ核酸)に対する遺伝子解析において、DNA増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能であることを知得し、本発明を完成させた。
すなわち、本発明は以下に掲げる[1]~[9]である。
[1] 複数人に由来する可能性がある細胞または細胞群における、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法であって、
細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および
重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、
予め設定された重み分布は、遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型とを対応付けることにより設定される、
同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法。
[2] 見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量DNAを用いる実験および/またはシミュレーションによって推定される、上記[1]に記載の判定方法。
[3] 重み付き遺伝型データを用いて細胞間または細胞群間の距離を定義し、細胞間または細胞群間の距離の関係性を判断して、上記細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする、上記[1]または[2]に記載の判定方法。
[4] 細胞または細胞群が妊婦末梢血から単離した細胞または細胞群である、上記[1]~[3]のいずれか1つに記載の判定方法。
[5] 重み分布を集団における遺伝型頻度を参照して補正する、上記[1]~[4]のいずれか1つに記載の判定方法。
[6] 重み分布を父親および/または母親の確定された遺伝型を参照して補正する、上記[1]~[4]のいずれか1つに記載の判定方法。
[7] 細胞または細胞群が、母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにY染色体の存在を示すデータが存在すれば、細胞または細胞群が胎児に由来すると推定する、上記[2]~[6]のいずれか1つに記載の判定方法。
[8] 距離が尤度または事後確率である、上記[3]に記載の判定方法。
[9] さらに、
N人に由来する可能性がある細胞群を構成する細胞について、細胞間の距離を算出する工程、および
同一人らしさに応じて細胞のクラスタリングを実施し、最終的なクラスタ数kを求め、k=1である場合に細胞群は同一人に由来する細胞からなると判定し、k≠1かつk≦Nである場合に細胞群はN人中k人に由来する細胞からなると判定し、k≠1かつk>Nである場合に細胞群はN人以外の人を含むk人に由来する細胞からなると判定する工程
を含む、上記[1]~[7]のいずれか1つに記載の判定方法。
ただし、ここで、Nおよびkは1以上の整数である。
[1] 複数人に由来する可能性がある細胞または細胞群における、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法であって、
細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および
重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、
予め設定された重み分布は、遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型とを対応付けることにより設定される、
同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法。
[2] 見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量DNAを用いる実験および/またはシミュレーションによって推定される、上記[1]に記載の判定方法。
[3] 重み付き遺伝型データを用いて細胞間または細胞群間の距離を定義し、細胞間または細胞群間の距離の関係性を判断して、上記細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする、上記[1]または[2]に記載の判定方法。
[4] 細胞または細胞群が妊婦末梢血から単離した細胞または細胞群である、上記[1]~[3]のいずれか1つに記載の判定方法。
[5] 重み分布を集団における遺伝型頻度を参照して補正する、上記[1]~[4]のいずれか1つに記載の判定方法。
[6] 重み分布を父親および/または母親の確定された遺伝型を参照して補正する、上記[1]~[4]のいずれか1つに記載の判定方法。
[7] 細胞または細胞群が、母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにY染色体の存在を示すデータが存在すれば、細胞または細胞群が胎児に由来すると推定する、上記[2]~[6]のいずれか1つに記載の判定方法。
[8] 距離が尤度または事後確率である、上記[3]に記載の判定方法。
[9] さらに、
N人に由来する可能性がある細胞群を構成する細胞について、細胞間の距離を算出する工程、および
同一人らしさに応じて細胞のクラスタリングを実施し、最終的なクラスタ数kを求め、k=1である場合に細胞群は同一人に由来する細胞からなると判定し、k≠1かつk≦Nである場合に細胞群はN人中k人に由来する細胞からなると判定し、k≠1かつk>Nである場合に細胞群はN人以外の人を含むk人に由来する細胞からなると判定する工程
を含む、上記[1]~[7]のいずれか1つに記載の判定方法。
ただし、ここで、Nおよびkは1以上の整数である。
本発明によれば、少量DNA(Deoxyribonucleic Acid)に対する遺伝子解析において、DNA増幅およびシーケンシングによる誤差が大きく、得られる遺伝子の多型情報に誤りが頻繁に生じてしまう場合であっても、高精度な、同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行うことが可能な、複数人に由来する可能性がある細胞または細胞群の、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法を提供することができる。
まず、本発明の従来技術に比べた特徴的な点について説明する。
特許文献1に記載された発明は、擬父および妊婦末梢血から得られた遺伝子情報を用いて、妊婦懐胎中の胎児の実父が擬父であるか否かを鑑定する方法である。具体的には、特許文献1に記載された発明は、擬父から擬父のSNP(Single Nucleotide Polymorphism;一塩基多型)等の遺伝子情報を取得し、妊婦末梢血中から妊婦と胎児のSNP等の遺伝子情報を取得し、(a)擬父が胎児の実父である確率を決定し、(b)その確率に基づいて擬父が胎児の実父であるか否かを決定する方法である。しかし、この方法は、単一細胞を対象にしているわけではないため、母親と胎児の細胞が混在する可能性がある状況において、個々の細胞を由来毎に分別することは困難である。
特許文献1に記載された発明は、擬父および妊婦末梢血から得られた遺伝子情報を用いて、妊婦懐胎中の胎児の実父が擬父であるか否かを鑑定する方法である。具体的には、特許文献1に記載された発明は、擬父から擬父のSNP(Single Nucleotide Polymorphism;一塩基多型)等の遺伝子情報を取得し、妊婦末梢血中から妊婦と胎児のSNP等の遺伝子情報を取得し、(a)擬父が胎児の実父である確率を決定し、(b)その確率に基づいて擬父が胎児の実父であるか否かを決定する方法である。しかし、この方法は、単一細胞を対象にしているわけではないため、母親と胎児の細胞が混在する可能性がある状況において、個々の細胞を由来毎に分別することは困難である。
これに対して、本発明は、由来の異なる細胞が混在する可能性がある状況において、SNP(Single Nucleotide Polymorphism;一塩基多型)等遺伝子情報を用いて、個々の細胞を由来毎に分別する方法である。より詳細には、本発明は、妊婦末梢血から単離した、母親細胞および胎児細胞が混在している可能性がある細胞群からSNP等の遺伝子情報を取得し、遺伝子多型部位に対して、遺伝型と出現頻度を検討して各遺伝型に重み付けを行い、遺伝型データに重みづけを行って得られる重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行う点が上記従来技術と相違する。その結果として、本発明は、DNA増幅および/またはシーケンシングによる誤差が大きい単一細胞に対しても、高精度な、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行うことが可能である。
以下、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法について、詳細に説明する。
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法は、細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および上記重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、上記予め設定された重み分布は、上記遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定されることを特徴とする。
<各工程の説明>
以下では、各工程を説明する。
以下では、各工程を説明する。
《細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程》
適宜、図1を参照しながら説明する。
図1に示す例では、遺伝型AA、Aa、aaのそれぞれにw1、w2、w3の重みを付けている。
観測された遺伝型データ(デプス比)を予め設定された重み分布で重み付けして、重み付き遺伝型データ(デプス比)を取得する。図1に示す例では、シーケンスリードから、観測された遺伝型のデプスd1、d2、d3を算出し、観測データ行列Dとして表し、重み付き遺伝型のデプスd’1、d’2、d’3を重み付きデータ行列D’として表し、D’を重み付け行列Wと観測データ行列Dとの積WDとして計算している。
適宜、図1を参照しながら説明する。
図1に示す例では、遺伝型AA、Aa、aaのそれぞれにw1、w2、w3の重みを付けている。
観測された遺伝型データ(デプス比)を予め設定された重み分布で重み付けして、重み付き遺伝型データ(デプス比)を取得する。図1に示す例では、シーケンスリードから、観測された遺伝型のデプスd1、d2、d3を算出し、観測データ行列Dとして表し、重み付き遺伝型のデプスd’1、d’2、d’3を重み付きデータ行列D’として表し、D’を重み付け行列Wと観測データ行列Dとの積WDとして計算している。
《細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程》
重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行う工程では、重み付き遺伝型データを用いて、細胞間または細胞群間の距離に基づく方法、全細胞をクラスタリングする方法、尤度比の大小による評価を用いる方法などにより、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行うことが例示できる。
重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうかの判定、他人かどうかの判定、親子かどうかの判定、または血縁関係かどうかの判定を行う工程では、重み付き遺伝型データを用いて、細胞間または細胞群間の距離に基づく方法、全細胞をクラスタリングする方法、尤度比の大小による評価を用いる方法などにより、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行うことが例示できる。
細胞間または細胞群間の距離に基づく方法では、重み付き遺伝型データ(デプス比)を用いて細胞間または細胞群間の距離を定義し、距離に基づいて同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行う。細胞間または細胞群間の距離は、尤度または事後確率であることが好ましい。
尤度は、ある仮説またはモデルのもとで観察されたデータが生じる確率を意味する。また、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさを表す数値を、「何々」を変数とする関数として捉えたものを尤度関数という。
事後確率は、条件付確率の一種であり、ある証拠(データまたは情報)を考慮に入れた条件で、ある変数について知られている度合を確率として表現する主観確率の一種である。
尤度は、ある仮説またはモデルのもとで観察されたデータが生じる確率を意味する。また、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて前提条件が「何々であった」と推測する尤もらしさを表す数値を、「何々」を変数とする関数として捉えたものを尤度関数という。
事後確率は、条件付確率の一種であり、ある証拠(データまたは情報)を考慮に入れた条件で、ある変数について知られている度合を確率として表現する主観確率の一種である。
全細胞をクラスタリングする方法では、データの集まりをデータ間の類似度に基づいて複数の部分集合(クラスタ)に分けることで、同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定を行う。
本発明においては、クラスタリングは、階層的クラスタリングおよび非階層的クラスタリングのいずれを用いてもよい。
階層的クラスタリングでは、個々のデータを1つのクラスタとして設定し、クラスタ間の類似度または非類似度を計算し、最も類似しているクラスタを併合し、すべてのクラスタが1つのクラスタになるまで併合を繰り返す。クラスタ間の類似度または非類似度を求める方法としては、例えば、最も近いデータの距離を2つのクラスタの距離と定義する最近隣法、最も遠くなるデータの距離を2つのクラスタの距離と定義する最遠隣法、2つのクラスタのそれぞれの重心を求めて重心間の距離をクラスタの距離と定義する重心法などが挙げられる。データ間の距離としては、上述した尤度、事後確率などを用いてもよい。
非階層的クラスタリングでは、分割最適化手法とも呼ばれ、分割の状態を表す関数を使い、関数の値が最適解となるように探索を行うことができる。非階層的クラスタリングの方法としては、例えば、クラスタの平均を用い、与えられたクラスタ数k個に分類するk-平均法などが挙げられる。
本発明においては、クラスタリングは、階層的クラスタリングおよび非階層的クラスタリングのいずれを用いてもよい。
階層的クラスタリングでは、個々のデータを1つのクラスタとして設定し、クラスタ間の類似度または非類似度を計算し、最も類似しているクラスタを併合し、すべてのクラスタが1つのクラスタになるまで併合を繰り返す。クラスタ間の類似度または非類似度を求める方法としては、例えば、最も近いデータの距離を2つのクラスタの距離と定義する最近隣法、最も遠くなるデータの距離を2つのクラスタの距離と定義する最遠隣法、2つのクラスタのそれぞれの重心を求めて重心間の距離をクラスタの距離と定義する重心法などが挙げられる。データ間の距離としては、上述した尤度、事後確率などを用いてもよい。
非階層的クラスタリングでは、分割最適化手法とも呼ばれ、分割の状態を表す関数を使い、関数の値が最適解となるように探索を行うことができる。非階層的クラスタリングの方法としては、例えば、クラスタの平均を用い、与えられたクラスタ数k個に分類するk-平均法などが挙げられる。
階層的クラスタリングの方法を、より具体的に説明する。例えば、n個のデータD1,D2,・・・,Dnがあり、データDiとDjとの間の類似の度合を表わす数値dij(1,2,・・・,n)が得られているとする。ただし、dijは対称的(dij=dji)であるとする。類似の度合を表わす指標として、距離のように値の小さい方が類似性が高いことを表わす場合と、相関係数のように値の大きい方が類似性が高いことを表わす場合がある。両者を総称して類似度と呼ぶこともあるが、ここでは前者の指標を非類似度、後者の指標を類似度と呼んで区別しておく。以下では、簡単のため、dijは非類似度を表わし,値が小さいほど類似性が高いことを表わすものとする。非類似度としては、距離が代表的であり、好ましい。階層的クラスタ分析法は,このような対象間の非類似度(dij)を手がかりにして,樹形図またはデンドログラムと呼ばれる樹状の分類構造を構成することを目標とする分析法である。その樹形図を適当な断面で切ることにより、1~n個の任意個数のクラスタを得ることができる。このとき、枝の先端に近いところで切断してできる、少数の構成単位からなるクラスタは、その枝のついている、より大きい枝の根もとのところで切断してできる、多数の構成単位からなるクラスタに、そのまま含まれる。すなわち、樹形図のいろいろな断面で切ってできるクラスタは小分類-中分類-・・・-大分類という階層的構造をもっている。
凝集型の階層的クラスタ分析のプロセスは、一般に次のようなステップで構成される。
ステップ1: 1つずつの対象を構成単位とするn個のクラスタから出発する。
ステップ2: クラスタ間の非類似度行列(dij)を参照して、もっとも類似性の高い2つのクラスタを融合して,1つのクラスタをつくる.
ステップ3: クラスタ数が1になっていれば終了し、そうでなければ、次のステップにすすむ。
ステップ4: ステップ2で新しくつくられたクラスタと、他のクラスタとの非類似度を計算して、非類似度行列(dij)を更新し、ステップ2に戻る。
凝集型の階層的クラスタ分析のプロセスは、一般に次のようなステップで構成される。
ステップ1: 1つずつの対象を構成単位とするn個のクラスタから出発する。
ステップ2: クラスタ間の非類似度行列(dij)を参照して、もっとも類似性の高い2つのクラスタを融合して,1つのクラスタをつくる.
ステップ3: クラスタ数が1になっていれば終了し、そうでなければ、次のステップにすすむ。
ステップ4: ステップ2で新しくつくられたクラスタと、他のクラスタとの非類似度を計算して、非類似度行列(dij)を更新し、ステップ2に戻る。
尤度比の大小による評価を用いる方法では、例えば、対象とする遺伝子多型部位のすべてについて、重み付きデプス比に尤度関数を掛けて当該遺伝子多型部位の各遺伝型の尤度を算出し、束縛ある/なしでの最大尤度を算出し、尤度比を求め、その大小により同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をすることができる。
本発明においては、重み付き遺伝型データを用いて細胞間または細胞群間の距離を定義し、細胞間または細胞群間の遺伝的な位置関係を判断して、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をすることが好ましい。
遺伝的な位置関係とは、細胞間の遺伝的なつながりをいい、近縁関係にあるほど近い位置にある。より具体的な例としては、細胞間の距離であり、距離は、尤度または事後確率であることがより好ましい。
遺伝的な位置関係とは、細胞間の遺伝的なつながりをいい、近縁関係にあるほど近い位置にある。より具体的な例としては、細胞間の距離であり、距離は、尤度または事後確率であることがより好ましい。
<細胞または細胞群>
複数人に由来する可能性がある細胞は特に限定されるものではないが、一細胞の遺伝型解析を行うものが好ましく、例えば、胎児細胞および母親細胞が混合している可能性が高いことから、妊婦末梢血中の有核細胞、特に有核赤血球細胞が挙げられる。妊婦末梢血から単離した細胞または細胞群である場合は、従来の判定方法では、アレルドロップアウト、アレルドロップインの問題は必発であるが、本発明によれば、より正確な判定をすることができる。また、細胞群は、1つ以上の細胞を含む細胞の集合を意味する。
複数人に由来する可能性がある細胞は特に限定されるものではないが、一細胞の遺伝型解析を行うものが好ましく、例えば、胎児細胞および母親細胞が混合している可能性が高いことから、妊婦末梢血中の有核細胞、特に有核赤血球細胞が挙げられる。妊婦末梢血から単離した細胞または細胞群である場合は、従来の判定方法では、アレルドロップアウト、アレルドロップインの問題は必発であるが、本発明によれば、より正確な判定をすることができる。また、細胞群は、1つ以上の細胞を含む細胞の集合を意味する。
<遺伝子多型部位>
上記遺伝子多型部位は、遺伝子多型が存在する座位を含むものであれば特に限定されない。遺伝子多型としては、特に限定されず、例えば、SNP(Single Nucleotide Polymorphism;一塩基多型)、STR(Short Tandem Repeat;縦列型反復配列)、CNV(Copy Number Variation;コピー数多様性)などが挙げられる。
上記遺伝子多型部位は、遺伝子多型が存在する座位を含むものであれば特に限定されない。遺伝子多型としては、特に限定されず、例えば、SNP(Single Nucleotide Polymorphism;一塩基多型)、STR(Short Tandem Repeat;縦列型反復配列)、CNV(Copy Number Variation;コピー数多様性)などが挙げられる。
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、上記遺伝子多型部位が一塩基多型部位およびコピー数多型部位のいずれか一方または両方を含むことが好ましく、一塩基多型部位を含むことがより好ましい。一塩基多型は同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定に関連する技術分野で広く利用されており、データの蓄積、解析手法の充実など、本発明を実施する上で有利な点があるからである。
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、遺伝子多型部位が一塩基多型部位であり、かつ、上記重み分布が複数の一塩基多型部位のハプロタイプを考慮して設定されることがより好ましい。ハプロタイプによっては、可能な遺伝型が限定される場合があるからである。
<重み分布>
上記重み分布は、上記遺伝子多型部位について、見かけの遺伝型と真の遺伝型とを対応付けることにより設定がされるものである。この設定は、好ましくは、見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量DNAを用いる実験および/またはシミュレーションの結果から規定または推定することによって行われる。
以下に例を示しながら説明する。
上記重み分布は、上記遺伝子多型部位について、見かけの遺伝型と真の遺伝型とを対応付けることにより設定がされるものである。この設定は、好ましくは、見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量DNAを用いる実験および/またはシミュレーションの結果から規定または推定することによって行われる。
以下に例を示しながら説明する。
〈例1〉観察される遺伝型と真の遺伝型との関係を確率を用いて規定する例
あるSNP(Single Nucleotide Polymorphism;一塩基多型)部位Xについて、遺伝型はp1q1、p2q2の2通りの可能性があるものとする。また、精密な実験により、このSNP部位Xでは、真の遺伝型がp1q1である場合に見かけの遺伝型がp1q1である確率P(B1|A1)=0.90、真の遺伝型がp1q1である場合に見かけの遺伝型がp2q2である確率P(B2|A2)=0.10、真の遺伝型がp2q2である場合に見かけの遺伝型がp2q2である確率P(B2|A2)=0.70、真の遺伝型がp2q2である場合に見かけの遺伝型がp1q1である確率P(B1|A2)=0.30であることが分かっている。ただし、A1は真の遺伝型がp1q1である事象、A2は真の遺伝型がp2q2である事象、B1は見かけの遺伝型がp1q1である事象、B2は見かけの遺伝型がp2q2である事象とする。また、事前確率P(A1)=P(A2)=0.50とする。
この条件の下で、見かけの遺伝型がp1q1である場合に真の遺伝型がp1q1である確率P(A1|B1)、および見かけの遺伝型がp2q2である場合に真の遺伝型がp2q2である確率P(A2|B2)を求める。
ベイズの定理によりP(Ai|Bj)={P(Ai)P(Bj|Ai)}/{ΣkP(Ak)P(Bj|Ak)}であるから、次のとおりとなる。
P(A1|B1)={P(A1)P(B1|A1)}/{ΣkP(Ak)P(B1|Ak)}=(0.50×0.90)/(0.50×0.90+0.50×0.30)=0.75
P(A2|B2)={P(A2)P(B2|A2)}/{ΣkP(Ak)P(B2|Ak)}=(0.5×0.7)/(0.5×0.1+0.5×0.7)=0.875
すなわち、見かけの遺伝型がp1q1である場合に真の遺伝型がp1q1である確率P(A1|B1)=0.75、見かけの遺伝型がp2q2である場合に真の遺伝型がp2q2である確率P(A2|B2)=0.875である。
したがって、見かけの遺伝型がp1q1,p2q2である場合、真の遺伝型と一致する確率は、それぞれ、0.75、0.875である。
P(A1|B1)およびP(A2|B2)を重み付けに用いる。
あるSNP(Single Nucleotide Polymorphism;一塩基多型)部位Xについて、遺伝型はp1q1、p2q2の2通りの可能性があるものとする。また、精密な実験により、このSNP部位Xでは、真の遺伝型がp1q1である場合に見かけの遺伝型がp1q1である確率P(B1|A1)=0.90、真の遺伝型がp1q1である場合に見かけの遺伝型がp2q2である確率P(B2|A2)=0.10、真の遺伝型がp2q2である場合に見かけの遺伝型がp2q2である確率P(B2|A2)=0.70、真の遺伝型がp2q2である場合に見かけの遺伝型がp1q1である確率P(B1|A2)=0.30であることが分かっている。ただし、A1は真の遺伝型がp1q1である事象、A2は真の遺伝型がp2q2である事象、B1は見かけの遺伝型がp1q1である事象、B2は見かけの遺伝型がp2q2である事象とする。また、事前確率P(A1)=P(A2)=0.50とする。
この条件の下で、見かけの遺伝型がp1q1である場合に真の遺伝型がp1q1である確率P(A1|B1)、および見かけの遺伝型がp2q2である場合に真の遺伝型がp2q2である確率P(A2|B2)を求める。
ベイズの定理によりP(Ai|Bj)={P(Ai)P(Bj|Ai)}/{ΣkP(Ak)P(Bj|Ak)}であるから、次のとおりとなる。
P(A1|B1)={P(A1)P(B1|A1)}/{ΣkP(Ak)P(B1|Ak)}=(0.50×0.90)/(0.50×0.90+0.50×0.30)=0.75
P(A2|B2)={P(A2)P(B2|A2)}/{ΣkP(Ak)P(B2|Ak)}=(0.5×0.7)/(0.5×0.1+0.5×0.7)=0.875
すなわち、見かけの遺伝型がp1q1である場合に真の遺伝型がp1q1である確率P(A1|B1)=0.75、見かけの遺伝型がp2q2である場合に真の遺伝型がp2q2である確率P(A2|B2)=0.875である。
したがって、見かけの遺伝型がp1q1,p2q2である場合、真の遺伝型と一致する確率は、それぞれ、0.75、0.875である。
P(A1|B1)およびP(A2|B2)を重み付けに用いる。
〈例2〉真の遺伝型と見かけの遺伝型との関係をばらつきを用いて規定する例
あるSNP(Single Nucleotide Polymorphism;一塩基多型)座位Yの遺伝型として、r1s1、r1s2、r2s1、r2s2の4通りの可能性があるものとする。また、SNP座位Yの遺伝型として可能性がある各遺伝型に対して得られるデプスを総デプスで正規化して得られるデータを(d1,d2,d3,d4)とする。ここで、0≦d1≦1、0≦d2≦1、0≦d3≦1、0≦d4≦1、かつ、d1+d2+d3+d4=1を満たす。
真の遺伝型がr1s1である場合、理想的には(d1,d2,d3,d4)=(1,0,0,0)であるが、特に単一細胞解析の場合には、ADO(Allelic Drop-out;アレルドロップアウト)、ADI(Allelic Drop-in;アレルドロップイン)の影響により、(d1,d2,d3,d4)=(0.8,0.05,0.05,0.1)のようにばらつきが生じる。
次のようにして、真の遺伝型と(d1,d2,d3,d4)の分布を推定する。
あるSNP(Single Nucleotide Polymorphism;一塩基多型)座位Yの遺伝型として、r1s1、r1s2、r2s1、r2s2の4通りの可能性があるものとする。また、SNP座位Yの遺伝型として可能性がある各遺伝型に対して得られるデプスを総デプスで正規化して得られるデータを(d1,d2,d3,d4)とする。ここで、0≦d1≦1、0≦d2≦1、0≦d3≦1、0≦d4≦1、かつ、d1+d2+d3+d4=1を満たす。
真の遺伝型がr1s1である場合、理想的には(d1,d2,d3,d4)=(1,0,0,0)であるが、特に単一細胞解析の場合には、ADO(Allelic Drop-out;アレルドロップアウト)、ADI(Allelic Drop-in;アレルドロップイン)の影響により、(d1,d2,d3,d4)=(0.8,0.05,0.05,0.1)のようにばらつきが生じる。
次のようにして、真の遺伝型と(d1,d2,d3,d4)の分布を推定する。
i)分布の推定方法-実験による推定方法
実験的に(d1,d2,d3,d4)の分布を推定する。
まず、多量DNA(Deoxyribonucleic Acid;デオキシリボ核酸)を用いてDNA増幅およびシーケンシングを行い、真の遺伝型を確定する。次に、単一細胞を用いてDNA増幅およびシーケンシング実験を複数回行い、(d1,d2,d3,d4)と真の遺伝型との分布を推定する。
細胞間、個体間、PCR反応の領域間の差はないものと仮定してもよいし、差を考慮してもよい。
ii)分布の推定方法-シミュレーションによる推定方法
シミュレーションにより(d1,d2,d3,d4)の分布を推定する。
まず、DNA増幅、シーケンシング等のモデルを構築する。次に、遺伝型を仮定し、その際に得られる(d1,d2,d3,d4)をモンテカルロシミュレーションにより複数取得し、分布を推定する。
モデルを構築する際には、細胞間、個体間、PCR反応の領域間等の差はないものと仮定してもよいし、差を考慮してもよい。
iii)分布の推定方法-実験およびシミュレーションによる推定方法
実験およびシミュレーションにより(d1,d2,d3,d4)の分布を推定する。
まず、上述した実験により分布を推定する方法によってパラメータを推定し、DNA増幅、シーケンシング等のモデルを構築する。
次に、遺伝型を仮定し、その際に得られる(d1,d2,d3,d4)をモンテカルロシミュレーションにより複数取得し、分布を推定する。
このようにして推定された分布を重み付けに用いる。
実験的に(d1,d2,d3,d4)の分布を推定する。
まず、多量DNA(Deoxyribonucleic Acid;デオキシリボ核酸)を用いてDNA増幅およびシーケンシングを行い、真の遺伝型を確定する。次に、単一細胞を用いてDNA増幅およびシーケンシング実験を複数回行い、(d1,d2,d3,d4)と真の遺伝型との分布を推定する。
細胞間、個体間、PCR反応の領域間の差はないものと仮定してもよいし、差を考慮してもよい。
ii)分布の推定方法-シミュレーションによる推定方法
シミュレーションにより(d1,d2,d3,d4)の分布を推定する。
まず、DNA増幅、シーケンシング等のモデルを構築する。次に、遺伝型を仮定し、その際に得られる(d1,d2,d3,d4)をモンテカルロシミュレーションにより複数取得し、分布を推定する。
モデルを構築する際には、細胞間、個体間、PCR反応の領域間等の差はないものと仮定してもよいし、差を考慮してもよい。
iii)分布の推定方法-実験およびシミュレーションによる推定方法
実験およびシミュレーションにより(d1,d2,d3,d4)の分布を推定する。
まず、上述した実験により分布を推定する方法によってパラメータを推定し、DNA増幅、シーケンシング等のモデルを構築する。
次に、遺伝型を仮定し、その際に得られる(d1,d2,d3,d4)をモンテカルロシミュレーションにより複数取得し、分布を推定する。
このようにして推定された分布を重み付けに用いる。
〈例3〉観察される遺伝型と真の遺伝型との関係をデプスが得られたときの真の遺伝型の条件付き確率を用いて規定する例
図2および図3を参照しながら説明する。
図2は、観測された塩基のデプス比と、その塩基が真の遺伝型としてヘテロで存在している条件付き確率との関係を示すグラフである。
例えば、あるSNP(Single Nucleotide Polymorphism;一塩基多型)位置Zにおいて塩基Cがデプス比として0.5が観測された場合、真の遺伝型としてCがヘテロで存在する条件付き確率は、図2から、約0.025である。
また、図3は、観測された塩基のデプス比と、その塩基が真の遺伝型としてホモで存在している条件付き確率との関係を示すグラフである。
例えば、あるSNP位置において塩基Cがデプス比として0.98が観測された場合、真の遺伝型としてCがホモで存在する条件付き確率は、図3から、約0.02である。
図2および図3を参照しながら説明する。
図2は、観測された塩基のデプス比と、その塩基が真の遺伝型としてヘテロで存在している条件付き確率との関係を示すグラフである。
例えば、あるSNP(Single Nucleotide Polymorphism;一塩基多型)位置Zにおいて塩基Cがデプス比として0.5が観測された場合、真の遺伝型としてCがヘテロで存在する条件付き確率は、図2から、約0.025である。
また、図3は、観測された塩基のデプス比と、その塩基が真の遺伝型としてホモで存在している条件付き確率との関係を示すグラフである。
例えば、あるSNP位置において塩基Cがデプス比として0.98が観測された場合、真の遺伝型としてCがホモで存在する条件付き確率は、図3から、約0.02である。
〈例4〉実験的な対応付けの例
市販されているゲノムDNA(Deoxyribonucleic Acid;デオキシリボ核酸)抽出キットを用いて、大量の培養細胞(~106個程度)に対して、細胞溶解・ゲノム抽出を行う。
得られたゲノムのうち10ng程度に対して、所望のSNP(Single Nucleotide Polymorphism;一塩基多型)を含む領域をPCR(Polymerase Chain Reaction;ポリメラーゼ連鎖反応)によって増幅し、次世代シーケンサーを用いてシーケンスする。さらに、シーケンサーの出力をリファレンスゲノムに対してBWA(Burrows-Wheeler Aligner)(Bioinformatics, 2009, 25(14): 1754-1760.; Bioinformatics, 2010, 26(5): 589-595.; http://bio-bwa.sourceforge.net/)等のアライメントツール/マッピングツールを用いてアライメント/マッピングし、所望領域のデプス情報を得る。さらに、SAMtools(SAM: Sequence Alignment/Map)(Bioinformatics, 2009, 25(16): 2078-2079;http://github.com/samtools/samtools)を用いて座位毎に数え上げ、デプス情報を取得し、BCFtools(BCF: Binary Call Format)(http://github.com/samtools/bcftools)を用いてSNPコールを行い、大量細胞に対する各SNPでの遺伝型を決定する。
同様の作業を、単離された単一細胞について100細胞分ほど実施し、デプスの分布を得る。
得られた各SNPでの真の遺伝型とデプスの分布を用いて、単一細胞でのデプスと真の遺伝型の対応付けを行う。
市販されているゲノムDNA(Deoxyribonucleic Acid;デオキシリボ核酸)抽出キットを用いて、大量の培養細胞(~106個程度)に対して、細胞溶解・ゲノム抽出を行う。
得られたゲノムのうち10ng程度に対して、所望のSNP(Single Nucleotide Polymorphism;一塩基多型)を含む領域をPCR(Polymerase Chain Reaction;ポリメラーゼ連鎖反応)によって増幅し、次世代シーケンサーを用いてシーケンスする。さらに、シーケンサーの出力をリファレンスゲノムに対してBWA(Burrows-Wheeler Aligner)(Bioinformatics, 2009, 25(14): 1754-1760.; Bioinformatics, 2010, 26(5): 589-595.; http://bio-bwa.sourceforge.net/)等のアライメントツール/マッピングツールを用いてアライメント/マッピングし、所望領域のデプス情報を得る。さらに、SAMtools(SAM: Sequence Alignment/Map)(Bioinformatics, 2009, 25(16): 2078-2079;http://github.com/samtools/samtools)を用いて座位毎に数え上げ、デプス情報を取得し、BCFtools(BCF: Binary Call Format)(http://github.com/samtools/bcftools)を用いてSNPコールを行い、大量細胞に対する各SNPでの遺伝型を決定する。
同様の作業を、単離された単一細胞について100細胞分ほど実施し、デプスの分布を得る。
得られた各SNPでの真の遺伝型とデプスの分布を用いて、単一細胞でのデプスと真の遺伝型の対応付けを行う。
〈例5〉シミュレーションによる対応付けの例
増幅モデルの一例を示す。あるSNP(Single Nucleotide Polymorphism;一塩基多型)位置について、r回目のPCR(Polymerase Chain Reaction;ポリメラーゼ連鎖反応)後における(A,C,G,T)の割合を(A(r),C(r),G(r),T(r))と書く。この場合、初期値(A(0),C(0),G(0),T(0))は、例えば、Aホモのとき(2,0,0,0)となり、ACヘテロのとき(1,1,0,0)となる。ここで、rは1以上の整数とする。
r+1回目のPCRでは、r回目のPCR後の各DNA(Deoxyribonucleic Acid;デオキシリボ核酸)断片に対して、変性、アニーリングおよび伸長が行われる。このとき、プライマーがDNA一本鎖にアニーリングする確率p(0≦p≦1)および正しく塩基合成を行う確率q(0≦p≦1)を考えると、r+1回目のPCR後における(A,C,G,T)の割合(A(r+1),C(r+1),G(r+1),T(r+1))は、以下のとおりである。
A(r+1)=A(r)*p*q+C(r)*p*(1-q)/3+G(r)*p*(1-q)/3+T(r)*p*(1-q)/3
C(r+1)=C(r)*p*q+A(r)*p*(1-q)/3+G(r)*p*(1-q)/3+T(r)*p*(1-q)/3
G(r+1)=G(r)*p*q+A(r)*p*(1-q)/3+C(r)*p*(1-q)/3+T(r)*p*(1-q)/3
T(r+1)=T(r)*p*q+A(r)*p*(1-q)/3+C(r)*p*(1-q)/3+G(r)*p*(1-q)/3
モデルのパラメータpおよびqは、初期値がホモである箇所は多く存在するため、初期値がホモである箇所に対して上記の大量細胞を用いた実験により真の遺伝型とデプスの対応を推定し、KS検定(Kolmogorov-Smirnov test;コルモゴロフ・スミルノフ検定)により最もフィットする値を推定する。得られたpおよびqを用いて初期値がヘテロである際の真の塩基型とデプスの対応付けをモンテカルロシミュレーションにより推定する。図2、図3に示すグラフは、それぞれ、初期値がヘテロである場合、初期値がホモである場合の結果例に該当する。
増幅モデルの一例を示す。あるSNP(Single Nucleotide Polymorphism;一塩基多型)位置について、r回目のPCR(Polymerase Chain Reaction;ポリメラーゼ連鎖反応)後における(A,C,G,T)の割合を(A(r),C(r),G(r),T(r))と書く。この場合、初期値(A(0),C(0),G(0),T(0))は、例えば、Aホモのとき(2,0,0,0)となり、ACヘテロのとき(1,1,0,0)となる。ここで、rは1以上の整数とする。
r+1回目のPCRでは、r回目のPCR後の各DNA(Deoxyribonucleic Acid;デオキシリボ核酸)断片に対して、変性、アニーリングおよび伸長が行われる。このとき、プライマーがDNA一本鎖にアニーリングする確率p(0≦p≦1)および正しく塩基合成を行う確率q(0≦p≦1)を考えると、r+1回目のPCR後における(A,C,G,T)の割合(A(r+1),C(r+1),G(r+1),T(r+1))は、以下のとおりである。
A(r+1)=A(r)*p*q+C(r)*p*(1-q)/3+G(r)*p*(1-q)/3+T(r)*p*(1-q)/3
C(r+1)=C(r)*p*q+A(r)*p*(1-q)/3+G(r)*p*(1-q)/3+T(r)*p*(1-q)/3
G(r+1)=G(r)*p*q+A(r)*p*(1-q)/3+C(r)*p*(1-q)/3+T(r)*p*(1-q)/3
T(r+1)=T(r)*p*q+A(r)*p*(1-q)/3+C(r)*p*(1-q)/3+G(r)*p*(1-q)/3
モデルのパラメータpおよびqは、初期値がホモである箇所は多く存在するため、初期値がホモである箇所に対して上記の大量細胞を用いた実験により真の遺伝型とデプスの対応を推定し、KS検定(Kolmogorov-Smirnov test;コルモゴロフ・スミルノフ検定)により最もフィットする値を推定する。得られたpおよびqを用いて初期値がヘテロである際の真の塩基型とデプスの対応付けをモンテカルロシミュレーションにより推定する。図2、図3に示すグラフは、それぞれ、初期値がヘテロである場合、初期値がホモである場合の結果例に該当する。
〈重み分布または重み付き遺伝型データの補正〉
《集団における遺伝型頻度を参照した補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、集団における遺伝型頻度を参照して補正することが好ましい。
集団ごとの遺伝型頻度の偏りを重み付けに取り込むためである。座位および遺伝型によっては、人種、民族間での変動が特に大きい場合がある。
《集団における遺伝型頻度を参照した補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、集団における遺伝型頻度を参照して補正することが好ましい。
集団ごとの遺伝型頻度の偏りを重み付けに取り込むためである。座位および遺伝型によっては、人種、民族間での変動が特に大きい場合がある。
《父親および/または母親の確定された遺伝型を参照した補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、父親および/または母親の確定された遺伝型を参照して補正することが好ましい。
父親および/または母親の遺伝型から、子の遺伝型が限定される場合があるからである。また、子の見かけの遺伝型データが父親および/または母親の遺伝型から予測される遺伝型データと大きく異なる場合には、コンタミネーションが疑われ、その後の分析を行わないという判断をすることもできる。
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、父親および/または母親の確定された遺伝型を参照して補正することが好ましい。
父親および/または母親の遺伝型から、子の遺伝型が限定される場合があるからである。また、子の見かけの遺伝型データが父親および/または母親の遺伝型から予測される遺伝型データと大きく異なる場合には、コンタミネーションが疑われ、その後の分析を行わないという判断をすることもできる。
《複数の単一細胞データを用いた補正》
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、複数の単一細胞データを用いて補正することが好ましい。より適切な重み付けを行えるようになることが期待できるからである。
本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法においては、重み分布を、複数の単一細胞データを用いて補正することが好ましい。より適切な重み付けを行えるようになることが期待できるからである。
〈Y染色体の存在〉
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法では、好ましくは、複数人に由来する可能性がある細胞または細胞群が母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにY染色体の存在を示すデータが存在すれば、細胞または細胞群が胎児に由来すると推定する。
母親細胞は性染色体としてX染色体のみを持つため、Y染色体の存在は、その遺伝型データが得られた細胞が胎児に由来することを示す有力な証拠である。
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法では、好ましくは、複数人に由来する可能性がある細胞または細胞群が母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにY染色体の存在を示すデータが存在すれば、細胞または細胞群が胎児に由来すると推定する。
母親細胞は性染色体としてX染色体のみを持つため、Y染色体の存在は、その遺伝型データが得られた細胞が胎児に由来することを示す有力な証拠である。
〈クラスタリング〉
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法は、さらに、N人に由来する可能性がある細胞群を構成する細胞について、上記細胞間の距離を算出する工程、および、同一人らしさに応じて上記細胞のクラスタリングを実施し、最終的なクラスタ数kを求め、k=1である場合に上記細胞群は同一人に由来する細胞からなると判定し、k≠1かつk≦Nである場合に上記細胞群はN人中k人に由来する細胞からなると判定し、k≠1かつk>Nである場合に上記細胞群はN人以外の人を含むk人に由来する細胞からなると判定する工程を含むことが好ましい。ただし、ここで、Nおよびkは1以上の整数である。
クラスタリングの方法は、上述したものを用いることができる。
また、本発明の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法は、さらに、N人に由来する可能性がある細胞群を構成する細胞について、上記細胞間の距離を算出する工程、および、同一人らしさに応じて上記細胞のクラスタリングを実施し、最終的なクラスタ数kを求め、k=1である場合に上記細胞群は同一人に由来する細胞からなると判定し、k≠1かつk≦Nである場合に上記細胞群はN人中k人に由来する細胞からなると判定し、k≠1かつk>Nである場合に上記細胞群はN人以外の人を含むk人に由来する細胞からなると判定する工程を含むことが好ましい。ただし、ここで、Nおよびkは1以上の整数である。
クラスタリングの方法は、上述したものを用いることができる。
[実施例1]
(被験者)
家系C、DおよびEの3家系を対象とした。家系Cからは、息子(シンボル:Cson)および母(シンボル:Cmom)の2人を、家系Dからは、姉(シンボル:Dsis1)、妹(シンボル:Dsis2)および母(シンボル:Dmom)の3人を、家系Eからは息子(シンボル:Eson)、母(シンボル:Emom)および父(シンボル:Edad)の3人を、被験者として選んだ。
(実験方法)
13番染色体、18番染色体、21番染色体およびX染色体上のSNP(Single Nucleotide Polymorphism;一塩基多型)を解析した。得られた重み付き遺伝型データを用いて、階層的クラスタリングを行った。得られたデンドログラムを図4に示す。枝(リネージ)に付した数値はクラスタ間の距離を表す。距離が小さいほど、同一人らしさが大きくなる。
(結果・考察)
同一人<親子<血縁関係(親子以外の血縁関係)<他人(血縁関係が無い他人)の順に距離が大きくなっている。
X染色体を見ているため、家系Eの父(シンボル:Edad)は家系Eの息子(シンボル:Eson)および母(シンボル:Emom)と離れている。
(被験者)
家系C、DおよびEの3家系を対象とした。家系Cからは、息子(シンボル:Cson)および母(シンボル:Cmom)の2人を、家系Dからは、姉(シンボル:Dsis1)、妹(シンボル:Dsis2)および母(シンボル:Dmom)の3人を、家系Eからは息子(シンボル:Eson)、母(シンボル:Emom)および父(シンボル:Edad)の3人を、被験者として選んだ。
(実験方法)
13番染色体、18番染色体、21番染色体およびX染色体上のSNP(Single Nucleotide Polymorphism;一塩基多型)を解析した。得られた重み付き遺伝型データを用いて、階層的クラスタリングを行った。得られたデンドログラムを図4に示す。枝(リネージ)に付した数値はクラスタ間の距離を表す。距離が小さいほど、同一人らしさが大きくなる。
(結果・考察)
同一人<親子<血縁関係(親子以外の血縁関係)<他人(血縁関係が無い他人)の順に距離が大きくなっている。
X染色体を見ているため、家系Eの父(シンボル:Edad)は家系Eの息子(シンボル:Eson)および母(シンボル:Emom)と離れている。
本発明は、特に、出生前診断における母子判別、親子判別または血縁関係判別のために有用である。
Claims (9)
- 複数人に由来する可能性がある細胞または細胞群における、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法であって、
細胞または細胞群の遺伝子多型部位に対する遺伝型データを取得して、予め設定された重み分布で重み付けして、重み付き遺伝型データを取得する工程、および
前記重み付き遺伝型データを用いて、細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする工程を含み、
前記予め設定された重み分布は、前記遺伝子多型部位について、測定される見かけの遺伝型と真の遺伝型との対応付けにより設定される、
細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法。 - 前記見かけの遺伝型と真の遺伝型との対応付けは、複数の細胞もしくは多量DNAを用いた実験および/またはシミュレーションによって推定される、請求項1に記載の判定方法。
- 前記重み付き遺伝型データを用いて前記細胞間または前記細胞群間の距離を定義し、前記細胞間または前記細胞群間の遺伝的な位置関係を判断して、前記細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定をする、請求項1または2に記載の判定方法。
- 前記細胞または細胞群が妊婦末梢血から単離した細胞または細胞群である、請求項1~3のいずれか1項に記載の判定方法。
- 前記重み分布を集団における遺伝型頻度を参照して補正する、請求項1~4のいずれか1項に記載の判定方法。
- 前記重み分布を父親および/または母親の確定された遺伝型を参照して補正する、請求項1~4のいずれか1項に記載の判定方法。
- 前記細胞または細胞群が、母親および胎児のいずれか一方に由来する場合において、観測された遺伝型データにY染色体の存在を示すデータが存在すれば、前記細胞または細胞群が胎児に由来すると推定する、請求項1~6のいずれか1項に記載の判定方法。
- 前記距離が尤度または事後確率である、請求項3に記載の判定方法。
- さらに、
N人に由来する可能性がある細胞群を構成する細胞について、前記細胞間の距離を算出する工程、および
同一人らしさに応じて前記細胞のクラスタリングを実施し、最終的なクラスタ数kを求め、k=1である場合に前記細胞群は同一人に由来する細胞からなると判定し、k≠1かつk≦Nである場合に前記細胞群はN人中k人に由来する細胞からなると判定し、k≠1かつk>Nである場合に前記細胞群はN人以外の人を含むk人に由来する細胞からなると判定する工程
を含む、請求項1~7のいずれか1項に記載の判定方法。
ただし、ここで、Nおよびkは1以上の整数である。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16863998.7A EP3375886A4 (en) | 2015-11-10 | 2016-10-24 | Method for determining whether cells or cell masses are originated from same person, or unrelated persons, or parent and child, or related persons |
JP2017550043A JP6564053B2 (ja) | 2015-11-10 | 2016-10-24 | 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法 |
US15/964,326 US20180247019A1 (en) | 2015-11-10 | 2018-04-27 | Method for determining whether cells or cell groups are derived from same person, or unrelated persons, or parent and child, or persons in blood relationship |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015-220598 | 2015-11-10 | ||
JP2015220598 | 2015-11-10 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/964,326 Continuation US20180247019A1 (en) | 2015-11-10 | 2018-04-27 | Method for determining whether cells or cell groups are derived from same person, or unrelated persons, or parent and child, or persons in blood relationship |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017082034A1 true WO2017082034A1 (ja) | 2017-05-18 |
Family
ID=58695028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/081476 WO2017082034A1 (ja) | 2015-11-10 | 2016-10-24 | 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20180247019A1 (ja) |
EP (1) | EP3375886A4 (ja) |
JP (1) | JP6564053B2 (ja) |
WO (1) | WO2017082034A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020527799A (ja) * | 2017-07-12 | 2020-09-10 | アンディ・コーポレイションANDE Corporation | パターン認識システム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273976B (zh) * | 2022-08-24 | 2023-05-05 | 温州医科大学 | 一种半同胞关系鉴定方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009517050A (ja) * | 2005-11-26 | 2009-04-30 | ジーン セキュリティー ネットワーク エルエルシー | 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 |
JP2012502631A (ja) * | 2008-09-16 | 2012-02-02 | セクエノム, インコーポレイテッド | 非侵襲性の出生前診断のために有用な、母体サンプル由来の胎児核酸のメチル化に基づく濃縮のためのプロセスおよび組成物 |
JP2014502845A (ja) * | 2010-12-22 | 2014-02-06 | ナテラ, インコーポレイテッド | 非侵襲性出生前親子鑑定法 |
-
2016
- 2016-10-24 JP JP2017550043A patent/JP6564053B2/ja active Active
- 2016-10-24 EP EP16863998.7A patent/EP3375886A4/en not_active Withdrawn
- 2016-10-24 WO PCT/JP2016/081476 patent/WO2017082034A1/ja active Application Filing
-
2018
- 2018-04-27 US US15/964,326 patent/US20180247019A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009517050A (ja) * | 2005-11-26 | 2009-04-30 | ジーン セキュリティー ネットワーク エルエルシー | 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法 |
JP2012502631A (ja) * | 2008-09-16 | 2012-02-02 | セクエノム, インコーポレイテッド | 非侵襲性の出生前診断のために有用な、母体サンプル由来の胎児核酸のメチル化に基づく濃縮のためのプロセスおよび組成物 |
JP2014502845A (ja) * | 2010-12-22 | 2014-02-06 | ナテラ, インコーポレイテッド | 非侵襲性出生前親子鑑定法 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3375886A4 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020527799A (ja) * | 2017-07-12 | 2020-09-10 | アンディ・コーポレイションANDE Corporation | パターン認識システム |
US11900604B2 (en) | 2017-07-12 | 2024-02-13 | Ande Corporation | Adaptive expert system for analysis and classification of DNA sample data |
JP7434143B2 (ja) | 2017-07-12 | 2024-02-20 | アンディ・コーポレイション | パターン認識システム |
JP7574396B2 (ja) | 2017-07-12 | 2024-10-28 | アンディ・コーポレイション | パターン認識システム |
Also Published As
Publication number | Publication date |
---|---|
EP3375886A1 (en) | 2018-09-19 |
JP6564053B2 (ja) | 2019-08-21 |
US20180247019A1 (en) | 2018-08-30 |
EP3375886A4 (en) | 2018-09-19 |
JPWO2017082034A1 (ja) | 2018-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2321642B1 (en) | Methods for allele calling and ploidy calling | |
JP6328934B2 (ja) | 非侵襲性出生前親子鑑定法 | |
TWI611186B (zh) | 多重妊娠之分子檢驗 | |
CN107423534B (zh) | 基因组拷贝数变异的检测方法和系统 | |
JP2022514879A (ja) | 無細胞dna末端特性 | |
US7640113B2 (en) | Methods and apparatus for complex genetics classification based on correspondence analysis and linear/quadratic analysis | |
CN115798580B (zh) | 基于基因型填补和低深度测序的一体化基因组分析方法 | |
CN110770839A (zh) | 来自未知基因型贡献者的dna混合物的精确计算分解的方法 | |
WO2016078067A1 (zh) | 个体单核苷酸多态性位点分型方法及装置 | |
JP6564053B2 (ja) | 細胞間または細胞群間の同一人かどうか、他人かどうか、親子かどうか、または血縁関係かどうかの判定方法 | |
US20160371432A1 (en) | Methods for allele calling and ploidy calling | |
EP4031688B1 (en) | In vitro method for determining the risk of developing breast cancer in a subject | |
JP7333838B2 (ja) | 胚における遺伝パターンを決定するためのシステム、コンピュータプログラム及び方法 | |
KR20220013349A (ko) | 검출 한계 기반 품질 제어 메트릭 | |
JP7446343B2 (ja) | ゲノム倍数性を判定するためのシステム、コンピュータプログラム及び方法 | |
US20240185957A1 (en) | Methods for allele calling and ploidy calling | |
EP3907739A1 (en) | Method for determining fetal fraction in maternal sample | |
EP3524687A1 (en) | Method for determining number of loci required and method for determining number of snp loci required | |
JIN | STATISTICAL CHALLENGES IN NEXT GENERATION POPULATION GENOMICS STUDY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16863998 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017550043 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2016863998 Country of ref document: EP |