WO2022131328A1 - 多型座位の信号の信頼性値の算出方法 - Google Patents

多型座位の信号の信頼性値の算出方法 Download PDF

Info

Publication number
WO2022131328A1
WO2022131328A1 PCT/JP2021/046513 JP2021046513W WO2022131328A1 WO 2022131328 A1 WO2022131328 A1 WO 2022131328A1 JP 2021046513 W JP2021046513 W JP 2021046513W WO 2022131328 A1 WO2022131328 A1 WO 2022131328A1
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
allele
polymorphic
component signal
data set
Prior art date
Application number
PCT/JP2021/046513
Other languages
English (en)
French (fr)
Inventor
起範 金
崇紀 杉元
Original Assignee
株式会社seeDNA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社seeDNA filed Critical 株式会社seeDNA
Priority to KR1020227044153A priority Critical patent/KR20230012033A/ko
Priority to EP21906688.3A priority patent/EP4266315A1/en
Priority to JP2022521759A priority patent/JP7121440B1/ja
Priority to US18/001,544 priority patent/US20230227897A1/en
Publication of WO2022131328A1 publication Critical patent/WO2022131328A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2531/00Reactions of nucleic acids characterised by
    • C12Q2531/10Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
    • C12Q2531/113PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Definitions

  • the present invention relates to data processing of analysis data such as SNPs.
  • Non-Invasive Prenatal Paternity Test by analyzing fetal circulation cell-free DNA (Cell-free fetal DNA, cffDNA), which is a genetic substance derived from the fetus mixed in the blood circulation of the mother. NIPPT) can be performed (for example, Patent Document 1).
  • a cancer test including a cancer screening test and an evaluation test of the progress of anticancer treatment can be mentioned.
  • cancer cells are destroyed by immunity, cell death (apopulation) occurs by themselves, or circulating tumor cells (CTC) circulating in the blood are destroyed in the blood by some influence, the genomic DNA of the cancer cells becomes It will leak into the blood.
  • the cfDNA derived from this cancer cell may be specially called ctDNA (circulating tumor DNA).
  • ctDNA circulating tumor DNA
  • cfDNA analysis technology monitoring of colonization of transplanted organs and the like can be mentioned.
  • the success rate has been improved by improving immunosuppressive drugs, the problem of rejection is still a major problem for long-term colonization of transplanted organs.
  • genomic DNA leaks into the blood from the cells constituting the transplanted organ.
  • This cfDNA derived from transplanted organs (sometimes specifically called ddcfDNA) is expected as a biomarker for transplanted organ disorders.
  • SNPs single nucleotide polymorphisms
  • a method of selecting single nucleotide polymorphisms (SNPs) capable of personally identifying donors and recipients and quantifying a very small amount of ddcfDNA leaked into the recipient's blood using a next-generation sequencer or the like For example, Patent Document 3.
  • SNPs single nucleotide polymorphisms
  • Patent Document 3 since most of cfDNA is derived from the recipient's genomic DNA and the proportion of ddcfDNA contained is extremely small, the presence of ddcfDNA obtained by analysis of cfDNA is similar to the above-mentioned prenatal genetic test. There is a problem that it is extremely difficult to determine whether the signal suggesting the above is really derived from the genomic DNA of the transplanted organ or is noise.
  • the problem to be solved by the present invention is a novel technique for evaluating the reliability of a signal indicating the presence of a secondary nucleic acid in the analysis data of a mixed nucleic acid sample containing a secondary nucleic acid such as cffDNA, ctDNA, and ddcfDNA in a minute proportion. Is to provide.
  • the present invention that solves the above problems is as follows.
  • a model for calculating a reliability value of a secondary component signal which comprises the following steps A-1, step A-2, step A-3-1, and step A-4-1. How to create a function.
  • Step A-1 A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary.
  • a step of preparing a data set (provided that the authenticity of the signal is known) containing a signal indicating the presence of each allele in a plurality of polymorphic loci in nucleic acid.
  • Step A-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
  • (A1) Secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid
  • the secondary component signal intensity with respect to the total signal intensity caused by the specific polymorphic lous allele The secondary component signal intensity with respect to the total signal intensity caused by the specific polymorphic lous allele.
  • Secondary component mixing rate which is the ratio of [Step A-3-1]
  • the synthetic variable generated in the step A-2 is divided into a plurality of categories, and the ratio of the secondary component signal strength corresponding to the synthetic variable included in each category is included in each category.
  • [Step A-4-1] Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable.
  • the synthetic variable used for creating the model function in the steps A-3-1 and A-4-1 has the highest contribution rate among the one or more synthetic variables generated in the step A-2.
  • step A-2 is a step of performing principal component analysis on a numerical group including at least the above (A1) and the above (A2) and generating one or more principal components as synthetic variables.
  • the method according to any one of [1] to [3].
  • the step A-2 is derived from the signal indicating the presence of an allele derived from the main nucleic acid and the secondary nucleic acid among the plurality of polymorphic loci among the data contained in the data set. 1 or 2 or more selected from the following (A3) to (A5), including at least the above (A1) and the above (A2), relating to the polymorphic sitting position detected separately from the signal indicating the presence of the allele.
  • (A3) The signal intensity of the major component indicating the presence of one allele in a specific polymorphic lous derived from the major nucleic acid.
  • the step A-2 is derived from the signal indicating the presence of an allele derived from the main nucleic acid and the secondary nucleic acid among the plurality of polymorphic loci among the data contained in the data set.
  • a numerical group containing at least the above-mentioned (A1) and (A2) and further containing the following (A3) to (A5) relating to the polymorphic sitting position detected separately from the signal indicating the presence of the allele is linearly coupled.
  • (A3) The signal intensity of the major component indicating the presence of one allele in a specific polymorphic lous derived from the major nucleic acid.
  • the first-order homogeneous polynomial representing the composite variable is characterized in that the secondary component signal intensity or the secondary component mixing ratio is weighted to the maximum. The method described.
  • step A-2 two or more synthetic variables are generated, and the composite variables are generated.
  • step A-3-1 reliability values are assigned to each of the two or more synthetic variables.
  • step A-4-1 two or more independent model functions having each of the two or more synthetic variables as explanatory variables are created.
  • a method for creating a model function for calculating a reliability value of a secondary component signal which comprises the following steps A-1, step A-3-2, and step A-4-2.
  • Step A-1 A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary.
  • a step of preparing a data set (provided that the authenticity of the signal is known) containing a signal indicating the presence of each allele in a plurality of polymorphic loci in nucleic acid.
  • Step A-3-2 Regarding the polymorphic locus in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are separately detected among the plurality of polymorphic loci.
  • the sub-component signal intensities indicating the presence of a specific polymorphic locus allele derived from the sub-nucleic acid are divided into a plurality of categories, and the ratio of the sub-component signal intensities included in each category is true.
  • Step A-4-2 Regression analysis is performed on the sub-component signal strength included in each of the categories and the probability corresponding to the sub-component signal strength included in each category, and the sub-component signal strength is used as an explanatory variable and a reliability value.
  • the process of finding a model function for calculating the reliability value which is the objective variable.
  • a method for creating a model function for calculating a reliability value of a secondary component signal which comprises the following steps A-1, step A-3-3, and step A-4-3.
  • Step A-1 A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary.
  • a step of preparing a data set (provided that the authenticity of the signal is known) containing a signal indicating the presence of each allele in a plurality of polymorphic loci in nucleic acid.
  • Step A-3-3 Regarding the polymorphic locus in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are separately detected among the plurality of polymorphic loci.
  • the sub-component mixing rate which is the ratio of the sub-component signal intensity to the total signal strength caused by the allele of a specific polymorphic sitting position, is divided into a plurality of sub-components, and the sub-components corresponding to the sub-component mixing rates included in each category are classified.
  • Step A-4-3 Regression analysis was performed on the sub-component mixing rate included in each category and the probability corresponding to the sub-component mixing rate included in each category, and the sub-component mixing rate was used as an explanatory variable and a reliability value. The process of finding a model function for calculating the reliability value, which is the objective variable.
  • the data set is data acquired by base sequence analysis.
  • the data set is data acquired by digital PCR, and the data set is data obtained by digital PCR.
  • the data set is the data acquired by the microarray, and the data set is the data acquired by the microarray.
  • the major contributor is a mother
  • the sub-contributor is a fetus in the womb of the mother
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother
  • the step A. -1 , Step A - 2, Step A - 3-1 and Step A -4-1 are Step A 1-1, Step A 1-2, Step A 1-3-1 and Step A 1-4, respectively.
  • Step A 1-1 A data set obtained by measuring a circulating acellular nucleic acid sample containing a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetal, wherein the primary nucleic acid and the secondary nucleic acids have a plurality.
  • Step A 1-2 Among the data contained in the data set, among the plurality of polymorphic sitting positions, Homozygous in the mother, homozygous in the father, and a signal indicating the presence of an allele derived from the major nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are detected separately.
  • the synthetic variables generated in the step A 1-2 are divided into a plurality of categories, and the ratio of the secondary component signal intensities corresponding to the synthetic variables included in each category is included in each category.
  • the process of giving as a probability corresponding to a variable (However, for alleles that are homozygous for the mother, homozygous for the father, and atypical between the mother and the father.
  • the sub-component signal is detected separately from the main component signal, the sub-component signal is regarded as true. If the sub-component signal is not detected in distinction from the main component signal, the sub-component signal is regarded as false.
  • the sub-component signal is regarded as false.
  • Step A 1-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
  • the main contributor is a healthy person
  • the sub-contributor is a cancer cell
  • the steps A-1, step A-2, step A-3-1 and step A-4-1 are described.
  • the method according to any one of [1] to [10], which is a step A 2-1 , a step A 2 -2-, a step A 2-3-1, and a step A 2-4-1, respectively.
  • Step A 2-1 A plurality of nucleic acids containing the base sequence information of the polymorphic locus in which a cancer-related mutation is introduced in the polymorphic locus associated with cancer in a nucleic acid sample collected from a healthy person containing a major nucleic acid containing genetic information on the healthy person.
  • Step A 2-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
  • the synthetic variables generated in the step A 2-2 are divided into a plurality of categories, and the ratio of the secondary component signal strength corresponding to the synthetic variables included in each category is included in each category.
  • the process of giving as a probability corresponding to a variable is the case where a nucleic acid fragment containing the base sequence information of the polymorphic locus into which the mutation has been introduced is added to the mixed nucleic acid sample.
  • the secondary component signal is regarded as true.
  • Step A 2-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
  • Step A 2'-1 Nucleotide sequence information of the single polymorphic locus in which a cancer-related mutation is introduced into a single polymorphic locus associated with cancer in a nucleic acid sample containing a major nucleic acid containing genetic information about a healthy person.
  • Step A 2'- 2 Among the data contained in the data set, the single polymorphism in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are detected separately.
  • A1' Secondary component signal intensity indicating the presence of the single polymorphic lous allele derived from the secondary nucleic acid.
  • A2' Secondary component mixing ratio, which is the ratio of the secondary component signal strength to the total signal strength caused by the single polymorphic sitting allele.
  • nucleic acid fragment containing the base sequence information of the polymorphic locus into which the mutation has been introduced is added to the mixed nucleic acid sample.
  • secondary component signal is detected for the nucleic acid fragment
  • the secondary component signal is regarded as true. If no secondary component signal is detected for the nucleic acid fragment, the secondary component signal is regarded as false.
  • the nucleic acid fragment containing the base sequence information of the polymorphic locus into which the mutation has been introduced is not added to the mixed nucleic acid sample.
  • the secondary component signal is regarded as false. If no secondary component signal is detected for the nucleic acid fragment, the secondary component signal is true.
  • Step A 2-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
  • the major contributor is the recipient of the organ transplant
  • the sub-contributor is the transplanted organ
  • the steps A-1, step A-2, step A-3-1 and step A-4- 1 is any of [1] to [10], which is a process A 3-1, a process A 3 -2- , a process A 3 3-1 and a process A 3 4-1 respectively.
  • [Step A 3-1 ] A data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a recipient and a secondary nucleic acid containing genetic information about a transplanted organ, which is a plurality of the primary nucleic acid and the secondary nucleic acid.
  • a step of preparing a data set containing a signal indicating the presence of each allele in the polymorphic sitting position (however, the authenticity of the signal is known).
  • Step A 3-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
  • Step A 3 3-1 The synthetic variables generated in the step A 3-2 are divided into a plurality of categories, and the ratio of the secondary component signal strength corresponding to the synthetic variables included in each category is included in each category.
  • the process of giving as a probability corresponding to a variable. However, for alleles that the recipient does not have and that the donor has homozygotes or heterozygotes.
  • the sub-component signal is detected separately from the main component signal, the sub-component signal is regarded as true. If the sub-component signal is not detected in distinction from the main component signal, the sub-component signal is regarded as false.
  • Step A 3-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
  • the model function The model function obtained by the method according to any one of [1] to [26].
  • a model function expressed by multiplying each other by two or more model functions selected from the model function of any of the following equations 1 to 3 or the group consisting of the model functions represented by the following equations 1 to 3. can be,
  • the explanatory variables are 1 or 2 or more numerical values selected from the following (B1) and (B2) included in the data set prepared in the following step B-1 and the synthetic variables obtained in the following step B-2.
  • a method of calculating a reliability value which is characterized by being present.
  • Step B-1 A data set obtained by measurement of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a major contributor and containing or may contain a secondary nucleic acid containing genetic information about a secondary contributor, said primary nucleic acid and said secondary.
  • Step B-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
  • B1 A secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
  • B2) The secondary component mixing ratio, which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
  • the major contributor is the mother
  • the sub-contributor is the fetus in the womb of the mother
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother, step B.
  • [Step B 1-1 ] A data set obtained by measuring a circulating acellular nucleic acid sample containing a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetal, wherein the primary nucleic acid and the secondary nucleic acids have a plurality.
  • Step B 1-2 The process of preparing a data set containing a signal indicating the presence of each allele in the polymorphic sitting position.
  • Step B 1-2 Among the data contained in the data set, among the plurality of polymorphic sitting positions, Concerning a polymorphic locus in which a signal indicating the presence of an allele derived from the major nucleic acid and a signal indicating the presence of the allele derived from the secondary nucleic acid are homozygous in the mother and are detected separately.
  • the plurality of polymorphic sitting positions are polymorphic sitting positions used in human individual identification.
  • the method of [28] characterized in that it is a method of calculating a reliability value for non-invasive prenatal paternity testing.
  • the major contributor is a test subject
  • the sub-contributor is a cancer cell
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample collected from the test subject
  • the step B- The method according to [27], wherein 1 and step B - 2 are step B 2-1 and step B 2-2, respectively.
  • Step B 2-1 A data set obtained by measurement of a circulating acellular nucleic acid sample, which comprises a major nucleic acid containing genetic information about a subject to be tested and may contain a secondary nucleic acid containing genetic information about cancer cells, said primary nucleic acid and said secondary nucleic acid.
  • Step B 2-2 In the step of preparing a data set containing a signal indicating the presence of each allele in a plurality of polymorphic sitting positions associated with cancer.
  • Step B 2-2 Among the data included in the data set, the polymorphism in which the signal indicating the presence of a normal allele and the signal indicating the presence of a mutant allele are detected separately in the plurality of polymorphic loci is detected.
  • the test subject has the mutant allyl as homozygous or heterozygous. Exclude data on type sitting, Among the data contained in the data set remaining after exclusion, a signal indicating the presence of a normal allele and a signal indicating the presence of a mutant allele are detected separately in the plurality of polymorphic loci.
  • a numerical group including at least the above (B1) and the above (B2) is linearly connected to generate one or more synthetic variables with respect to the polymorphic locus.
  • the major contributor is a recipient of an organ transplant
  • the secondary contributor is a transplanted organ
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient
  • the step B is The method according to [27], wherein -1 and step B - 2 are step B 3-1 and step B 3-2 , respectively.
  • Step B 3-1 A data set obtained by measurement of a circulating acellular nucleic acid sample, which comprises a major nucleic acid containing genetic information about a recipient and may contain a secondary nucleic acid containing genetic information about a transplanted organ, in the primary nucleic acid and the secondary nucleic acid.
  • Step B 3-2 The process of preparing a dataset containing signals indicating the presence of each allele in multiple polymorphic sitting positions.
  • Step B 3-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
  • the plurality of polymorphic sitting positions are polymorphic sitting positions used in human individual identification.
  • the method according to [32] which is a method for calculating a reliability value for monitoring the colonization of a transplanted organ.
  • a method for setting exclusion conditions which comprises steps C-2-1, step C-3-1, and step C-4-1.
  • [Process C-1-1] A data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary nucleic acid. In the step of preparing a data set containing a signal indicating the presence of each allele in a plurality of polymorphic sitting positions (however, the authenticity of the signal is known).
  • the major contributor is the mother
  • the sub-contributor is the fetus in the womb of the mother
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother, or the major.
  • the contributor is the recipient
  • the by-contributor is the transplanted organ
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
  • C1 A secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
  • C2 The secondary component mixing ratio, which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
  • [Process C-3-1] A step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable obtained by the linear combination in the step C-2-1.
  • [Process C-4-1] The step of setting the condition to be excluded from the data set to be input to the model function for calculating the reliability as the following exclusion condition C1.
  • (Exclusion condition C1) Of a dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ.
  • Alleles that are homozygous in the mother, homozygous in the pseudo-father, and atypical between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ are obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele that is atypical between the recipient and the donor is present. Further, the data set in which the synthetic variable having the highest contribution rate is less than the threshold value set in the step C-3-1 is removed.
  • a method for setting exclusion conditions which comprises steps C-2-2, step C-3-2, and step C-4-2.
  • [Process C-1-2] A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, said primary nucleic acid and said secondary.
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother.
  • the major contributor is the recipient
  • the sub-contributor is the transplanted organ
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
  • (C1) A secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
  • (C2) The secondary component mixing ratio, which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
  • (C3) Noise obtained by subtracting the main component signal strength and the secondary component signal strength from the total signal strength caused by the allele of the specific polymorphic sitting position.
  • [Process C-3-2] A step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable obtained by the linear combination in the step C-2-2.
  • [Process C-4-2] The step of setting the condition to be excluded from the data set to be input to the model function for calculating the reliability as the following exclusion condition C2.
  • Example condition C2 Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and homozygous between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ. And, it is obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele homozygous between the recipient and the donor is present. In addition, the data set in which the synthetic variable having the first or second highest contribution rate is less than the threshold set in the step C-3-2 is removed.
  • the outliers are obtained when the reliability value is calculated by the method according to any one of [27] to [33].
  • the method according to any one of [34] to [37] which is characterized in that it is a numerical value relating to the allele in the case where the nucleic acid is lost.
  • step B-1 It is characterized in that the data set remaining after removing the data set corresponding to the exclusion condition C1 specified by the method described in [34] and / or the exclusion condition C2 specified by the method described in [35] is prepared. , [32] or [33].
  • the model function The model function obtained by the method according to any one of [1] to [26].
  • a model function expressed by multiplying each other by two or more model functions selected from the model function of any of the following equations 1 to 3 or the group consisting of the model functions represented by the following equations 1 to 3. can be, One or more of the explanatory variables selected from the following (B1) and (B2) included in the data set prepared in the following step B 4-1 and the synthetic variables obtained in the following step B 4-2 .
  • a method for calculating a reliability value which is characterized by being a numerical value.
  • Step B 4-1 A dataset obtained by measurement of a circulating acellular nucleic acid sample taken from the mother, comprising a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus in the womb of the mother.
  • Step B 4-2 From the data contained in the dataset, data on polymorphic loci having the mutant allyl as a heterozygotes in the mother among the plurality of polymorphic loci was excluded.
  • a signal indicating the presence of an allele derived from the main nucleic acid and an allele derived from the secondary nucleic acid are shown in the plurality of polymorphic loci.
  • B1 Secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
  • the secondary component mixing ratio which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
  • the model function represented by multiplication by multiplying each other by two or more model functions selected from the model function of any of the following equations 1 to 3 or the group consisting of the model functions represented by the following equations 1 to 3 is obtained.
  • a reliability value calculation system including a recorded storage unit and a processing unit that executes the method according to any one of [27] to [33] and [40] to [42].
  • a model function of the present invention for calculating the reliability value of a secondary component signal in the analysis data of a mixed nucleic acid sample containing a secondary nucleic acid such as cffDNA, ctDNA, ddcfDNA in a minute proportion.
  • the reliability value of the secondary component signal in the analysis data of the mixed nucleic acid sample containing the secondary nucleic acid such as cffDNA, ctDNA, and ddcfDNA in a minute ratio is calculated. can do.
  • the exclusion condition setting method of the present invention in order to narrow down the data of the explanatory variables to be input to the model function, it is possible to set the exclusion condition for determining what should be excluded from the data set.
  • a sigmoid curve showing the model function f1 (x1) is shown.
  • the "probability” on the vertical axis is the reliability value
  • the "main component 1" on the horizontal axis is the first principal component obtained by principal component analysis.
  • the white data points in the figure indicate the reliability value and the first principal component used in the regression analysis.
  • a sigmoid curve showing the model function f2 (x2) is shown.
  • the "probability” on the vertical axis is the reliability value
  • the "fetal minor count” on the horizontal axis is the absolute value of the secondary component signal intensity.
  • the white data points in the figure indicate the reliability value and the absolute value of the secondary component signal intensity used in the regression analysis.
  • a sigmoid curve showing the model function f3 (x3) is shown.
  • the vertical axis "probability” is the reliability value
  • the horizontal axis "fetal minor frequency” is the secondary component contamination rate.
  • the white data points in the figure indicate the reliability value and the secondary component contamination rate used in the regression analysis.
  • It is a distribution map of the reliability value (Fidelity) calculated in Test Example 2.
  • the left is a compilation of the reliability values for SNPs that are homozygous for each parent.
  • the right is a compilation of reliability values for SNPs of the same type that parents have in homozygosity. It is a scatter diagram which plotted each principal component obtained by the principal component analysis prepared for examination of exclusion condition 1 on the y-axis, and the reliability value on the x-axis.
  • a scatter plot showing the first principal component, the second principal component, the third principal component, the fourth principal component, and the fifth principal component on the y-axis It is a scatter diagram which plotted each principal component obtained by the principal component analysis prepared for the examination of exclusion condition 2 on the y-axis, and the reliability value on the x-axis. From the left, a scatter plot showing the first principal component, the second principal component, the third principal component, the fourth principal component, and the fifth principal component on the y-axis. It is a distribution map of the reliability value (Fidelity) calculated in Test Example 4. The left is a compilation of the reliability values for SNPs that are homozygous for each parent.
  • the right is a compilation of reliability values for SNPs of the same type that parents have in homozygosity. It is a distribution map of the reliability value (Fidelity) calculated in Test Example 5. On the left, the reliability values for SNPs that are homozygous and homozygous for each other are tabulated. The right shows the ratio of the reliability values calculated in Test Example 2 and Test Example 5, which are different NGS target panel analyzes. It is a graph which aggregated the reliability value (Fidelity) for the SNPs genotype confirmed from the analysis of the child born in Test Example 6. The distribution map of the mother homo SNPs reliability values (Fidelity) was aggregated by number without considering the genotype of the father showing the truth about the existence of the secondary component signal.
  • the left is a compilation of the reliability values for SNPs that are homozygous for each parent (the correct answer for fetal genotype is heterozygotes).
  • the right is the reliability value for SNPs of the same type that parents have in homozygosity.
  • 6 is a distribution diagram of reliability values calculated in Test Example 6 and Test Example 9.
  • the left is a compilation of reliability values for SNPs that the mother has in homozygotes and that the newborn has in heterozygotes.
  • the right is the reliability value for SNPs that the mother has by homozygosity and the newborn has by homozygosity.
  • the method for creating a model function of the present invention includes step A-1, step A-2, step A-3-1 and step A-4-1 as essential steps. Hereinafter, they will be described in order.
  • Step A-1 is a step of preparing a data set obtained by measuring a mixed nucleic acid sample.
  • a "mixed nucleic acid sample” is a sample containing genetic information about a plurality of contributors. This information includes genetic information encoded by DNA as well as genetic information encoded by RNA. Examples of the mixed nucleic acid sample include samples containing cfDNA and cfRNA, and specific examples thereof include whole blood, plasma, serum and urine, and more preferably whole blood, plasma and serum.
  • the mixed nucleic acid sample contains a major nucleic acid containing genetic information on the major contributor and a secondary nucleic acid containing genetic information on the secondary contributor.
  • the abundance ratio of the major nucleic acid and the secondary nucleic acid in the mixed nucleic acid sample may vary depending on the status of the major contributor and the sub-contributor.
  • the "major contributor” as used herein is the mother in the case of prenatal genetic testing, the subject to be tested in the case of cancer testing, and the recipient in the monitoring of transplanted organs.
  • the “major contributor” refers to an individual from which a mixed nucleic acid sample has been obtained.
  • the “major nucleic acid” is a nucleic acid containing genetic information regarding the major contributor.
  • the major nucleic acids are the maternal genomic DNA or fragments thereof in the case of prenatal genetic testing or RNA (cfDNA or cfRNA derived from the maternal) which is a transcript from the maternal genomic DNA, and the subject to be tested in the case of cancer testing.
  • RNA cfDNA or cfRNA derived from the test subject
  • RNA cfDNA or cfRNA derived from the test subject
  • RNA cfDNA or cfRNA derived from a recipient
  • the "secondary contributor” corresponds to the fetus in the case of prenatal genetic testing, cancer cells in the case of cancer testing, and the transplanted organ in the monitoring of transplanted organs.
  • the “secondary contributor” refers to an individual, tissue, or cell that exists in the body of the main contributor and has genetic information different from the original genetic information of the main contributor.
  • the “secondary nucleic acid” is a nucleic acid containing genetic information regarding the secondary contributor. Secondary nucleic acids include fetal genomic DNA or fragments thereof in the case of prenatal genetic testing or RNA (cfDNA or cfRNA derived from the fetal) that is a transcript from fetal genomic DNA, and cancer cells in the case of cancer testing.
  • Genome DNA or fragment thereof or RNA which is a transcript from the genomic DNA of cancer cells, and in the monitoring of the transplanted organ, the genomic DNA of the transplanted organ or a fragment thereof or the genomic DNA of the donor
  • RNA cfDNA or cfRNA derived from a transplanted organ
  • the mixed nucleic acid sample containing the main nucleic acid and the secondary nucleic acid may be artificial.
  • a mixed nucleic acid sample may be prepared by spike (adding) a nucleic acid imitating a secondary nucleic acid into blood containing a major nucleic acid.
  • the data set prepared in step A-1 includes a data set containing a signal indicating the presence of each allele in a plurality of polymorphic loci in the primary nucleic acid and the secondary nucleic acid.
  • the number of polymorphic sitting positions included in the data set is not particularly limited, and is preferably 5 or more, more preferably 10 or more, still more preferably 15 or more, still more preferably 18 or more.
  • This data set is not particularly limited as long as it is obtained by an analytical means capable of distinguishing and detecting each allele in the polymorphic sitting position.
  • the analytical means include analytical means capable of distinguishing and detecting single nucleotide substitutions (SNPs) in polymorphic loci.
  • the analysis means include base sequence analysis used for detecting SNPs, digital PCR, microarray, real-time PCR, and the like.
  • next-generation sequencer can be mentioned as a specific means for base sequence analysis.
  • the next-generation sequencer is a sequencing method that enables large-scale parallel sequencing of clonally amplified molecules and single nucleic acid molecules.
  • any NGS system may be adopted.
  • pyrosequencing GS Junior (Roche), etc.
  • synthetic sequencing using a reversible dye terminator MiSeq (Illumina), etc.
  • sequencing by ligation SeqStudio Genetic Analyzer (Thermo, etc.)
  • Ion Semiconductor Sequencing Ion Protein System (Thermo Fisher SCENTIFIC), etc.
  • CMOS Complementary Metal Oxide Film Semiconductor Chip
  • the sequence data read by the next-generation sequencer can be analyzed, and the number of reads of the allele having a specific sequence (specific SNPs) in the polymorphic locus can be interpreted as a signal indicating the existence of the allele.
  • a barcode sequence (Unique Molecular Indicators (UMI), Unique Molecular Tag (UMT)) that enables individual identification of nucleic acid molecules is ligated to the nucleic acid fragment to be analyzed. If so, the count number of UMT that identifies the allele as having a specific sequence (specific SNPs) in the polymorphic locus can be interpreted as a signal indicating the presence of the allele.
  • UMI Unique Molecular Indicators
  • UMT Unique Molecular Tag
  • Digital PCR is a method in which a sample is distributed to a large number of wells so that one nucleic acid molecule may or may not be contained in one well, and PCR is performed individually. In the wells containing the target sequence, PCR amplification proceeds and the fluorescence signal is detected, but in the wells containing no target sequence, PCR amplification does not proceed and the fluorescence signal is not detected. After PCR, the signal amplification “yes (+) / no ( ⁇ )” is discriminated in each well, and the number of “yes (+)” wells of the signal is calculated as the number of copies of the target.
  • a probe such as a TaqManR probe or cycling probe
  • a probe that can accurately discriminate mutations such as SNPs
  • fluorescence is observed only in wells in which alleles having a specific sequence (specific SNPs) are amplified. ..
  • a fluorescently labeled probe having a different emission wavelength for each allele, it is possible to detect different alleles existing in one polymorphic locus by the fluorescent color.
  • the number of "some (+)" wells of a fluorescent signal corresponding to a particular allele can be interpreted as a signal indicating the presence of that allele.
  • Microarrays use nucleic acids such as DNA, DNA fragments, cDNA, oligonucleotides, RNA or RNA fragments with known sequences as probes, and sequence hundreds to hundreds of thousands to solidify them to complement the probes. This is a method for detecting when a nucleic acid having a different sequence hybridizes, by using a fluorescent label. Microarrays that perform SNPs typing are also particularly referred to as SNP arrays. When multiple alleles are assumed in one lotus coition, it is possible to distinguish and detect each allele by immobilizing each allele separately. The fluorescence intensity at the point where a particular allele is immobilized can be interpreted as a signal indicating the presence of the allele.
  • Real-time PCR is a method of monitoring and analyzing fluorescence generated in response to the amount of nucleic acid amplification by PCR in real time with a spectrofluorometer. It is preferable to combine real-time PCR with a probe (TaqManR probe, cycling probe, etc.) capable of accurately discriminating mutations such as SNPs. By designing a fluorescently labeled probe having a different emission wavelength for each allele, it is possible to detect different alleles existing in one polymorphic locus by the fluorescent color. When obtaining a data set by real-time PCR, it is preferable to adopt multiplex PCR from the viewpoint of improving measurement efficiency.
  • Multiplex PCR is a method of amplifying a plurality of target sequences at one time in one reaction system using a plurality of sets of primers.
  • the intensity of the fluorescent signal corresponding to a particular allele can be interpreted as a signal indicating the presence of that allele.
  • Mass analysis is an analytical method that measures the mass of an ion or molecule by ionizing the molecule and measuring its mass-to-charge ratio (m / z). Originally, it is a method of measuring the mass of a molecule, but for nucleic acid molecules prepared under specific conditions (such as when PCR is performed using a specific primer or when a nucleic acid molecule is cleaved with a specific restriction enzyme). If the mass can be measured, the base sequence of the detected nucleic acid molecule can be identified by collating the mass with the database. For this reason, mass spectrometry is widely applied to genotyping. In mass spectrometry, the ionic strength at m / z peculiar to a base sequence containing a specific allele can be interpreted as a signal indicating the presence of the allele.
  • the data set prepared in step A-1 needs to know the truth of the signal indicating the existence of the above-mentioned allele. That is, when a signal indicating the presence of a specific allele is detected, it is necessary to know whether or not the major nucleic acid or secondary nucleic acid containing the base sequence of the allele is contained in the mixed nucleic acid sample.
  • process A-1 is a process of preparing a data set. Therefore, the step of nucleic acid analysis for primary acquisition of a dataset is not an essential element of the present invention.
  • the practitioner of the present invention naturally includes a mode in which the above data set is prepared by primarily acquiring data by nucleic acid analysis. Not limited.
  • a person other than the person other than the person who implements the present invention prepares the above data set by secondarily acquiring the data set initially acquired by nucleic acid analysis. include.
  • Step A-2 is a step of performing principal component analysis on the data contained in the above-mentioned data set. Specifically, among the data included in the data set, a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid among a plurality of polymorphic loci , And the polymorphic loci detected separately, are linearly coupled to the numerical groups containing the following (A1) and (A2) to generate one or more synthetic variables.
  • the secondary component signal intensity is the intensity of the signal indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid. It is easy to determine whether the signals indicating the presence of the two types of alleles detected separately from each other in the analysis of the mixed nucleic acid sample are derived from the primary nucleic acid or the secondary nucleic acid, respectively. In most cases, the circulating acellular nucleic acid sample contains more major nucleic acid than secondary nucleic acid, so that the secondary component signal intensity is inevitably weaker than the above-mentioned major component signal intensity. In such a case, the one with the weaker signal strength can be regarded as the secondary component signal strength.
  • the ratio of the mother-derived nucleic acid to the fetal-derived nucleic acid in the latter half of pregnancy, and the ratio of the patient-derived nucleic acid to the cancer-derived nucleic acid when the cancer is advanced may be reversed from the normal case. That is, the amount of secondary nucleic acid in the circulating acellular nucleic acid sample may be equal to or greater than the amount of major nucleic acid.
  • the genotype of the major contributor may be identified in advance by genotyping and compared with the analysis result of the mixed nucleic acid sample. This makes it possible to determine whether the signal indicating the presence of the two types of alleles detected separately from each other by the analysis of the mixed nucleic acid sample is derived from the main nucleic acid or the secondary nucleic acid, respectively.
  • secondary component signal intensity all the numerical values reflecting the signal intensity indicating the presence of the allele of a specific polymorphic lous derived from the secondary nucleic acid.
  • secondary component signal intensity the numerical value that directly expresses the signal strength
  • the numerical value obtained by multiplying the numerical value by a constant, and all the numerical values that reflect the signal strength such as the power value and the root of the value are "secondary component signal strength”.
  • the standardized numerical value of the original data of the secondary component signal strength is also included in the wording "secondary component signal strength". Details of standardization will be described later.
  • the numerical value obtained by processing the original data of the secondary component signal strength based on the other detected parameters is also included in the wording "secondary component signal strength".
  • Noise is mentioned as an "other parameter" used for processing the original data of the secondary component signal strength. The definition of noise is as described below.
  • a numerical value obtained by subtracting the noise intensity or the average value thereof in a plurality of polymorphic lotus coitions to be analyzed from the original data of the secondary component signal intensity can also be treated as the "secondary component signal intensity".
  • the parameter for obtaining the average value of the noise intensity may be the number of polymorphic lotuses in which noise is detected, or the number of all polymorphic lotus coitions analyzed.
  • the average value of the noise intensity is uniformly subtracted from the original data of the secondary component signal intensity without distinguishing between the polymorphic lotus in which noise is detected and the polymorphic lotus in which noise is not detected.
  • the embodiment may be in which the average value of the noise intensity is subtracted from the original data of the secondary component signal intensity only for the specific polymorphic lotus coition in which noise is detected.
  • the embodiment may be in which the noise intensity detected for the specific polymorphic lotus is subtracted from the secondary component signal intensity of the specific polymorphic lotus where noise is detected.
  • a numerical value obtained by dividing the secondary component signal intensity indicating the presence of the allele of the specific polymorphic lotus by the average value of the noise intensity in the plurality of polymorphic sitting positions is treated as the "secondary component signal intensity”. May be good. That is, it may be an embodiment that treats the numerical value represented by the following equation as "secondary component signal strength". (Secondary component signal strength) / (Average value of noise strength)
  • step A-2 may be in a form in which only one kind of “secondary component signal intensity” is included, or two or more kinds of "secondary components". "Signal strength" may be included.
  • the standardized numerical value of the original data of the secondary component mixing rate is also included in the wording "secondary component mixing rate". Details of standardization will be described later.
  • the numerical value obtained by processing the original data of the secondary component mixing rate based on the other detected parameters is also included in the wording "secondary component mixing rate".
  • Noise is mentioned as an "other parameter" used for processing the original data of the secondary component mixing rate. The definition of noise is as described below.
  • the numerical value obtained by subtracting the ratio of the noise intensity to the total signal intensity (noise mixing rate) or the average value thereof in the plurality of polymorphic sitting positions to be analyzed from the original data of the secondary component mixing rate is also "secondary component". It can be treated as "mixing rate".
  • the parameter for obtaining the average value of the noise mixing rate may be the number of polymorphic lotuses in which noise is detected, or the number of all polymorphic lotus coitions analyzed.
  • the embodiment may be in which the average value of the noise mixing rate is subtracted from the original data of the secondary component mixing rate. Further, it may be an embodiment in which the noise mixing rate of the noise intensity detected for the specific polymorphic lotus is individually subtracted from the secondary component mixing rate of the specific polymorphic lotus where noise is detected.
  • the value obtained by dividing the secondary component mixing rate of the specific polymorphic lotus by the average value of the noise intensities in the plurality of polymorphic sitting positions is treated as the "secondary component mixing rate". That is, it may be an embodiment in which the numerical value represented by the following formula is treated as the “secondary component mixing ratio”. (Secondary component mixing rate) / (Average value of noise intensity)
  • step A-2 may be in a form in which only one kind of "secondary component mixing rate” is included, or two or more kinds of "secondary components". "Mixing rate” may be included.
  • the numerical value group to be linearly combined in step A-2 may include numerical values other than the above-mentioned (A1) and (A2). That is, a linear combination is performed on a numerical group including various measured values or calculated values related to the specific polymorphic lotus coition in addition to (A1) and (A2).
  • the numerical values (A3) to (A5) that may be included in the numerical value group to be linearly combined will be described below. In addition, only one kind selected from the following (A3) to (A5) may be included in the numerical value group, or two or more kinds of numerical values arbitrarily selected may be included in the numerical value group. Further, all of (A3) to (A5) may be included in the numerical group.
  • the major component signal intensity is the intensity of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
  • the major component signal intensity is the intensity of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
  • the circulating acellular nucleic acid sample contains more major nucleic acid than secondary nucleic acid, so that the primary component signal intensity is inevitably weaker than the secondary component signal intensity described above. .. In such a case, the one with the stronger signal strength can be regarded as the main component signal strength.
  • the ratio of the mother-derived nucleic acid to the fetal-derived nucleic acid in the latter half of pregnancy, and the ratio of the patient-derived nucleic acid to the cancer-derived nucleic acid when the cancer is advanced may be reversed from the normal case. That is, the amount of secondary nucleic acid in the circulating acellular nucleic acid sample may be equal to or greater than the amount of major nucleic acid.
  • the genotype of the major contributor may be identified in advance by genotyping and compared with the analysis result of the mixed nucleic acid sample. This makes it possible to determine whether the signal indicating the presence of the two types of alleles detected separately from each other by the analysis of the mixed nucleic acid sample is derived from the main nucleic acid or the secondary nucleic acid, respectively.
  • the numerical value obtained by multiplying the numerical value by a constant and all that reflect the signal strength such as the power value and the root of the value.
  • the numerical value of is included in the "main component signal strength".
  • the numerical group to be linearly combined in step A-2 may be in a form in which only one type of "main component signal strength” is included, or two or more types of "main component signal strength” are included. It may be included.
  • main component mixing rate main component signal strength / total signal strength
  • this signal is defined as “noise” in the present invention. That is, the noise is obtained by subtracting the main component signal strength and the secondary component signal strength from the total signal strength caused by the allergen of the specific polymorphic locus, and is obtained by subtracting the total signal strength- (main component signal). It can be expressed by the formula of "intensity + secondary component signal intensity)".
  • the data set prepared in step A-1 is a set of data related to a plurality of polymorphic sitting positions. Therefore, needless to say, the data set prepared in step A-1 includes a plurality of sets of data including the above (A1) and (A2) and other numerical data relating to a specific polymorphic lotus coition. It will be.
  • Standardized data [(original data)-(mean value)] / (sample standard deviation)
  • a polymorphic locus detected by distinguishing between a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid refers to the presence of an allele derived from the major nucleic acid. It refers to a polymorphic locus in which the signal indicating the signal and the signal indicating the presence of an allele derived from the secondary nucleic acid are not mixed.
  • the cfDNA of the cfDNA regardless of the father's genetic type.
  • the signals of allele A and allele B derived from the genomic DNA of the mother are always detected.
  • Either the allele A or allele B signal should contain a signal derived from the fetal cffDNA, but this cannot be distinguished from the signal derived from the mother's genomic DNA. Adding such data to the basis of analysis reduces the accuracy of the model function.
  • the mutation is always included in ctDNA, so the signal derived from the test target and cancer. It will be mixed with cell-derived signals. Adding such data to the basis of analysis reduces the accuracy of the model function.
  • the polymorphic locus targeted for data analysis is "a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid.” It is limited to "polymorphic sitting position detected separately”.
  • the polymorphic locus to be analyzed in step A-2 is a polymorphic lous coition in which there is no possibility that a signal indicating the presence of an allele derived from a secondary nucleic acid is mixed with a signal indicating the presence of an allele derived from a major nucleic acid. It may be paraphrased as.
  • one or more synthetic variables are generated by linearly combining the above-mentioned numerical groups.
  • Principal component analysis can be preferably exemplified as a means of linear combination. It may be a synthetic variable generated by another means. Even if it is a synthetic variable generated by another means, it is preferable that this is a synthetic variable that can be generated by principal component analysis.
  • the synthetic variables generated by the linear combination are represented by the following first-order homogeneous polynomials.
  • n is an integer of 2 or more representing the number of types of numerical values included in the numerical value group to be linearly combined among the numerical values included in the data set.
  • Xn is a numerical value included in the numerical value group that is the target of the linear combination.
  • a1n is a coefficient that weights a numerical value that performs a linear combination.
  • Z1 a11X1 + a12X2 + ... + a1nXn
  • the secondary component signal intensity or secondary component mixing rate is maximally weighted.
  • the number of synthetic variables that can be generated increases as the number of types of numerical values included in the numerical value group to be linearly combined increases.
  • the number of synthetic variables generated in step A-2 is not particularly limited.
  • the synthetic variable is generated by the linear combination of the numerical group including at least (A1) and (A2)
  • the embodiment in which the synthetic variable is generated by the non-linear combination of the numerical group may be used.
  • the nonlinear coupling refers to a power of each numerical value, a product of each numerical value, a quotient, a function having these numerical values as an exponent, and the like.
  • the synthetic variable obtained by the linear combination of step A-2 has a correlation with the reliability value.
  • a model function is created using this correlation, and the present invention has the following steps A-3-1 and A-4-1 as specific steps thereof.
  • Step A-3-1 is a step of assigning a reliability value to the synthetic variable generated by the linear combination.
  • the synthetic variables used in step A-3-1 are not particularly limited, but the synthetic variables that best reflect the numerical group that is the target of the linear combination are preferably mentioned.
  • a synthetic variable showing the highest contribution rate to the numerical group targeted for the linear combination can be preferably exemplified. This corresponds to the first principal component in the principal component analysis.
  • step A-3-1 first, the synthetic variables generated by the linear combination are divided into a plurality of parts. That is, the composite variable is divided into a plurality of variables according to the size of the numerical value.
  • the classification method is not particularly limited. Although the divisions may be performed at equal intervals according to the size of the synthetic variables, it is preferable to divide them so that the generated synthetic variables are included in all of the divisions. In a more preferable form, it is preferable to classify exponentially instead of linearly classifying according to the size of the synthetic variable. This is because a sigmoid curve is obtained by performing a curve regression on the generated synthetic variables and probabilities.
  • the number of divisions is not limited, but is preferably 3 or more, more preferably 5 or more, still more preferably 7 or more, still more preferably 10 or more, still more preferably 12 or more, still more preferably 15 or more, and further. It is preferably divided into 18 or more categories.
  • the ratio of the secondary component signal intensities corresponding to the synthetic variables included in each category is obtained. That is, the ratio of the synthetic variable corresponding to the true secondary component signal strength is obtained from all the synthetic variables included in each category. In the present specification, this ratio is referred to as "probability".
  • the secondary component signal intensity suggests the presence of a specific allele present at the polymorphic locus in the secondary nucleic acid. As suggested by this secondary component signal intensity, if the specific allele is actually present in the secondary nucleic acid, this is regarded as "true”.
  • Step A-4-1 In step A-4-1, regression analysis is performed on the synthetic variables included in each of the above-mentioned categories and the probabilities corresponding to the synthetic variables included in each category. As a result, a model function for calculating the reliability value is obtained, with the composite variable as the explanatory variable and the reliability value as the objective variable.
  • Probability and "reliability value” are in a correspondence relationship.
  • the parameter used to create the model function is called “probability”
  • the parameter calculated by inputting the explanatory variable to the model function is called “reliability value”.
  • the method of regression analysis in step A-4-1 is not particularly limited, but the least squares method can be preferably exemplified.
  • the model function is a sigmoid function.
  • the model function can be expressed by Equation 1 below.
  • a model function for calculating the reliability value in the form of a sigmoid function having two parameters not limited to the case of the above equation 1.
  • A1 and x01 correspond to the parametric variables in Equation 1.
  • A1 is preferably 15.4 to 15.6, more preferably 15.5.
  • x01 is preferably ⁇ 0.8 to ⁇ 0.6, and more preferably ⁇ 0.9.
  • those corresponding to the above numerical values when rounded to the second decimal place shall be included in the numerical range specified here.
  • the model function obtained by the above method is extremely versatile. It can also be applied to the analysis of the data set primaryly acquired under the conditions different from the acquisition conditions of the data set prepared in the step A-1. For example, under the condition that there is a difference in sample amount and concentration, a difference in the analyzed polymorphic sitting position, and a difference in signal type (number of reads and UMT count) from the acquisition conditions of the data set prepared in step A-1.
  • the model function can be applied to the calculation of the reliability value in the temporarily acquired data set. That is, when it is desired to calculate the reliability value for a data set acquired under another condition, it is not necessary to create a model function again for the other condition. Once the model function is created by the method of the present invention, it can be diverted to the analysis of the data set acquired under different conditions.
  • model functions created based on datasets related to prenatal genetic testing can be diverted to analysis of datasets acquired in cancer testing and monitoring of transplant organ colonization.
  • the types and numbers of the numerical values included in the numerical value group used for the linear connection used for creating the model function and the linear connection for generating the synthetic variable to be the input value to the model function were used. It is preferable that the types of numerical values included in the numerical value group and the number thereof are the same.
  • the method of creating a model function based on the correlation between the composite variable and the reliability value has been described above, but the present invention is not limited to this, and the model function for calculating the reliability value using another index as the explanatory variable. Can be provided.
  • the present invention also relates to a method for creating model functions f2 (x2) and f3 (x3), which will be described later. The method of creating each model function will be described in detail below.
  • step A-1 the method of creating the model function f2 (x2) will be explained.
  • This method comprises steps A-1, steps A-3-2 and steps A-4-2.
  • the contents of step A-1 are as described above.
  • step A-3-2 and step A-4-2 will be described.
  • step A-3-2 first, the above-mentioned (A1) secondary component signal strength is divided into a plurality of parts. That is, (A1) the secondary component signal strength is divided into a plurality of parts according to the magnitude of the numerical value.
  • the classification method is not particularly limited. Although the sub-component signal strength may be divided at equal intervals according to the magnitude of the sub-component signal strength, it is preferable to classify the sub-component signal strength so that all of the classifications include the sub-component signal strength. In a more preferable form, it is preferable to classify exponentially instead of linearly classifying according to the magnitude of the secondary component signal intensity. This is because a sigmoid curve is obtained by regressing the secondary component signal intensity and the reliability value by a curve.
  • the number of divisions is not limited, but is preferably 3 or more, more preferably 5 or more, still more preferably 7 or more, still more preferably 10 or more, still more preferably 12 or more, still more preferably 15 or more, and further. It is preferably divided into 18 or more categories.
  • the ratio of the sub-component signal intensities corresponding to the sub-component signal intensities included in each category is obtained. That is, the ratio of the true secondary component signal strength is obtained from the numerical values of all the secondary component signal strengths included in each category. In the present specification, this ratio is referred to as "probability".
  • the secondary component signal intensity suggests the presence of a specific allele present at the polymorphic locus in the secondary nucleic acid. As suggested by this secondary component signal intensity, if the specific allele is actually present in the secondary nucleic acid, this is regarded as "true".
  • the probability of the secondary component signal strength in each category After obtaining the probability of the secondary component signal strength in each category, this is given as the probability corresponding to the secondary component signal strength included in each category. Specifically, the probability in the relevant category is assigned to the value of one secondary component signal strength representing each category. By this step, a scatter plot of the secondary component signal intensity and the probability can be created.
  • Step A-4-2 In step A-4-2, regression analysis is performed on the secondary component signal strength included in each of the above-mentioned categories and the probability corresponding to the secondary component signal strength included in each category. As a result, a model function f2 (x2) for calculating the reliability value is obtained, with the secondary component signal strength as the explanatory variable x2 and the reliability value as the objective variable.
  • the method of regression analysis in step A-4-2 is not particularly limited, but the least squares method can be preferably exemplified.
  • the model function f2 (x2) is a sigmoid function and can be expressed by the following equation 2.
  • the model function f2 (x2) acquired by the above method is extremely versatile, and once the model function f2 (x2) is created by the method of the present invention, it can also be used for analysis of a data set acquired under different conditions. Can be diverted. It can also be applied to the analysis of a data set obtained by a different type of inspection from the data set on which the model function f2 (x2) is created.
  • Equation 2 A2 is preferably 1.8 to 2.0, more preferably 1.9. Further, x02 is preferably 2.5 to 2.7, and more preferably 2.6. In addition, those corresponding to the above numerical values when rounded to the second decimal place shall be included in the numerical range specified here.
  • This method comprises the following steps A-3-3 and steps A-4-3.
  • step A-3-3 first, the above-mentioned (A2) by-component mixing ratio is classified into a plurality of portions. That is, (A2) the secondary component mixing rate is divided into a plurality of parts according to the magnitude of the numerical value.
  • the classification method is not particularly limited. Although it may be classified at equal intervals according to the magnitude of the secondary component mixing rate, it is preferable to classify so that the secondary component mixing rate is included in all of the classifications. In a more preferable form, it is preferable to classify exponentially instead of linearly classifying according to the magnitude of the secondary component mixing ratio. This is because a sigmoid curve is obtained by regressing the secondary component mixing rate and the probability by a curve.
  • the number of divisions is not limited, but is preferably 3 or more, more preferably 5 or more, still more preferably 7 or more, still more preferably 10 or more, still more preferably 12 or more, still more preferably 15 or more, and further. It is preferably divided into 18 or more categories.
  • the secondary component contamination rate includes the secondary component signal intensity as the basis for its calculation, and suggests the presence of a specific allele present at the polymorphic lous coition in this secondary nucleic acid.
  • the secondary nucleic acid signal intensity which is the basis for calculating the secondary component contamination rate, when the specific allele actually exists in the secondary nucleic acid, this is regarded as "true”.
  • the probability of the sub-component mixing rate in each category is given as the probability corresponding to each sub-component mixing rate included in each category.
  • the probability in the relevant category is assigned to the value of one secondary component mixing rate representing each category.
  • Step A-4-3 a regression analysis is performed on the secondary component mixing rate included in each of the above-mentioned categories and the probability corresponding to the secondary component mixing rate included in each category.
  • a model function f3 (x3) for calculating the reliability value is obtained, with the secondary component mixing rate as the explanatory variable x3 and the reliability value as the objective variable.
  • the method of regression analysis in step A-4-3 is not particularly limited, but the least squares method can be preferably exemplified.
  • the model function f3 (x3) is a sigmoid function and can be expressed by the following equation 3.
  • A3 is preferably 9.3 to 9.5, more preferably 9.4.
  • x03 is preferably 0.5 to 0.7, and more preferably 0.6.
  • those corresponding to the above numerical values when rounded to the second decimal place shall be included in the numerical range specified here.
  • model functions are useful for evaluating the reliability of the secondary component signal strength contained in the data set independently.
  • a more useful model function can be created by multiplying the created multiple model functions with each other.
  • step A-2 two or more synthetic variables are generated, and in step A-3-1, reliability values are given to each of the two or more synthetic variables.
  • step A-4-1 two or more independent model functions having each of the two or more synthetic variables as explanatory variables are created. By multiplying these two or more model functions with each other, an embodiment of creating a model function represented by multiplication may be used.
  • model functions selected from the following three model functions may be multiplied by each other to create a model function represented by multiplication.
  • all of the following three model functions may be multiplied by each other to create a model function represented by multiplication.
  • Equation 4 a model function created by multiplying the above-mentioned model functions f1 (x1), model function f2 (x2), and model function f3 (3) with each other is used. ..
  • the primary contributor is the mother
  • the secondary contributor is the fetus in the womb of the mother
  • the mixed nucleic acid sample is a circulating acellular nucleic acid sample collected from the mother.
  • Step A 1-1 is a step of preparing a data set obtained by measuring a circulating acellular nucleic acid sample.
  • Circulating cell-free nucleic acid samples contain a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus.
  • Circulating cell-free nucleic acid samples usually contain more primary nucleic acid than secondary nucleic acid. On the other hand, the content ratio may be reversed in the latter half of pregnancy.
  • This dataset contains signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
  • a sitting position having single nucleotide polymorphisms (SNPs) used in human identification (HID) is preferably mentioned.
  • the known SNPs used in HID are stored in a database, and a polymorphic sitting position with these SNPs can be arbitrarily selected.
  • Steps A 1-2 show the presence of alleles that are homozygous in the mother, homozygous in the father, and derived from the major nucleic acid among the multiple polymorphic loci of the data contained in the dataset. This is a step of linearly binding at least the numerical values of (A1) and (A2) regarding the polymorphic locus detected by distinguishing between the signal shown and the signal indicating the presence of an allele derived from the secondary nucleic acid. .. Since the polymorphic loci are homozygous for the mother and homozygous for the father, it is unlikely that the signal from the maternal genomic DNA will contribute to both the primary component signal intensity and the secondary component signal intensity.
  • Step A 1-3-1 is a step of assigning a reliability value to a synthetic variable generated by a linear combination, and all the explanations of Step A-3-1 described above are valid.
  • the truth of the secondary component signal strength is determined as follows.
  • the secondary component signal due to the allele derived from the father is homozygous by the mother. It should be detected separately from alleles. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as true. Further, when the sub-component signal is not detected in the allele to be distinguished from the main component signal, the sub-component signal is regarded as false. This means that the result that the secondary component signal was not detected is false.
  • the alleles derived from the father are detected separately from the alleles that the mother has in the homozygosity. It is not possible. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as false. Further, when the sub-component signal is not detected separately from the main component signal, the sub-component signal is regarded as true. This means that the result that the secondary component signal was not detected is true.
  • Step A 1-4-1 is a step of obtaining a model function, and all the above-mentioned explanations of step A-4-1 are valid.
  • model function f2 in which the secondary component signal strength is the explanatory variable x2
  • model function f3 in which the secondary component mixing ratio is the explanatory variable x3. ..
  • steps A-4-2 and A-4-3 are appropriate.
  • a plurality of created model functions may be multiplied by each other to create a model function represented by multiplication. The specific embodiment is as described above.
  • the major contributor corresponds to a healthy person having a normal allele in a polymorphic sitting position where a mutation related to cancer is observed, and the secondary contributor corresponds to a cancer cell.
  • the mixed nucleic acid sample contains the base sequence information of the polymorphic locus in which the mutation related to cancer is introduced into the nucleic acid sample collected from the healthy person containing the main nucleic acid containing the genetic information about the healthy person. It is artificially prepared by spike (adding) a secondary nucleic acid consisting of a plurality of nucleic acid fragments containing the nucleic acid. More specifically, a mixed nucleic acid sample artificially prepared by spiked a nucleic acid fragment containing a sequence of a mutant allele associated with cancer into a circulating acellular nucleic acid sample collected from a healthy person is preferable.
  • the mixed nucleic acid sample may be prepared by spike an artificially synthesized nucleic acid fragment into a nucleic acid sample collected from a healthy person. Further, a mixed nucleic acid sample may be prepared by spiking a cancer cell line or a cancer tissue or a nucleic acid extract thereof on a nucleic acid sample collected from a healthy person.
  • the mixed nucleic acid sample mimics a circulating acellular nucleic acid sample of a subject to be tested for cancer.
  • the mixing ratio of the primary nucleic acid and the secondary nucleic acid in the mixed nucleic acid sample is not particularly limited, but it is preferable to adjust the mixed nucleic acid sample so that the primary nucleic acid is contained in a larger amount than the secondary nucleic acid. In other words, it is preferable to spike the secondary nucleic acid so that the signal resulting from a particular locus in the secondary nucleic acid is smaller than the signal resulting from the locus in the primary nucleic acid.
  • the spiked secondary nucleic acid has a gene copy count of preferably less than 50%, more preferably 40% or less, still more preferably 30% or less, still more preferably 20% or less, still more preferably 10% with respect to the major nucleic acid. % Or less.
  • the length of the nucleic acid fragment to be spiked is not particularly limited as long as it contains a mutation related to cancer, but preferably 50 to 500 bp, more preferably 100 to 300 bp, still more preferably 120 to 200 bp. It can be exemplified.
  • nucleic acid fragment to be spiked a plurality of any known cancer-related single nucleotide substitution mutations can be selected.
  • Steps A-1, A- 2 , A-3-1 and A-4-1 described in the item of " ⁇ 1-1>Overview" are the steps A2-1 and A in the present embodiment. It corresponds to 2-2 , step A 2-3-1 and step A 2-4-1. Hereinafter, each step will be described.
  • Step A 2-1 is a step of preparing a data set containing data obtained by measuring a mixed nucleic acid sample in which the above-mentioned secondary nucleic acid is spiked.
  • the data set prepared in step A 2-1 may also include data obtained by measuring a nucleic acid sample containing only the main nucleic acid without spiked secondary nucleic acids.
  • the polymorphic loci preferably include loci with single nucleotide polymorphisms (SNPs) known to be associated with cancer. Cancer-related SNPs are stored in a database, and certain polymorphic loci with these SNPs can be arbitrarily selected.
  • SNPs single nucleotide polymorphisms
  • Step A 2-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included. It is a step of performing linear coupling with respect to at least the numerical values (A1) and (A2) regarding the polymorphic sitting position detected separately.
  • Step A 2-3-1 is a step of assigning a reliability value to the synthetic variable obtained by the linear combination, and all the explanations of step A-3-1 described above are valid.
  • the truth of the secondary component signal strength is determined as follows.
  • a secondary component signal should be detected for the nucleic acid fragment. Therefore, in this case, when the secondary component signal is detected for the nucleic acid fragment, the secondary component signal is true. If no secondary component signal is detected for the nucleic acid fragment, the secondary component signal is regarded as false. This means that the result that the secondary component signal was not detected is true.
  • the secondary component signal should not be detected for the nucleic acid fragment. Therefore, in this case, when the secondary component signal is detected for the nucleic acid fragment, the secondary component signal is false. Further, in this case, when the secondary component signal is not detected for the nucleic acid fragment, the secondary component signal is regarded as true. This means that the result that the secondary component signal was not detected is true.
  • Step A 2-4-1 is a step of obtaining a model function, and all the above-mentioned explanations of step A-4-1 are valid.
  • model function f2 (x2) in which the secondary component signal intensity is the explanatory variable x2
  • model function f2 (x2) in which the secondary component mixing ratio is the explanatory variable x2. ..
  • steps A-4-2 and A-4-3 are appropriate.
  • a plurality of created model functions may be multiplied by each other to create a model function represented by multiplication. The specific embodiment is as described above.
  • a model function is created from a data set obtained from a cancer test.
  • the feature of this embodiment is that a model function is created based on the data regarding a single polymorphic lotus coition. Specifically, it includes the following steps A 2'-1, step A 2'- 2 , and the above-mentioned steps A 2-3-1 and step A 2-4-1.
  • Step A 2'-1 is a step of preparing a data set obtained by measuring a plurality of mixed nucleic acid samples in which the above-mentioned secondary nucleic acids are spiked at different content ratios.
  • the difference from Step A 2-1 is that a plurality of mixed nucleic acid samples in which secondary nucleic acids are spiked at different content ratios are prepared.
  • the above-mentioned step A 2-1 contains data on a plurality of polymorphic loci, in the dataset of step A2'-1, each allele in a single polymorphic locus in the primary nucleic acid and the secondary nucleic acid. It also differs in that it only needs to include a signal indicating the existence of. That is, step A 2'-1 is characterized in that while data on a single polymorphic locus may be prepared, data on a plurality of mixed nucleic acid samples having different content ratios of secondary nucleic acids are prepared.
  • Step A 2'- 2 among the data contained in the data set, a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid were detected separately. It is a step of linearly connecting numerical groups including at least the following (A1') and (A2') for a single polymorphic locus to generate one or more synthetic variables.
  • A1' Secondary component signal intensity indicating the presence of the single polymorphic lous allele derived from the secondary nucleic acid.
  • A2' Secondary component mixing ratio, which is the ratio of the secondary component signal strength to the total signal strength caused by the single polymorphic sitting allele.
  • (A1') and (A2') are merely different in terms of expression because the data prepared in step A2' - 1 is data relating to a single polymorphic lotus coition, and their essence is the same. Is the same as (A1) and (A2) described above.
  • step A 2 ′ -1 In the embodiment including step A 2 ′ -1, step A 2 ′ -2 and the above-mentioned step A 2-3-1 and step A 2-4-1, there is no general method for creating a calibration curve. It is useful for creating model functions from data acquired by microarrays, digital PCR, and base sequence determination means (particularly next-generation sequencers).
  • the main contributor corresponds to the recipient of organ transplantation
  • the secondary contributor corresponds to the transplanted organ transplanted from the donor.
  • the mixed nucleic acid sample in this embodiment contains a primary nucleic acid containing genetic information about the recipient and a secondary nucleic acid containing genetic information about the transplanted organ.
  • the mixed nucleic acid sample contains more major nucleic acid than secondary nucleic acid.
  • the genetic information about the transplanted organ is consistent with the genetic information about the donor.
  • the mixed nucleic acid sample may be a sample obtained from the recipient after transplantation, specifically, a circulating acellular nucleic acid sample. Alternatively, it may be prepared by artificially mixing the main nucleic acid derived from the recipient obtained from the recipient and the secondary nucleic acid derived from the donor obtained from the donor or the transplanted organ.
  • the number of copies of the secondary nucleic acid is preferably less than 50%, more preferably 40% or less with respect to the primary nucleic acid so that the signal caused by the primary nucleic acid is detected more strongly than the signal caused by the secondary nucleic acid. , More preferably 30% or less, still more preferably 20% or less, still more preferably 10% or less.
  • Steps A-1, A-2, A-3-1 and A-4-1 described in the item of " ⁇ 1-1>Overview" are the steps A 3-1 and A in the present embodiment. It corresponds to 3-2, step A 3 3-1 and step A 3 4-1 . Hereinafter, each step will be described.
  • Step A 3-1 is a step of preparing a data set obtained by measuring the mixed nucleic acid sample described above. This dataset contains signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
  • a sitting position having single nucleotide polymorphisms (SNPs) used in human identification (HID) is preferably mentioned.
  • the known SNPs used in HID are stored in a database, and a polymorphic sitting position with these SNPs can be arbitrarily selected.
  • a recipe is used.
  • a signal is obtained indicating the presence of an allele that the ent does not have and that the donor has as a heterozygotes or homozygotes, this can be determined to be true.
  • nucleic acid sample does not contain secondary nucleic acids derived from the donor, it is false when a signal is obtained indicating the presence of an allele that the recipient does not have but the donor has. Can be determined.
  • Step A 3-2 among the data contained in the data set, a signal indicating the presence of an allele derived from the main nucleic acid and the presence of the allele derived from the secondary nucleic acid in the plurality of polymorphic loci are present.
  • This is a step of linearly coupling at least the numerical values of (A1) and (A2) with respect to the polymorphic sitting position detected separately from the signal indicating.
  • the secondary component signal intensity indicating the presence of another allele other than the specific allele may be indicated. Signals due to the recipient's allele cannot be mixed. In this case, the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are detected separately.
  • Step A 3 3-1 is a step of assigning a reliability value to a synthetic variable generated by a linear combination, and all the explanations of step A-3-1 described above are valid.
  • the truth of the secondary component signal strength is determined as follows.
  • Alleles that the recipient does not have and that the donor has homozygous or heterozygous are distinguished from the alleles that the recipient has and are derived from the alleles that the donor has.
  • the next component signal should be detected. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as true. Further, when the sub-component signal is not detected in the allele to be distinguished from the main component signal, the sub-component signal is regarded as false. This means that the result that the secondary component signal was not detected is false.
  • the secondary component signal is not detected in distinction from the allele possessed by the recipient. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as false. Further, when the sub-component signal is not detected in the allele to be distinguished from the main component signal, the sub-component signal is regarded as true. This means that the result that the secondary component signal was not detected is true.
  • Step A 3-4-1 is a step of obtaining a model function, and all the above-mentioned explanations of step A-4-1 are valid.
  • model function f2 in which the secondary component signal strength is the explanatory variable x2
  • model function f3 in which the secondary component mixing ratio is the explanatory variable x3. ..
  • steps A-4-2 and A-4-3 are appropriate.
  • a plurality of created model functions may be multiplied by each other to create a model function represented by multiplication. The specific embodiment is as described above.
  • the present invention also relates to a reliability calculation method.
  • a reliability calculation method Asinafter, specific embodiments of the reliability calculation method of the present invention will be described. It should be noted that, of the contents of the above-mentioned description of the method for creating the model function, the part appropriate for the description of the method for calculating the reliability of the present invention will be omitted as appropriate.
  • the reliability calculation method of the present invention is a reliability value calculation method for calculating a reliability value by inputting an explanatory variable thereof into a model function.
  • the model function referred to here is two or more models selected from a group consisting of a model function obtained by the above method, a model function of any of equations 1 to 3, or a model function represented by equations 1 to 3. Examples include model functions that are multiplied by each other and represented by multiplication.
  • the numerical values to be input to the model function are the explanatory variables in each model function. Specifically, a numerical value of 1 or 2 or more selected from the following (B1) and (B2) and the synthetic variables obtained in the following step B-2 included in the data set prepared in the following step B-1 is used. Enter it in the model function as an explanatory variable.
  • the reliability calculation method of the present invention includes the following step B-1. If the numerical value to be input to the model function is a synthetic variable, the synthetic variable is generated by the following step B-2.
  • step B-1 If the numerical value to be input to the model function is a synthetic variable, the synthetic variable is generated by the following step B-2.
  • Step B-1 is a step of preparing a data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor.
  • the mixed nucleic acid sample contains more major nucleic acid than secondary nucleic acid.
  • the dataset then contains signals indicating the presence of each allele in multiple polymorphic loci in the primary nucleic acid and the secondary nucleic acid.
  • the method for acquiring the data set is not particularly limited. It may be acquired primarily by using the analysis means described later, or it may be acquired secondarily by a third party.
  • the data set is not particularly limited as long as it is obtained by an analytical means capable of distinguishing and detecting each allele in the polymorphic sitting position. Examples of the analytical means include analytical means capable of distinguishing and detecting single nucleotide substitutions (SNPs) in polymorphic loci.
  • SNPs single nucleotide substitutions
  • analysis means examples include next-generation sequencers used for detecting SNPs, digital PCR, microarrays, multiplexing PCR, mass spectrometry, and the like. These specific contents are as explained in the item of " ⁇ 1> Method of creating a model function".
  • the type of mixed nucleic acid sample is not limited. For example, it is obtained from a circulating acellular nucleic acid sample (cfDNA, cfRNA) obtained from the blood of a pregnant woman obtained for a prenatal genetic test, or from the blood of a test subject obtained for a cancer test. Preferable examples thereof include a circulating acellular nucleic acid sample (cfDNA, cfRNA) obtained from the blood of a recipient obtained for monitoring the colonization of a transplanted organ, and the like.
  • a circulating acellular nucleic acid sample cfDNA, cfRNA
  • cfDNA, cfRNA circulating acellular nucleic acid sample obtained from the blood of a recipient obtained for monitoring the colonization of a transplanted organ, and the like.
  • the data set in the reliability calculation method of the present invention includes a signal indicating the existence of each allele in a plurality of polymorphic loci, and this "plurality of polymorphic loci" is the basis for creating a model function. It does not have to be the same as the "plurality of polymorphic sitting positions" used as, and the degree of overlap is not limited.
  • the degree of overlap may be preferably 80% or less, more preferably 70% or less, based on the "plurality of polymorphic lotuses" used as the basis for creating the model function. , More preferably 60% or less, still more preferably 50% or less.
  • the degree of overlap may be 0%, preferably 10% or more, or further, based on the "plurality of polymorphic lotus coitions" used as the basis for creating the model function. It may be preferably 20% or more, more preferably 30% or more, still more preferably 40% or more.
  • Step B-2 among the data included in the data set, a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid among a plurality of polymorphic loci are shown. Is a step of linearly connecting numerical groups including the following (B1) and (B2) with respect to the polymorphic locus detected separately to generate one or more synthetic variables.
  • the secondary component signal intensity is the intensity of the signal indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
  • the above description (A1) is valid as it is.
  • the numerical value group to be linearly combined in step B-2 may include numerical values other than the above-mentioned (B1) and (B2). That is, a linear combination is performed on a numerical group including various measured values or calculated values related to the specific polymorphic lotus coition in addition to (B1) and (B2).
  • the numerical values (B3) to (B5) that may be included in the numerical value group to be linearly combined will be described below. In addition, only one kind selected from the following (B3) to (B5) may be included in the numerical value group, or two or more kinds of numerical values arbitrarily selected may be included in the numerical value group. Further, all of (B3) to (B5) may be included in the numerical group.
  • the major component signal strength is the strength of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
  • the above description (A3) is valid as it is.
  • the data set prepared in step B-1 is a set of data related to a plurality of polymorphic sitting positions. Therefore, needless to say, the data set prepared in step B-1 includes a plurality of sets of data including the above (B1) and (B2) and other numerical data relating to a specific polymorphic lotus coition. It will be.
  • Standardized data [(original data)-(mean value)] / (sample standard deviation)
  • a polymorphic locus detected by distinguishing between a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid refers to the presence of an allele derived from the major nucleic acid. It refers to a polymorphic locus in which the signal indicating the signal and the signal indicating the presence of an allele derived from the secondary nucleic acid are not mixed.
  • the cfDNA of the cfDNA regardless of the father's genetic type.
  • the signals of allele A and allele B derived from the genomic DNA of the mother are always detected.
  • Either the allele A or allele B signal should contain a signal derived from the fetal cffDNA, but this cannot be distinguished from the signal derived from the mother's genomic DNA. Such data is excluded from the analysis of the present invention.
  • the mutation is always included in ctDNA, so the signal derived from the test target and cancer. It will be mixed with cell-derived signals. Such data is excluded from the analysis of the present invention.
  • the polymorphic locus targeted for data analysis is "a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid.” It is limited to "polymorphic sitting position detected separately”.
  • the polymorphic locus to be analyzed in step B-2 is a polymorphic lous coition in which there is no possibility that a signal indicating the presence of an allele derived from a secondary nucleic acid is mixed with a signal indicating the presence of an allele derived from a major nucleic acid. It may be paraphrased as.
  • one or more synthetic variables are generated by linearly combining the above-mentioned numerical groups.
  • Principal component analysis can be preferably exemplified as a means of linear combination. It may be a synthetic variable generated by another means. Even if it is a synthetic variable generated by another means, it is preferable that this is a synthetic variable that can be generated by principal component analysis.
  • the number of synthetic variables that can be generated increases as the number of types of numerical values included in the numerical value group to be linearly combined increases.
  • the number of synthetic variables generated in step B-2 is not particularly limited.
  • the steps for calculating the reliability value by inputting the numerical values obtained as described above into the model function are the following steps B-3-1 to B-3-4.
  • step B-3-1 the synthetic variable generated by the linear combination in step B-2 is input to the above-mentioned model function whose synthetic variable is the explanatory variable and the reliability value is the objective variable, and the reliability value is calculated. It is a process to do. It should be noted that the types and numbers of the numerical values included in the numerical value group used for the linear connection used for creating the model function and the linear connection for generating the composite variable to be the input value to the model function were used. It is preferable that the types of numerical values included in the numerical value group and the number thereof are the same.
  • the present invention also relates to a method for calculating a reliability value, which comprises the above-mentioned step B-1 and the following step B-3-2.
  • Step B-3-2 is a step of inputting the secondary component signal strength of (B1) into the above-mentioned model function f2 (x2) and calculating a reliability value.
  • the reliability value of the data can be easily calculated by inputting the secondary component signal strength primaryly included in the data set into the model function f2 (x2).
  • Step B-3-3 is a step of inputting the secondary component mixing ratio of the above (B2) into the above-mentioned model function f3 (x3) and calculating a reliability value.
  • the reliability value of the data can be easily calculated by inputting the secondary component mixing rate into the model function f3 (x3).
  • the present invention also relates to a method for calculating a reliability value, which comprises the above-mentioned step B-1 and the following step B-3'.
  • a method for calculating a reliability value which comprises the above-mentioned step B-1 and the following step B-3'.
  • Step B-3' a variable selected from the following three types of numerical values is input to a model function represented by multiplication, the variable being the explanatory variable and the reliability value being the objective variable, and reliability is obtained. This is the process of calculating the sex value.
  • (I) The synthetic variable generated in the above step B-2.
  • a polymorphism in which a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are separately detected is detected.
  • a polymorphism in which a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are separately detected is detected.
  • the secondary component mixing ratio which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position with respect to the sitting position.
  • the model function represented by multiplication here is a model function represented by multiplication by multiplying two or more model functions selected from the following three model functions with each other as described above.
  • -Model function created by process A-1, process A-2, process A-3-1 and process A-4-1-Created by process A-1, process A-3-2 and process A-4-2 Model functions created by process A-1, process A-3-3, and process A-4-3
  • variables corresponding to the respective explanatory variables of f1 (x1), f2 (x2), and f3 (x3) are input to the model function represented by Equation 4, and the reliability value is calculated. do.
  • the major contributor corresponds to the mother
  • the secondary contributor corresponds to the fetus in the womb of the mother
  • the mixed nucleic acid sample corresponds to a circulating acellular nucleic acid sample collected from the mother.
  • the process B- 1 , the process B - 2 and the process B - 3-1 described above correspond to the process B 1-1, the process B 1-2 and the process B 1-3-1 described below, respectively. do.
  • Step B 1-1 is a step of preparing a data set obtained by measuring a circulating acellular nucleic acid sample containing a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus.
  • the dataset is a dataset containing signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
  • the plurality of polymorphic sitting positions referred to here are preferably polymorphic sitting positions used in human personal identification (HID).
  • Step B 1-2 are a signal indicating the presence of an allele derived from the major nucleic acid that is homozygous in the mother among the multiple polymorphic loci of the data contained in the dataset, and the secondary nucleic acid.
  • a signal indicating the presence of an allele derived from the above and a numerical group containing at least the above (B1) and the above (B2) for the polymorphic locus detected separately are linearly coupled to generate one or more synthetic variables. It is a process.
  • the genotype of the polymorphic lotus in the pseudofather may be homozygous or heterozygous.
  • Step B 1-3-1 is a step of inputting the synthetic variable generated in step B 1-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
  • the major contributor corresponds to the test subject
  • the secondary contributor corresponds to the cancer cell
  • the mixed nucleic acid sample corresponds to the circulating acellular nucleic acid sample collected from the test subject.
  • the steps B - 1, B- 2 and B-3-1 correspond to the steps B2-1, B2-2 and B2-3-1 described below, respectively.
  • Step B 2-1 is a data set obtained by measuring a circulating acellular nucleic acid sample, which comprises a major nucleic acid containing genetic information about the subject to be tested and may contain a secondary nucleic acid containing genetic information about cancer cells. It is a step of preparing a data set containing a signal indicating the presence of each allele in a plurality of cancer-related polymorphic loci in the primary nucleic acid and the secondary nucleic acid.
  • “may contain secondary nucleic acid” means a situation in which the possibility that the secondary nucleic acid is contained in the circulating acellular nucleic acid sample cannot be completely ruled out.
  • Step B 2-2 among the data contained in the data set, a signal indicating the presence of a normal type allele and a signal indicating the presence of a mutant type allele are distinguished from each other in a plurality of polymorphic loci. It is a step of linearly connecting numerical groups including at least the above (B1) and the above (B2) with respect to the detected polymorphic locus to generate one or more synthetic variables.
  • Normal-type alleles are alleles commonly found in healthy individuals who do not have cancer, and mutant-type alleles are alleles into which mutations that are considered to be related to cancer have been introduced.
  • step B 2-2 from the data contained in the data set, among the plurality of polymorphic sitting positions, the polymorphic sitting position in which the mutant allele is homozygous or heterozygous in the test subject is concerned. It is preferable to exclude the data. By excluding the data on the polymorphic sitting position with the mutant allyl that is congenitally possessed by the test subject in this way, the secondary component signal is detected mixed with the main component signal derived from the test subject himself. Data is excluded. This improves the accuracy of the calculated reliability value.
  • Step B 2-3-1 is a step of inputting the synthetic variable generated in step B 2-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
  • the major contributor corresponds to the recipient of the organ transplant
  • the secondary contributor corresponds to the transplanted organ
  • the mixed nucleic acid sample corresponds to a circulating acellular nucleic acid sample collected from the recipient.
  • process B-1, process B - 2 and process B-3-1 correspond to process B 3-1, process B 3 -2- and process B 3 3-1 described below, respectively.
  • Step B 3-1 is a step of preparing a dataset obtained by measuring a circulating acellular nucleic acid sample, which may contain a major nucleic acid containing genetic information about the recipient and a secondary nucleic acid containing genetic information about the transplanted organ. be.
  • the dataset contains signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
  • the plurality of polymorphic sitting positions referred to here are preferably polymorphic sitting positions used in human personal identification (HID).
  • Step B 3-2 among the data included in the data set, among the plurality of polymorphic sitting positions, At least the above-mentioned (B1) and the above-mentioned (B2) regarding the polymorphic locus in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are separately detected.
  • This is a step of linearly combining numerical values including the above to generate one or more synthetic variables.
  • Step B 3-3-1 is a step of inputting the synthetic variable generated in step B 3-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
  • the major contributor corresponds to the mother
  • the secondary contributor corresponds to the fetus in the womb of the mother
  • the mixed nucleic acid sample corresponds to a circulating acellular nucleic acid sample collected from the mother.
  • the process B-1, the process B - 2 and the process B-3-1 described above correspond to the process B 4-1 and the process B 4-2 and the process B 4 3-1 described below, respectively. do.
  • Step B 4-1 is obtained by measuring a circulating acellular nucleic acid sample taken from the mother, including a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus in the mother's womb. Prepare the data set to be used. The dataset contains signals indicating the presence of each allele in multiple disease-related polymorphic loci in the primary and secondary nucleic acids.
  • Step B 4-2 first, among the plurality of polymorphic loci, the data regarding the polymorphic loci having the mutant allyl as a heterozygotes in the mother are excluded from the data contained in the data set.
  • the signal indicating the presence of the allele derived from the main nucleic acid and the presence of the allele derived from the secondary nucleic acid are displayed in the plurality of polymorphic loci.
  • One or more synthetic variables are generated by linearly combining the indicated signal and the numerical group containing at least the above (B1) and the above (B2) with respect to the polymorphic locus detected separately.
  • Step B 4-3-1 is a step of inputting the synthetic variable generated in the step B-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
  • the reliability of a signal indicating the presence of a specific allele at a specific polymorphic lous coition in a secondary nucleic acid contained in a data set is determined. Can be evaluated.
  • the reliability value of the signal indicating the presence of the allele is calculated to be low. There are cases where it ends up.
  • the method of setting the exclusion condition of the present invention relates to a method of setting an exclusion condition for determining what should be excluded from the data set in order to narrow down the data of the explanatory variables to be input to the model function.
  • the method for setting exclusion conditions of the present invention particularly relates to prenatal genetic testing.
  • the reliability value of the secondary component signal intensity for the loci homozygous for each of the parents is preferably less than 0.8, more preferably less than 0.9, still more preferable. It is preferable to set the exclusion condition so as to exclude those having a value of less than 0.99, more preferably less than 0.999. Further, the reliability value of the secondary component signal intensities for the loci of the same type that the parents have in homozygosity is preferably 0.2 or more, more preferably 0.1 or more, and further preferably 0. It is preferable to set the exclusion condition so as to exclude those of 01 or more, more preferably 0.001 or more.
  • Exclusion condition setting method (Embodiment 1)
  • One embodiment of the method for setting the exclusion condition of the present invention includes the following steps C-1-1, step C-2-1, step C-3-1 and step C-4-1.
  • the exclusion conditions set by the present embodiment can be applied to the method for calculating the reliability value for monitoring the colonization of the transplanted organ described above.
  • Step C-1-1 prepares a data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information on a major contributor and a secondary nucleic acid containing genetic information on a secondary contributor.
  • the dataset includes a dataset containing signals indicating the presence of each allele in multiple polymorphic loci in the primary nucleic acid and the secondary nucleic acid. The authenticity of the signal is known.
  • the single nucleotide polymorphic lotus used in human personal identification (HID) can be preferably exemplified.
  • the major contributor, sub-contributor, and mixed nucleic acid sample correspond to any of the following.
  • the major contributor is the mother, the sub-contributor is the fetus in the womb of the mother, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother.
  • the major contributor is the recipient, the sub-contributor is the transplanted organ, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
  • Process C-2-1 is the most contributory among the synthetic variables obtained by linearly connecting numerical groups including numerical values related to polymorphic loci that meet specific conditions in the data set prepared in step C-1-1. Is the process of generating high synthetic variables. The synthetic variable with the highest contribution rate corresponds to the first principal component when performing principal component analysis.
  • step C-2-1 the allele is homozygous in the mother, homozygous in the father, and atypical between the mother and the father, or homozygous in the recipient.
  • (C1) is the secondary component signal strength.
  • the secondary component signal intensity is the intensity of the signal indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
  • the above description (A1) is valid as it is.
  • (C2) is the secondary component mixing rate.
  • (C3) is noise. Noise is a numerical value obtained by subtracting the main component signal strength and the secondary component signal strength from the total signal strength caused by the allele of a specific polymorphic lotus coition. As for the definition and the specific embodiment, the above description (A5) is valid as it is.
  • the numerical value group to be linearly combined in step C-2-1 may include numerical values other than the above-mentioned (C1), (C2) and (C3). That is, linear coupling is performed on a numerical group including various measured values or calculated values related to the specific polymorphic lotus (C1), (C2) and (C3), as well as various measured values or calculated values related to the specific polymorphic lotus.
  • the numerical values (C4) to (C5) that may be included in the numerical value group to be linearly combined will be described below. In addition, only one kind selected from the following (C4) to (C5) may be included in the numerical value group, or two or more kinds of numerical values arbitrarily selected may be included in the numerical value group. Further, all of (C4) to (C5) may be included in the numerical group.
  • the major component signal strength is the strength of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
  • the above description (A3) is valid as it is.
  • (C5) is the mixing rate of the main components.
  • main component mixing rate main component signal strength / total signal strength
  • the dataset is a set of data related to a plurality of polymorphic lotus coitions. Therefore, needless to say, the data set includes a plurality of sets of data including the numerical data of the above (C1-1) to (C5-1) relating to a specific polymorphic lotus coition. It is preferable that the numerical data included in the numerical group to be linearly combined is standardized.
  • the types and numbers of numerical values included in the numerical group used for the linear combination used to create the model function, and the numerical group used for the linear combination to generate the synthetic variable in step C-2-1 are the same.
  • Step C-3-1 is a step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable obtained by the linear combination in step C-2-1.
  • the specific embodiment is not particularly limited.
  • the outlier is a numerical value indicating an abnormal value when the reliability value is calculated by inputting to the model function created by the method of the present invention.
  • the reliability value of the signal indicating the presence of the allele is preferably less than 0.6, more preferably. Can be treated as an outlier in the case where is calculated as less than 0.7, more preferably less than 0.8.
  • the reliability value of the signal indicating the presence of the allele is preferably 0.4 or more, more preferably 0.
  • a numerical value relating to the allele in the case where it is calculated as 3 or more, more preferably 0.2 or more, can be treated as an outlier.
  • a numerical value separated from the average value of the composite variable by a value preferably 2 times or more, more preferably 3 times or more, further preferably 4 times or more, still more preferably 5 times or more of the standard deviation is treated as an outlier. You can also do it.
  • step C-3-1 include the following methods. First, a tentative threshold value is set for the synthetic variable, and the following tentative exclusion condition C1 is set.
  • (Tentative exclusion condition C1) Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and atypical between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ.
  • this provisional exclusion condition C1 is applied to the data set to be analyzed, and the invention of the above-mentioned reliability value calculation method is applied to the data set remaining without being excluded, and the reliability value is calculated. It is tested whether or not the exception result is excluded from the result of this calculated reliability value. If the exception result is not excluded, or if the result of the reliability value that accurately reflects the fact is excluded excessively, the provisional exclusion condition is reset again, and the test is repeated in the same manner as above. Identify the optimal conditions.
  • the process C-3-1 may include the process C-3-1-1 and the process C-3-1-2, which will be described later.
  • step C-3-1-1 a synthetic variable generated by linear coupling in step C-2-1, (C1) secondary component signal strength, and (C2) are added to the model function created by the method of the present invention described above.
  • This is a step of calculating a reliability value by inputting a necessary numerical value as an explanatory variable among the secondary component mixing rate and (C3) noise.
  • the model function used for calculating the reliability value is not particularly limited as long as it is the model function described in the item of " ⁇ 1> Method of creating a model function".
  • an explanatory variable is input to the model function represented by any of the above equations 1 to 4, and the reliability value is calculated.
  • step C-3-1-2 a scatter diagram is created in which the synthetic variables generated by the linear combination in step C-2-1 and the reliability values calculated in step C-3-1-1 are plotted. do.
  • a scatter diagram in which synthetic variables are plotted on the vertical axis and reliability values are plotted on the horizontal axis a set of data points distributed in the horizontal direction (direction in which the reliability values spread) (in other words, the dispersion of the values of the synthetic variables is small).
  • a set of data points distributed in the direction in which the reliability value spreads (a set extending in the horizontal direction) is specified as an exclusion candidate.
  • a set of data points (a set extending in the vertical direction) dispersed in the direction in which the composite variable spreads is specified as a non-exclusion candidate. Then, a threshold value is set for the value of the synthetic variable so as to exclude a part or all of the exclusion candidates.
  • the ratio of excluded data points is preferably 50% or more, more preferably 60% or more, still more preferably 60% or more, of all the data points of the exclusion candidates (including the portion overlapping with the non-exclusion candidates).
  • a threshold is set for the synthetic variable so that it is 70% or more, more preferably 80% or more, still more preferably 90% or more, still more preferably 95% or more.
  • Step C-4-1 is a step of setting a condition to be excluded from the data set input to the model function for calculating reliability as the following exclusion condition C1.
  • Example condition C1 Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and atypical between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ. And, it is obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele that is atypical between the recipient and the donor is present. Further, the data set in which the synthetic variable having the highest contribution rate is less than the threshold value set in the step C-3-1 is removed.
  • Exclusion condition setting method (Embodiment 2)
  • One embodiment of the method for setting the exclusion condition of the present invention includes the following steps C-1-2 and C-2-2, and steps C-3-2 and C-4-2.
  • Step C-1-2 prepares a dataset obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the major contributor and a secondary nucleic acid containing genetic information about the secondary contributor. Is.
  • the dataset includes a dataset containing signals indicating the presence of each allele in multiple polymorphic loci in the primary nucleic acid and the secondary nucleic acid. The authenticity of the signal is known.
  • the single nucleotide polymorphic lotus used in human personal identification (HID) can be preferably exemplified.
  • the major contributor, sub-contributor, and mixed nucleic acid sample correspond to any of the following.
  • the major contributor is the mother, the sub-contributor is the fetus in the womb of the mother, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother.
  • the major contributor is the recipient, the sub-contributor is the transplanted organ, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
  • Step C-2-2 is the first or the first of the synthetic variables obtained by linearly connecting a group of numerical values including numerical values related to polymorphic loci that meet specific conditions in the data set prepared in step C-1-2.
  • the second step is to generate a synthetic variable with the highest contribution rate.
  • the synthetic variable with the highest contribution rate corresponds to the first principal component when performing principal component analysis.
  • the synthetic variable with the second highest contribution rate corresponds to the second principal component when performing principal component analysis.
  • step C-2-2 the allele that is homozygous in the mother, homozygous in the father, and homozygous between the mother and the father, or homozygous in the recipient, in the donor of the transplanted organ.
  • Linear coupling is performed for at least the above-mentioned numerical groups including (C1), (C2) and (C3) relating to the polymorphic locus in which alleles that are homozygous and homozygous for the recipient and donor are present.
  • the numerical group to be the target of the linear combination may include numerical values other than (C1), (C2) and (C3), and examples thereof include (C4) to (C5) described above.
  • the above-mentioned description in step C-2-1 is appropriate for the specific embodiment of step C-2-2.
  • the types and numbers of numerical values included in the numerical group used for the linear combination used to create the model function, and the numerical group used for the linear combination to generate the synthetic variable in step C-2-2 are the same.
  • Step C-3-2 is a step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable generated by the linear combination in step C-2-2.
  • the specific embodiment is not particularly limited. Regarding the definition of outliers, the above-mentioned explanation in step C-3-1 is valid.
  • step C-3-2 include the following methods. First, a tentative threshold value is set for the synthetic variable, and the following tentative exclusion condition C2 is set.
  • (Tentative exclusion condition C2) Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and homozygous between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ.
  • this provisional exclusion condition C2 is applied to the data set to be analyzed, and the invention of the above-mentioned reliability value calculation method is applied to the data set remaining without being excluded, and the reliability value is calculated. It is tested whether or not the exception result is excluded from the result of this calculated reliability value. If the exception result is not excluded, or if the result of the reliability value that accurately reflects the fact is excluded excessively, the provisional exclusion condition is reset again, and the test is repeated in the same manner as above. Identify the optimal conditions.
  • the process C-3-2 may include the process C-3-2-1 and the process C-3-2-2, which will be described later.
  • step C-3-2-1 the synthetic variables generated by the linear coupling in step C-2-2, (C1) secondary component signal strength, and (C2) are added to the model function created by the method of the present invention described above.
  • This is a step of calculating a reliability value by inputting a necessary numerical value as an explanatory variable among the secondary component mixing rate and (C3) noise.
  • the model function used for calculating the reliability value is not particularly limited as long as it is the model function described in the item of " ⁇ 1> Method of creating a model function".
  • an explanatory variable is input to the model function represented by any of the above equations 1 to 4, and the reliability value is calculated.
  • step C-3-2-2 a scatter plot is created by plotting the synthetic variables generated by the linear combination in step C-2-2 and the reliability values calculated in step C-3-2-1. do.
  • a scatter diagram in which synthetic variables are plotted on the vertical axis and reliability values are plotted on the horizontal axis a set of data points distributed in the horizontal direction (direction in which the reliability values spread) (in other words, the dispersion of the values of the synthetic variables is small).
  • a set of data points distributed in the vertical direction (in the direction in which the composite variables spread) and a set of data points distributed in the vertical direction in other words, the set of the values of the composite variables is large and the dispersion of the reliability values is large).
  • a small set is observed.
  • a set of data points (a set extending in the vertical direction) dispersed in the direction in which the composite variable spreads is specified as an exclusion candidate.
  • a set of data points (a set extending in the horizontal direction) dispersed in the direction in which the reliability value spreads is specified as a non-exclusion candidate.
  • a threshold value is set for the value of the synthetic variable so as to exclude a part or all of the exclusion candidates.
  • the ratio of excluded data points is preferably 50% or more, more preferably 60% or more, still more preferably 60% or more, of all the data points of the exclusion candidates (including the portion overlapping with the non-exclusion candidates).
  • a threshold is set for the synthetic variable so that it is 70% or more, more preferably 80% or more, still more preferably 90% or more, still more preferably 95% or more.
  • Step C-4-2 is a step of setting the condition to be excluded from the data set to be input to the model function for calculating the reliability as the following exclusion condition C2.
  • Example condition C2 Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and homozygous between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ. And, it is obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele homozygous between the recipient and the donor is present. In addition, the data set in which the synthetic variable having the first or second highest contribution rate is less than the threshold set in the step C-3-2 is removed.
  • the exclusion condition C1 and / or the exclusion condition C2 set by the above-mentioned exclusion condition setting method is set to the above " ⁇ 2-3> transplanted organ.
  • the exclusion condition to be applied may be either one or both of the exclusion condition C1 and the exclusion condition C2.
  • the types of numerical values included in the numerical value group to be linearly combined in step B 1-2 or step B 3-2 are preferably 10 or more, more preferably 20 or more, and further preferably 30 or more. In some cases, it is possible to calculate the reliability value with very high accuracy only by applying the exclusion condition C1.
  • the present invention also relates to a program for causing a computer to execute one or more methods selected from the above-mentioned method for creating a model function, a method for calculating a reliability value, and a method for setting an exclusion condition.
  • the processor in the computer operates according to the program of the present invention stored in the built-in storage device such as a hard disk device, it is selected from the above-mentioned model function creation method, reliability value calculation method, and exclusion condition setting method. Alternatively, it can be configured to perform more than one method.
  • Storage medium also relates to a storage medium in which the above-mentioned program is recorded.
  • the present invention also relates to a storage medium in which a model function created by the above method is recorded.
  • Examples of the storage medium include a storage medium that can be read by a computer, such as a semiconductor memory, a hard disk, a magnetic storage medium, and an optical storage medium, without limitation.
  • the present invention also relates to a reliability value calculation system including a storage unit in which the above-mentioned model function is recorded and a processing unit for executing the above-mentioned reliability value calculation method. ..
  • a reliability value calculation system including a storage unit in which the above-mentioned model function is recorded and a processing unit for executing the above-mentioned reliability value calculation method. ..
  • preferred embodiments of the reliability value calculation system of the present invention will be described.
  • the processing unit is configured to process the data set to be appraised acquired by the analyzer.
  • the processing unit reads and executes a program stored in the storage unit (a program that executes the above-mentioned reliability value calculation method) to realize data processing necessary for calculating the reliability value.
  • It may be a device (which may be referred to as a calculator).
  • the processing unit has an aspect as an execution subject of data processing. Examples of the processing unit include a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a DSP (Digital Signal Processor), and an FPGA (Field Programmable Gate Array).
  • the processing unit may be a multi-core processor including two or more cores.
  • the storage unit is a circuit configured to store and retain data and programs related to various data processing executed by the processing unit.
  • the storage unit includes at least a non-volatile storage device and / or a volatile storage device.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • SSD Solid State Drive
  • HDD Hard Disk Drive
  • the storage unit is a general term for various storage devices such as a main storage device and an auxiliary storage device.
  • the program may be stored in the storage unit in advance, or may be downloaded from a device (server or the like) connected via a communication circuit and stored in the storage unit.
  • the reliability value calculation system of this embodiment includes an input unit for inputting the data set prepared in the above step B-1.
  • the data set input to the input unit is provided to the processing unit.
  • the processing unit reads out a program stored in the storage unit for executing the above-mentioned reliability value calculation method, and is included in the data set in the model function also stored in the storage unit according to the program. Enter the explanatory variables generated from the dataset to calculate the reliability value.
  • the exclusion condition C1 and / or the exclusion condition C2 created by the above-mentioned setting method of the exclusion method is recorded in the storage unit.
  • the reliability value calculation system of the present embodiment includes an input unit for inputting the data set prepared in the above step B-1.
  • the data set input to the input unit is provided to the processing unit.
  • the processing unit reads the above-mentioned exclusion condition C1 and / or exclusion condition C2 stored in the storage unit, applies the condition to the data set, and excludes data that is not suitable for calculating the reliability value.
  • the processing unit reads out a program for executing the above-mentioned reliability value calculation method, and according to the program, is included in the data set remaining after applying the exclusion condition to the model function also stored in the storage unit, or the data. Enter the explanatory variables generated from the set to calculate the reliability value.
  • NGS next-generation sequencer
  • the first principal component is an index showing a high correlation with the reliability value.
  • Each model function was created by the method described below. Although it is necessary to determine the authenticity of the secondary component signal strength in order to create the model function, the authenticity was determined based on the correct answer set according to the following rule. ⁇ If the genotype of the parents is homozygous and isomorphic, the fetal genotype is homozygous (secondary component signal intensity is false). If the genotype of the parent is homozygous and atypical, the fetal genotype is heterozygous (secondary component signal intensity is true)
  • model function f1 (x1) The first principal component obtained by principal component analysis was divided into 20 according to its size. Next, the ratio (probability) of the secondary component signal intensities corresponding to the first principal component included in each category was determined. Then, the probability in the relevant category was assigned to the representative value of the first principal component included in each category. Regression analysis is performed on the first principal component and the reliability value obtained in this way using the least squares method, and a model function f1 (x1) with the first principal component as the explanatory variable and the reliability value as the objective variable is obtained. rice field. The contribution rate (R2) of the regression analysis was 0.99 or more, which was extremely good.
  • FIG. 1 shows a sigmoid curve showing the model function f1 (x1). Further, the equation of the model function f1 (x1) is shown in the equation 5 below.
  • model function f2 (x2) The absolute value of the secondary component signal intensity was divided into 20 according to its magnitude. Next, the ratio (probability) of the absolute value of the secondary component signal intensity included in each category was determined. Then, the probability in the relevant category was assigned to the representative value of the absolute value of the secondary component signal strength in each category. Regression analysis is performed on the absolute value of the secondary component signal intensity and the probability obtained in this way using the least squares method, and the model function f2 (with the absolute value of the secondary component signal intensity as the explanatory variable and the reliability value as the objective variable) ( x2) was obtained. The contribution rate (R 2 ) of the regression analysis was 0.99 or more, which was extremely good.
  • FIG. 2 shows a sigmoid curve showing the model function f2 (x2). Further, the equation of the model function f2 (x2) is shown in the equation 6 below.
  • model function f3 (x3) The mixing rate of secondary components was divided into 20 according to their magnitude. Next, the ratio (probability) of the secondary component signal intensities corresponding to the secondary component mixing ratios included in each category was determined. Then, the probability in the relevant category was assigned to the representative value of the secondary component mixing rate included in each category. Regression analysis is performed on the secondary component contamination rate and probability obtained in this way using the least squares method, and a model function f3 (x3) with the secondary component contamination rate as the explanatory variable and the reliability value as the objective variable is obtained. rice field. The contribution rate (R 2 ) of the regression analysis was 0.99 or more, which was extremely good.
  • FIG. 3 shows a sigmoid curve showing the model function f3 (x3). Further, the equation of the model function f3 (x3) is shown in the equation 7 below.
  • model function f (x1, x2, x3) Multiply f1 (x1), f2 (x2), f3 (x3) to create model function f (x1, x2, x3) represented by the following equation 4. did.
  • ⁇ Test Example 2> Calculation of reliability value Using the model function f (x1, x2, x3) of Equation 4, the reliability of 200 sets of data used to create the model function is calculated and the results are verified. rice field. That is, the first principal component, the secondary component signal intensity absolute value, and the secondary component mixing rate for the lotus coition related to SNPs in the mixed nucleic acid sample are input to the model function f (x1, x2, x3), and the reliability value thereof is input. Calculated. In the calculation of the reliability value, the reliability value (Fidelity) was calculated for 8,148 SNPs excluding those in which the total value of (1) and (2) was less than 300.
  • FIG. 4 shows a distribution map of the calculated reliability value.
  • the left is a compilation of the reliability values for SNPs that are homozygous for each parent (the correct answer for fetal genotype is heterozygotes).
  • the right is a compilation of the reliability values for SNPs of the same type that parents have in homozygosity (the correct answer for fetal genotype is homozygosity).
  • the reliability of signals related to SNPs can be evaluated accurately.
  • Exclusion condition 1 The above (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) Principal component analysis was performed on the parameters of 5). On the other hand, the reliability value was calculated by using the above model functions f (x1, x2, x3) based on the parameters (1) to (5) in which the principal component analysis was performed. Next, a scatter plot was created in which each principal component obtained by principal component analysis was plotted on the y-axis and the reliability value was plotted on the x-axis (FIG. 5).
  • Exclusion condition 2 We investigated whether the exclusion conditions for SNPs of the same type that parents have in homozygosity can be set appropriately.
  • the reliability value was calculated by using the above model functions f (x1, x2, x3) based on the parameters (1) to (5) in which the principal component analysis was performed.
  • a scatter plot was created in which each principal component obtained by principal component analysis was plotted on the y-axis and the reliability value was plotted on the x-axis (FIG. 6).
  • ⁇ Test Example 4> Reaggregation of reliability values The same procedure as in Test Example 1 after excluding the data related to SNPs corresponding to the exclusion conditions 1 and 2 set in Test Example 3 using the 200 test data set from the data set.
  • the reliability value was calculated in (Number of remaining SNPs: 8,081).
  • the distribution map of the calculated reliability value is shown in FIG. The left is a compilation of the reliability values for SNPs that are homozygous for each parent (the correct answer for fetal genotype is heterozygotes).
  • the right is a compilation of the reliability values for SNPs of the same type that parents have in homozygosity (the correct answer for fetal genotype is homozygosity).
  • the left side of FIG. 7 is a distribution diagram of reliability values for data after applying exclusion condition 1.
  • the right side of FIG. 7 is a distribution diagram of reliability values for data after applying the exclusion condition 2.
  • the number of exceptional cases was significantly excluded and the validity was improved.
  • ⁇ Test Example 5 Verification of validity for different NGS target panels The following studies were conducted using a separately prepared 16-set data set to verify the validity of the present invention. It is the analysis result of the target panel of 132 SNPs different from the 184 SNPs target panel shown in Test Example 1.
  • a set of data sets is the gene sequence test data by NGS, which is obtained by analyzing the oral mucosa sample of the mother, the oral mucosa sample of the father, the plasma sample of the mother, and the oral mucosa sample of the newborn.
  • NGS is a target sequence performed on a polymorphic lotus coition with 132 known SNPs. That is, the prepared data set contains data on 2,112 (16 sets ⁇ 132) SNPs.
  • the 132 SNPs analyzed in this test example do not completely overlap with the 184 SNPs analyzed in test examples 1 to 3, and the 71 SNPs are the same as the SNPs analyzed in test examples 1 to 3. Are different SNPs. From this data set, SNPs that both parents had as homozygotes were extracted and the reliability values of 531 SNPs were calculated.
  • FIG. 8 shows a distribution map of reliability values calculated from the 16 test data sets.
  • SNPs that are homozygous for each other the correct answer for fetal genotype is heterozygous
  • SNPs that are homozygous for parents the correct answer for fetal genotype is homozygous
  • 175 of the 176 SNPs showed a reliability value of 0.9 or more.
  • Test Example 6 Verification of validity for SNPs whose authenticity of secondary component signals is unknown Among the 16 sets of data used in Test Example 5, the fidelity distribution of 951 SNPs that the mother has by homozygosity is inherited by the newborn. The types are tabulated as heterozygous and homozygous and summarized in FIG. In addition, all SNPs shown in FIG. 9 are a total of 300 or more of the fetal Count Major and the fetal Count minor.
  • the estimated fetal genotype using the parental genotype was consistent with the genotype of the offspring confirmed after birth.
  • 99.6% of neonatal homo SNPs (573 SNPs out of 575 SNPs) showed a low fidelity of 0.2 or less, and 99.4% of neonatal hetero SNPs (374 SNPs of 376 SNPs) showed a high fidelity of 0.8 or more. ..
  • Part 2 Creation of model function (Part 2) From the same data set as that used in Test Example 1, only those relating to the polymorphic sitting position homozygous for both mother and father were extracted. Principal component analysis was performed on the 13 factors shown in Table 1 below included in this extracted data set. Table 1 shows the eigenvectors for the first principal component obtained as a result of principal component analysis.
  • the contents of (1) to (5) are as described in Test Example 1.
  • the data including "major” is the data related to the main component signal
  • the data including "minor” is the data related to the secondary component signal.
  • the data including "count” is the data related to the signal strength
  • the data including "freq” or "frequency” is the data related to the ratio of the signal strength. That is, the numerical value including both “minor” and “count” as the notation of the variable in Table 1 corresponds to the "secondary component signal strength” in the present invention. Further, the numerical value including both “minor” and “frequ” or "frequency” as the notation of the variable in Table 1 corresponds to the "secondary component mixing ratio” in the present invention.
  • (7) in Table 1 is a numerical value obtained by dividing the secondary component signal intensity indicating the presence of the allele in the specific polymorphic lotus by the average value of noise in the plurality of polymorphic lotus coitions.
  • (9) in Table 1 shows the subcomponent mixing ratio, which is the ratio of the subcomponent signal intensity to the total signal intensity caused by the allele of the specific polymorphic lous coition, for the noise in the plurality of polymorphic loci. It is a value divided by the average value.
  • a model function f1 (x1) having the first principal component x1 as an explanatory variable and a reliability value as an objective variable was created by the same procedure as in Test Example 1. ..
  • the contribution rate (R 2 ) of the regression analysis was 0.99 or more, which was extremely good.
  • Part 2 Principal component analysis was performed on the 13 factors shown in Table 1 contained in the same data set as that used in Test Example 1.
  • the first principal component, the absolute value of the signal intensity of the secondary component and the mixing rate of the secondary component obtained by the principal component analysis are input to the model function f (x1, x2, x3) created in Test Example 7, and the reliability value is set.
  • FIG. 10 shows a distribution map of reliability values calculated by performing principal component analysis on 5 factors or 13 factors. As shown in FIG. 10, even in this test example, extremely accurate results were obtained with almost no exceptional results. From this result, the validity and high accuracy of the model function created in Test Example 7 were proved.
  • Part 2 The same data set as that prepared in Test Example 6 was prepared, and principal component analysis was performed on the 13 factors shown in Table 1 included in the data set.
  • the first principal component, the absolute value of the signal intensity of the secondary component and the mixing rate of the secondary component obtained by the principal component analysis are input to the model function f (x1, x2, x3) created in Test Example 7, and the reliability value is set.
  • FIG. 11 shows a distribution map of reliability values calculated by performing principal component analysis on 5 factors or 13 factors. As shown in FIG. 11, even when the genotype of the father indicating the truth or falsehood of the presence of the secondary component signal was not known in this test example, extremely accurate results were obtained with almost no exceptional results. From this result, the validity and high accuracy of the model function created in Test Example 7 were proved.
  • the present invention can be applied to prenatal genetic testing, cancer screening testing, transplant organ colonization monitoring, infectious disease testing, and forensic medicine.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本発明の解決すべき課題はcffDNA、ctDNA,ddcfDNAのような副次核酸を微小な割合で含む混合核酸サンプルの分析データにおける、副次核酸の存在を示す信号の信頼性を評価する新規の技術を提供することである。 上記課題の解決手段は、分析データに含まれる少なくとも副次成分信号強度及び副次成分混入率を含む数値群について線形結合をした結果得られた合成変数と信頼性値について回帰分析を行い、信頼性値を算出するためのモデル関数を求めることである。

Description

多型座位の信号の信頼性値の算出方法
 本発明はSNPsなどの解析データのデータ処理に関する。
 親子関係の存在・不存在が不明瞭であることは法律的、家族関係などに大きな影響を及ぼす。妊娠している女性の胎内にいる胎児の実父が誰であるのか確信が持てない場合、正しい実父を決定するいくつかの方法がある。
 1つの方法としては、出産まで待ち、子と擬父のゲノムDNAを解析してこれらを比較する方法が挙げられる。しかし、子の出生前にその実父を知りたいというニーズは多い。出生前に親子関係を鑑別する方法としては、絨毛診断や羊水穿刺によって回収した遺伝物質を解析する方法が挙げられるが、これらは侵襲性であり、流産リスクがあるという問題がある。
 上述した侵襲性の診断方法の問題に鑑み、血液に混入した循環無細胞DNA(cell-free DNA,cfDNA)を解析する方法を親子鑑定に応用することが行われている。母親の血液循環に混入した胎児由来の遺伝物質である胎児循環無細胞DNA(Cell-free fetal DNA,cffDNA)の分析を行うことにより、非侵襲的出生前親子鑑定(Non-Invasive Prenatal Paternity Test,NIPPT)を実施することが可能となる(例えば特許文献1)。
 ただしcffDNAの分析には解決しなければならない重要な課題がある。母体血には胎児由来の遺伝物質の他、母親由来の遺伝物質も当然に含まれており、後者の方が前者に比して圧倒的に量が多い。したがって、cfDNAの解析により得られる胎児の遺伝物質の存在を示す信号は微弱なものとなる。そのため、cfDNAの解析により得られた胎児の遺伝物質の存在を示唆する信号が、本当に胎児の遺伝物質に由来するものなのか、それともノイズであるのかを判別することは極めて困難である。
 また、cfDNAの分析技術の応用分野としては上記の出生前遺伝学的検査の他、癌スクリーニング検査や抗癌治療の経過の評価検査などを含む癌検査が挙げられる。癌細胞が免疫によって破壊されたり、自ら細胞死(アポトーシス)を起こしたり、また、血中を循環する循環腫瘍細胞(CTC)が何らかの影響によって血中で破壊されたりすると、癌細胞のゲノムDNAが血中に漏出することになる。この癌細胞に由来するcfDNAは特別にctDNA (circulating tumor DNA)と呼ばれることもある。一方で癌細胞のゲノムDNAには、特異的な一塩基変異が発生することが知られている。癌に関連する変異が生じる多型座位の配列解析をすることによって、癌の早期発見が可能になるものと期待されている(例えば特許文献2)。
 これらの知見を組合せ、血中を循環するcfDNAを抽出し、癌に関連する変異が生じる多型座位を解析することで癌検査が可能となる。
 ただ、cfDNAの大部分は検査対象者自身の正常型のゲノムDNAに由来し、癌細胞由来のcfDNAが含まれる割合は極微小である。そのため、上記の出生前遺伝学的検査と同様に、cfDNAの解析により得られた癌に関連する変異の存在を示唆する信号が、本当に癌細胞のゲノムDNAに由来するものなのか、それともノイズであるのかを判別することが極めて困難であるという問題がある。
 さらに、cfDNAの分析技術の応用分野として移植臓器の定着のモニタリングなどが挙げられる。免疫抑制剤などの改善により成功率の向上は見られるものの、拒絶反応の問題は未だ移植臓器の長期定着にとって大きな問題である。拒絶反応により移植臓器が障害されたり、壊死に至ったりすると、移植臓器を構成する細胞から血中にゲノムDNAが漏出する。この移植臓器由来のcfDNA(特別にddcfDNAと呼ばれることもある)が移植臓器障害のバイオマーカーとして期待されている。具体的には、ドナーとレシピエントの個人識別が可能な一塩基置換(SNPs)を選定し、次世代シーケンサーなどを利用してレシピエントの血液中に漏出する極微量のddcfDNAの定量を行う方法である(例えば特許文献3)。
 ただ、cfDNAの大部分はレシピエントのゲノムDNAに由来し、ddcfDNAが含まれる割合は極微小であるため、上記の出生前遺伝学的検査と同様に、cfDNAの解析により得られたddcfDNAの存在を示唆する信号が、本当に移植臓器のゲノムDNAに由来するものなのか、それともノイズであるのかを判別することが極めて困難であるという問題がある。
特表2014-502845号公報 再表2017-094805号公報 特表2020-529648号公報
 本発明の解決すべき課題はcffDNA、ctDNA,ddcfDNAのような副次核酸を微小な割合で含む混合核酸サンプルの分析データにおける、副次核酸の存在を示す信号の信頼性を評価する新規の技術を提供することにある。
 上記課題を解決する本発明は以下の通りである。
[1] 以下の工程A-1、工程A-2、工程A-3-1及び工程A-4-1を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A-1]
 主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A―2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(A1)及び(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  (A1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度
  (A2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
 
[工程A-3-1]
 前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
[工程A-4-1]
 前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[2] 前記合成変数が、少なくとも前記(A1)及び前記(A2)を含む数値群について主成分分析を行うことで生成し得る合成変数であることを特徴とする、[1]に記載の方法。
[3] 前記工程A-3-1及び工程A-4-1においてモデル関数の作成のために用いる前記合成変数が、工程A-2において生成した1以上の合成変数のうち、最も寄与率が高い合成変数であることを特徴とする、[2]に記載の方法。
[4] 前記工程A―2が、少なくとも前記(A1)及び前記(A2)を含む数値群について主成分分析を行い、1つ以上の主成分を合成変数として生成する工程であることを特徴とする、[1]~[3]の何れかに記載の方法。
[5] 前記工程A-2が、前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含み、さらに以下の(A3)~(A5)から選ばれる1又は2以上を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程であることを特徴とする、[1]~[4]の何れかに記載の方法。
  (A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
  (A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
  (A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
[6] 前記工程A-2が、前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)を含み、さらに以下の(A3)~(A5)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程であることを特徴とする、[1]~[5]の何れかに記載に記載の方法。
  (A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
  (A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
  (A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
[7] 前記回帰分析が最小二乗法であることを特徴とする、[1]~[6]の何れかに記載の方法。
[8] 前記合成変数を表す1次斉次多項式において、副次成分信号強度又は副次成分混入率が最大に重みづけされることを特徴とする、[1]~[7]の何れかに記載の方法。
[9] 前記工程A-2において線形結合する数値群に含まれる数値は、標準化された数値であることを特徴とする、[1]~[8]の何れかに記載の方法。
[10] 前記工程A-2において、2つ以上の合成変数を生成し、
 前記工程A-3-1において、前記2つ以上の合成変数のそれぞれについて、信頼性値の付与を行い、
 前記工程A-4-1において、前記2つ以上の合成変数のそれぞれを説明変数とする互いに独立した2以上のモデル関数を作成し、
 さらに、前記2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備えることを特徴とする、[1]~[9]の何れかに記載の方法。
[11] 以下の工程A-1、工程A-3-2及び工程A-4-2を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A-1]
 主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-3-2]
 前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度を複数に区分し、各区分に含まれる前記副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分信号強度に対応する確率として付与する工程。
[工程A-4-2]
 前記各区分に含まれる前記副次成分信号強度と、前記各区分に含まれる前記副次成分信号強度に対応する確率について回帰分析を行い、前記副次成分信号強度を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[12] 以下の工程A-1、工程A-3-3及び工程A-4-3を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A-1]
 主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-3-3]
 前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である副次成分混入率を複数に区分し、各区分に含まれる前記副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分混入率に対応する確率として付与する工程。
[工程A-4-3]
 前記各区分に含まれる前記副次成分混入率と、前記各区分に含まれる前記副次成分混入率に対応する確率について回帰分析を行い、前記副次成分混入率を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[13] 前記モデル関数が、シグモイド関数であることを特徴とする、[1]~[12]の何れかに記載の方法。
[14] 前記モデル関数が、2個の媒介変数を有するシグモイド関数であることを特徴とする、[1]~[13]の何れかに記載の方法。
[15] [1]~[10]の何れかに記載の方法で作成したモデル関数と、
 [11]に記載の方法で作成したモデル関数と、
 [12]に記載の方法で作成したモデル関数と、
 からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
[16] [1]~[10]の何れかに記載の方法で作成したモデル関数と、
 [11]に記載の方法で作成したモデル関数、及び/又は、[12]に記載の方法で作成したモデル関数と、
 を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
[17] [1]~[10]の何れかに記載の方法で作成したモデル関数と、
 [11]に記載の方法で作成したモデル関数と、
 [12]に記載の方法で作成したモデル関数と、
 を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
[18] 前記多型座位が、一塩基多型を含む座位であることを特徴とする、[1]~[17]の何れかに記載の方法。
[19] 前記データセットが、塩基配列解析、デジタルPCR、マイクロアレイ、リアルタイムPCR又は質量分析により取得されたデータであることを特徴とする、[1]~[18]の何れかに記載の方法。
[20] 前記データセットが塩基配列解析により取得されたデータであり、
 前記副次成分信号強度が、配列タグのカウント数、リード数、イオン濃度又は電気信号であることを特徴とする、[1]~[18]の何れかに記載の方法。
[21] 前記データセットがデジタルPCRにより取得されたデータであり、
 前記副次成分信号強度が、蛍光が観察されたウェル数であることを特徴とする、[1]~[18]の何れかに記載の方法。
[22] 前記データセットがマイクロアレイにより取得されたデータであり、
 前記副次成分信号強度が、蛍光強度であることを特徴とする、[1]~[18]の何れかに記載の方法。
[23] 前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A-1、工程A-2、工程A-3-1及び工程A-4-1であることを特徴とする、[1]~[11]の何れかに記載の方法。
[工程A-1]
 母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A―2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A-3-1]
 前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレルについて、
 主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
 主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
 前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレルについて、
 主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を偽とし、
 主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を真とする。)
[工程A-4-1]
 前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[24] 前記主要寄与体が健常人であり、前記副次寄与体が癌細胞であり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A-1、工程A-2、工程A-3-1及び工程A-4-1であることを特徴とする[1]~[10]の何れかに記載の方法。
[工程A-1]
 前記健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する多型座位において癌関連変異が導入された前記多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した混合核酸サンプルの測定により得られるデータを含むデータセットであり、
 前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
[工程A-2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A-3-1]
 前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
 該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
 該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
 前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
 該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
 該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
[工程A-4-1]
 前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[25] 以下の工程A´-1、工程A´-2、工程A´-3-1及び工程A´-4-1を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A´-1]
 健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する単一の多型座位において癌関連変異が導入された前記単一の多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した、前記副次核酸の含有割合が互いに異なる複数の混合核酸サンプルの測定により得られるデータを含むデータセットであり、
 前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
[工程A´-2]
 前記データセットに含まれるデータのうち、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された前記単一の多型座位に関する、少なくとも以下の(A1´)及び(A2´)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  (A1´)前記副次核酸に由来する前記単一の多型座位のアレルの存在を示す副次成分信号強度。
  (A2´)前記単一の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
 
[工程A-3-1]
 前記工程A´-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
 該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
 該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
 前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
 該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
 該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
[工程A-4-1]
 前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[26] 前記主要寄与体が臓器移植のレシピエントであり、前記副次寄与体が移植臓器であり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A-1、工程A-2、工程A-3-1及び工程A-4-1であることを特徴とする、[1]~[10]の何れかに記載の方法。
[工程A-1]
 レシピエントに関する遺伝情報を含む主要核酸と、移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A-3-1]
 前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。(但し、レシピエントが有していないアレルであって、かつ、ドナーがホモ接合若しくはヘテロ接合で有しているアレルについて、
 主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
 主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
 レシピエント及びドナーの何れもが有していないアレルについて、
 主要成分信号と区別されて前記副次成分信号が検出された場合、前記副次成分信号を偽とし、
 主要成分信号と区別されて前記副次成分信号が検出されなかった場合、前記副次成分信号を真とする。)
[工程A-4-1]
 前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[27] モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法であり、
 前記モデル関数が、
  [1]~[26]の何れかに記載の方法で求めた前記モデル関数、
  以下の式1~3の何れかのモデル関数、又は
  以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
であり、
 前記説明変数が、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
[工程B-1]
 主要寄与体に関する遺伝情報を含む主要核酸を含み、副次寄与体に関する遺伝情報を含む副次核酸を含む若しくは含み得る混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B―2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  (B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
  (B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
 
Figure JPOXMLDOC01-appb-M000013
(ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
 
Figure JPOXMLDOC01-appb-M000014
(ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
 
Figure JPOXMLDOC01-appb-M000015
(ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
 
[28] 前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B-1及び工程B-2であることを特徴とする、[27]に記載の方法。
[工程B-1]
 母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B―2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記母親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[29] 前記複数の多型座位が、ヒト個人識別で用いられる多型座位であり、
 非侵襲的出生前親子鑑定のために信頼性値を算出する方法であることを特徴とする、[28]に記載の方法。
[30] 前記主要寄与体が検査対象者であり、前記副次寄与体が癌細胞であり、前記混合核酸サンプルが前記検査対象者から採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B-1及び工程B-2であることを特徴とする、[27]に記載の方法。
[工程B-1]
 検査対象者に関する遺伝情報を含む主要核酸を含み、癌細胞に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、癌に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B―2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[31] 前記工程B-2において、前記データセットに含まれるデータから、前記複数の多型座位の中で、検査対象者において変異型のアリルをホモ接合又はヘテロ接合として有している多型座位に関するデータを除外し、
 除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成することを特徴とする、[30]に記載の方法。
[32] 前記主要寄与体が臓器移植のレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B-1及び工程B-2であることを特徴とする、[27]に記載の方法。
[工程B-1]
 レシピエントに関する遺伝情報を含む主要核酸を含み、移植臓器に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B-2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[33] 前記複数の多型座位が、ヒト個人識別で用いられる多型座位であり、
 移植臓器の定着のモニタリングのために信頼性値を算出する方法であることを特徴とする、[32]に記載の方法。
[34] [27]~[33]の何れかに記載の方法による信頼性値の算出に適さないデータを除外するための除外条件を設定する方法であり、以下の工程C-1-1、工程C-2-1、工程C-3-1及び工程C-4-1を備えることを特徴とする除外条件の設定方法。
[工程C-1-1]
 主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである、又は
 前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
[工程C-2-1]
 前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、最も寄与率が高い合成変数を生成する工程。
  (C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
  (C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
  (C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
 
[工程C-3-1]
 前記工程C-2-1における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
[工程C-4-1]
 信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C1として設定する工程。
(除外条件C1)
 母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの分析により得られたデータセットのうち、
 母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、前記工程C-3-1で設定した前記閾値未満に該当するデータセットは除去する。
[35] [27]~[33]の何れかに記載の方法による信頼性値の算出に適さないデータを除外するための除外条件を設定する方法であり、以下の工程C-1-2及び工程C-2-2、工程C-3-2及び工程C-4-2を備えることを特徴とする除外条件の設定方法。
[工程C-1-2]
 主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであるか、
又は
 前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
[工程C-2-2]
 前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、一番目又は二番目に寄与率が高い合成変数を生成する工程。
  (C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
  (C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
  (C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
[工程C-3-2]
 前記工程C-2-2における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
[工程C-4-2]
 信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C2として設定する工程。
(除外条件C2)
 母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの分析により得られたデータセットのうち、
 母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、前記工程C-3-2で設定した前記閾値未満に該当するデータセットは除去する。
[36] 前記多型座位が、ヒト個人識別で用いられる一塩基多型座位であることを特徴とする、[34又は35]に記載の方法。
[37] 移植臓器の定着のモニタリングのための方法であることを特徴とする、[34]~[36]の何れかに記載の方法。
[38] 前記外れ値は、[27]~[33]の何れかに記載の方法によって信頼性値を算出したときに、
 前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が0.8未満として算出されてしまう場合における当該アレルに関する数値、及び/又は
 前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が0.2以上として算出されてしまう場合における当該アレルに関する数値であることを特徴とする、[34]~[37]の何れかに記載の方法。
[39] 前記外れ値は、前記合成変数の平均値から、その標準偏差の2倍以上離れた数値であることを特徴とする、[34]~[38]の何れかに記載の方法。
[40] 前記工程B-1において、
 [34]に記載の方法で特定した除外条件C1及び/又は[35]に記載の方法で特定した除外条件C2に該当するデータセットを除去した後に残ったデータセットを用意することを特徴とする、[32]又は[33]に記載の方法。
[41] モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法であり、
 前記モデル関数が、
  [1]~[26]の何れかに記載の方法で求めた前記モデル関数、
  以下の式1~3の何れかのモデル関数、又は
  以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
であり、
 前記説明変数が、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
[工程B-1]
 母親に関する遺伝情報を含む主要核酸と、前記母親の胎内にいる胎児に関する遺伝情報を含む副次核酸と、が含まれる、前記母親から採取された循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、疾患に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B―2]
 前記データセットに含まれるデータから、前記複数の多型座位の中で、母親において変異型のアリルをヘテロ接合として有している多型座位に関するデータを除外し、
 除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  (B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
  (B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
 
Figure JPOXMLDOC01-appb-M000016
(ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
 
Figure JPOXMLDOC01-appb-M000017
(ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
 
Figure JPOXMLDOC01-appb-M000018
(ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
 
[42] 疾患リスクを評価する非侵襲的出生前検査のために信頼性値を算出する方法であることを特徴とする、[41]に記載の方法。
[43] [1]~[42]の何れかに記載の方法をコンピュータに実行させるためのプログラム。
[44] [43]に記載のプログラムを記録した記録媒体。
[45] [1]~[26]の何れかに記載の方法で作成されたモデル関数、
  以下の式1~3の何れかのモデル関数、又は
  以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
が記録された記憶媒体。
 
Figure JPOXMLDOC01-appb-M000019
(ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
 
Figure JPOXMLDOC01-appb-M000020
(ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
 
Figure JPOXMLDOC01-appb-M000021
(ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
 
[46] [1]~[26]の何れかに記載の方法で作成されたモデル関数、
  以下の式1~3の何れかのモデル関数、又は
  以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
 が記録された記憶部と、[27]~[33]及び[40]~[42]の何れかに記載の方法を実行する処理部と、を備える、信頼性値算出システム。
 
Figure JPOXMLDOC01-appb-M000022
(ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
 
Figure JPOXMLDOC01-appb-M000023
(ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
 
Figure JPOXMLDOC01-appb-M000024
(ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
 
[47] 前記記憶部に、[34]に記載の方法で作成された除外条件C1及び/又は[35]に記載の方法で作成された除外条件C2が記録されており、
 前記処理部は、[40]に記載の方法を実行することを特徴とする、[46]に記載の信頼性値算出システム。
 本発明のモデル関数の作成方法によれば、cffDNA、ctDNA,ddcfDNAのような副次核酸を微小な割合で含む混合核酸サンプルの分析データにおける、副次成分信号の信頼性値を算出するためのモデル関数を作成することができる。
 また、本発明の信頼性値の算出方法によれば、cffDNA、ctDNA,ddcfDNAのような副次核酸を微小な割合で含む混合核酸サンプルの分析データにおける、副次成分信号の信頼性値を算出することができる。
 また、本発明の除外条件の設定方法によれば、前記モデル関数に入力すべき説明変数のデータを絞るため、データセットのうち除外すべきものを判定する除外条件を設定することができる。
モデル関数f1(x1)を示すシグモイド曲線を示す。縦軸の「確率」は信頼性値、横軸の「主成分1」は主成分分析により得られた第1主成分である。図中の白抜きのデータポイントは回帰分析に用いた信頼性値と第1主成分を示す。 モデル関数f2(x2)を示すシグモイド曲線を示す。縦軸の「確率」は信頼性値、横軸の「胎児マイナーカウント」は副次成分信号強度絶対値である。図中の白抜きのデータポイントは回帰分析に用いた信頼性値と副次成分信号強度絶対値を示す。 モデル関数f3(x3)を示すシグモイド曲線を示す。縦軸の「確率」は信頼性値、横軸の「胎児マイナーフリークエンシー」は副次成分混入率である。図中の白抜きのデータポイントは回帰分析に用いた信頼性値と副次成分混入率を示す。 試験例2で算出した信頼性値(Fidelity)の分布図である。左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである。右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値を集計したものである。 除外条件1の検討のために作成された主成分分析により得られた各主成分をy軸、信頼性値をx軸にプロットした散布図である。左から第1主成分、第2主成分、第3主成分、第4主成分、第5主成分をy軸にとった散布図を示す。 除外条件2の検討のために作成された主成分分析により得られた各主成分をy軸、信頼性値をx軸にプロットした散布図である。左から第1主成分、第2主成分、第3主成分、第4主成分、第5主成分をy軸にとった散布図を示す。 試験例4において算出した信頼性値(Fidelity)の分布図である。左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである。右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値を集計したものである。 試験例5において算出した信頼性値(Fidelity)の分布図である。左は父母がそれぞれホモ接合で有している互いに異型と同型のSNPsに関する信頼性値を数で集計したものである。右はそれぞれ異なるNGSターゲットパネル解析となる試験例2と試験例5で算出した信頼性値(Fidelity)の割合を示したものである。 試験例6において生まれた子供の解析から確定されたSNPs遺伝型に対する信頼性値(Fidelity)を集計したグラフである。 副次成分信号存在に対する真偽を示す父の遺伝型を考慮せず、母ホモSNPs信頼性値(Fidelity)の分布図を数で集計したものである。 試験例2と試験例8において算出した信頼性値(Fidelity)の分布図である。左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はヘテロ接合)。右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値である。 試験例6と試験例9において算出した信頼性値(Fidelity)の分布図である。左は母がホモ接合で有しており、かつ、新生児がヘテロ接合で有しているSNPsに関する信頼性値を集計したものである。右は母がホモ接合で有しており、かつ、新生児がホモ接合で有しているSNPsに関する信頼性値である。
 以下、本発明のモデル関数の作成方法、信頼性値の算出方法、除外条件の設定方法の順に具体的な実施形態の説明を加える。なお、本発明の範囲は以下に説明した具体的な実施形態に限定されない。
<1>モデル関数の作成方法
 以下、本発明のモデル関数の作成方法の実施形態について詳述する。「<1-1>概要」の項目においては、本発明のモデル関数の作成方法の概要説明を加え、「<1-2>出生前遺伝学的検査」の項目においては出生前遺伝学的検査への応用例についての具体的な説明を加え、「<1-3>癌検査」の項目においては癌検査への応用例について具体的な説明を加え、「<1-4>移植臓器の定着のモニタリング」の項目においては、移植臓器の定着のモニタリングへの応用例について具体的な説明を加える。
<1-1>概要
 本発明のモデル関数の作成方法は、工程A-1、工程A-2、工程A-3-1及び工程A-4-1を必須工程として含む。以下、順に説明する。
[工程A-1]
 工程A-1は、混合核酸サンプルの測定により得られるデータセットを用意する工程である。
 「混合核酸サンプル」とは、複数の寄与体に関する遺伝情報を含むサンプルである。この情報とはDNAにコードされた遺伝情報の他、RNAにコードされた遺伝情報を含む。
混合核酸サンプルとしては、cfDNA、cfRNAを含むサンプルが挙げられ、具体的には、全血、血漿、血清、尿が挙げられ、より好ましくは全血、血漿、血清が挙げられる。
 混合核酸サンプルには、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とが含まれる。また、混合核酸サンプルにおける主要核酸と副次核酸の存在比率は、主要寄与体や副次寄与体のステータスによって変動し得る。
 ここでいう「主要寄与体」とは、出生前遺伝学的検査の場合には母親、癌検査の場合には検査対象者、移植臓器のモニタリングにおいてはレシピエントが該当する。つまり、「主要寄与体」とは混合核酸サンプルの取得由来である個体のことをいう。
 また、「主要核酸」とは前記主要寄与体に関する遺伝情報を含む核酸である。主要核酸には、出生前遺伝学的検査の場合には母親ゲノムDNA若しくはその断片又は母親ゲノムDNAからの転写物であるRNA(母親由来のcfDNA又はcfRNA)、癌検査の場合には検査対象者のゲノムDNA若しくはその断片又は検査対象者のゲノムDNAからの転写物であるRNA(検査対象者由来のcfDNA又はcfRNA)、移植臓器のモニタリングにおいてはレシピエントのゲノムDNA若しくはその断片又はレシピエントのゲノムDNAからの転写物であるRNA(レシピエント由来のcfDNA又はcfRNA)が該当する。
 また「副次寄与体」とは、出生前遺伝学的検査の場合には胎児、癌検査の場合には癌細胞、移植臓器のモニタリングにおいては移植臓器が該当する。つまり、「副次寄与体」とは主要寄与体の体内に存在する、主要寄与体の本来の遺伝情報とは異なる遺伝情報を有する個体、組織又は細胞のことをいう。
 また、「副次核酸」とは前記副次寄与体に関する遺伝情報を含む核酸である。副次核酸には、出生前遺伝学的検査の場合には胎児ゲノムDNA若しくはその断片又は胎児ゲノムDNAからの転写物であるRNA(胎児由来のcfDNA又はcfRNA)、癌検査の場合には癌細胞のゲノムDNA若しくはその断片又は癌細胞のゲノムDNAからの転写物であるRNA(癌細胞由来のcfDNA又はcfRNA)、移植臓器のモニタリングにおいては移植臓器のゲノムDNA若しくはその断片又はドナーのゲノムDNAからの転写物であるRNA(移植臓器由来のcfDNA又はcfRNA)が該当する。
 なお、本発明のモデル関数の作成方法は、あくまでもモデル関数を作成することが目的であるため、主要核酸及び副次核酸を含む混合核酸サンプルは人工的なものであっても構わない。例えば、主要核酸を含む血液に、副次核酸を模した核酸をスパイク(添加)することにより、混合核酸サンプルを調製してもよい。
 工程A-1で用意するデータセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットが含まれる。ここで、データセットに含まれる多型座位の数は特に限定されず、好ましくは5以上、より好ましくは10以上、さらに好ましくは15以上、さらに好ましくは18以上である。
 このデータセットは、多型座位における各アレルを区別して検出できる分析手段によって得られたものであれば特に限定されない。当該分析手段としては、好ましくは多型座位における一塩基置換(SNPs)を区別して検出できる分析手段が挙げられる。
 分析手段としては、例えば、SNPsの検出に使用される塩基配列解析、デジタルPCR、マイクロアレイ、リアルタイムPCRなどが挙げられる。
 塩基配列解析の具体的な手段としては次世代シーケンサー(NGS)が挙げられる。次世代シーケンサーは、クローン的に増幅された分子及び単一核酸分子の大量の並列配列決定を可能にする配列決定方法である。本発明においては、何れのNGSシステムを採用しても構わない。例えばパイロシーケンシング(GS Junior(Roche社)など)、可逆的色素ターミネーターを使用する合成によるシーケンシング(MiSeq(Illumina社)など)、ライゲーションによるシーケンシング(SeqStudio Genetic Analyzer(Thermo Fisher SCENTIFIC社)など)、イオン半導体シーケンシング(Ion Proton System(Thermo Fisher SCENTIFIC社)など)、CMOS(相補型金属酸化膜半導体)チップによるシーケンシング(iSeq 100 System(Illumina社)など)などが挙げられる。
 次世代シーケンサーによって読み込んだ配列データを解析し、多型座位における特定の配列(特定のSNPs)を有するアレルのリード数を、当該アレルの存在を示す信号として解釈することができる。
 また、次世代シーケンサーに供するライブラリーの調製段階において、核酸分子を個別に識別可能にするバーコード配列(Unique Molecular Identifiers(UMI),Unique Molecular Tag(UMT))を解析対象の核酸断片に連結させた場合、多型座位における特定の配列(特定のSNPs)を有するアレルであることを特定するUMTのカウント数を当該アレルの存在を示す信号として解釈することができる。
 本発明における分析手段として次世代シーケンサーを採用する場合、あらかじめ既知である多型座位を特異的に増幅するターゲットシーケンス法を採用することが好ましい。
 デジタルPCRは、1ウェルあたりに核酸分子が1分子入るか、入らないかという程度となるように多数のウェルへサンプルを分配して個別にPCRを行う方法である。ターゲット配列を含むウェルではPCR増幅が進んで蛍光シグナルが検出されるが、ターゲット配列を含まないウェルではPCR増幅が進まず、蛍光シグナルは検出されない。PCR後、各ウェルでシグナル増幅の「ある(+)/なし(-)」を判別し、シグナルの「ある(+)」ウェル数をターゲットのコピー数として算出する。
 デジタルPCRにSNPsなどの変異を精度よく判別可能なプローブ(TaqManRプローブやサイクリングプローブなど)を組み合わせれば、特定の配列(特定のSNPs)を有するアレルが増幅されたウェルのみで蛍光が観察される。アレルごとに異なる発光波長を有する蛍光標識プローブを設計すれば、一つの多型座位に存在する異なるアレルを蛍光色によってそれぞれ区別して検出することができる。特定のアレルに対応する蛍光シグナルの「ある(+)」ウェル数を当該アレルの存在を示す信号として解釈することができる。
 マイクロアレイは、既知の配列を有するDNA、DNA断片、cDNA、オリゴヌクレオチド、RNAまたはRNA断片などの核酸をプローブとして、数百個~数十万個まで配列して固相化させ、プローブに相補的な配列を有する核酸がハイブリダイズした際に、これを蛍光標識により検出する方法である。SNPsタイピングを行うマイクロアレイを特にSNPアレイともいう。
 一つの座位に複数のアレルが想定される場合、各アレルを別個に固相化することで、これらを区別して検出することが可能となる。特定のアレルが固相化されたポイントにおける蛍光強度を当該アレルの存在を示す信号として解釈することができる。
 リアルタイムPCRは、PCRによる核酸の増幅量に応じて生じる蛍光を分光蛍光光度計によりリアルタイムでモニターし解析する方法である。リアルタイムPCRにSNPsなどの変異を精度よく判別可能なプローブ(TaqManRプローブやサイクリングプローブなど)を組み合わせることが好ましい。アレルごとに異なる発光波長を有する蛍光標識プローブを設計すれば、一つの多型座位に存在する異なるアレルを蛍光色によってそれぞれ区別して検出することができる。
 リアルタイムPCRによりデータセットを得ようとする場合、測定効率を向上させる観点からマルチプレックスPCRを採用することが好ましい。マルチプレックスPCRは、複数組のプライマーを使用し、複数のターゲット配列を一つの反応系中で一度に増幅する方法である。
 リアルタイムPCRにおいては、特定のアレルに対応する蛍光シグナルの強度を当該アレルの存在を示す信号として解釈することができる。
 質量分析は、分子をイオン化し、その質量荷電比(m/z)を測定することによってイオンや分子の質量を測定する分析法である。本来は分子の質量を測定する方法であるが、特定の条件(特定のプライマーを使用してPCRを実施した場合や、特定の制限酵素で核酸分子を切断した場合など)で調製した核酸分子の質量が計測できれば、その質量をデータベースと照合することで、検出された核酸分子の塩基配列を同定することができる。このことから、質量分析はジェノタイピングに広く応用されている。
 質量分析においては、特定のアレルを含む塩基配列に特有のm/zにおけるイオン強度を当該アレルの存在を示す信号として解釈することができる。
 工程A-1で用意するデータセットは、上述したアレルの存在を示す信号の真偽が既知であることを要する。つまり、ある特定のアレルの存在を示す信号が検出された場合に、当該アレルの塩基配列を含む主要核酸又は副次核酸が混合核酸サンプルに含まれているか否かが既知であることを要する。
 なお、工程A-1はデータセットを用意する工程である。したがって、データセットを一次的に取得するための核酸分析の工程は、本発明の必須要素でない。言い換えると、工程A-1の具体的な実施態様として、本発明の実施者自身が核酸分析によって一次的にデータを取得することで上記データセットを用意する形態も当然に含まれるが、これに限られない。工程A-1の具体的な実施態様には、本発明の実施者以外の者が核酸分析によって一次的に取得したデータセットを二次的に取得することで上記データセットを用意する形態も当然に含まれる。
[工程A―2]
 工程A-2は、上述のデータセットに含まれるデータについて主成分分析を行う工程である。具体的には、前記データセットに含まれるデータのうち、複数の多型座位の中で、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、以下の(A1)及び(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する。
 (A1)は副次成分信号強度である。副次成分信号強度とは、副次核酸に由来する、特定の多型座位のアレルの存在を示す信号の強度である。
 混合核酸サンプルの分析で互いに区別されて検出された2種類のアレルの存在を示す信号が、それぞれ主要核酸と副次核酸のどちらに由来するのか確認することは容易である。
 循環無細胞核酸サンプルにおいては、ほとんどの場合、副次核酸よりも主要核酸の方が多く含まれるため、必然的に副次成分信号強度は、上述の主要成分信号強度よりも弱くなる。このような場合にはその内の信号強度が弱い方を副次成分信号強度とみなすことができる。
 一方、例えば妊娠後期における母親由来核酸と胎児由来核酸の比率、また、癌が進行している場合の患者由来核酸と癌由来核酸の比率は、通常の場合と逆転していることがある。つまり、循環無細胞核酸サンプルにおける副次核酸の量が主要核酸の量と同等又はそれ以上となる場合があり得る。このような特殊な場合には、ジェノタイピングによって主要寄与体の遺伝型を予め特定しておき、混合核酸サンプルの分析結果と比較すればよい。これによって、混合核酸サンプルの分析によって互いに区別されて検出された2種類のアレルの存在を示す信号が、それぞれ主要核酸と副次核酸のどちらに由来するのか判断できる。
 データセットを一次的に取得した際に使用された測定手段の種類やその後のソフトウェアなどによるデータ処理によって、副次成分信号強度を表す単位や表現などは多岐に渡る。本発明においては副次核酸に由来する特定の多型座位のアレルの存在を示す信号強度を反映する数値の全てを包含して「副次成分信号強度」と呼ぶ。つまり、当該信号強度を直接的に表す数値の他、当該数値に定数を乗じた数値や、当該数値の累乗値及び累乗根など当該信号強度を反映する全ての数値が「副次成分信号強度」に含まれる。
 例えば、副次成分信号強度の元データを標準化した数値も「副次成分信号強度」との文言に含まれる。標準化の詳細は後述する。
 また、検出された他のパラメータに基づき副次成分信号強度の元データを加工して得られた数値も「副次成分信号強度」という文言に含まれる。副次成分信号強度の元データの加工のために用いられる「他のパラメータ」としてはノイズが挙げられる。ノイズの定義は後述の通りである。
 例えば、副次成分信号強度の元データから、解析の対象である複数の多型座位におけるノイズ強度又はその平均値を引いた数値も、「副次成分信号強度」として扱うことができる。ノイズ強度の平均値を求める際の母数は、ノイズが検出された多型座位の数であっても、解析対象とした全ての多型座位の数であってもよい。
 具体的には、ノイズが検出された多型座位及びノイズが検出されなかった多型座位の区別なく、一律に副次成分信号強度の元データから前記ノイズ強度の平均値を差し引く実施形態としてもよい。
 また、ノイズが検出された特定の多型座位についてのみ、副次成分信号強度の元データから前記ノイズ強度の平均値を差し引く実施形態としてもよい。
 また、ノイズが検出された特定の多型座位の副次成分信号強度から、当該特定の多型座位について検出されたノイズ強度を差し引く実施形態としてもよい。
 また、前記特定の多型座位のアレルの存在を示す副次成分信号強度を、前記複数の多型座位におけるノイズ強度の平均値により割った数値を「副次成分信号強度」として扱う実施形態としてもよい。
 つまり以下の式で表される数値を「副次成分信号強度」として扱う実施形態としてもよい。
  (副次成分信号強度)/(ノイズ強度の平均値)
 この通り「副次成分信号強度」というとき、これは1種類の数値のみを表すものではなく複数種類の数値を包含している。したがって、工程A-2において線形結合の対象となる数値群には、1種類の「副次成分信号強度」のみが含まれている形態であってもよいし、2種以上の「副次成分信号強度」が含まれていてもよい。
 (A2)は副次成分混入率である。副次成分混入率とは、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である。つまり、「副次成分混入率=副次成分信号強度/信号強度総和」という数式で表すことができる。
 上記(A1)における説明と同様の理由から、副次成分混入率を表す単位や表現などは多岐に渡る。本発明においては特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合を反映する数値の全てを包含して「副次成分混入率」と呼ぶ。つまり、当該割合を直接的に表す数値の他、当該数値に定数を乗じた数値や、当該数値の累乗値及び累乗根など当該割合を反映する全ての数値が「副次成分混入率」に含まれる。
 例えば、副次成分混入率の元データを標準化した数値も「副次成分混入率」との文言に含まれる。標準化の詳細は後述する。
 また、検出された他のパラメータに基づき副次成分混入率の元データを加工して得られた数値も「副次成分混入率」という文言に含まれる。副次成分混入率の元データの加工のために用いられる「他のパラメータ」としてはノイズが挙げられる。ノイズの定義は後述の通りである。
 例えば、副次成分混入率の元データから、解析の対象である複数の多型座位における信号強度総和に対するノイズ強度の割合(ノイズ混入率)又はその平均値を引いた数値も、「副次成分混入率」として扱うことができる。ノイズ混入率の平均値を求める際の母数は、ノイズが検出された多型座位の数であっても、解析対象とした全ての多型座位の数であってもよい。
 具体的には、ノイズが検出された多型座位及びノイズが検出されなかった多型座位の区別なく、一律に副次成分混入率の元データから前記ノイズ混入率の平均値を差し引く実施形態としてもよい。
 また、ノイズが検出された特定の多型座位についてのみ、副次成分混入率の元データから前記ノイズ混入率の平均値を差し引く実施形態としてもよい。
 また、ノイズが検出された特定の多型座位の副次成分混入率から、当該特定の多型座位について検出されたノイズ強度のノイズ混入率を個別に差し引く実施形態としてもよい。
 また、前記特定の多型座位の副次成分混入率を、複数の多型座位におけるノイズ強度の平均値により割った数値を「副次成分混入率」として扱う実施形態としてもよい。
 つまり以下の式で表される数値を「副次成分混入率」として扱う実施形態としてもよい。
  (副次成分混入率)/(ノイズ強度の平均値)
 この通り「副次成分混入率」というとき、これは1種類の数値のみを表すものではなく複数種類の数値を包含している。したがって、工程A-2において線形結合の対象となる数値群には、1種類の「副次成分混入率」のみが含まれている形態であってもよいし、2種以上の「副次成分混入率」が含まれていてもよい。
 工程A-2において線形結合の対象となる数値群には、上述の(A1)及び(A2)以外の数値が含まれていてもよい。つまり、特定の多型座位に関する(A1)及び(A2)の他、当該特定の多型座位に関する種々の測定値ないし算出値を含む数値群に対して線形結合を行う。
 以下に線形結合の対象となる数値群に含めてもよい数値(A3)~(A5)について説明を加える。なお、以下に掲げる(A3)~(A5)から選ばれる1種のみを前記数値群に含めてもよいし、任意に選択された2種以上の数値を前記数値群に含めてもよい。また、(A3)~(A5)の全てを前記数値群に含めてもよい。
 (A3)は主要成分信号強度である。主要成分信号強度とは、主要核酸に由来する、特定の多型座位の一のアレルの存在を示す信号の強度である。
 上述の通り循環無細胞核酸サンプルにおいては、ほとんどの場合、副次核酸よりも主要核酸の方が多く含まれるため、必然的に主要成分信号強度は、上述の副次成分信号強度よりも弱くなる。このような場合にはその内の信号強度が強い方を主要成分信号強度とみなすことができる。
 一方、例えば妊娠後期における母親由来核酸と胎児由来核酸の比率、また、癌が進行している場合の患者由来核酸と癌由来核酸の比率は、通常の場合と逆転していることがある。つまり、循環無細胞核酸サンプルにおける副次核酸の量が主要核酸の量と同等又はそれ以上となる場合があり得る。このような特殊な場合には、ジェノタイピングによって主要寄与体の遺伝型を予め特定しておき、混合核酸サンプルの分析結果と比較すればよい。これによって、混合核酸サンプルの分析によって互いに区別されて検出された2種類のアレルの存在を示す信号が、それぞれ主要核酸と副次核酸のどちらに由来するのか判断できる。
 上記(A1)の説明と同様の理由により、当該信号強度を直接的に表す数値の他、当該数値に定数を乗じた数値や、当該数値の累乗値及び累乗根など当該信号強度を反映する全ての数値が「主要成分信号強度」に含まれる。工程A-2において線形結合の対象となる数値群には、1種類の「主要成分信号強度」のみが含まれている形態であってもよいし、2種以上の「主要成分信号強度」が含まれていてもよい。
 (A4)は主要成分混入率である。主要成分混入率とは、特定の多型座位のアレルに起因する信号強度総和に対する主要成分信号強度の割合である。つまり、「主要成分混入率=主要成分信号強度/信号強度総和」という数式で表すことができる。
 上記(A2)の説明と同様の理由により、当該割合を直接的に表す数値の他、当該数値に定数を乗じた数値や、当該数値の累乗値及び累乗根など当該信号強度を反映する全ての数値が「主要成分混入率」に含まれる。工程A-2において線形結合の対象となる数値群には、1種類の「主要成分混入率」のみが含まれている形態であってもよいし、2種以上の「主要成分混入率」が含まれていてもよい。
 (A5)はノイズである。
 生物学的、遺伝学的または試験系上の理由から、ある特定の一塩基多型座位において塩基「A」または塩基「G」を示す信号は観察され得るが、塩基「T」及び塩基「C」を示す信号は観察し得ない状況を考える。このような状況としては、特定の一塩基多型座位において父親が「A」をホモ接合で保有し、母親が「G」をホモ接合で保有する場合における、胎児の前記特定の一塩基多型を観察する状況が例として挙げられる(当該特定の一塩基多型座位において胎児が「T」及び「C」を保有していることは通常考えられない)。このような状況において、本来は観察し得ない塩基である「T」及び「C」を示す信号が観察された場合、この信号を「ノイズ」であると本発明では定義する。
 つまり、ノイズは、特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるものであり、「信号強度総和-(主要成分信号強度+副次成分信号強度)」の数式で表すことができる。
 上述の通り工程A-1で用意するデータセットは複数の多型座位に関するデータの集合である。そのため、いうまでもないが、工程A-1で用意するデータセットには、特定の多型座位に関する上記(A1)及び(A2)並びに他の数値データを一組とするデータが複数組含まれることになる。
 なお、線形接合の対象となる数値群に含まれる数値データは標準化されていることが好ましい。標準化データは以下の式で求めることができる。
  標準化データ=[(元データ)-(平均値)]/(標本標準偏差)
 「主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位」とは、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号が混在していない多型座位をいう。
 例えば、出生前遺伝学的検査の場合、ある特定の多型座位において、母親がアレルAとアレルBをヘテロ接合として有している場合には、父親の遺伝型の如何に関わらず、cfDNAの解析の結果、母親のゲノムDNAに由来するアレルAとアレルBの信号が必ず検出されてしまう。アレルAとアレルBの信号の何れかには、胎児のcffDNAに起因する信号が混じっているはずであるが、これを母親のゲノムDNAに由来する信号と区別することができない。このようなデータを解析の基礎に加えるとモデル関数の精度が落ちてしまう。
 また、癌検査の場合、検査対象者が先天的に癌に関連する変異をホモ接合又はヘテロ接合として有していた場合、当該変異は必ずctDNAにも含まれるため、検査対象由来の信号と癌細胞由来の信号とが混じることになる。このようなデータを解析の基礎に加えるとモデル関数の精度が落ちてしまう。
 また、移植臓器の定着のモニタリングの場合、ある特定の多型座位において、レシピエントがアレルAとアレルBをヘテロ接合として有している場合には、ドナーの遺伝型の如何に関わらず、cfDNAの解析の結果、レシピエントのゲノムDNAに由来するアレルAとアレルBの信号が必ず検出されてしまう。アレルAとアレルBの信号の何れかには、ドナーのcffDNAに起因する信号が混じっているはずであるが、これをレシピエントのゲノムDNAに由来する信号と区別することができない。このようなデータを解析の基礎に加えるとモデル関数の精度が落ちてしまう。
 以上のことから工程A-2においては、データ解析の対象とする多型座位を「主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位」に限定している。工程A-2の解析対象とする多型座位は、副次核酸に由来するアレルの存在を示す信号に、主要核酸に由来するアレルの存在を示す信号が混じっている可能性が無い多型座位と言い換えてもよい。
 工程A-2では上述した数値群を対象として線形結合させて1つ以上の合成変数を生成する。線形結合の手段としては主成分分析が好ましく例示できる。なお、別手段で生成した合成変数であっても構わない。別手段で生成する合成変数であっても、これが主成分分析で生成し得る合成変数であることが好ましい。
 線形結合により生成された合成変数は以下の1次斉次多項式により表される。なお、nはデータセットに含まれる数値のうち、線形結合の対象である数値群に含まれる数値の種類の数を表す2以上の整数である。Xnは線形結合の対象である数値群に含まれる数値である。a1nは線形結合を行う数値を重みづける係数である。
  Z1=a11X1+a12X2+・・・+a1nXn
 本発明の好ましい実施形態では、合成変数を表す1次斉次多項式において、副次成分信号強度又は副次成分混入率が最大に重みづけされる。
 生成できる合成変数の数は、線形結合の対象となる数値群に含まれる数値の種類が多いほど増加する。工程A-2で生成する合成変数の数は特に限定されない。
 少なくとも(A1)及び(A2)を含む数値群の線形結合によって合成変数を生成する実施形態について説明したが、前記数値群の非線形結合によって合成変数を生成する実施形態としてもよい。ここで、非線形結合とは、各数値のべき乗、各数値同士の積、商及びこれらの数値を指数に持つ関数等を指す。
 工程A-2の線形結合により得られた合成変数は、信頼性値と相関する関係にある。この相関関係を利用してモデル関数を作成するのであるが、その具体的な工程として、本発明は以下の工程A-3-1と工程A-4-1を有する。
[工程A-3-1]
 工程A-3-1は、線形結合により生成された合成変数に信頼性値を割り当てる工程である。
 工程A-3-1に供する合成変数は特に限定されないが、線形結合の対象となった数値群を最もよく反映する合成変数が好ましく挙げられる。言い換えると線形結合の対象となった数値群に対して最も高い寄与率を示す合成変数が好適に例示できる。これは主成分分析における第1主成分に相当するものである。
 工程A-3-1においては、まず、線形結合により生成した合成変数を複数に区分する。つまり、合成変数をその数値の大きさに応じて複数に区分する。
 区分の方法は特に制限されない。合成変数の大きさに応じて等間隔に区分をしてもよいが、各区分の全てに生成された合成変数が包含されるように区分することが好ましい。さらに好ましい形態では、合成変数の大きさに応じて直線的に区分をするのではなく、指数的に区分をすることが好ましい。なぜならば、生成した合成変数と確率を曲線回帰するとシグモイド曲線となるからである。
 区分の数は限定されないが、好ましくは3区分以上、より好ましくは5区分以上、さらに好ましくは7区分以上、さらに好ましくは10区分以上、さらに好ましくは12区分以上、さらに好ましくは15区分以上、さらに好ましくは18区分以上に分ける。
 次に、各区分に含まれる合成変数に対応する副次成分信号強度のうちこれが真であった割合を求める。つまり、各区分に含まれる全ての合成変数のうち、真であった副次成分信号強度に対応する合成変数の割合を求める。本明細書においては、この割合を「確率」と呼ぶ。
 なお、副次成分信号強度は、副次核酸における当該多型座位に存在する特定のアレルの存在を示唆するものである。この副次成分信号強度による示唆通り、実際に副次核酸に当該特定のアレルが存在する場合には、これを「真」とする。
 合成変数の各区分における確率を求めた後、これを各区分に含まれる合成変数に対応する確率として付与する。具体的には、各区分を代表する一の合成変数の値に当該区分における確率を割り当てる。この工程により、合成変数と確率の散布図が作成可能な状態となる。
[工程A-4-1]
 工程A-4-1においては、上述した各区分に含まれる合成変数と、各区分に含まれる合成変数に対応する確率について回帰分析を行う。これにより合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める。
 「確率」と「信頼性値」は対応関係にある。本明細書においては、モデル関数を作成するために用いられるパラメータを「確率」と呼び、モデル関数に説明変数を入力することで算出されるパラメータを「信頼性値」と呼ぶ。
 工程A-4-1における回帰分析の手法は特に限定されないが、最小二乗法が好ましく例示できる。
 モデル関数はシグモイド関数となる。合成変数が主成分分析における第1主成分である場合、モデル関数は以下の式1で表すことができる。
Figure JPOXMLDOC01-appb-M000025
 なお、本発明においては、上記式1の場合に限らず、2個の媒介変数を有するシグモイド関数の形式で信頼性値を算出するためのモデル関数を作成することが好ましい。式1における媒介変数はA1とx01が該当する。
 式1中、A1は好ましくは15.4~15.6であり、より好ましくは15.5である。また、x01は好ましくは-0.8~-0.6であり、より好ましくは-0.9である。なお、小数点第2位を四捨五入したときに上記数値に該当するものは、ここで規定した数値範囲内に含まれるものとする。
 上述の方法により取得したモデル関数は極めて汎用性が高い。工程A-1で用意したデータセットの取得条件とは異なる条件で一次的に取得したデータセットの解析にも応用できる。例えば、工程A-1で用意したデータセットの取得条件との間で、サンプル量や濃度の違い、解析した多型座位の違い、信号の種類(リード数やUMTカウント)の違いがある条件で一次的に取得したデータセットにおける信頼性値の算出に、当該モデル関数を応用できる。
 つまり、別の条件で取得されたデータセットについて信頼性値の算出をしたい場合に、当該別の条件について改めてモデル関数を作成する必要が無い。いったん本発明の方法によりモデル関数を作成しておけば、別条件で取得されたデータセットの解析にも転用できる。
 さらには、モデル関数の作成の基礎としたデータセットとは異なる種類の検査によって得られたデータセットの解析にも応用できる。例えば、出生前遺伝学的検査に関するデータセットに基づいて作成したモデル関数は、癌検査や移植臓器の定着のモニタリングにおいて取得されたデータセットの解析に転用することができる。
 なお、モデル関数の作成のために用いた、線形結合に供した数値群に含まれる数値の種類及びその個数と、モデル関数への入力値とする合成変数を生成するための線形結合に供した数値群に含まれる数値の種類及びその個数は、一致していることが好ましい。
 以上、合成変数と信頼性値との相関関係に基づくモデル関数の作成方法について説明したが、本発明はこれに留まらず、別の指標を説明変数とする信頼性値を算出するためのモデル関数を提供することができる。本発明は、後述するモデル関数f2(x2)、f3(x3)を作成する方法にも関する。以下、それぞれのモデル関数を作成する方法について詳述する。
 まずモデル関数f2(x2)を作成する方法について説明する。この方法は、工程A-1、工程A-3-2及び工程A-4-2を備える。工程A-1の内容については上述した通りである。以下、工程A-3-2及び工程A-4-2について説明する。
[工程A-3-2]
 工程A-3-2においては、まず上述の(A1)副次成分信号強度を複数に区分する。つまり、(A1)副次成分信号強度をその数値の大きさに応じて複数に区分する。
 区分の方法は特に制限されない。副次成分信号強度の大きさに応じて等間隔に区分をしてもよいが、各区分の全てに副次成分信号強度が包含されるように区分することが好ましい。さらに好ましい形態では、副次成分信号強度の大きさに応じて直線的に区分をするのではなく、指数的に区分をすることが好ましい。なぜならば、副次成分信号強度と信頼性値を曲線回帰するとシグモイド曲線となるからである。
 区分の数は限定されないが、好ましくは3区分以上、より好ましくは5区分以上、さらに好ましくは7区分以上、さらに好ましくは10区分以上、さらに好ましくは12区分以上、さらに好ましくは15区分以上、さらに好ましくは18区分以上に分ける。
 次に、各区分に含まれる副次成分信号強度に対応する副次成分信号強度のうちこれが真であった割合を求める。つまり、各区分に含まれる全ての副次成分信号強度の数値のうち、真であった副次成分信号強度の割合を求める。本明細書においては、この割合を「確率」と呼ぶ。
 なお、副次成分信号強度は、副次核酸における当該多型座位に存在する特定のアレルの存在を示唆するものである。この副次成分信号強度による示唆通り、実際に副次核酸に当該特定のアレルが存在する場合には、これを「真」とする。
 副次成分信号強度の各区分における確率を求めた後、これを各区分に含まれる副次成分信号強度に対応する確率として付与する。具体的には、各区分を代表する一の副次成分信号強度の値に当該区分における確率を割り当てる。この工程により、副次成分信号強度と確率の散布図が作成可能な状態となる。
[工程A-4-2]
 工程A-4-2においては、上述した各区分に含まれる副次成分信号強度と、各区分に含まれる副次成分信号強度に対応する確率について回帰分析を行う。これにより副次成分信号強度を説明変数x2、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数f2(x2)を求める。工程A-4-2における回帰分析の手法は特に限定されないが、最小二乗法が好ましく例示できる。
 モデル関数f2(x2)はシグモイド関数となり、以下の式2で表すことができる。
Figure JPOXMLDOC01-appb-M000026
 上述の方法により取得したモデル関数f2(x2)は極めて汎用性が高く、いったん本発明の方法によりモデル関数f2(x2)を作成しておけば、別条件で取得されたデータセットの解析にも転用できる。また、モデル関数f2(x2)の作成の基礎としたデータセットとは異なる種類の検査によって得られたデータセットの解析にも応用できる。
 式2中、A2は好ましくは1.8~2.0であり、より好ましくは1.9である。また、x02は好ましくは2.5~2.7であり、より好ましくは2.6である。なお、小数点第2位を四捨五入したときに上記数値に該当するものは、ここで規定した数値範囲内に含まれるものとする。
 次にモデル関数f3(x3)を作成する方法について説明する。この方法は以下の工程A-3-3及び工程A-4-3を備える。
[工程A-3-3]
 工程A-3-3においては、まず上述の(A2)副次成分混入率を複数に区分する。つまり、(A2)副次成分混入率をその数値の大きさに応じて複数に区分する。 区分の方法は特に制限されない。副次成分混入率の大きさに応じて等間隔に区分をしてもよいが、各区分の全てに副次成分混入率が包含されるように区分することが好ましい。
 さらに好ましい形態では、副次成分混入率の大きさに応じて直線的に区分をするのではなく、指数的に区分をすることが好ましい。なぜならば、副次成分混入率と確率を曲線回帰するとシグモイド曲線となるからである。
 区分の数は限定されないが、好ましくは3区分以上、より好ましくは5区分以上、さらに好ましくは7区分以上、さらに好ましくは10区分以上、さらに好ましくは12区分以上、さらに好ましくは15区分以上、さらに好ましくは18区分以上に分ける。
 次に、各区分に含まれる副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合を求める。つまり、各区分に含まれる全ての副次成分混入率の数値のうち、真であった副次成分混入率の割合を求める。本明細書においては、この割合を「確率」と呼ぶ。
 なお、副次成分混入率はその算出根拠として副次成分信号強度を含むが、この副次核酸における当該多型座位に存在する特定のアレルの存在を示唆するものである。この副次成分混入率の算出根拠である副次核酸信号強度による示唆通り、実際に副次核酸に当該特定のアレルが存在する場合には、これを「真」とする。
 副次成分混入率の各区分における確率を求めた後、これを各区分に含まれる副次各成分混入率に対応する確率として付与する。具体的には、各区分を代表する一の副次成分混入率の値に当該区分における確率を割り当てる。この工程により、副次成分混入率と信頼性値の散布図が作成可能な状態となる。
[工程A-4-3]
 工程A-4-3においては、上述した各区分に含まれる副次成分混入率と、各区分に含まれる副次成分混入率に対応する確率について回帰分析を行う。これにより副次成分混入率を説明変数x3、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数f3(x3)を求める。工程A-4-3における回帰分析の手法は特に限定されないが、最小二乗法が好ましく例示できる。
 モデル関数f3(x3)はシグモイド関数となり、以下の式3で表すことができる。
Figure JPOXMLDOC01-appb-M000027
 式3中、A3は好ましくは9.3~9.5であり、より好ましくは9.4である。また、x03は好ましくは0.5~0.7であり、より好ましくは0.6である。なお、小数点第2位を四捨五入したときに上記数値に該当するものは、ここで規定した数値範囲内に含まれるものとする。
 上述した複数のモデル関数はそれぞれ単独でデータセットに含まれる副次成分信号強度の信頼性を評価するのに有用である。しかし、作成した複数のモデル関数を互いに乗じることで、より有用なモデル関数を作成することができる。
 例えば、工程A-2において、2つ以上の合成変数を生成し、工程A-3-1において、その2つ以上の合成変数のそれぞれについて、信頼性値の付与を行う。次いで工程A-4-1において、2つ以上の合成変数のそれぞれを説明変数とする互いに独立した2以上のモデル関数を作成する。この2以上のモデル関数を互いに乗じることで、乗算で表されるモデル関数を作成する実施の形態としても構わない。
 また、以下の3つのモデル関数から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成してもよい。本発明の好ましい形態では、以下の3つのモデル関数の全てを互いに乗じて、乗算により表されるモデル関数を作成してもよい。
 ・工程A-1、工程A-2、工程A-3-1及び工程A-4-1によって作成したモデル関数
 ・工程A-1、工程A-3-2及び工程A-4-2によって作成したモデル関数
 ・工程A-1、工程A-3-3及び工程A-4-3によって作成したモデル関数
 本発明の好ましい実施の形態では、以下の式4に示すように、上述したモデル関数f1(x1)、モデル関数f2(x2)、モデル関数f3(3)を互いに乗じて作成したモデル関数を用いる。
Figure JPOXMLDOC01-appb-M000028
<1-2>出生前遺伝学的検査
 次いで出生前遺伝学的検査より得られたデータセットからモデル関数の作成を行う実施形態について説明する。なお、「<1-1>概要」の項目において説明した事項は本実施形態にも妥当する。そのため、説明が重複する部分については適宜省略しながら本実施形態について説明する。
 本実施形態においては、主要寄与体には母親、副次寄与体には母親の胎内にいる胎児、混合核酸サンプルには母親から採取された循環無細胞核酸サンプルが該当する。
 「<1-1>概要」の項目において説明した工程A-1、工程A-2、工程A-3-1及び工程A-4-1は、本実施形態における工程A-1、工程A-2、工程A-3-1及び工程A-4-1に相当する。以下、各工程について説明する。
[工程A-1]
 工程A-1は、循環無細胞核酸サンプルの測定により得られるデータセットを用意する工程である。循環無細胞核酸サンプルには、母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸が含まれている。通常、循環無細胞核酸サンプルには、主要核酸が副次核酸よりも多く含まれる。一方、妊娠後期にはその含有比率が逆転することもある。
 このデータセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。多型座位としては、ヒト個人識別(Human Identification,HID)で用いられる一塩基多型(SNPs)のある座位が好ましく挙げられる。HIDで用いられる既知のSNPsはデータベース化されており、これらのSNPsのある多型座位を任意に選択することができる。
 なお、各アレルの存在を示す信号の真偽は既知であることが必要である。信号の真偽を既知の状態とする手段としては、出生後の子について確定的な遺伝子検査を行う方法が挙げられる。また、実父と母親について確定的な遺伝子検査を行った結果、ある多型座位において父母共にホモ接合として同型又は異型のアレルを有している場合には、当該多型座位における胎児のアレル型を確定的に特定することができる。
[工程A―2]
 工程A-2は、データセットに含まれるデータのうち、複数の多型座位の中で、母親においてホモ接合であり、父親においてホモ接合であり、かつ、主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)の数値について、線形結合を行う工程である。
 母親においてホモ接合であり、父親においてホモ接合である多型座位に絞っているため、主要成分信号強度と副次成分信号強度の両方に母親ゲノムDNA由来の信号が寄与することはあり得ない。
[工程A-3-1]
 工程A-3-1は、線形結合により生成した合成変数に信頼性値を割り当てる工程であり、上述した工程A-3-1の説明内容が全て妥当する。なお、副次成分信号強度の真偽については以下の通り判別する。
 母親においてホモ接合であり、父親(実父)においてホモ接合であり、かつ、母親と父親とで異型であるアレルについては、父親由来のアレルに起因する副次成分信号が、母親がホモ接合で有するアレルとは区別されて検出されるはずである。
 したがって、前記アレルについて、主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を真とする。
 また、前記アレルについて、主要成分信号と区別されて副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。これは、副次成分信号が非検出であったという結果が偽であるということである。
 一方、母親においてホモ接合であり、父親(実父)においてホモ接合であり、かつ、母親と父親とで同型であるアレルについては、父親由来のアレルは母親がホモ接合で有するアレルと区別して検出することはできない。
 したがって、前記アレルについて主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を偽とする。
 また、主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を真とする。これは、副次成分信号が非検出であったという結果が真であるということである。
[工程A-4-1]
 工程A-4-1はモデル関数を求める工程であり、上述した工程A-4-1の説明内容が全て妥当する。
 また、当然ながら本実施形態においても、副次成分信号強度を説明変数x2とするモデル関数f2(x2)、副次成分混入率を説明変数x3とするモデル関数f3(x3)を求めることが好ましい。本実施形態においてモデル関数を求める具体的態様は、上述した工程A-4-2及び工程A-4-3に関する説明が妥当する。
 また、本実施形態においても、作成した複数のモデル関数を互いに乗じて、乗算で表されるモデル関数を作成してもよい。その具体的な実施形態は上述した通りである。
<1-3>癌検査
 次いで癌検査より得られたデータセットからモデル関数の作成を行う実施形態について説明する。なお、「<1-1>概要」の項目において説明した事項は本実施形態にも妥当する。そのため、説明が重複する部分については適宜省略しながら本実施形態について説明する。
 本実施形態においては、主要寄与体は癌に関連する変異が観察される多型座位において正常型のアレルを有する健常人、副次寄与体は癌細胞が該当する。
 なお、本実施形態において、混合核酸サンプルは、健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する変異が導入された多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸をスパイク(添加)することで人工的に調製したものである。
 より具体的には、健常人から採取された循環無細胞核酸サンプルに、癌に関連する変異型のアレルの配列を含む核酸断片をスパイクして人工的に調製した混合核酸サンプルが好ましく挙げられる。
 混合核酸サンプルは、健常人より採取した核酸サンプルに、人工的に合成した核酸断片をスパイクすることで調製してもよい。
 また、健常人より採取した核酸サンプルに、癌細胞株若しくは癌組織、又はその核酸抽出物をスパイクすることで混合核酸サンプルを調製してもよい。
 混合核酸サンプルは、癌検査の検査対象者の循環無細胞核酸サンプルを模したものである。混合核酸サンプルにおける主要核酸と副次核酸の混合比率は特に制限されないが、混合核酸サンプルには、主要核酸が副次核酸よりも多く含まれるように調整することが好ましい。言い換えると、副次核酸における特定の座位に起因する信号が、主要核酸における当該座位に起因する信号よりも小さくなるように、副次核酸をスパイクすることが好ましい。
 したがって、スパイクする副次核酸は主要核酸に対して、遺伝子のコピー数として好ましくは50%未満、より好ましくは40%以下、さらに好ましくは30%以下、さらに好ましくは20%以下、さらに好ましくは10%以下とする。
 スパイクする核酸断片は、癌に関連する変異が含まれていればその断片長は特に制限されないが、好ましくは50~500bp、より好ましくは100~300bp、さらに好ましくは120~200bpのものが好適に例示できる。
 癌に関連する変異、特に一塩基置換変異が観察される多型座位は多数知られており、これらはデータベース化されている。スパイクする核酸断片としては、これら既知の癌関連一塩基置換変異のうちから任意のものを複数選択することができる。
 「<1-1>概要」の項目において説明した工程A-1、工程A-2、工程A-3-1及び工程A-4-1は、本実施形態における工程A-1、工程A-2、工程A-3-1及び工程A-4-1に相当する。以下、各工程について説明する。
[工程A-1]
 工程A-1は、上述した副次核酸がスパイクされた混合核酸サンプルの測定により得られるデータを含むデータセットを用意する工程である。
 なお、工程A-1において用意するデータセットには、副次核酸がスパイクされておらず主要核酸のみを含む核酸サンプルの測定により得られるデータも含まれていてもよい。
 このデータセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。多型座位としては、癌に関連することが知られている一塩基多型(SNPs)のある座位が好ましく挙げられる。癌に関連するSNPsはデータベース化されており、これらのSNPsのある多型座位を任意に選択することができる。
[工程A-2]
 前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)の数値について、線形結合を行う工程である。
[工程A-3-1]
 工程A-3-1は、線形結合により得られた合成変数に信頼性値を割り当てる工程であり、上述した工程A-3-1の説明内容が全て妥当する。なお、副次成分信号強度の真偽については以下の通り判別する。
 前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルにスパイクした場合には、該核酸断片について副次成分信号が検出されるはずである。
 したがって、この場合、該核酸断片について副次成分信号が検出された場合、当該副次成分信号は真とする。
 また、該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。これは、副次成分信号が非検出であったという結果が真であるということである。
 一方、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合には、該核酸断片について副次成分信号は検出されないはずである。
 したがって、この場合、該核酸断片について副次成分信号が検出されたとき、当該副次成分信号は偽とする。
 また、この場合、該核酸断片について副次成分信号が検出されなかったとき、当該副次成分信号は真とする。これは、副次成分信号が非検出であったという結果が真であるということである。
[工程A-4-1]
 工程A-4-1はモデル関数を求める工程であり、上述した工程A-4-1の説明内容が全て妥当する。
 また、当然ながら本実施形態においても、副次成分信号強度を説明変数x2とするモデル関数f2(x2)、副次成分混入率を説明変数x2とするモデル関数f2(x2)を求めることが好ましい。本実施形態においてモデル関数を求める具体的態様は、上述した工程A-4-2及び工程A-4-3に関する説明が妥当する。
 また、本実施形態においても、作成した複数のモデル関数を互いに乗じて、乗算で表されるモデル関数を作成してもよい。その具体的な実施形態は上述した通りである。
 また、癌検査より得られたデータセットからモデル関数の作成を行う別の実施形態について説明する。本実施形態の特徴は、単一の多型座位に関するデータに基づきモデル関数の作成を行う点にある。
 具体的には、以下の工程A´-1、工程A´-2及び上述の工程A-3-1及び工程A-4-1を含む。以下詳述するが、上述した他の実施形態についての説明が妥当する事項については説明を省略する。
[工程A´-1]
 工程A´-1は、上述した副次核酸が互いに異なる含有割合でスパイクされた複数の混合核酸サンプルの測定により得られるデータセットを用意する工程である。工程A-1との違いは、副次核酸が互いに異なる含有割合でスパイクされた複数の混合核酸サンプルを用意する点にある。
 また、上述した工程A-1は複数の多型座位に関するデータが含まれる一方、工程A2´-1のデータセットにおいては、主要核酸及び副次核酸における、単一の多型座位における各アレルの存在を示す信号が含まれていればよい点でも相違する。
 つまり、工程A´-1は、単一の多型座位に関するデータを用意すればよい一方、副次核酸の含有割合が互いに異なる複数の混合核酸サンプルに関するデータを用意する点に特徴がある。
[工程A´-2]
 工程A´-2は、データセットに含まれるデータのうち、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された単一の多型座位に関する、少なくとも以下の(A1´)及び(A2´)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
  (A1´)前記副次核酸に由来する前記単一の多型座位のアレルの存在を示す副次成分信号強度。
  (A2´)前記単一の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
 なお、(A1´)と(A2´)は、工程A´-1で用意するデータが単一の多型座位に関するデータであることから表現上の差異が生じているに過ぎず、その本質は上で説明した(A1)と(A2)と同一である。
 続く工程A-3-1及び工程A-4-1は上述した通りであるため、詳細な説明は省略する。
 なお、工程A´-1、工程A´-2及び上述の工程A-3-1及び工程A-4-1を含む実施形態は、検量線を作成する一般的な手法が無いマイクロアレイやデジタルPCR、塩基配列決定手段(特に次世代シーケンサー)により取得されたデータからモデル関数を作成する場合に有用である。
<1-4>移植臓器の定着のモニタリング
 次いで移植臓器の定着のモニタリングより得られたデータセットからモデル関数の作成を行う実施形態について説明する。なお、「<1-1>概要」の項目において説明した事項は本実施形態にも妥当する。そのため、説明が重複する部分については適宜省略しながら本実施形態について説明する。
 本実施形態においては、主要寄与体が臓器移植のレシピエント、副次寄与体がドナーから移植される移植臓器に該当する。
 本実施形態における混合核酸サンプルは、レシピエントに関する遺伝情報を含む主要核酸と、移植臓器に関する遺伝情報を含む副次核酸を含む。混合核酸サンプルにおいては、主要核酸が副次核酸よりも多く含まれる。なお当然のことながら移植臓器に関する遺伝情報はドナーに関する遺伝情報と一致する。
 なお、混合核酸サンプルは、移植後のレシピエントから取得したサンプル、具体的には循環無細胞核酸サンプルであってもよい。
 または、レシピエントから取得したレシピエント由来の主要核酸と、ドナー又は移植臓器から取得したドナー由来の副次核酸を人工的に混合することで調製してもよい。この場合、主要核酸に起因する信号が副次核酸に起因する信号よりも強く検出されるように、主要核酸に対して副次核酸をコピー数として好ましくは50%未満、より好ましくは40%以下、さらに好ましくは30%以下、さらに好ましくは20%以下、さらに好ましくは10%以下の割合で混合する。
 「<1-1>概要」の項目において説明した工程A-1、工程A-2、工程A-3-1及び工程A-4-1は、本実施形態における工程A-1、工程A-2、工程A-3-1及び工程A-4-1に相当する。以下、各工程について説明する。
[工程A-1]
 工程A-1は、上述した混合核酸サンプルの測定により得られるデータセットを用意する工程である。
 このデータセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。多型座位としては、ヒト個人識別(Human Identification,HID)で用いられる一塩基多型(SNPs)のある座位が好ましく挙げられる。HIDで用いられる既知のSNPsはデータベース化されており、これらのSNPsのある多型座位を任意に選択することができる。
 なお、各アレルの存在を示す信号の真偽は既知であることが必要である。信号の真偽を既知の状態とする手段としては、レシピエントとドナーそれぞれのゲノムDNAを解析することでそれぞれの遺伝型を特定する方法が挙げられる。これによりレシピエントとドナーの双方が有していないアレルの存在を示す信号が得られた場合には、これが偽であると判別できる。
 また、レシピエントから取得したレシピエント由来の主要核酸と、ドナー又は移植臓器から取得したドナー由来の副次核酸を人工的に混合することで調製した混合核酸サンプルについてのデータセットであれば、レシピエントが有しておらず、ドナーがヘテロ接合又はホモ接合として有しているアレルの存在を示す信号が得られたとき、これを真であると判別することができる。
 工程A-1で用意するデータセットに、レシピエントの遺伝情報を有する主要核酸のみを含む核酸サンプルに関するデータを含めることも有用である。当該核酸サンプルにはドナーに由来する副次核酸が含まれていないため、レシピエントが有していないがドナーが有しているアレルの存在を示す信号が得られたとき、これを偽であると判別することができる。
[工程A-2]
 工程A-2は、データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)の数値について、線形結合を行う工程である。
 具体的には、ある多型座位において、レシピエントが特定のアレルをホモ接合として有している場合には、当該特定のアレル以外の別のアレルの存在を示す副次成分信号強度には、レシピエントのアレルに起因する信号が混じることはあり得ない。この場合には、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号は区別して検出される。
[工程A-3-1]
 工程A-3-1は線形結合により生成された合成変数に信頼性値を割り当てる工程であり、上述した工程A-3-1の説明内容が全て妥当する。なお、副次成分信号強度の真偽については以下の通り判別する。
 レシピエントが有していないアレルであって、かつ、ドナーがホモ接合若しくはヘテロ接合で有しているアレルについては、レシピエントが有するアレルと区別されてドナーが有しているアレルに由来する副次成分信号が検出されるはずである。
 したがって、前記アレルについて、主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を真とする。
 また、前記アレルについて、主要成分信号と区別されて副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。これは、副次成分信号が非検出であったという結果が偽であるということである。
 一方、レシピエント及びドナーの何れもが有していないアレルについては、レシピエントが有するアレルと区別されて副次成分信号が検出されることは無い。
 したがって、前記アレルについて、主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を偽とする。
 また、前記アレルについて、主要成分信号と区別されて副次成分信号が検出されなかった場合、当該副次成分信号を真とする。これは、副次成分信号が非検出であったという結果が真であるということである。
[工程A-4-1]
 工程A-4-1はモデル関数を求める工程であり、上述した工程A-4-1の説明内容が全て妥当する。
 また、当然ながら本実施形態においても、副次成分信号強度を説明変数x2とするモデル関数f2(x2)、副次成分混入率を説明変数x3とするモデル関数f3(x3)を求めることが好ましい。本実施形態においてモデル関数を求める具体的態様は、上述した工程A-4-2及び工程A-4-3に関する説明が妥当する。
 また、本実施形態においても、作成した複数のモデル関数を互いに乗じて、乗算で表されるモデル関数を作成してもよい。その具体的な実施形態は上述した通りである。
<2>信頼性の算出方法
 本発明は信頼性の算出方法にも関する。以下、本発明の信頼性の算出方法の具体的な実施態様について説明する。なお、上述したモデル関数の作成方法の説明の内容のうち本発明の信頼性の算出方法の説明に妥当する部分については適宜省略する。
 本発明の信頼性の算出方法は、モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法である。ここでいうモデル関数とは、上述の方法で求めたモデル関数、式1~3の何れかのモデル関数、又は式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数が挙げられる。
 モデル関数に入力すべき数値は、それぞれのモデル関数において説明変数とされているものである。具体的には、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値を説明変数としてモデル関数に入力する。
 本発明の信頼性の算出方法は以下の工程B-1を備える。また、モデル関数に入力すべき数値が合成変数である場合には、以下の工程B-2によって合成変数を生成する。
 以下、工程B-1、工程B-2及び工程B-3-1を備える実施形態について説明する。
[工程B-1]
 工程B-1は、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とを含む混合核酸サンプルの測定により得られるデータセットを用意する工程である。当該混合核酸サンプルには、主要核酸が副次核酸よりも多く含まれる。そして、当該データセットには、主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。
 前記データセットの取得方法は特に限定されない。後述する分析手段を利用して一次的に取得しても構わないし、第三者が一次的に取得したものを二次的に取得しても構わない。
 データセットは、多型座位における各アレルを区別して検出できる分析手段によって得られたものであれば特に限定されない。当該分析手段としては、好ましくは多型座位における一塩基置換(SNPs)を区別して検出できる分析手段が挙げられる。
 分析手段としては、例えば、SNPsの検出に使用される次世代シーケンサーや、デジタルPCR、マイクロアレイ、マルチプレキシングPCR、質量分析などが挙げられる。これらの具体的な内容については「<1>モデル関数の作成方法」の項目で説明した通りである。
 混合核酸サンプルの種類も限定されない。例えば、出生前遺伝学的検査のために取得された妊婦の血液等から取得された循環無細胞核酸サンプル(cfDNA、cfRNA)や、癌検査のために取得された検査対象者の血液等から取得された循環無細胞核酸サンプル(cfDNA、cfRNA)や、移植臓器の定着のモニタリングのために取得されたレシピエントの血液等から取得された循環無細胞核酸サンプル(cfDNA、cfRNA)が好ましく挙げられる。
 なお、本発明の信頼性の算出方法におけるデータセットには、複数の多型座位における各アレルの存在を示す信号が含まれるが、この「複数の多型座位」は、モデル関数の作成の基礎として使用された「複数の多型座位」と同一である必要は無く、その重複度も限定は無い。
 当該重複度は、モデル関数の作成の基礎として使用された「複数の多型座位」を基準として、好ましくは80%以下であってもよいし、より好ましくは70%以下であってもよいし、さらに好ましくは60%以下であってもよいし、さらに好ましくは50%以下であってもよい。
 また、当該重複度は、モデル関数の作成の基礎として使用された「複数の多型座位」を基準として、0%であってもよいし、好ましくは10%以上であってもよいし、さらに好ましくは20%以上であってもよいし、さらに好ましくは30%以上であってもよいし、さらに好ましくは40%以上であってもよい。
[工程B―2]
 工程B-2は、前記データセットに含まれるデータのうち、複数の多型座位の中で、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
 (B1)は副次成分信号強度である。副次成分信号強度とは、副次核酸に由来する、特定の多型座位のアレルの存在を示す信号の強度である。その定義や具体的態様については上記(A1)に関する説明がそのまま妥当する。
 (B2)は副次成分混入率である。副次成分混入率とは、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である。つまり、「副次成分混入率=副次成分信号強度/信号強度総和」という数式で表すことができる。その定義や具体的態様については上記(A2)に関する説明がそのまま妥当する。
 工程B-2において線形結合の対象となる数値群には、上述の(B1)及び(B2)以外の数値が含まれていてもよい。つまり、特定の多型座位に関する(B1)及び(B2)の他、当該特定の多型座位に関する種々の測定値ないし算出値を含む数値群に対して線形結合を行う。
 以下に線形結合の対象となる数値群に含めてもよい数値(B3)~(B5)について説明を加える。なお、以下に掲げる(B3)~(B5)から選ばれる1種のみを前記数値群に含めてもよいし、任意に選択された2種以上の数値を前記数値群に含めてもよい。また、(B3)~(B5)の全てを前記数値群に含めてもよい。
 (B3)は主要成分信号強度である。主要成分信号強度とは、主要核酸に由来する、特定の多型座位の一のアレルの存在を示す信号の強度である。その定義や具体的態様については上記(A3)に関する説明がそのまま妥当する。
 (B4)は主要成分混入率である。主要成分混入率とは、特定の多型座位のアレルに起因する信号強度総和に対する主要成分信号強度の割合である。つまり、「主要成分混入率=主要成分信号強度/信号強度総和」という数式で表すことができる。その定義や具体的態様については上記(A1)に関する説明がそのまま妥当する。
 (B5)はノイズである。その定義や具体的態様については上記(A1)に関する説明がそのまま妥当する。
 上述の通り工程B-1で用意するデータセットは複数の多型座位に関するデータの集合である。そのため、いうまでもないが、工程B-1で用意するデータセットには、特定の多型座位に関する上記(B1)及び(B2)並びに他の数値データを一組とするデータが複数組含まれることになる。
 なお、線形接合の対象となる数値群に含まれる数値データは標準化されていることが好ましい。「標準化」とは周知の通り、複数あるデータの平均をゼロ、分散が1になるように変換することであり、「基準化」や「正規化」と呼ばれることもある。標準化データは以下の式で求めることができる。
  標準化データ=[(元データ)-(平均値)]/(標本標準偏差)
 「主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位」とは、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号が混在していない多型座位をいう。
 例えば、出生前遺伝学的検査の場合、ある特定の多型座位において、母親がアレルAとアレルBをヘテロ接合として有している場合には、父親の遺伝型の如何に関わらず、cfDNAの解析の結果、母親のゲノムDNAに由来するアレルAとアレルBの信号が必ず検出されてしまう。アレルAとアレルBの信号の何れかには、胎児のcffDNAに起因する信号が混じっているはずであるが、これを母親のゲノムDNAに由来する信号と区別することができない。このようなデータは本発明の分析対象から除外する。
 また、癌検査の場合、検査対象者が先天的に癌に関連する変異をホモ接合又はヘテロ接合として有していた場合、当該変異は必ずctDNAにも含まれるため、検査対象由来の信号と癌細胞由来の信号とが混じることになる。このようなデータは本発明の分析対象から除外する。
 また、移植臓器の定着のモニタリングの場合、ある特定の多型座位において、レシピエントがアレルAとアレルBをヘテロ接合として有している場合には、ドナーの遺伝型の如何に関わらず、cfDNAの解析の結果、レシピエントのゲノムDNAに由来するアレルAとアレルBの信号が必ず検出されてしまう。アレルAとアレルBの信号の何れかには、ドナーのcffDNAに起因する信号が混じっているはずであるが、これをレシピエントのゲノムDNAに由来する信号と区別することができない。このようなデータは本発明の分析対象から除外する。
 以上のことから工程B-2においては、データ解析の対象とする多型座位を「主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位」に限定している。工程B-2の解析対象とする多型座位は、副次核酸に由来するアレルの存在を示す信号に、主要核酸に由来するアレルの存在を示す信号が混じっている可能性が無い多型座位と言い換えてもよい。
 工程B-2では上述した数値群を対象として線形結合させて1つ以上の合成変数を生成する。線形結合の手段としては主成分分析が好ましく例示できる。なお、別手段で生成した合成変数であっても構わない。別手段で生成する合成変数であっても、これが主成分分析で生成し得る合成変数であることが好ましい。
 生成できる合成変数の数は、線形結合の対象となる数値群に含まれる数値の種類が多いほど増加する。工程B-2で生成する合成変数の数は特に限定されない。
 以上のようにして得た数値をモデル関数に入力することで信頼性値を算出する工程が、以下の工程B-3-1~工程B-3-4である。
[工程B-3-1]
 工程B-3-1は、工程B-2における線形結合により生成した合成変数を、その合成変数を説明変数、信頼性値を目的変数とする上述したモデル関数に入力し、信頼性値を算出する工程である。なお、モデル関数の作成のために用いた、線形結合に供した数値群に含まれる数値の種類及びその個数と、モデル関数への入力値とする合成変数を生成するための線形結合に供した数値群に含まれる数値の種類及びその個数は、一致していることが好ましい。
 また、本発明は、上述の工程B-1及び以下の工程B-3-2を含むことを特徴とする、信頼性値の算出方法にも関する。
[工程B-3-2]
 工程B-3-2は、前記(B1)の副次成分信号強度を、上述したモデル関数f2(x2)に入力し、信頼性値を算出する工程である。データセットに一次的に含まれる副次成分信号強度をモデル関数f2(x2)に入力するという操作で簡便にデータの信頼性値を算出することができる。
 また、本発明は、上述の工程B-1及び以下の工程B-3-3を含むことを特徴とする、信頼性値の算出方法にも関する。
[工程B-3-3]
 工程B-3-3は、前記(B2)の前記副次成分混入率を、上述したモデル関数f3(x3)に入力し、信頼性値を算出する工程である。副次成分混入率をモデル関数f3(x3)に入力するという操作で簡便にデータの信頼性値を算出することができる。
 また、本発明は上述の工程B-1及び下記工程B-3´を備えることを特徴とする、信頼性値の算出方法にも関する。
[工程B-3´]
 工程B-3´は、以下の3種の数値から選ばれる変数を、その変数を説明変数とし、かつ、信頼性値を目的変数とする、乗算で表されるモデル関数に入力して、信頼性値を算出する工程である。
  (i)上記工程B-2で生成した合成変数。
  (ii)前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
  (iii)前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
 なお、ここでいう乗算で表されるモデル関数とは、上述した通り以下の3つのモデル関数から選択される2以上のモデル関数を互いに乗じることで、乗算で表されるモデル関数である。
 ・工程A-1、工程A-2、工程A-3-1及び工程A-4-1によって作成したモデル関数
 ・工程A-1、工程A-3-2及び工程A-4-2によって作成したモデル関数
 ・工程A-1、工程A-3-3及び工程A-4-3によって作成したモデル関数
 本発明の好ましい実施形態では、上記f1(x1)、f2(x2)、f3(x3)のそれぞれの説明変数に相当する変数を式4で表されるモデル関数に入力し、信頼性値を算出する。
 以下、本発明の信頼性値の算出方法の更に詳細な実施形態について説明する。具体的には、非侵襲的出生前親子鑑定、癌検査、移植臓器の定着のモニタリング、そして疾患リスクを評価する非侵襲的出生前検査の順に説明する。
<2-1>非侵襲的出生前親子鑑定のために信頼性値を算出する方法
 まず、非侵襲的出生前親子鑑定のために信頼性値を算出する方法について説明する。本項目においては上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
 本実施形態においては、主要寄与体が母親、副次寄与体が母親の胎内にいる胎児、混合核酸サンプルが母親から採取された循環無細胞核酸サンプルに相当する。
 そして、上で説明した工程B-1、工程B-2及び工程B-3-1は、それぞれ以下に説明する工程B-1、工程B-2及び工程B-3-1に相当する。
[工程B-1]
 工程B-1は、母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットは、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットである。
 ここでいう前記複数の多型座位は、ヒト個人識別(HID)で用いられる多型座位であることが好ましい。
[工程B―2]
 工程B―2は、データセットに含まれるデータのうち、複数の多型座位の中で、母親においてホモ接合であり、かつ、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。なお、擬父における前記多型座位の遺伝型は、ホモ接合であってもヘテロ接合であってもよい。
[工程B-3-1]
 工程B-3-1は、工程B-2で生成した合成変数を、その合成変数を説明変数とするモデル関数に入力し、信頼性値を算出する工程である。
<2-2>癌検査のために信頼性値を算出する方法
 次に癌検査のために信頼性値を算出する方法について説明する。本項目においても上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
 本実施形態においては、主要寄与体は検査対象者、副次寄与体は癌細胞、混合核酸サンプルは検査対象者から採取された循環無細胞核酸サンプルに相当する。 また、上記工程B-1、工程B-2及び工程B-3-1は、それぞれ下で説明する工程B2-1、工程B-2及び工程B-3-1に相当する。
[工程B-1]
 工程B-1は、検査対象者に関する遺伝情報を含む主要核酸を含み、癌細胞に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、癌に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程である。
 ここで「副次核酸を含み得る」とは、循環無細胞核酸サンプルに副次核酸が含まれる可能性を完全に否定できない状況のことをいう。
[工程B―2]
 工程B―2は、データセットに含まれるデータのうち、複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
 正常型のアリルとは癌に罹患していない健常人において通常みられるアレルのことであり、変異型のアリルとは癌に関連があるとされる変異が導入されたアリルのことをいう。
 工程B-2においては、前記データセットに含まれるデータから、前記複数の多型座位の中で、検査対象者において変異型のアリルをホモ接合又はヘテロ接合として有している多型座位に関するデータを除外することが好ましい。このように検査対象者において先天的に有している変異型アリルのある多型座位に関するデータを除くことによって、副次成分信号が、検査対象者自身に由来する主要成分信号と混ざって検出されたデータが除外される。これによって算出する信頼性値の精度が向上する。
[工程B-3-1]
 工程B-3-1は、工程B-2で生成した合成変数を、その合成変数を説明変数とするモデル関数に入力し、信頼性値を算出する工程である。
<2-3>移植臓器の定着のモニタリングのために信頼性値を算出する方法
 次に移植臓器の定着のモニタリングのために信頼性値を算出する方法について説明する。本項目においても上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
 本実施形態においては、主要寄与体は臓器移植のレシピエント、副次寄与体は移植臓器、混合核酸サンプルはレシピエントから採取された循環無細胞核酸サンプルに相当する。
 また、上述した工程B-1、工程B-2及び工程B-3-1は、それぞれ以下に説明する工程B-1、工程B-2及び工程B-3-1に相当する。
[工程B-1]
 工程B-1は、レシピエントに関する遺伝情報を含む主要核酸を含み、移植臓器に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。 ここでいう複数の多型座位は、ヒト個人識別(HID)で用いられる多型座位であることが好ましい。
[工程B-2]
 工程B-2は、データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存
在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び
前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
[工程B-3-1]
 工程B-3-1は、工程B-2で生成した合成変数を、その合成変数を説明変数と
するモデル関数に入力し、信頼性値を算出する工程である。
<2-4>疾患リスクを評価する非侵襲的出生前検査のために信頼性値を算出する方法
 次に疾患リスクを評価する非侵襲的出生前検査のために信頼性値を算出する方法について説明する。本項目においても上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
 本実施形態においては、主要寄与体が母親、副次寄与体が母親の胎内にいる胎児、混合核酸サンプルが母親から採取された循環無細胞核酸サンプルに相当する。
 そして、上で説明した工程B-1、工程B-2及び工程B-3-1は、それぞれ以下に説明する工程B-1、工程B-2及び工程B-3-1に相当する。
[工程B-1]
 工程B-1では、母親に関する遺伝情報を含む主要核酸と、母親の胎内にいる胎児に関する遺伝情報を含む副次核酸とを含む、前記母親から採取された循環無細胞核酸サンプルの測定により得られるデータセットを用意する。当該データセットには、主要核酸及び副次核酸における、疾患に関連する複数の多型座位における各アレルの存在を示す信号が含まれる。
[工程B―2]
 工程B―2では、まずデータセットに含まれるデータから、前記複数の多型座位の中で、母親において変異型のアリルをヘテロ接合として有している多型座位に関するデータを除外する。
 そして、除外後に残ったデータセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する。
[工程B-3-1]
 工程B-3-1は、前記工程B-2で生成した前記合成変数を、その合成変数を説明変数とするモデル関数に入力し、信頼性値を算出する工程である。
<3>除外条件の設定方法
 上述した信頼性値の算出方法によれば、データセットに含まれる副次核酸における特定の多型座位における特定のアレルの存在を示す信号の信頼性(Fidelity)を評価することができる。
 ただ、上述した信頼性値の算出方法は、副次核酸に由来する特定のアレルが混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が低く算出されてしまうケースがある。反対に副次核酸に由来する特定のアレルが混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が高く算出されてしまうケースがある。このような例外結果は、分析対象となるデータセットに外れ値が含まれていることに起因する。これらの例外結果を除外することができれば、より高精度に信頼性値の算出が可能となる。
 本発明の除外条件の設定方法は、モデル関数に入力すべき説明変数のデータを絞るため、データセットのうち除外すべきものを判定する除外条件を設定する方法に関する。本発明の除外条件の設定方法は、特に出生前遺伝学的検査に関するものである。
 具体的には、父母がそれぞれホモ接合で有している互いに異型の遺伝子座についての副次成分信号強度の信頼性値が、好ましくは0.8未満、より好ましくは0.9未満、さらに好ましくは0.99未満、さらに好ましくは0.999未満のものを除外するように、除外条件を設定することが好ましい。
 また、父母がそれぞれホモ接合で有している互いに同型の遺伝子座についての副次成分信号強度の信頼性値が、好ましくは0.2以上、より好ましくは0.1以上、さらに好ましくは0.01以上、さらに好ましくは0.001以上のものを除外するように、除外条件を設定することが好ましい。
 以下、本発明の除外条件の設定方法について実施形態ごとに説明を加える。
<3-1>除外条件の設定方法(実施形態1)
 本発明の除外条件の設定方法の一つの実施形態は、以下の工程C-1-1、工程C-2-1、工程C-3-1及び工程C-4-1を備える。本実施形態により設定する除外条件は、上述した移植臓器の定着のモニタリングのために信頼性値を算出する方法に適用することができる。
[工程C-1-1]
 工程C-1-1は、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットには、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットが含まれる。なお、前記信号の真偽は既知である。
 前記多型座位としては、ヒト個人識別(HID)で用いられる一塩基多型座位が好適に例示できる。
 なお、主要寄与体、副次寄与体、混合核酸サンプルは、以下の何れかに該当する。
 (i)前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである。
 (ii)前記主要寄与体がレシピエントであり、前記副次寄与体が前記移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。
[工程C-2-1]
 工程C-2-1は、工程C-1-1で用意したデータセットのうち特定の条件に当てはまる多型座位に関する数値を含む数値群を線形結合させて得られる合成変数のうち、最も寄与率が高い合成変数を生成する工程である。最も寄与率が高い合成変数とは、主成分分析を行う場合には第1主成分が該当する。
 工程C-2-1では、母親においてホモ接合であり、父親においてホモ接合であり、かつ、母親と父親とで異型であるアレル、または、レシピエントにおいてホモ接合であり、
移植臓器のドナーにおいてホモ接合であり、かつ、レシピエントとドナーとで異型であるアレルの存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群について線形結合を行う。
 (C1)は副次成分信号強度である。副次成分信号強度とは、副次核酸に由来する、特定の多型座位のアレルの存在を示す信号の強度である。その定義や具体的態様については上記(A1)に関する説明がそのまま妥当する。
 (C2)は副次成分混入率である。副次成分混入率とは、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である。つまり、「副次成分混入率=副次成分信号強度/信号強度総和」という数式で表すことができる。その定義や具体的態様については上記(A2)に関する説明がそのまま妥当する。
 (C3)はノイズである。ノイズは、特定の多型座位のアレルに起因する信号強度総和から、主要成分信号強度及び副次成分信号強度を差し引いて求められる数値である。その定義や具体的態様については上記(A5)に関する説明がそのまま妥当する。
 工程C-2-1において線形結合の対象となる数値群には、上述の(C1)、(C2)及び(C3)以外の数値が含まれていてもよい。つまり、特定の多型座位に関する(C1)、(C2)及び(C3)の他、当該特定の多型座位に関する種々の測定値ないし算出値を含む数値群に対して線形結合を行う。
 以下に線形結合の対象となる数値群に含めてもよい数値(C4)~(C5)について説明を加える。なお、以下に掲げる(C4)~(C5)から選ばれる1種のみを前記数値群に含めてもよいし、任意に選択された2種以上の数値を前記数値群に含めてもよい。また、(C4)~(C5)の全てを前記数値群に含めてもよい。
 (C4)は主要成分信号強度である。主要成分信号強度とは、主要核酸に由来する、特定の多型座位の一のアレルの存在を示す信号の強度である。その定義や具体的態様については上記(A3)に関する説明がそのまま妥当する。
 (C5)は主要成分混入率である。主要成分混入率とは、特定の多型座位のアレルに起因する信号強度総和に対する主要成分信号強度の割合である。つまり、「主要成分混入率=主要成分信号強度/信号強度総和」という数式で表すことができる。その定義や具体的態様については上記(A1)に関する説明がそのまま妥当する。
 ここで、データセットは複数の多型座位に関するデータの集合である。そのため、いうまでもないが、当該データセットには、特定の多型座位に関する上記(C1-1)~(C5-1)の数値データを一組とするデータが複数組含まれることになる。
 なお、線形接合の対象となる数値群に含まれる数値データは標準化されていることが好ましい。
 なお、モデル関数の作成のために用いた、線形結合に供した数値群に含まれる数値の種類及びその個数と、工程C-2-1において合成変数を生成するための線形結合に供する数値群に含まれる数値の種類及びその個数は、一致していることが好ましい。
[工程C-3-1]
 工程C-3-1は、工程C-2-1における線形結合により得られた合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程である。その具体的な態様は特に限定されない。
 なお、前記外れ値は、本発明の方法で作成したモデル関数に入力して信頼性値を算出したときに異常な値を示す数値のことである。
 具体的には、副次核酸に由来する特定のアレルが混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が、好ましくは0.6未満、より好ましくは0.7未満、さらに好ましくは0.8未満として算出されてしまう場合における当該アレルに関する数値を外れ値として扱うことができる。
 また、副次核酸に由来する特定のアレルが混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が、好ましくは0.4以上、より好ましくは0.3以上、さらに好ましくは0.2以上として算出されてしまう場合における当該アレルに関する数値を外れ値として扱うことができる。
 また、合成変数の平均値から、その標準偏差の好ましくは2倍以上、より好ましくは3倍以上、さらに好ましくは4倍以上、さらに好ましくは5倍以上の値をもって離れた数値を外れ値として扱うこともできる。
 工程C-3-1の具体的態様として以下の方法が挙げられる。
 まず、前記合成変数について仮の閾値を設定し、以下の仮の除外条件C1を設定する。
(仮の除外条件C1)
 母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
 母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、仮の閾値未満に該当するデータセットは除去する。
 そして、解析対象であるデータセットにこの仮の除外条件C1を適用し、除外されずに残ったデータセットについて、上述の信頼性値の算出方法の発明を適用し、信頼性値を算出する。この算出された信頼性値の結果から例外結果が除外されているか否かを検定する。例外結果が除外されていない場合や、事実を正確に反映した信頼性値の結果が過剰に除外されている場合には、再び仮の除外条件を再設定し、上記と同様に検定を繰り返し、最適な条件を特定する。
 工程C-3-1は、後述する工程C-3-1-1及び工程C-3-1-2を含む形態としてもよい。
[工程C-3-1-1]
 工程C-3-1-1は、上述した本発明の方法により作成したモデル関数に、工程C-2-1における線形結合により生成した合成変数、(C1)副次成分信号強度、(C2)副次成分混入率及び(C3)ノイズのうち説明変数として必要な数値を入力して、信頼性値を算出する工程である。
 信頼性値の算出に用いるモデル関数は、「<1>モデル関数の作成方法」の項目で説明したモデル関数であれば特に限定されない。好ましくは上述の式1~4の何れかで表されるモデル関数に説明変数を入力して、信頼性値を算出する。
[工程C-3-1-2]
 次いで工程C-3-1-2では、工程C-2-1における線形結合により生成した合成変数と、工程C-3-1-1で算出した信頼性値と、をプロットした散布図を作成する。例えば、縦軸に合成変数、横軸に信頼性値をプロットした散布図においては、横方向(信頼性値が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散は小さく、信頼性値の値の分散が大きい集合)と、縦方向(合成変数が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散が大きく、信頼性値の値の分散が小さい集合)が観察される。
 このうち、信頼性値が広がる方向に分散するデータポイントの集合(横方向に延びる集合)を除外候補として特定する。
 一方、合成変数が広がる方向に分散するデータポイントの集合(縦方向に延びる集合)を非除外候補として特定する。
 そして、除外候補の一部又は全部を除外するように前記合成変数の値に閾値を設定する。
 除外されるデータポイントの割合が、除外候補の全データポイント(非除外候補と重複している部分も除外候補に含む)のうち、好ましくは50%以上、より好ましくは60%以上、さらに好ましくは70%以上、さらに好ましくは80%以上、さらに好ましくは90%以上、さらに好ましくは95%以上となるように、合成変数に閾値を設定する。
[工程C-4-1]
 工程C-4-1は、信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C1として設定する工程である。
(除外条件C1)
 母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
 母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、前記工程C-3-1で設定した前記閾値未満に該当するデータセットは除去する。
 除外後に残ったデータセットに対して上述した本発明の信頼性値の算出方法を適用することで、例外結果が低減された高精度な信頼性値算出結果を得ることができる。
<3-2>除外条件の設定方法(実施形態2)
 本発明の除外条件の設定方法の一つの実施形態は、以下の工程C-1-2及び工程C-2-2、工程C-3-2及び工程C-4-2を備える。
[工程C-1―2]
 工程C-1-2は、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットには、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットが含まれる。なお、前記信号の真偽は既知である。
 前記多型座位としては、ヒト個人識別(HID)で用いられる一塩基多型座位が好適に例示できる。
 なお、主要寄与体、副次寄与体、混合核酸サンプルは、以下の何れかに該当する。
 (i)前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである。
 (ii)前記主要寄与体がレシピエントであり、前記副次寄与体が前記移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。
[工程C-2-2]
 工程C-2-2は、工程C-1-2で用意したデータセットのうち特定の条件に当てはまる多型座位に関する数値を含む数値群を線形結合させて得られる合成変数のうち、一番目又は二番目に寄与率が高い合成変数を生成する工程である。一番目に寄与率が高い合成変数とは、主成分分析を行う場合には第1主成分が該当する。二番目に寄与率が高い合成変数とは、主成分分析を行う場合には第2主成分が該当する。
 工程C-2-2では、母親においてホモ接合であり、父親においてホモ接合であり、かつ、母親と前記父親とで同型であるアレル、または、レシピエントにおいてホモ接合であり、移植臓器のドナーにおいてホモ接合であり、かつ、レシピエントとドナーとで同型であるアレルの存在する多型座位に関する、少なくとも上述した(C1)、(C2)及び(C3)を含む数値群について線形結合を行う。なお、線形結合の対象となる数値群には(C1)、(C2)及び(C3)以外の数値が含まれていてもよく、例えば上述した(C4)~(C5)が挙げられる。その他、工程C-2-2の具体的態様については、上述した工程C-2-1における説明が妥当する。
 なお、モデル関数の作成のために用いた、線形結合に供した数値群に含まれる数値の種類及びその個数と、工程C-2-2において合成変数を生成するための線形結合に供する数値群に含まれる数値の種類及びその個数は、一致していることが好ましい。
[工程C-3-2]
 工程C-3-2は、工程C-2-2における線形結合により生成された合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程である。その具体的な態様は特に限定されない。外れ値の定義については、上述した工程C-3-1における説明が妥当する。
 工程C-3-2の具体的態様として具体的には以下の方法が挙げられる。
 まず、前記合成変数について仮の閾値を設定し、以下の仮の除外条件C2を設定する。
(仮の除外条件C2)
 母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
 母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、仮の閾値未満に該当するデータセットは除去する。
 そして、解析対象であるデータセットにこの仮の除外条件C2を適用し、除外されずに残ったデータセットについて、上述の信頼性値の算出方法の発明を適用し、信頼性値を算出する。この算出された信頼性値の結果から例外結果が除外されているか否かを検定する。例外結果が除外されていない場合や、事実を正確に反映した信頼性値の結果が過剰に除外されている場合には、再び仮の除外条件を再設定し、上記と同様に検定を繰り返し、最適な条件を特定する。
 工程C-3-2は、後述する工程C-3-2-1及び工程C-3-2-2を含む形態としてもよい。
[工程C-3-2-1]
 工程C-3-2-1は、上述した本発明の方法により作成したモデル関数に、工程C-2-2における線形結合により生成した合成変数、(C1)副次成分信号強度、(C2)の副次成分混入率及び(C3)ノイズのうち説明変数として必要な数値を入力して、信頼性値を算出する工程である。
 信頼性値の算出に用いるモデル関数は、「<1>モデル関数の作成方法」の項目で説明したモデル関数であれば特に限定されない。好ましくは上述の式1~4の何れかで表されるモデル関数に説明変数を入力して、信頼性値を算出する。
[工程C-3-2-2]
 次いで工程C-3-2-2では、工程C-2-2における線形結合により生成した合成変数と、工程C-3-2-1で算出した信頼性値と、をプロットした散布図を作成する。例えば、縦軸に合成変数、横軸に信頼性値をプロットした散布図においては、横方向(信頼性値が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散は小さく、信頼性値の値の分散が大きい集合)と、縦方向(合成変数が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散が大きく、信頼性値の値の分散が小さい集合)が観察される。
 このうち、合成変数が広がる方向に分散するデータポイントの集合(縦方向に延びる集合)を除外候補として特定する。
 一方、信頼性値が広がる方向に分散するデータポイントの集合(横方向に延びる集合)を非除外候補として特定する。
 そして、除外候補の一部又は全部を除外するように合成変数の値に閾値を設定する。
 除外されるデータポイントの割合が、除外候補の全データポイント(非除外候補と重複している部分も除外候補に含む)のうち、好ましくは50%以上、より好ましくは60%以上、さらに好ましくは70%以上、さらに好ましくは80%以上、さらに好ましくは90%以上、さらに好ましくは95%以上となるように、合成変数に閾値を設定する。
[工程C-4-2]
 工程C-4-2は、信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C2として設定する工程である。
(除外条件C2)
 母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
 母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
 前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、前記工程C-3-2で設定した前記閾値未満に該当するデータセットは除去する。
 除外後に残ったデータセットに対して上述した本発明の信頼性値の算出方法を適用することで、例外結果が低減された高精度な信頼性値算出結果を得ることができる。
<4>除外条件を適用して信頼性値を算出する方法
 本発明は、上述の除外条件の設定方法により設定した除外条件C1及び/又は除外条件C2を上記「<2-3>移植臓器の定着のモニタリングのために信頼性値を算出する方法」における工程B-1で用意するデータセットに適用して、除外されずに残ったデータセットについて、それぞれの信頼性値の算出方法の発明を適用し、信頼性値を算出する方法にも関する。
 適用する除外条件は、除外条件C1と除外条件C2の何れか一方でもよいし両方であってもよい。なお、工程B-2または工程B-2において線形結合の対象とする数値群に含まれる数値の種類が、好ましくは10種類以上、より好ましくは20種類以上、さらに好ましくは30種類以上である場合には、除外条件C1のみを適用するだけで、非常に精度の高い信頼性値の算出が可能となる。
 本発明の実施の形態は、除外条件C1及び/又は除外条件C2を適用する他は上記「<2-3>移植臓器の定着のモニタリングのために信頼性値を算出する方法」の項目で説明した内容をそのまま適用することができる。
 データセットに除外条件を適用しているため、これら入力値からは外れ値が除外されている。そのため、モデル関数により算出される信頼性値として例外結果が出力されてしまう問題を大きく低減することができる。
<5>プログラム
 本発明は、上述したモデル関数の作成方法、信頼性値の算出方法、除外条件の設定方法から選ばれる1又は2以上の方法をコンピュータに実行させるためのプログラムにも関する。コンピュータ内のプロセッサがハードディスク装置等の内蔵記憶装置に格納された本発明のプログラムに従って動作することにより、上述したモデル関数の作成方法、信頼性値の算出方法、除外条件の設定方法から選ばれる1又は2以上の方法を実行するように構成することができる。
<6>記憶媒体
 本発明は上述のプログラムを記録した記憶媒体にも関する。また、本発明は、上述した方法で作成されたモデル関数が記録された記憶媒体にも関する。記憶媒体としては、半導体メモリ、ハードディスク、磁気記憶媒体、光記憶媒体等、コンピュータにより読み出しが可能な記憶媒体が制限なく挙げられる。
<7>信頼性値算出システム
 本発明は、上述のモデル関数が記録された記憶部と、上述の信頼性値の算出方法を実行する処理部と、を備える、信頼性値算出システムにも関する。以下、本発明の信頼性値算出システムの好ましい実施形態について説明する。 
 処理部は分析装置によって取得された鑑定対象となるデータセットをデータ処理する構成である。処理部は、例えば、記憶部に格納されたプログラム(上述の信頼性値の算出方法を実行するプログラム)を読みだして実行することで、信頼性値の算出に必要なデータ処理を実現する演算装置(計算機と称されてもよい)であってもよい。処理部は、データ処理の実行主体としての側面を有する。処理部として、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)やFPGA(Field Programmable Gate Array)などが挙げられる。なお、処理部は、二以上のコアを含むマルチコアプロセッサであってもよい。
 記憶部は、処理部で実行される各種データ処理に係るデータやプログラムを記憶保持するように構成される回路である。記憶部は、不揮発性記憶装置と揮発性記憶装置の両方あるいは一方を少なくとも含んで構成される。例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、SSD(Solid State Drive)、HDD(Hard Disk Drive)などが挙げられる。記憶部は、主記憶装置及び補助記憶装置などの各種記憶装置を総称したものである。プログラムは、予め記憶部に格納されていてもよいし、通信回路を介して接続された装置(サーバなど)からダウンロードされて記憶部に格納されてもよい。
 本実施形態の信頼性値算出システムは、上記工程B-1で用意したデータセットを入力する入力部を備える。入力部に入力した前記データセットは前記処理部に供される。前記処理部は記憶部に記憶された、上述の信頼性値の算出方法を実行するためのプログラムを読み出し、当該プログラムに従って、同じく記憶部に記憶されたモデル関数に前記データセットに含まれる又は前記データセットから生成した説明変数を入力して信頼性値を算出する。
 また本発明の好ましい実施の形態では、前記記憶部に上述の除外方法の設定方法により作成された除外条件C1及び/又は除外条件C2が記録されている。さらに好ましくは本実施形態の信頼性値算出システムは、上記工程B-1で用意したデータセットを入力する入力部を備える。
 本実施形態では、入力部に入力した前記データセットは前記処理部に供される。前記処理部は記憶部に記憶された上述の除外条件C1及び/又は除外条件C2を読み出し、当該条件をデータセットに適用して、信頼性値の算出に適さないデータを除外する。処理部は、上述の信頼性値の算出方法を実行するためのプログラムを読み出し、当該プログラムに従って、同じく記憶部に記憶されたモデル関数に除外条件適用後に残った前記データセットに含まれる又は前記データセットから生成される説明変数を入力して信頼性値を算出する。
<試験例1>モデル関数の作成
 母親の口腔粘膜サンプル(母親の遺伝情報のみを含む)、父親の口腔粘膜サンプル(父親の遺伝情報のみを含む)及び、母親plasmaサンプル(母親及び、胎児の微量遺伝子を含む)を分析した次世代シーケンサー(NGS)による遺伝子配列検査データを1組のデータセットとし、全200組のデータセットを用意した。NGSは既知の184個のSNPsのある多型座位についてターゲットシーケンスを行ったものである。データセットには、36,800個(200組×184個)のSNPsに関するデータが含まれている。
 用意したデータセットに含まれる母親全血の解析データのうち、母親及び父親ともにホモ接合である多型座位に関するものだけを抽出した。これにより、10,415個のSNPsに関するデータセットに絞られた。この抽出したデータセットに含まれる以下の5因子について主成分分析を行った。
(1)主要成分信号強度絶対値[胎児Count Major]
(2)副次成分信号強度絶対値[胎児Count minor]
(3)主要成分の混入率(=(1)/シグナル強度総和)[胎児Freq. Major]
(4)副次成分の混入率(=(2)/シグナル強度総和)[胎児Freq. minor]
(5)ノイズ(=シグナル強度総和-[(1)+(2)])[胎児error]
 なお、上記(1)~(5)のデータを標準化した後に主成分分析を行った。
*(標準化データ)=[(生データ)-(平均値)]/(標本標準偏差)
 結果、第1主成分が信頼性値と高い相関を示す指標と成ることが明らかとなった。
 以下に記載する方法により各モデル関数を作成した。なお、モデル関数の作成には副次成分信号強度の真偽判定することが必要であるが、以下の規則に従って設定した正解に基づいて真偽判定を行った。
  ・父母の遺伝型がホモ且つ同型なら、胎児遺伝型はホモ(副次成分信号強度は偽)
  ・父母の遺伝型がホモ且つ異型なら、胎児遺伝型はヘテロ(副次成分信号強度は真)
モデル関数f1(x1)の作成
 主成分分析により得られた第1主成分をその大きさに応じて20に区分した。次に、各区分に含まれる第1主成分に対応する副次成分信号強度のうちこれが真であった割合(確率)を求めた。そして各区分に含まれる第1主成分の代表値に、当該区分における確率を割り当てた。こうして得た第1主成分と信頼性値について最小二乗法を用いて回帰分析を行い、第1主成分を説明変数、信頼性値(Fidelity)を目的変数とするモデル関数f1(x1)を得た。回帰分析の寄与率(R2)は0.99以上と極めて良好であった。
 図1にモデル関数f1(x1)を示すシグモイド曲線を示す。また、下の式5にモデル関数f1(x1)の式を示す。
Figure JPOXMLDOC01-appb-M000029
モデル関数f2(x2)の作成
 副次成分信号強度絶対値をその大きさに応じて20に区分した。次に、各区分に含まれる副次成分信号強度絶対値のうちこれが真であった割合(確率)を求めた。そして各区分における副次成分信号強度絶対値の代表値に、当該区分における確率を割り当てた。こうして得た副次成分信号強度絶対値と確率について最小二乗法を用いて回帰分析を行い、副次成分信号強度絶対値を説明変数、信頼性値(Fidelity)を目的変数とするモデル関数f2(x2)を得た。回帰分析の寄与率(R)は0.99以上と極めて良好であった。
 図2にモデル関数f2(x2)を示すシグモイド曲線を示す。また、下の式6にモデル関数f2(x2)の式を示す。
Figure JPOXMLDOC01-appb-M000030
モデル関数f3(x3)の作成
 副次成分の混入率をその大きさに応じて20に区分した。次に、各区分に含まれる副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合(確率)を求めた。そして各区分に含まれる副次成分混入率の代表値に、当該区分における確率を割り当てた。こうして得た副次成分混入率と確率について最小二乗法を用いて回帰分析を行い、副次成分混入率を説明変数、信頼性値(Fidelity)を目的変数とするモデル関数f3(x3)を得た。回帰分析の寄与率(R)は0.99以上と極めて良好であった。
 図3にモデル関数f3(x3)を示すシグモイド曲線を示す。また、下の式7にモデル関数f3(x3)の式を示す。
Figure JPOXMLDOC01-appb-M000031
モデル関数f(x1,x2,x3)の作成
 f1(x1)、f2(x2)、f3(x3)を乗じて、以下の式4で表されるモデル関数f(x1,x2,x3)を作成した。
Figure JPOXMLDOC01-appb-M000032
<試験例2>信頼性値の算出
 式4のモデル関数f(x1,x2,x3)を用いて、当該モデル関数の作成に使用した200セットのデータの信頼性を算出し結果の検証を行った。すなわち、混合核酸サンプルにおけるSNPsに係る座位についての第1主成分、副次成分信号強度絶対値、副次成分混入率をモデル関数f(x1,x2,x3)に入力し、その信頼性値を算出した。なお、信頼性値の算出においては、(1)と(2)の合計値が300未満のものは除外した8,148SNPsに対して信頼性値(Fidelity)を計算した。
 算出した信頼性値(Fidelity)の分布図を図4示す。
 左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はヘテロ接合)。
 右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はホモ接合)。
 図4に示すように、本発明の方法によれば、精度よくSNPsに関する信号の信頼性を評価できる。
<試験例3>除外条件の検討
 図4左(父母ホモ・異型)の集計においては、計算された信頼性値は0.19未満の値を示すものが分布し、一定数の例外事例が確認された。また、図4右(父母ホモ・同型)の集計においては、0.9以上の値を示すものが分布し、一定数の例外事例が確認された。
 胎児遺伝型の正解がヘテロ接合であるにも関わらず算出された信頼性値が低いもの(例えば信頼性値0.1未満)、また胎児遺伝型の正解がホモ接合であるにも関わらず算出された信頼性値が高いもの(例えば信頼性値0.9以上)などの例外結果を除外するため、以下の方法で除外条件の詳細検討を行った。
除外条件1
 父母がそれぞれホモ接合で有している互いに異型のSNPs(正解の胎児遺伝型はヘテロ接合)に関する混合核酸サンプルの分析により得られたSNPs(全3,196個)について、上記(1)~(5)のパラメータに対して主成分分析を行った。
 一方で、主成分分析を行った(1)~(5)のパラメータに基づき上記モデル関数f(x1,x2,x3)を利用して信頼性値を算出した。
 次いで、主成分分析により得られた各主成分をy軸、信頼性値をx軸にプロットした散布図を作成した(図5)。データの分散が最大であった第1主成分の散布図に示すように、x軸方向に延びるデータポイントの集合とy軸方向に延びるデータポイントの集合の2つが見られる。このうちのx軸方向に延びるデータポイントの集合を除外すべき外れ値であるものとして第1主成分につき-1.9の位置に閾値を設定した。この閾値に基づき以下の除外条件1を設定した。
(除外条件1)
データセットのうち、父母がそれぞれホモ接合で有している互いに異型のSNPsについての上記(1)~(5)の第1主成分が-1.9未満のものは除外する。
除外条件2
 父母がそれぞれホモ接合で有している互いに同型のSNPsに関する除外条件の適切な設定ができるか否か検討を行った。
 父母がそれぞれホモ接合で有している互いに同型のSNPs(正解の胎児遺伝型はホモ接合)に関する混合核酸サンプルの分析により得られたSNPs(全4,952個)について、上記(1)~(5)のパラメータに対して主成分分析を行った。
 一方で、主成分分析を行った(1)~(5)のパラメータに基づき上記モデル関数f(x1,x2,x3)を利用して信頼性値を算出した。
 次いで、主成分分析により得られた各主成分をy軸、信頼性値をx軸にプロットした散布図を作成した(図6)。
 データの分散が最大であった第1主成分の散布図に示すように、x軸方向に延びるデータポイントの集合とy軸方向に延びるデータポイントの集合の2つが見られる。このうちのy軸方向に延びるデータポイントの集合を除外すべき外れ値であるものとして第1主成分につき6の位置に閾値を設定した。この閾値に基づき以下の除外条件2を設定した。
(除外条件2)
データセットのうち、父母がそれぞれホモ接合で有している互いに同型のSNPsについての上記(1)~(5)の第1主成分が6以上のものは除外する。
 
<試験例4>信頼性値の再集計
 200テストデータセットを用いた試験例3において設定した除外条件1、2に該当するSNPsに関するデータをデータセットから除外したうえで、試験例1と同手順で信頼性値を算出した(残ったSNPsの数:8,081)。
 算出した信頼性値(Fidelity)の分布図を図7に示す。
 左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はヘテロ接合)。
 右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はホモ接合)。
 図7の左は除外条件1を適用した後にデータについての信頼性値の分布図である。図7の右は除外条件2を適用した後にデータについての信頼性値の分布図である。図7に示すように除外条件1又は2の適用の結果、例外的事例数が有意に除外され妥当性の向上が認められた。
<試験例5>異なるNGSターゲットパネルに対する妥当性の検証
 本発明の妥当性を検証するため別途準備した16組データセットを用いて以下の検討を行った。試験例1に示した184SNPsターゲットパネルとは異なる、132SNPsのターゲットパネルの解析結果である。
 母親の口腔粘膜サンプル、父親の口腔粘膜サンプル、母親plasmaサンプル及び新生児の口腔粘膜サンプルを分析したNGSによる遺伝子配列検査データを1組のデータセットとし、試験例1~3とは別途16組のデータセットを用意した。NGSは既知の132個のSNPsのある多型座位についてターゲットシーケンスを行ったものである。すなわち、用意したデータセットには、2,112個(16組×132個)のSNPsに関するデータが含まれている。
 なお、本試験例で解析する132個のSNPsは、試験例1~3で解析した184個のSNPsに完全に重複するものではなく、71個のSNPsは試験例1~3で解析したSNPsとは別のSNPsである。
 このデータセットのうち、父母ともにホモ接合として有するSNPsを抽出し531個のSNPsの信頼性値を算出した。
 16テストデータセットから算出した信頼性値(Fidelity)の分布図を図8に示す。
 左は父母がそれぞれホモ接合で有している互いに異型のSNPs(胎児遺伝型の正解はヘテロ接合)と、父母がそれぞれホモ接合で有している互いに同型のSNPs(胎児遺伝型の正解はホモ接合)に関する信頼性値を集計したものである。
 父母がそれぞれホモ接合で有している互いに異型のSNPsについては、176個のSNPs中175個で0.9以上の信頼性値を示した。また、父母がそれぞれホモ接合で有している互いに同型のSNPsについては、355個のSNPs中0.5以上の信頼性値を示すSNPが1個だけ存在した。
 右は試験例1とは異なるターゲットパネルのFidelity分布図を割合で表示したものである。
 200テストデータセット(184SNPsのターゲットパネル)から算出されたモデル関数を、16テストデータセット(132ターゲットパネル)の解析に用いたが同様のFidelity分布図が得られた。
これらの結果より、本発明のFidelity算出方法は同じ試験システムを用いる場合、ターゲットパネルの種類に関係なく正確であることが確認された。
<試験例6>副次成分信号の真偽が不明なSNPsに対する妥当性の検証
 試験例5で用いた16セットのデータの内、母がホモ接合で有している951SNPsのFidelity分布を新生児遺伝型がヘテロとホモに集計し図9にまとめた。
 なお、図9で示した全てのSNPsは胎児Count Majorと胎児Count minorの合計300以上である。
 図9から明らかなように、父母の遺伝型を用いた胎児遺伝型の推定形は出生後に確定された子の遺伝型と一致した。新生児ホモSNPsの99.6%(575SNPsの内573SNPs)は0.2以下の低いFidelityを示し、新生児ヘテロSNPsの99.4%(376SNPsの内374SNPs)は0.8以上の高いFidelityを示した。
 従って、試験例1のモデル関数を用いたFidelity算出方法によれば、副次成分信号存在に対する真偽を示す父の遺伝型が分からない場合であっても、正確なFidelityの計算ができる。
これらの結果より、本発明の妥当性が確認された。
<試験例7>モデル関数の作成(その2)
 試験例1で使用したものと同一のデータセットについて、母親及び父親ともにホモ接合である多型座位に関するものだけを抽出した。この抽出したデータセットに含まれる以下の表1に示す13因子について主成分分析を行った。表1に主成分分析の結果得られた第1主成分に関する固有ベクトルを示す。
Figure JPOXMLDOC01-appb-T000033
 表1に示した13因子のうち(1)~(5)の内容は試験例1で説明した通りである。なお、表1における変数の表記として、「major」が含まれるものは主要成分信号に関するデータであり、「minor」が含まれるものは副次成分信号に関するデータである。また、表1における変数の表記として、「count」が含まれるものは信号強度に関するデータであり、「freq」又は「frequency」が含まれるものは信号強度の割合に関するデータである。
 すなわち、表1における変数の表記として「minor」及び「count」の両方が含まれる数値は、本発明でいう「副次成分信号強度」に該当する。
 また、表1における変数の表記として「minor」及び「freq」若しくは「frequency」の両方が含まれる数値は、本発明でいう「副次成分混入率」に該当する。
 なお、表1の(7)は、前記特定の多型座位のアレルの存在を示す副次成分信号強度を、複数の多型座位におけるノイズの平均値により割った数値である。
 また、表1の(9)は、前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率を、複数の多型座位におけるノイズの平均値により割った数値である。
 主成分分析により得られた第1主成分を基に試験例1と同様の手順によって、当該第1主成分x1を説明変数、信頼性値を目的変数とするモデル関数f1(x1)を作成した。回帰分析の寄与率(R)は0.99以上と極めて良好であった。
 このf1(x1)と上述のf2(x2)及びf3(x3)を乗じて、上記式4で表されるモデル関数f(x1,x2,x3)を作成した。
<試験例8>信頼性値の算出(その2)
 試験例1で使用したものと同一のデータセットに含まれる表1に示す13因子について主成分分析を行った。主成分分析によって得られた第1主成分、副次成分信号強度絶対値及び副次成分混入率を試験例7で作成したモデル関数f(x1,x2,x3)に入力し、信頼性値を算出した。5因子、又は13因子について主成分分析を行い算出した信頼性値(Fidelity)の分布図を図10に示す。
 図10に示すように、本試験例でも、例外的結果がほぼ見られない極めて精度の高い結果が得られた。この結果より、試験例7で作成したモデル関数の妥当性と精度の高さが証明された。
<試験例9>妥当性の検証(その2)
 試験例6で用意したものと同一のデータセットを用意しデータセットに含まれる表1に示す13因子について主成分分析を行った。主成分分析によって得られた第1主成分、副次成分信号強度絶対値及び副次成分混入率を試験例7で作成したモデル関数f(x1,x2,x3)に入力し、信頼性値を算出した。5因子、又は13因子について主成分分析を行い算出した信頼性値(Fidelity)の分布図を図11に示す。
 図11に示すように、本試験例で副次成分信号存在に対する真偽を示す父の遺伝型が分からない場合も、例外的結果がほぼ見られない極めて精度の高い結果が得られた。この結果より、試験例7で作成したモデル関数の妥当性と精度の高さが証明された。
 本発明は出生前遺伝学的検査、癌スクリーニング検査、移植臓器定着モニタリング、感染症検査、法医学に応用できる。

 

Claims (47)

  1.  以下の工程A-1、工程A-2、工程A-3-1及び工程A-4-1を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
    [工程A-1]
     主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
    [工程A―2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(A1)及び(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
      (A1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度
      (A2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
     
    [工程A-3-1]
     前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
    [工程A-4-1]
     前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  2.  前記合成変数が、少なくとも前記(A1)及び前記(A2)を含む数値群について主成分分析を行うことで生成し得る合成変数であることを特徴とする、請求項1に記載の方法。
  3.  前記工程A-3-1及び工程A-4-1においてモデル関数の作成のために用いる前記合成変数が、工程A-2において生成した1以上の合成変数のうち、最も寄与率が高い合成変数であることを特徴とする、請求項2に記載の方法。
  4.  前記工程A―2が、少なくとも前記(A1)及び前記(A2)を含む数値群について主成分分析を行い、1つ以上の主成分を合成変数として生成する工程であることを特徴とする、請求項1~3の何れか一項に記載の方法。
  5.  前記工程A-2が、前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含み、さらに以下の(A3)~(A5)から選ばれる1又は2以上を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程であることを特徴とする、請求項1~4の何れか一項に記載の方法。
      (A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
      (A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
      (A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
  6.  前記工程A-2が、前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)を含み、さらに以下の(A3)~(A5)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程であることを特徴とする、請求項1~5の何れか一項に記載に記載の方法。
      (A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
      (A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
      (A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
  7.  前記回帰分析が最小二乗法であることを特徴とする、請求項1~6の何れか一項に記載の方法。
  8.  前記合成変数を表す1次斉次多項式において、副次成分信号強度又は副次成分混入率が最大に重みづけされることを特徴とする、請求項1~7の何れか一項に記載の方法。
  9.  前記工程A-2において線形結合する数値群に含まれる数値は、標準化された数値であることを特徴とする、請求項1~8の何れか一項に記載の方法。
  10.  前記工程A-2において、2つ以上の合成変数を生成し、
     前記工程A-3-1において、前記2つ以上の合成変数のそれぞれについて、信頼性値の付与を行い、
     前記工程A-4-1において、前記2つ以上の合成変数のそれぞれを説明変数とする互いに独立した2以上のモデル関数を作成し、
     さらに、前記2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備えることを特徴とする、請求項1~9の何れか一項に記載の方法。
  11.  以下の工程A-1、工程A-3-2及び工程A-4-2を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
    [工程A-1]
     主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
    [工程A-3-2]
     前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度を複数に区分し、各区分に含まれる前記副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分信号強度に対応する確率として付与する工程。
    [工程A-4-2]
     前記各区分に含まれる前記副次成分信号強度と、前記各区分に含まれる前記副次成分信号強度に対応する確率について回帰分析を行い、前記副次成分信号強度を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  12.  以下の工程A-1、工程A-3-3及び工程A-4-3を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
    [工程A-1]
     主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
    [工程A-3-3]
     前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である副次成分混入率を複数に区分し、各区分に含まれる前記副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分混入率に対応する確率として付与する工程。
    [工程A-4-3]
     前記各区分に含まれる前記副次成分混入率と、前記各区分に含まれる前記副次成分混入率に対応する確率について回帰分析を行い、前記副次成分混入率を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  13.  前記モデル関数が、シグモイド関数であることを特徴とする、請求項1~12の何れか一項に記載の方法。
  14.  前記モデル関数が、2個の媒介変数を有するシグモイド関数であることを特徴とする、請求項1~13の何れか一項に記載の方法。
  15.  請求項1~10の何れか一項に記載の方法で作成したモデル関数と、
     請求項11に記載の方法で作成したモデル関数と、
     請求項12に記載の方法で作成したモデル関数と、
     からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
  16.  請求項1~10の何れか一項に記載の方法で作成したモデル関数と、
     請求項11に記載の方法で作成したモデル関数、及び/又は、請求項12に記載の方法で作成したモデル関数と、
     を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
  17.  請求項1~10の何れか一項に記載の方法で作成したモデル関数と、
     請求項11に記載の方法で作成したモデル関数と、
     請求項12に記載の方法で作成したモデル関数と、
     を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
  18.  前記多型座位が、一塩基多型を含む座位であることを特徴とする、請求項1~17の何れか一項に記載の方法。
  19.  前記データセットが、塩基配列解析、デジタルPCR、マイクロアレイ、リアルタイムPCR又は質量分析により取得されたデータであることを特徴とする、請求項1~18の何れか一項に記載の方法。
  20.  前記データセットが塩基配列解析により取得されたデータであり、
     前記副次成分信号強度が、配列タグのカウント数、リード数、イオン濃度又は電気信号であることを特徴とする、請求項1~18の何れか一項に記載の方法。
  21.  前記データセットがデジタルPCRにより取得されたデータであり、
     前記副次成分信号強度が、蛍光が観察されたウェル数であることを特徴とする、請求項1~18の何れか一項に記載の方法。
  22.  前記データセットがマイクロアレイにより取得されたデータであり、
     前記副次成分信号強度が、蛍光強度であることを特徴とする、請求項1~18の何れか一項に記載の方法。
  23.  前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A-1、工程A-2、工程A-3-1及び工程A-4-1であることを特徴とする、請求項1~11の何れか一項に記載の方法。
    [工程A-1]
     母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
    [工程A―2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
    前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
    [工程A-3-1]
     前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
    (但し、前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレルについて、
     主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
     主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
     前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレルについて、
     主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を偽とし、
     主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を真とする。)
    [工程A-4-1]
     前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  24.  前記主要寄与体が健常人であり、前記副次寄与体が癌細胞であり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A-1、工程A-2、工程A-3-1及び工程A-4-1であることを特徴とする請求項1~10の何れか一項に記載の方法。
    [工程A-1]
     前記健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する多型座位において癌関連変異が導入された前記多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した混合核酸サンプルの測定により得られるテータを含むデータセットであり、
     前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
    [工程A-2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
    [工程A-3-1]
     前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
    (但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
     該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
     該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
     前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
     該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
     該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
    [工程A-4-1]
     前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  25.  以下の工程A´-1、工程A´-2、工程A´-3-1及び工程A´-4-1を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
    [工程A´-1]
     健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する単一の多型座位において癌関連変異が導入された前記単一の多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した、前記副次核酸の含有割合が互いに異なる複数の混合核酸サンプルの測定により得られるデータを含むデータセットであり、
     前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
    [工程A´-2]
     前記データセットに含まれるデータのうち、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された前記単一の多型座位に関する、少なくとも以下の(A1´)及び(A2´)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
      (A1´)前記副次核酸に由来する前記単一の多型座位のアレルの存在を示す副次成分信号強度。
      (A2´)前記単一の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
     
    [工程A-3-1]
     前記工程A´-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
    (但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
     該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
     該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
     前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
     該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
     該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
    [工程A-4-1]
     前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  26.  前記主要寄与体が臓器移植のレシピエントであり、前記副次寄与体が移植臓器であり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A-1、工程A-2、工程A-3-1及び工程A-4-1であることを特徴とする、請求項1~10の何れか一項に記載の方法。
    [工程A-1]
     レシピエントに関する遺伝情報を含む主要核酸と、移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
    [工程A-2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
    [工程A-3-1]
     前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。(但し、レシピエントが有していないアレルであって、かつ、ドナーがホモ接合若しくはヘテロ接合で有しているアレルについて、
     主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
     主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
     レシピエント及びドナーの何れもが有していないアレルについて、
     主要成分信号と区別されて前記副次成分信号が検出された場合、前記副次成分信号を偽とし、
     主要成分信号と区別されて前記副次成分信号が検出されなかった場合、前記副次成分信号を真とする。)
    [工程A-4-1]
     前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
  27.  モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法であり、
     前記モデル関数が、
      請求項1~26の何れか一項に記載の方法で求めた前記モデル関数、
      以下の式1~3の何れかのモデル関数、又は
      以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
    であり、
     前記説明変数が、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
    [工程B-1]
     主要寄与体に関する遺伝情報を含む主要核酸を含み、副次寄与体に関する遺伝情報を含む副次核酸を含む若しくは含み得る混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
    [工程B―2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
      (B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
      (B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
     
    Figure JPOXMLDOC01-appb-M000001
    (ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
     
    Figure JPOXMLDOC01-appb-M000002
    (ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
     
    Figure JPOXMLDOC01-appb-M000003
    (ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
     
  28.  前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B-1及び工程B-2であることを特徴とする、請求項27に記載の方法。
    [工程B-1]
     母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
    [工程B―2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
    前記母親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  29.  前記複数の多型座位が、ヒト個人識別で用いられる多型座位であり、
     非侵襲的出生前親子鑑定のために信頼性値を算出する方法であることを特徴とする、請求項28に記載の方法。
  30.  前記主要寄与体が検査対象者であり、前記副次寄与体が癌細胞であり、前記混合核酸サンプルが前記検査対象者から採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B-1及び工程B-2であることを特徴とする、請求項27に記載の方法。
    [工程B-1]
     検査対象者に関する遺伝情報を含む主要核酸を含み、癌細胞に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、癌に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
    [工程B―2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  31.  前記工程B-2において、前記データセットに含まれるデータから、前記複数の多型座位の中で、検査対象者において変異型のアリルをホモ接合又はヘテロ接合として有している多型座位に関するデータを除外し、
     除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成することを特徴とする、請求項30に記載の方法。
  32.  前記主要寄与体が臓器移植のレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B-1及び工程B-2であることを特徴とする、請求項27に記載の方法。
    [工程B-1]
     レシピエントに関する遺伝情報を含む主要核酸を含み、移植臓器に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
    [工程B-2]
     前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
  33.  前記複数の多型座位が、ヒト個人識別で用いられる多型座位であり、
     移植臓器の定着のモニタリングのために信頼性値を算出する方法であることを特徴とする、請求項32に記載の方法。
  34.  請求項27~33の何れか一項に記載の方法による信頼性値の算出に適さないデータを除外するための除外条件を設定する方法であり、以下の工程C-1-1、工程C-2-1、工程C-3-1及び工程C-4-1を備えることを特徴とする除外条件の設定方法。
    [工程C-1-1]
     主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである、又は
     前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
    [工程C-2-1]
     前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレル、又は
     前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、最も寄与率が高い合成変数を生成する工程。
      (C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
      (C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
      (C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。[工程C-3-1]
     前記工程C-2-1における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
    [工程C-4-1]
     信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C1として設定する工程。
    (除外条件C1)
     母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの分析により得られたデータセットのうち、
     母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
     前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、前記工程C-3-1で設定した前記閾値未満に該当するデータセットは除去する。
  35.  請求項27~33の何れか一項に記載の方法による信頼性値の算出に適さないデータを除外するための除外条件を設定する方法であり、以下の工程C-1-2及び工程C-2-2、工程C-3-2及び工程C-4-2を備えることを特徴とする除外条件の設定方法。
    [工程C-1-2]
     主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
    (但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであるか、
    又は
     前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
    [工程C-2-2]
     前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレル、又は
     前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、一番目又は二番目に寄与率が高い合成変数を生成する工程。
      (C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
      (C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
      (C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
    [工程C-3-2]
     前記工程C-2-2における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
    [工程C-4-2]
     信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C2として設定する工程。
    (除外条件C2)
     母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの分析により得られたデータセットのうち、
     母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
     前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、前記工程C-3-2で設定した前記閾値未満に該当するデータセットは除去する。
  36.  前記多型座位が、ヒト個人識別で用いられる一塩基多型座位であることを特徴とする、請求項34又は35に記載の方法。
  37.  移植臓器の定着のモニタリングのための方法であることを特徴とする、請求項34~36の何れか一項に記載の方法。
  38.  前記外れ値は、請求項27~33の何れか一項に記載の方法によって信頼性値を算出したときに、
     前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が0.8未満として算出されてしまう場合における当該アレルに関する数値、及び/又は
     前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が0.2以上として算出されてしまう場合における当該アレルに関する数値であることを特徴とする、請求項34~37の何れか一項に記載の方法。
  39.  前記外れ値は、前記合成変数の平均値から、その標準偏差の2倍以上離れた数値であることを特徴とする、請求項34~38の何れか一項に記載の方法。
  40.  前記工程B-1において、
     請求項34に記載の方法で特定した除外条件C1及び/又は請求項35に記載の方法で特定した除外条件C2に該当するデータセットを除去した後に残ったデータセットを用意することを特徴とする、請求項32又は33に記載の方法。
  41.  モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法であり、
     前記モデル関数が、
      請求項1~26の何れか一項に記載の方法で求めた前記モデル関数、
      以下の式1~3の何れかのモデル関数、又は
      以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
    であり、
     前記説明変数が、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
    [工程B-1]
     母親に関する遺伝情報を含む主要核酸と、前記母親の胎内にいる胎児に関する遺伝情報を含む副次核酸と、が含まれる、前記母親から採取された循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、疾患に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
    [工程B―2]
     前記データセットに含まれるデータから、前記複数の多型座位の中で、母親において変異型のアリルをヘテロ接合として有している多型座位に関するデータを除外し、
     除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
      (B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
      (B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
     
    Figure JPOXMLDOC01-appb-M000004
    (ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
     
    Figure JPOXMLDOC01-appb-M000005
    (ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
     
    Figure JPOXMLDOC01-appb-M000006
    (ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
     
  42.  疾患リスクを評価する非侵襲的出生前検査のために信頼性値を算出する方法であることを特徴とする、請求項41に記載の方法。
  43.  請求項1~42の何れか一項に記載の方法をコンピュータに実行させるためのプログラム。
  44.  請求項43に記載のプログラムを記録した記録媒体。
  45.  請求項1~26の何れか一項に記載の方法で作成されたモデル関数、
      以下の式1~3の何れかのモデル関数、又は
      以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
    が記録された記憶媒体。
     
    Figure JPOXMLDOC01-appb-M000007
    (ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
     
    Figure JPOXMLDOC01-appb-M000008
    (ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
     
    Figure JPOXMLDOC01-appb-M000009
    (ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
     
  46.  請求項1~26の何れか一項に記載の方法で作成されたモデル関数、
      以下の式1~3の何れかのモデル関数、又は
      以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
     が記録された記憶部と、請求項27~33及び40~42の何れか一項に記載の方法を実行する処理部と、を備える、信頼性値算出システム。
     
    Figure JPOXMLDOC01-appb-M000010
    (ただし、式1中、A1は15.4~15.6、x01は-0.8~-0.6である。)
     
    Figure JPOXMLDOC01-appb-M000011
    (ただし、式2中、A2は1.8~2.0であり、x02は2.5~2.7である。)
     
    Figure JPOXMLDOC01-appb-M000012
    (ただし、式3中、A3は9.3~9.5であり、x03は0.5~0.7である。)
     
  47.  前記記憶部に、請求項34に記載の方法で作成された除外条件C1及び/又は請求項35に記載の方法で作成された除外条件C2が記録されており、
     前記処理部は、請求項40に記載の方法を実行することを特徴とする、請求項46に記載の信頼性値算出システム。

     
PCT/JP2021/046513 2020-12-16 2021-12-16 多型座位の信号の信頼性値の算出方法 WO2022131328A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020227044153A KR20230012033A (ko) 2020-12-16 2021-12-16 다형 좌위 신호의 신뢰성 값의 산출 방법
EP21906688.3A EP4266315A1 (en) 2020-12-16 2021-12-16 Method for calculating reliability value of signal of polymorphism loci
JP2022521759A JP7121440B1 (ja) 2020-12-16 2021-12-16 多型座位の信号の信頼性値の算出方法
US18/001,544 US20230227897A1 (en) 2020-12-16 2021-12-16 Method for calculating the fidelity of the signal of polymorphic genetic loci

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-208554 2020-12-16
JP2020208554 2020-12-16

Publications (1)

Publication Number Publication Date
WO2022131328A1 true WO2022131328A1 (ja) 2022-06-23

Family

ID=82059580

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/046513 WO2022131328A1 (ja) 2020-12-16 2021-12-16 多型座位の信号の信頼性値の算出方法

Country Status (5)

Country Link
US (1) US20230227897A1 (ja)
EP (1) EP4266315A1 (ja)
JP (1) JP7121440B1 (ja)
KR (1) KR20230012033A (ja)
WO (1) WO2022131328A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502845A (ja) 2010-12-22 2014-02-06 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
JP2016034282A (ja) * 2011-02-24 2016-03-17 ザ チャイニーズ ユニバーシティー オブ ホンコンThe Chinese University Of Hongkong 多胎妊娠の分子検査
JP2016061514A (ja) * 2014-09-19 2016-04-25 株式会社ケーヒン・サーマル・テクノロジー エバポレータおよびこれを用いた車両用空調装置
JP2017094805A (ja) 2015-11-19 2017-06-01 株式会社デンソー 車両制御装置
JP2020529648A (ja) 2017-06-20 2020-10-08 イルミナ インコーポレイテッド 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101806663B1 (ko) 2016-02-11 2017-12-11 주식회사 로브아이 레이더 및 비디오 카메라 일체형 교통정보 측정시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502845A (ja) 2010-12-22 2014-02-06 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
JP2016034282A (ja) * 2011-02-24 2016-03-17 ザ チャイニーズ ユニバーシティー オブ ホンコンThe Chinese University Of Hongkong 多胎妊娠の分子検査
JP2016061514A (ja) * 2014-09-19 2016-04-25 株式会社ケーヒン・サーマル・テクノロジー エバポレータおよびこれを用いた車両用空調装置
JP2017094805A (ja) 2015-11-19 2017-06-01 株式会社デンソー 車両制御装置
JP2020529648A (ja) 2017-06-20 2020-10-08 イルミナ インコーポレイテッド 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム

Also Published As

Publication number Publication date
US20230227897A1 (en) 2023-07-20
JP7121440B1 (ja) 2022-08-18
KR20230012033A (ko) 2023-01-25
JPWO2022131328A1 (ja) 2022-06-23
EP4266315A1 (en) 2023-10-25

Similar Documents

Publication Publication Date Title
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
CN104254618B (zh) 母体血浆中胎儿dna分数的基于大小的分析
ES2441807T3 (es) Diagnóstico de aneuploidía cromosómica fetal utilizando secuenciación genómica
Brettschneider et al. Quality assessment for short oligonucleotide microarray data
AU2018375008B2 (en) Methods and systems for determining somatic mutation clonality
CN103459614B (zh) 胎儿性染色体的非侵入性产前基因分型
KR20190077097A (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
CN107849612A (zh) 比对和变体测序分析管线
EP3476946A1 (en) Quality evaluation method, quality evaluation apparatus, program, storage medium, and quality control sample
JP2020530261A (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
JP2020529648A (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
CN110914456A (zh) 检测胎儿染色体异常的方法
EA038117B1 (ru) Мультиплексный параллельный анализ целевых геномных областей с целью неинвазивного пренатального тестирования
Ross et al. Batch-effect detection, correction and characterisation in Illumina HumanMethylation450 and MethylationEPIC BeadChip array data
CN109996894A (zh) 用于单基因疾病的基于通用单倍型的非侵入性产前测试
WO2022131328A1 (ja) 多型座位の信号の信頼性値の算出方法
Haverty et al. Limited agreement among three global gene expression methods highlights the requirement for non-global validation
Chong et al. SeqControl: process control for DNA sequencing
US20220170010A1 (en) System and method for detection of genetic alterations
US20220380841A1 (en) Methods and Kits using Internal Standards to Control for Complexity of Next Generation Sequencing(NGS) Libraries
WO2022168195A1 (ja) 遺伝情報解析システム、及び遺伝情報解析方法
Medlow et al. Analytical validation of a prognostic prostate cancer gene expression assay using formalin fixed paraffin embedded tissue
Youssef et al. High-Resolution Genotyping of Formalin-Fixed Tissue Accurately Estimates Polygenic Risk Scores in Human Diseases
JP2006215809A (ja) アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム
Öztürk Investigation of the effects of MAS5, RMA and gcRMA preprocessing methods on an affymetrix zebrafish genechip® dataset using statistical and network parameters

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2022521759

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21906688

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20227044153

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021906688

Country of ref document: EP

Effective date: 20230717