WO2014175427A1 - Dnaの状態を評価する方法、装置及びプログラム - Google Patents

Dnaの状態を評価する方法、装置及びプログラム Download PDF

Info

Publication number
WO2014175427A1
WO2014175427A1 PCT/JP2014/061701 JP2014061701W WO2014175427A1 WO 2014175427 A1 WO2014175427 A1 WO 2014175427A1 JP 2014061701 W JP2014061701 W JP 2014061701W WO 2014175427 A1 WO2014175427 A1 WO 2014175427A1
Authority
WO
WIPO (PCT)
Prior art keywords
dna
base sequence
information
mutation rate
mutation
Prior art date
Application number
PCT/JP2014/061701
Other languages
English (en)
French (fr)
Inventor
永典 奈須
敦美 辻本
和敏 吉武
孝 五條堀
Original Assignee
日本ソフトウェアマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本ソフトウェアマネジメント株式会社 filed Critical 日本ソフトウェアマネジメント株式会社
Priority to JP2015513850A priority Critical patent/JPWO2014175427A1/ja
Publication of WO2014175427A1 publication Critical patent/WO2014175427A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Definitions

  • the present invention relates to a method, an apparatus, and a program for evaluating a DNA state such as a DNA mutation caused by environmental factors.
  • Genetic disease is a general term for diseases caused by abnormal gene (genome) in a broad sense. Among genetic diseases, those in which a genetic abnormality is inherited from the previous generation are called genetic diseases. Genetic diseases other than genetic diseases involve various factors such as electromagnetic waves such as radiation and ultraviolet rays, chemical substances, particulate matter suspended in the atmosphere, and dietary habits. That is, these factors cause abnormalities in genes and develop genetic diseases other than genetic diseases.
  • Patent Document 1 discloses a method for efficiently detecting a large number of mutations occurring in DNA using a device called a DNA chip or a DNA microarray. According to this method, the presence or absence of a mutation in a predetermined region of DNA and the ratio thereof can be detected. According to this method, for example, the presence or absence of a mutation in a gene region associated with a disease and the rate of mutation can be detected quickly, or the relationship between a disease symptom and a mutation site of the causative gene is analyzed. Can do.
  • Patent Document 2 discloses a gene polymorphism associated with myocardial infarction.
  • a device called a so-called next-generation sequencer it is possible to detect the presence or absence of base mutations and the ratio of mutations throughout the disease-related gene region, and analyze the relationship between disease symptoms and mutations in the related genes. .
  • the degree of contamination is evaluated by the concentration of the pollutant, and for radioactive contamination, the degree of contamination is evaluated by the air dose from the radioactive material.
  • these evaluations cannot quantitatively interpret the degree of contamination that affects animals and plants including humans. If the DNA state can be evaluated over time as described above, it is possible to quantitatively evaluate environmental changes that occur at a certain point in time and period based on the DNA state.
  • an object of the present invention is to provide a method, an apparatus, and a program for evaluating a DNA state such as a DNA mutation accumulation state caused by environmental factors.
  • the present invention that has achieved the above-described object includes the following.
  • the DNA evaluation method includes a base sequence information acquisition procedure for acquiring information on a DNA base sequence from a sample collected from an individual, and DNA sequences acquired at different times by the base sequence information acquisition procedure.
  • the DNA evaluation apparatus is obtained at different times by the base sequence information input means for inputting information on the base sequence of DNA obtained from a sample collected from an individual and the base sequence information input means, Compares information related to DNA base sequences, specifies different base sequence parts, and specifies a mutation rate specifying means for specifying the ratio of different base sequence parts to the whole as a mutation rate, and evaluates DNA based on the mutation rate And DNA evaluation means.
  • the program according to the present invention is a program for causing a computer to execute a DNA evaluation procedure, which causes the computer to function as control means, and allows the control means to obtain DNA obtained from a sample collected from an individual.
  • the base sequence input step for inputting information on the base sequence of DNA and the information on the base sequence of DNA acquired at different times by the base sequence input step are compared, and the different base sequence portions are identified and different.
  • a mutation rate specifying step for specifying the ratio of the base sequence portion to the whole as a mutation rate and a DNA evaluation step for evaluating DNA based on the mutation rate are performed.
  • the DNA mutation rate is used as an evaluation index regardless of whether the DNA contained in the sample is a functional region or a non-functional region. Yes.
  • DNA evaluation method, DNA evaluation apparatus and program according to the present invention can be applied to environmental evaluation.
  • the environmental evaluation method to which the present invention is applied is based on a DNA sequence information acquisition procedure obtained from a sample collected from an individual, and a DNA sequence information acquisition procedure obtained at different times by the nucleotide sequence information acquisition procedure. Comparing information on base sequences, specifying different base sequence parts, specifying a ratio of the different base sequence parts to the whole as a mutation rate, and evaluating environmental changes based on the mutation rate Environmental assessment procedures.
  • the environment evaluation apparatus includes a base sequence information input unit for inputting information on a base sequence of DNA obtained from a sample collected from an individual, and a DNA acquired at different times by the base sequence information input unit. Comparison between the information on the base sequences of the two, identifying the different base sequence parts, and the mutation rate specifying means for specifying the ratio of the different base sequence parts to the whole as the mutation rate, and evaluating the environmental change based on the mutation rate Environmental evaluation means.
  • the program according to the present invention is a program for causing a computer to execute an environmental change evaluation procedure, which causes the computer to function as control means, and is obtained from a sample collected from an individual with respect to the control means.
  • the base sequence input step for inputting information on the base sequence of DNA and the information on the base sequence of DNA acquired at different times by the base sequence input step are compared, and the different base sequence portions are identified and different.
  • a mutation rate specifying step for specifying the ratio of the base sequence portion to the whole as a mutation rate and an environment evaluation step for evaluating an environmental change based on the mutation rate are performed.
  • the DNA mutation rate is used as an evaluation index regardless of whether the DNA contained in the sample is a functional region or a non-functional region.
  • the degree of mutation that has occurred throughout the genome can be assessed.
  • environmental changes such as air pollution, water pollution, and / or radioactive pollution can be properly grasped from the aspect of influence on DNA. .
  • FIG. 1 shows an outline of a DNA evaluation method 1 as an example of an embodiment to which the present invention is applied.
  • DNA information is collected using a sample collected from the subject 5 as shown in FIG.
  • this DNA information is information relating to the base sequence of DNA.
  • Information on the base sequence of DNA is meant to include base sequence information, electrophoretic pattern information of restriction enzyme-treated fragments, information on hybridization with probes, and the like.
  • the information on the DNA base sequence includes text data indicating the DNA base sequence, image data indicating the electrophoresis pattern of the restriction enzyme-treated fragment, microarray data indicating the presence or absence of hybridization with various probes, and the like.
  • the DNA information is information relating to the base sequence of DNA, and is information that can detect a difference in base sequence by comparison.
  • a difference between base sequences, that is, a mutated base can be specified by comparing a plurality of text data in character units.
  • the DNA information is image data indicating an electrophoretic pattern
  • the presence or absence of a difference in base sequence can be specified by comparing band patterns included in a plurality of image data.
  • the DNA information is microarray data
  • the presence or absence of a base sequence difference can be specified by comparing a plurality of microarray data (signal intensity of each probe spot).
  • the process of collecting DNA information is performed a plurality of times over time.
  • the interval at which DNA information is collected is not particularly limited. For example, it may be several months to several years, six months to three years, or one year.
  • the method for collecting DNA information can be appropriately selected according to the content of the DNA information as described above.
  • the sample collected from the subject 5 is a sample from the same site.
  • the sample can be collected from the blood, oral mucosa, lymph node, breast, thyroid, prostate, lung, esophagus, stomach / duodenum, large intestine, bronchus, skin / muscle / subcutaneous, bone (pelvis / vertebra), eye , Ear / nose (sinus), pharynx / larynx, rectum, testis (epididymis), peripheral nerve, uterine vagina / intima and the like.
  • samples may be collected from a plurality of sites, and DNA information may be collected over time for each site.
  • the subject 5 refers to animals such as humans, mice, rats, medaka, zebrafish, and Xenopus; plants such as Arabidopsis, rice, wheat, tobacco, and poplar; Bacillus subtilis, Escherichia coli, cyanobacteria, red bread mold, and budding yeast. , Including microorganisms such as fission yeast and Aspergillus nidulans.
  • the subject 5 is not particularly limited, and can be appropriately selected according to the purpose of the DNA evaluation method 1, for example.
  • a human can be the subject 5.
  • the DNA evaluation method 1 when used for quantitative evaluation of environmental change, a plant or animal grown in an environment in which the environmental change has occurred can be used as the subject 5.
  • the plant to be the subject 5 can be a model plant such as Arabidopsis thaliana, rice, wheat, tobacco, poplar, etc. for which genome analysis and the like have been completed.
  • the DNA evaluation method 1 is used for evaluating environmental changes in water quality, a medaka or zebrafish for which genome analysis or the like has been completed can be used as the subject 5.
  • the sample to be collected may be the entire plant body, or may be a part of organs (leaves, stems, seeds, flowers, roots).
  • so-called meristem stem (shoot) or tip of root
  • meristem stem (shoot) or tip of root
  • mature tissue may be used as a sample.
  • the subject 5 is a plant, a non-human animal, or a microorganism
  • a wild-type plant, a non-human wild-type animal, or a wild-type microorganism may be used, or a predetermined gene or DNA fragment is introduced. Mutated mutants (transformants) may be used.
  • a change in the DNA state can be detected by comparing a plurality of pieces of DNA information collected over time and identifying differences in the base sequences. .
  • the specified difference can be regarded as a mutation that occurred during the period in which the DNA information was collected.
  • mutations occurring in a predetermined period can be calculated as a ratio (difference mutation rate) to the base sequence included in the DNA information, or a difference from the base sequence included in the DNA information collected for the first time can be calculated. It is also possible to calculate the integrated mutation rate by integrating the mutation rate.
  • both the differential mutation rate and the integrated mutation rate are calculated from the mutation rate calculated as a ratio with respect to the total of different base sequence portions by comparing DNA information.
  • the ratio to the whole means the full length of the base sequence included in the compared DNA information, but is not particularly limited to the full length, and may be a part of the base sequence.
  • the DNA information to be compared may be the entire genome of the subject 5 or a part of the genome. That is, in the DNA evaluation method 1, the differential mutation rate and / or the cumulative mutation rate may be calculated from the mutation rate in the entire genome, or the differential mutation rate and / or the cumulative mutation rate is calculated from the mutation rate in a part of the genome. It may be calculated. Alternatively, in the DNA evaluation method 1, the differential mutation rate and / or the integrated mutation rate may be calculated from the mutation rate in the nucleic acid artificially introduced into the subject 5.
  • the number of mutated bases is specified, so the number of mutation sites and the mutation rate are equivalent. That is, in the DNA evaluation method 1, the difference mutation rate may be used instead of the differential mutation rate, or the integrated mutation rate may be used instead of the integrated mutation rate. For example, the number of differential mutations and / or the total number of mutations may be calculated from the number of mutations in a part of the genome or an artificially introduced nucleic acid.
  • the calculated differential mutation rate and / or integrated mutation rate can be displayed as a graph. More specifically, as shown in FIG. 1, the transition graph 2A of the differential mutation rate and the transition graph 2B of the cumulative mutation rate of the subject 5 can be displayed at the time of sampling 2 over time. Similarly, at the time of 3 sampling, the transition graph 3A of the differential mutation rate of the subject 5 and the transition graph 3B of the integrated mutation rate can be displayed. Further, when sampling over time N (N is a natural number), a transition graph 4A of the differential mutation rate of the subject 5 and a transition graph 4B of the cumulative mutation rate can be displayed. When DNA information is collected from a plurality of parts of a specific subject 5, a transition graph of a differential mutation rate and a cumulative mutation rate transition graph for each part can be displayed for each part.
  • a reference range is set in advance for the differential mutation rate, and when the calculated differential mutation rate exceeds the reference range, information indicating that the differential mutation rate is an abnormal value is provided. It is preferable to do.
  • a threshold is set in advance for the integrated mutation rate, and when the calculated integrated mutation rate exceeds the threshold, information indicating that the integrated mutation rate has exceeded the threshold is provided. It is preferable.
  • a caution display 4C indicating “Needs Action” may be displayed. it can.
  • a caution display 4D indicating “Action required” can be displayed.
  • the differential mutation rate and / or the integrated mutation rate can be calculated for each site.
  • caution displays 4C and 4D can be displayed on the transition graph of the differential mutation rate and the transition graph of the integrated mutation rate calculated for each part, respectively.
  • the reference range relating to the differential mutation rate and the threshold relating to the integrated mutation rate may be values common to a plurality of parts, but different values may be set for each part.
  • DNA information is collected over time for the subject 5, and based on the DNA information, the state of DNA in the subject 5 (differential mutation rate and integrated mutation rate). ) Can be evaluated. Therefore, the risk of genetic disease in the subject 5 can be evaluated by using the DNA evaluation method 1. That is, among genetic diseases, it is possible to determine a point in time when the risk of a disease (for example, cancer) caused by an acquired genetic mutation is increased. However, this DNA evaluation method 1 does not diagnose a specific disease itself caused by a gene mutation, but performs a risk assessment based on the knowledge that acquired mutation accumulation in the gene causes the gene disease. Is.
  • risk assessment can be performed independently for each site.
  • the DNA state (differential mutation rate or integrated mutation rate) is evaluated for each site as described above, and the differential mutation rate is within the reference range.
  • 4C and 4D may be displayed at a stage where the number of sites exceeding the threshold or the number of sites where the cumulative mutation rate exceeds the threshold reaches a certain number.
  • DNA information is collected over time for a subject 5 as a specific individual, and the state of DNA in the subject 5 is evaluated based on the DNA information. It was.
  • a group consisting of a plurality of subjects 5 may be evaluated, and the DNA state in the group may be evaluated epidemiologically.
  • the DNA information is collected over time for each subject 5 included in the group, and the differential mutation rate and the integrated mutation rate are calculated. Then, the average value of the differential mutation rate and the average value of the integrated mutation rate can be evaluated as the DNA state in the population for the evaluation target population. That is, the caution display 4C and 4D can be displayed for the evaluation target group by comparing the average value of the differential mutation rate and the average value of the integrated mutation rate with the reference range and threshold value, respectively.
  • the DNA evaluation method 1 regardless of whether the subject 5 is singular or plural, there is a difference between individuals and groups, and the variation of the DNA accumulated in the DNA as the state of DNA. The degree can be evaluated. As is clear from the above description, the difference mutation rate and the accumulated mutation rate exceed the reference range and the threshold, respectively. It means that a specific event that induces a mutation in DNA occurred during the collection of DNA information exceeding the threshold.
  • a specific event is a factor that induces mutations in the DNA that constitutes the genome, and has a mutation rate that is significantly higher than the mutation rate that occurs in a normal state (the situation in which the factor is absent). It is a factor that induces mutation.
  • the present DNA evaluation method 1 can be applied, for example, when evaluating that there is a change to the extent that the DNA is induced in the environment around the subject 5. That is, it is assumed that an environmental change that causes a problem occurs between time N-1 and time N (time N-1 and time N are both points at which DNA information is collected). Then, if the difference mutation rate and the accumulated mutation rate exceed the reference range and the threshold value by comparing the DNA information of N with time and the DNA information of N-1 with time, it occurs between N-1 and N with time. Therefore, it can be evaluated that the environmental change induces a considerable degree of mutation in DNA.
  • the considerable degree of mutation means a mutation rate that exceeds a mutation rate defined by the reference range or threshold.
  • the present DNA evaluation method 1 it is possible to evaluate the problematic environmental change based on the mutation rate of DNA.
  • environmental changes such as air pollution, water pollution, and radioactive pollution
  • seaweed such as kelp, seaweed or aquatic plants
  • seaweed, seaweed, and aquatic plants such as kelp as the specimen 5
  • fish such as carp and medaka placed in a net cage near the drain outlet are used as the subject 5. can do.
  • the temporal data acquisition procedure 10 includes a DNA extraction phase 10A, a fragment generation phase 10B, and a temporal data generation phase 10C.
  • the examiner first samples cells / tissues from the subject 5. At this time, in the DNA extraction phase 10A, it is preferable to sample cells / tissues for the same part of the same individual. Thereafter, DNA is extracted from the collected sample.
  • DNA information collected from the same individual preferably the same site (including the same tissue or organ) of the same individual. It is desirable to carry out DNA information. By analyzing such DNA information of the same individual, comparison and evaluation that are not affected by individual differences are possible.
  • a change (mutation) of DNA can be quickly numerically evaluated with one number called a mutation rate calculated based on the DNA information.
  • the DNA extraction phase 10A when sampling from the subject 5 a plurality of times over time, it is preferable to sample approximately the same amount of cells / tissue in each sampling. This is because the DNA state of the organism can be evaluated under the same conditions. Even in the same living organism, the turnover rate of cells and the sensitivity to environmental changes differ depending on the tissue and organ, so by repeating sampling from the same site over time, the difference between such tissues and organs can be reduced. This is because it is easy to eliminate the difference in the mutation rate derived from it.
  • the tester cleaves the sample DNA 6 obtained in the DNA extraction phase 10A using one or more types of endonucleases, for example, one or more types of restriction enzymes 7.
  • the plurality of fragments generated in the fragment generation phase 10B preferably have a length that can be analyzed by a DNA sequencer used in a later step. The length of the fragment can be appropriately adjusted depending on the type of restriction enzyme 7 to be used.
  • the same restriction enzyme is used to generate a fragment group 8 for a plurality of samples of DNA 6 sampled over time in the DNA extraction phase 10A.
  • the fragment group 8 can be obtained by cleaving the above-described one or more specific restriction enzymes (for example, EcoRI) by causing them to act on the DNA 6 under predetermined conditions.
  • the exemplified EcoRI recognizes a 6 base sequence “5′-GAATTC-3 ′” and cuts so that the 5 ′ end becomes “AATTC” sequence and the 3 ′ end becomes “G”. This is a restriction enzyme derived from the R strain.
  • the fragment generation phase 10B is not limited to this, and other endonucleases such as restriction enzymes (for example, restriction enzymes with 4-base recognition or 8-base recognition) may be used.
  • restriction enzymes for example, restriction enzymes with 4-base recognition or 8-base recognition
  • the obtained sample DNA 6 can be made into a fragment of a desired length.
  • a plurality of different fragment groups 8 may be produced from the acquired DNA 6 of the sample. That is, for example, a plurality of fragment groups 8 including different fragments can be produced by cleaving a predetermined DNA 6 with a combination of different restriction enzymes and different restriction enzymes.
  • the base sequence can be determined as one fragment for each chromosome.
  • the fragment generation phase 10B is not limited to the form of fragmenting DNA using restriction enzymes, and may be fragmented by a physical method such as ultrasonic treatment.
  • the examiner analyzes the base sequence of the fragments included in the fragment group 8 generated in the fragment generation phase 10B using the DNA sequencer 20.
  • the principle of sequencing in the DNA sequencer 20 is not particularly limited, and a conventionally known apparatus can be used as appropriate.
  • base sequence information determined for the fragments included in the fragment group 8 is stored in a predetermined storage device or the like.
  • the storage device stores base sequence information (referred to as a time-dependent X file, a time-dependent Y file, and a time-dependent Z file in FIG. 2) for each sampled DNA over time.
  • the base sequence is determined after fragmenting the DNA sampled over time. That is, in the time-dependent data generation phase 10C, the DNA base sequence of the sample to be compared for obtaining the mutation rate is the base sequence regardless of whether the DNA base sequence is a functional region or a non-functional region. The entire data obtained from the decision is used. As a result, the amount of data serving as a reference for obtaining the mutation rate increases, and a mutation rate with higher sensitivity and accuracy can be obtained.
  • the DNA of the same individual can be compared in principle even if fragment groups 8 with different collection times are compared. Since the fragments to be included are included in each other, the corresponding fragment can be identified and the mutation rate can be accurately calculated in the temporal data evaluation procedure described later.
  • next-generation sequencer capable of high-throughput analysis.
  • Next-generation sequencers include, for example, Genome Sequencer FLX system (Roche Diagnostics), HiSeq / Genome Analyzer IIx (GAIIx) / MiSeq (Illumina) and Ion PGM sequencer (Ion PGM) (Life Technologies) Can be mentioned.
  • FIG. 6 shows a nucleic acid information processing apparatus 100 as shown in FIG. 6 so as to be associated with information on the subject 5, information on the sampled part, and information on the acquisition time.
  • FIG. 3 shows a temporal data evaluation procedure using the temporal file 21 stored in the storage unit 130. Since time-lapse files are derived from samples collected over time from the same part of the same individual and fragments are obtained using the same restriction enzyme, the number of fragments included in each time-lapse file is within a certain range. It is thought to converge.
  • the temporal data evaluation procedure includes a mutation rate calculation phase 10D and a result output phase 10E, as shown in FIG.
  • the nucleic acid information processing device 100 reads two different time-dependent files 21, compares the same or corresponding fragments, and calculates the mutation rate.
  • the nucleic acid information processing apparatus 100 compares the number of fragments included in a pair of time-lapse files, and the fragment included in the reference time-lapse file is compared with the time-lapse file having the smaller number of fragments as a reference.
  • the number M of coincident bases (M is 0 or a positive integer) with each of all the fragments of the time-dependent file to be compared is calculated (step 31). That is, the coincidence base number M is calculated for all of the predetermined fragments included in the reference time-dependent file and the fragments included in the time-based file to be compared. This calculation is performed for all of the fragments contained in the baseline time file.
  • the coincidence base number M can be calculated by a so-called pairwise alignment algorithm.
  • the nucleic acid information processing device 100 specifies, for each fragment included in the reference time-lapse file, the comparison target fragment with the maximum matching base number M as the corresponding fragment (step 32). Specifically, the nucleic acid information processing device 100 compares the number of coincident bases M calculated in step 31 to identify the fragment with the maximum M value for each fragment included in the reference time-lapse file, Correspond with the value of M concerned.
  • the nucleic acid information processing device 100 compares the corresponding fragment with the sequence length for each fragment of the reference time-lapse file, and specifies the shorter one as the reference base sequence length L (step 33).
  • the calculation of the reference base sequence length L is performed for all the fragments included in the reference time-lapse file.
  • the nucleic acid information processing device 100 sums up the matching base number M and the reference base sequence length L, which are calculated for all of the fragments included in the reference time-lapse file, to obtain the total matching base number M and the total reference base.
  • the array length L is calculated (step 34).
  • the nucleic acid information processing device 100 divides the total matching base number M by the total reference base sequence length L, and specifies the total matching rate (step 35).
  • the nucleic acid information processing device 100 subtracts the total coincidence rate from 100% and calculates and stores it as a mutation rate (step 36).
  • the above is the procedure of the mutation rate calculation phase 10D.
  • differences between corresponding fragments are identified by comparing two time-lapse files, and the total ratio of the number of base sequences in the mutation portion to the total number of reference base sequence lengths is changed for the corresponding fragments. It can be calculated as a rate.
  • the mutation rate is not limited to this example, and the base sequence acquired in the time-dependent data generation phase 10C may be used to calculate the difference in base sequence between corresponding fragments quantitatively. Good.
  • a so-called next-generation sequencer is used in the time-dependent data generation phase 10C
  • a large amount of base sequence information of a fragment of several hundred bp called “read” can be obtained by one operation.
  • a lead having a restriction enzyme site used at the time of producing a fragment is extracted.
  • a region with high base sequence determination accuracy for example, 50 to 200 bases from the beginning of each lead
  • a region (referred to as a tag sequence) specified in each lead is determined with a mutation rate. It can be used for calculation.
  • the entire tag sequence is included with a predetermined frequency of appearance.
  • the appearance frequency is a constant value if the samples are collected from the same part of the same individual.
  • the frequency of appearance of the tag sequence differs before and after the introduction of the mutation. Therefore, the ratio of the tag sequence whose appearance frequency fluctuates between a pair of time-lapse files to the entire tag sequence is a value that quantitatively indicates the difference in the base sequence between the corresponding fragments, and can be used as the mutation rate. .
  • the number of introduced mutations can be calculated based on the number of tag sequences whose appearance frequency fluctuates, for example, by assuming that one mutation has been introduced into the tag sequence whose appearance frequency has changed.
  • the ratio of the calculated number of mutation bases to the total number of bases of all tag sequences is a value that quantitatively indicates the difference in the base sequences between corresponding fragments, and can be used as a mutation rate.
  • the nucleic acid information processing device 100 outputs the mutation rate calculated in the mutation rate calculation phase 10D.
  • the nucleic acid information processing device 100 specifies the degree of need for attention compared to a predetermined reference range when the obtained mutation rate is a differential mutation rate for comparison with a previous time-lapse file, Graphs are output in order of sample collection and output together with the degree of caution (step 41).
  • the nucleic acid information processing device 100 specifies the degree of attention required in comparison with a predetermined threshold when the obtained mutation rate is an integrated mutation rate for comparison with a fixed time-based file serving as a reference. Graphs are output in order of sample collection and output together with the degree of caution (step 42).
  • FIG. 4 is a diagram for explaining the concept of the differential mutation rate.
  • DNA information is read from a sample collected over time for a predetermined subject 5 as described above, and DNA information that moves back and forth over time is obtained.
  • the mutation rate calculated as described above is set as the differential mutation rate. It should be noted that whether or not the differential mutation rate is within a normal range, that is, the evaluation of the DNA state can be specified by whether or not the difference mutation rate is included in the standard fluctuation range of the steady state. That is, if the difference mutation rate accumulated in the past is not within the standard fluctuation range, it can be determined that the mutation rate is abnormal, that is, the probability that there has been an environmental change or the like is increased.
  • the mutation rate is likely to be within the normal range, and the probability that there has been an environmental change or the like will be low.
  • a method of setting the maximum value of the past differential mutation rate of the subject 5 as the upper limit and the minimum value as the lower limit can be considered.
  • the present invention is not limited to this.
  • a method is also conceivable in which an average value of past differential mutation rates of the subject 5 is obtained, a predetermined weight is given to the average value, and an upper limit and a lower limit are set.
  • obtain the statistical value such as the weighting, median or average deviation of the differential mutation rate of multiple samples in the steady state, and set the standard fluctuation range based on this You may make it do.
  • the differential mutation rate calculated as described above is based on the digital data of the base sequence using the DNA of the sample of the same part of the same individual for each sample, and there is no adverse effect of deterioration over time on storage, and it is easy and reproducible. Can be calculated as a high value.
  • the numerical value of the differential mutation rate can be slightly changed due to an accidental factor even if there is no large environmental change. In the method shown in FIG. 4, for example, by giving a range to the numerical value of the differential mutation rate and capturing the steady state as a range instead of a single numerical value, the probability that a variation in the mutation rate due to an accidental cause is regarded as an abnormal situation is obtained. Decrease and grasp the trend.
  • FIG. 5 is a diagram for explaining the concept of the integrated mutation rate.
  • DNA information is read from a sample collected over time for a predetermined subject 5 as described above, and a certain reference sample (for example, Compared to the first sample or a sample within a predetermined period of time) and calculated as an integrated mutation rate.
  • the integrated mutation rate can be calculated by integrating the differential mutation rate, which is the variation rate of the sample DNA of one interval that moves back and forth in time series, over time. By using this integrated mutation rate, the amount of mutation accumulated over an arbitrary time can be evaluated.
  • the integrated mutation rate is within a normal range, that is, the evaluation of the DNA state is a fixed threshold (threshold in view of the risk of occurrence of a disease or abnormality, preferably as many as possible from existing literature and others) Based on this information, it is specified by whether or not it exceeds a reasonable cumulative mutation rate that can be said to increase such that the risk of developing a disease or abnormality cannot be overlooked.
  • the threshold value is exceeded, it is highly possible that the mutation rate is abnormal, that is, the probability that there has been an environmental change or the like is high. That is, it can be determined that the risk of occurrence of a disease or abnormality for the subject 5 has increased from the steady state.
  • the integrated mutation rate calculated as described above is also based on the digital data of the base sequence using the DNA of the sample of the same individual of the same individual for each sample. It can be calculated as a high value.
  • FIG. 6 is a diagram showing an outline of the configuration of the nucleic acid information processing device 100.
  • the nucleic acid information processing apparatus 100 includes a control unit 110, a storage unit 130, an output display unit 140, and an input reception unit 150.
  • the control unit 110 includes an input processing unit 111, an output processing unit 112, a DNA base sequence specifying unit 113, a temporal data management unit 114, a temporal data comparison unit 115, a mutation rate specifying unit 116, and a graph generation unit 117. And comprising.
  • the input processing unit 111 receives input of predetermined information input from the input receiving unit 150.
  • the output processing unit 112 delivers information to be output to the output display unit 140.
  • the information to be output is, for example, a screen that accepts designation of time-dependent data for calculating the mutation rate, screen information indicating information such as the calculated mutation rate and its graph, and the like.
  • the DNA base sequence specifying unit 113 performs the same processing as the so-called DNA sequencer 20. For example, the set fragment is analyzed to determine the type of base, and the base sequence is specified.
  • the temporal data management unit 114 stores and reads out the base sequence specified by the DNA base sequence specifying unit 113 according to the subject 5 and the time.
  • the temporal data comparison unit 115 compares base sequences between temporal data at different collections, and identifies and associates fragments to be compared.
  • the mutation rate specifying unit 116 specifies the matching rate according to the length of the matching site of the fragments associated by the time-dependent data comparing unit 115, and specifies the mutation rate based on the matching rate.
  • the graph generation unit 117 uses the mutation rate identified by the mutation rate identification unit 116 to create graph display information. For example, the graph generation unit 117 creates display information of a two-dimensional graph configured with the time transition as the horizontal axis and the mutation rate as the vertical axis.
  • the storage unit 130 includes a temporal data storage unit 131, a fragment correspondence information storage unit 132, a mutation rate derivation table storage unit 133, and a coincidence base number calculation table storage unit 134.
  • the nucleic acid information processing apparatus 100 may be configured not to include the DNA base sequence specifying unit 113 (DNA sequencer 20) but to input base sequence information from a separate and independent DNA sequencer.
  • the external DNA sequencer and the nucleic acid information processing apparatus 100 may be directly connected online, or may be connected via a communication network such as the Internet. Further, the nucleic acid information processing apparatus 100 may input base sequence information analyzed by an external DNA sequencer via the input receiving unit 150.
  • a species identifier 131A, an individual identifier 131B, and a collection time identifier 131C are stored in association with each other.
  • the collection identifier 131C stores a site identifier 131D, a differential mutation rate 131E, an integrated mutation rate 131F, and a temporal data identifier 131G in association with each other.
  • the fragment ID 131H and the base sequence information 131K are stored in association with each other in the time data identifier 131G.
  • the species identifier 131A is information that identifies the object that collected the DNA to be time-lapse data, that is, the biological species of the subject 5. For example, information specifying a species such as “human” or “dog”. Although it is named as a species identifier, it does not have to be strictly a species, and may be any biological classification of the world, gate, class, eye, family, genus, species, or more detailed classification. .
  • the individual identifier 131B is information for specifying the individual of the subject 5.
  • character string information such as a name for identifying an individual, information such as a social security number, a patient number, and a subscriber number.
  • the collection time identifier 131C is information for specifying the time when DNA is collected from the subject 5. For example, it is not limited to date / time information, and may be information specifying a year and month.
  • the site identifier 131D is information for specifying the site of the subject 5 from which the DNA was collected. For example, it is information for specifying a part such as a mucous membrane inside the cheek. In addition, it is not restricted to the concept of a site
  • the differential mutation rate 131E is information that specifies the differential mutation rate compared with the previous time-lapse data in the order of collection specified by the collection identifier 131C.
  • the cumulative mutation rate 131F is information for specifying the cumulative mutation rate compared with the time-lapse data at the time of collection serving as a predetermined reference in the order of collection specified by the identifier 131C at the time of collection.
  • the time-dependent data identifier 131G is a unique identifier assigned according to the combination of the species identifier 131A, the individual identifier 131B, the collection time identifier 131C, and the part identifier 131D.
  • the fragment ID 131H is information for distinguishing fragments included in the fragment group specified by the time-dependent data identifier 131G from other fragments.
  • the base sequence information 131K is information for specifying the sequence of the base sequence of the fragment specified by the fragment ID 131H.
  • the above is the time data storage unit 131 shown in FIG.
  • the fragment identifier 132A As an example, in the fragment correspondence information storage unit 132, as shown in FIG. 8, the fragment identifier 132A, the highest match fragment identifier 132B, the reference base sequence length 132C, the match rate base number 132D, and the base sequence match Rate 132E.
  • the fragment identifier 132A is information for identifying a fragment.
  • the highest matching fragment identifier 132B is information that identifies a fragment having the highest base sequence matching rate with the fragment of the fragment identifier 132A among fragments included in the temporal data to be compared, that is, a pair of fragments.
  • the reference base sequence length 132C is information for specifying the shorter one of the length of the fragment identifier 132A and the length of the paired fragment.
  • the coincidence base number 132D is information for specifying the number of bases of the coincidence portion between the fragment identifier 132A and the highest coincidence fragment identifier 132B.
  • the base sequence match rate 132E is the ratio of the matching base number 132D to the reference base sequence length 132C.
  • the mutation rate derivation table storage unit 133 includes a total reference base sequence length 133A, a total number of matching bases 133B, a total matching rate 133C, and a mutation rate 133D.
  • the total reference base sequence length 133A is a value obtained by adding the reference base sequence length 132C to the time-lapse data, that is, all the fragments in the fragment group.
  • the total coincidence base number 133B is a value obtained by adding the coincidence base number 132D to all fragments that are temporal data, that is, fragments in the fragment group and associated with other temporal data.
  • the total match rate 133C is a ratio of the total match base number 133B to the total reference base sequence length 133A.
  • the mutation rate 133D is the ratio occupied by bases that do not match the total base sequence length 133A.
  • the matching base number calculation table storage unit 134 is a table for calculating the number of matching bases between a pair of fragments.
  • the coincidence base number calculation table storage unit 134 shown in FIG. 10 the base sequence of the fragment read from the fragment included in the reference time-dependent file, which is the comparison target with a small number of fragments on the vertical axis 134A, is shown for each base. Assigned. On the horizontal axis 134B, the base sequences of the fragments read from the fragments included in the comparison time-dependent file with a large number of fragments are described for each base. The maximum number of portions where the bases of the fragments match is stored in the intersection on the upper left of the intersections of the vertical axis and the horizontal axis. It can be said that the coincidence base number calculation table storage unit 134 is a work table used to indicate the correspondence status of fragments.
  • the output display unit 140 outputs various information such as GUI (Graphical User Interface) or CUI (Character-based User Interface) of the nucleic acid information processing apparatus 100.
  • the input receiving unit 150 receives input of GUI or CUI operation information.
  • the input receiving unit 150 receives information on various operations such as an input for starting a specific process for the DNA base sequence specifying unit 113.
  • FIG. 11 is a diagram showing a hardware configuration of the nucleic acid information processing apparatus 100.
  • the nucleic acid information processing apparatus 100 mainly includes, for example, a personal computer (PC), various mobile phone terminals including a workstation, a server device, a smartphone, and the like, and a computer such as a PDA (Personal Digital Assistant). It is a processing device.
  • PC personal computer
  • various mobile phone terminals including a workstation, a server device, a smartphone, and the like
  • a computer such as a PDA (Personal Digital Assistant). It is a processing device.
  • PDA Personal Digital Assistant
  • the nucleic acid information processing device 100 includes an input device 101, an external storage device 102, an arithmetic device 103, a main storage device 104, a sequencer 105, an output device 106, and a bus 107 that connects the devices to each other. Have.
  • the input device 101 is a device that receives input from, for example, a keyboard, a mouse, a touch pen, a pressure-sensitive touch sensor, an electrostatic induction touch sensor, and other pointing devices.
  • the external storage device 102 is a nonvolatile storage device such as a hard disk device, a flash memory, or an SSD (Solid State Disk).
  • a nonvolatile storage device such as a hard disk device, a flash memory, or an SSD (Solid State Disk).
  • the computing device 103 is a computing device such as a CPU (Central Processing Unit).
  • CPU Central Processing Unit
  • the main storage device 104 is a memory device such as a RAM (Random Access Memory).
  • the sequencer 105 analyzes the base sequence of the DNA fragment set by a predetermined method, associates the identifier with the fragment, and stores the base sequence data obtained as a result of the analysis in the temporal data storage unit 131. Device.
  • the output device 106 is a device that outputs a screen including input information including a screen that accepts input information and a graph, and is a liquid crystal display, an organic EL (Electro Luminescence) display, a printer, or the like.
  • a liquid crystal display an organic EL (Electro Luminescence) display, a printer, or the like.
  • Input processing unit 111, output processing unit 112, DNA base sequence specifying unit 113, temporal data management unit 114, temporal data comparison unit 115, mutation rate specifying unit 116, and graph generation unit of nucleic acid information processing apparatus 100 117 is realized by a program that causes the arithmetic device 103 of the nucleic acid information processing device 100 to perform processing.
  • This program is stored in the main storage device 104 or the external storage device 102, loaded onto the main storage device 104 for execution, and executed by the arithmetic device 103.
  • the storage unit 130 of the nucleic acid information processing device 100 is realized by the external storage device 102 and the main storage device 104 of the nucleic acid information processing device 100.
  • the output display unit 140 of the nucleic acid information processing device 100 is realized by the output device 106.
  • the input receiving unit 150 of the nucleic acid information processing device 100 is realized by the input device 101.
  • the above is the hardware configuration of the nucleic acid information processing apparatus 100.
  • the mutation rate calculation process is a process corresponding to Step 31 to Step 36 of the mutation rate calculation phase 10D. For this reason, in the state where the time file 21 has already been generated, the specification of the two time files to be compared is designated as time data to be compared by the examiner.
  • the temporal data comparison unit 115 compares the number of fragments of the temporal data to be compared as shown in FIG. 12, and sets the smaller temporal data as I1 to “row (vertical index Q)”. And the more time-lapse data is defined as I2 and defined as “column (lateral index R)” (see FIG. 10 (S101)).
  • the temporal data comparison unit 115 acquires the corresponding fragment ID 131H and base sequence information 131K for each temporal data specified with reference to the temporal data storage unit 131. Then, the time data comparison unit 115 compares the number of records of the base sequence information 131K between the time data, and specifies the number of fragments. Then, the fragment ID 131H included in the time-dependent data with the smaller number of fragments is stored in the fragment identifier 132A of the fragment correspondence information storage unit 132, and the index Q and R (Q and R are both positive integers) 2 A dimension array is allocated, and fragment ID and base sequence information are stored as sequence data.
  • the time data comparison unit 115 initializes Q by setting 1 (step S102). Further, the time-lapse data comparison unit 115 initializes R by setting 1 (step S103).
  • the temporal data comparison unit 115 performs fragment base of one of the row-side fragments P1 stored in the row (Q) of the two-dimensional array and one of the column-side fragments stored in the column (R) P2.
  • the sequence lengths are compared, and the shorter fragment base sequence length is defined as P3 as the comparative base sequence length (step S104).
  • the temporal data comparison unit 115 uses the inter-group base sequence comparison routine, which is a method applying the DP matching method, for the process of calculating the number of coincident bases, and details will be described later with reference to FIG. By this processing, the number of matching bases O1 and the base sequence matching rate O2 between one base sequence P1 of the row side fragment and one base sequence P2 of the column side fragment are specified (step S105).
  • the number of matching bases is the total length of the matching parts of the base sequences of the row side and column side fragments, and is O1 in FIG.
  • the base sequence match rate is the ratio of the number of matched bases to the comparison base sequence length, and is O2 in FIG.
  • the temporal data comparison unit 115 determines that the base sequence match rate calculated in step S104 is the maximum match rate between the column (1) to the column (R-1) for the row (Q). It is determined whether or not the matching rate is exceeded (step S106). If not, the time-dependent data comparison unit 115 advances the control to step S107 to perform comparison with the next column (R + 1).
  • the temporal data comparison unit 115 When the base sequence match rate calculated in step S105 exceeds the inter-fragment match rate of the column (R) for the row (Q) (“ ⁇ ” in step S106), the temporal data comparison unit 115 The following information is stored in the record corresponding to the fragment identifier 132A in the fragment correspondence information storage unit 132 (step S107). Specifically, the fragment ID of the column (R) is stored in the highest matching fragment identifier 132B, the value of P3 is stored in the reference base sequence length 132C as the reference base sequence length, and the matching base number is stored in the matching base number 132D. The base sequence match rate is stored in the base sequence match rate 132E.
  • step S108 the time data comparison unit 115 increments R (step S108).
  • the temporal data comparison unit 115 determines whether or not R exceeds the number of columns of the two-dimensional array (step S109). If not, the elapsed time data comparison unit 115 returns the control to step S105.
  • step S109 When R exceeds the number of columns of the two-dimensional array (“Yes” in step S109), the time-lapse data comparison unit 115 increments Q (step S110).
  • the temporal data comparison unit 115 determines whether or not Q exceeds the number of rows of the two-dimensional array (step S111). If not, the elapsed time data comparison unit 115 returns the control to step S103.
  • the mutation rate specifying unit 116 stores the information after calculating each value to be stored in the mutation rate derivation table storage unit 133 (step S112). Specifically, the mutation rate specifying unit 116 stores a value of H for the total base sequence length 133A.
  • the value of the total base sequence length 133A is “50” which is the reference base sequence length 132C of the fragment whose fragment identifier 132A is “1a”, and the fragment identifier 132A is “ The value up to “45” that is the reference base sequence length 132C of the fragment that is “5a” is “230”.
  • the mutation rate specifying unit 116 stores S for the total number of matching bases 133B.
  • the value of the total matching base number 133B is “50”, which is the matching base number 132D of the fragment whose fragment identifier 132A is “1a”, and the fragment identifier 132A is “5a”. Is a value obtained by accumulating values up to “45”, which is the matching base number 132D of the fragment “”.
  • the mutation rate specifying unit 116 stores the ratio of the total number of matching bases 133B in the value of the total base sequence length 133A with respect to the total matching rate 133C.
  • the value stored in the total matching rate 133C is a value corresponding to the total matching rate in the mutation rate calculation phase 10D of the DNA evaluation method 1 according to the present invention.
  • the mutation rate specifying unit 116 stores a value obtained by subtracting the rate (%) specified by the total matching rate 133C from the overall rate (%) with respect to the rate of change 133D.
  • the value stored in the mutation rate 133D is a value corresponding to the mutation rate in the mutation rate calculation phase 10D of the DNA evaluation method 1 according to the present invention.
  • the processing corresponding to steps 31 to 36 in the mutation rate calculation phase 10D of the DNA evaluation method 1 according to the present invention can be performed by calculation using the nucleic acid information processing apparatus 100. Therefore, it can be said that the mutation rate calculation phase can be carried out accurately, quickly, reproducibly and inexpensively.
  • FIG. 13 is a diagram showing a flow showing the calculation processing of the number of matching bases between base sequences performed in step S105 of the mutation rate calculation processing.
  • This process is a technique that applies a DP (Dynamic Programming) matching method, and is a technique that can also be applied to homology analysis of base sequences.
  • DP Dynamic Programming
  • the temporal data comparison unit 115 creates TAB1 that is a table or a two-dimensional array (step S1051). Specifically, the temporal data comparison unit 115 reads two fragments for which the number of matching bases is calculated, that is, the base sequence of the base sequence P1 on the row side and the base sequence P2 on the column side, respectively, and the vertical axis (X ), The bases constituting the base sequence of the P1 fragment are arranged from the beginning in the order of the same number as the comparison base sequence length, and the horizontal axis (Y) which is the other axis constitutes the base sequence of the P2 fragment. The same number of bases as the comparison base sequence length are arranged in the order of the sequence from the beginning to obtain TAB1. Then, at each intersection of TAB1, a value of “1” is stored if the corresponding base on the vertical axis is the same as the base on the horizontal axis, and a value of “0” is stored if they are different.
  • the two base sequences used to create TAB1 are used in the same number as the comparison base sequence length from the beginning of the base sequence information.
  • a reproducible cutting method such as a restriction enzyme, a corresponding fragment is identified between samples with different collection times of the same individual, and the mutation rate is determined. This is because it can be calculated accurately.
  • the mutation rate is determined by calculating the overlapping portion of the base sequences. calculate.
  • TAB1 (X, Y) is used to indicate the value of the intersection of the Sth base on the vertical axis on TAB1 and the Tth base on the horizontal axis.
  • TAB2 is expressed as TAB2 (S, T). S and T are positive integers, and the maximum values of both are the reference sequence length.
  • the temporal data comparison unit 115 creates TAB2 in which TAB1 is duplicated on the coincidence base number calculation table storage unit 134, and the second base from the last on the vertical axis of TAB2 and the second base from the last on the horizontal axis. From the intersection TAB2 (comparison base sequence length -1, comparison base sequence length -1) with the base located at the second position, the intersection between the first base on the vertical axis of TAB2 and the first base on the horizontal axis Processing is performed for all intersections TAB2 (X, Y) toward TAB2 (1, 1) (step S1052). The content of the process is the process of step S1053.
  • the temporal data comparison unit 115 calculates and stores a predetermined value for TAB2 (X, Y) (step S1053). Specifically, the time-dependent data comparison unit 115 first sets the maximum in the matrix of TAB2 (X + 1, Y + 1) to TAB2 (X + 1, comparison array length) and TAB2 (X + 1, Y + 1) to TAB2 (comparison array length, Y + 1). Identify the value. This is referred to as process 1. Next, the obtained maximum value is added to TAB1 (X, Y) and stored in TAB2 (X, Y). This is referred to as process 2. Processing 1 and processing 2 are calculated from TAB2 (comparison base sequence length -1, comparison base sequence length -1) to TAB2 (1, 1) in the order of dotted arrows, and TAB2 is completed.
  • the time-dependent data comparison unit 115 reads the value of TAB2 (1, 1) as the number of matching bases and stores it in the output information 01 (step S1054).
  • the temporal data comparison unit 115 stores the value obtained by dividing the value of the number of coincidence bases in the output information O1 by the comparison base sequence length P3 and multiplying it by 100 as the base sequence coincidence rate in the output information O2.
  • the above is the calculation process of the number of matching bases between the base sequences performed in step S105 of the mutation rate calculation process. According to the calculation process of the number of coincident bases, the longest coincidence base number can be easily obtained.
  • FIG. 16 is an example of the differential mutation rate output screen 200 output from the nucleic acid information processing apparatus 100.
  • the output screen 200 corresponds to a screen showing the result of the process of step 41 in the result output phase 10E of the DNA evaluation method 1 according to the present invention.
  • the nucleic acid information processing device 100 determines the degree of attention required compared to a predetermined reference range when the obtained mutation rate is a differential mutation rate for comparison with the previous time-lapse file. Identify, graph in order of sample collection, and output with degree of attention.
  • the graph generation unit 117 is a temporal file in which the target for which the differential mutation rate is obtained, that is, the species, the individual, and the part match, and the collection time identifier indicates the past. Are read in a predetermined number, and information on the differential mutation rate included in the time-lapse file is arranged in order of time and converted into a line graph or the like to obtain drawing information. In addition, when the time of environmental change is clearly stored on the storage unit 130 or the like, drawing information is created so that the time is shown on the graph.
  • the graph generation unit 117 calculates the standard variation range of the differential variation rate in the past steady state, that is, the state before the environmental change, and generates drawing information to be highlighted, and the calculated differential variation rate is the standard variation range.
  • a predetermined warning message or the like is also embedded and generated in the drawing information.
  • the graph generation unit 117 sets the maximum value of the differential mutation rate before the environmental change as an upper limit and the minimum value as a lower limit.
  • the present invention is not limited to this, and for example, the graph generation unit 117 may obtain an average value of the differential mutation rate before the environmental change, set a predetermined weight on the average value, and set an upper limit and a lower limit.
  • the graph generation unit 117 obtains a statistical numerical value such as a standard deviation, a median value, or an average deviation of a difference variation rate of a plurality of samples in a steady state in order to set a standard fluctuation region in a steady state, and uses this as a reference
  • a standard fluctuation range may be set as follows.
  • a target display area 210 that displays a species identifier, an individual identifier, and a site identifier, a table 220 that shows a numerical value of the differential mutation rate according to the time of collection, and a graph showing a temporal change of the differential mutation rate.
  • a graph display area 230 is displayed.
  • the table 220 includes a differential mutation rate display field 221 and an environment change indication display 222 indicating the time when the environment has changed.
  • the graph display area 230 includes a line graph 233 in which the horizontal axis 231 is a time axis and the vertical axis 232 is a differential mutation rate.
  • an environmental change indicator 234 that clearly indicates the time when the environmental change is indicated
  • a standard variation area 235 of the differential mutation rate in the past steady state that is, the steady state before the environmental change
  • the differential mutation rate are standard.
  • a warning message 236 for example, a text message such as “Action required” is highlighted.
  • the method for displaying the differential mutation rate according to the present invention is not limited to the method of creating one time-lapse file using the total amount of samples collected at one time, but the time of collection is the same for each part of the sample. Create a file, specify the differential mutation rate between parts of multiple time-lapse files with the same collection time, and display the differential mutation rate using the average value of the differential mutation rate between files, etc.
  • the analysis result may be displayed.
  • FIG. 17 is an example of an output screen 300 of the average value of the differential mutation rate output by the nucleic acid information processing apparatus 100 in such a multi-time analysis.
  • the output screen 300 corresponds to a modification of the screen showing the result of the process of step 41 in the result output phase 10E of the DNA evaluation method 1 according to the present invention.
  • the nucleic acid information processing device 100 determines that the average value of the difference mutation rate is the average value of the difference mutation rate obtained by comparing the average value of the calculated mutation rate with the previous time-lapse file.
  • the degree of attention is specified, and the graph is output in the order of sample collection together with the degree of attention.
  • the graph generation unit 117 is a time-lapse file in which the target for which the differential mutation rate is obtained, that is, the species, the individual, and the part match, and the collection identifier is the past.
  • a predetermined number of the time-dependent files shown are read, and information on the difference mutation rate and the average value of the difference mutation rates included in the time-lapse file are arranged in order of time and converted into a line graph or the like to obtain drawing information.
  • the graph may be a bar that displays not only the average value but also the maximum and minimum values or the standard deviation.
  • the drawing information is created so that the time is shown on the graph.
  • the graph generation unit 117 calculates the standard variation area of the differential mutation rate in the past steady state, that is, the state before the environmental change, and generates drawing information to be highlighted, and the average value of the calculated differential mutation rate is
  • a predetermined warning message 336 for example, a “message required” text message
  • the graph generation unit 117 sets the maximum value of the differential mutation rate before the environmental change as an upper limit and the minimum value as a lower limit.
  • the present invention is not limited to this.
  • the graph generation unit 117 may obtain an average value of the differential mutation rate before the DNA change, set a predetermined weight on the average value, and set an upper limit and a lower limit.
  • the graph generation unit 117 obtains a statistical value such as the standard deviation, median value, or average deviation of the differential mutation rate of a plurality of samples in the steady state in order to set the standard fluctuation region in the steady state.
  • a standard variation range may be set as a reference.
  • a target display area 310 that displays a species identifier, an individual identifier, and a site identifier, a table 320 that shows a numerical value of the differential mutation rate according to the time of collection, and a graph showing a temporal change of the differential mutation rate.
  • a graph display area 330 is displayed.
  • the table 320 includes a differential mutation rate display field 321 and an environment change guide display 322 indicating the time when the environment has changed.
  • the graph display area 330 includes a line graph 333 with bar feet 337 in which the horizontal axis 331 is a time axis and the vertical axis 332 is a differential mutation rate.
  • an environmental change indicator 334 that clearly indicates the time when the environmental change is indicated
  • a standard variation area 335 of a differential variation rate in a past steady state that is, a steady state before the environmental change
  • a differential variation rate are standard.
  • a warning message 336 for example, a text message such as “Action required” is highlighted.
  • FIG. 18 is an example of the output screen 400 of the integrated mutation rate output from the nucleic acid information processing apparatus 100.
  • the output screen 400 corresponds to a screen showing the result of the processing in step 42 in the result output phase 10E of the DNA evaluation method 1 according to the present invention.
  • the nucleic acid information processing device 100 is careful to compare with a predetermined threshold when the calculated mutation rate is an integrated mutation rate calculated by comparing with a reference time-lapse file. Is specified, graphed in order of sample collection, and output together with the level of attention.
  • the graph generation unit 117 is a time-dependent file in which the target for which the integrated mutation rate is obtained, that is, the species, the individual, and the part match, and the collection time identifier indicates the past. Are converted into a line graph or the like by arranging the information on the accumulated mutation rate included in the time-lapse file in order of time, and used as drawing information. Further, when the environmental change time is clearly stored on the storage unit 130 or the like, the drawing information is created so that the time is shown on the graph. The graph generation unit 117 generates drawing information that highlights a predetermined threshold value in consideration of an onset rate of a disease or the like, and when the calculated integrated mutation rate exceeds the threshold value. A predetermined warning message or the like is also embedded in the drawing information and generated.
  • the threshold value is set as a given value that can be said to increase so that the graph generation unit 117 cannot overlook the onset risk of a disease or abnormality.
  • the present invention is not limited to this.
  • the graph generation unit 117 may set the average integrated variation rate of the same part of the same kind of different individuals according to the average value or the like.
  • the threshold value since the threshold value may change due to aging or the like even for the same individual, the threshold value may be set according to a certain rule.
  • a target display area 410 that displays a species identifier, an individual identifier, and a site identifier, a table 421 that shows a numerical value of the integrated mutation rate according to the time of collection, and a graph showing the temporal change of the integrated mutation rate.
  • a graph display area 430 is displayed.
  • the table 421 includes an integrated mutation rate display field 422 and an environment change guide display 423 indicating the time when the environment has changed.
  • the graph display area 430 includes a line graph 433 in which the horizontal axis 431 is a time axis and the vertical axis 432 is an integrated variation rate.
  • the graph display area 430 also includes an environment change indicator 434 that clearly indicates the time when the environment changes, a threshold display 435 that highlights a predetermined threshold, and a warning message 436 ( For example, a text message such as “Action required” is highlighted.
  • FIGS. 16 to 18 are output screens from the nucleic acid information processing apparatus 100 analyzing a single site in a single subject 5. Therefore, in the DNA evaluation method 1 according to the present invention, when the differential mutation rate and the cumulative mutation rate are calculated for a plurality of sites for the predetermined subject 5, the output screens as shown in FIGS. It can be displayed in a manner corresponding to each part, or the tables 220, 320 and 420 and the graph display areas 230, 330 and 430 may be displayed for each of a plurality of parts on a single output screen. In this case, it is possible to grasp by visually comparing what part of the subject 5 the environmental change in question has an influence on.
  • the characteristics of the population are displayed in the target display areas 210, 310, and 410. Can be displayed.
  • the characteristics of the group are information such as the living area, sex, age structure, and past history of the subjects 5 that make up the group.
  • the effects of environmental changes in question can be considered as a group. I can grasp it. That is, in this case, warning messages 236, 336, and 436 for the group defined by the feature can be output.
  • the base sequence of the individual unit can be easily and sensitively using the differential mutation rate and / or the cumulative mutation rate. It is possible to grasp the tendency of mutation. Moreover, it can be easily grasped as an evaluation of DNA whether or not an environmental change has an influence on an individual through a tendency of change in differential mutation rate or integrated mutation rate. In addition, analyze how much the transition of the differential mutation rate of DNA of multiple samples shows an increasing trend, unchanged, decreasing trend, etc., whether there is a change in genomic base sequence due to environmental changes, trend, It can be used as a basis for judging and predicting the degree.
  • this invention is not limited to the said embodiment, It can change in the range which does not deviate from the main point of invention.
  • a plurality of divided samples that is, a plurality of fragments that are identical to each other are used.
  • the sequencer 22 reads the base sequence by the DNA sequencer 20 and compares the time 1 file A21, which is the time file 21 at time 1 as the read result, with the time 1 file A'21 ', and calculates a read error 22
  • the time-dependent data generation phase 10C ′ in which the calculated reading error 23 is held in association with the time-dependent data may be performed. Since the second embodiment has basically the same configuration as the first embodiment, the following description focuses on the differences.
  • the DNA of the fragment group of the same time-lapse sample (for example, one sample over time) generated by the fragment generation phase 10B is divided into a plurality of fragment groups A and A ′.
  • the base sequence is read for each by the DNA sequencer 20, and the obtained base sequence data is stored in the time-dependent one file A and the time-dependent one file A ′.
  • the plurality of fragment groups A and A ′ can be adjusted by dividing the time-lapse sample generated in the fragment generation phase 10B, that is, the solution containing the fragments so as to have substantially the same amount.
  • the base sequence information of these two files is stored as input information I1 and I2 of the base sequence comparison routine between the groups in FIG. 12 used for calculating the mutation rate in the previous explanation, and each step of S101 to S112 Is executed in accordance with the flow to create a total fragment totaling table 132 and a mutation rate derivation table 133 for one file A and one file A ′, and to calculate the mutation rate between the one file A and one file A ′.
  • the mutation rate thus obtained is taken as a reading error.
  • the reading error can be calculated by comparing the results of sequencing the fragments that should have the same base sequence a plurality of times when creating time-lapse data.
  • the fragment group A generated by the fragment generation phase 10B is divided to obtain the fragment group A ′, the fragments (DNA) included in both groups have exactly the same configuration, and the base sequences of the fragments are considered to be the same. Therefore, if there is a difference between the two, it is considered that the difference was caused by an experimental operation when determining the base sequence. For this reason, it is possible to clearly detect reading errors in base sequence determination experiments by examining how much difference is seen between base sequences obtained from fragments (DNA) contained in both groups. It is.
  • the length obtained by subtracting the total number of coincident bases of fragments a and b from the total base sequence length of the temporal data to which fragment a belongs, and the total coincidence of fragments a and b from the total base sequence length of the temporal data to which fragment b belongs Find the sum of the length minus the number of bases and divide this by the sum of the total base sequence length of the temporal data to which fragment a belongs and the total base sequence length of the temporal data to which fragment b belongs to calculate the total reading error can do. Then, the ratio of the total length of the difference between the fragment a and the fragment of b to the value obtained by subtracting the entire reading error in the reference base sequence length between fragments a and b is the mutation rate. Can be captured.
  • the base sequence of each fragment of time-dependent data to be used is the fragment of the same row in the total fragment totaling table 132 created at the time of calculating the reading error.
  • the fragment base sequence having the shorter base sequence length is used, and the reference base sequence length of the same row is used as the fragment base sequence length.
  • the above is the second embodiment of the DNA evaluation method 1 according to the present invention. According to the second embodiment, since the mutation rate can be obtained without reading error, it is possible to compare the mutation rates with higher accuracy.
  • the process of specifying the corresponding fragment is performed, but because of the principle of many-to-many matching, the number of fragments included in the time-lapse file is large.
  • the calculation amount tends to increase. Therefore, as a third embodiment, it is possible to significantly reduce the amount of calculation by grouping fragments to be matched in advance and dividing the matching range. Since the third embodiment has basically the same configuration as the first embodiment, the following description will focus on the differences.
  • FIG. 20 is a diagram showing a flow of the mutation rate calculation processing 600 according to the third embodiment.
  • the mutation rate specifying unit 116 groups the respective fragments belonging to the time-dependent 1 file 21 and the time-dependent 2 file 25 according to the enzyme used for the cleavage (601, 602).
  • the nucleic acid information processing device 100 includes the time-lapse data storage unit 131 ′ illustrated in FIG. 21, and includes information on the cleavage enzyme group 131M that identifies the enzyme that cleaves the fragment associated with the fragment ID 131H. .
  • the mutation rate specifying unit 116 performs grouping for each fragment based on the cleavage enzyme group 131M.
  • the information on the cleavage enzyme group 131M is information indicating the type of restriction enzyme.
  • the reason why grouping is performed according to the restriction enzyme used for cleavage in this treatment is to compare base sequences having the same base sequence at the cleavage end. This is because if the restriction enzyme used is different, the base sequence of the cut end is different, and in this case, the coincidence rate is relatively low and a wasteful calculation is performed. Therefore, it can be said that fragments that are cleaved with a plurality of restriction enzymes having the same cleaved ends may be treated as the same group.
  • the mutation rate specifying unit 116 is a fragment between the fragments 21A and the fragments 25A of the group using the same enzyme, and between the fragments 21B and the fragments 25B. 12 is performed for each group, and steps S101 to S112 of the base sequence comparison routine between groups in FIG. 12 are executed according to the flow to obtain the total reference base sequence length and the number of mutant bases for each group (step 603, step 604).
  • the number of mutated bases is the number obtained by subtracting the total number of matching bases from the total reference base sequence length.
  • the mutation rate specifying unit 116 obtains the mutation rate (step 605). Specifically, the mutation rate specifying unit 116 sums the number of mutation bases calculated for each enzyme group together, and divides the total reference base sequence length calculated for each enzyme group by the sum of the groups. By multiplying this by 100, the mutation rate (%) is calculated.
  • the DNA evaluation method 1 in the third embodiment can be expressed as follows when expressed in another way.
  • the coincidence rate of enzyme group I of sample B with respect to enzyme group I of sample A is designated as BIc
  • the total number of coincident bases of the DNA fragment group of enzyme group I of sample B with respect to the DNA fragment group of sample group A is designated as LIAB.
  • the total base sequence length of the DNA fragment group of the enzyme group I as LI The total base sequence length of the DNA fragment group of the enzyme group I as LI, the coincidence rate of the enzyme group II of the sample B with the enzyme group II of the sample A as BIIc, the sample for the DNA fragment group of the enzyme group II of the sample A
  • the total base number of the DNA fragment group of the B enzyme group II is LIIAB
  • the total base sequence length of the DNA fragment group of the enzyme group II is LII
  • the total base sequence of the sample B is the same as the DNA base sequence of the sample A Rate to SA If the following equations (1) to (3) hold.
  • BIc LIAB / LI Expression (1)
  • BIIc LIIAB / LII Formula (2)
  • SAB (LIAB + LIIAB) / (LI + LII) (3)
  • VAB 1-SAB Formula (4)
  • the mutation rate specifying unit 116 can specify the corresponding fragment only by performing matching within the group, and therefore, the matching pattern can be reduced as a whole, so that the mutation rate is efficiently specified. be able to.
  • the third embodiment has been described above.
  • the process by the said enzyme group utilizes the characteristic that the base sequence of the cut
  • the present invention is not limited to the above-described embodiment, and can be further modified without departing from the gist of the invention.
  • the width of the differential mutation rate of the DNA of sample B relative to the DNA of sample A in that species can be determined.
  • the risk of occurrence of disease or abnormality for the individual at each collection point The degree can be evaluated. Furthermore, by drawing a line 437 as a prediction of the line graph of FIG. 18 based on a change in the known integrated mutation rate, there is a possibility that future prediction can be performed.
  • DNA evaluation method 1 and the nucleic acid information processing apparatus 100 in the above-described embodiment and the modification are not only targeted for transactions as services, but are also targeted for transactions as a system in combination with other devices or the like. It is also possible to make a transaction object in units of program parts to be realized.
  • Example 1 genome sequence information obtained from Arabidopsis thaliana exposed at different radiation doses was used as an example of information on DNA base sequences obtained at different times. That is, in this example, it was analyzed whether mutation introduction into the genome due to radiation exposure could be detected as a change in mutation rate.
  • Arabidopsis thaliana was irradiated with a predetermined dose of radiation, the genomic DNA was cleaved with a restriction enzyme, and then the genome base sequence was determined with a next-generation sequencer, and was not received with the irradiated individual. The following procedure examined whether there was a difference in mutation rate among individuals.
  • Arabidopsis (Columbia-0) was seeded in Murashige and Skoog Basal Medium (containing 2% sucrose, 0.75% agar, pH 5.8, SIGMA-ALDRICH) to 25 individuals / 9 cm petri dish, and low-temperature treatment (4 ° C ) For 4 days, and then cultivated for 5 days in a state always irradiated with white light (about 35 ⁇ mol / m 2 / s) at 22 ° C. (cW).
  • Murashige and Skoog Basal Medium containing 2% sucrose, 0.75% agar, pH 5.8, SIGMA-ALDRICH
  • X-ray irradiation to Arabidopsis thaliana [2. X-ray irradiation to Arabidopsis thaliana] X-rays (3.47 Gy / min, 150 kV, 20 mA) were irradiated at an irradiation dose of 10, 25, 50 or 100 to the 5th day of Arabidopsis (Columbia-0) grown on the agar medium described in 1. Irradiated to become Gy. MBR-1520R-3 (manufactured by Hitachi Power Solutions Co., Ltd.) was used as the X-ray generation irradiation apparatus. After X-ray irradiation, the plant was cultivated for 21 days at 22 ° C.
  • Arabidopsis thaliana (1.0 g or less) was weighed into Biomasher SP (Nippi Co., Ltd.) and ground until it became a paste while cooling with liquid nitrogen. Thereafter, 5 ml of Buf.AP1 heated to 65 ° C. and 10 ⁇ l of RNase A (100 mg / ml) were added, and the mixture was vortexed vigorously. Thereafter, the mixture was incubated at 65 ° C. for 10 minutes (mixed by inversion 2 to 3 times in the middle). Next, 1.8 ml of Buf.P3 was added and mixed, and cooled on ice for 10 minutes. Thereafter, the mixture was centrifuged at 3,500 ⁇ g, 25 ° C.
  • the flow-through solution was transferred to a new 50 ml conical tube and the amount of the solution was measured. Then, Buf.AW1 in an amount 1.5 times the flow-through solution was added and immediately mixed by vortexing. Thereafter, the entire amount of the mixed solution was transferred to DNeasy Maxi Spin Column, and centrifuged at 3,500 ⁇ g, 25 ° C. for 5 minutes with a swing rotor. Then, the flow-through solution was discarded, the column was returned, 12 ml of Buf.AW2 was added, and the mixture was centrifuged at 3,500 ⁇ g, 25 ° C. for 10 minutes with a swing rotor. Thereafter, the flow-through solution was discarded, the column was returned, and centrifuged at 3,500 ⁇ g, 25 ° C. for 5 minutes with a swing rotor.
  • the column was transferred to a Collection® Tube, 750 ⁇ l of Buf.AE was added, and the mixture was incubated at room temperature for 5 minutes. Thereafter, the mixture was centrifuged at 3,500 ⁇ g, 25 ° C. for 5 minutes with a swing rotor, and the flow-through solution was used as an Arabidopsis DNA solution.
  • the obtained Arabidopsis DNA solution was concentrated by ethanol precipitation (prepared so that the concentration of the DNA solution was 100 to 200 ng / ⁇ l).
  • HindIII-HF Restriction enzyme cleavage of Arabidopsis DNA
  • HindIII-HF was used as a restriction enzyme. 9 ⁇ g of Arabidopsis DNA, 11 ⁇ l of 10 ⁇ Cut Smart Buf. (Manufactured by New England Biolab Japan, Inc. (NEB)), 4 ⁇ l (80 U) of HindIII-HF (20,000 U / ml, manufactured by NEB), Total: 110 ⁇ l of a reaction solution was prepared and reacted at 37 ° C. overnight. The restriction enzyme reaction was stopped by heating at 65 ° C. for 20 minutes.
  • the flow-through solution was discarded, the column was returned, 700 ⁇ l of Membrane Wash Solution was added, and centrifuged at 16,000 ⁇ g, 25 ° C. for 1 minute. Then, the flow-through solution was discarded, the column was returned, 500 ⁇ l of Membrane Washu Solution was added, and centrifuged at 16,000 ⁇ g, 25 ° C. for 5 minutes. Thereafter, the flow-through solution was discarded, the column was returned, and centrifuged at 16,000 ⁇ g, 25 ° C. for 5 minutes.
  • the column was transferred to a new 1.5 ml tube, 50 ⁇ l of Nuclease-Free Water was added, incubated at room temperature for 1 minute, and centrifuged at 16,000 ⁇ g, 25 ° C. for 1 minute to collect the flow-through solution.
  • sequence information with low quality on the 3 'side is deleted by trimming the lead so that the length is 150 bp from the 5' end. By trimming in this way, the average quality of the obtained tag sequence can be 99% or more.
  • the appearance frequency was calculated for all the tag sequences obtained in 7. above.
  • the appearance frequency is the number of occurrences of tag sequences consisting of the same base sequence among all the tag sequences obtained for a given sample.
  • the appearance frequency of the tag array is calculated for each of the four types of samples that are not irradiated with X-rays and the X-ray radiation doses are different, and then the calculation results of all the samples are integrated.
  • a table in which the appearance frequency of each tag sequence is listed is created.
  • the ratio of the number of tag sequences whose appearance frequency changed significantly to the total number of tag sequences was calculated, and this was used as the mutation tag sequence rate.
  • the total number of tag sequences is the total number of types of tag sequences included in all tag sequences obtained in 7. above, unlike the total number of tag sequences obtained in 7. above.
  • the mutation tag sequence ratio was calculated for each of the X-ray non-irradiated sample and the four types of samples with different X-ray radiation doses.
  • the mutation tag sequence ratio calculated here is an example of a mutation ratio defined as a ratio to the whole of different base sequence portions.
  • FIG. 24 is a table showing the appearance frequency and appearance rate of the 205th and 820th bases of mitochondrial DNA in one of the extracted tag sequences as an example in which a mutation was found in the irradiated sample as compared to the unirradiated sample. Indicates.
  • the unirradiated sample at the top of the data is a sample used as a reference for comparison in this analysis. It can be seen that G ⁇ T mutation occurred in some mitochondria at this site by irradiation.
  • the state of DNA is evaluated by calculating the mutation rate defined as the ratio of the different base sequence parts to the whole, in other words, the environmental change affects the DNA mutation rate. It was shown that the impact can be evaluated.
  • Example 2 In this example, unlike in Example 1, restriction enzyme cleavage was performed in silico, and it was analyzed whether mutation introduction into the genome due to radiation exposure could be detected as a change in mutation rate. Specifically, in this example, the following procedure is used to irradiate Arabidopsis thaliana and determine its genomic base sequence with a next-generation sequencer. After the obtained data are virtually digested with restriction enzymes by computer operation, Analysis was conducted to examine whether a difference in mutation rate was observed.
  • the steps from [1. culture of Arabidopsis] to [3. preparation of DNA from Arabidopsis] are the same as in Example 1 except that the irradiation dose was set to 5, 15 or 30 Gy.
  • the lead having AATTC was trimmed to have a length of 50 bp from the 5 'end.
  • the reading accuracy was calculated for each of the trimmed base sequences (5′- AATTC...: Total length 50 bp), and those having a reading accuracy of 99% or more were used for analysis as tag sequences.
  • a tag sequence with low quality can be removed by creating a tag sequence in this way.
  • Table 3 As a result of this treatment, as shown in Table 3, more than 200,000 sequences of 50 bp tag sequences starting with AATTC were obtained for each sample.
  • Table 4 summarizes the mutation tag sequence ratio calculated in 7 above and the mutation base ratio calculated in 8 above.

Abstract

 核酸情報を用いてDNAの評価をより容易に行う。 DNAの評価方法であって、個体の所定の組織の塩基配列の情報を取得する塩基配列情報取得手順と、塩基配列情報取得手順によって互いに異なる時期に取得した塩基配列の情報間で相違する配列部分が塩基配列に対して占める率を変異率として特定する変異率特定手順と、変異率に応じてDNAを評価するDNAの評価手順と、を備えることを特徴とする。

Description

DNAの状態を評価する方法、装置及びプログラム
 本発明は、環境要因等に起因するDNAの変異といったDNAの状態を評価する方法、装置及びプログラムに関する。
 遺伝子疾患とは、広義の遺伝子(ゲノム)の異常に起因する疾患の総称である。遺伝子疾患のなかでも、前世代から遺伝子の異常が遺伝するものを遺伝病と称する。遺伝病以外の遺伝子疾患は、放射線や紫外線といった電磁波、化学物質、大気中に浮遊する微粒子状物質、或いは食生活といった様々な要因が後天的に関与する。すなわち、これらの要因により遺伝子に異常を来たし、遺伝病以外の遺伝子疾患を発症する。
 また、遺伝子疾患の中には、特定の遺伝子における特定の変異が原因として解明されているものもあるし、様々な多数の変異が蓄積されることで発症するものもある。例えば、変異によって遺伝子の発現、構造及び/又は機能に異常をきたし、正常細胞のがん化を誘引する遺伝子をがん遺伝子と呼んでいる。すなわち、癌もまた遺伝子疾患の一例と言える。
 このように、遺伝子異常の蓄積、すなわちDNAに変異が多く生じると、狭義の遺伝子(タンパク質のコーディング領域)や発現調節領域などの機能領域にも変異が生じる確率が高くなり、遺伝子疾患に罹患する確率が上がる。
 例えば、特許文献1には、DNAチップ又はDNAマイクロアレイと呼ばれる装置を用いて、DNAに生じた多数の変異を効率良く検出する方法が開示されている。この方法によれば、DNAの所定の領域における変異の有無やその割合を検出することができる。この方法によれば、例えば、疾患と関連する遺伝子領域に対する変異の有無、変異の割合を迅速に検出することができ、或いは、病気の症状とその原因遺伝子の変異部位との関連を解析することができる。
 また、特許文献2には、心筋梗塞に関連する遺伝子多型が開示されている。いわゆる次世代シーケンサーと呼ばれる装置を用いれば、病気の関連遺伝子の領域全体にわたって塩基の変異の有無や変異の割合を検出し、病気の症状とその関連遺伝子の変異との関連を解析することができる。
特開2004-8037号公報 特開2011-172543号公報
 しかしながら、特許文献1や2に記載された従来の方法では、検出対象として選択した所定の領域における変異の有無を評価して特定の疾患等に対するリスクなどを評価できるが、当該領域以外に生じた変異や、ゲノム全体に亘って生じた変異を評価することはできない。すなわち、従来の方法では、検出対象としているか否かに拘わらず広範な領域に蓄積された変異を検出して、DNAの状態を経時的に評価することはできなかった。DNAの状態を経時的に評価することができれば、遺伝子疾患に罹患するリスクを評価できることにもなる。現在、例えば、中国の大気・水質汚染や福島の放射能汚染などの環境下において、DNAに蓄積された変異(すなわちDNAの状態)を評価することができれば、当該環境を変えるなど遺伝子疾患の予防処置ができる。
 ところで、大気・水質汚染などは汚染物質の濃度で汚染の程度を評価し、放射能汚染であれば放射性物質による空間線量等で汚染の程度を評価している。しかしながら、これら評価では、ヒトを含む動物や植物に対してどの程度の影響を及ぼす汚染であるのか定量的に解釈することができない。上述のようにDNAの状態を経時的に評価することができれば、ある時点・期間に起こった環境変化について、DNAの状態に基づいた定量的な評価が可能となる。
 そこで、本発明は、環境要因等に起因するDNAの変異の蓄積状態といったDNAの状態を評価する方法、装置及びプログラムを提供することを目的とする。
 上述した目的を達成した本発明は以下を包含する。
 すなわち、本発明に係るDNAの評価方法は、個体から採取したサンプルよりDNAの塩基配列に関する情報を取得する塩基配列情報取得手順と、前記塩基配列情報取得手順によって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定手順と、前記変異率に基づいてDNAを評価するDNAの評価手順と、を備える。
 また、本発明に係るDNAの評価装置は、個体から採取したサンプルから取得したDNAの塩基配列に関する情報を入力する塩基配列情報入力手段と、前記塩基配列情報入力手段によって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定手段と、前記変異率に基づいてDNAを評価するDNAの評価手段とを備える。
 さらに、本発明に係るプログラムは、コンピュータに、DNAの評価手順を実行させるプログラムであって、前記コンピュータを、制御手段として機能させ、前記制御手段に対して、個体から採取したサンプルから取得したDNAの塩基配列に関する情報を入力するする塩基配列入力ステップと、前記塩基配列入力ステップによって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定ステップと、前記変異率に基づいてDNAを評価するDNAの評価ステップとを実施させる。
 以上のように本発明に係るDNAの評価方法、評価装置及びプログラムでは、サンプルに含まれるDNAについて、機能領域であるか非機能領域であるかに拘わらず、DNAの変異率を評価の指標としている。
 また、本発明に係るDNAの評価方法、DNAの評価装置及びプログラムは、環境評価に適用することができる。
 すなわち、本発明を適用した環境評価方法は、個体から採取したサンプルよりDNAの塩基配列に関する情報を取得する塩基配列情報取得手順と、前記塩基配列情報取得手順によって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定手順と、前記変異率に基づいて環境変化を評価する環境評価手順とを備える。
 また、本発明に係る環境評価装置は、個体から採取したサンプルから取得したDNAの塩基配列に関する情報を入力する塩基配列情報入力手段と、前記塩基配列情報入力手段によって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定手段と、前記変異率に基づいて環境変化を評価する環境評価手段とを備える。
 さらに、本発明に係るプログラムは、コンピュータに、環境変化の評価手順を実行させるプログラムであって、前記コンピュータを、制御手段として機能させ、前記制御手段に対して、個体から採取したサンプルから取得したDNAの塩基配列に関する情報を入力する塩基配列入力ステップと、前記塩基配列入力ステップによって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定ステップと、前記変異率に基づいて環境変化を評価する環境評価ステップとを実施させる。
 本明細書は本願の優先権の基礎である日本国特許出願2013-094689号の明細書及び/又は図面に記載される内容を包含する。
 本発明に係るDNAの評価方法、評価装置及びプログラムでは、サンプルに含まれるDNAについて、機能領域であるか非機能領域であるかに拘わらず、DNAの変異率を評価の指標としているため、例えばゲノム全体に亘って生じた変異の程度を評価することができる。これにより、本発明に係るDNAの評価方法、評価装置及びプログラムによれば、例えば、大気汚染、水質汚染及び/又は放射能汚染といった環境変化をDNAに対する影響といった側面から適格に把握することができる。
本実施形態のDNAの評価方法の概要を示す図である。 本実施形態のDNAの評価方法の経時データ取得手順を示す図である。 本実施形態のDNAの評価方法の経時データ評価手順を示す図である。 本実施形態の差分変異率の概念を示す図である。 本実施形態の積算変異率の概念を示す図である。 本実施形態の核酸情報処理装置の概要を示す機能ブロック図である。 本実施形態の経時データ記憶部のデータ構造を示す図である。 本実施形態のフラグメント対応情報記憶部のデータ構造を示す図である。 本実施形態の変異率導出テーブル記憶部のデータ構造を示す図である。 本実施形態の一致配列長算出テーブル記憶部のデータ構造を示す図である。 本実施形態の核酸情報処理装置のハードウェア構成を示す図である。 本実施形態の変異率算出処理の処理フローを示す図である。 本実施形態の一致塩基数の算出アルゴリズムを示す図である。 フラグメント間の塩基配列一致率の概念を示す図である。 フラグメント間一致率の算出に用いる範囲を示す図である。 本実施形態の差分変異率の推移の表示画面例を示す図である。 本実施形態の多数回解析差分変異率の推移の表示画面例を示す図である。 本実施形態の積算変異率の推移の表示画面例を示す図である。 別の実施形態におけるDNAの評価方法の経時データ取得手順を示す図である。 複数の切断酵素を用いた変異率の算出手順を示す図である。 複数の切断酵素を用いた経時データ記憶部のデータ構造を示す図である。 放射線照射後21日のシロイヌナズナにおける、変異タグ配列率と照射線量の関係を示す図である。 放射線照射後21日のシロイヌナズナにおける、変異塩基率と照射線量の関係を示す図である。 放射線照射後21日のシロイヌナズナにおいて、X線照射サンプルに変異の増加が見られたミトコンドリアDNAの第205,820番目の位置の塩基の出現頻度と出現率を示した表である。 放射線照射後7日のシロイヌナズナにおける、変異タグ配列率と照射線量の関係を示す図である。 放射線照射後7日のシロイヌナズナにおける、変異塩基率と照射線量の関係を示す図である。
 以下に、本発明の実施形態について図面を参照して詳細に説明する。
 本発明を適用した実施形態の一例として、DNAの評価方法1の概要を図1に示す。DNAの評価方法1では、図1に示すように、被検体5から採取したサンプルを用いて、DNA情報を収集する。このDNA情報は、言い換えると、DNAの塩基配列に関する情報である。DNAの塩基配列に関する情報とは、塩基配列情報、制限酵素処理断片の電気泳動パターン情報、プローブとのハイブリダイズに関する情報等を含む意味である。
 言い換えると、DNAの塩基配列に関する情報とは、DNAの塩基配列を表すテキストデータ、制限酵素処理断片の電気泳動パターンを示す画像データ、各種プローブとのハイブリダイズの有無を示すマイクロアレイデータ等が挙げられる。また、DNA情報とは、DNAの塩基配列に関する情報であって、比較することによって塩基配列の相違を検出できる情報である。例えば、DNA情報が塩基配列を表すテキストデータである場合、複数のテキストデータを文字単位で比較することで塩基配列の相違、すなわち変異した塩基を特定することができる。また、DNA情報が電気泳動パターンを示す画像データである場合、複数の画像データに含まれるバンドパターンを比較することで、塩基配列の相違の有無を特定することができる。さらに、DNA情報がマイクロアレイデータである場合、複数のマイクロアレイデータ(各プローブスポットのシグナル強度)を比較することで、塩基配列の相違の有無を特定することができる。
 DNAの評価方法1では、図1に示すように、DNA情報を収集する処理を経時的に複数回実施する。DNA情報を収集する間隔としては、特に限定されないが、例えば数ヶ月~数年としたり、6ヵ月~3年としたり、1年とすることができる。DNA情報の収集方法は、上述したようにDNA情報の内容に応じて適宜選択することができる。ここで、DNAの評価方法1において経時的に複数のDNA情報を収集する際、被検体5から採取するサンプルを同一部位からのサンプルとすることが好ましい。例えば、サンプルを採取する部位としては、血液、口腔粘膜、リンパ節、乳腺、甲状腺、前立腺、肺、食道、胃・十二指腸、大腸、気管支、皮膚・筋肉・皮下、骨(骨盤・脊椎)、眼、耳・鼻(副鼻腔)、咽頭・喉頭、直腸、精巣(精巣上体)、末梢神経、子宮膣部・内膜等を挙げることができる。なお、被検体5について、複数の部位からサンプルを採取し、それぞれの部位についてDNA情報を経時的に収集しても良い。
 ここで、被検体5とは、ヒト、マウス、ラット、メダカ、ゼブラフィッシュ、アフリカツメガエル等の動物;シロイヌナズナ、イネ、コムギ、タバコ、ポプラ等の植物;枯草菌、大腸菌、藍藻、アカパンカビ、出芽酵母、分裂酵母、Aspergillus nidulans等の微生物等を含む意味である。被検体5としては、特に限定されないが、例えば、DNAの評価方法1の目的に応じて適宜選択することができる。例えば、DNAの評価方法1を人体に対する影響、例えば遺伝子疾患のリスク評価に利用する場合には、ヒトを被検体5とすることができる。
 また、例えばDNAの評価方法1を環境変化の定量的な評価に利用する場合には、当該環境変化を生じた環境下に生育した植物や動物を被検体5とすることができる。この場合、被検体5となる植物は、ゲノム解析等が完成しているシロイヌナズナ、イネ、コムギ、タバコ、ポプラ等のモデル植物とすることができる。また、DNAの評価方法1を水質における環境変化の評価に利用する場合には、ゲノム解析等が完成しているメダカやゼブラフィッシュを被検体5とすることができる。
 さらに、植物を被検体5とする場合には、採取するサンプルとしては植物体の全体としても良いが、一部の器官(葉、茎、種子、花、根)としても良い。また、植物を被検体5とする場合には、いわゆる分裂組織(茎(シュート)や根の先端)をサンプルとしてもよいし、成熟組織をサンプルとしてもよい。
 さらにまた、植物やヒト以外の動物、微生物を被検体5とする場合、野生型の植物、ヒト以外の野生型動物、野生型微生物を使用しても良いし、所定の遺伝子やDNA断片が導入された変異体(形質転換体)を使用しても良い。
 そして、DNAの評価方法1では、図1に示すように、経時的に収集した複数のDNA情報を比較して塩基配列における相違を特定することで、DNAの状態の変化を検出することができる。言い換えると、所定のDNA情報を以前に収集したDNA情報と比較して、塩基配列における相違を特定すれば、特定した相違は、これらDNA情報を収集した期間に生じた変異とみなすことができる。DNAの評価方法1では、所定の期間に生じた変異をDNA情報に含まれる塩基配列に対する割合(差分変異率)として算出することもできるし、初回に採取したDNA情報に含まれる塩基配列から差分変異率を積算して積算変異率として算出することもできる。なお、差分変異率及び積算変異率ともに、DNA情報を比較して相違する塩基配列部分の全体に対する割合として算出した変異率から計算される。ここで、全体に対する割合とは、比較したDNA情報に含まれる塩基配列の全長を意味するが、特に全長に限定されず、当該塩基配列の一部でもよい。また、比較するDNA情報としては、被検体5のゲノム全体でも良いし、ゲノムの一部でも良い。すなわち、DNAの評価方法1では、ゲノム全体における変異率から差分変異率及び/又は積算変異率を算出しても良いし、ゲノムの一部における変異率から差分変異率及び/又は積算変異率を算出しても良い。或いは、DNAの評価方法1では、被検体5に人為的に導入した核酸における変異率から差分変異率及び/又は積算変異率を算出しても良い。
 また、変異率を計算する際には、先ず変異した塩基の数を特定するため、変異箇所の個数と変異率とは同価値である。すなわち、DNAの評価方法1では、差分変異率に変えて差分変異数としてもよいし、積算変異率に変えて積算変異数としてもよい。例えば、ゲノムの一部や人為的に導入した核酸における変異数から、差分変異数及び/又は積算変異数を計算してもよい。
 DNAの評価方法1では、算出した差分変異率及び/又は積算変異率をグラフとして表示することができる。より具体的には、図1に示すように、経時2のサンプリング時には被検体5の差分変異率の推移グラフ2A、積算変異率の推移グラフ2Bを表示することができる。同様に、経時3のサンプリング時には被検体5の差分変異率の推移グラフ3A、積算変異率の推移グラフ3Bを表示することができる。また、経時N(Nは自然数)のサンプリング時には被検体5の差分変異率の推移グラフ4A、積算変異率の推移グラフ4Bを表示することができる。なお、特定の被検体5の複数の部位からDNA情報を収集している場合には、各部位について部位毎の差分変異率の推移グラフ、積算変異率の推移グラフを表示することができる。
 特に、本DNAの評価方法1では、差分変異率について基準範囲を予め設定し、算出した差分変異率が当該基準範囲を超える場合に、差分変異率が異常値であることを意味する情報を提供することが好ましい。同様に、本DNAの評価方法1では、積算変異率について閾値を予め設定し、算出した積算変異率が当該閾値を超える場合に、積算変異率が閾値を超えたことを意味する情報を提供することが好ましい。例えば、図1に示すように、経時N-1におけるDNA情報を基準として、経時NにおけるDNA情報の差分変異率が基準範囲を超えた場合「要対策」との注意表示4Cを表示することができる。また、図1に示すように、経時NにおけるDNA情報について積算変異率が閾値を超えた場合「要対策」との注意表示4Dを表示することができる。
 なお、被検体5における複数の部位からDNA情報を収集している場合には、各部位について差分変異率及び/又は積算変異率を算出することができる。そして、各部位についてそれぞれ算出した差分変異率の推移グラフ及び積算変異率の推移グラフに対して、それぞれ注意表示4C及び4Dを表示することができる。このとき、差分変異率に関する基準範囲及び積算変異率に関する閾値は、複数の部位について共通する値としても良いが、部位毎に異なる値を設定しても良い。また、差分変異率に関する基準範囲及び積算変異率に関する閾値は、被検体5の種類、すなわち生物種毎に決定することが望ましい。
 以上のように、本DNAの評価方法1によれば、被検体5についてDNA情報を経時的に収集し、DNA情報に基づいて、当該被検体5におけるDNAの状態(差分変異率や積算変異率)を評価することができる。したがって、本DNAの評価方法1を利用することによって、被検体5の遺伝子疾患のリスクを評価することができる。すなわち、遺伝子疾患のなかでも、後天的な遺伝子変異に起因する疾患(例えば癌など)へのリスクが高くなった時点を判断することができる。ただし、本DNAの評価方法1では、遺伝子の変異に起因する特定の疾患自体を診断するものではなく、遺伝子に対する後天的な変異の蓄積が遺伝子疾患の原因となるという知見に基づくリスク評価を行うものである。
 特に、上述したように、本DNAの評価方法1を被検体5における複数の部位について適用することで、各部位についてそれぞれ独立してリスク評価を行うことができる。また、本DNAの評価方法1を被検体5における複数の部位について適用した場合、上述のように部位毎にDNAの状態(差分変異率や積算変異率)を評価し、差分変異率が基準範囲を超えた部位や積算変異率が閾値を超えた部位が一定数に達した段階で注意表示4C及び4Dを表示してもよい。
 ところで、図1に示したDNAの評価方法1では、特定の一個体である被検体5についてDNA情報を経時的に収集し、DNA情報に基づいて、当該被検体5におけるDNAの状態を評価していた。しかし、DNAの評価方法1は、複数の被検体5からなる集団を評価対象とし、集団におけるDNAの状態を疫学的に評価しても良い。この場合、上述のように、集団に含まれる個々の被検体5についてDNA情報を経時的に収集して差分変異率や積算変異率を算出する。そして、評価対象の集団について、差分変異率の平均値や積算変異率の平均値を集団におけるDNAの状態として評価することができる。すなわち、集団における差分変異率の平均値や積算変異率の平均値を、それぞれ基準範囲や閾値と比較して、評価対象の集団について注意表示4C及び4Dを表示することができる。
 このように、DNAの評価方法1によれば、被検体5が単数であっても複数であっても、個人と集団との相違はあるにせよ、DNAの状態としてDNAに蓄積された変異の程度を評価することができる。上述の説明から明らかなように、差分変異率や積算変異率がそれぞれ基準範囲や閾値を超えるということは、比較したDNA情報を収集した時から、差分変異率や積算変異率がそれぞれ基準範囲や閾値を超えたDNA情報を収集した時の間に、DNAに対する変異を誘発する特異的な事象が生じていたことを意味する。
 言い換えると、経時的に収集した複数のDNA情報について、時系列的に前後一組のDNA情報を比較して差分変異率や積算変異率がそれぞれ基準範囲や閾値を超えたとすると、比較した前後一組のDNA情報の間に特異的な事象があったと推察できる。ここで特異的な事象とは、ゲノムを構成するDNAに変異を誘発する要因であって、通常の状態(当該要因が不存在の状況)で生じる変異率に比較して有意に高い変異率で変異を誘発する要因のことである。
 したがって、本DNAの評価方法1は、例えば、被検体5の周囲の環境において、DNAに変異を誘発する程度の変化があったことを評価する際に適用することができる。すなわち、問題となるような環境変化が、経時N-1と経時Nとの間で生じたとする(経時N-1及び経時Nは、ともにDNA情報を収集する時点)。そして、経時NのDNA情報と経時N-1のDNA情報とを比較して差分変異率や積算変異率がそれぞれ基準範囲や閾値を超えたとすると、経時N-1と経時Nとの間に生じた環境変化がDNAに対して相当程度の変異を誘発するものであったと評価することができる。相当程度の変異とは、上記基準範囲や閾値で規定される程度の変異率を超える変異率という意味である。
 このように、本DNAの評価方法1によれば、問題とされた環境変化をDNAに対する変異率に基づいて評価することができる。言い換えると、本DNAの評価方法1によれば、問題とされた環境変化が、被検体5のDNAに対してどの程度影響するものなのか、変異率に基づいて定量的に評価することができる。すなわち、変異率が高ければ、問題とされた環境変化が被検体5のDNAに対してより大きな影響を与えていると評価することができる。このように、例えば、大気汚染、水質汚染、放射能汚染などの環境変化を定量的に評価することによって、DNAに蓄積された変異に基づいて当該環境変化に対する予防処置、特に遺伝子疾患のリスクを低減するような処置を実施することができる。
 より具体的に、本DNAの評価方法1を適用して海水や淡水の環境変化を評価する場合、被検体5としては昆布などの海藻・海草や水生植物を利用することができる。昆布などの海藻・海草や水生植物を被検体5として利用することによって、評価対象の環境変化につて定点観測することができる。また、例えば、本DNAの評価方法1を適用して工場排水による環境への影響を評価する場合、排水口付近などに網籠に入れて定置したコイやメダカなどの魚類を被検体5として利用することができる。
 次に、本発明にかかるDNAの評価方法1の経時データ取得手順10の一例を、図2を参照して説明する。なお、以下の説明においては、DNA情報として、DNAの塩基配列を表すテキストデータを取得する場合を例示する。よって、DNA情報として、制限酵素処理断片の電気泳動パターンを示す画像データや、各種プローブとのハイブリダイズの有無を示すマイクロアレイデータ等を取得する場合には、それぞれデータの種類に応じて適宜最適な方法を採用することができる。
 経時データ取得手順10は、図2に示すように、DNA抽出フェイズ10Aと、フラグメント生成フェイズ10Bと、経時データ生成フェイズ10Cとを含む。
 DNA抽出フェイズ10Aにおいては、検査実施者は、まず、被検体5から細胞・組織のサンプリングを行う。このとき、DNA抽出フェイズ10Aにおいては、同一個体の同一部位について、細胞・組織のサンプリングを行うことが好ましい。その後、収集したサンプルからDNAを抽出する。一般に、同じ生物種でも、特にヒトなどの雑種では、個体によって遺伝的背景も変異率も異なる。このため、定常状態の変異率の標準変動値の設定や特定時の変異率の評価は、同一個体から収集したDNA情報同士、望ましくは同一個体の同一部位(同一の組織や臓器を含む)のDNA情報同士で行うことが望ましい。このような同一個体のDNA情報同士を解析することで、個体差に影響されない比較及び評価が可能となる。また、同一個体の同一部位からDNA情報を収集することで、DNAの変化(変異)を、DNA情報に基づいて算出した変異率という1つの数字で迅速に数値評価できる。
 また、DNA抽出フェイズ10Aにおいては、被検体5から経時的に複数回サンプリングする際、各回のサンプリングにおいて、略同一量の細胞・組織をサンプリングすることが好ましい。これにより生物のDNA状態を同一条件で評価することができるからである。同一の生物個体でも、組織や臓器によって、細胞のターンオーバーの速度や環境変化に対する感受性が異なるため、同一個体の同一部位からサンプリングを経時的に繰り返すことにより、そのような組織や臓器の差に由来する変異率の相違を排除しやすくするためである。
 次に、フラグメント生成フェイズ10Bでは、検査実施者は、DNA抽出フェイズ10Aにおいて取得したサンプルのDNA6を、1種類または複数種類のエンドヌクレアーゼ、例えば1種類または複数種類の制限酵素7を用いて切断し、複数のフラグメントを有するフラグメント群8を得る。フラグメント生成フェイズ10Bにおいて生成する複数のフラグメントは、後の工程において使用するDNAシーケンサーが解析可能な長さとすることが好ましい。フラグメントの長さは、使用する制限酵素7の種類によって適宜調節することができる。本フラグメント生成フェイズ10Bでは、DNA抽出フェイズ10Aにおいて経時的にサンプリングした複数のサンプルのDNA6について、同じ制限酵素を使用してフラグメント群8を生成する。
 本フラグメント生成フェイズ10Bは、例えば、上述の1種類以上の特定の制限酵素(例えば、EcoRI)を所定の条件化でDNA6に作用させることで切断し、フラグメント群8を得ることができる。なお、例示したEcoRIは、「5´-GAATTC-3´」という6塩基配列を認識して、5´末端が「AATTC」の配列となり、3´末端が「G」となるように切断する大腸菌のR株由来の制限酵素である。
 フラグメント生成フェイズ10Bにおいては、これに限られず、他のエンドヌクレアーゼ、例えば制限酵素(例えば、4塩基認識や8塩基認識の制限酵素)を用いるものであってもよい。制限酵素等のエンドヌクレアーゼを適宜組み合わせて使用することによって、取得したサンプルのDNA6を所望の長さのフラグメントとすることができる。なお、フラグメント生成フェイズ10Bにおいては、取得したサンプルのDNA6から異なる複数のフラグメント群8を作製してもよい。すなわち、例えば、異なる制限酵素、異なる制限酵素の組み合わせで所定のDNA6をそれぞれ切断することで、異なるフラグメントを含む複数のフラグメント群8を作製することができる。
 なお、フラグメント生成フェイズ10Bにおいては、望ましくは、1つの細胞のゲノムをできるだけ少ない本数のフラグメントとすることが好ましい。さらに望ましくは、染色体毎に1本のフラグメントとして塩基配列を決定できるようにするのがよい。
 また、フラグメント生成フェイズ10Bにおいては、上述のように、制限酵素を用いてDNAを断片化する形態に限定されず、例えば、超音波処理などの物理的方法によって断片化するものでもよい。
 次に、経時データ生成フェイズ10Cにおいては、検査実施者は、フラグメント生成フェイズ10Bで生成されたフラグメント群8に含まれるフラグメントについて、DNAシーケンサー20を用いて塩基配列を解析する。なお、DNAシーケンサー20における配列決定原理は特に限定されず、従来公知の装置を適宜使用することができる。
 経時データ生成フェイズ10Cでは、フラグメント群8に含まれるフラグメントについて決定した塩基配列情報を所定の記憶装置等に格納する。なお、記憶装置には、経時的にサンプルリングしたDNAについてそれぞれ塩基配列情報(図2において経時Xファイル、経時Yファイル及び経時Zファイルと称している)が格納されている。
 上述した説明から判るように、経時データ生成フェイズ10Cでは、経時的にサンプルリングしたDNAについてフラグメント化した後に塩基配列を決定している。すなわち、経時データ生成フェイズ10Cにおいては、変異率を求めるために比較するサンプルのDNA塩基配列として、機能領域のDNA塩基配列であるか非機能領域のDNA塩基配列であるかを問わず、塩基配列決定により得られたデータ全体を利用している。これにより、変異率を求める基準となるデータ量が増し、より感度・精度の高い変異率が得られることになる。
 特に、経時的に採取したサンプルリングしたDNAについて同じ制限酵素でフラグメント化することで、同一の個体のDNAであれば、採取時期が異なるフラグメント群8を比較しても、原理的には、対応するフラグメントが互いに含まれるため、後述する経時データ評価手順において、対応するフラグメントを特定してその変異率を正確に計算することができる。
 なお、フラグメント生成フェイズ10Bにおいて超音波処理などの物理的方法によってDNA6をランダムに断片化した場合には、経時データ生成フェイズ10Cでは、ランダムに断片化されたフラグメントについて塩基配列を決定する。この場合、特に、DNAシーケンサーとしては、いわゆる次世代シーケンサーと呼称されるハイスループットな解析が可能である装置を使用することが好ましい。次世代シーケンサーとしては、例えば、Genome Sequencer FLXシステム(ロシュ・ダイアグノスティックス社)、HiSeq/Genome Analyzer IIx(GAIIx)/ MiSeq(イルミナ社)及びIon PGMシーケンサー(Ion PGM)(ライフテクノロジーズ社)を挙げることができる。このように解読したフラグメントの塩基配列データをアッセンブルすることによって染色体毎の塩基配列情報を取得することができる。この場合も、後述する経時データ評価手順において、対応する染色体同士を比較することで変異率を正確に計算することができる。
 本実施形態においては、詳細を後述するが、図6に示すような核酸情報処理装置100がDNAシーケンサー機能を担うことができる。上述したように決定された塩基配列の情報は、核酸情報処理装置100の記憶部130に、被検体5に関する情報、サンプリングした部位に関する情報、取得時期に関する情報と対応付けるように格納される。図3に、記憶部130に格納された経時ファイル21を用いた経時データ評価手順を示す。なお、経時ファイルは、同一個体の同一部位から経時的に採取されたサンプルに由来し、同じ制限酵素を用いてフラグメントを得ているため、各経時ファイルに含まれるフラグメントの数は一定の範囲に収束するものと考えられる。
 経時データ評価手順は、図3に示すように、変異率算出フェイズ10Dと、結果出力フェイズ10Eとを含む。
 変異率算出フェイズ10Dにおいては、核酸情報処理装置100が、互いに異なる経時ファイル21を二つ読み出し、同一あるいは対応するフラグメント同士を比較し、変異率を算出する。
 変異率算出フェイズ10Dでは、先ず、核酸情報処理装置100が、一対の経時ファイルに含まれるフラグメントの数を比較し、フラグメント数の少ない方の経時ファイルを基準として、基準の経時ファイルに含まれるフラグメントごとに比較対象の経時ファイルの全フラグメントの各々との一致塩基数M(Mは0または正の整数)を算出する(ステップ31)。すなわち、基準の経時ファイルに含まれる所定のフラグメントと、比較対象の経時ファイルに含まれるフラグメントの全てについて一致塩基数Mを計算する。この計算を、基準の経時ファイルに含まれるフラグメントの全てについて実施する。なお、詳細を後述するが、一致塩基数Mは所謂ペアワイズアライメント・アルゴリズムによって計算することができる。
 そして、核酸情報処理装置100は、基準の経時ファイルに含まれるフラグメントごとに、一致塩基数Mが最大となる比較対象のフラグメントを、対応するフラグメントとして特定する(ステップ32)。具体的には、核酸情報処理装置100は、ステップ31にて算出した一致塩基数Mを比較して、基準の経時ファイルに含まれるフラグメントごとに、Mの値が最大となるフラグメントを特定し、当該Mの値とともに対応付ける。
 そして、核酸情報処理装置100は、基準の経時ファイルのフラグメントごとに、対応するフラグメントと配列長を比較して短い方を基準塩基配列長Lとして特定する(ステップ33)。この基準塩基配列長Lの計算は、基準の経時ファイルに含まれるフラグメントの全てについて実施する。
 そして、核酸情報処理装置100は、基準の経時ファイルに含まれるフラグメントの全てについて計算されている、一致塩基数M及び基準塩基配列長Lをそれぞれ合計して、総一致塩基数M及び総基準塩基配列長Lをそれぞれ算出する(ステップ34)。
 そして、核酸情報処理装置100は、総一致塩基数Mを総基準塩基配列長Lで除算し、総一致率を特定する(ステップ35)。
 そして、核酸情報処理装置100は、100%から総一致率を減算し、変異率として算出し保存する(ステップ36)。
 以上が、変異率算出フェイズ10Dの手順である。変異率算出フェイズ10Dによれば、二つの経時ファイルを比較して対応するフラグメントの相違点を特定し、対応するフラグメントについて、基準塩基配列長の総数に対する変異部分の塩基配列数の総数割合を変異率として算出することができる。なお、変異率としては、この例に限定されず、経時データ生成フェイズ10Cにおいて取得した塩基配列を利用して、対応するフラグメント間の塩基配列上の相違を定量的に示す値として算出してもよい。
 例えば、経時データ生成フェイズ10Cにおいていわゆる次世代シーケンサーを使用する場合、一度の操作により、リードと呼称される数百bpの断片の塩基配列情報が多数得られる。得られたリードの塩基配列に基づいて、フラグメントを作製する際に使用した制限酵素サイトを末端に有するリードを抽出する。そして、抽出した各リードのうち塩基配列決定の精度が高い領域(例えば、各リードの最初から50~200塩基長)を特定し、各リードにおいて特定した領域(タグ配列と称する)を変異率の算出に利用することができる。
 すなわち、所定のタグ配列について見ると、タグ配列全体に所定の出現頻度で含まれることとなる。この出現頻度は、同一個体の同一部位から採取されたサンプルであれば一定の値となる。しかし、あるタグ配列に突然変異が導入されると、当該タグ配列の出現頻度が変異導入前後において異なることとなる。したがって、一対の経時ファイル間において出現頻度が変動したタグ配列のタグ配列全体に対する割合は、対応するフラグメント間の塩基配列上の相違を定量的に示す値であり、変異率として使用することができる。
 また、出現頻度が変動したタグ配列には、例えば1個の変異が導入されたとみなすことで、出現頻度が変動したタグ配列の数に基づいて、導入された変異の数を算出することができる。算出した変異塩基数の、全タグ配列の総塩基数に対する割合は、対応するフラグメント間の塩基配列上の相違を定量的に示す値であり、変異率として使用することができる。
 結果出力フェイズ10Eにおいては、核酸情報処理装置100は、変異率算出フェイズ10Dにおいて算出した変異率を出力する。当該出力時には、核酸情報処理装置100は、求めた変異率が前回の経時ファイルとの比較を行う差分変異率である場合には、所定の基準範囲と比較して注意を要する度合いを特定し、サンプル採取時順にグラフ化して注意を要する度合いとともに出力する(ステップ41)。
 あるいは、核酸情報処理装置100は、求めた変異率が基準となる一定の経時ファイルとの比較を行う積算変異率である場合には、所定の閾値と比較して注意を要する度合いを特定し、サンプル採取時順にグラフ化して注意を要する度合いとともに出力する(ステップ42)。
 図4は、差分変異率の概念を説明する図である。図4に示すように、差分変異率の算出手順50においては、所定の被検体5について経時的に採取されたサンプルから、上述のようにDNA情報を読み取られ、経時的に前後するDNA情報について上述のように計算された変異率を差分変異率とする。
 なお、差分変異率が正常な範囲内か否か、すなわちDNAの状態の評価は、定常状態の標準変動域内に含まれるか否かにより特定することができる。すなわち、過去に蓄積された差分変異率の標準変動域内にない場合には、変異率が異常である、すなわち環境変化等があった蓋然性が高くなると判断することができる。つまり、被検体5について疾患や異常の発生リスクが定常状態より高まったと判断しうる。標準変動域内にある場合には、変異率は正常範囲内の可能性が高く、環境変化等があった蓋然性は低くなるといえる。
 上述の標準変動域は、簡単には、被検体5の過去の差分変異率の最大値を上限として、最小値を下限として設定する方法が考えられる。しかし、これに限られず、例えば被検体5の過去の差分変異率の平均値を求めて、当該平均値に所定の重みづけを行い上限と下限を設定する方法も考えられる。あるいは、定常状態の標準変動域を設定するために、定常状態の複数のサンプルの差分変異率の重みづけ、中央値または平均偏差等の統計的数値を求め、これを基準として標準変動域を設定するようにしてもよい。
 以上のように算出した差分変異率は、サンプル毎に同一個体の同一部位のサンプルのDNAを用いた塩基配列のデジタルデータに基づいており、保管について経時劣化の弊害はなく、容易に且つ再現性の高い値として算出することができる。なお、差分変異率の数値は、大きな環境変化がなくても偶発的な要因で多少の変動をし得ると考えられる。図4に示す方法では、例えば、差分変異率の数値に幅を持たせ、定常状態を唯一の数値ではなく範囲でとらえることにより、偶発的な原因による変異率の変動を異常事態ととらえる確率を低下させ、傾向を把握することができる。
 一方、図5は、積算変異率の概念を説明する図である。図5に示すように、積算変異率の算出手順60においては、所定の被検体5について経時的に採取されたサンプルから、上述のようにDNA情報を読み取られ、一定の基準のサンプル(例えば、初回のサンプルや、所定期間経過内のサンプル)と比較され、積算変異率として算出される。言い換えると、時系列的に前後する1間隔のサンプルDNAの変異率である差分変異率を、経時で積算することで積算変異率を計算することができる。この積算変異率を使用することで、任意の時間経過で蓄積した変異量について評価できる。
 なお、積算変異率が正常な範囲内か否か、すなわちDNAの状態の評価は、一定の閾値(疾患や異常の発生リスクに鑑みた閾値であって、望ましくは、既存文献その他のできる限り多くの情報に基づいて、疾患や異常の発症リスクが見過ごせないほど高まるといえる妥当な積算変異率)を超えるか否かにより特定される。閾値を超える場合には、変異率が異常である可能性が高く、すなわち環境変化等があった蓋然性が高くなるといえる。つまり、被検体5について疾患や異常の発生リスクが定常状態より高まったと判断しうる。閾値を超えない場合には、変異率は正常範囲内の可能性が高く、環境変化等があった蓋然性は低くなるといえる。以上のように算出した積算変異率もまた、サンプル毎に同一個体の同一部位のサンプルのDNAを用いた塩基配列のデジタルデータに基づいており、保管について経時劣化の弊害はなく、容易に且つ再現性の高い値として算出することができる。
 このように、DNAに生じた変異を差分変異率及び/又は積算変異率の視点で比較することで、同一個体における観測精度を上げ、より質のよいDNAの状態の評価を行うことが可能となる。またさらには、環境変化後、複数回のサンプルのDNAの差分変異率の推移が、増加傾向、不変、減少傾向などのいずれの傾向をどの程度示すかを解析し、環境変化によるゲノム塩基配列の変化の有無、傾向、程度などの判断、予測を行うようにしてもよい。
 以上が、DNAの評価方法1の概要である。次に、上記DNAの評価方法1において使用する核酸情報処理装置100について説明する。図6は、核酸情報処理装置100の構成の概要を示す図である。核酸情報処理装置100は、制御部110と、記憶部130と、出力表示部140と、入力受付部150と、を含んで構成される。
 制御部110は、入力処理部111と、出力処理部112と、DNA塩基配列特定部113と、経時データ管理部114と、経時データ比較部115と、変異率特定部116と、グラフ生成部117と、を含んで構成される。
 入力処理部111は、入力受付部150から入力された所定の情報の入力を受け付ける。出力処理部112は、出力表示部140に対して、出力する情報を受け渡す。出力する情報は、例えば変異率を算出する対象の経時データの指定を受け付ける画面や、算出した変異率やそのグラフ等の情報を示す画面情報等である。
 DNA塩基配列特定部113は、いわゆるDNAシーケンサー20と同様の処理を行う。例えば、セットされたフラグメントを解析して塩基の種類を判別し、塩基配列を特定する。
 経時データ管理部114は、DNA塩基配列特定部113により特定された塩基配列を、被検体5および経時に応じて格納し、読み出す。
 経時データ比較部115は、異なる採取時の経時データ間で塩基配列を比較し、対比対象となるべきフラグメントを特定して対応付ける。
 変異率特定部116は、経時データ比較部115により対応付けられたフラグメントの一致する部位の長さに応じて一致率を特定し、一致率にもとづいて変異率を特定する。
 グラフ生成部117は、変異率特定部116により特定された変異率を用いて、グラフの表示情報を作成する。例えば、グラフ生成部117は、時間の変遷を横軸とし、変異率を縦軸として構成される二次元グラフの表示情報を作成する。
 記憶部130には、経時データ記憶部131と、フラグメント対応情報記憶部132と、変異率導出テーブル記憶部133と、一致塩基数算出テーブル記憶部134と、が含まれる。
 なお、核酸情報処理装置100は、DNA塩基配列特定部113(DNAシーケンサー20)を備えず、別個独立したDNAシーケンサーからの塩基配列情報を入力する構成であってもよい。この場合、外部のDNAシーケンサーと核酸情報処理装置100とは、直接オンラインで接続されていても良いし、例えばインターネット等の通信回線網を介して接続されていても良い。また、核酸情報処理装置100は、外部のDNAシーケンサーで解析された塩基配列情報を、入力受付部150を介して入力するものであっても良い。
 ここで一例として、経時データ記憶部131には、図7に示すように、種識別子131Aと、個体識別子131Bと、採取時識別子131Cと、が対応付けられて格納される。また、採取時識別子131Cには、部位識別子131Dと、差分変異率131Eと、積算変異率131Fと、経時データ識別子131Gと、が対応付けられて格納される。また、経時データ識別子131Gには、フラグメントID131Hと、塩基配列情報131Kと、が対応付けられて格納される。
 種識別子131Aとは、経時データとなるべきDNAを採取した客体すなわち被検体5の生物種を特定する情報である。例えば、「ヒト」や「イヌ」等の種を特定する情報である。なお、種識別子と命名しているが、厳密に種である必要はなく、界、門、綱、目、科、属、種、またはそれより詳細な分類のいずれの生物分類であってもよい。
 個体識別子131Bとは、被検体5の個体を特定する情報である。例えば、個人を特定する氏名等の文字列情報、社会保障番号、患者番号、加入者番号等の情報である。
 採取時識別子131Cとは、被検体5からDNAを採取した時を特定する情報である。例えば、日時情報に限らず、年月を特定する情報であってもよい。
 部位識別子131Dとは、DNAを採取した被検体5の部位を特定する情報である。例えば、ほおの内側の粘膜等の部位を特定する情報である。なお、部位という概念にとらわれず、容易に同様の性質を有するDNAを採取しうる血液等、部位を特定するものではなく体全体をめぐるものであってもよい。
 差分変異率131Eとは、採取時識別子131Cにより特定される採取時順において直前の経時データと比較した差分変異率を特定する情報である。
 積算変異率131Fとは、採取時識別子131Cにより特定される採取時順において、所定の基準となる採取時の経時データと比較した積算変異率を特定する情報である。
 経時データ識別子131Gとは、種識別子131Aと、個体識別子131Bと、採取時識別子131Cと、部位識別子131Dと、の組み合わせに応じて割付けられるユニークな識別子である。
 フラグメントID131Hとは、経時データ識別子131Gにより特定されるフラグメント群に含まれるフラグメントを他のフラグメントから区別する情報である。
 塩基配列情報131Kとは、フラグメントID131Hにて特定されるフラグメントが有する塩基配列の配列を特定する情報である。以上が、図7に示す経時データ記憶部131である。
 ここで一例として、フラグメント対応情報記憶部132には、図8に示すように、フラグメント識別子132Aと、最高一致フラグメント識別子132Bと、基準塩基配列長132Cと、一致率塩基数132Dと、塩基配列一致率132Eと、が含まれる。
 フラグメント識別子132Aとは、フラグメントを識別する情報である。
 最高一致フラグメント識別子132Bとは、比較相手となる経時データに含まれるフラグメントのうちで、フラグメント識別子132Aのフラグメントともっとも塩基配列一致率の高いフラグメント、すなわち対となるフラグメントを特定する情報である。
 基準塩基配列長132Cとは、フラグメント識別子132Aの長さと、対となるフラグメントの長さとのうち、短い方の長さを特定する情報である。
 一致塩基数132Dとは、フラグメント識別子132Aと、最高一致フラグメント識別子132Bと、の一致部分の塩基数を特定する情報である。
塩基配列一致率132Eとは、一致塩基数132Dが基準塩基配列長132Cに占める割合である。
 一例として、図9に示すように、変異率導出テーブル記憶部133には、総基準塩基配列長133Aと、総一致塩基数133Bと、総一致率133Cと、変異率133Dと、が含まれる。
 総基準塩基配列長133Aは、経時データすなわちフラグメント群内のフラグメントすべてについて、基準塩基配列長132Cを加算した値である。
 総一致塩基数133Bは、経時データすなわちフラグメント群内のフラグメントであって他の経時データとの対応づけがされたすべてのフラグメントについて、一致塩基数132Dを加算した値である。
 総一致率133Cは、総基準塩基配列長133Aに対して総一致塩基数133Bが占める割合である。
 変異率133Dとは、総塩基配列長133Aに対して一致しない部位の塩基が占める割合である。
 図10に示すように、一致塩基数算出テーブル記憶部134とは、一対のフラグメント間において一致する塩基の数を算出するためのテーブルである。一例として、図10に示す一致塩基数算出テーブル記憶部134では、縦軸134Aにフラグメント数の少ない比較対象である、基準の経時ファイルに含まれるフラグメントから読み出したフラグメントの塩基配列が、塩基ごとに割付けされている。横軸134Bには、フラグメント数の多い比較対象の経時ファイルに含まれるフラグメントから読み出したフラグメントの塩基配列が塩基ごとに記載されている。そして、縦軸と横軸の交点のうち最も左上にある交点には、当該フラグメント同士の塩基が一致する部分の最大数が格納される。当該一致塩基数算出テーブル記憶部134は、フラグメントの対応状況を示すために用いられる作業テーブルであるともいえる。
 出力表示部140は、核酸情報処理装置100のGUI(Graphical User Interface)あるいはCUI(Character-based User Interface)等の各種情報を出力する。入力受付部150は、GUIあるいはCUIの操作情報の入力を受け付ける。例えば、入力受付部150は、DNA塩基配列特定部113に対する特定処理開始の入力等の各種の操作についての情報を受け付ける。
 図11は、核酸情報処理装置100のハードウェア構成を示す図である。本実施形態においては、核酸情報処理装置100は、例えば、PC(パーソナルコンピュータ)や、ワークステーション、サーバー装置、スマートフォン等を含む各種携帯電話端末、PDA(Personal Digital Assistant)などの計算機を主体とする処理装置である。
 核酸情報処理装置100は、入力装置101と、外部記憶装置102と、演算装置103と、主記憶装置104と、シーケンサー105と、出力装置106と、それぞれの装置を互いに接続するバス107と、を有する。
 入力装置101は、例えばキーボードやマウス、あるいはタッチペン、感圧式タッチセンサ、静電誘導式タッチセンサ、その他ポインティングデバイスなどの入力を受け付ける装置である。
 外部記憶装置102は、例えばハードディスク装置やフラッシュメモリ、SSD(Solid State Disk)などの不揮発性記憶装置である。
 演算装置103は、例えばCPU(Central Processing Unit)などの演算装置である。
 主記憶装置104は、例えばRAM(Random Access Memory)などのメモリ装置である。
 シーケンサー105は、所定の方法でセットされたDNAのフラグメントについて塩基配列の解析を行い、フラグメントに識別子を対応付けて解析の結果得られた塩基配列のデータを経時データ記憶部131に格納させる自動実験装置である。
 出力装置106は、入力情報を受け付ける画面やグラフ等を含む出力情報を含む画面を出力する装置であって、液晶ディスプレイや有機EL(Electro Luminescense)ディスプレイ、あるいはプリンタ等である。
 核酸情報処理装置100の入力処理部111と、出力処理部112と、DNA塩基配列特定部113と、経時データ管理部114と、経時データ比較部115と、変異率特定部116と、グラフ生成部117とは、核酸情報処理装置100の演算装置103に処理を行わせるプログラムによって実現される。
 このプログラムは、主記憶装置104または外部記憶装置102内に記憶され、実行にあたって主記憶装置104上にロードされ、演算装置103により実行される。
 また、核酸情報処理装置100の記憶部130は、核酸情報処理装置100の外部記憶装置102および主記憶装置104により実現される。
 また、核酸情報処理装置100の出力表示部140は、出力装置106によって実現される。
 また、核酸情報処理装置100の入力受付部150は、入力装置101により実現される。以上が、核酸情報処理装置100のハードウェア構成である。
 <処理の説明>
 次に、核酸情報処理装置100の処理について、説明する。
 まず、核酸情報処理装置100が実施する変異率算出処理について図12~図15を用いて説明する。変異率算出処理は、変異率算出フェイズ10Dのステップ31~ステップ36に該当する処理である。そのため、経時ファイル21が既に生成された状態において、検査実施者から対比対象の2つの経時ファイルの指定が比較する経時データとして指定される。
 処理開始指示を受け付けると、経時データ比較部115は、図12に示したように、比較する経時データのフラグメント数を比較し、少ない方の経時データをI1として、「行(縦方向インデックスQ)」と定義し、多い方の経時データをI2として、「列(横方向インデックスR)」と定義する(図10参照(S101))。
 具体的には、経時データ比較部115は、経時データ記憶部131を参照して指定された経時データごとに、相当するフラグメントID131Hおよび塩基配列情報131Kを取得する。そして、経時データ比較部115は、経時データ同士の塩基配列情報131Kのレコード数を比較して、フラグメント数の多少を特定する。そして、フラグメント数が少ない方の経時データに含まれるフラグメントID131Hを、フラグメント対応情報記憶部132のフラグメント識別子132Aに全量格納するとともに、インデックスQ、R(Q、Rはともに正の整数)からなる二次元配列を割り当てて、配列のデータとしてフラグメントIDおよび塩基配列情報を格納する。
 そして、経時データ比較部115は、Qに1を設定して初期化する(ステップS102)。また、経時データ比較部115は、Rに1を設定して初期化する(ステップS103)。
 そして、経時データ比較部115は、二次元配列のうち行(Q)に格納された行側のフラグメントの1つP1と列(R)に格納された列側のフラグメントの1つP2のフラグメント塩基配列長を比較し、短い方のフラグメント塩基配列長を比較塩基配列長としてP3と定義する(ステップS104)。
 そして、経時データ比較部115は、一致塩基数の算出の処理については、DPマッチング法を応用した方法であるグループ間の塩基配列比較ルーティンを用いるが、詳細は図13を用いて後述する。この処理により、行側のフラグメントのひとつの塩基配列P1と列側のフラグメントの1つの塩基配列P2との一致塩基数O1および塩基配列一致率O2を特定する(ステップS105)。
 一致塩基数は、行側と列側のフラグメントの塩基配列の一致部分の長さの合計であり、図14のO1である。塩基配列一致率は、比較塩基配列長に対する一致塩基数の割合であり、図14のO2である。
 そして、経時データ比較部115は、ステップS104で算出した塩基配列一致率が行(Q)についての列(1)~列(R-1)との最大一致率である列(R)のフラグメント間一致率を超えるものであるか否かを判定する(ステップS106)。超えるものでない場合には、経時データ比較部115は、次の列(R+1)との比較を行うべく、ステップS107に制御を進める。
 ステップS105で算出した塩基配列一致率が行(Q)についての列(R)のフラグメント間一致率を超えるものである(ステップS106において「≦」の)場合には、経時データ比較部115は、フラグメント対応情報記憶部132のフラグメント識別子132Aの対応するレコードに、以下の情報を格納する(ステップS107)。具体的には、列(R)のフラグメントIDを最高一致フラグメント識別子132Bに格納し、P3の値を基準塩基配列長として基準塩基配列長132Cに格納し、一致塩基数を一致塩基数132Dに格納し、塩基配列一致率を塩基配列一致率132Eに格納する。
 ここで、O2の値が一定値以下となった場合には、足切を行って列(R)のフラグメント間一致率との大小比較を行わず、その後の処理にもデータを用いないようにすれば、より正確なフラグメント同士の対応に基づく塩基配列一致率を算出することもできる。
 そして、経時データ比較部115は、Rをインクリメントする(ステップS108)。
 そして、経時データ比較部115は、Rが二次元配列の列数を上回ったか否かを判定する(ステップS109)。上回っていない場合には、経時データ比較部115は、制御をステップS105に戻す。
 Rが二次元配列の列数を上回った(ステップS109において「Yes」の)場合には、経時データ比較部115は、Qをインクリメントする(ステップS110)。
 そして、経時データ比較部115は、Qが二次元配列の行数を上回ったか否かを判定する(ステップS111)。上回っていない場合には、経時データ比較部115は、制御をステップS103に戻す。
 そして、変異率特定部116は、変異率導出テーブル記憶部133へ、格納する各値を算出した後に、情報を格納する(ステップS112)。具体的には、変異率特定部116は、総塩基配列長133Aに対して、Hの値を格納する。例えば、図8、図9の例であれば、総塩基配列長133Aの値は、フラグメント識別子132Aが「1a」であるフラグメントの基準塩基配列長132Cである「50」から、フラグメント識別子132Aが「5a」であるフラグメントの基準塩基配列長132Cである「45」までの値を累積させた値である「230」となる。
 そして、変異率特定部116は、総一致塩基数133Bに対して、Sを格納する。例えば、図8、図9の例であれば、総一致塩基数133Bの値は、フラグメント識別子132Aが「1a」であるフラグメントの一致塩基数132Dである「50」から、フラグメント識別子132Aが「5a」であるフラグメントの一致塩基数132Dである「45」までの値を累積させた値である「228」となる。
 そして、変異率特定部116は、総一致率133Cに対して、総塩基配列長133Aの値に占める総一致塩基数133Bの割合を格納する。例えば、図8、図9の例であれば、総一致率133Cの値は、(228/230)×100.0%)=「99.1%」となる。なお、当該総一致率133Cに格納する値は、本発明にかかるDNAの評価方法1の変異率算出フェイズ10Dにおける総一致率に対応する値である。
 そして、変異率特定部116は、変異率133Dに対して、全体の割合(%)から総一致率133Cが特定する割合(%)を引いた値を格納する。例えば、図8、図9の例であれば、変異率133Dの値は、「100.0(%)-99.1(%)=0.9(%)」となる。なお、当該変異率133Dに格納する値は、本発明にかかるDNAの評価方法1の変異率算出フェイズ10Dにおける変異率に対応する値である。
 以上が、変異率算出処理の処理内容である。変異率算出処理によれば、本発明にかかるDNAの評価方法1の変異率算出フェイズ10Dにおけるステップ31~36に相当する処理を核酸情報処理装置100を用いて計算上で行うことができる。そのため、変異率算出フェイズを正確かつ素早く、再現性を持って安価に実施することができるといえる。
 図13は、変異率算出処理のステップS105において実施される塩基配列同士の一致塩基数の算出処理を示すフローを示す図である。当該処理は、DP(Dynamic Programming)マッチング法を応用した技術であり、塩基配列のホモロジー解析にも応用しうる技術である。
 まず、経時データ比較部115は、テーブルあるいは二次元配列であるTAB1を作成する(ステップS1051)。具体的には、経時データ比較部115は、一致塩基数を算出する対象となる2つのフラグメント、すなわち行側の塩基配列P1および列側の塩基配列P2の塩基配列をそれぞれ読み込み、縦軸(X)に、P1のフラグメントが有する塩基配列を構成する塩基を最初から比較塩基配列長と同数だけ配列の順に並べ、他方の軸である横軸(Y)にP2のフラグメントが有する塩基配列を構成する塩基を最初から比較塩基配列長と同数だけ配列の順に並べてTAB1とする。そして、TAB1の各交点に、該当する縦軸上の塩基と横軸上の塩基が同一であれば「1」の値を、異なっていれば「0」の値を格納する。
 ここで、TAB1の作成に用いる2つの塩基配列は、どちらも、図15の1)に示すように、塩基配列情報の最初から比較塩基配列長と同数だけ用いる。これは、前述したように、フラグメント生成フェイズ10Bにおいて、制限酵素などの再現性を持つ切断方法を用いて、同一の個体の採取時期が異なるサンプル間で、対応するフラグメントを特定してその変異率を正確に計算できるようにしてあるためである。
 ただし、塩基配列の情報を取得する塩基配列情報取得手順において、塩基配列が、互いの末端塩基配列が異なる手順で塩基配列を取得した場合は、塩基配列の重なっている部分を求めて変異率を計算する。
 なお、以降においては、TAB1上の縦軸上のS番目の塩基と横軸上のT番目の塩基の交点の値を示すのに、TAB1(X、Y)と表記するものとする。TAB2についても、同様にTAB2(S、T)と表記するものとする。なお、S、Tはそれぞれ正の整数であって、それぞれの最大値はともに基準配列長である。
 そして、経時データ比較部115は、TAB1を複製したTAB2を一致塩基数算出テーブル記憶部134上に作成し、TAB2の縦軸上の最後から二番目に位置する塩基と横軸上の最後から二番目に位置する塩基との交点TAB2(比較塩基配列長-1、比較塩基配列長-1)から、TAB2の縦軸上の最初に位置する塩基と横軸上の最初に位置する塩基との交点TAB2(1、1)に向かって、すべての交点TAB2(X、Y)について処理を行う(ステップS1052)。処理の内容は、ステップS1053の処理である。
 経時データ比較部115は、TAB2(X、Y)について、所定の値を算出して格納する(ステップS1053)。具体的には、経時データ比較部115は、まず、TAB2(X+1,Y+1)~TAB2(X+1,比較配列長)とTAB2(X+1,Y+1)~TAB2(比較配列長,Y+1)の行列中で最大値を特定する。これを処理1とする。次に、得られた最大値をTAB1(X,Y)に加算して TAB2(X,Y)に格納する。これを処理2とする。処理1と処理2とを、TAB2(比較塩基配列長-1,比較塩基配列長-1)からTAB2(1,1)まで点線の矢印の順に計算し、TAB2を完成する。
 そして、経時データ比較部115は、TAB2(1、1)の値を一致塩基数として読み取り、出力情報01に格納する(ステップS1054)。
 そして、経時データ比較部115は、出力情報O1の一致塩基数の値を比較塩基配列長P3で除して100倍した値を、塩基配列一致率として出力情報のO2に格納する。
 以上が、変異率算出処理のステップS105において実施される塩基配列同士の一致塩基数の算出処理である。一致塩基数の算出処理によれば、容易に最長の一致塩基数を取得することができる。
 図16は、核酸情報処理装置100が出力する差分変異率の出力画面200の例である。当該出力画面200は、本発明にかかるDNAの評価方法1の結果出力フェイズ10Eにおけるステップ41の処理の結果を示す画面に相当する。出力画面200の表示時には、核酸情報処理装置100は、求めた変異率が前回の経時ファイルとの比較を行う差分変異率である場合には、所定の基準範囲と比較して注意を要する度合いを特定し、サンプル採取時順にグラフ化して注意を要する度合いとともに出力する。
 具体的には、グラフ生成部117は、差分変異率が算出されると、差分変異率を求めた対象すなわち種、個体および部位が一致する経時ファイルであって採取時識別子が過去を示す経時ファイルを所定数読み取り、その経時ファイルに含まれる差分変異率の情報を経時順に並べて折れ線グラフ等に変換し、描画情報とする。また、明確に環境変化等の時期が記憶部130上等に保存されている場合には、当該時期をグラフ上に示すよう描画情報を作成する。そして、グラフ生成部117は、過去の定常状態すなわち環境変化前の状態における差分変異率の標準変動域を算出して強調表示する描画情報を生成するとともに、算出された差分変異率が標準変動域から逸脱する場合には、所定の警告メッセージ等を併せて描画情報に埋め込んで生成する。
 なお、前述のとおり、標準変動域は、グラフ生成部117が、環境変化前における差分変異率の最大値を上限として、最小値を下限として設定する方法が考えられる。しかし、これに限られず、例えばグラフ生成部117が、環境変化前における差分変異率の平均値を求めて、当該平均値に所定の重みづけを行い上限と下限を設定することも考えられる。
 あるいは、グラフ生成部117が、定常状態の標準変動域を設定するために、定常状態の複数のサンプルの差分変異率の標準偏差、中央値または平均偏差等の統計的数値を求め、これを基準として標準変動域を設定するようにしてもよい。
 出力画面200においては、種識別子、個体識別子、部位識別子を表示する対象表示領域210と、差分変異率を採取時に応じて数値で示す表220と、グラフを用いて差分変異率の経時的変遷を示すグラフ表示領域230と、が表示される。
 表220には、差分変異率表示欄221と、環境変化のあった時期を示す環境変化目安表示222とが含まれる。また、グラフ表示領域230には、横軸231に時間軸、縦軸232に差分変異率を配した折れ線グラフ233が含まれる。また、グラフ表示領域230には、環境変化を示す時期を明示する環境変化標識234と、過去の定常状態すなわち環境変化前の定常状態における差分変異率の標準変動域235と、差分変異率が標準変動域235を逸脱する場合には、警告メッセージ236(例えば、「要対策」の文字メッセージ等)が強調表示される。
 なお、本発明にかかる差分変異率の表示方法については、一度に採取したサンプルの全量を用いて一つの経時ファイルを作成する方法に限らず、サンプルの一部ずつについて採取時が同じである経時ファイルを作成しておき、採取時が同じである複数の経時ファイルの一部同士の差分変異率を特定してファイル間の差分変異率の平均値等を用いて差分変異率を表示する多数回解析の結果を表示するようにしてもよい。
 図17は、このような多数回解析における、核酸情報処理装置100が出力する差分変異率の平均値の出力画面300の例である。当該出力画面300は、本発明にかかるDNAの評価方法1の結果出力フェイズ10Eにおけるステップ41の処理の結果を示す画面の変形例に相当する。出力画面300の表示時には、核酸情報処理装置100は、求めた変異率の平均値が前回の経時ファイルとの比較を行った差分変異率の平均値である場合には、差分変異率の平均値と標準変動域と比較して注意を要する度合いを特定し、サンプル採取時順にグラフ化して注意を要する度合いとともに出力する。
 具体的には、グラフ生成部117は、差分変異率の平均値が算出されると、差分変異率を求めた対象すなわち種、個体および部位が一致する経時ファイルであって採取時識別子が過去を示す経時ファイルを所定数読み取り、その経時ファイルに含まれる差分変異率と差分変異率の平均値との情報を経時順に並べて折れ線グラフ等に変換し、描画情報とする。
 この場合において、グラフは、平均値だけではなく、最大値と最小値、あるいは標準偏差なども併せて表示する棒足とすることが考えられる。また、明確に環境変化の時期が記憶部130上等に保存されている場合には、当該時期をグラフ上に示すよう描画情報を作成する。そして、グラフ生成部117は、過去の定常状態すなわち環境変化前の状態における差分変異率の標準変動域を算出して強調表示する描画情報を生成するとともに、算出された差分変異率の平均値が標準変動域から逸脱する場合には、所定の警告メッセージ336(例えば、「要対策」の文字メッセージ等)等を併せて描画情報に埋め込んで生成する。
 なお、前述のとおり、標準変動域は、グラフ生成部117が、環境変化前における差分変異率の最大値を上限として、最小値を下限として設定する方法が考えられる。しかし、これに限られず、例えばグラフ生成部117が、DNA変化前における差分変異率の平均値を求めて、当該平均値に所定の重みづけを行い上限と下限を設定することも考えられる。またあるいは、グラフ生成部117が、定常状態の標準変動域を設定するために、定常状態の複数のサンプルの差分変異率の標準偏差、中央値または平均偏差等の統計的数値を求め、これを基準として標準変動域を設定するようにしてもよい。
 出力画面300においては、種識別子、個体識別子、部位識別子を表示する対象表示領域310と、差分変異率を採取時に応じて数値で示す表320と、グラフを用いて差分変異率の経時的変遷を示すグラフ表示領域330と、が表示される。
 表320には、差分変異率表示欄321と、環境変化のあった時期を示す環境変化目安表示322とが含まれる。また、グラフ表示領域330には、横軸331に時間軸、縦軸332に差分変異率を配した棒足337付折れ線グラフ333が含まれる。また、グラフ表示領域330には、環境変化を示す時期を明示する環境変化標識334と、過去の定常状態すなわち環境変化前の定常状態における差分変異率の標準変動域335と、差分変異率が標準変動域335を逸脱する場合には、警告メッセージ336(例えば、「要対策」の文字メッセージ等)が強調表示される。
 図18は、核酸情報処理装置100が出力する積算変異率の出力画面400の例である。当該出力画面400は、本発明にかかるDNAの評価方法1の結果出力フェイズ10Eにおけるステップ42の処理の結果を示す画面に相当する。出力画面400の表示時には、核酸情報処理装置100は、求めた変異率が、基準となる経時ファイルとの比較を行って算出する積算変異率である場合には、所定の閾値と比較して注意を要する度合いを特定し、サンプル採取時順にグラフ化して注意を要する度合いとともに出力する。
 具体的には、グラフ生成部117は、積算変異率が算出されると、積算変異率を求めた対象すなわち種、個体および部位が一致する経時ファイルであって採取時識別子が過去を示す経時ファイルを所定数読み取り、その経時ファイルに含まれる積算変異率の情報を経時順に並べて折れ線グラフ等に変換し、描画情報とする。また、明確に環境変化の時期が記憶部130上等に保存されている場合には、当該時期をグラフ上に示すよう描画情報を作成する。そして、グラフ生成部117は、疾患等の発症率等を考慮してあらかじめ定められた閾値を特定して強調表示する描画情報を生成するとともに、算出された積算変異率が閾値を超える場合には、所定の警告メッセージ等を併せて描画情報に埋め込んで生成する。
 なお、前述のとおり、閾値は、グラフ生成部117が、疾患や異常の発症リスクが見過ごせないほど高まるといえる一定の所与の値として設定する方法が考えられる。しかし、これに限られず、例えばグラフ生成部117が、同種の異個体の同部位の平均的な積算変異率の平均値等に応じて設定してもよい。また、同一個体であっても加齢等による閾値の変化が考えられるため、一定の法則に応じた閾値を設定するようにしてもよい。
 出力画面400においては、種識別子、個体識別子、部位識別子を表示する対象表示領域410と、積算変異率を採取時に応じて数値で示す表421と、グラフを用いて積算変異率の経時的変遷を示すグラフ表示領域430と、が表示される。
 表421には、積算変異率表示欄422と、環境変化のあった時期を示す環境変化目安表示423とが含まれる。また、グラフ表示領域430には、横軸431に時間軸、縦軸432に積算変異率を配した折れ線グラフ433が含まれる。また、グラフ表示領域430には、環境変化を示す時期を明示する環境変化標識434と、所定の閾値を強調表示する閾値表示435と、積算変異率が閾値を超える場合には、警告メッセージ436(例えば、「要対策」の文字メッセージ等)が強調表示される。
 ところで、図16~18は、単独の被検体5における単独の部位を解析した核酸情報処理装置100からの出力画面である。よって、本発明にかかるDNAの評価方法1において、所定の被検体5について、複数の部位について差分変異率や積算変異率を算出した場合には、図16~18に示したような出力画面を各部位に対応するかたちで重ねて表示することもできるし、単一の出力画面に複数の部位毎に表220、320及び420並びにグラフ表示領域230、330及び430を表示してもよい。この場合には、問題となった環境変化が被検体5の如何なる部位に影響を及ぼしているのかを視覚的に比較して把握することができる。
 さらに、本発明にかかるDNAの評価方法1において、所定の被検体5を含む集団について差分変異率や積算変異率を算出した場合には、例えば対象表示領域210、310及び410に当該集団の特徴を表示することができる。集団の特徴とは、集団を構成する被検体5の居住地域、性別、年齢構成及び既往歴等の情報であって、他の集団から区別することで、問題となる環境変化の影響を集団として把握することができる。すなわち、この場合、当該特徴によって定義される集団に対する警告メッセージ236、336及び436を出力することができる。
 以上が、本発明にかかるDNAの評価方法1の第一の実施形態である。第一の実施形態によれば、機能領域あるいは非機能領域にかかわらず、両者のデータを併せて利用できるため、差分変異率及び/又は積算変異率を用いて容易に感度良く個体単位の塩基配列の変異の傾向を把握することができる。また、差分変異率あるいは積算変異率の変化の傾向を通じて、環境変化が個体に影響を与えているか否かを、DNAの評価として容易に把握できる。また、複数回のサンプルのDNAの差分変異率の推移が、増加傾向、不変、減少傾向などのいずれの傾向をどの程度示すかを解析し、環境変化によるゲノム塩基配列の変化の有無、傾向、程度などの判断、予測を行う基礎として活用することができる。
 なお、本願発明は、上記実施形態に限定されるものではなく、発明の主旨を逸脱しない範囲で変形することが可能である。例えば、図19に示すように、第二の実施形態として、経時データの作成にあたって発生しうる読み取り誤差の影響を少なくするために、複数に分割されたサンプルすなわち互いに同一となる複数のフラグメントを用いてDNAシーケンサー20により塩基配列の読み取りを行い、読み取り結果である経時1における経時ファイル21である経時1ファイルA21と経時1ファイルA’21’とを比較して読み取り誤差を算出する手順22を設け、算出した読み取り誤差23を経時データと対応付けて保持することとする経時データ生成フェイズ10C’を行うようにしてもよい。なお、第二の実施形態は、第一の実施形態と基本的に同様の構成を備えるものであるため、以下においては相違点を中心に説明する。
 第二の実施形態の経時データ生成フェイズ10C’においては、まず、フラグメント生成フェイズ10Bにより生成した同一の経時サンプル(例えば経時1サンプル)のフラグメント群のDNAを、複数のフラグメント群AおよびA’に分割し、それぞれについてDNAシーケンサー20で塩基配列を読み取り、得られた塩基配列データを経時1ファイルAおよび経時1ファイルA’に格納する。ここで、複数のフラグメント群AおよびA’は、フラグメント生成フェイズ10Bにより生成した経時サンプル、すなわちフラグメントを含有する溶液を略同量となるように分割することで調整することができる。
 次に、これら2つのファイルの塩基配列情報を、前の説明中で変異率算出に用いた図12のグループ間の塩基配列比較ルーティンの入力情報I1およびI2として格納し、S101~S112の各ステップをフローに従って実行して経時1ファイルAと経時1ファイルA’との総フラグメント集計テーブル132および変異率導出テーブル133を作成し、経時1ファイルAと経時1ファイルA’との間の変異率を求める。このようにして得られた変異率を、読み取り誤差とする。
 以上が、読み取り誤差算出処理の処理フローである。読み取り誤差算出処理によれば、経時データを作成する際に、同一の塩基配列を有するべきフラグメントを複数回シーケンス処理した結果を比較することで、読み取り誤差を算出することができる。フラグメント生成フェイズ10Bにより生成したフラグメント群Aを分割してフラグメント群A’を得た場合、両群に含まれるフラグメント(DNA)は全く同一の構成であって、各フラグメントの塩基配列は同一と考えられるため、両者に相違が見られた場合、その相違は、塩基配列決定時の実験操作によって生じたものと考えられる。このため、両群に含まれるフラグメント(DNA)から得られた塩基配列同士の間にどれだけの相違が見られるかを調べることで、塩基配列決定の実験における読み取り誤差を、明確に検出できるためである。
 読み取り誤差を用いた変異率の算出方法としては、変異率を比較する経時データの一方に含まれるフラグメントをaとして、他方の経時データに含まれる対応するフラグメントをbとすると、二つの経時データのそれぞれの読み取り誤差を考慮した全体の読み取り誤差を算出し、フラグメントaとbとの基準塩基配列長に占める変異部分の長さから全体の読み取り誤差を引いた長さの割合を変異率として算出する方法が考えられる。
 すなわち、フラグメントaの属する経時データの総塩基配列長からフラグメントaとbとの総一致塩基数を引いた長さと、フラグメントbの属する経時データの総塩基配列長からフラグメントaとbとの総一致塩基数を引いた長さとの和を求め、これをフラグメントaの属する経時データの総塩基配列長とフラグメントbの属する経時データの総塩基配列長との和で除すると、全体の読み取り誤差を算出することができる。そして、aのフラグメントとbのフラグメントとの間で相違する部分の長さの合計から全体の読み取り誤差を引いた値がフラグメントaとbとの間の基準塩基配列長に占める割合を変異率ととらえることができる。
 なお、読み取り誤差を考慮して経時ファイル間の変異率を求める場合に、用いる経時データの各フラグメントの塩基配列は、読み取り誤差算出の際に作成した総フラグメント集計テーブル132の、同一の行のフラグメント識別子132Aと最高一致フラグメント識別子132Bとの組合せのうち、塩基配列長が短い方のフラグメント塩基配列を使用し、フラグメント塩基配列長は、同一の行の基準塩基配列長を使用する。
 以上が、本発明にかかるDNAの評価方法1の第二の実施形態である。第二の実施形態によれば、読み取り誤差を除外して変異率を求めることができるため、より精度の高い変異率の比較が可能となる。
 また例えば、第一の実施形態にかかる変異率算出処理においては、対応フラグメントを特定する処理を行っているが、多対多のマッチングを行う原理であるから、経時ファイルに含まれるフラグメント数が多くなるほど、演算量が多くなる傾向にある。したがって、第三の実施形態として、マッチングさせるフラグメントを予めグルーピングして、マッチング範囲を区切ることで、演算量を著しく低減させることが可能となる。なお、第三の実施形態については、第一の実施形態と基本的に同様の構成を備えるものであるため、以下においては相違点を中心に説明する。
 図20は、このような第三の実施形態に係る変異率算出処理600の流れを示す図である。変異率特定部116は、対比する経時1ファイル21と、経時2ファイル25に属するそれぞれのフラグメントを、切断に用いた酵素に応じてグループ分けする(601、602)。具体的には、核酸情報処理装置100は、図21に示す経時データ記憶部131´を備えており、フラグメントID131Hに対応付けられたフラグメントを切断した酵素を特定する切断酵素グループ131Mの情報を含む。変異率特定部116は、切断酵素グループ131Mに基づいて、フラグメントごとにグループ分けを行う。なお、この切断酵素グループ131Mの情報は、制限酵素の種類を示す情報である。すなわち、フラグメントの塩基配列情報131Kの検索範囲として、所定の制限酵素による処理で末端に創出される特定の塩基配列を検索し、当該塩基配列を末端に含む塩基配列情報131Kに当該所定の制限酵素を示す情報を関連付ける。
 なお、本処理において切断に用いた制限酵素に応じてグループ分けを行うのは、切断端の塩基配列が同一の塩基配列同士を比較するためである。使用する制限酵素が異なれば、切断端の塩基配列が異なり、その場合には一致率が相対的に低くなり無駄な演算を行うこととなるためである。よって、仮に、切断端が同一となる複数の制限酵素で切断したフラグメントであれば、同一のグループとして扱ってもよいといえる。
 そして、変異率特定部116は、同一の酵素を用いたグループのフラグメント21Aとフラグメント25A間、およびフラグメント21Bとフラグメント25B間に限り、経時1ファイル21と経時2ファイル25に含まれるフラグメント間対応フラグメントを特定する処理を行い、グループごとに図12のグループ間の塩基配列比較ルーティンのS101~S112の各ステップをフローに従って実行して、グループごとの総基準塩基配列長、変異塩基数を求める(ステップ603、ステップ604)。なお、変異塩基数は、総基準塩基配列長から総一致塩基数を引いた数である。
 そして、変異率特定部116は、変異率を求める(ステップ605)。具体的には、変異率特定部116は、酵素グループごとに算出した変異塩基数をグループをまとめて和し、酵素グループごとに算出した総基準塩基配列長をグループをまとめて和した値で除し、これを100倍することで、変異率(%)を算出する。
 すなわち、第三の実施形態におけるDNAの評価方法1は、別の表現を行うと、以下のように表現できるものであるともいえる。サンプルAの酵素グループIに対するサンプルBの酵素グループIの一致率をBIcとして、サンプルAの酵素グループIのDNAフラグメント群に対する、サンプルBの酵素グループIのDNAフラグメント群の総一致塩基数をLIABとして、酵素グループIのDNAフラグメント群の総塩基配列長をLIとして、サンプルAの酵素グループIIに対するサンプルBの酵素グループIIの一致率をBIIcとして、サンプルAの酵素グループIIのDNAフラグメント群に対する、サンプルBの酵素グループIIのDNAフラグメント群の総一致塩基数をLIIABとして、酵素グループIIのDNAフラグメント群の総塩基配列長をLIIとして、サンプルAのDNA塩基配列に対するサンプルBのDNA塩基配列の合算一致率をSABとする場合、下式(1)~(3)が成り立つ。
 BIc = LIAB/LI・・・式(1)
BIIc = LIIAB/LII・・・式(2)
SAB = (LIAB+LIIAB)/(LI+LII)・・・式(3)
 また、変異率の算出にあたっては、サンプルAのDNAに対するサンプルBのDNAの変異率をVABとする場合、下式(4)が成り立つ。
    VAB = 1-SAB・・・式(4)
 以上が、第三の実施形態に係る変異率算出処理600のフローである。このようにすることで、変異率特定部116は、グループ内のマッチングを行うだけで対応するフラグメントを特定しうるため、マッチングパターンを全体として減らすことができるため、効率よく変異率の特定を行うことができる。
 以上、第三の実施形態について説明した。なお、上記酵素グループによる処理は、切断酵素が異なれば切断された端部の塩基配列が異なる組み合わせとなる特性を利用している。そのため、切断した酵素が不明なフラグメントが含まれる経時ファイルであっても、フラグメントの端部の塩基配列のパターンによりグループ分けを行うようにすることも考えられる。
 以上、本発明について、実施形態を説明した。
 なお、本願発明は、上記実施形態に限定されるものではなく、発明の主旨を逸脱しない範囲でさらに変形することが可能である。
 例えば、同種の複数個体のサンプルのDNA塩基配列を決定すれば、当該種における、サンプルAのDNAに対するサンプルBのDNAの差分変異率の幅がわかる。この結果を、サンプルAのDNAに対するサンプルBのDNAの差分変異率が変化したかどうかの判定に考慮することで、環境変化が特定の生物種のDNAに及ぼす影響の評価ができるものとなる。
 また例えば、環境変化後も同一個体から継時的に反復して採取し、被検体5のDNAに対する差分変異率の変化を追跡することで、環境変化が個体のゲノムに及ぼす短期的、長期的な影響度の消長が評価できるものとなる。さらに、既知の差分変異率の変化に基づいて図16の折れ線グラフの予想としての線237または図17の折れ線グラフの予想としての線338を引くことにより、今後の予測もできる可能性がある。
 また例えば、環境変化後も同種の複数個体から継時的に反復して採取し、種全体としての差分変異率の変化を追跡することで、環境変化が当該種のゲノムに及ぼす短期的、長期的な影響度の消長が評価できるものとなる。さらに、既知の差分変異率の変化に基づいて図16の折れ線グラフの予想としての線237または図17の折れ線グラフの予想としての線338を引くことにより、今後の予測もできる可能性がある。
 また例えば、環境変化後も同一個体から継時的に反復して採取し、被検体5のDNAに対する積算変異率の変化を追跡することで、各採取時点における個体に対する疾病や異常の発生リスクの程度が評価できるものとなる。さらに、既知の積算変異率の変化に基づいて図18の折れ線グラフの予想としての線437を引くことにより、今後の予測もできる可能性がある。
 また例えば、環境変化後も同種の複数個体から継時的に反復して採取し、種全体としての積算変異率の変化を追跡することで、各採取時点における当該種に対する疾病や異常の発生リスクの程度が評価できるものとなる。さらに、既知の積算変異率の変化に基づいて図18の折れ線グラフの予想としての線437を引くことにより、今後の予測もできる可能性がある。
 また例えば、環境変化後も複数種の個体について採取と解析を行えば、環境変化が生態系に及ぼす短期的、長期的なDNAへの影響度の消長が評価できるものとなる。
 なお、上記実施形態および変形例におけるDNAの評価方法1および核酸情報処理装置100は、サービスとして取引対象とするだけでなく、他の機器等と組み合わせてシステムとして取引対象としたり、機器の動作を実現するプログラム部品単位で取引対象とすることも可能である。
 以下、実施例により本発明を更に詳細に説明するが、本発明の技術的範囲は以下の実施例に限定されるものではない。
〔実施例1〕
 本実施例では、異なる時期に取得したDNAの塩基配列に関する情報の一例として、異なる放射線量で被爆したシロイヌナズナから得たゲノム配列情報を使用した。すなわち、本実施例では、放射線被曝によるゲノムに対する変異導入が変異率の変化として検出できるか解析した。
 具体的に本実施例では、所定の線量の放射線をシロイヌナズナに照射し、そのゲノムDNAを制限酵素で切断した後にゲノム塩基配列を次世代シーケンサーで決定し、放射線照射を受けた個体と受けなかった個体で変異率に違いが見られるかどうかを、以下の手順で検討した。
〔1.シロイヌナズナの培養〕
 シロイヌナズナ(Columbia-0)を Murashige and Skoog Basal Medium (2% sucrose、0.75% agar含有、pH5.8、SIGMA-ALDRICH社製)に25個体/9 cmシャーレになるよう播種し、低温処理(4℃)を4日間行った後、22℃、白色光(約35 μmol/m2/s)を常時照射した状態(cW)で5日間栽培した。
〔2.シロイヌナズナへのX線照射〕
 上記1.に記載の寒天培地上に生育したシロイヌナズナ(Columbia-0)の5日目の芽生えに、X線(3.47 Gy/min、150 kV、20 mA)を照射線量10、25、50或いは100 Gyになるよう照射した。X線発生照射装置は、MBR-1520R-3(株式会社日立パワーソリューションズ社製)を用いた。X線照射後、22℃で白色光(約35 μmol/m2/s)を常時照射した状態(cW)で21日間栽培した。なお、比較のために、X線を照射しない以外は同じ条件シロイヌナズナを栽培し、比較対照のシロイヌナズナとした。
〔3.シロイヌナズナからのDNA調製〕
 X線を照射したシロイヌナズナ及び対照のシロイヌナズナについて、DNeasy Plant Maxi Kit(QIAGEN社製)を用いて、以下のプロトコルに従ってDNA抽出を行った。
 先ず、シロイヌナズナ(1.0 g以下)をバイオマッシャーSP(株式会社ニッピ社製)に量り取り、液体窒素で冷却しながらペースト状になるまですり潰した。その後、65℃に加温したBuf.AP1を5ml、RNaseA(100mg/ml)を10μl加え、ボルテックスで激しく混合した。その後、65℃で10分間インキュベートした(途中で2~3回転倒混和した)。次に、Buf.P3を1.8ml加え混合し、氷上で10分間冷却した。その後、3,500×g、25℃、5分間、スウィングローターで遠心分離した。その後、QIAshredder Maxi Spin Columnに上清を移し、3,500×g、25℃、5分間、スウィングローターで遠心分離した。
 次に、フロースルー液を新しい50mlコニカルチューブに移し、液量を測定した。そして、フロースルー液の1.5倍量のBuf.AW1を添加し、すぐにボルテックスで混合した。その後、混合した溶液をDNeasy Maxi Spin Columnに全量移し、3,500×g、25℃、5分間、スウィングローターで遠心分離した。そして、フロースルー液を捨て、カラムを戻し、Buf.AW2を12 ml加え、3,500×g、25℃、10分間、スウィングローターで遠心分離した。その後、フロースルー液を捨て、カラムを戻し、3,500×g、25℃、5分間、スウィングローターで遠心分離した。
 次に、フタを外して10分間室温で乾燥させた後、Collection Tubeにカラムを移し、Buf.AEを750μl加え、室温で5分間インキュベートした。その後、3,500×g、25℃、5分間、スウィングローターで遠心分離し、フロースルー液をシロイヌナズナDNA溶液とした。得られたシロイヌナズナDNA溶液をエタノール沈殿でDNA溶液を濃縮した(DNA溶液の濃度が100~200ng/μlになるように調製)。
〔4. シロイヌナズナDNAの制限酵素切断〕
 本実施例では、制限酵素としてHindIII-HFを使用した。シロイヌナズナDNAを9μg、10×Cut Smart Buf.(ニュー・イングランド・バイオラボ・ジャパン株式会社(NEB)製)を11μl、HindIII-HF(20,000U/ml、NEB社製)を4μl(80U)、Total:110μlの反応溶液を作成し、37℃、オーバーナイトで反応させた。65℃、20分間加温し、制限酵素反応を停止した。
〔5.シロイヌナズナDNAの制限酵素切断産物の分画回収〕
 1.2%アガロースゲル電気泳動を行い、1.0~1.5 kbpの部分のゲルの切り出しを行った(使用マーカー:NEB N3232)。切り出したゲルを、Wizard SV Gel and PCR Clean-Up System(Promega社製)で精製した。
 すなわち、先ず、ゲル片10mgに対して10μlのMembrane Binding Solutionを添加し、65℃で10分間加温しゲル片を溶解した(2~3分毎にボルテックスで混合した)。そして、ゲルを溶解した溶液を350μlずつSV Minicolumnに移し、1分間室温でインキュベートした後、16,000×g、25℃、1分間遠心分離した。そしてフロースルー液を捨て、カラムを戻し、ゲルを溶解した溶液の全てがカラムを通過するまでこの操作を繰り返し行った。
 次に、フロースルー液を捨て、カラムを戻し、Membrane Wash Solutionを700μl添加し、16,000×g、25℃、1分間遠心分離した。そして、フロースルー液を捨て、カラムを戻し、Membrane Washu Solutionを500μl加え、16,000×g、25℃、5分間遠心分離した。その後、フロースルー液を捨て、カラムを戻し、16,000×g、25℃、5分間遠心分離した。そして、カラムを新しい1.5 mlチューブに移し、Nuclease-Free Waterを50μl加え、室温で1分間インキュベートし、16,000×g、25℃、1分間遠心分離し、フロースルー液を回収した。
〔6.DNA塩基配列解析〕
 上記5.で得られたDNA溶液を用いて、次世代シーケンサー Miseq(イルミナ社製)で、標準プロトコルに従って、塩基配列を解読した。その際、DNAは、Miseqの標準プロトコル中の超音波処理によるフラグメント切断を行わずにフラグメント両端にアダプタを接続し、塩基配列解読を行った。
〔7.塩基配列解析結果からタグ配列の抽出〕
 上記6.で得られた塩基配列解析結果として、次世代シーケンサー Miseqで解読された核酸断片の塩基配列(リード)が得られる。本実施例では、MiSeqから得られたリードのうち、末端がHindIIIの切り口であるAGCTTで始まるリードを抽出した。そして、抽出したリードに対して、5’末端から150bpの長さとなるようにトリミングした。そして、トリミング後の塩基配列(5’- AGCTT……:全長150bp)をタグ配列として解析に使用した。
 なお、リードに対して5’末端から150bpの長さとなるようにトリミングすることで、3’側のクオリティの低い配列情報を削除することとなる。このようにトリミングすることによって、得られたタグ配列の平均クオリティを99%以上とすることができる。
 本実施例では、この処理の結果、表1に示すように、先頭がAGCTTで始まる150bpのタグ配列が、サンプルごとに20万配列以上ずつ得られた。総リード数に対するタグ配列数の割合は、18~25%であった。
Figure JPOXMLDOC01-appb-T000001
〔8.タグ配列の出現頻度の計算〕
 上記7.で得られた全てのタグ配列について、その出現頻度を計算した。本実施例において、出現頻度は、所定のサンプルについて得られた全てのタグ配列のなかで、同一の塩基配列からなるタグ配列が出現する数とした。
 また、本実施例では、X線未照射のサンプル、X線の放射線量の異なる4種類のサンプルのそれぞれについてタグ配列の出現頻度を計算し、その後、全サンプルの計算結果を統合し、サンプル毎に各タグ配列の出現頻度が一覧で記載されたテーブルを作成した。
〔9.変異率1の算出〕
 以上のように算出したタグ配列毎の出現頻度は、放射線の照射によりDNAに変異が生じると変化することが期待される。すなわち、所定のタグ配列について、X線未照射のサンプルにおける出現頻度と、X線照射のサンプルにおける出現頻度は異なることが期待される。そこで、タグ配列毎の出現頻度をサンプル間で以下の手順に従って比較した。
 先ず、DEGseq (Wang L, Feng Z, Wang X, Zhang X. 2009. Bioinformatics)という群間比較ソフトウェアを用い、X線未照射のサンプルのデータを基準にして、各サンプルとの間で同一のタグ配列の出現頻度の統計検定を行い、基準とした未照射のサンプルと比較して出現頻度が有意に変動したタグ配列数を算出した。メソッドとしては”LRT(Likelihood Ratio Test)” を選択し、p-value 0.001以下を抽出した。
 次に、出現頻度が有意に変動したタグ配列数の全タグ配列数に対する割合を算出し、これを変異タグ配列率とした。ここで、全タグ配列数とは、上記7.で得られたタグ配列の総数とは異なり、上記7.で得られた全てのタグ配列に含まれるタグ配列の種類の総数である。この変異タグ配列率をX線未照射のサンプル、X線の放射線量の異なる4種類のサンプルのそれぞれについて計算した。なお、ここで算出した変異タグ配列率は、相違する塩基配列部分の全体に対する割合として定義される変異率の一例である。
〔10.変異率2の算出〕
 また、サンプル間で出現頻度が変動した場合、そのタグ配列には1つの塩基変異が生じたと仮定することができる。したがって、上述のように計算したタグ配列の出現頻度を使用して、サンプル毎に導入された変異数を見積もることができる。そして、導入された変異数の全塩基数に対する割合を求め、これを変異塩基率とした。この変異塩基率をX線未照射のサンプル、X線の放射線量の異なる4種類のサンプルのそれぞれについて計算した。なお、ここで算出した変異塩基率は、相違する塩基配列部分の全体に対する割合として定義される変異率の一例である。
〔11.結果〕
 上記9.で計算した変異タグ配列率及び上記10.で計算した変異塩基率を表2に纏めて示した。
Figure JPOXMLDOC01-appb-T000002
 表2から分かるように、変異タグ配列率及び変異塩基率ともに、未照射サンプルと照射サンプルの間で大きな差が見られた。表2に示した変異タグ配列率と変異塩基率をそれぞれグラフ化すると、それぞれ図22及び23のようになり、未照射群と照射群との変異率の差が視覚的に把握できる。なお、本実施例では、照射線量と変異率の間に相関は見られないが、今回の最小照射線量10Gyでも既に変異率の最大値に達している可能性があり、照射線量を変えた実験を行うことで、変異率との量的関係が見られる可能性がある。
 また、図24に、未照射サンプルに比して放射線照射サンプルに変異が認められた例として、抽出されたタグ配列の1つにおける、ミトコンドリアDNAの205,820番目の塩基の出現頻度と出現率の表を示す。データ最上段の未照射サンプルは、本解析において比較の基準としたサンプルである。放射線照射により、一部のミトコンドリアにこの部位でG→Tの変異が生じたことがわかる。
 本実施例の結果から、放射線照射によるゲノム変異(DNAの状態の変化)を、相違する塩基配列部分の全体に対する割合として定義される変異率に基づいて検出できることが示された。
 また、本実施例の結果から、放射線照射によりシロイヌナズナのゲノムの変異率が有意に高くなることが検出できたことから、本手法により、放射線照射に起因するゲノム変異率の変化を検出できることが明らかとなった。
 以上のように、本実施例により、相違する塩基配列部分の全体に対する割合として定義される変異率を計算することによりDNAの状態を評価すること、言い換えると、環境変化がDNAの変異率に及ぼす影響を評価できることが示された。
〔実施例2〕
 本実施例では、実施例1とは異なりin silicoで制限酵素切断を行い、放射線被曝によるゲノムに対する変異導入が変異率の変化として検出できるか解析した。具体的に本実施例では、下記の手順で、シロイヌナズナに放射線を照射してそのゲノム塩基配列を次世代シーケンサーで決定し、得られたデータをコンピュータ上の操作で仮想的に制限酵素切断した後に解析して、変異率の違いが見られるかどうかを検討した。
 なお、本実施例では、〔1.シロイヌナズナの培養〕~〔3.シロイヌナズナからのDNA調製〕までは、照射線量を5、15或いは30Gyとした以外は実施例1と同様である。
〔4.DNA塩基配列解析〕
 上記3.で得られたDNA溶液を用いて、超音波処理を含めて、次世代シーケンサー Miseq(イルミナ社製)の標準プロトコルに従って、塩基配列を解読した。
〔5.塩基配列解析結果からタグ配列の抽出〕
 上記4.で得られた全リード中から、塩基配列中に制限酵素EcoRIの認識配列であるGAATTCをもつリードを抽出した。そして、抽出したすべてのリードをin silicoでEcoRI切断し、少なくとも片方の末端がEcoRIの切断端であるAATTCを持つリードの集団を仮想的に作成した。
 そして、本実施例では、AATTCを持つリードに対して5’末端から50bpの長さとなるようにトリミングした。次に、本実施例では、トリミングした塩基配列(5’- AATTC……:全長50bp)についてそれぞれ読み取り精度を計算し、読み取り精度が99%以上のものをタグ配列として解析に使用した。
 なお、このようにタグ配列を作成することで、クオリティの低いタグ配列を除去することができる。本実施例では、この処理の結果、表3に示すように、先頭がAATTCで始まる50bpのタグ配列が、サンプルごとに20万配列以上ずつ得られた。
Figure JPOXMLDOC01-appb-T000003
〔6.タグ配列の出現頻度の計算〕
 本実施例でも、実施例1と同様にして、上記5.で得られた全てのタグ配列について出現頻度を計算し、X線未照射のサンプル、X線の放射線量の異なる3種類のサンプルのそれぞれについてタグ配列の出現頻度を計算し、その後、全サンプルの計算結果を統合し、サンプル毎に各タグ配列の出現頻度が一覧で記載されたテーブルを作成した。
〔7.変異率1の算出〕
 本実施例でも、実施例1と同様にして、DEGseq (Wang L, Feng Z, Wang X, Zhang X. 2009. Bioinformatics)という群間比較ソフトウェアを用い、出現頻度が有意に変動したタグ配列数を算出し、同様にして変異タグ配列率を計算した。
〔8.変異率2の算出〕
 本実施例でも、実施例1と同様にして、出現頻度が有意に変動したタグ配列に基づいて、同様にして変異塩基率を計算した。
〔9.結果〕
 上記7.で計算した変異タグ配列率及び上記8.で計算した変異塩基率を表4に纏めて示した。
Figure JPOXMLDOC01-appb-T000004
 表4から分かるように、変異タグ配列率及び変異塩基率ともに、未照射サンプルと照射サンプルの間で大きな差が見られた。表4に示した変異タグ配列率と変異塩基率をそれぞれグラフ化すると、それぞれ図25及び26のようになった。なお、本実施例でもまた、照射線量と変異率の間に相関は見られないが、今回の最小照射線量5Gyでも既に変異率の最大値に達している可能性があり、照射線量を変えた実験を行うことで、変異率との量的関係が見られる可能性がある。
 本実施例の結果から、シロイヌナズナから抽出したDNAを制限酵素切断せずに塩基配列決定した場合でも、放射線照射によるゲノム変異(DNAの状態の変化)を、相違する塩基配列部分の全体に対する割合として定義される変異率に基づいて検出できることが示された。ただし、実施例1の結果と比較すると、制限酵素切断後に塩基配列決定した場合の方がシーケンスデータの利用効率は高く、より感度の良い検出を行うには、制限酵素切断後に塩基配列決定を行う方がよいと考えられた。
 本明細書で引用した全ての刊行物、特許及び特許出願をそのまま参考として本明細書にとり入れるものとする。
1・・・DNAの評価方法、5・・・被検体、10・・・経時データ取得手順、10A・・・DNA抽出フェイズ、10B・・・フラグメント生成フェイズ、10C・・・経時データ生成フェイズ、10D・・・変異率算出フェイズ、10E・・・結果出力フェイズ、50・・・差分変異率の算出手順、60・・・積算変異率の算出手順、100・・・核酸情報処理装置、110・・・制御部、111・・・入力処理部、112・・・出力処理部、113・・・DNA塩基配列特定部、114・・・経時データ管理部、115・・・経時データ比較部、116・・・変異率特定部、117・・・グラフ生成部、130・・・記憶部、131・・・経時データ記憶部、132・・・フラグメント対応情報記憶部、133・・・変異率導出テーブル記憶部、134・・・一致配列長算出テーブル記憶部、140・・・出力表示部、150・・・入力受付部

Claims (18)

  1.  個体から採取したサンプルよりDNAの塩基配列に関する情報を取得する塩基配列情報取得手順と、
     前記塩基配列情報取得手順によって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定手順と、
     前記変異率に基づいてDNAを評価するDNAの評価手順と、
     を備えることを特徴とするDNAの評価方法。
  2.  前記DNAの塩基配列に関する情報は、複数のフラグメントの塩基配列情報を含み、
     前記変異率特定手順では、前記異なる時期に取得したDNAの塩基配列に関する情報間でフラグメントの塩基配列の一致率が高い組み合わせを特定し、当該組み合わせにおいて前記相違する塩基配列部分を特定する、
     ことを特徴とする請求項1記載のDNAの評価方法。
  3.  前記塩基配列情報取得手順では、前記サンプルに含まれるDNAをエンドヌクレアーゼにより切断して1又は複数のフラグメントを作製し、前記フラグメントの塩基配列の情報を読み取る、
     ことを特徴とする請求項2記載のDNAの評価方法。
  4.  前記塩基配列情報取得手順において前記フラグメントを作製する際に、互いに異なる種類の切断端の塩基配列が得られる複数種類のエンドヌクレアーゼにより前記サンプルに含まれるDNAを切断して前記フラグメントを作製する、
     ことを特徴とする請求項3記載のDNAの評価方法。
  5.  前記変異率特定手順においては、前記DNAの塩基配列に関する情報間で一致率が高い組み合わせを特定する際に、前記フラグメントの切断端が同一のフラグメント間において、一致率が高い組み合わせを特定する、
     ことを特徴とする請求項2記載のDNAの評価方法。
  6.  前記塩基配列情報取得手順では、読み取り誤差の情報を併せて取得し、
     前記変異率特定手順において、前記異なる時期に取得したDNAの塩基配列に関する情報間で相違する塩基配列部分に基づいて前記変異率を算出する際に前記読み取り誤差を排除する、
     ことを特徴とする請求項1記載のDNAの評価方法。
  7.  前記変異率特定手順では、前記互いに異なる時期に取得した複数の前記DNAの塩基配列に関する情報のうち前記フラグメントの数を比較し、フラグメントの数が少ない方のDNAの塩基配列に関する情報に含まれるフラグメントごとに、フラグメントの数が多い方のDNAの塩基配列に関する情報に含まれるフラグメントを一つずつ対応付けて変異率を特定する、
     ことを特徴とする請求項2記載のDNAの評価方法。
  8.  前記変異率特定手順では、対応付けられた一対のフラグメント間で長さを比較し、短い方の前記フラグメントの長さの範囲内における、互いに相違する部分の塩基数を求め、求めた塩基数が当該範囲内の総塩基数に占める率を用いて変異率を算出する、
     ことを特徴とする請求項2に記載のDNAの評価方法。
  9.  前記変異率特定手順では、前記互いに異なる時期に取得したDNAの塩基配列に関する情報は、一方のDNAの塩基配列に関する情報の取得時期と他方のDNAの塩基配列に関する情報の取得時期との期間において前記塩基配列情報取得手順によりDNAの塩基配列に関する情報が取得されていないDNAの塩基配列に関する情報である、
     ことを特徴とする請求項1記載のDNAの評価方法。
  10.  前記DNAの評価手順では、異なる時期に取得した複数のDNAの塩基配列に関する情報を用いて前記変異率特定手順において特定された複数の変異率に基づいて算出された標準変動域を用いて、前記変異率の多寡を判定する、
     ことを特徴とする請求項1記載のDNAの評価方法。
  11.  前記DNAの評価手順では、異なる時期に取得した複数のDNAの塩基配列に関する情報を用いて前記変異率特定手順において特定された複数の変異率の変動幅に応じて前記標準変動域を設定する、
     ことを特徴とする請求項10記載のDNAの評価方法。
  12.  前記DNAの評価手順では、異なる時期に取得した複数のDNAの塩基配列に関する情報を用いて前記変異率特定手順において特定された複数の変異率の標準偏差に基づいて前記標準変動域を設定する、
     ことを特徴とする請求項10記載のDNAの評価方法。
  13.  前記DNAの評価手順では、前記変異率特定手順において算出された変異率の積算値を所定の閾値と比較することで、前記変異率の多寡を判定する、
     ことを特徴とする請求項1記載のDNAの評価方法。
  14.  前記DNAの評価手順では、前記変異率特定手順にて算出した変異率が前記標準変動域又は前記閾値を超える値である場合、当該変動率を算出したときの一対のDNAの塩基配列に関する情報の間にDNAの変異に影響する環境変動があったとする
     ことを特徴とする請求項10又は13記載のDNAの評価方法。
  15.  個体から採取したサンプルよりから取得したDNAの塩基配列に関する情報を入力するする塩基配列情報入力手段と、
     前記塩基配列情報入力手段によって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定手段と、
     前記変異率に基づいてDNAを評価するDNAの評価手段と、
     を備えることを特徴とするDNAの評価装置。
  16.  前記サンプルよりDNAの塩基配列に関する情報を取得する塩基配列情報取得手段を更に備えることを特徴とする請求項15記載のDNAの評価装置。
  17.  コンピュータに、DNAの評価手順を実行させるプログラムであって、
     前記コンピュータを、制御手段として機能させ、
     前記制御手段に対して、
     個体から採取したサンプルよりから取得したDNAの塩基配列に関する情報を入力するする塩基配列入力ステップと、
     前記塩基配列入力ステップによって互いに異なる時期に取得した、DNAの塩基配列に関する情報間を比較し、相違する塩基配列部分を特定し、相違する塩基配列部分の全体に対する割合を変異率として特定する変異率特定ステップと、
     前記変異率に基づいてDNAを評価するDNAの評価ステップと、
     を実施させることを特徴とするプログラム。
  18.  塩基配列入力ステップでは、前記制御手段に対して、前記サンプルよりDNAの塩基配列に関する情報を取得する塩基配列情報取得手段から前記塩基配列に関する情報を入力させることを特徴とする請求項17記載のプログラム。
PCT/JP2014/061701 2013-04-26 2014-04-25 Dnaの状態を評価する方法、装置及びプログラム WO2014175427A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015513850A JPWO2014175427A1 (ja) 2013-04-26 2014-04-25 Dnaの状態を評価する方法、装置及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013094689 2013-04-26
JP2013-094689 2013-04-26

Publications (1)

Publication Number Publication Date
WO2014175427A1 true WO2014175427A1 (ja) 2014-10-30

Family

ID=51791992

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/061701 WO2014175427A1 (ja) 2013-04-26 2014-04-25 Dnaの状態を評価する方法、装置及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2014175427A1 (ja)
WO (1) WO2014175427A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017176834A3 (en) * 2016-04-06 2017-11-16 University Of Florida Research Foundation, Incorporated Measurement of genomic age for predicting the risk of cancer
CN109564770A (zh) * 2017-04-28 2019-04-02 国立研究开发法人海洋研究开发机构 整合系统以及整合方法
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62174631A (ja) * 1985-09-12 1987-07-31 Olympus Optical Co Ltd デンシトグラムの補正方法
JP2004008037A (ja) * 2002-06-04 2004-01-15 Tum-Gene Inc 一本鎖dna分解酵素を利用した塩基配列検出法及び該検出法を実行する検出装置
JP2007159401A (ja) * 2004-05-07 2007-06-28 Precision System Science Co Ltd 改変タンパク質の作製方法
WO2012133896A1 (ja) * 2011-03-31 2012-10-04 YANO Takamitsu ポリアミド化合物及びミトコンドリア遺伝子疾患治療用医薬組成物

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62174631A (ja) * 1985-09-12 1987-07-31 Olympus Optical Co Ltd デンシトグラムの補正方法
JP2004008037A (ja) * 2002-06-04 2004-01-15 Tum-Gene Inc 一本鎖dna分解酵素を利用した塩基配列検出法及び該検出法を実行する検出装置
JP2007159401A (ja) * 2004-05-07 2007-06-28 Precision System Science Co Ltd 改変タンパク質の作製方法
WO2012133896A1 (ja) * 2011-03-31 2012-10-04 YANO Takamitsu ポリアミド化合物及びミトコンドリア遺伝子疾患治療用医薬組成物

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017176834A3 (en) * 2016-04-06 2017-11-16 University Of Florida Research Foundation, Incorporated Measurement of genomic age for predicting the risk of cancer
CN109564770A (zh) * 2017-04-28 2019-04-02 国立研究开发法人海洋研究开发机构 整合系统以及整合方法
CN109564770B (zh) * 2017-04-28 2023-11-21 国立研究开发法人海洋研究开发机构 整合系统以及整合方法
US11837331B2 (en) 2017-04-28 2023-12-05 Japan Agency For Marine-Earth Science And Technology Integration system and integration method
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JPWO2021070739A1 (ja) * 2019-10-08 2021-11-25 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JP7352904B2 (ja) 2019-10-08 2023-09-29 国立大学法人 東京大学 分析装置、分析方法及びプログラム

Also Published As

Publication number Publication date
JPWO2014175427A1 (ja) 2017-02-23

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
Smith et al. Analysis of phylogenomic datasets reveals conflict, concordance, and gene duplications with examples from animals and plants
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
CN112602156A (zh) 用于检测残留疾病的系统和方法
JP2019512823A (ja) がんの進化の検出および診断
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
Ferris et al. Accelerated evolution in distinctive species reveals candidate elements for clinically relevant traits, including mutation and cancer resistance
CN108664769B (zh) 基于癌症基因组和非特异性基因标签的药物重定位方法
CN115151974A (zh) 使用补丁卷积神经网络的癌症分类
CN112086129A (zh) 预测肿瘤组织cfDNA的方法及系统
WO2014175427A1 (ja) Dnaの状態を評価する方法、装置及びプログラム
CN113362894A (zh) 一种对协同致死的癌症驱动基因进行预测的方法
CN114999568A (zh) 一种端粒等位基因不平衡tai的计算方法
CN115702457A (zh) 使用自动编码器确定癌症状态的系统和方法
Wang et al. Evolution of Human Brain Left–Right Asymmetry: Old Genes with New Functions
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
Zou et al. A new method for mutation inducing in rice by using DC electrophoresis bath and its mutagenic effects
CN108441572B (zh) 基于kasp技术的玉米叶绿体胞质类型的鉴定方法
CN105838720B (zh) Ptprq基因突变体及其应用
CN113159529A (zh) 一种肠道息肉的风险评估模型及相关系统
CN113160895A (zh) 一种结直肠癌风险评估模型及系统
Zhang et al. Inferring historical introgression with deep learning
CN115620810B (zh) 基于第三代基因测序数据的外源插入信息的检测方法和装置
Moraga et al. BrumiR: A toolkit for de novo discovery of microRNAs from sRNA-seq data
CN114854893B (zh) 一种与谷子抽穗期性状关联的SNPs标记及其鉴定方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14788813

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015513850

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14788813

Country of ref document: EP

Kind code of ref document: A1