WO2022196041A1 - 遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体 - Google Patents

遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体 Download PDF

Info

Publication number
WO2022196041A1
WO2022196041A1 PCT/JP2022/000221 JP2022000221W WO2022196041A1 WO 2022196041 A1 WO2022196041 A1 WO 2022196041A1 JP 2022000221 W JP2022000221 W JP 2022000221W WO 2022196041 A1 WO2022196041 A1 WO 2022196041A1
Authority
WO
WIPO (PCT)
Prior art keywords
pcr
ratio
stutter
microsatellites
information processing
Prior art date
Application number
PCT/JP2022/000221
Other languages
English (en)
French (fr)
Inventor
稔 麻生川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2023506774A priority Critical patent/JPWO2022196041A1/ja
Publication of WO2022196041A1 publication Critical patent/WO2022196041A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Definitions

  • This disclosure relates to the technical field of a genetic information processing system, a genetic information processing method, and a recording medium that execute processing related to genetic information.
  • Patent Document 1 describes estimating the relative height of stutter appearing after PCR amplification.
  • Patent Literature 2 discloses a technique for performing peak determination regardless of whether a peak obtained by PCR is a true peak or a noise peak.
  • Patent Literature 3 discloses calculating percent stutter and calculating an average percent stutter that summarizes the values of arbitrary samples.
  • Patent Document 4 discloses optimizing model parameters including peak position, peak height, and stutter rate.
  • This disclosure has been made, for example, in view of the above cited documents, and aims to provide a gene information processing system, a gene information processing method, and a recording medium capable of appropriately executing gene-related processing. do.
  • One aspect of the genetic information processing system of this disclosure includes first acquisition means for acquiring distribution information of microsatellites in a gene after PCR, and first acquisition means for indicating the amplification rate of the microsatellites for each cycle of the PCR.
  • a second acquisition means for acquiring a ratio, a second ratio indicating the ratio of stutter generated from the microsatellites in each cycle of the PCR, and the number of cycles of the PCR;
  • a calculation means for calculating the distribution of the microsatellites in the gene before the PCR based on the distribution information of the microsatellites, the first ratio, the second ratio, and the cycle number of the PCR; Prepare.
  • One aspect of the gene information processing method of this disclosure is to acquire distribution information of microsatellites in a gene after PCR, and obtain a first ratio indicating the amplification rate of the microsatellites for each cycle of the PCR; A second ratio indicating the ratio of stutter generated from the microsatellites for each cycle of the PCR and the number of cycles of the PCR are obtained, and the distribution information of the microsatellites in the gene after the PCR and the first The distribution of the microsatellites in the gene before the PCR is calculated based on the ratio of , the second ratio, and the cycle number of the PCR.
  • One aspect of the recording medium of this disclosure acquires distribution information of microsatellites in a gene after PCR, a first ratio indicating the amplification rate of the microsatellites for each cycle of the PCR, and 1 of the PCR.
  • a second ratio indicating the ratio of stutter generated from the microsatellites in each cycle and the number of cycles of the PCR are obtained, and the distribution information of the microsatellites in the gene after the PCR and the first ratio are obtained.
  • the second ratio, and the cycle number of the PCR a computer program is recorded for operating a computer to calculate the distribution of the microsatellites in the gene before the PCR.
  • FIG. 1 is a block diagram showing the hardware configuration of a genetic information processing system according to a first embodiment
  • FIG. 1 is a block diagram showing the functional configuration of a genetic information processing system according to a first embodiment
  • FIG. 1 is a graph showing an example of stutter that occurs in PCR.
  • 4 is a flow chart showing the flow of operations of the genetic information processing system according to the first embodiment.
  • FIG. 3 is a block diagram showing the functional configuration of a genetic information processing system according to a second embodiment
  • FIG. 1 is a graph showing an example of -1 stutter.
  • FIG. 2 is a conceptual diagram showing a method for estimating stutter amplicon amounts.
  • 9 is a flow chart showing the flow of operations of the genetic information processing system according to the second embodiment.
  • FIG. 1 is a block diagram showing the hardware configuration of a genetic information processing system according to a first embodiment
  • FIG. 1 is a block diagram showing the functional configuration of a genetic information processing system according to a first embodiment
  • FIG. 4 is a graph showing an example of ⁇ 2 stutter and +2 stutter.
  • FIG. FIG. 11 is a block diagram showing the functional configuration of a genetic information processing system according to a fourth embodiment;
  • FIG. FIG. 11 is a flow chart showing the flow of operations of the genetic information processing system according to the fourth embodiment;
  • FIG. FIG. 10 is a conceptual diagram showing an example in which both the rate of occurrence of negative stutter and the rate of occurrence of positive stutter are considered;
  • FIG. 11 is a block diagram showing the functional configuration of a genetic information processing system according to a sixth embodiment;
  • FIG. 1 is a determinant showing an example of an amplification matrix modeling amplification by PCR.
  • FIG. 13 is a flow chart showing the flow of operations of the genetic information processing system according to the sixth embodiment
  • FIG. FIG. 12 is a block diagram showing the functional configuration of a genetic information processing system according to a seventh embodiment
  • FIG. FIG. 12 is a flow chart showing the flow of operations of the genetic information processing system according to the seventh embodiment
  • FIG. FIG. 21 is a graph showing estimated amount and actual amount of genetic information calculated in the genetic information processing system according to the eighth embodiment
  • FIG. 4 is a graph showing the relationship between the number of repetitions and the -1 stutter ratio. 4 is a graph showing a method of estimating the rate of occurrence of stutter by data fitting.
  • FIG. 1 A genetic information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 A genetic information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 A genetic information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 A genetic information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 A genetic information processing system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 is a block diagram showing the hardware configuration of the genetic information processing system according to the first embodiment.
  • the genetic information processing system 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14. .
  • the genetic information processing system 10 may further comprise an input device 15 and an output device 16 .
  • Processor 11 , RAM 12 , ROM 13 , storage device 14 , input device 15 , output device 16 and camera 20 are connected via data bus 17 .
  • the processor 11 reads a computer program.
  • processor 11 is configured to read a computer program stored in at least one of RAM 12, ROM 13 and storage device .
  • the processor 11 may read a computer program stored in a computer-readable recording medium using a recording medium reader (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the genetic information processing system 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15 and the output device 16 by executing the read computer program.
  • the processor 11 implements functional blocks for executing processing relating to genetic information.
  • processor 11 one of CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field-Programmable Gate Array), DSP (Demand-Side Platform), ASIC (Application Specific) integrated circuit is used. may be used, or a plurality of them may be used in parallel.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA Field-Programmable Gate Array
  • DSP Demand-Side Platform
  • ASIC Application Specific integrated circuit
  • the RAM 12 temporarily stores computer programs executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing the computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores computer programs executed by the processor 11 .
  • the ROM 13 may also store other fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data that the genetic information processing system 10 stores for a long period of time.
  • Storage device 14 may act as a temporary storage device for processor 11 .
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from the user of the genetic information processing system 10 .
  • Input device 15 may include, for example, at least one of a keyboard, mouse, and touch panel.
  • the output device 16 is a device that outputs information about the genetic information processing system 10 to the outside.
  • the output device 16 may be a display device (eg, display) capable of displaying information about the genetic information processing system 10 .
  • FIG. 2 is a block diagram showing the functional configuration of the genetic information processing system according to the first embodiment.
  • the genetic information processing system 10 includes a first acquisition unit 110, a second acquisition unit 120, and a calculation unit 130 as processing blocks for realizing its functions. configured with.
  • Each of the first acquisition unit 110, the second acquisition unit 120, and the calculation unit 130 may be implemented, for example, in the above-described processor 11 (see FIG. 1).
  • the first acquisition unit 110 is configured to be able to acquire distribution information of microsatellites in genes after PCR.
  • the first acquisition unit 110 may acquire distribution information of microsatellites, for example, as a result of an experiment performed in advance (that is, an amplification process using PCR).
  • the distribution information of microsatellites may be distribution information of microsatellites of one organism (that is, a single organism), or distribution information of microsatellites of a plurality of organisms (for example, distribution information obtained from a mixed sample). ). Even if the microsatellite is derived from a single organism, there may be two types of microsatellites at one gene locus (more precisely, one or two types).
  • the distribution information of microsatellites may be the distribution information of two types of microsatellites derived from such a single organism.
  • the second acquisition unit 120 obtains a first ratio indicating the amplification rate of microsatellites in each cycle of PCR, a second ratio indicating the ratio of stutter generated from microsatellites in each cycle of PCR, and and the number of cycles.
  • the second acquisition unit 120 may acquire at least one of the first ratio, the second ratio, and the number of PCR cycles as a known value input by a user or the like, for example.
  • the second acquisition unit 120 may estimate and acquire at least one of the first ratio, the second ratio, and the number of PCR cycles from other parameters. A method for estimating each parameter will be described in detail in another embodiment described later.
  • the calculation unit 130 calculates the distribution information of microsatellites in the gene after PCR acquired by the first acquisition unit 110, the first ratio, the second ratio, and the number of cycles of PCR acquired by the second acquisition unit 120. Based on and, the distribution of microsatellites in the gene before PCR can be calculated. That is, the calculation unit 130 is configured to be able to calculate the original (that is, before amplification) microsatellite distribution of the gene to be subjected to PCR. A specific calculation method by the calculator 130 will be described in detail in another embodiment described later.
  • FIG. 3 is a graph showing an example of stutter that occurs in PCR.
  • stutter when genetic information is amplified by PCR, noise called stutter is detected in addition to genuine genetic information (hereinafter referred to as "true allele" as appropriate). Stutter peaks are detected at positions where the number of repeating units is less or greater than the true allele peak position.
  • the genetic information processing system 10 acquires the ratio of occurrence of stutter as the second ratio to calculate the distribution of microsatellites in the gene before PCR. In other words, even if stutter occurs in PCR amplification, pre-amplification distribution information corresponding to true alleles can be obtained.
  • FIG. 4 is a flow chart showing the operation flow of the genetic information processing system according to the first embodiment.
  • the first acquiring unit 110 acquires the distribution information of microsatellites in the gene after PCR (step S101). .
  • the second acquisition unit 120 acquires the first ratio (step S102), acquires the second ratio (step S103), and acquires the number of PCR cycles (step S104).
  • the order of obtaining the first ratio, the second ratio, and the number of cycles of PCR is not limited to the above order, and may be obtained before or after each other, or may be obtained at the same time.
  • the calculation unit 130 calculates the distribution information of microsatellites in the gene after PCR acquired by the first acquisition unit 110, the first ratio, the second ratio, and the PCR obtained by the second acquisition unit 120.
  • the distribution of microsatellites in the gene before PCR is calculated (step S105).
  • the calculation unit 130 may have a function of outputting the calculated distribution of microsatellites in the pre-PCR gene.
  • the calculation unit 130 may display the calculated distribution of microsatellites on, for example, a display.
  • the distribution information of microsatellites in the gene after PCR, the first ratio, the second ratio, and the PCR Based on the cycle number and the distribution of microsatellites in the gene before PCR is calculated. In this way, it is possible to appropriately calculate the distribution of microsatellites in the gene before PCR, taking into account the presence of stutter generated in PCR.
  • FIG. 5 A genetic information processing system 10 according to the second embodiment will be described with reference to FIGS. 5 to 8.
  • FIG. It should be noted that the second embodiment differs from the above-described first embodiment only in part of the operation, and for example, the hardware configuration and the like may be the same as those of the first embodiment (see FIG. 1). For this reason, the description of the portions that overlap with those of the first embodiment will be appropriately omitted below.
  • FIG. 5 is a block diagram showing the functional configuration of the genetic information processing system according to the second embodiment.
  • symbol is attached
  • the genetic information processing system 10 includes a first acquisition unit 110, a second acquisition unit 120, and a calculation unit 130 as processing blocks for realizing its functions. configured with.
  • the calculator 130 according to the second embodiment includes an amplicon amount estimator 131 .
  • the amplicon amount estimating unit 131 uses the first ratio, the second ratio, and the number of cycles of the PCR method to reduce the stutter by one repeating unit (hereinafter, appropriately referred to as "-1 stutter”). , or a stutter with one more repeat unit (hereinafter referred to as “+1 stutter” as appropriate). Then, the calculation unit 130 according to the second embodiment can calculate the distribution of microsatellites in the gene before PCR using the -1 stutter or +1 stutter amplicon amount estimated by the amplicon amount estimation unit 131. It is configured.
  • FIG. 6 is a graph showing an example of ⁇ 1 stutter.
  • the -1 stutter peak is detected at a position where the number of repeating units is one less than the position of the true allele peak.
  • the -1 stutter peak occurs at a higher rate than other stutters, and the magnitude of the peak is also relatively large. Therefore, if the amplicon amount of ⁇ 1 stutter can be estimated, the true allele microsatellite distribution can be calculated with high accuracy. A specific method for estimating the amplicon amount of ⁇ 1 stutter will be described in detail below.
  • FIG. 7 is a conceptual diagram showing a method for estimating the stutter amplicon amount.
  • the amount of amplicon for “5 repetitions” is a3.
  • the amount of amplicon for ⁇ 1 stutter ie, “4 replicates”
  • the amplicon amount of "five repetitions” is an.
  • the amount of amplicon for ⁇ 1 stutter ie, “4 repetitions”
  • C is combination.
  • the amplicon amount of +1 stutter that is, the stutter detected at the position where the number of repeat units is one more than the peak position of the true allele
  • the third ratio c at which plus stutter occurs may be considered.
  • a configuration using the third ratio c will be described in detail in another embodiment (fifth embodiment) described later.
  • FIG. 8 is a flow chart showing the operation flow of the genetic information processing system according to the second embodiment.
  • the same reference numerals are assigned to the same processes as those shown in FIG.
  • the first acquisition unit 110 first acquires the distribution information of microsatellites in the gene after PCR (step S101). .
  • the second acquisition unit 120 acquires the first ratio (step S102), acquires the second ratio (step S103), and acquires the number of PCR cycles (step S104).
  • the amplicon amount estimation unit 131 estimates the amplicon amount of ⁇ 1 stutter or the amplicon amount of +1 stutter using the first ratio, the second ratio, and the number of PCR cycles (step S201 ). Then, the calculation unit 130 calculates the distribution of microsatellites in the gene before PCR using the amplicon amount estimated by the amplicon amount estimation unit 131 (step S202).
  • the amplicon amount of ⁇ 1 stutter or +1 stutter is estimated, and using the estimated amplicon amount, The distribution of microsatellites in the gene is calculated. In this way, it is possible to appropriately calculate the distribution of microsatellites in the gene before PCR, taking into account the presence of -1 stutter or +1 stutter generated in PCR.
  • a genetic information processing system 10 according to the third embodiment will be described with reference to FIG. It should be noted that the third embodiment differs from the above-described second embodiment only in the types of stutters handled, and the system configuration and overall operation flow are the same as those in the second embodiment. you can For this reason, the description of the parts that overlap with the parts that have already been described will be omitted as appropriate.
  • the amplicon amount estimation unit 131 uses a stutter with two fewer repeat units (hereinafter referred to as “-2 stutter” as appropriate), or a stutter with two fewer repeat units ( Hereafter, the amplicon amount of (referred to as “+2 stutter” as appropriate) is estimated.
  • the amplicon amount estimator 131 typically estimates the amplicon amount of ⁇ 2 stutter or +2 stutter as well as the amplicon amount of ⁇ 1 stutter or +1 stutter already described in the second embodiment. However, the amplicon amount estimator 131 may estimate only the amplicon amount of ⁇ 2 stutter or +2 stutter without estimating the amplicon amount of ⁇ 1 stutter or +1 stutter.
  • FIG. 9 is a graph showing an example of ⁇ 2 stutter and +2 stutter.
  • the -2 stutter peak is detected at a position where the number of repeating units is two less than the position of the true allele peak.
  • the +2 stutter peak is detected at a position where the number of repeat units is two more than the position of the true allele peak.
  • the -2 stutter occurs when the phenomenon that causes the -1 stutter occurs twice.
  • +2 stutter is caused by two occurrences of the +1 stutter phenomenon. Therefore, ⁇ 2 stutter and +2 stutter are less likely to occur and have relatively smaller peaks than ⁇ 1 stutter and +1 stutter.
  • the amplicon amount of "5 repeats” is a3
  • the amplicon amount of -1 stutter is 3 ⁇ a 2 ⁇ b.
  • the amount of amplicon for a ⁇ 2 stutter ie, “three replicates” would be 3 ⁇ a ⁇ b 2 .
  • the amount of amplicon for “five iterations” is a n
  • the amount of amplicon for ⁇ 1 stutter is nC1 ⁇ a n ⁇ 1 ⁇ b becomes.
  • the amount of amplicon for a ⁇ 2 stutter ie, “three replicates” would be nC2 ⁇ a n ⁇ 2 ⁇ b 2 .
  • the amplicon amount of +2 stutter can also be estimated by the same method.
  • the -2 stutter is explained on the premise that "the phenomenon that generates -1 stutter occurs twice", but the possibility of -2 stutter occurring in one PCR process is taken into consideration. You may In this case, in addition to the first rate a and the second rate b, the rate at which -2 stutter occurs may be used. This value may be approximated by, for example, a quadratic expression of "repeating x times".
  • the rate at which ⁇ 3 stutter occurs may be used. This value may be approximated by, for example, a cubic expression (or a cubic or higher expression) of "repeating x times".
  • the amplicon amount of ⁇ 2 stutter or +2 stutter is estimated, and using the estimated amplicon amount, the micro A satellite distribution is calculated. In this way, it is possible to appropriately calculate the distribution of microsatellites in the gene before PCR, taking into account the presence of -2 stutter or +2 stutter generated in PCR.
  • FIG. 10 A genetic information processing system 10 according to the fourth embodiment will be described with reference to FIGS. 10 and 11.
  • FIG. It should be noted that the fourth embodiment may differ from the above-described first to third embodiments only in a part of configuration and operation, and other parts may be the same as those in the first to third embodiments. . For this reason, the description of the parts that overlap with the parts that have already been described will be omitted as appropriate.
  • FIG. 10 is a block diagram showing the functional configuration of the genetic information processing system according to the fourth embodiment.
  • symbol is attached
  • the genetic information processing system 10 includes a first acquisition unit 110, a second acquisition unit 120, and a calculation unit 130 as processing blocks for realizing its functions. configured with.
  • the calculator 130 according to the fourth embodiment includes a stutter ratio estimator 132 .
  • the stutter ratio estimation unit 132 uses the first ratio, the second ratio, and the number of cycles of the PCR method to calculate the ratio of the stutter amplicon amount to the microsatellite amplicon amount amplified by PCR. It is configured to be able to estimate a certain stutter ratio.
  • the stutter that is the target of the stutter ratio may be a negative stutter with a small number of repeating units (eg, -1 stutter or -2 stutter), or a positive stutter with a large number of repeating units (eg, +1 stutter or +2 stutter). stutter).
  • the calculation unit 130 according to the fourth embodiment is configured to be able to calculate the distribution of microsatellites in the gene before PCR using the stutter ratio estimated by the stutter ratio estimation unit 132 .
  • the stutter ratio can be calculated using the amplicon amount for each stutter as previously described.
  • the stutter ratio r1 of ⁇ 1 stutter in the example shown in FIG. 7 can be calculated as “amount of amplicon for 4 repetitions (ie, ⁇ 1 stutter)” ⁇ “amount of amplicon for 5 repetitions”.
  • FIG. 11 is a flow chart showing the operation flow of the genetic information processing system according to the fourth embodiment.
  • symbol is attached
  • the first acquiring unit 110 acquires the distribution information of microsatellites in the gene after PCR (step S101). .
  • the second acquisition unit 120 acquires the first ratio (step S102), acquires the second ratio (step S103), and acquires the number of PCR cycles (step S104).
  • the stutter ratio estimation unit 132 estimates the stutter ratio using the first ratio, the second ratio, and the number of PCR cycles (step S401). Then, the calculation unit 130 calculates the distribution of microsatellites in the gene before PCR using the stutter ratio estimated by the stutter ratio estimation unit 132 (step S402).
  • the stutter ratio which is the ratio of the stutter amplicon amount
  • the pre-PCR the pre-PCR The distribution of microsatellites in the gene is calculated. In this way, it is possible to appropriately calculate the distribution of microsatellites in the gene before PCR, taking into account the presence of stutter generated in PCR.
  • a genetic information processing system 10 according to the fifth embodiment will be described with reference to FIG.
  • the fifth embodiment differs from the above-described first to fourth embodiments only in some parameters included in the second ratio, and the other parts are different from those in the first to fourth embodiments. may be identical. For this reason, the description of the parts that overlap with the parts that have already been described will be omitted as appropriate.
  • FIG. 12 is a conceptual diagram showing an example of considering both the rate of occurrence of negative stutter and the rate of occurrence of positive stutter.
  • both the rate b of occurrence of negative stutter with a small number of repeating units and the rate c of occurrence of positive stutter with a large number of repeating units are Consider.
  • the amplicon amount of "5 repetitions” is a 10 + a 8 bc + 1260 a 6 b 2 c 2 + 4200 a 4 b 3 c 3 + 3150 a 2 b 4 c 4 + 252 b 5 c 5 .
  • the amount of amplicon for "4 repetitions (ie -1 stutter)" is 10a 9 b + 360a 7 b 2 c + 2520a 5 b 3 c 2 + 4200a 3 b 4 c 3 + 1260ab 5 c 4 .
  • the amount of amplicon for "three replicates (ie -2 stutter)" would be 45a 8 b 2 +840a 6 b 3 c + 3150a 4 b 4 c 2 +2520a 2 b 5 c 3 +210b 6 c 4 .
  • both the rate of occurrence of negative stutter and the rate of occurrence of positive stutter with many repeating units are used. In this way, it is possible to appropriately calculate the distribution of microsatellites in the gene before PCR, taking into consideration the presence of both minus stutter and plus stutter generated in PCR.
  • FIG. 13 to 16 A genetic information processing system 10 according to the sixth embodiment will be described with reference to FIGS. 13 to 16.
  • FIG. It should be noted that the sixth embodiment may differ from the above-described first to fifth embodiments only in a part of configuration and operation, and other parts may be the same as those of the first to fifth embodiments. . For this reason, the description of the parts that overlap with the parts that have already been described will be omitted as appropriate.
  • FIG. 13 is a block diagram showing the functional configuration of the genetic information processing system according to the sixth embodiment.
  • symbol is attached
  • the genetic information processing system 10 includes a first acquisition unit 110, a second acquisition unit 120, and a calculation unit 130 as processing blocks for realizing its functions. configured with.
  • the calculator 130 according to the sixth embodiment includes an amplification matrix calculator 133 .
  • the amplification matrix calculator 133 is configured to be able to calculate an amplification matrix, which is a matrix modeling amplification by PCR.
  • the amplification matrix calculator 133 calculates an amplification matrix including the first ratio, the second ratio, and the number of PCR cycles as components.
  • the calculation unit 130 according to the sixth embodiment is configured to be able to calculate the distribution of microsatellites in the gene before PCR using the amplification matrix estimated by the amplification matrix calculation unit 133 .
  • FIG. 14 is a determinant showing an example of an amplification matrix modeling amplification by PCR.
  • the amplification matrix includes the PCR amplification rate a (i.e., the first rate) described in FIGS. second ratio) and the number of PCR cycles n as components.
  • a i.e., the first rate
  • n the number of PCR cycles n as components.
  • microsatellite distribution information after n cycles of PCR can be represented by multiplying the microsatellite distribution information before PCR by the amplification matrix. Therefore, if the amplification matrix is used, the distribution of microsatellites before PCR can be easily calculated from the distribution information of microsatellites after PCR.
  • the ratio of ⁇ 2 stutter generated in one PCR process the value is entered in the column to the right of b.
  • the rate at which +2 stutter occurs in one PCR run the value goes in the column to the left of c.
  • FIG. 15 is a flow chart showing the operation flow of the genetic information processing system according to the sixth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the first acquisition unit 110 first acquires the distribution information of microsatellites in the gene after PCR (step S101). .
  • the second acquisition unit 120 acquires the first ratio (step S102), acquires the second ratio (step S103), and acquires the number of PCR cycles (step S104).
  • the amplification matrix calculator 133 calculates an amplification matrix using the first ratio, the second ratio, and the number of PCR cycles (step S601). Then, the calculation unit 130 calculates the distribution of microsatellites in the gene before PCR using the amplification matrix calculated by the amplification matrix calculation unit 133 (step S602).
  • an amplification matrix that models amplification by PCR is calculated, and the calculated amplification matrix is used to determine the number of microsatellites in the gene before PCR.
  • a distribution is calculated.
  • FIG. 16 A genetic information processing system 10 according to the seventh embodiment will be described with reference to FIGS. 16 and 17.
  • FIG. It should be noted that the seventh embodiment may differ from the first to sixth embodiments described above only in a part of the configuration and operation, and the other parts may be the same as those of the first to sixth embodiments. For this reason, the description of the parts that overlap with the parts that have already been described will be omitted as appropriate.
  • FIG. 16 is a block diagram showing the functional configuration of the genetic information processing system according to the seventh embodiment.
  • symbol is attached
  • the genetic information processing system 10 includes a first acquisition unit 110, a second acquisition unit 120, and a calculation unit 130 as processing blocks for realizing its functions. configured with.
  • the second acquisition section 120 according to the seventh embodiment has a parameter estimation section 121 .
  • the parameter estimation unit 121 is configured to be able to estimate at least one of the first ratio, the second ratio, and the number of PCR cycles from the distribution information of microsatellites in the post-PCR gene. That is, the second acquisition unit 120 according to the seventh embodiment estimates and acquires at least one of the first ratio, the second ratio, and the number of cycles of PCR by the parameter estimation unit 121 . Note that the first ratio, the second ratio, and the number of PCR cycles other than those estimated by the parameter estimation unit 121 may be obtained by a method other than estimation (for example, input from the user, etc.). .
  • FIG. 17 is a flow chart showing the operation flow of the genetic information processing system according to the seventh embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the first acquisition unit 110 first acquires the distribution information of microsatellites in the gene after PCR (step S101). .
  • the parameter estimation unit 121 estimates at least one of the first ratio, the second ratio, and the number of cycles of PCR from the distribution information of microsatellites in post-CR genes (step S701). Then, the second obtaining unit 120 obtains the first ratio (step S102), the second ratio (step S103), and the number of PCR cycles (step S104). The second acquisition unit 120 acquires estimated values for the parameters estimated by the parameter estimation unit 121 .
  • the calculation unit 130 calculates the distribution information of microsatellites in the gene after PCR acquired by the first acquisition unit 110, the first ratio, the second ratio, and the PCR obtained by the second acquisition unit 120.
  • the distribution of microsatellites in the gene before PCR is calculated (step S105).
  • the first ratio, the second ratio, and the cycle of PCR At least one of the numbers is estimated. In this way, the distribution of microsatellites in the gene before PCR can be appropriately calculated using the estimated parameters without directly obtaining the first ratio, the second ratio, and the number of cycles of PCR. is possible.
  • FIG. 8 embodiment describes a specific method of estimating parameters in the above-described seventh embodiment. good. For this reason, the description of the parts that overlap with the parts that have already been described will be omitted as appropriate.
  • FIG. 18 is a graph showing estimated amount and actual amount of genetic information calculated in the genetic information processing system according to the eighth embodiment.
  • the parameter estimation unit 121 in the genetic information processing system 10 according to the eighth embodiment is configured to be able to estimate at least one of the first ratio, the second ratio, and the number of cycles of PCR using the hill-climbing method.
  • the PCR amplification factor a that is, the first ratio
  • the number of PCR cycles n are appropriately determined.
  • the value of each component of the amplification matrix is also determined. Then, by using this amplification matrix and the value before PCR described above, the value after PCR (amplicon amount) can be estimated.
  • the estimated amount estimated as described above is indicated by a solid line, and the actual amount is indicated by a broken line.
  • both the estimated amount and the actual amount are normalized to 1.0. Therefore, it does not matter what the value of the "repeat 5" part before PCR is.
  • the error between the estimated amount (solid line) and the actual amount (dashed line) in FIG. This is because the cycle number n of is deviated from the actual value. Therefore, the true values of a, b, c, and n can be estimated by changing the appropriately determined values of a, b, c, and n so as to reduce this error.
  • the initial values of a, b, c, and n may be determined randomly, or may be selected from a predetermined range (for example, realistically assumed values).
  • the PCR amplification factor a may be selected from a range of 1.0 to 2.0.
  • the number of PCR cycles n may be selected as a value from 1 to 30. Note that the PCR cycle number n is actually an integer, but since it is a value indicating the number of effective PCRs, it may be a real number instead of an integer.
  • FIG. 19 is a graph showing the relationship between the number of repetitions and the -1 stutter ratio.
  • FIG. 20 is a graph showing a method of estimating the rate of occurrence of stutter by data fitting.
  • the parameter estimation unit 121 in the genetic information processing system 10 according to the eighth embodiment may be configured to be able to estimate the ratio of occurrence of stutter by data fitting in addition to or instead of the hill-climbing method described above.
  • An example of calculating the rate b of occurrence of minus stutter from the -1 stutter ratio will be described below.
  • the hill-climbing method or data fitting is used to obtain at least the first ratio, the second ratio, and the number of cycles of PCR.
  • One is presumed. In this way, it is possible to estimate the first ratio, the second ratio, and the number of cycles of PCR with high accuracy, and appropriately calculate the distribution of microsatellites in the gene before PCR.
  • the genetic information processing system includes a first acquisition means for acquiring distribution information of microsatellites in a gene after PCR, a first ratio indicating the amplification rate of the microsatellites for each cycle of the PCR, and , a second acquisition means for acquiring a second ratio indicating the ratio of stutter generated from the microsatellites in each cycle of the PCR and the cycle number of the PCR; and the microsatellites in the gene after the PCR.
  • a calculation means for calculating the distribution of the microsatellites in the gene before the PCR based on the distribution information of, the first ratio, the second ratio, and the cycle number of the PCR
  • Appendix 2 In the genetic information processing system according to Appendix 2, the calculation means uses the first ratio, the second ratio, and the number of cycles of PCR to calculate a stutter with one less or more repeating units The genetic information processing system according to Appendix 1, wherein the amplicon amount of is estimated.
  • the calculation means uses the first ratio, the second ratio, and the number of cycles of PCR to calculate a stutter with two fewer or more repeating units 3.
  • the calculation means uses the first ratio, the second ratio, and the number of cycles of PCR to calculate the number of microsatellites amplified by the PCR. 4.
  • a stutter ratio which is a ratio of the stutter amplicon amount to the amplicon amount, is estimated.
  • the second ratio includes both a ratio of occurrence of negative stutter with a small number of repeating units and a ratio of positive stutter with many repeating units. 5.
  • the genetic information processing system according to any one of 1 to 4.
  • the calculation means is a matrix modeling the amplification by the PCR, the first ratio, the second ratio, the number of cycles of the PCR, 6.
  • the second obtaining means obtains the first ratio, the second ratio, and the PCR cycle from the distribution information of the microsatellites in the gene after the PCR. 7.
  • the second acquiring means estimates at least one of the first ratio, the second ratio, and the number of PCR cycles by a hill-climbing method or data fitting.
  • the genetic information processing method acquires distribution information of microsatellites in a gene after PCR, and a first ratio indicating the amplification rate of the microsatellites for each cycle of the PCR, and 1 of the PCR.
  • a second ratio indicating the ratio of stutter generated from the microsatellites in each cycle and the number of cycles of the PCR are obtained, and the distribution information of the microsatellites in the gene after the PCR and the first ratio are obtained.
  • the second ratio, and the cycle number of the PCR the distribution of the microsatellites in the gene before the PCR is calculated.
  • the computer program according to Supplementary Note 10 obtains distribution information of microsatellites in a gene after PCR, and obtains a first ratio indicating the amplification rate of the microsatellites for each cycle of the PCR, and for each cycle of the PCR.
  • a second ratio indicating the ratio of stutter generated from the microsatellites and the number of cycles of the PCR are obtained, and the distribution information of the microsatellites in the gene after the PCR, the first ratio,
  • a recording medium according to appendix 11 is a recording medium characterized by recording the computer program according to appendix 10.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medical Informatics (AREA)
  • Sustainable Development (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

遺伝子情報処理システム(10)は、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する第1取得手段(110)と、PCRの1サイクルごとのマイクロサテライトの増幅率を示す第1の割合(a)と、PCRの1サイクルごとにマイクロサテライトから発生するスタッターの割合を示す第2の割合(b,c)と、PCRのサイクル数(n)と、を取得する第2取得手段(120)と、PCR後の遺伝子におけるマイクロサテライトの分布情報と、第1の割合と、第2の割合と、PCRのサイクル数と、に基づいて、PCR前の遺伝子におけるマイクロサテライトの分布を算出する算出手段(130)とを備える。

Description

遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体
 この開示は、遺伝子情報に関する処理を実行する遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体の技術分野に関する。
 この種のシステムとして、PCR(Polymerase Chain Reaction)において発生するスタッターに関する情報を扱うものが知られている。例えば特許文献1では、PCRの増幅後に現れるスタッターの相対的な高さを見積もることが記載されている。特許文献2では、PCRによって得られるピークが真のピークであるかノイズピークであるかを問わずに、ピーク判定を行う技術が開示されている。特許文献3では、パーセントスタッターを算出し、任意のサンプルの値をまとめた平均パーセントスタッターを算出することが開示されている。特許文献4では、ピーク位置、ピーク高、スタッター率を含むモデルパラメータを最適化することが開示されている。
特開2006-163720号公報 特開2006-079334号公報 特表2004-533241号公報 特表2004-516455号公報
 この開示は、例えば上記各引用文献に鑑みてなされたものであり、遺伝子に関する処理を適切に実行することが可能な遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体を提供することを目的とする。
 この開示の遺伝子情報処理システムの一の態様は、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する第1取得手段と、前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得する第2取得手段と、前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出する算出手段とを備える。
 この開示の遺伝子情報処理方法の一の態様は、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得し、前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得し、前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出する。
 この開示の記録媒体の一の態様は、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得し、前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得し、前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出するようにコンピュータを動作させるコンピュータプログラムが記録されている。
第1実施形態に係る遺伝子情報処理システムのハードウェア構成を示すブロック図である。 第1実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。 PCRにおいて発生するスタッターの一例を示すグラフである。 第1実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。 第2実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。 -1スタッターの一例を示すグラフである。 スタッターのアンプリコン量を推定する方法を示す概念図である。 第2実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。 -2スタッター及び+2スタッターの一例を示すグラフである。 第4実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。 第4実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。 マイナススタッターが発生する割合及びプラススタッターが発生する割合の両方を考慮する例を示す概念図である。 第6実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。 PCRによる増幅をモデル化した増幅行列の一例を示す行列式である。 第6実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。 第7実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。 第7実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。 第8実施形態に係る遺伝子情報処理システムにおいて算出される遺伝子情報の推算量と実際量とを示すグラフである。 繰り返し回数と-1スタッター比との関係を示すグラフである。 データフィッティングによりスタッターが発生する割合を推定する方法を示すグラフである。
 以下、図面を参照しながら、遺伝子情報処理システム、遺伝子情報処理方法、コンピュータプログラム、及び記録媒体の実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る遺伝子情報処理システムについて、図1から図4を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る遺伝子情報処理システム10のハードウェア構成について説明する。図1は、第1実施形態に係る遺伝子情報処理システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る遺伝子情報処理システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。遺伝子情報処理システム10は更に、入力装置15と、出力装置16とを備えていてもよい。プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16と、カメラ20とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、遺伝子情報処理システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、遺伝子情報に関する処理を実行するための機能ブロックが実現される。また、プロセッサ11として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)のうち一つを用いてもよいし、複数を並列で用いてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、遺伝子情報処理システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、遺伝子情報処理システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
 出力装置16は、遺伝子情報処理システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、遺伝子情報処理システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る遺伝子情報処理システム10の機能的構成について説明する。図2は、第1実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る遺伝子情報処理システム10は、その機能を実現するための処理ブロックとして、第1取得部110と、第2取得部120と、算出部130とを備えて構成されている。第1取得部110、第2取得部120、及び算出部130の各々は、例えば上述したプロセッサ11(図1参照)において実現されればよい。
 第1取得部110は、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得可能に構成されている。第1取得部110は、例えば事前に行われた実験(即ち、PCRを用いた増幅処理)の結果として、マイクロサテライトの分布情報を取得すればよい。マイクロサテライトの分布情報は、一の生体(即ち、単数の生体)のマイクロサテライトの分布情報であってもよいし、複数の生体のマイクロサテライトの分布情報(例えば、混合サンプルから得られた分布情報)であってもよい。なお、単数の生体由来でも、1つの遺伝子座のマイクロサテライトは2種であることがある(正確には、1種又は2種である)。マイクロサテライトの分布情報は、このような単数の生体由来の2種のマイクロサテライトの分布情報であってもよい。
 第2取得部120は、PCRの1サイクルごとのマイクロサテライトの増幅率を示す第1の割合と、PCRの1サイクルごとにマイクロサテライトから発生するスタッターの割合を示す第2の割合と、PCRのサイクル数と、を取得可能に構成されている。第2取得部120は、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つを、例えばユーザ等が入力する既知の値として取得してもよい。或いは、第2取得部120は、第2取得部120は、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つを、他のパラメータから推定して取得してもよい。なお、各パラメータを推定する方法については、後述する他の実施形態で詳しく説明する。
 算出部130は、第1取得部110で取得されたPCR後の遺伝子におけるマイクロサテライトの分布情報と、第2取得部120で取得された第1の割合、第2の割合、及びPCRのサイクル数とに基づいて、PCR前の遺伝子におけるマイクロサテライトの分布を算出可能に構成されている。即ち、算出部130は、PCRの対象となった遺伝子の元々の(即ち、増幅前の)マイクロサテライトの分布を算出可能に構成さている。算出部130による具体的な算出の方法については、後述する他の実施形態で詳しく説明する。
 (スタッター)
 次に、図3を参照しながら、PCRにおいて発生するスタッターについて具体的に説明する。図3は、PCRにおいて発生するスタッターの一例を示すグラフである。
 図3に示すように、遺伝子情報をPCRによって増幅すると、本物の遺伝子情報(以下、適宜「真のアリル」と称する)に加えて、スタッターと呼ばれるノイズが検出される。スタッターのピークは、真のアリルのピーク位置に対して、繰り返しユニット数が少ない又は多い位置で検出される。本実施形態に係る遺伝子情報処理システム10は、このスタッターが発生する割合を第2の割合として取得することで、PCR前の遺伝子におけるマイクロサテライトの分布を算出する。言い換えれば、PCRによる増幅でスタッターが生じている場合でも、真のアリルに対応する増幅前の分布情報を得ることができる。
 (動作の流れ)
 次に、図4を参照しながら、第1実施形態に係る遺伝子情報処理システム10の動作の流れについて説明する。図4は、第1実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。
 図4に示すように、第1実施形態に係る遺伝子情報処理システム10が動作する際には、まず第1取得部110が、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する(ステップS101)。
 続いて、第2取得部120が、第1の割合を取得し(ステップS102)、第2の割合を取得し(ステップS103)、PCRのサイクル数を取得する(ステップS104)。なお、第1の割合、第2の割合、PCRのサイクル数を取得する順序は、上記の順に限定されるものではなく、互いに前後して取得されてもよいし、同時に取得されてもよい。
 続いて、算出部130が、第1取得部110で取得されたPCR後の遺伝子におけるマイクロサテライトの分布情報と、第2取得部120で取得された第1の割合、第2の割合、及びPCRのサイクル数とに基づいて、PCR前の遺伝子におけるマイクロサテライトの分布を算出する(ステップS105)。算出部130は、算出したPCR前の遺伝子におけるマイクロサテライトの分布を出力する機能を有していてもよい。算出部130は、例えばディスプレイ等に算出したマイクロサテライトの分布を表示するようにしてもよい。
 (技術的効果)
 次に、第1実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図1から図4で説明したように、第1実施形態に係る遺伝子情報処理システム10では、PCR後の遺伝子におけるマイクロサテライトの分布情報と、第1の割合と、第2の割合と、PCRのサイクル数とに基づいて、PCR前の遺伝子におけるマイクロサテライトの分布が算出される。このようにすれば、PCRにおいて発生するスタッターの存在を考慮して、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <第2実施形態>
 第2実施形態に係る遺伝子情報処理システム10について、図5から図8を参照して説明する。なお、第2実施形態は、上述した第1実施形態と一部の動作が異なるのみであり、例えばハードウェア構成等については、第1実施形態(図1参照)と同一であってよい。このため、以下では、第1実施形態と重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図5を参照しながら、第2実施形態に係る遺伝子情報処理システム10の機能的構成について説明する。図5は、第2実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。なお、図5では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図5に示すように、第2実施形態に係る遺伝子情報処理システム10は、その機能を実現するための処理ブロックとして、第1取得部110と、第2取得部120と、算出部130とを備えて構成されている。そして特に、第2実施形態に係る算出部130は、アンプリコン量推定部131を備えている。
 アンプリコン量推定部131は、第1の割合と、第2の割合と、PCR法のサイクル数と、を用いて、繰り返しユニットが1つ少ないスタッター(以下、適宜「-1スタッター」と称する)、又は繰り返しユニットが1つ多いスタッター(以下、適宜「+1スタッター」と称する)のアンプリコン量を推定可能に構成されている。そして、第2実施形態に係る算出部130は、アンプリコン量推定部131で推定された-1スタッター又は+1スタッターのアンプリコン量を用いて、PCR前の遺伝子におけるマイクロサテライトの分布を算出可能に構成されている。
 (-1スタッター)
 次に、図6を参照しながら、上述したアンプリコン量推定部131がアンプリコン量を推定する-1スタッターについて具体的に説明する。図6は、-1スタッターの一例を示すグラフである。
 図6に示すように、-1スタッターのピークは、真のアリルのピークの位置に対して、繰り返しユニット数が1個分少ない位置で検出される。-1スタッターのピークは、その他のスタッターと比較して発生割合が大きく、ピークの大きさも比較的大きなものとなる。よって、-1スタッターのアンプリコン量を推定することができれば、真のアリルのマイクロサテライトの分布を精度よく算出できるようになる。なお、-1スタッターのアンプリコン量を推定するための具体的な手法については、以下で詳しく説明する。
 (アンプリコン量の推定方法)
 次に、図7を参照しながら、スタッターのアンプリコン量を推定する方法について具体的に説明する。図7は、スタッターのアンプリコン量を推定する方法を示す概念図である。
 図7に示すように、遺伝子情報のうち「5回繰り返し」のものをPCRで増幅する場合を考える。なお、ここでは説明の便宜上、-1スタッターのみが発生する場合を考えるものとする。また、PCRの1サイクルごとのマイクロサテライトの増幅率(即ち、第1の割合)は“a”、PCRの1サイクルごとにマイクロサテライトから発生するスタッターの割合(即ち、第2の割合)は“b”、PCRのサイクル数は“n”とする。
 図7を見ると分かるように、PCRを3サイクルした場合、「5回繰り返し」のアンプリコン量は、aとなる。また、-1スタッター(即ち、「4回繰り返し」)のアンプリコン量は、3×a×bとなる。そして、PCRをnサイクルした場合、「5回繰り返し」のアンプリコン量は、aとなる。また、-1スタッター(即ち、「4回繰り返し」)のアンプリコン量は、nC1×an-1×bとなる(Cはコンビネーション)。
 以上のように、第1の割合a、第2の割合b、PCRのサイクル数nを用いれば、-1スタッターのアンプリコン量を推定することが可能である。なお、ここでの説明は省略したが、+1スタッター(即ち、真のアリルのピークの位置に対して、繰り返しユニット数が1個分多い位置で検出されるスタッター)のアンプリコン量を推定してもよい。+1スタッターのアンプリコン量を推定する場合には、上記の第1の割合a、第2の割合bに加えて、プラススタッターが発生する第3の割合cを考慮すればよい。第3の割合cを用いる構成については、後述する他の実施形態(第5実施形態)で詳しく説明する。
 (動作の流れ)
 次に、図8を参照しながら、第2実施形態に係る遺伝子情報処理システム10の動作の流れについて説明する。図8は、第2実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。なお、図8では、図4で示した処理と同様の処理に同一の符号を付している。
 図8に示すように、第2実施形態に係る遺伝子情報処理システム10が動作する際には、まず第1取得部110が、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する(ステップS101)。
 続いて、第2取得部120が、第1の割合を取得し(ステップS102)、第2の割合を取得し(ステップS103)、PCRのサイクル数を取得する(ステップS104)。
 続いて、アンプリコン量推定部131が、第1の割合、第2の割合、及びPCRのサイクル数を用いて、-1スタッターのアンプリコン量又は+1スタッターのアンプリコン量を推定する(ステップS201)。そして、算出部130は、アンプリコン量推定部131が推定したアンプリコン量を用いて、PCR前の遺伝子におけるマイクロサテライトの分布を算出する(ステップS202)。
 (技術的効果)
 次に、第2実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図5から図8で説明したように、第2実施形態に係る遺伝子情報処理システム10では、-1スタッター又は+1スタッターのアンプリコン量を推定し、推定したアンプリコン量を用いて、PCR前の遺伝子におけるマイクロサテライトの分布が算出される。このようにすれば、PCRにおいて発生する-1スタッター又は+1スタッターの存在を考慮して、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <第3実施形態>
 第3実施形態に係る遺伝子情報処理システム10について、図9を参照して説明する。なお、第3実施形態は、上述した第2実施形態と比べて、扱うスタッターの種類が異なるのみであり、システムの構成や全体的な動作の流れ等については、第2実施形態と同一であってよい。このため、以下では、すでに説明した部分と重複する部分については適宜説明を省略するものとする。
 (アンプリコン量推定部の構成)
 第3実施形態に係る遺伝子情報処理システム10では、アンプリコン量推定部131が、繰り返しユニットが2個少ないスタッター(以下、適宜「-2スタッター」と称する)、又は繰り返しユニットが2個少ないスタッター(以下、適宜「+2スタッター」と称する)のアンプリコン量を推定する。アンプリコン量推定部131は、典型的には、すでに第2実施形態で説明した-1スタッター又は+1スタッターのアンプリコン量と共に、-2スタッター又は+2スタッターのアンプリコン量を推定する。ただし、アンプリコン量推定部131は、-1スタッター又は+1スタッターのアンプリコン量を推定せずに、-2スタッター又は+2スタッターのアンプリコン量のみを推定してもよい。
 (-2スタッター及び+2スタッター)
 次に、図9を参照しながら、第3実施形態に係るアンプリコン量推定部131がアンプリコン量を推定する-2スタッター及び+2スタッターについて具体的に説明する。図9は、-2スタッター及び+2スタッターの一例を示すグラフである。
 図9に示すように、-2スタッターのピークは、真のアリルのピークの位置に対して、繰り返しユニット数が2個分少ない位置で検出される。一方、+2スタッターのピークは、真のアリルのピークの位置に対して、繰り返しユニット数が2個分多い位置で検出される。-2スタッターは、-1スタッターが発生する現象が2回発生することで生ずる。同様に、+2スタッターは、+1スタッターが発生する現象が2回発生することで生ずる。このため-2スタッター及び+2スタッターは、-1スタッター及び+1スタッターと比べて、その発生割合が小さく、ピークの大きさも比較的小さなものとなる。ただし、-2スタッター及び+2スタッターのアンプリコン量を推定することができれば、真のアリルのマイクロサテライトの分布を更に精度よく算出できるようになる。なお、-2スタッター及び+2スタッターのアンプリコン量を推定するための具体的な手法については、以下で詳しく説明する。
 (アンプリコン量の推定方法)
 次に、既出の図7を参照しながら、スタッターのアンプリコン量を推定する方法について具体的に説明する。なお、各種条件は、第2実施形態で説明したものと同様であるものとする。
 図7において、すでに説明したように、PCRを3サイクルした場合、「5回繰り返し」のアンプリコン量は、aとなり、-1スタッター(即ち、「4回繰り返し」)のアンプリコン量は、3×a×bとなる。この場合、-2スタッター(即ち、「3回繰り返し」)のアンプリコン量は、3×a×bとなる。
 そして、PCRをnサイクルした場合、「5回繰り返し」のアンプリコン量は、aとなり、-1スタッター(即ち、「4回繰り返し」)のアンプリコン量は、nC1×an-1×bとなる。この場合、-2スタッター(即ち、「3回繰り返し」)のアンプリコン量は、nC2×an-2×bとなる。-1スタッター比SR-1は、(「4回繰り返し」のアンプリコン量)/(「5回繰り返し」のアンプリコン量)と表現できるため、前述の値を用いると、SR-1=(nC1×an-1×b)/(a)=nC1×b/a=n×b/aと表すことができる。同様に、-2スタッター比SR-2は、(「3回繰り返し」のアンプリコン量)/(「5回繰り返し」のアンプリコン量)と表現できるため、前述の値を用いると、SR-2=(nC2×an-2×b)/(a)=nC2×b/a=1/2×n×(n-1)×b/a≒1/2×(n×b/a)=1/2×(SR-1と表すことができる。
 以上のように、第1の割合a、第2の割合b、PCRのサイクル数nを用いれば、-2スタッターのアンプリコン量を推定することが可能である。なお、ここでの説明は省略したが、+2スタッターのアンプリコン量についても、同様の手法で推定することが可能である。上述した例では、-2スタッターが、「-1スタッターが発生する現象が2回発生することで生ずる」ことを前提として説明したが、1回のPCR過程で-2スタッターが生ずる可能性を考慮してもよい。この場合、上記第1の割合a、第2の割合bに加えて、-2スタッターが発生する割合を用いればよい。この値は、例えば「x回繰り返し」の2次式で近似すればよい。同様に、1回のPCR過程で-3スタッターが生ずる可能性を考慮してもよい。この場合、-3スタッターが発生する割合を用いればよい。この値は、例えば「x回繰り返し」の3次式(或いは、3次以上の式)で近似すればよい。
 (技術的効果)
 次に、第3実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図9で説明したように、第3実施形態に係る遺伝子情報処理システム10では、-2スタッター又は+2スタッターのアンプリコン量を推定し、推定したアンプリコン量を用いて、PCR前の遺伝子におけるマイクロサテライトの分布が算出される。このようにすれば、PCRにおいて発生する-2スタッター又は+2スタッターの存在を考慮して、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 なお、ここまでの実施形態では、-1スタッター、+1スタッター、-2スタッター、及び+2スタッターのアンプリコン量を推定する例を挙げたが、繰り返しユニット数が3つ以上少ない又は多いスタッター(例えば、-3スタッターや+3スタッター等)のアンプリコン量を推定して、PCR前の遺伝子におけるマイクロサテライトの分布を算出するようにしてもよい。
 <第4実施形態>
 第4実施形態に係る遺伝子情報処理システム10について、図10及び図11を参照して説明する。なお、第4実施形態は、上述した第1から第3実施形態と比べて、一部の構成及び動作が異なるのみであり、その他の部分は第1から第3実施形態と同一であってよい。このため、以下では、すでに説明した部分と重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図10を参照しながら、第4実施形態に係る遺伝子情報処理システム10の機能的構成について説明する。図10は、第4実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。なお、図10では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図10に示すように、第4実施形態に係る遺伝子情報処理システム10は、その機能を実現するための処理ブロックとして、第1取得部110と、第2取得部120と、算出部130とを備えて構成されている。そして特に、第4実施形態に係る算出部130は、スタッター比推定部132を備えている。
 スタッター比推定部132は、第1の割合と、第2の割合と、PCR法のサイクル数と、を用いて、PCRで増幅されたマイクロサテライトのアンプリコン量に対するスタッターのアンプリコン量の比率であるスタッター比を推定可能に構成されている。なお、スタッター比の対象となるスタッターは、繰り返しユニット数が少ないマイナススタッター(例えば、-1スタッターや-2スタッター)であってもよいし、繰り返しユニット数が多いプラススタッター(例えば、+1スタッターや+2スタッター)であってもよい。そして、第4実施形態に係る算出部130は、スタッター比推定部132で推定されたスタッター比を用いて、PCR前の遺伝子におけるマイクロサテライトの分布を算出可能に構成されている。
 (スタッター比の算出方法)
 スタッター比は、すでに説明した各スタッターのアンプリコン量を用いて算出することができる。例えば、図7に示す例における-1スタッターのスタッター比r1は、「4回繰り返し(即ち、-1スタッター)のアンプリコン量」÷「5回繰り返しのアンプリコン量」として算出できる。具体的には、-1スタッターのスタッター比r1は、(nC1×an-1×b)÷a=nC1×(b/a)となる。同様に、-2スタッターのスタッター比r2は、「3回繰り返し(即ち、-2スタッター)のアンプリコン量」÷「5回繰り返しのアンプリコン量」として算出できる。具体的には、-2スタッターのスタッター比r2は、(nC2×an-2×b)÷a=nC2×(b/a)となる。
 なお、ここでは-1スタッターのスタッター比r1、及び-2スタッターのスタッター比r2についてのみ説明したが、その他のスタッター比についても、同様の手法で算出することが可能である。
 (動作の流れ)
 次に、図11を参照しながら、第4実施形態に係る遺伝子情報処理システム10の動作の流れについて説明する。図11は、第4実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。なお、図11では、図4に示した処理と同様の処理に同一の符号を付している。
 図11に示すように、第4実施形態に係る遺伝子情報処理システム10が動作する際には、まず第1取得部110が、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する(ステップS101)。
 続いて、第2取得部120が、第1の割合を取得し(ステップS102)、第2の割合を取得し(ステップS103)、PCRのサイクル数を取得する(ステップS104)。
 続いて、スタッター比推定部132が、第1の割合、第2の割合、及びPCRのサイクル数を用いて、スタッター比を推定する(ステップS401)。そして、算出部130は、スタッター比推定部132が推定したスタッター比を用いて、PCR前の遺伝子におけるマイクロサテライトの分布を算出する(ステップS402)。
 (技術的効果)
 次に、第4実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図10及び図11で説明したように、第4実施形態に係る遺伝子情報処理システム10では、スタッターのアンプリコン量の比率であるスタッター比を推定し、推定したスタッター比を用いて、PCR前の遺伝子におけるマイクロサテライトの分布が算出される。このようにすれば、PCRにおいて発生するスタッターの存在を考慮して、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <第5実施形態>
 第5実施形態に係る遺伝子情報処理システム10について、図12を参照して説明する。なお、第5実施形態は、上述した第1から第4実施形態と比べて、第2の割合に含まれる一部のパラメータが異なるのみであり、その他の部分は第1から第4実施形態と同一であってよい。このため、以下では、すでに説明した部分と重複する部分については適宜説明を省略するものとする。
 (複数種類のスタッターの発生割合)
 まず、図12を参照しながら、第5実施形態に係る遺伝子情報処理システム10で扱われる第2の割合について説明する。図12は、マイナススタッターが発生する割合及びプラススタッターが発生する割合の両方を考慮する例を示す概念図である。
 図12に示すように、第5実施形態に係る遺伝子情報処理システム10では、繰り返しユニット数が少ないマイナススタッターが発生する割合bと、繰り返しユニット数が多いプラススタッターが発生する割合cとの両方を考慮する。
 図12の例において、PCRを10サイクルしたとすると、「5回繰り返し」のアンプリコン量は、a10+abc+1260a+4200a+3150a+252bとなる。また、「4回繰り返し(即ち、-1スタッター)」のアンプリコン量は、10ab+360ac+2520a+4200a+1260abとなる。「3回繰り返し(即ち、-2スタッター)」のアンプリコン量は、45a+840ac+3150a+2520a+210bとなる。
 なお、ここでは-1スタッター及び-2スタッターの例を挙げたが、その他のスタッター比についても、同様の手法で算出することが可能である。
 (技術的効果)
 次に、第5実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図12で説明したように、第5実施形態に係る遺伝子情報処理システム10では、マイナススタッターが発生する割合と、繰り返しユニットが多いプラススタッターが発生する割合との両方が用いられる。このようにすれば、PCRにおいて発生するマイナススタッター及びプラススタッターの両方の存在を考慮して、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <第6実施形態>
 第6実施形態に係る遺伝子情報処理システム10について、図13から図16を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態と比べて、一部の構成及び動作が異なるのみであり、その他の部分は第1から第5実施形態と同一であってよい。このため、以下では、すでに説明した部分と重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図13を参照しながら、第6実施形態に係る遺伝子情報処理システム10の機能的構成について説明する。図13は、第6実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。なお、図13では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図13に示すように、第6実施形態に係る遺伝子情報処理システム10は、その機能を実現するための処理ブロックとして、第1取得部110と、第2取得部120と、算出部130とを備えて構成されている。そして特に、第6実施形態に係る算出部130は、増幅行列算出部133を備えている。
 増幅行列算出部133は、PCRによる増幅をモデル化した行列である増幅行列を算出可能に構成されている。増幅行列算出部133は、第1の割合と、第2の割合と、PCRのサイクル数と、を成分として含む増幅行列を算出する。そして、第6実施形態に係る算出部130は、増幅行列算出部133で推定された増幅行列を用いて、PCR前の遺伝子におけるマイクロサテライトの分布を算出可能に構成されている。
 (増幅行列)
 次に、図14を参照しながら、上述した増幅行列算出部133が算出する増幅行列について具体的に説明する。図14は、PCRによる増幅をモデル化した増幅行列の一例を示す行列式である。
 図14に示すように、増幅行列は、図7及び図12において説明したPCRの増幅率a(即ち、第1の割合)と、マイナススタッターの発生割合b及びプラススタッターの発生割合c(即ち、第2の割合)と、PCRのサイクル数nと、を成分として含む行列である。このような増幅行列を用いれば、PCRをnサイクルした後のマイクロサテライトの分布情報を、PCR前のマイクロサテライトの分布情報に増幅行列を掛けたものとして表すことができる。よって、増幅行列を用いれば、PCR後のマイクロサテライトの分布情報から、PCR前のマイクロサテライトの分布を容易に算出できる。なお、-2スタッターが1回のPCR過程で発生する割合を考慮する場合、その値は、bの右隣の列に入る。同様に、+2スタッターが1回のPCR過程で発生する割合を考慮する場合、その値は、cの左隣の列に入る。
 (動作の流れ)
 次に、図15を参照しながら、第6実施形態に係る遺伝子情報処理システム10の動作の流れについて説明する。図15は、第6実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。なお、図15では、図4に示した処理と同様の処理に同一の符号を付している。
 図15に示すように、第6実施形態に係る遺伝子情報処理システム10が動作する際には、まず第1取得部110が、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する(ステップS101)。
 続いて、第2取得部120が、第1の割合を取得し(ステップS102)、第2の割合を取得し(ステップS103)、PCRのサイクル数を取得する(ステップS104)。
 続いて、増幅行列算出部133が、第1の割合、第2の割合、及びPCRのサイクル数を用いて、増幅行列を算出する(ステップS601)。そして、算出部130は、増幅行列算出部133が算出した増幅行列を用いて、PCR前の遺伝子におけるマイクロサテライトの分布を算出する(ステップS602)。
 (技術的効果)
 次に、第6実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図11で説明したように、第6実施形態に係る遺伝子情報処理システム10では、PCRによる増幅をモデル化した増幅行列が算出され、算出した増幅行列を用いて、PCR前の遺伝子におけるマイクロサテライトの分布が算出される。このように、第1の割合、第2の割合、及びPCRのサイクル数を成分とする増幅行列を用いれば、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <第7実施形態>
 第7実施形態に係る遺伝子情報処理システム10について、図16及び図17を参照して説明する。なお、第7実施形態は、上述した第1から第6実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1から第6実施形態と同一であってよい。このため、以下では、すでに説明した部分と重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図16を参照しながら、第7実施形態に係る遺伝子情報処理システム10の機能的構成について説明する。図16は、第7実施形態に係る遺伝子情報処理システムの機能的構成を示すブロック図である。なお、図16では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図16に示すように、第7実施形態に係る遺伝子情報処理システム10は、その機能を実現するための処理ブロックとして、第1取得部110と、第2取得部120と、算出部130とを備えて構成されている。そして特に、第7実施形態に係る第2取得部120は、パラメータ推定部121を備えている。
 パラメータ推定部121は、PCR後の遺伝子におけるマイクロサテライトの分布情報から、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つを推定可能に構成されている。即ち、第7実施形態に係る第2取得部120は、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つを、パラメータ推定部121で推定して取得する。なお、第1の割合、第2の割合、及びPCRのサイクル数のうち、パラメータ推定部121で推定されたもの以外は、推定以外の方法(例えば、ユーザからの入力等)で取得すればよい。
 (動作の流れ)
 次に、図17を参照しながら、第7実施形態に係る遺伝子情報処理システム10の動作の流れについて説明する。図17は、第7実施形態に係る遺伝子情報処理システムの動作の流れを示すフローチャートである。なお、図17では、図4に示した処理と同様の処理に同一の符号を付している。
 図17に示すように、第7実施形態に係る遺伝子情報処理システム10が動作する際には、まず第1取得部110が、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する(ステップS101)。
 続いて、パラメータ推定部121が、CR後の遺伝子におけるマイクロサテライトの分布情報から、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つを推定する(ステップS701)。そして、第2取得部120が、第1の割合を取得し(ステップS102)、第2の割合を取得し(ステップS103)、PCRのサイクル数を取得する(ステップS104)。第2取得部120は、パラメータ推定部121が推定したパラメータについては、推定した値を取得する。
 続いて、算出部130が、第1取得部110で取得されたPCR後の遺伝子におけるマイクロサテライトの分布情報と、第2取得部120で取得された第1の割合、第2の割合、及びPCRのサイクル数とに基づいて、PCR前の遺伝子におけるマイクロサテライトの分布を算出する(ステップS105)。
 (技術的効果)
 次に、第7実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図16及び図17で説明したように、第7実施形態に係る遺伝子情報処理システム10では、PCR後の遺伝子におけるマイクロサテライトの分布情報から、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つが推定される。このようにすれば、第1の割合、第2の割合、及びPCRのサイクル数を直接取得することなく、推定したパラメータを用いて、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <第8実施形態>
 第8実施形態に係る遺伝子情報処理システム10について、図18から図20を参照して説明する。なお、第8実施形態は、上述した第7実施形態におけるパラメータの具体的な推定方法を説明するものであり、システム構成や全体的な動作の流れ等については第7実施形態と同一であってよい。このため、以下では、すでに説明した部分と重複する部分については適宜説明を省略するものとする。
 (山登り法による推定)
 まず、図18を参照しながら、山登り法を用いたパラメータの推定方法について具体的に説明する。図18は、第8実施形態に係る遺伝子情報処理システムにおいて算出される遺伝子情報の推算量と実際量とを示すグラフである。
 第8実施形態に係る遺伝子情報処理システム10におけるパラメータ推定部121は、山登り法を用いて、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つを推定可能に構成されている。
 ここで、「5回繰り返し」をPCRで増幅した実験結果が得られているとする。この場合、図14で示した行列式の右辺では、PCR前の「5回繰り返し」の部分が何らかの値を持ち(例えば、20)、それ以外はゼロとなる。
 次に、PCRの増幅率a(即ち、第1の割合)と、マイナススタッターの発生割合b及びプラススタッターの発生割合c(即ち、第2の割合)と、PCRのサイクル数nを適当に決めると、増幅行列の各成分の値も決まる。そして、この増幅行列と、上述したPCR前の値とを用いえれば、PCR後の値(アンプリコン量)が推算できる。
 図18に示す図では、上述したように推算した推算量が実線で示されており、実際量が破線で示されている。なお、図18では、推算量及び実際量の両者を1.0になるように規格化している。このため、PCR前の「5回繰り返し」の部分の値が何であるかは問題とならない。
 ここで特に、図18における推算量(実線)と、実際量(破線)との間に誤差が生じているのは、適当に決めたPCRの増幅率a、スタッターの発生割合b及びc、PCRのサイクル数nが実際の値からずれているからである。よって、この誤差が小さくなるように、適当に決めたa、b、c、nの値を変更することで、真のa、b、c、nの値を推定できる。
 例えば、a=1.800の場合、0.001増やして、a=1.801とする。そして、変更後のaを用いて同様に推算し、誤差が小さくなっていれば、変更後の値(即ち、a=1.801)を採用し、誤差が大きくなっていれば、変更前の値(即ち、a=1.800)のままにする。その後は、再びa、b、c、nの値のいずれか1つを変更して、同様の演算を行う。このような処理を繰り返すことによって、真のa、b、c、nの値を推定することが可能である。なお、ここではa、b、c、nの値を1つずつ変更する例を挙げたが、a、b、c、nの値をすべて変更しながら同様の処理を繰り返すようにしてもよい。
 また、a、b、c、nの初期値はランダムに決めてもよいが、所定の範囲(例えば、現実的に想定される値)から数値を選択するようにしてもよい。例えば、PCRの増幅率であるaは、1.0~2.0の範囲から選択するようにしてもよい。PCRサイクル数nは、1から30までの値として選択してもよい。なお、PCRサイクル数nは、実際は整数であるが、有効なPCRの回数を示す値であるため、整数ではない実数としてもよい。
 (データフィッティングによる推定)
 次に、図19及び図20を参照しながら、データフィッティングを用いたパラメータの推定方法について具体的に説明する。図19は、繰り返し回数と-1スタッター比との関係を示すグラフである。図20は、データフィッティングによりスタッターが発生する割合を推定する方法を示すグラフである。
 第8実施形態に係る遺伝子情報処理システム10におけるパラメータ推定部121は、上述した山登り法に加えて又は代えて、データフィッティングによりスタッターの発生する割合を推定可能に構成されていてもよい。以下では、-1スタッター比からマイナススタッターが発生する割合bを算出する例を説明する。
 図19に示すように、-1スタッター比は、繰り返し回数が比較的少ない場合はほとんど増えず、繰り返し回数が比較的多い場合に大きくなることが判っている。このような関係を、定数b0及び繰り返し回数xを用いてエクセル関数で表すと、例えば((x-3)>0?(b0*(x-3)):0)となる。この場合、繰り返し回数が3回以下であれば、b=0(即ち、-1スタッター比は増えない)となり、繰り返し回数が大きくなると、bも大きくなる(例えば、「10回繰り返し」であれば、b0*7となる)。
 上記の結果、-1スタッター比をエクセル関数で表すと、{nC1*((x-3)>0?(b0*(x-3)):0)}/{a}となる。この関係をグラフにあてはめると、図20のような直線となる。この場合、“3”が-1スタッターを発生させる最小の数となる。この最小の数をbnとすると、b0*((x-bn)>0?(b0*(x-bn)):0)}という関係式が得られる。その結果、マイナススタッターが発生する割合bは、b0及びbnの2つのパラメータで表すことが可能である。なお、b0及びbnの値は、図19及び図20で示したような実験結果から簡単に求めることができる。つまり、マイナススタッターが発生する割合bを実験結果から容易に推定することができる。
 上記の例ではマイナススタッターが発生する割合bを推定する例を挙げたが、プラススタッターが発生する割合cについても、同様の手法で推定することができる。cの関係式は、定数c0及び最小数cnを用いて表すと、例えばc0*((x-cn)>0?(c0*(x-cn)):0)}となる。
 (技術的効果)
 次に、第8実施形態に係る遺伝子情報処理システム10によって得られる技術的効果について説明する。
 図18から図20で説明したように、第8実施形態に係る遺伝子情報処理システム10では、山登り法又はデータフィッティングを用いて、第1の割合、第2の割合、及びPCRのサイクル数の少なくとも1つが推定される。このようにすれば、第1の割合、第2の割合、及びPCRのサイクル数を高精度で推定し、PCR前の遺伝子におけるマイクロサテライトの分布を適切に算出することが可能である。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の遺伝子情報処理システムは、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する第1取得手段と、前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得する第2取得手段と、前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出する算出手段とを備えることを特徴とする遺伝子情報処理システムである。
 (付記2)
 付記2に記載の遺伝子情報処理システムは、前記算出手段は、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を用いて、繰り返しユニットが1つ少ない又は多いスタッターのアンプリコン量を推定することを特徴とする付記1に記載の遺伝子情報処理システムである。
 (付記3)
 付記3に記載の遺伝子情報処理システムは、前記算出手段は、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を用いて、繰り返しユニットが2つ少ない又は多いスタッターのアンプリコン量を推定することを特徴とする付記1又は2に記載の遺伝子情報処理システムである。
 (付記4)
 付記4に記載の遺伝子情報処理システムは、前記算出手段は、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を用いて、前記PCRで増幅されたマイクロサテライトのアンプリコン量に対する前記スタッターのアンプリコン量の比率であるスタッター比を推定することを特徴とする付記1から3のいずれか一項に記載の遺伝子情報処理システムである。
 (付記5)
 付記5に記載の遺伝子情報処理システムは、前記第2の割合は、繰り返しユニットが少ないマイナススタッターが発生する割合と、繰り返しユニットが多いプラススタッターの割合と、の両方を含むことを特徴とする付記1から4のいずれか一項に記載の遺伝子情報処理システムである。
 (付記6)
 付記6に記載の遺伝子情報処理システムは、前記算出手段は、前記PCRによる増幅をモデル化した行列であって、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を成分として含む増幅行列を用いて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出することを特徴とする付記1から5のいずれか一項に記載の遺伝子情報処理システムである。
 (付記7)
 付記7に記載の遺伝子情報処理システムは、前記第2取得手段は、前記PCR後の前記遺伝子における前記マイクロサテライトの分布情報から、前記第1の割合、前記第2の割合、及び前記PCRのサイクル数の少なくとも1つを推定して取得することを特徴とする付記1から6のいずれか一項に記載の遺伝子情報処理システムである。
 (付記8)
 付記8に記載の遺伝子情報処理システムは、前記第2取得手段は、前記第1の割合、前記第2の割合、及び前記PCRのサイクル数の少なくとも1つを、山登り法又はデータフィッティングにより推定することを特徴とする付記7に記載の遺伝子情報処理システムである。
 (付記9)
 付記9に記載の遺伝子情報処理方法は、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得し、前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得し、前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出することを特徴とする遺伝子情報処理方法である。
 (付記10)
 付記10に記載のコンピュータプログラムは、PCR後の遺伝子におけるマイクロサテライトの分布情報を取得し、前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得し、前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 (付記11)
 付記11に記載の記録媒体は、付記10に記載のコンピュータプログラムを記録していることを特徴とする記録媒体である。
 この開示は上記実施形態に限定されるものではない。この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う遺伝子情報処理システム、遺伝子情報処理方法、コンピュータプログラム、及び記録媒体もまたこの開示の技術思想に含まれる。
 法令で許容される限りにおいて、この出願は、2021年3月15日に出願された日本出願特願2021-041423を基礎とする優先権を主張し、その開示の全てをここに取り込む。また、法令で許容される限りにおいて、本願明細書に記載された全ての公開公報及び論文をここに取り込む。
 10 遺伝子情報処理システム
 110 第1取得部
 120 第2取得部
 121 パラメータ推定部
 130 算出部
 131 アンプリコン量推定部
 132 スタッター比推定部
 133 増幅行列算出部
 a PCRの増幅率
 b マイナススタッターの発生割合
 c プラススタッターの発生割合
 n PCRのサイクル数

Claims (10)

  1.  PCR後の遺伝子におけるマイクロサテライトの分布情報を取得する第1取得手段と、
     前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得する第2取得手段と、
     前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出する算出手段と
     を備えることを特徴とする遺伝子情報処理システム。
  2.  前記算出手段は、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を用いて、繰り返しユニットが1つ少ない又は多いスタッターのアンプリコン量を推定することを特徴とする請求項1に記載の遺伝子情報処理システム。
  3.  前記算出手段は、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を用いて、繰り返しユニットが2つ少ない又は多いスタッターのアンプリコン量を推定することを特徴とする請求項1又は2に記載の遺伝子情報処理システム。
  4.  前記算出手段は、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を用いて、前記PCRで増幅されたマイクロサテライトのアンプリコン量に対する前記スタッターのアンプリコン量の比率であるスタッター比を推定することを特徴とする請求項1から3のいずれか一項に記載の遺伝子情報処理システム。
  5.  前記第2の割合は、繰り返しユニットが少ないマイナススタッターが発生する割合と、繰り返しユニットが多いプラススタッターの割合と、の両方を含むことを特徴とする請求項1から4のいずれか一項に記載の遺伝子情報処理システム。
  6.  前記算出手段は、前記PCRによる増幅をモデル化した行列であって、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、を成分として含む増幅行列を用いて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出することを特徴とする請求項1から5のいずれか一項に記載の遺伝子情報処理システム。
  7.  前記第2取得手段は、前記PCR後の前記遺伝子における前記マイクロサテライトの分布情報から、前記第1の割合、前記第2の割合、及び前記PCRのサイクル数の少なくとも1つを推定して取得することを特徴とする請求項1から6のいずれか一項に記載の遺伝子情報処理システム。
  8.  前記第2取得手段は、前記第1の割合、前記第2の割合、及び前記PCRのサイクル数の少なくとも1つを、山登り法又はデータフィッティングにより推定することを特徴とする請求項7に記載の遺伝子情報処理システム。
  9.  PCR後の遺伝子におけるマイクロサテライトの分布情報を取得し、
     前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得し、
     前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出する
     ことを特徴とする遺伝子情報処理方法。
  10.  PCR後の遺伝子におけるマイクロサテライトの分布情報を取得し、
     前記PCRの1サイクルごとの前記マイクロサテライトの増幅率を示す第1の割合と、前記PCRの1サイクルごとに前記マイクロサテライトから発生するスタッターの割合を示す第2の割合と、前記PCRのサイクル数と、を取得し、
     前記PCR後の遺伝子における前記マイクロサテライトの分布情報と、前記第1の割合と、前記第2の割合と、前記PCRのサイクル数と、に基づいて、前記PCR前の前記遺伝子における前記マイクロサテライトの分布を算出する
     ようにコンピュータを動作させることを特徴とするコンピュータプログラムが記録されている記録媒体。
PCT/JP2022/000221 2021-03-15 2022-01-06 遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体 WO2022196041A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023506774A JPWO2022196041A1 (ja) 2021-03-15 2022-01-06

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021041423 2021-03-15
JP2021-041423 2021-03-15

Publications (1)

Publication Number Publication Date
WO2022196041A1 true WO2022196041A1 (ja) 2022-09-22

Family

ID=83320134

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000221 WO2022196041A1 (ja) 2021-03-15 2022-01-06 遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体

Country Status (2)

Country Link
JP (1) JPWO2022196041A1 (ja)
WO (1) WO2022196041A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163720A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd 遺伝子情報の表示方法及び表示装置
JP2007259847A (ja) * 2006-02-28 2007-10-11 Hitachi Software Eng Co Ltd 遺伝子型判定結果の評価方法及び評価システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163720A (ja) * 2004-12-06 2006-06-22 Hitachi Software Eng Co Ltd 遺伝子情報の表示方法及び表示装置
JP2007259847A (ja) * 2006-02-28 2007-10-11 Hitachi Software Eng Co Ltd 遺伝子型判定結果の評価方法及び評価システム

Also Published As

Publication number Publication date
JPWO2022196041A1 (ja) 2022-09-22

Similar Documents

Publication Publication Date Title
Roetteler et al. Quantum resource estimates for computing elliptic curve discrete logarithms
Anderson et al. Multilevel Monte Carlo for continuous time Markov chains, with applications in biochemical kinetics
Courtois et al. Solving circuit optimisation problems in cryptography and cryptanalysis
JP2009229615A5 (ja)
Riese qMultiSum—a package for proving q-hypergeometric multiple summation identities
JP5182364B2 (ja) サイドチャネル攻撃に対する耐タンパ性を有する暗号処理方法
Sarbishei et al. On the fixed-point accuracy analysis and optimization of polynomial specifications
JP4302640B2 (ja) 被乗数のシフトを用いて乗算を計算するための装置およびその方法、上記装置を実行するためのプログラムコードを格納した記録媒体
Karmakar et al. Efficient finite field multiplication for isogeny based post quantum cryptography
JP2007187957A (ja) 暗号処理装置、および暗号処理方法、並びにコンピュータ・プログラム
WO2015145997A1 (ja) 属性変換装置、属性変換方法、学習装置、及び、記録媒体
Javeed et al. Design and performance comparison of modular multipliers implemented on FPGA platform
WO2022196041A1 (ja) 遺伝子情報処理システム、遺伝子情報処理方法、及び記録媒体
Mishra Pipelined computation of scalar multiplication in elliptic curve cryptosystems (extended version)
Byrne et al. SPA resistant elliptic curve cryptosystem using addition chains
JPWO2011036746A1 (ja) 演算装置
JP6067596B2 (ja) ペアリング演算装置、マルチペアリング演算装置、プログラム
Ke et al. High-performance montgomery modular multiplier with NTT and negative wrapped convolution
KR100976232B1 (ko) 고속 비트-병렬 다항식 곱셈기, 그 곱셈 방법
KR101423947B1 (ko) 확장된 nist 소수를 이용한 모듈러 곱셈 및 모듈러 지수승 방법
Mentens et al. An FPGA Implementation of a Montgomery Multiplier Over GF (2^ m)
Seo et al. Multi-precision squaring for public-key cryptography on embedded microprocessors, a step forward
Mortajine et al. Optimized and secure implementation of ROLLO-i
Al Saffar et al. Speeding up the Elliptic Curve Scalar Multiplication Using the Window-w Non Adjacent Form.
Erdem Fast software multiplication in F_2 [x] for embedded processors

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22770803

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023506774

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22770803

Country of ref document: EP

Kind code of ref document: A1