WO2024047992A1 - アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体 - Google Patents

アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体 Download PDF

Info

Publication number
WO2024047992A1
WO2024047992A1 PCT/JP2023/021016 JP2023021016W WO2024047992A1 WO 2024047992 A1 WO2024047992 A1 WO 2024047992A1 JP 2023021016 W JP2023021016 W JP 2023021016W WO 2024047992 A1 WO2024047992 A1 WO 2024047992A1
Authority
WO
WIPO (PCT)
Prior art keywords
primer
sequence
sequences
candidate
predetermined
Prior art date
Application number
PCT/JP2023/021016
Other languages
English (en)
French (fr)
Inventor
奈央子 山口
由奈 村尾
雅也 長瀬
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2024047992A1 publication Critical patent/WO2024047992A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes

Definitions

  • the present invention relates to a method for designing a primer for amplicon methylation sequence analysis, a manufacturing method, a designing device, a designing program, and a recording medium.
  • multiple amplification target regions containing multiple target sites in bisulfite-treated or enzyme-treated DNA are analyzed using multiplex PCR (polymerase chain reaction).
  • the present invention relates to a primer design method, manufacturing method, design device, design program, and recording medium for designing primers for simultaneous amplification.
  • DNA methylation is known as one of the epigenetic mechanisms, which is a gene expression control mechanism that does not involve changes in DNA base sequences.
  • Mammalian DNA methylation occurs primarily at the 5th carbon atom of cytosine (C) in CG sequences on DNA. Regions called CpG islands, where CG sequences frequently appear, are found in many gene promoter regions, and initially many of the CG sequences in these regions are unmethylated, but due to disease, development, differentiation, inflammation, or It is known that gene expression is suppressed due to methylation with aging. For example, it is known that in cancer cells, many cancer-suppressing genes are inactivated due to increased methylation of CpG islands in gene promoter regions.
  • DNA methylation is greatly involved in the regulation of gene expression, and its information is useful for elucidating the mechanisms of diseases such as cancer and evaluating the state of differentiation of various cells, and is used for diagnosis, It has attracted attention in various fields such as treatment, drug discovery, and regenerative medicine, and active research and development is being conducted on it.
  • drugs when developing drugs, by measuring and analyzing the state of DNA methylation in specific regions, attempts are made to examine the presence or absence of drug resistance in each type of cell, and to determine the presence or absence of drug resistance in cancer cells based on the ratio of normal cells to abnormal cells. Attempts are being made to evaluate the presence or absence of cells and the degree of malignancy (progressiveness), as well as to evaluate the differentiation state of stem cells and use them for quality control.
  • One method for analyzing the state of DNA methylation is a method using bisulfite (bisulfite) reaction.
  • bisulfite bisulfite
  • C cytosine
  • FIG. 13A [1] to [4] are methylation sites, and among them, [2] and [4] are set as target sites A and B (FIG. 13A shows only one strand).
  • the template DNA is treated with bisulfite (bisulfite). If cytosine (C) in the CG sequence is methylated on the template DNA, it remains as cytosine (C) after this treatment (see methylation sites [3] and [4] in Figure 13A). On the other hand, if cytosine (C) of the CG sequence on the template DNA is not methylated, it is deaminated and converted to uracil (U) (see methylation sites [1] and [2] in Figure 13A). ). Recently, instead of bisulfite treatment, a method of base conversion similar to the above reaction using an enzyme such as New England Biolabs' NEB Next Enzymatic Methyl-seq Kit has also been used. .
  • the bisulfite-treated DNA is amplified using PCR (polymerase chain reaction) in order to perform sequence analysis.
  • the amplified DNA that is, the PCR amplification product, is subjected to sequence analysis using a capillary sequencer or NGS (Next Generation Sequencer).
  • NGS Next Generation Sequencer
  • the methylation state of a predetermined target site can be determined in the DNA (template DNA) before bisulfite treatment, i.e., It is possible to detect whether DNA at a predetermined target site selected from one cell is methylated.
  • the base at a given target site of the PCR amplification product is cytosine (C) or thymine (T)
  • cytosine (C) and thymine (T) that occur in the sequence of this PCR amplification product, it is possible to detect specific target site DNA from multiple cells in the DNA (template DNA) before bisulfite treatment. Detects the methylation status (frequency) of the methylation state (frequency), that is, whether or not the DNA of a specific target site derived from multiple cells is methylated, and based on the detection results, determines whether the DNA of the specific target site is methylated or not. It is also possible to determine the percentage of cells that are methylated.
  • the DNA at that site is methylated for each specific target site, and based on the detection results, identify cells whose DNA is methylated. It is also possible to detect the proportion of each specific target site. More specifically, depending on whether the base at a specific target site that occurs in the sequence of the PCR amplification product is cytosine (C) or thymine (T), the DNA of a specific target site derived from multiple cells can be differentiated. It is possible to understand the methylation status (frequency).
  • C cytosine
  • T thymine
  • the methylation status (frequency) of target sites (measurement sites) A and B derived from multiple cells was evaluated using multiple cells (cells C1 to C3 in the figure).
  • the methylation state (frequency) of the DNA at the target site A in FIG. 13B can be determined as a methylation degree of 0.67 derived from 3 cells, and the percentage of cells in which DNA is methylated can be determined.
  • Multiplex PCR which is capable of amplifying two or more amplification target regions on DNA at once in the same reaction, may be used to amplify DNA after bisulfite treatment.
  • primer pairs a forward primer and a reverse primer
  • FIG. 13A a primer pair for amplifying a region to be amplified (amplified region) including target site A and a primer pair for amplifying a region to be amplified (amplified region) including target site B are required.
  • primer pairs forward primer and reverse primer
  • the primers for multiplex PCR used in the analysis i.e., the primers for bisulfite amplicon sequence analysis
  • the problem is that the task of designing primers (primers) is more complicated and time-consuming than designing primers for bisulfite-treated DNA.
  • primer design software is related to normal primer design software, and there is only a small amount of software related to designing primers for bisulfite-treated DNA. Furthermore, there is even less primer design software that is compatible with the design of primers for amplifying bisulfite-treated DNA by multiplex PCR (ie, primers for bisulfite amplicon sequence analysis).
  • primer design software that is compatible with the design of primers for amplifying bisulfite-treated DNA by multiplex PCR (ie, primers for bisulfite amplicon sequence analysis).
  • An example of the few software that can be used is the one described in Patent Document 1 proposed by the present inventors.
  • Patent Document 1 can improve the primer design success rate compared to conventional primer design software for bisulfite-treated DNA, but it has a higher primer design success rate. There is a need for improvement. Furthermore, even if the success rate of primer design could be improved, the probability of primer dimer formation would increase, potentially causing a problem of poor primer accuracy.
  • the present invention was made to solve these problems, and provides a primer for bisulfite amplicon sequence analysis (more specifically, a primer for amplicon methylation) that can further improve the success rate of primer design.
  • the purpose of this invention is to provide a design method, a manufacturing method, a design device, a design program, and a recording medium for primers for sequence analysis.
  • a method for designing primers for bisulfite amplicon sequence analysis (more specifically, primers for amplicon methylation sequence analysis) that allows users to easily design primers according to their desired design success rate.
  • a manufacturing method, a design device, a design program, and a recording medium are examples of the primers for bisulfite amplicon sequence analysis.
  • the method for designing primers for amplicon methylation sequence analysis includes: In order to measure the degree of methylation of at least one genomic double-stranded DNA, bisulfite reaction or enzyme reaction and multiplex PCR are used, and multiple sites each containing two or more target sites for measuring the degree of methylation are used.
  • a method for designing primers for amplicon methylation sequence analysis used to simultaneously amplify regions of a complementary strand generation step of generating a complementary strand to the template strand of the DNA; One of the above two or more target sites is selected, and one or more partial sequences of a predetermined length are excised from the base sequences located on the 5' end side of the selected target site from each of the above strands.
  • a partial sequence extraction step a primer candidate sequence selection step of selecting the one or more excised partial sequences as one or more primer candidate sequences; a primer sequencing step of employing and determining a forward primer sequence and a reverse primer sequence that amplify a region containing the selected predetermined target site from among the one or more candidate primer sequences;
  • the above primer sequencing step is [1] Selecting one or more primer candidate sequence pairs corresponding to the predetermined target site from the one or more primer candidate sequences, [2] Selecting one pair from one or more candidate primer sequence pairs for the predetermined target site, calculating a local alignment score between the sequences of the selected primer candidate sequence pairs, [3] Adopt and determine the primer candidate sequence pair for which the local alignment score is lower than the predetermined threshold as the forward primer sequence and reverse primer sequence for amp
  • Adopted and determined as a forward primer sequence and a reverse primer sequence for amplifying a region In the step [3] of (I) and (II) above, if the forward primer sequence and reverse primer sequence are not used to amplify the region containing the predetermined target site, From the one or more candidate primer sequence pairs selected in [1] of II), one different pair is selected, and the procedures in [2] and [3] are performed until at least one candidate primer sequence pair is adopted.
  • the above local alignment score is determined by the following scores: (1) "X” per position for a pair of complementary bases between the primer candidate sequences, (2) “Y” per position for a non-complementary pair, and , ⁇ 3> If there is an insertion or deletion, each location is marked as “Z”, the above “X” is 1, the above “Y” is -4 to -2, and the above “Z” is -6 to Calculated by -3,
  • the above-mentioned predetermined threshold value is a method of 1 to 4.
  • the above primer sequencing step includes: (I) If there are two or more target sites and one or more primer sequences for different target sites have not yet been determined, In the step [2] above, all pairs are selected from one or more primer candidate sequence pairs for the above-described predetermined target site, and for each pair, a local alignment score between the sequences of the selected primer candidate sequence pairs is calculated. death, In the step [3] above, one or more primer candidate sequence pairs whose calculated local alignment score is less than or equal to the predetermined threshold are selected, and furthermore, all the selected pairs are selected. Among them, the primer candidate sequence pair having the smallest maximum value of the local alignment score is detected and adopted and determined as the forward primer sequence and reverse primer sequence for amplifying the region containing the predetermined target site.
  • step [2] If one or more primer sequences for different target sites have already been determined, all pairs are selected from the one or more primer candidate sequence pairs of the above-described predetermined target site, and for each pair, each candidate sequence of the above-selected primer candidate sequence pairs and the previously determined Calculating the local alignment score between each primer sequence of a different target site and the local alignment score between the sequences of the selected candidate sequence pair, In the step [3] above, for each pair, the maximum value is detected from among all the calculated local alignment scores, and the local alignment score whose value is less than or equal to a predetermined threshold is calculated for the primer candidate sequence pair.
  • a primer candidate sequence pair having the smallest maximum value of the local alignment score is detected from among all the selected pairs, and a format is used to amplify the region containing the predetermined target site.
  • Adopt and determine the word primer sequence and reverse primer sequence The method for designing primers for amplicon methylation sequence analysis according to [1] above.
  • the primer candidate sequence selection step selects one or more partial sequences cut out from each strand as a primer candidate sequence that satisfies predetermined selection conditions,
  • the above-mentioned “C” that can be methylated is “C” in the CG sequence
  • the above prescribed selection conditions are: (1) The Tm value is within a predetermined range; (2) The number of YG sequences or CR sequences contained in the above partial sequence is below a predetermined number, and (3) The number of junctions with sequences outside the relevant region on the genomic double-stranded DNA after the above base conversion is The method for designing primers for amplicon methylation sequence analysis according to [1] or [2], wherein the upper limit is equal to or less than a predetermined number of 1 or more.
  • C C, G, “Y” and “R” are base symbols defined by IUPAC, "C” is cytosine, “G” is guanine, “Y” is thymine or cytosine, “R” ” represents adenine or guanine.
  • the methylatable “C” further includes “C” in the CHG sequence,
  • the primer design method according to [3] above, wherein the predetermined selection condition further includes (4) that the number of YHG sequences or CDR sequences contained on the partial sequence is equal to or less than a predetermined number.
  • C C, G, “Y”, “H”, “R” and “D” are base symbols defined by IUPAC, "C” is cytosine, “G” is guanine, “Y” ” represents thymine or cytosine, “H” represents adenine, cytosine, or thymine, “D” represents thymine, guanine, or adenine, and “R” represents adenine or guanine.
  • the methylatable “C” further includes “C” in the CHH sequence,
  • “Y”, “H”, “R” and “D” are base notations specified by IUPAC, "Y” is thymine or cytosine, "H” is adenine, cytosine, or thymine, “D” ” represents thymine, guanine, or adenine, and “R” represents adenine or guanine. ]
  • Primer candidate sequence selection step The genomic double-stranded DNA after base conversion is used as a first template strand and a second template strand, the complementary strand of the first template strand is the first complementary strand, and the complementary strand of the second template strand is the complementary strand of the first template strand.
  • the second complementary strand one or more partial sequences excised from the first template strand that meet predetermined selection conditions are selected as forward primer candidate sequences for the first template strand, and One or more partial sequences excised from the first complementary strand that satisfy the above predetermined selection conditions are selected as reverse primer candidate sequences for the first template strand, and one or more partial sequences excised from the second template strand are selected as reverse primer candidate sequences for the first template strand.
  • the primer design method according to any one of [3] to [5] above, which is a step of selecting those that meet the conditions as reverse primer candidate sequences for the second template strand. [7] The primer sequencing step is performed by combining the forward primer candidate sequences of the one or more selected first template strands and the one or more selected first template strands in the primer candidate sequence selection step.
  • PCR amplification product For all combinations of reverse primer candidate sequences, calculate the length of the PCR amplification product that is expected to be amplified by PCR, and select combinations of primer candidate sequences in which the length of the PCR amplification product calculated above is within a predetermined range. , employed as the forward primer sequence and reverse primer sequence of the first template strand to amplify the region containing the target site selected in the partial sequence cutting step, and the primer sequence of the selected second template strand. For all combinations of the word primer candidate sequence and the reverse primer candidate sequence of the second template strand selected above, calculate the length of the PCR amplification product that is expected to be amplified by PCR, and calculate the length of the PCR amplification product that is expected to be amplified by PCR.
  • a forward primer sequence and a reverse primer of the second template strand that amplify the region containing the target site selected in the partial sequence excision step by combining primer candidate sequences whose lengths are within the predetermined range.
  • a primer sequence that amplifies a region containing the predetermined target site is adopted and determined from among the one or more candidate primer sequences based on a threshold value. Primer design method described.
  • the method for producing primers for amplicon methylation sequence analysis in the present invention is based on the primer design step described in any one of [1] to [8] above and the primer sequence designed in the primer design step. a synthesis step of synthesizing a primer, and the primer design step is carried out by the method of designing a primer for amplicon methylation sequence analysis described above.
  • the primer design device for amplicon methylation sequence analysis of the present invention includes: In order to measure the degree of methylation of at least one double-stranded DNA, bisulfite reaction or enzyme reaction and multiplex PCR are used, and multiple An apparatus for designing primers for amplicon methylation sequence analysis used to simultaneously amplify regions, the apparatus comprising: a complementary strand generating part that generates a complementary strand to the template strand of the DNA; One of the above two or more target sites is selected, and one or more partial sequences of a predetermined length are excised from the base sequences located on the 5' end side of the selected target site from each of the above strands.
  • a partial array extraction part a primer candidate sequence selection unit that selects the one or more excised partial sequences as one or more primer candidate sequences; a primer sequencing unit that adopts and determines a forward primer sequence and a reverse primer sequence that amplify a region containing the selected predetermined target site from among the one or more candidate primer sequences; Control for controlling the partial sequence cutting unit to repeat each process of the partial sequence cutting unit, the primer candidate sequence selection unit, and the primer sequencing unit until all of the two or more target sites are selected.
  • the above primer sequencing step is [1] Selecting one or more primer candidate sequence pairs corresponding to the predetermined target site from the one or more primer candidate sequences, [2] Selecting one pair from one or more candidate primer sequence pairs for the predetermined target site, calculating a local alignment score between the sequences of the selected primer candidate sequence pairs, [3] Adopt and determine the primer candidate sequence pair for which the local alignment score is below the predetermined threshold as the forward primer sequence and reverse primer sequence for amplifying the region containing the predetermined target site, (II) If one or more primer sequences for different target sites have already been determined, The above primer sequencing step is [1] Select one or more primer candidate sequence pairs covering a predetermined target site from the one or more primer candidate sequences above, [2] Select one pair from one or more primer candidate sequence pairs for the above-described predetermined target site, and for each pair, each candidate sequence of the above-selected primer candidate sequence pair and each of the already determined different target sites.
  • Adopted and determined as a forward primer sequence and a reverse primer sequence for amplifying a region In the step [3] of above (I) and above (II), if the forward primer sequence and reverse primer sequence are not employed to amplify the region containing the above predetermined target site, the above (I) and above ( From the one or more candidate primer sequence pairs selected in [1] of II), one different pair is selected, and the procedures in [2] and [3] are performed until at least one candidate primer sequence pair is adopted.
  • the above local alignment score is determined by the following scores: (1) "X” per position for a pair of complementary bases between the primer candidate sequences, (2) “Y” per position for a non-complementary pair, and , ⁇ 3> If there is an insertion or deletion, each location is marked as “Z”, the above “X” is 1, the above “Y” is -4 to -2, and the above “Z” is -6 to Calculated by -3, The predetermined threshold value is 1 to 4; This is a primer design device for amplicon methylation sequence analysis.
  • the primer sequencing section described above is (I) If one or more primer sequences for different target sites have not yet been determined, In the step [2] above, all pairs are selected from one or more primer candidate sequence pairs for the above-described predetermined target site, and for each pair, a local alignment score between the sequences of the selected primer candidate sequence pairs is calculated.
  • one or more primer candidate sequence pairs whose calculated local alignment score is less than or equal to a predetermined threshold are selected, and further, among all the selected pairs, , detect a primer candidate sequence pair having the smallest maximum value of the local alignment score, and adopt and determine it as a forward primer sequence and a reverse primer sequence for amplifying the region containing the predetermined target site, (II) If one or more primer sequences for different target sites have already been determined, In the step [2] above, all pairs are selected from one or more primer candidate sequence pairs of the above-mentioned predetermined target site, and for each pair, each candidate sequence of the selected primer candidate sequence pair and a different already determined primer sequence pair are selected.
  • a base sequence data acquisition unit that acquires base sequence data of the genomic double-stranded DNA; a target site information acquisition unit that acquires the two or more target sites and their position information; In the base sequence data, in the genomic double-stranded DNA, a base conversion part that converts methylatable "C” to "Y” and other "C” to "T”; It further has The complementary strand generation unit generates a complementary strand for each template strand of the genomic double-stranded DNA after the base conversion, The partial sequence excision portion selects one of the two or more target sites, and converts the selected target site from each strand based on the positional information of the selected target site.
  • the primer candidate sequence selection unit selects, as primer candidate sequences, those that satisfy predetermined selection conditions from among the one or more partial sequences cut out from each of the strands,
  • the above-mentioned “C” that can be methylated is “C” in the CG sequence
  • the above prescribed selection conditions are: (1) Tm is within a predetermined range; (2) The number of YG or CR sequences contained in the above partial sequence is below a predetermined number, and (3) The number of junctions with sequences outside the relevant region on the genomic double-stranded DNA after the above base conversion is including that the upper limit is 1 or more and less than or equal to a predetermined number;
  • the primer design device for amplicon methylation sequence analysis according to [10] or [11] above.
  • C C, G, “Y” and “R” are base symbols defined by IUPAC, "C” is cytosine, “G” is guanine, “Y” is thymine or cytosine, “R” ” represents adenine or guanine.
  • C that can be methylated further includes “C” in a CHG sequence
  • the predetermined selection conditions further include (4) a predetermined number of YHG sequences or CDR sequences contained on the partial sequence.
  • C that can be methylated further includes “C” in a CHH sequence
  • the predetermined selection conditions further include (5) a predetermined number of YHH sequences or DDR sequences contained on the partial sequence.
  • the primer candidate sequence selection unit The genomic double-stranded DNA after base conversion is used as a first template strand and a second template strand, the complementary strand of the first template strand is the first complementary strand, and the complementary strand of the second template strand is the complementary strand of the first template strand.
  • the second complementary strand One or more partial sequences excised from the first template strand that meet predetermined selection conditions are selected as forward primer candidate sequences for the first template strand, and are excised from the first complementary strand.
  • One or more partial sequences that satisfy the above predetermined selection conditions are selected as reverse primer candidate sequences for the first template strand, and one or more partial sequences excised from the second template strand meet the above predetermined selection conditions.
  • the primer design device according to any one of [12] to [14] above, which is selected as a reverse primer candidate sequence for the second template strand.
  • the primer sequence determining unit is configured to select forward primer candidate sequences of the one or more selected first template strands and the forward primer candidate sequences of the one or more selected first template strands in the primer candidate sequence selection unit.
  • PCR amplification product For all combinations of reverse primer candidate sequences, calculate the length of the PCR amplification product that is expected to be amplified by PCR, and select combinations of primer candidate sequences in which the length of the PCR amplification product calculated above is within a predetermined range. , employed as the forward primer sequence and reverse primer sequence of the first template strand to amplify the region containing the target site selected in the partial sequence excision region, and the primer sequence of the selected second template strand. For all combinations of the word primer candidate sequence and the reverse primer candidate sequence of the second template strand selected above, calculate the length of the PCR amplification product that is expected to be amplified by PCR, and calculate the length of the PCR amplification product that is expected to be amplified by PCR.
  • a forward primer sequence and a reverse primer of the second template strand that amplify a region containing the target site selected in the partial sequence excision region by combining primer candidate sequences whose lengths are within the predetermined range.
  • the primer sequencing unit stores the primer sequence in the storage unit. From among the stored correspondence relationships, select the predetermined threshold value corresponding to the primer design success rate and the number of target sites that are greater than or equal to the set values of the primer design success rate and the number of target sites and have a small difference. [10] above, wherein a primer sequence that amplifies a region containing the predetermined target site is adopted and determined from among the one or more primer candidate sequences based on the read predetermined threshold value. Primer design device for amplicon methylation sequence analysis.
  • the primer design device for amplicon methylation sequence analysis according to any one of [12] to [17] above further includes a communication interface, and the communication interface connects to a server via a communication line network outside the device.
  • the base sequence data acquisition section, the target site information acquisition section, the base conversion section, the complementary strand generation section, the partial sequence cutting section, and the primer candidate sequence selection section can be executed by a program in the server. and the primer sequencing section.
  • the primer design program for amplicon methylation sequence analysis according to any one of the above [1] to [8] of the present invention is capable of executing the above-described primer design method on a computer.
  • the computer-readable recording medium according to the above item [19] in the present invention is one in which the above-described primer design program for amplicon methylation sequence analysis is recorded.
  • primers for bisulfite amplicon sequence analysis (more specifically, primers for amplicon methylation sequence analysis), but also to The probability of dimer formation can also be kept low.
  • primers based on the designs of the present invention can be obtained.
  • many target sites can be amplified and measured.
  • a primer for bisulfite amplicon sequence analysis (more specifically, a primer for amplicon methylation sequence analysis) can be easily and quickly produced according to the design success rate desired by the user. ) can be designed.
  • primers based on the design can be obtained.
  • FIG. 1 is a block diagram conceptually showing an example of the configuration of a primer design apparatus according to Embodiment 1 of the present invention.
  • FIG. FIG. 2 is a flowchart showing an example of the primer designing method of Embodiment 1, which is carried out by the primer designing apparatus shown in FIG. 1.
  • FIG. 3 is a schematic diagram for explaining the base sequence data acquisition step of the primer design method shown in FIG. 2.
  • FIG. 3 is a schematic diagram for explaining the base conversion step of the primer design method shown in FIG. 2.
  • FIG. 3 is a schematic diagram for explaining the complementary strand generation step of the primer design method shown in FIG. 2.
  • FIG. FIG. 3 is a schematic diagram for explaining a partial sequence cutting step of the primer design method shown in FIG. 2.
  • FIG. 4 is a flowchart showing an example of the operations of the partial sequence extraction section 28, the primer candidate sequence selection section 30, and the primer sequence determination section 32.
  • FIG. 5A is a diagram for explaining condition (3): "The upper limit of the number of junctions with sequences outside the relevant region on the genomic double-stranded DNA after base conversion is 1 or more and no more than a predetermined number.
  • FIG. 5B is a diagram for explaining condition (3): "The upper limit of the number of junctions with sequences outside the relevant region on the genomic double-stranded DNA after base conversion is 1 or more and no more than a predetermined number.
  • FIG. 6A is a diagram for explaining combinations of sequence comparisons related to local alignment score calculation.
  • FIG. 6B is a diagram for explaining combinations of sequence comparisons related to local alignment score calculation.
  • FIG. 7A is a diagram for explaining combinations of sequence comparisons related to local alignment score calculation.
  • FIG. 7B is a diagram for explaining combinations of sequence comparisons related to local alignment score calculation.
  • FIG. 8 is a diagram for explaining a local alignment score calculation method and a threshold-based determination method.
  • FIG. 9 is a diagram showing the correspondence between the number of target sites, the threshold value, and the primer design success rate, which are stored in the storage unit of the primer design device according to the second modification of the first embodiment of the present invention.
  • FIG. 10 is a block diagram conceptually showing an example of the configuration of a primer design apparatus according to Embodiment 2 of the present invention.
  • FIG. 10 is a block diagram conceptually showing an example of the configuration of a primer design apparatus according to Embodiment 2 of the present invention.
  • FIG. 11 is a block diagram conceptually showing an example of the connection between the primer design device and an external server according to Embodiment 2 of the present invention.
  • FIG. 3 is a diagram showing the primer design success rate of Examples 1 to 4 and Comparative Examples 2 to 4.
  • FIG. 3 is a diagram showing primer dimer formation rates of Examples 1 to 4 and Comparative Examples 2 to 4.
  • FIG. 13A is a schematic diagram for explaining an example of a method for analyzing the methylation state of DNA using a bisulfite reaction.
  • FIG. 13B is a schematic diagram for explaining an example of a method for analyzing the methylation state (frequency) of DNA using a bisulfite reaction.
  • FIG. 13C is a diagram for explaining a target site (measurement site) and an amplification target region.
  • primer for bisulfite amplicon sequence analysis refers to a primer for simultaneously amplifying multiple target regions containing multiple target sites in bisulfite-treated DNA by multiplex PCR. Refers to primers for analysis.
  • Primary for amplicon methylation sequence analysis is a primer used to simultaneously amplify multiple target regions containing multiple target sites in bisulfite-treated or enzyme-treated DNA by multiplex PCR. Refers to primers for analysis.
  • Amplification target region means a region amplified by a primer pair.
  • Methodylated site means a site that can be methylated.
  • Target site is a “methylation site” and means a site (measurement site) where the degree of methylation is measured.
  • Primary candidate sequence means either a forward candidate primer sequence or a reverse candidate primer sequence, unless otherwise specified.
  • a “primer candidate sequence pair” means a combination of a forward candidate primer sequence and a reverse candidate primer sequence.
  • Primary sequence means either a forward primer sequence or a reverse primer sequence, unless otherwise specified.
  • a “primer sequence pair” means a combination of a forward primer sequence and a reverse primer sequence.
  • Base sequences such as “GC sequence” and “YG sequence” all mean sequences read from the 5' end.
  • the range expressed using “ ⁇ ” shall include both sides of “ ⁇ ”. For example, a range expressed as "A to B” includes A and B.
  • FIG. 1 is a block diagram conceptually showing an example of a primer design apparatus according to Embodiment 1 of the present invention. Further, FIG. 2 conceptually shows a flowchart of an example of a primer designing method carried out by the primer designing apparatus shown in FIG. 1. Further, FIGS. 3A to 3D show schematic diagrams for explaining each step of the primer design method.
  • the primer design device 10 includes an input section 12, a storage section 14, an output section 16, and a primer design processing section 18.
  • the input section 12, the storage section 14, the output section 16, and the primer design processing section 18 are connected to each other.
  • the input unit 12 acquires information input by the user, various setting instructions, selection instructions, input instructions, creation instructions, etc., and is configured by, for example, input devices such as a keyboard and a mouse.
  • the storage unit 14 stores the operation program of the primer design device, and can also temporarily store information and data necessary for executing the primer design process. Examples of the storage unit 14 include a HDD (Hard Disc Drive), an SSD (Solid State Drive), an FD (Flexible Disc), and an MO disk (Magneto-Optical disc).
  • the output unit 16 outputs the DNA base sequence information, instructions, design conditions input from the input unit 12, primer sequence information designed by the primer design processing unit 18, etc., and displays, for example, a liquid crystal display (LCD). , organic light emitting diodes (OLEDs), flat panel displays, solid state displays, display units such as cathode ray tubes (CRTs), and various types of printers.
  • LCD liquid crystal display
  • OLEDs organic light emitting diodes
  • flat panel displays solid state displays
  • display units such as cathode ray tubes (CRTs)
  • printers various types of printers.
  • the primer design processing unit 18 performs a series of processes for primer design.
  • the primer design processing section 18 includes a base sequence data acquisition section 20, a target site information acquisition section 22, a base conversion section 24, a complementary strand generation section 26, a partial sequence cutting section 28, and a primer candidate sequence selection section 30. , a primer sequencing section 32 , and a control section 34 .
  • the primer design processing section 18 can be configured by a processor including a central processing unit (CPU), a computer, and the like.
  • the primer design method includes a base sequence data acquisition step S10, a target site information acquisition step S12, a base conversion step S14, a complementary strand generation step S16, and a partial sequence cutting step S18.
  • primer candidate sequence selection step S20, primer sequencing step S22, and determination step S24 to determine whether all target sites have been selected. It includes a repeating step of repeating a candidate sequence selection step S20 and a primer sequencing step S22.
  • the base sequence data acquisition unit 20 shown in FIG. 1 is a part that implements the base sequence data acquisition step S10 shown in FIG. It is used to obtain data of an array (reference array). If reference sequence data is stored in the storage unit 14 in advance, it may be acquired from the storage unit 14.
  • the obtained genomic double-stranded DNA sequence data is preferably data on the entire genome sequence of the species of organism for which primer design is performed.
  • the double-stranded DNA of the double-stranded DNA sequence data obtained in this step will be referred to as template DNA, and will be referred to as A strand and B strand, respectively. (See Figure 3A).
  • the base sequence data acquisition unit 20 is configured by a computer and has the function of acquiring the above-mentioned double-stranded DNA sequence data of the genome.
  • the target site information acquisition unit 22 shown in FIG. 1 is a part that implements the target site information acquisition step S12 shown in FIG.
  • One or more target sites contained in the stranded DNA and their positional information can be obtained. If the target site and its position information are stored in the storage unit 14 in advance, the information may be acquired from the storage unit 14.
  • the "target site” is a site related to a predetermined biological phenomenon, is a cytosine (C) of a CG sequence that can be methylated, and is a site for measuring the degree of methylation. .
  • the number of selected target sites is not particularly limited as long as it is 2 or more, but from the viewpoint of significantly obtaining the desired effects of the present invention, it is preferable to select 5 to 1000 sites.
  • the position of each target site can be indicated by chromosome, genome coordinates, and the like.
  • the target site information acquisition unit 22 is configured by a computer, and functions to acquire two or more target sites included in the above-mentioned genomic double-stranded DNA and their positional information.
  • the base conversion unit 24 is a part that performs the base conversion step S14 shown in FIG. 2, and as shown in FIGS. 3A and 3B, the base conversion unit 24 converts cytosine ( C) is converted to "Y" (see the arrow bases in FIGS. 3A and 3B), and cytosine (C) in other sequences is converted to thymine (T). Cytosine (C) in the CG sequence of DNA may be methylated or unmethylated, so there is a possibility that it will be converted to thymine (T) and a possibility that it will remain as cytosine (C). Convert to "Y" which includes both genders.
  • the base conversion unit 24 is configured by a computer, and functions to convert cytosine (C) in the CG sequence on the template DNA to "Y", and convert cytosine (C) in other sequences to thymine (T). .
  • the complementary strand generation unit 26 is a part that implements the complementary strand generation step S16 shown in FIG. 2, and generates a complementary strand for each DNA double strand after base conversion processing.
  • the A strand after base conversion and the B strand after base conversion are divided into a first template strand (A+ strand) and a second template strand (B+ strand).
  • the complementary strand of the first template strand is called the first complementary strand (A-strand)
  • the complementary strand of the second template strand is called the second complementary strand (B-strand) ( Figure 3C reference).
  • complementary strand A- is created by generating a sequence complementary to the base sequence of A+ strand
  • complementary strand B is created by generating a sequence complementary to the base sequence of B+ strand. - to create.
  • the base complementary to "Y” is "R” which includes both the possibility of adenine (A) and the possibility of guanine (G).
  • the complementary strand generation unit 26 is configured by a computer and has the function of generating the above-mentioned complementary strands for each DNA double strand after base conversion processing.
  • the first template strand (A+ strand) is composed of three bases, thymine (T), adenine (A), and guanine (G), excluding "Y” (i.e., methylation site), and the first The complementary strand (A-chain) of is composed of three bases, thymine (T), adenine (A), and cytosine (C), excluding "R” (methylation site), but the first template strand ( The A+ chain) and the first complementary strand (A- chain) can have complementarity.
  • the second template strand (B+ strand) is also composed of three bases, thymine (T), adenine (A), and guanine (G), excluding "Y" (methylation site), and the second The complementary strand (B-chain) of is composed of three bases, thymine (T), adenine (A), and cytosine (C), excluding "R” (methylation site), but the second template strand ( The B+ chain) and the second complementary strand (B- chain) can have complementarity.
  • the partial sequence extraction unit 28 is a part that implements the partial sequence extraction step S18 shown in FIG. 2, and as shown in the flowchart of FIG. , one target site is selected (step S280), and based on the positional information of the selected target site, "Y" of the selected target site or "R” complementary thereto is determined from the DNA sequence of each strand. ” (that is, the bases located in the target site and the methylation site), and the base sequences located on the 5' end side of the detected "Y” and “R” ((1) to (4) in Figure 3D) are detected. )) as much as possible from among the partial sequences of a predetermined length (step S282) to obtain one or more partial sequences. Note that FIG.
  • the partial sequence cutting unit 28 is configured by a computer, and based on the above-mentioned positional information of the selected target site, extracts "Y" of the selected target site or "R" complementary thereto from the DNA sequence of each strand. It functions to extract as many subsequences as possible from a subsequence of a predetermined length from ⁇ and obtain one or more subsequences.
  • the length of the one or more partial sequences to be cut out is not particularly limited, but from the viewpoint of processing efficiency and significantly obtaining the desired effect of the present invention, the maximum length of the PCR amplification product desired by the user.
  • the length is preferably the length of the minimum length difference between the target site and the primer, minus the length of the target site (one base).
  • the length of the PCR amplification product is not particularly limited as long as it is within a known range, ie, 70 to several kilobp. It is preferable to consider the success rate of PCR, the sequencing ability of a DNA sequencer, etc.
  • the length of the primer is not particularly limited as long as it is within a known range, ie, 15 to 45 bases. It is preferable to consider the specificity of the primer and the ability to form primer dimers.
  • the target sites of each chain i.e., “Y” of A+ chain, “R” of A ⁇ chain, “Y” of B+ chain, and 5′ end side of “R” of B ⁇ chain.
  • 279 bases ((1) to (4) in FIG. 3D) located in each strand are excised from each strand.
  • one or more partial sequences can be obtained by cutting out as many partial sequences as possible from the 279 bases according to the length of the primer (20 bases or more and a predetermined length or less).
  • the numerical values or numerical ranges of the length of the PCR amplification product and the length of the primer are set by the user via the input section 12. If these conditions are stored in the storage unit 14 in advance, they can also be acquired from the storage unit 14 and set.
  • the primer candidate sequence selection section 30 is a section that implements the primer candidate sequence selection step S20 shown in FIG. 2, and selects predetermined selection conditions ( Primer candidate sequences that satisfy all of 1) to (3) are selected. Specifically, one or more partial sequences excised from the first template strand (A+ strand) (i.e., one or more partial sequences excised from (1) in FIG. 3D) satisfy predetermined selection conditions.
  • A+ strand were selected as forward primer candidate sequences for the first template strand (A+ strand), and one or more partial sequences excised from the first complementary strand (A-strand) (i.e., from (2) in Figure 3D)
  • One or more excised partial sequences) that meet predetermined selection conditions are selected as reverse primer candidate sequences for the first template strand (A+ strand), and are excised from the second template strand (B+ strand).
  • One or more partial sequences i.e., one or more partial sequences cut out from (3) in Figure 3D
  • predetermined selection conditions are candidates for the forward primer of the second template strand (B+ strand).
  • One or more partial sequences selected as sequences and excised from the second complementary strand (B-strand) meet the predetermined selection conditions. Those satisfying the above criteria are selected as reverse primer candidate sequences for the second template strand (B+ strand).
  • the primer candidate sequence selection unit 30 is configured by a computer and functions to select primer candidate sequences that satisfy all of the predetermined selection conditions (1) to (3) from one or more partial sequences of each strand described above. .
  • the "predetermined selection conditions" for primer candidate sequences are the following items (1) to (3).
  • the numerical value and numerical range of the predetermined selection condition can be set in advance by the user via the input unit 12.
  • the Tm value is within a predetermined range;
  • the number of YG or CR sequences contained in the partial sequence is less than or equal to a predetermined number.
  • the upper limit of the number must be greater than or equal to 1 and less than or equal to a predetermined number.
  • Tm value is not particularly limited as long as it is a known numerical range, that is, 45 to 70°C. It is preferable to consider the thermal cycle conditions of PCR, the ease of PCR amplification (the temperature range in which amplification is easy to proceed depending on the PCR enzyme used), and the specificity of PCR amplification.
  • the Tm value can be calculated, for example, by the nearest neighbor base pair method.
  • the number of "YG sequences or CR sequences contained on a partial sequence" according to the condition (2) above is not particularly limited, but from the viewpoint of significantly obtaining the desired effects of the present invention, it is preferably 2 or less. , more preferably 1 or less, particularly preferably 0. By satisfying this condition, the influence of the junction between the primer and the cytosine (C) of the CG sequence at the primer junction site can be reduced.
  • the "sequence outside the relevant region on the template strand DNA after base conversion (genomic double-stranded DNA)” refers to the template strand DNA after base conversion corresponding to the position of the partial sequence.
  • the upper limit of the number of junctions with sequences outside the relevant region on the template strand DNA after base conversion" is not particularly limited, but from the viewpoint of significantly obtaining the desired effects of the present invention, it is preferably 5 or less, and especially Preferably it is 2 or less.
  • n When the number of heating cycles in PCR is n, as shown in Figure 5A, when a primer pair (forward primer and reverse primer) is conjugated to DNA, PCR amplification products are generated on the order of 2n , but as shown in Figure 5B. As shown in Figure 5B, when either the forward primer or the reverse primer joins to the DNA, a PCR amplification product on the order of 2n is generated ( Figure 5B shows the case where the forward primer joins). Therefore, when PCR is performed with a typical number of heating cycles (n is about 20 to 40), if the primer pair joins to a DNA sequence outside the amplification target region, a large amount of non-specific products will be generated.
  • the primer candidate sequence selection unit 30 first obtains one partial sequence from among the one or more partial sequences cut out from the first template strand (A+ strand) (step S300), and selects one partial sequence whose Tm value is a predetermined value. It is determined whether it is within the range (step S302). If the Tm value is not within the predetermined range, another partial array is obtained (step S300), and if the Tm value is within the predetermined range, the number of YG or CR sequences included in the partial array is less than or equal to the predetermined number. It is determined whether or not (step S304).
  • step S300 If the number of YG or CR sequences contained in the partial sequence is not less than the predetermined number, another partial sequence is obtained (step S300), and even if the number of YG or CR sequences contained in the partial sequence is less than or equal to the predetermined number, another partial sequence is obtained (step S300). For example, it is determined whether the upper limit of the number of junctions with base sequences outside the relevant region on the template strand DNA after base conversion is equal to or less than a predetermined number greater than or equal to 1 (step S306). If the upper limit of the number of connections between a base sequence outside the relevant region on the template strand DNA after base conversion and the partial sequence is not less than "a predetermined number of 1 or more," another partial sequence is obtained (step S300).
  • step S308 if the upper limit of the number of junctions with a sequence outside the relevant region on the template strand DNA after base conversion is 1 or more and less than a predetermined number, it is selected as a primer candidate sequence (step S308), and the first template strand ( It is determined whether determination of all partial sequences cut out from the A+ chain has been completed (step S310). If the determination of all partial sequences cut out from the first template strand (A+ strand) has not been completed, another partial sequence is obtained (step S300), and if the determination of all partial sequences has been completed, the selected one or more primer candidate sequences are determined as forward primer candidate sequences for the first template strand (A+ strand) (step S312).
  • One or more partial sequences excised from the first complementary strand (A-strand), one or more partial sequences excised from the second template strand (B+ strand), and the second complementary strand (B-strand) A similar determination is made for one or more partial sequences cut out from the (steps S300 to S310), and the reverse primer candidate sequence of the first template strand (A+ strand) and the forward primer candidate sequence of the second template strand (B+ strand) are determined.
  • a primer candidate sequence and a reverse primer candidate sequence of the second template strand (B+ strand) are determined (step S312).
  • the primer sequence determination section 32 is a section that implements the primer sequence determination step S22 shown in FIG. ), one or more forward primer candidate sequences of the first template strand (A+ strand), one or more reverse primer candidate sequences of the second template strand (B+ strand), and one or more forward primer candidate sequences of the second template strand (B+ strand).
  • the primer sequences for different target sites are If one or more sequences have already been determined, create a combination (pair) of predetermined sequences, calculate the local alignment score between the sequences in each combination, and check whether the value exceeds a predetermined threshold. Based on this, a forward primer sequence and a reverse primer sequence that amplify a region containing a predetermined target site selected by the partial sequence excision section 28 in each chain (A+ chain or B+ chain) are adopted and determined. be.
  • the primer sequencing method performed on each strand is described below.
  • the primer sequence pair selected in [1] above One different pair is selected from among the candidate primer sequence pairs, and steps [2] and [3] are performed, and these steps are repeated until at least one primer sequence pair is determined. If at least one primer sequence pair can be determined, it is not necessarily necessary to perform the steps such as calculating the scores of all the primer candidate sequence pairs selected in [1] above, and return to the partial sequence cutting step S18.
  • Another target site may be selected (step S280 in FIG. 4), and a primer sequence for another target site may be determined. This has the effect of reducing calculation costs and saving labor and time.
  • Another target site may be selected (step S280 in FIG. 4), and a primer sequence for another target site may be determined. This has the effect of reducing calculation costs and saving labor and time.
  • the above local alignment score indicates that between primer candidate sequences or between a primer candidate sequence and an already determined primer sequence, a pair with complementary bases of ⁇ 1> is marked with an "X", 2> If there is a non-complementary pair, "Y" per position, and ⁇ 3> If there is an insertion or deletion, each position is "Z", then the above “X” is 1 and the above “Y” " is calculated from -4 to -2, and the above “Z” is calculated from -6 to -3. Further, the predetermined threshold value is 1 to 4.
  • the inventors of the present application have conventionally proposed parameters used for general score calculations (e.g., complementary score 1, non-complementary score -1, gap/deletion score -2), thresholds (0), sequence comparison methods (e.g. Focusing on the fact that the method of calculating local alignment scores, the combination and order of sequence comparisons involved in score calculation, and the determination of primer sequences, which have not been considered in particular, After careful consideration of the predetermined threshold values, etc., it was found that, according to the above method, it is possible to obtain a high primer design success rate while suppressing the formation rate of primer dimers to an extremely low level with low calculation cost.
  • parameters used for general score calculations e.g., complementary score 1, non-complementary score -1, gap/deletion score -2
  • thresholds (0) e.g. Focusing on the fact that the method of calculating local alignment scores, the combination and order of sequence comparisons involved in score calculation, and the determination of primer sequences, which have not been considered in particular, After careful consideration of the predetermined threshold
  • the method of the present invention can achieve the above effects within the range of score calculation by simple addition, so it requires less calculation cost and can be achieved in a realistic time if the number of target regions is several thousand. This has the advantage that it can be designed on a general computer (on the order of several days).
  • the primer sequence determining unit 32 is configured by a computer, and has the function of selecting and determining a forward primer sequence and a reverse primer sequence from among the one or more primer candidate sequences described above.
  • sequence comparison sequence combination
  • the method (I) for determining primer sequences in the case where one or more primer sequences for different target sites have not yet been determined will be described.
  • step [1] it is possible to create one or more forward primer candidate sequences of the first template strand (A+ strand) and one or more reverse primer candidate sequences of the first template strand (A+ strand).
  • primer pair the length of the PCR amplification product expected to be amplified by PCR is calculated.
  • the PCR amplification product is The primer pair whose length has been calculated (i.e., the combination of the forward primer candidate sequence of the first template strand and the reverse primer candidate sequence of the first template strand) is transferred to the partial sequence cutting section 28 (partial sequence cutting section 28).
  • One or more primer candidate sequence pairs for amplifying the region containing the target site selected in step that is, one or more first template strand forward primer candidate sequence and reverse primer candidate sequence pairs ( Figure 4 step S320).
  • the "predetermined numerical range” for determining the length of the calculated PCR amplification product is a range that includes the length of the PCR amplification product desired by the user, and as mentioned earlier, the “predetermined numerical range” is a range that includes the length of the PCR amplification product desired by the user. , 70 to several kilobp is not particularly limited. It is preferable to consider the success rate of PCR, the sequencing ability of a DNA sequencer, etc.
  • FIG. 6A shows primer candidate sequences (three forward primer candidate sequences and two reverse primer candidate sequences) selected by the primer candidate sequence selection unit 30 (primer candidate sequence selection step).
  • FIG. 6A shows primer candidate sequences (three forward primer candidate sequences and two reverse primer candidate sequences) selected by the primer candidate sequence selection unit 30 (primer candidate sequence selection step).
  • 6B shows one or more primer candidate sequence pairs for the predetermined target site selected in step [1] above (i.e., in this case, three forward primer candidate sequences and two reverse primer candidate sequences). It was determined that the length of the PCR amplification product expected to be amplified by PCR of all pairs was within a predetermined range).
  • step [2] "forward candidate sequence FC1" and “reverse candidate sequence RC1” are selected as one pair from among the primer candidate sequence pairs (6 pairs) shown in FIG. 6B, and the pair Calculate the local alignment score between the sequences.
  • step [3] if the value of the calculated local alignment score is less than or equal to a predetermined threshold, the "forward candidate sequence FC1" and the “reverse candidate sequence RC1" selected in the above [2] '' pair is employed and determined as the forward primer sequence and reverse primer sequence for amplifying the region containing the selected predetermined target site (steps S324 and S322 in FIG. 4).
  • step [1] first, similarly to step (I)-[1] above, a region containing the target site selected by the partial sequence cutting unit 28 (partial sequence cutting step) is amplified.
  • the forward primer candidate sequence and reverse primer candidate sequence pair of the above first template strand are adopted (step S320 in FIG. 4).
  • FIG. 6A shows primer candidate sequences (three forward primer candidate sequences and two reverse primer candidate sequences) selected in the primer candidate selection step.
  • FIG. 6B shows one or more primer candidate sequence pairs covering the six predetermined target sites selected in [1] above (i.e., in this case, three forward primer candidate sequences and two reverse primer candidate sequences). It was determined that the lengths of the PCR amplification products expected to be amplified by PCR of all pairs were within a predetermined range).
  • FIG. 7A shows primer sequence pairs for different target sites P1 and P2 that have already been determined.
  • step [2] above "forward candidate sequence FC1" and “reverse candidate sequence RC1" are selected as one pair from among the primer candidate sequence pairs shown in FIG. 6B, and each candidate sequence and A local alignment score between the determined different target sites and each primer sequence and a local alignment score between the selected candidate sequence and the paired primer candidate sequence are calculated. That is, as shown in FIG.
  • forward candidate sequence FC1 "forward sequence of target site P1", “reverse sequence of target site P1", “forward sequence of target site P2” or “target site local alignment score between “reverse sequence of target site P2", “reverse candidate sequence RC1”, “forward sequence of target site P1”, “reverse sequence of target site P1”, and “forward sequence of target site P2”
  • the local alignment score with the "reverse sequence of target site P2” and the local alignment score between the pair of "forward candidate sequence FC1" and "reverse candidate sequence RC1" are calculated. That is, nine local alignment scores are calculated.
  • the maximum value is detected from among the nine calculated local alignment scores, and primer candidate sequence pairs for which the local alignment score whose value is below a predetermined threshold are calculated,
  • the region containing the selected target site is employed and determined as the forward primer sequence and reverse primer sequence for amplification (steps S324 and S322 in FIG. 4).
  • FIG. 8 shows, from the top, (1) Sequence [I] and Sequence [II], (2) Sequence [I] and Sequence [III], which are involved in determining whether or not to adopt a primer candidate sequence as a primer sequence. (3) Local alignment of sequence [I] and sequence [IV] is shown.
  • sequence [I] and sequence [IV] is shown.
  • all pairs (6 pairs) are selected from among the primer candidate sequence pairs shown in Figure 6B, and the maximum value of the local alignment score calculated for each pair is tentatively as shown in Table 1.
  • the predetermined threshold value is set to 3
  • the candidate sequence primer pair to be adopted and determined as the forward primer sequence and reverse primer sequence for amplifying the region containing the predetermined target site is the maximum of the total 6 pairs.
  • a different target Create predetermined sequence combinations (pairs) for cases in which one or more primer sequences for a target site have not yet been determined and (II) cases in which one or more primer sequences for a different target site have already been determined.
  • a local alignment score is calculated between the combined sequences, and based on whether or not the value exceeds a predetermined threshold, a region containing a predetermined target site selected by the partial sequence cutting section 28 in the B+ chain is determined.
  • a forward primer sequence and a reverse primer sequence to be amplified are adopted and determined (step S322).
  • all target sites are selected in the partial sequence cutting section 28 (partial sequence cutting step). It is determined whether or not this has been done (step S24). If all the target sites have not been selected, the process returns to the partial sequence cutting step S18 to select another target site (step S280), and if all the target sites have been selected, the process ends.
  • control unit 34 The control unit 34 is directly or indirectly connected not only to each unit in the primer design processing unit 18 but also to the input unit 12 , the storage unit 14 , and the output unit 16 , and performs operations based on user instructions from the input unit 12 .
  • each part of the primer design device 10 is controlled based on a predetermined operation program stored in the storage unit 14 to design primers, and for example, a CPU (Central Processing Unit: It consists of a central processing unit), etc.
  • the control unit 34 causes the primer candidate sequence selection unit 30 to repeat the determination work (steps S300 to S308) until the determination of whether all partial sequences satisfy all predetermined selection criteria is completed (step S310). to control.
  • the control unit 34 performs the determination operation (step 320) until the primer sequence determination unit 32 completes determination of whether the length of the PCR amplification product is within a predetermined range for all primer pairs produced. control to repeat.
  • the control unit 34 causes the primer sequence determining unit 32 to select primer sequence pairs from among the primer candidate sequence pairs selected in [1] of (I) and (II) until at least one primer sequence pair related to a predetermined target site is determined.
  • a partial sequence excision step In steps S18, S280 to S282
  • one different target site is selected and controlled to perform a primer candidate sequence selection step (steps S20, S300 to S312) and a primer sequence determination step (steps S22, S320 to S322).
  • the control unit 34 causes the partial sequence extraction unit 28 to perform the partial sequence extraction process (steps S18, S280 to S282) until all target sites acquired by the target site information acquisition unit 22 are detected (step S24),
  • the partial sequence cutting unit 28 performs the primer candidate sequence selection process so that the repeating process of repeating the primer candidate sequence selection process (steps S20, S300 to S312) and the primer sequence determination process (steps S22, S320 to S322) is carried out. 30 and primer sequencing section 32.
  • primers for amplicon methylation sequence analysis can be designed with an excellent design success rate. Furthermore, primers based on the design can be obtained. As a result, it is possible to design primers for more target sites and measure the degree of methylation.
  • the primer sequencing section 32 can also perform the steps shown below. (I) If one or more primer sequences for different target sites have not yet been determined, In the step [2] above, all pairs are selected from one or more primer candidate sequence pairs for the above-described predetermined target site, and for each pair, a local alignment score between the sequences of the selected primer candidate sequence pairs is calculated. death, In the step [3] above, one or more primer candidate sequence pairs whose calculated local alignment score is less than or equal to a predetermined threshold are selected, and further, among all the selected pairs, The primer candidate sequence pair having the smallest maximum value of the local alignment score is detected from the above, and adopted and determined as the forward primer sequence and reverse primer sequence for amplifying the region containing the predetermined target site.
  • step [2] If one or more primer sequences for different target sites have already been determined, in the step [2] above, all pairs are selected from one or more primer candidate sequence pairs of the above-mentioned predetermined target site, and for each pair, each candidate sequence of the selected primer candidate sequence pair and a different already determined primer sequence pair are selected. Calculate the local alignment score between the target site and each primer sequence, and the local alignment score between the sequences of the selected candidate sequence pair, In the step [3] above, for each pair, the maximum value is detected from among all the calculated local alignment scores, and the local alignment score whose value is less than or equal to a predetermined threshold is calculated for the primer candidate sequence pair. , and further detects a primer candidate sequence pair having the smallest maximum value of the local alignment score from among all the selected pairs, and a forwarder that amplifies a region containing a predetermined target site. Adopt and determine the primer sequence and reverse primer sequence.
  • the primer-dimer formation rate is the lowest among one or more primer sequence pairs capable of amplifying a region including a predetermined target site, and the primer design success rate is selected. This has the effect that the highest pair can be determined as the primer sequence.
  • step [2] For example, suppose that in step [2] above, all pairs are selected from among the primer candidate sequence pairs shown in FIG. 6B, and the maximum local alignment score calculated for each pair is as shown in Table 1. .
  • the predetermined threshold is set to 3
  • the pairs having the maximum score below the predetermined threshold are selected as 4 pairs whose maximum score is 3 or below, and furthermore, from among all the selected pairs, the local alignment -
  • the primer candidate sequence pair with the smallest maximum score is the primer candidate sequence pair of "forward candidate sequence FC2" and "reverse candidate sequence RC2", so this pair contains the predetermined target site.
  • the forward and reverse primer sequences are adopted and determined to amplify the region.
  • the "predetermined threshold” is not particularly limited as long as it is 1 to 4.
  • X, Y, and Z are all integers, if the number of target sites is less than 1000, it is preferable to create correspondences for all thresholds 1, 2, 3, and 4. If the number of target regions is 1000 or more, it is preferable to create a correspondence relationship for at least two or more threshold values.
  • X, Y, and Z include non-integers
  • the number of target sites is less than 1000, it is preferable to create at least 5 or more correspondence relationships. If the number of target regions is 1000 or more, it is preferable to create a correspondence relationship for at least two or more threshold values.
  • the primer sequence determination unit 32 When the user sets at least the primer design success rate and the number of target sites desired by the user through the input unit 12 and inputs an instruction to execute primer design, the primer sequence determination unit 32 The predetermined threshold value corresponding to the primer design success rate and the number of target sites, which is greater than or equal to the set value of the primer design success rate and the number of target sites, and whose difference is small from among the correspondence relationships stored in . is read out, and the primer sequence is determined based on the predetermined threshold value.
  • primer design device of Modification 2 the user can easily understand the background and circumstances at the time of primer design, such as when there are few samples or when trying primer design at a desired primer design success rate or multiple primer design success rates.
  • primer sequences can be designed easily and at low cost. Furthermore, primers based on the design can be obtained.
  • FIG. 9 shows the threshold values for determining the local alignment score of each pair by designing primers for 100 target sites in advance using the primer design device (method) described in Embodiment 1 and each modification.
  • the primer design success rate measured as an integer from 1 to 4, that is, the correspondence relationship between a predetermined threshold, the number of target sites (measurement sites), and the primer design success rate is shown. This correspondence relationship is stored in the storage unit 17.
  • the user desires a primer design success rate of 30% or more
  • the user sets at least the primer design success rate to 30% and the number of target sites to 100 via the input unit 12, and executes primer design.
  • Enter the instructions The number 100 of target sites that satisfy the conditions from among the correspondence relationships in the storage unit 14, and a threshold corresponding to the primer design success rate of 31%, which is larger than and closest to the primer design success rate of 30% desired by the user. 2 is read out to the primer sequencing section 32, and based on the threshold 2 in the correspondence relationship, a primer sequencing step is executed to obtain primer sequence pairs for 31 sites.
  • a primer design device according to a third modification of the first embodiment of the present invention will be described.
  • the primer design apparatus according to the third modification, descriptions of processes similar to those in the first embodiment will be omitted.
  • the only cytosine (C) that can be methylated is the cytosine (C) in the CG sequence, and the cytosine (C) picked up from among the cytosines (C) is used as the target site, but the target site is not limited to this.
  • the cytosine (C) that can be methylated may include the cytosine (C) in the CHG sequence, or the cytosine (C) picked up from among the cytosine (C) may be used as the target site.
  • the target site information acquisition section 22 further inputs, via the input section 12, two or more target sites included in the genomic double-stranded DNA acquired by the base sequence data acquisition section 20 and their positions. Get information.
  • the base conversion unit 24 further converts cytosine (C) of the CHG sequence on the template DNA obtained from the base sequence data acquisition unit 20 to “Y”, and converts the cytosine (C) of the CHG sequence on the template DNA obtained from the base sequence data acquisition unit 20 to “Y”, ) is converted to thymine (T).
  • the primer candidate sequence selection section 30 further applies predetermined selection conditions (1) to (4) including the following item (4) from one or more partial sequences of each strand cut out by the partial sequence cutting section 28. Sequences that meet all the criteria are selected as candidate primer sequences.
  • the number of YHG sequences or CDR sequences contained on the partial sequence is less than or equal to a predetermined number.
  • the number of "YHG sequences or CDR sequences contained on the partial sequence" according to the condition (4) above is Although not particularly limited, from the viewpoint of significantly obtaining the desired effects of the present invention, it is preferably 2 or less, more preferably 1 or less, and particularly preferably 0. By satisfying this condition, the influence of the junction between the primer and the cytosine (C) of the CHG sequence at the primer junction site can be reduced.
  • primer design apparatus of the third modification of the first embodiment of the present invention By using the primer design apparatus of the third modification of the first embodiment of the present invention, it is possible to easily and quickly design primers for amplicon methylation sequence analysis that are also compatible with CHG sequences. Furthermore, primers based on the design can be obtained. As a result, it becomes possible to analyze these sequences, so the state of methylation (degree of methylation) of DNA can be analyzed in more detail. Note that Modification 3 can also be combined with Modification 1 or 2 described above.
  • the only cytosine (C) that can be methylated is the cytosine (C) in the CG sequence, and the cytosine (C) picked up from among the cytosines (C) is used as the target site, but the target site is not limited to this.
  • the cytosine (C) that can be methylated may include the cytosine (C) in the CHH sequence, or the cytosine (C) picked up from among the cytosine (C) may be used as the target site.
  • the target site information acquisition unit 22 further inputs, via the input unit 12, two or more target sites included in the genomic double-stranded DNA acquired by the base sequence data acquisition unit 20 and their positions. Get information.
  • the base conversion unit 24 further converts cytosine (C) of the CHH sequence on the template DNA obtained from the base sequence data acquisition unit 20 to “Y”, and converts the cytosine (C) of the CHH sequence on the template DNA obtained from the base sequence data acquisition unit 20 to “Y”, and ) is converted to thymine (T).
  • the primer candidate sequence selection section 30 further selects predetermined selection conditions (1) to (3) including the following item (5) from one or more partial sequences of each strand cut out by the partial sequence cutting section 28. Those satisfying all of (5) are selected as primer candidate sequences.
  • the number of YHH sequences or DDR sequences contained on a partial sequence is less than or equal to a predetermined number.
  • the number of "YHH sequences or DDR sequences contained on a partial sequence" according to the condition (5) above is Although not particularly limited, from the viewpoint of significantly obtaining the desired effects of the present invention, it is preferably 2 or less, more preferably 1 or less, and particularly preferably 0. By satisfying this condition, the influence of the junction between the primer and the cytosine (C) of the CHH sequence at the primer junction site can be reduced.
  • primer design device of the fourth modification of the first embodiment of the present invention By using the primer design device of the fourth modification of the first embodiment of the present invention, it is possible to easily and quickly design primers for amplicon methylation sequence analysis that are also compatible with CHH sequences. Furthermore, primers based on the design can be obtained. As a result, it becomes possible to analyze these sequences, so the state of methylation (degree of methylation) of DNA can be analyzed in more detail.
  • Modification 4 can also be combined with Modification 1 or 2 described above. Further, Modification 4 can be combined with Modification 3 already mentioned. That is, the cytosine (C) that can be methylated may include both the cytosine (C) in the CHG sequence and the CHH sequence, and the cytosine (C) picked up from among them may be used as the target site. In such a case, the primer candidate sequence selection section 30 selects primers that satisfy all selection conditions (1) to (5) from one or more partial sequences of each strand cut out by the partial sequence cutting section 28. Select as a candidate sequence.
  • the partial sequence cutting unit 28 selects one target site from among the two or more target sites acquired by the target site information acquisition unit 22 (step S280), and uses the position information of the selected target site. Based on the DNA sequences of the A+ chain and the A- chain, detect "Y" of the selected target site or "R" complementary thereto (i.e., a base located at the target site and at the methylation site), From the base sequences located on the 5' end side of the detected "Y" and "R” ((1) and (2) in FIG. 3D), as much as possible is cut out from among the partial sequences of a predetermined length (step S282 ), get one or more subarrays.
  • the primer candidate sequence selection section 30 is a section that implements the primer candidate sequence selection step S20 shown in FIG. 2, and selects predetermined selection conditions ( Those satisfying all of 1) to (3) are selected as primer candidate sequences. If one or more partial sequences cut out from the first template strand (A+ strand) (i.e., one or more partial sequences cut out from (1) in FIG.
  • the first One or more partial sequences excised from the first complementary strand (A-strand) (i.e., one or more partial sequences excised from (2) in Figure 3D) were selected as forward primer candidate sequences for the template strand (A+ strand) of A partial sequence) that satisfies predetermined selection conditions is selected as a reverse primer candidate sequence for the first template strand (A+ strand).
  • the primer sequencing unit 32 selects one or more forward primer candidate sequences of the selected first template strand (A+ strand) and one or more reverse primer candidate sequences of the first template strand (A+ strand), Combinations (pairs) of predetermined sequences are divided into (I) cases in which one or more primer sequences for different target sites have not yet been determined, and (II) cases in which one or more primer sequences for different target sites have already been determined.
  • a local alignment score is calculated between the sequences of each combination, and based on whether or not the value exceeds a predetermined threshold, a predetermined target selected by the partial sequence cutting unit 28 in the A+ chain is determined.
  • the forward primer sequence and reverse primer sequence for amplifying the region containing the site are adopted and determined. Note that Modification 5 can be combined with at least one of Modifications 1 to 4 already described.
  • FIG. 10 is a block diagram conceptually showing an example of a primer design apparatus according to Embodiment 2 of the present invention.
  • the primer design device 10 of the first embodiment can also include a communication interface (communication device).
  • the primer design device 10A of the second embodiment shown in FIG. 10 has the same configuration as the primer design device 10 of the first embodiment shown in FIG. 1 except for the communication interface 36, so it has the same components. are given the same reference numerals, and their explanation will be omitted.
  • the primer design device 10A can be connected to a search server 42 provided with a public database installed outside the device via a communication network 38 such as the Internet.
  • the apparatus 10A of this embodiment communicates via the communication interface 36 a base sequence data acquisition section 20, a target site information acquisition section 22, a base conversion section 24, a complementary strand generation section 26, a partial sequence cutting section 28, a primer candidate sequence
  • a base sequence data acquisition section 20 can be executed by a program located at an external server 40 site.
  • the primer design device 10A of this embodiment does not need to include each means executed by a program on an external server.
  • the communication interface 36 can acquire a DNA base sequence including a gene and genome from a public database via the communication line network 38 based on an instruction from the control unit 34 and store it in the storage unit 14 .
  • public databases include GenBank of the US NCBI (National Center for Biotechnology Information), ENA of EMBL (European Molecular Biology Laboratory), and National Institute of Genetics. Examples include the research institute DDBJ.
  • the nucleotide sequence obtained from a public database may be a partial sequence of the genomic DNA nucleotide sequence of the species for which the primer is designed, but is preferably the entire sequence.
  • the communication interface 36 performs a sequence homology search using a public search server 42 via the communication line network 38 based on instructions from the control unit 34, and performs a local alignment search of the primer sequence determination unit 32, etc. It can be performed.
  • examples of the public search server 42 include BLAST of the US NCBI (National Center for Biotechnology Information).
  • Embodiment 3 is a method for producing a primer by synthesizing a primer based on a primer sequence designed by the primer design device and designing method according to Embodiments 1 and 2.
  • the method for designing primers is as shown in Embodiments 1 and 2.
  • a known method can be used to synthesize the primer, such as chemical synthesis from a terminal base using dNTP (Deoxyribonucleoside triphosphate) or the like as a material using a DNA synthesizer or RNA synthesizer. etc. can be mentioned.
  • dNTP Deoxyribonucleoside triphosphate
  • As a synthesis device a commercially available product can be used.
  • each component included in the device may be configured with dedicated hardware, or each component may be configured with a programmed computer.
  • the method of the present invention can be implemented, for example, by a program that causes a computer to execute each step. Further, a computer-readable recording medium on which this program is recorded can also be provided.
  • Example 1 Comparative Example 1
  • the base sequence data of the reference genome GRCh37 (GenBank assembly accession: GCA_000001405.1, RefSeq assembly accession: GCF_000001405.13) and 100 randomly selected measurement sites shown in Table 1 were measured. (target site) and its location information, primers for multiplex PCR with a PCR amplification product length of 70 bp to 120 bp were designed. The length of the primer was 20 to 35 bases (mer), and the primer was designed so that the only C that could be methylated was C in the CG sequence.
  • the conditions for determining partial arrays were set as follows. Condition (1): The Tm value is between 55°C and 65°C.
  • Condition (2) The YG sequence or CR sequence contained on the partial sequence is 0.
  • Condition (3) Joining with a sequence outside the related region. The upper limit of the number is 2
  • Table 3 shows the success or failure of primer design for each measurement site in Example 1 and Comparative Example 1, and the success rate of primer design calculated from the results of success or failure of primer design. Further, Table 4 shows the primers designed in Example 1, and Table 5 shows the primers designed in Comparative Example 1. For each primer pair, the first pair whose maximum local alignment score was less than or equal to the threshold was adopted.
  • the success rate of each primer design was 62% in Example 1 and 4% in Comparative Example 1. From this result, it was confirmed that the primer design success rate can be increased by setting the threshold value for the maximum local alignment score within a predetermined range in the primer sequencing step.
  • the dimer formation rate of the primers with the same conditions regarding the local alignment score (parameters and threshold values used for score calculation) used in each Example and Comparative Example was also calculated.
  • a primer set was prepared in which the local alignment scores between the two primers were distributed from 0 to 6, which amplified 91 target sites that were separately selected (i.e., one pair was designed for each target site, A total of 182 primers were prepared) and bisulfite-treated standard DNA (Zymo Research Human WGA Methylated DNA) was amplified by multiplex PCR.
  • the sequence of the obtained amplification product was obtained using a next-generation sequencer (Illumina MiSeq).
  • the obtained sequence consists of the desired amplification product containing the target site, primer dimer, and other non-specific amplification products.
  • All primer/dimer sequences that can be generated from the prepared primer sequences are generated in a computer, and the actually generated primer/dimer sequences and their number are detected by comparing and aggregating them with the sequences obtained using a next-generation sequencer. did.
  • All combinations of two sequences selected from the prepared primer sequences were divided into 7 groups from 0 to 6 according to local alignment scores. Among the number of two sequences belonging to each group, the proportion in which primer-dimers were actually generated (10 or more sequences were obtained with a next-generation sequencer) was calculated and defined as the dimer formation rate.
  • Table 7 shows the success or failure of primer design for each measurement site of Examples 1 to 4 and Comparative Examples 2 to 4, and the success rate of primer design calculated from the results of success or failure of primer design. Further, the primers designed in Examples 2 to 4 are shown in Tables 8 to 10, and the primers designed in Comparative Examples 2 to 4 are shown in Tables 11 to 13.
  • FIG. 12A shows the primer design success rate for each threshold value set during primer sequencing based on each Example and Comparative Example, and FIG. 12B shows the dimer formation rate for each threshold value designed in each Example and Comparative Example. shows.
  • the maximum value of the local alignment score was determined using an integer threshold of 1 to 4, and the adopted primer sequence pairs (Examples 1 to 4) had high primer design. It can be seen that while achieving a high success rate, the formation of dimers can be kept extremely low at 2% or less.
  • the primer sequence pairs (Comparative Examples 2 to 4) that were determined based on the maximum value of the local alignment score using the thresholds 0, 5, and 6 had a low primer design success rate even though they had a low dimer formation rate. As a result, it can be seen that even if a high design success rate is obtained, the dimer formation rate is high.
  • Example 4 that is, when multiplex PCR was performed using primers designed and manufactured according to the present invention, the dimer formation rate was suppressed to 2% or less, whereas in Comparative Example 3, that is, the local When the maximum value of the alignment score is determined using the threshold value 5, which is outside the numerical range according to the present invention, dimers are formed in about 20% of the adopted primer sequence pairs. Therefore, when the primer sequence pair designed and manufactured in Comparative Example 3 is used for multiplex PCR, the desired target site cannot be amplified, and a large amount of primer dimer is generated, which inhibits the sequence of another amplified target site. There is a high possibility that the company will go bankrupt.
  • the primers designed according to the present invention can be used to measure the degree of DNA methylation of biological samples in drug discovery, diagnosis, and other bioindustry fields.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Sustainable Development (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本発明は、プライマー・ダイマーの形成率を極めて低く抑えつつ、プライマーの設計成功率を向上させることができる、アンプリコンメチル化シーケンス解析用プライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体を提供することを目的とする。 本発明は、1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、所定のプライマー配列間のローカルアライメント・スコアを算出し、そのスコアが所定の閾値以下のプライマー候補配列ペアを、所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定するプライマー配列決定工程を含むアンプリコンメチル化シーケンス解析用プライマー設計方法である。

Description

アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体
 本発明は、アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体に関する。特に、バイサルファイト処理が施された又は酵素処理をしたDNA(deoxyribonucleic acid:デオキシリボ核酸)中の複数の標的部位をそれぞれ含む複数の増幅対象領域をマルチプレックスPCR(polymerase chain reaction:ポリメラーゼ連鎖反応)によって同時に増幅するためのプライマーを設計するためのプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体に関する。
 DNA塩基配列の変化を伴わない遺伝子発現制御機構であるエピジェネティクス機構の1つとして、DNAメチル化が知られている。哺乳類のDNAメチル化は、主に、DNA上のCG配列のシトシン(C)の5位炭素原子で生じる。
 CG配列が高頻度に出現するCpG アイランドと呼ばれる領域は、遺伝子プロモーター領域に多く存在し、初めは、その領域のCG配列の多くはメチル化されていないが、疾患、発生、分化、炎症、又は加齢等に伴ってメチル化を受け、遺伝子発現が抑制されることが知られている。例えば、がん細胞では、遺伝子プロモーター領域におけるCpGアイランドのメチル化の亢進が起きることによって、がんを抑制する遺伝子群の多くが不活性化されることが知られている。
 このように、DNAのメチル化は遺伝子発現制御に大きく関与するため、その情報は、がん等の疾患のメカニズムの解明や、各種細胞の分化の状態の評価等に有用であるとして、診断、治療、創薬及び再生医療等、様々な分野で着目され、盛んに研究開発が行われている。例えば、特定領域のDNAメチル化の状態を測定解析することで、薬剤を開発する際、細胞の種類ごとに薬剤抵抗性の有無を調べる試みや、正常細胞と異常細胞との割合から、がん細胞の有無や悪性度(進行度)を評価する試み、幹細胞の分化状態を評価して、その品質管理に利用する試みが行われている。
 DNAメチル化の状態の解析方法の1つとして、バイサルファイト(bisulfite:亜硫酸水素塩)反応を利用した方法がある。
 例えば、ある疾患に関係のあるCG配列のシトシン(C)をピックアップし、標的部位(計測サイト)とする。図13Aでは、[1]~[4]がメチル化サイトであり、その中から、[2]及び[4]を標的部位A及びBとして設定する(図13Aは片鎖のみを示す)。
 続いて、テンプレートDNAをバイサルファイト(亜硫酸水素塩)で処理する。テンプレートDNA上でCG配列のシトシン(C)がメチル化されている場合は、この処理後、そのままシトシン(C)として残存する(図13Aのメチル化サイト[3]及び[4]参照)。一方、テンプレートDNA上でCG配列のシトシン(C)がメチル化されていない場合は、脱アミノ化されてウラシル(U)へ変換される(図13Aのメチル化サイト[1]及び[2]参照)。
 なお、最近では、バイサルファイト処理に代わり、例えば、New England Biolabs 社製、NEB Next Enzymatic Methyl-seq Kit 等の酵素を使用して、上述の反応と同様の塩基変換を行う方法も利用されている。
 続いて、バイサルファイト処理後のDNAは、シーケンス解析を行うために、PCR(polymerase chain reaction:ポリメラーゼ連鎖反応)を用いて増幅される。増幅されたDNA、即ち、PCR増幅産物は、キャピラリーシーケンサーや、NGS(Next Generation Sequencer:次世代シーケンサー)を用いてシーケンス解析が行われる。
 バイサルファイト処理後のDNAを、PCRを用いて増幅すると、シトシン(C)はそのままであるが(図13Aのメチル化サイト[3]及び[4]参照)、ウラシル(U)はチミン(T)に置き換わって増幅される(図13Aのメチル化サイト[1]及び[2]参照)。
 このPCR増幅産物の配列中に生じるシトシン(C)とチミン(T)の違いを利用すれば、例えば、バイサルファイト処理前のDNA(テンプレートDNA)において、所定の標的部位のメチル化状態、即ち、1つの細胞から選択された所定の標的部位のDNAがメチル化されているか否かを検出することができる。より具体的に説明すれば、PCR増幅産物の所定の標的部位における塩基がシトシン(C)またはチミン(T)であるかにより、テンプレートDNAの所定の標的部位のシトシン(C)がメチル化されていたのか、それとも、メチル化されていなかったのかを把握することができる。図13Aで説明すれば、PCR増幅産物の標的部位Aにおける塩基は、チミン(T)であるから、テンプレートDNAの標的部位Aにおけるシトシン(C)は、メチル化されていなかったことがわかる。一方、標的部位BのPCR増幅産物の塩基は、シトシン(C)であるから、テンプレートDNAの標的部位Bにおけるシトシン(C)は、メチル化されていたことがわかる。
 また、このPCR増幅産物の配列中に生じるシトシン(C)とチミン(T)の違いを利用すれば、バイサルファイト処理前のDNA(テンプレートDNA)において、複数の細胞由来の特定の標的部位のDNAのメチル化状態(頻度)、即ち、複数の細胞に由来する特定の標的部位のDNAがメチル化されているか否かを検出し、且つ、その検出結果に基づいて、特定の標的部位のDNAがメチル化されている細胞の割合を把握することもできる。特定の標的部位が複数ある場合は、特定の標的部位ごとに、その部位のDNAがメチル化されているか否かを検出し、且つ、その検出結果に基づいて、DNAがメチル化されている細胞の割合を特定の標的部位ごとに検出することもできる。より具体的に説明すれば、PCR増幅産物の配列中に生じる、特定の標的部位における塩基がシトシン(C)またはチミン(T)であるかにより、複数の細胞由来の特定の標的部位のDNAのメチル化状態(頻度)を把握することができる。特定の標的部位のDNAのメチル化状態(頻度)は、各標的部位(計測サイト)で生じるシトシン(C)及びチミン(T)の個数から、メチル化度=C/(C+T)を計測することにより取得することができ、特定の標的部位が複数ある場合は、DNAがメチル化された細胞の割合を特定の標的部位ごとに把握することができる。
 例えば、図13Bに示すように、複数の細胞(図中では、細胞C1~C3)を用いて、複数の細胞由来の標的部位(計測サイト)A及びBのメチル化状態(頻度)を評価した場合、標的部位Aで生じるシトシン(C)の数は2個であり、チミン(T)の数は1個であるから、メチル化度を算出すると、2/(2+1)=0.67となる。よって、図13Bの標的部位AにおけるDNAのメチル化状態(頻度)は、3細胞由来のメチル化度0.67として、DNAがメチル化された細胞の割合を把握することができる。一方、標的部位Bで生じるシトシン(C)の数は3個であり、チミン(T)の数は0個であるから、メチル化度を算出すると、3/(3+0)=1となる。よって、図13Bの標的部位BにおけるDNAのメチル化状態(頻度)は、3細胞由来のメチル化度1として、DNAがメチル化された細胞の割合を把握することができる。
 なお、同様に、図13Aに示す標的部位Aのメチル化状態(頻度)は、1細胞由来のメチル化度0として検出することができ、標的部位Bのメチル化状態(頻度)は、1細胞由来のメチル化度1として検出することができる。
 バイサルファイト処理後のDNAの増幅には、同一反応において、DNA上の2以上の増幅対象領域を一度に増幅することができるマルチプレックスPCRが用いられることがある。
 マルチプレックスPCRを用いて、所定の標的部位のDNAメチル化の状態や複数の細胞由来の特定の標的部位のDNAメチル化の状態(頻度)を把握するためには、図13Cに示すように(図13Cは、片鎖のみ示す)、2以上の標的部位をそれぞれ含む1以上の増幅対象領域をそれぞれ増幅するプライマー対(フォーワードプライマー及びリバースプライマー)が必要となる。図13Aで説明すれば、標的部位Aを含む増幅対象領域(増幅領域)を増幅するためのプライマー対と、標的部位Bを含む増幅対象領域(増幅領域)を増幅するためのプライマー対が必要となる。
 バイサルファイト処理を施したDNAを対象とするプライマーの設計は、通常のプライマーの設計(即ち、バイサルファイト処理が施されていないDNAを対象とするプライマーの設計)で検討する条件に加え、さらに、以下のような条件も検討しなければならない。
 まず、前提として、DNAのメチル化の有無は、塩基配列と異なり、事前に知ることが出来ない。つまり、バイサルファイト処理を施した後にチミン(T)であるのかシトシン(C)であるのか定まらない塩基が存在する。そのため、DNAのメチル化状態を解析することを目的とするプライマー設計では、標的部位周辺のメチル化状態に依存してプライマーの増幅効率が変化することが無いよう、プライマーが接合する部位にCG配列をなるべく含まない、または含む場合もプライマー中のCG配列の位置を限定してその影響を小さくする必要がある。
 また、DNA二本鎖は、バイサルファイト処理が施されることでDNA上の多くのシトシン(C)がチミン(T)に変換されるため、各鎖のDNA配列は、バイサルファイト処理後、シトシン(C)以外の3塩基で構成される領域が増加する。従って、3塩基で構成される領域に特異的に接合することができるプライマーを設計しなければならないことも考慮する必要がある。
 また、DNA上の多くのシトシン(C)がチミン(T)に変換され、二本鎖DNAはその相補性を失ってしまうため、DNA二本鎖のどちらも増幅し解析する必要がある場合は、それぞれの鎖の標的部位をそれぞれ含む1以上の増幅対象領域をそれぞれ増幅するプライマー対(フォーワードプライマー及びリバースプライマー)、つまり、二組のプライマー対の設計が必要となる。
 従って、このような特有の事情を有するバイサルファイト処理を施したDNAを対象とするプライマーの設計は、通常のプライマーの設計に比べ、設計の条件が異なり、難度が高い。
 プライマー設計ソフトウェアは多く存在するが、その多くは、Primer-BLASTのような通常のプライマーを設計するためのものであるから、バイサルファイト処理により塩基が変換されるシトシンを考慮した条件を設定することができない。つまり、通常のプライマー設計ソフトウェアでは、上述したようなバイサルファイト処理を施したDNAを対象とするプライマーの設計に係る特有の事情が全く考慮されていないため、それらのソフトウェアでは、バイサルファイト処理を施したDNAを対象とするプライマーを設計することはできないという事情がある。
 また、さらに、バイサルファイト処理後のDNAの増幅にマルチプレックスPCRを用いる場合は、メチル化度の解析に係る標的部位をそれぞれ含む複数の増幅対象領域を同時に増幅するため、プライマー・ダイマーの形成を抑制するプライマーを設計することも考慮する必要がある。
 従って、所定の部位のDNAのメチル化度の計測に、バイサルファイト反応及びマルチプレックスPCRが利用される場合、その解析で用いられるマルチプレックスPCR用のプライマー( 即ち、バイサルファイトアンプリコンシーケンス解析用のプライマー)を設計する作業は、バイサルファイト処理を施したDNAを対象とするプライマーの設計よりもさらに煩雑であり、時間がかかるという問題がある。
 先述したように、プライマー設計ソフトウェアの多くは、通常のプライマー設計ソフトウェアに係るものであり、バイサルファイト処理を施したDNAを対象とするプライマーの設計に係るソフトウェアは少ない。また、バイサルファイト処理を施したDNAをマルチプレックスPCRで増幅するプライマー(即ち、バイサルファイトアンプリコンシーケンス解析用プライマー)の設計に対応したプライマー設計ソフトウェアとなると、さらに少ない。利用できる数少ないソフトウェアとしては、例えば、本発明者らが提案する特許文献1に記載のものが挙げられる。
国際公開第2022/113835号
 バイサルファイトアンプリコンシーケンス解析においては、一般的に、計測対象として5~1000の標的部位が予め設定されるが、できるだけ多くの標的部位でプライマー配列を出力することが望ましい。つまり、高いプライマー設計成功率(プライマーを設計できた標的部位の数/全ての標的部位の数[%])が求められる。
 特許文献1に記載のソフトウェアは、従来のバイサルファイト処理を施したDNAを対象とするプライマーの設計ソフトウェアに比べ、プライマー設計成功率を向上させることが可能であるが、更なるプライマーの設計成功率の向上が求められている。また、プライマー設計成功率を向上させることができたとしても、プライマー・ダイマーが生じる確率が高くなり、プライマーの精度が劣るという問題が生じる可能性があった。
 また、プライマーを設計する際、ユーザは、個々のDNA試料の状況や研究の内容に応じて、設計成功率を選択するため、必ずしも設計成功率が高いものばかりを所望する訳ではない。しかし、設計成功率に応じて、複数のプライマー設計を行うには、時間も手間もコストもかかるという課題があった。
 本発明は、このような課題を解決するためになされたものであり、プライマーの設計成功率を更に向上させることができる、バイサルファイトアンプリコンシーケンス解析用プライマー(より詳細には、アンプリコンメチル化シーケンス解析用プライマー)の設計方法、製造方法、設計装置、設計プログラムおよび記録媒体を提供することを目的とする。
 また、ユーザが所望する設計成功率に応じたプライマー設計を容易に実現することを可能にするバイサルファイトアンプリコンシーケンス解析用プライマー(より詳細には、アンプリコンメチル化シーケンス解析用プライマー)の設計方法、製造方法、設計装置、設計プログラムおよび記録媒体を提供することを目的とする。
〔1〕 本発明に係るアンプリコンメチル化シーケンス解析用プライマーの設計方法は、
 少なくとも1本のゲノム二本鎖DNAのメチル化度の計測のために、バイサルファイト反応又は酵素反応、及びマルチプレックスPCRを利用し、上記メチル化度を計測する2以上の標的部位をそれぞれ含む複数の領域を同時に増幅するために用いられるアンプリコンメチル化シーケンス解析用のプライマーを設計するための方法であって、
 上記DNAの鋳型鎖に対し相補鎖を生成する相補鎖生成工程と、
 上記2以上の標的部位の中から1つ選択し、上記各鎖から、その選択された標的部位の5’末端側に位置する塩基配列の中から、所定の長さの部分配列を1以上切り出す部分配列切出工程と、
 上記切り出された1以上の部分配列を1以上のプライマー候補配列として選抜するプライマー候補配列選抜工程と、
 上記1以上のプライマー候補配列の中から、上記選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列を採用し、決定するプライマー配列決定工程と、
 上記部分配列切出工程において、上記2以上の標的部位が全て選択されるまで、上記部分配列切出工程、上記プライマー候補配列選抜工程、及び上記プライマー配列決定工程を繰り返す、繰り返し工程と、
を有し、
(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
  上記プライマー配列決定工程は、
   [1] 上記1以上のプライマー候補配列から上記所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
   [2] 上記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、上記選択したプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
   [3]上記所定の閾値よりも低いローカルアライメント・スコアを算出したプライマー候補配列ペアを、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
(II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
  上記プライマー配列決定工程は、
   [1]上記1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
   [2]上記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、上記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、上記選択した候補配列ペアの配列間のローカルアライメント・スコアを算出し、
   [3]算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下となるローカルアライメント・スコアを算出したプライマー候補配列ペアを、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定するものであって、
 上記(I)及び上記(II)の上記[3]の工程において、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用されない場合は、上記(I)及び上記(II)の[1]で選択された上記1以上のプライマー候補配列ペアの中から、異なる1つのペアを選択し、少なくとも1つのプライマー候補配列ペアが採用されるまで、上記[2]及び[3]の工程を繰り返し、
 上記ローカルアライメント・スコアは、上記プライマー候補配列間における、〈1〉塩基が相補的なペアは1か所あたり「X」、〈2〉非相補的なペアは1か所あたり「Y」、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」とした場合、上記「X」は1、上記「Y」は-4~-2、及び上記「Z」は-6~-3で算出し、
 上記所定の閾値は、1~4である、方法である。
〔2〕 上記プライマー配列決定工程は、
 上記(I)標的部位が2以上であって、異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
  上記[2]の工程において、上記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択されたプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
  上記[3]の工程において、算出されたローカルアライメント・スコアが、上記所定の閾値以下であるローカルアライメント・スコアを算出した1以上のプライマー候補配列ペアを選抜し、さらに、選抜された全ペアの中から、上記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
 上記(II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
  上記[2]の工程において、上記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、上記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、上記選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
  上記[3]の工程において、各ペアについて、算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを選抜し、さらに、上記選抜された全ペアの中から、上記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する、
 上記〔1〕に記載のアンプリコンメチル化シーケンス解析用プライマー設計方法。
〔3〕 上記ゲノム二本鎖DNAの塩基配列データを取得する塩基配列データ取得工程と、
 上記2以上の標的部位及びその位置情報を取得する標的部位情報取得工程と、
 上記塩基配列データにおいて、上記ゲノム二本鎖DNAにおいて、メチル化され得る「C」を「Y」へ変換し、その他の「C」は、「T」へ変換する塩基変換工程と、
をさらに有し、
 上記相補鎖生成工程は、上記塩基変換後のゲノム二本鎖DNAの各鋳型鎖に対し相補鎖を生成し、
 上記部分配列切出工程は、上記2以上の標的部位の中から1つ選択し、その選択された標的部位の位置情報に基づいて、上記各鎖から、上記選択された標的部位が変換された上記「Y」又はそれに相補的な「R」の5’末端側に位置する塩基配列の中から所定の長さの部分配列を1以上切り出し、
 上記プライマー候補配列選抜工程は、上記各鎖から切り出された1以上の部分配列の中から、所定の選抜条件を満たすものをプライマー候補配列として選抜し、
 上記メチル化され得る「C」とは、CG配列中の「C」であり、
 上記所定の選抜条件は、
(1)Tm値が所定の範囲内にあること、
(2)上記部分配列上に含まれるYG配列またはCR配列が所定の数以下であること、及び
(3)上記塩基変換後のゲノム二本鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であること
を含む、〔1〕または〔2〕に記載のアンプリコンメチル化シーケンス解析用プライマー設計方法。
 [但し、「C」、「G」、「Y」及び「R」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「R」はアデニン又はグアニンを表す。]
〔4〕 上記メチル化され得る「C」は、さらに、CHG配列中の「C」を含み、
 上記所定の選抜条件は、さらに、(4)上記部分配列上に含まれるYHG配列またはCDR配列が所定の数以下であることを含む、上記〔3〕に記載のプライマー設計方法。
[但し、「C」、「G」、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す。]
〔5〕 上記メチル化され得る「C」は、さらに、CHH配列中の「C」を含み、
上記所定の選抜条件は、さらに、(5)上記部分配列上に含まれるYHH配列またはDDR配列が所定の数以下であることを含む、上記〔3〕または〔4〕に記載のプライマー設計方法。
[ただし、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基表記であり、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す。]
〔6〕 プライマー候補配列選抜工程は、
 上記塩基変換後のゲノム二本鎖DNAを第1の鋳型鎖及び第2の鋳型鎖とし、上記第1の鋳型鎖の相補鎖を第1の相補鎖、上記第2の鋳型鎖の相補鎖を第2の相補鎖として、上記第1の鋳型鎖から切り出された1以上の部分配列が、所定の選抜条件を満たすものは、第1の鋳型鎖のフォーワードプライマー候補配列として選抜し、上記第1の相補鎖から切り出された1以上部分配列が、上記所定の選抜条件を満たすものは、第1の鋳型鎖のリバースプライマー候補配列として選抜し、上記第2の鋳型鎖から切り出された1以上の部分配列が、上記所定の選抜条件を満たすものは、第2の鋳型鎖のフォーワードプライマー候補配列として選抜し、第2の相補鎖から切り出された1以上の部分配列が、上記所定の選抜条件を満たすものは、第2の鋳型鎖のリバースプライマー候補配列として選抜する工程である、上記〔3〕~上記〔5〕のいずれかに記載のプライマー設計方法。
〔7〕 上記プライマー配列決定工程は、上記プライマー候補配列選抜工程において、上記選抜された1以上の第1の鋳型鎖のフォーワードプライマー候補配列と上記選抜された1以上の第1の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、上記算出されたPCR増幅産物の長さが所定の範囲内にあるプライマー候補配列の組み合わせを、上記部分配列切出工程において選択された上記標的部位を含む領域を増幅する上記第1の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用し、上記選抜された第2の鋳型鎖のフォーワードプライマー候補配列と上記選抜された第2の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、上記算出されたPCR増幅産物の長さが上記所定の範囲内にあるプライマー候補配列の組み合わせを、上記部分配列切出工程において選択された上記標的部位を含む領域を増幅する上記第2の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用して決定する工程である、上記〔3〕~上記〔6〕のいずれかに記載のプライマー設計方法。
〔8〕 予め、上記〔1〕~〔7〕のいずれかに記載のアンプリコンメチル化シーケンス解析用プライマー設計方法を用いて、少なくとも、上記標的部位の数と、上記所定の閾値と、上記プライマー設計成功率との対応関係を計測し、上記対応関係を格納部に保存し、
 ユーザが入力部を介して、少なくとも、上記ユーザが所望するプライマー設計成功率、及び上記標的部位の数を設定し、プライマー設計を実行するよう指示すると、上記格納部に保存された上記対応関係の中から、上記プライマー設計成功率及び上記標的部位の数の設定値以上、且つ、差が小さい上記プライマー設計成功率及び上記標的部位の数に対応する上記所定の閾値を読み出し、読み出した上記所定の閾値に基づいて、上記1以上のプライマー候補配列の中から、上記所定の標的部位を含む領域を増幅するプライマー配列を採用し、決定する、上記〔1〕~〔7〕のいずれか1項に記載のプライマー設計方法。
〔9〕 本発明におけるアンプリコンメチル化シーケンス解析用プライマーの製造方法は、上記〔1〕~〔8〕のいずれかに記載のプライマー設計工程と、上記プライマー設計工程で設計されたプライマー配列に基づきプライマーを合成する合成工程と、を備え、上記プライマー設計工程が、上述したアンプリコンメチル化シーケンス解析用プライマーの設計方法により実施されるものである。
〔10〕 本発明におけるアンプリコンメチル化シーケンス解析用プライマーの設計装置は、
 少なくとも1本の二本鎖DNAのメチル化度の計測のために、バイサルファイト反応又は酵素反応、及びマルチプレックスPCRを利用し、上記メチル化度を計測する2以上の標的部位をそれぞれ含む複数の領域を同時に増幅するために用いられるアンプリコンメチル化シーケンス解析用のプライマーを設計するための装置であって、
 上記DNAの鋳型鎖に対し相補鎖を生成する相補鎖生成部と、
 上記2以上の標的部位の中から1つ選択し、上記各鎖から、その選択された標的部位の5’末端側に位置する塩基配列の中から、所定の長さの部分配列を1以上切り出す部分配列切出部と、
 上記切り出された1以上の部分配列を1以上のプライマー候補配列として選抜するプライマー候補配列選抜部と、
 上記1以上のプライマー候補配列の中から、上記選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列を採用し、決定するプライマー配列決定部と、
 上記部分配列切出部において、上記2以上の標的部位が全て選択されるまで、上記部分配列切出部、上記プライマー候補配列選抜部、及び上記プライマー配列決定部の各処理を繰り返すよう制御する制御部と、
を有し、
(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
  上記プライマー配列決定工程は、
   [1] 上記1以上のプライマー候補配列から上記所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
   [2] 上記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、上記選択したプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
   [3]上記所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
(II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
  上記プライマー配列決定工程は、
   [1]上記1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
   [2]上記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、各ペアについて、上記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
   [3]算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定するものであって、
 上記(I)及び上記(II)の上記[3]の工程において、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用されない場合は、上記(I)及び上記(II)の[1]で選択された上記1以上のプライマー候補配列ペアの中から、異なる1つのペアを選択し、少なくとも1つのプライマー候補配列ペアが採用されるまで、上記[2]及び[3]の工程を繰り返し、
 上記ローカルアライメント・スコアは、上記プライマー候補配列間における、〈1〉塩基が相補的なペアは1か所あたり「X」、〈2〉非相補的なペアは1か所あたり「Y」、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」とした場合、上記「X」は1、上記「Y」は-4~-2、及び上記「Z」は-6~-3で算出し、
 上記所定の閾値は、1~4である、
 アンプリコンメチル化シーケンス解析用プライマー設計装置、である。
〔11〕 上記プライマー配列決定部は、
  上記(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
  上記[2]の工程において、上記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択されたプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
  上記[3]の工程において、算出されたローカルアライメント・スコアが、所定の閾値以下であるローカルアライメント・スコアを算出した1以上のプライマー候補配列ペアを選抜し、さらに、選抜された全ペアの中から、上記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
 上記(II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
  上記[2]の工程において、上記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、上記選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
  上記[3]の工程において、各ペアについて、算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを選抜し、さらに、上記選抜された全ペアの中から、上記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する、
 上記〔10〕に記載のアンプリコンメチル化シーケンス解析用プライマー設計装置。
〔12〕 上記ゲノム二本鎖DNAの塩基配列データを取得する塩基配列データ取得部と、
 上記2以上の標的部位及びその位置情報を取得する標的部位情報取得部と、
 上記塩基配列データにおいて、上記ゲノム二本鎖DNAにおいて、メチル化され得る「C」を「Y」へ変換し、その他の「C」は、「T」へ変換する塩基変換部と、
を更に有し、
 上記相補鎖生成部は、上記塩基変換後のゲノム二本鎖DNAの各鋳型鎖に対し相補鎖を生成し、
 上記部分配列切出部は、上記2以上の標的部位の中から1つ選択し、その選択された標的部位の位置情報に基づいて、上記各鎖から、上記選択された標的部位が変換された上記「Y」又はそれに相補的な「R」の5’末端側に位置する塩基配列の中から所定の長さの部分配列を1以上切り出し、
 上記プライマー候補配列選抜部は、上記各鎖から切り出された1以上の部分配列の中から、所定の選抜条件を満たすものをプライマー候補配列として選抜し、
 上記メチル化され得る「C」とは、CG配列中の「C」であり、
 上記所定の選抜条件は、
(1)Tmが所定の範囲内にあること、
(2)上記部分配列上に含まれるYG配列またはCR配列が所定の数以下であること、及び
(3)上記塩基変換後のゲノム二本鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であること
を含む、
 上記〔10〕または〔11〕に記載のアンプリコンメチル化シーケンス解析用プライマー設計装置。
 [但し、「C」、「G」、「Y」及び「R」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「R」はアデニン又はグアニンを表す。]
〔13〕 メチル化され得る「C」は、さらに、CHG配列中の「C」を含み、所定の選抜条件は、さらに、(4)部分配列上に含まれるYHG配列またはCDR配列が所定の数以下であることを含む、上記〔12〕に記載のプライマー設計装置[但し、「C」、「G」、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す]。
〔14〕 メチル化され得る「C」は、さらに、CHH配列中の「C」を含み、所定の選抜条件は、さらに、(5)部分配列上に含まれるYHH配列またはDDR配列が所定の数以下であることを含む、上記〔12〕または〔13〕に記載のプライマー設計装置[但し、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す]
〔15〕 上記プライマー候補配列選抜部は、
 上記塩基変換後のゲノム二本鎖DNAを第1の鋳型鎖及び第2の鋳型鎖とし、上記第1の鋳型鎖の相補鎖を第1の相補鎖、上記第2の鋳型鎖の相補鎖を第2の相補鎖として、
上記第1の鋳型鎖から切り出された1以上の部分配列が、所定の選抜条件を満たすものは、第1の鋳型鎖のフォーワードプライマー候補配列として選抜し、上記第1の相補鎖から切り出された1以上部分配列が、上記所定の選抜条件を満たすものは、第1の鋳型鎖のリバースプライマー候補配列として選抜し、上記第2の鋳型鎖から切り出された1以上の部分配列が、上記所定の選抜条件を満たすものは、第2の鋳型鎖のフォーワードプライマー候補配列として選抜し、第2の相補鎖から切り出された1以上の部分配列が、上記所定の選抜条件を満たすものは、第2の鋳型鎖のリバースプライマー候補配列として選抜するものである、上記〔12〕~〔14〕のいずれかに記載のプライマー設計装置。
〔16〕 上記プライマー配列決定部は、上記プライマー候補配列選抜部において、上記選抜された1以上の第1の鋳型鎖のフォーワードプライマー候補配列と上記選抜された1以上の第1の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、上記算出されたPCR増幅産物の長さが所定の範囲内にあるプライマー候補配列の組み合わせを、上記部分配列切出部において選択された上記標的部位を含む領域を増幅する上記第1の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用し、上記選抜された第2の鋳型鎖のフォーワードプライマー候補配列と上記選抜された第2の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、上記算出されたPCR増幅産物の長さが上記所定の範囲内にあるプライマー候補配列の組み合わせを、上記部分配列切出部において選択された上記標的部位を含む領域を増幅する上記第2の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用して決定するものである、上記〔15〕に記載のプライマー設計装置。
〔17〕 予め、上記〔10〕に記載のプライマー設計装置を用いて、少なくとも、上記標的部位の数と、上記所定の閾値と、上記プライマー設計成功率との対応関係を計測し、保存する格納部と、
 ユーザが指示を入力する入力部と、
を更に有し、
 上記プライマー配列決定部は、ユーザが入力部を介して、少なくとも、上記ユーザが所望するプライマー設計成功率、及び上記標的部位の数を設定し、プライマー設計を実行するよう指示すると、上記格納部に保存された上記対応関係の中から、上記プライマー設計成功率及び上記標的部位の数の設定値以上、且つ、差が小さい上記プライマー設計成功率及び上記標的部位の数に対応する上記所定の閾値を読み出し、上記読み出した所定の閾値に基づいて、上記1以上のプライマー候補配列の中から、上記所定の標的部位を含む領域を増幅するプライマー配列を採用し、決定する、上記〔10〕に記載のアンプリコンメチル化シーケンス解析用プライマー設計装置。
 上記〔12〕~〔17〕のいずれかに記載のアンプリコンメチル化シーケンス解析用プライマー設計装置は、さらに、通信インターフェースを備え、前記通信インターフェースにより、装置外の通信回線網を介してサーバに接続することができ、前記サーバ内のプログラムにより、前記塩基配列データ取得部、前記標的部位情報取得部、前記塩基変換部、前記相補鎖生成部、前記部分配列切出部、前記プライマー候補配列選抜部及び前記プライマー配列決定部からなる群の少なくとも1つを実行することができる。
 本発明における上記〔1〕~〔8〕のいずれかに記載のアンプリコンメチル化シーケンス解析用プライマーの設計プログラムは、上述したプライマー設計方法をコンピュータ上で実行することができるものである。
 本発明における上記〔19〕に記載のコンピュータにおいて読取可能な記録媒体とは、上述したアンプリコンメチル化シーケンス解析用プライマーの設計プログラムが記録されているものである。
 本発明によれば、バイサルファイトアンプリコンシーケンス解析用のプライマー(より詳細には、アンプリコンメチル化シーケンス解析用プライマー)の設計成功率を、従来よりも更に向上させることができるだけでなく、プライマー・ダイマーが生じる確率も低く抑えることができる。また、本発明の設計に基づくプライマーを獲得することができる。その結果、多くの標的部位を増幅し、計測することができる。
 本発明によれば、さらに、容易に、且つ、短時間で、ユーザが所望する設計成功率に応じたバイサルファイトアンプリコンシーケンス解析用のプライマー(より詳細には、アンプリコンメチル化シーケンス解析用プライマー)を設計することができる。また、その設計に基づくプライマーを獲得することができる。
本発明の実施形態1に係るプライマーの設計装置の構成の一例を概念的に示すブロック図である。 図1に示すプライマー設計装置で実施される実施形態1のプライマー設計方法の一例を示すフローチャート図である。 図2に示すプライマー設計方法の塩基配列データ取得工程を説明するための模式図である。 図2に示すプライマー設計方法の塩基変換工程を説明するための模式図である。 図2に示すプライマー設計方法の相補鎖生成工程を説明するための模式図である。 図2に示すプライマー設計方法の部分配列切出工程を説明するための模式図である。 図4は、部分配列切出部28、プライマー候補配列選抜部30及びプライマー配列決定部32の動作の一例を示すフローチャートである。 図5Aは、条件(3)「塩基変換後のゲノム二本鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であることを説明するための図である。 図5Bは、条件(3)「塩基変換後のゲノム二本鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であることを説明するための図である。 図6Aは、ローカルアライメント・スコア算出に係る配列比較の組み合わせを説明するための図である。 図6Bは、ローカルアライメント・スコア算出に係る配列比較の組み合わせを説明するための図である。 図7Aは、ローカルアライメント・スコア算出に係る配列比較の組み合わせを説明するための図である。 図7Bは、ローカルアライメント・スコア算出に係る配列比較の組み合わせを説明するための図である。 図8は、ローカルアライメント・スコアの算出方法及び閾値に基づく判定方法を説明するための図である。 図9は、本発明の実施例1の変形例2に係るプライマー設計装置の格納部に保存される、標的部位の数と、閾値と、プライマー設計成功率との対応関係を示す図である。 図10は、本発明の実施形態2に係るプライマーの設計装置の構成の一例を概念的に示すブロック図である。 図11は、本発明の実施形態2に係るプライマーの設計装置と外部サーバとの接続の一例を概念的に示すブロック図である。 実施例1~4及び比較例2~4のプライマー設計成功率を示す図である。 実施例1~4及び比較例2~4のプライマー・ダイマー形成率を示す図である。 図13Aは、バイサルファイト反応を利用したDNAのメチル化状態の解析方法の一例を説明するための模式図である。 図13Bは、バイサルファイト反応を利用したDNAのメチル化状態(頻度)の解析方法の一例を説明するための模式図である。 図13Cは、標的部位(計測サイト)、及び増幅対象領域を説明するための図である。
 以下に、添付の図面に示す公的な実施形態に基づいて、本発明のバイサルファイトアンプリコンシーケンス用のプライマー(アンプリコンメチル化シーケンス解析用プライマー)の設計方法、製造方法、設計装置、設計プログラムおよび記録媒体を詳細に説明する。
(用語の説明)
 本明細書において、「バイサルファイトアンプリコンシーケンス解析用プライマー」とは、バイサルファイト処理が施されたDNA中の複数の標的部位をそれぞれ含む複数の増幅対象領域をマルチプレックスPCRによって同時に増幅するための解析用プライマーのことを意味する。
 「アンプリコンメチル化シーケンス解析用プライマー」とは、バイサルファイト処理が施された又は酵素処理をしたDNA中の複数の標的部位をそれぞれ含む複数の増幅対象領域をマルチプレックスPCRによって同時に増幅するための解析用プライマーのことを意味する。
 「増幅対象領域」とは、プライマー対で増幅される領域を意味する。
 「メチル化サイト」とは、メチル化され得る部位を意味する。
 「標的部位」は、「メチル化サイト」であり、メチル化度を計測する部位(計測サイト)を意味する。
 「プライマー候補配列」とは、特に限定して記載する場合を除き、フォーワード候補プライマー配列及びリバース候補プライマー配列のいずれかを意味する。
 「プライマー候補配列対(ペア)」とは、フォーワード候補プライマー配列及びリバース候補プライマー配列の1つの組み合わせを意味する。
 「プライマー配列」とは、特に限定して記載する場合を除き、フォーワードプライマー配列及びリバースプライマー配列のいずれかを意味する。
 「プライマー配列対(ペア)」とは、フォーワードプライマー配列及びリバースプライマー配列の1つの組み合わせを意味する。
 「GC配列」「YG配列」等の塩基配列はいずれも5’末端側から読んだ配列を意味する。
 「~」を用いて表される範囲には「~」の両側を含むものとする。例えば、「A~B」と表される範囲には、AおよびBを含む。
[実施形態1]
 図1は本発明の実施形態1に係るプライマー設計装置の一例を概念的に示すブロック図である。また、図2に、図1に示すプライマー設計装置で実施されるプライマー設計方法の一例のフローチャートを概念的に示す。また、図3A~Dに、プライマー設計方法の各工程を説明するための模式図を示す。
 図1に示すように、プライマー設計装置10は、入力部12と、格納部14と、出力部16と、プライマー設計処理部18とを備える。入力部12、格納部14、出力部16、及びプライマー設計処理部18は、互いに接続されている。
 入力部12は、ユーザによって入力された情報や、各種の設定指示、選択指示、入力指示、作成指示等を取得するものであり、例えば、キーボードおよびマウス等の入力デバイスによって構成される。
 格納部14は、プライマー設計装置の動作プログラムを格納するものであり、また、プライマー設計処理を実行する上で必要な情報やデータを一時的に格納することができるものでもある。格納部14としては、例えば、HDD(Hard Disc Drive:ハードディスクドライブ)、SSD(Solid State Drive:ソリッドステートドライブ)、FD(Flexible Disc:フレキシブルディスク)、MOディスク(Magneto-Optical disc:光磁気ディスク)、MT(Magnetic Tape:磁気テープ)、RAM(Random Access Memory:ランダムアクセスメモリ)、CD(Compact Disc:コンパクトディスク)、DVD(Digital Versatile Disc:デジタルバーサタイルディスク)、SDカード(Secure Digital card:セキュアデジタルカード)、USBメモリ(Universal Serial Bus memory:ユニバーサルシリアルバスメモリ)等の記録メディア等を用いることができる。
 出力部16は、入力部12から入力されたDNA塩基配列情報、指示、設計条件、及びプライマー設計処理部18で設計されたプライマー配列情報等を出力するものであり、例えば、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)、フラットパネルディスプレイ、個体ディスプレイ、並びにブラウン管(CRT)等のディスプレイユニット、及び種々の形態のプリンター等によって構成される。
 プライマー設計処理部18は、プライマー設計のための一連の処理を行うものである。
 プライマー設計処理部18は、塩基配列データ取得部20と、標的部位情報取得部22と、塩基変換部24と、相補鎖生成部26と、部分配列切出部28と、プライマー候補配列選抜部30と、プライマー配列決定部32と、制御部34と、を備える。
 プライマー設計処理部18は、中央処理ユニット(CPU)等を含むプロセッサ、及びコンピュータ等によって構成することができる。
 また、図2に示すように、プライマー設計方法は、塩基配列データ取得工程S10と、標的部位情報取得工程S12と、塩基変換工程S14と、相補鎖生成工程S16と、部分配列切出工程S18と、プライマー候補配列選抜工程S20と、プライマー配列決定工程S22と、判定工程S24によって全ての標的部位を選択したかを判定し、全ての標的部位が検出されるまで、部分配列切出工程S18、プライマー候補配列選抜工程S20、及びプライマー配列決定工程S22を繰り返す繰り返し工程を含む。
(塩基配列データ取得部)
 図1に示す塩基配列データ取得部20は、図2に示す塩基配列データ取得工程S10を実施する部分であって、入力部12を介して、プライマー設計を行う生物種のゲノムの二本鎖DNA配列(リファレンス配列)のデータを取得するものである。予め、格納部14にリファレンス配列のデータが格納されている場合には、格納部14から取得してもよい。
 ここで、取得されるゲノム二本鎖DNA配列のデータは、プライマー設計を行う生物種のゲノムの全配列のデータであることが好ましい。
 なお、本実施形態のプライマーの設計方法の説明のために、この工程で取得された二本鎖DNA配列データの二本鎖DNAを、テンプレートDNAと呼び、それぞれ、A鎖、B鎖と呼ぶものとする(図3A参照)。
 塩基配列データ取得部20は、コンピュータによって構成され、上述のゲノムの二本鎖DNA配列のデータを取得する機能を果たす。
(標的部位情報取得部)
 図1に示す標的部位情報取得部22は、図2に示す標的部位情報取得工程S12を実施する部分であって、入力部12を介して、塩基配列データ取得部20で取得されたゲノム二本鎖DNAに含まれる1以上の標的部位、及びその位置情報を取得することができる。予め、格納部14に標的部位、及びその位置情報が格納されている場合には、格納部14から取得してもよい。
 ここで、「標的部位」とは、所定の生命現象に関係する部位であり、メチル化され得るシトシン(C)であるCG配列のシトシン(C)であり、メチル化度を計測するサイトである。
 標的部位の選択数は、2以上であれば、特に限定されないが、本発明の所望の効果を顕著に得る観点から、5~1000の部位を選択することが好ましい。
 各標的部位の位置は、染色体、及びゲノム座標等で示すことができる。
 標的部位情報取得部22は、コンピュータによって構成され、上述のゲノム二本鎖DNAに含まれる2以上の標的部位、及びその位置情報を取得する機能を果たす。
(塩基変換部)
 塩基変換部24は、図2に示す塩基変換工程S14を実施する部分であって、図3A及び図3Bに示すように、塩基配列データ取得部20から取得したテンプレートDNA上のCG配列のシトシン(C)を「Y」へ変換し(図3A及び図3Bの矢印の塩基参照)、その他の配列のシトシン(C)は、チミン(T)へ変換するものである。DNAのCG配列のシトシン(C)は、メチル化されている可能性とメチル化されていない可能性があるため、チミン(T)に変換される可能性と、シトシン(C)として残存ずる可能性の両方を含む「Y」へ変換する。
 なお、この変換処理は、コンピュータ上で疑似的に、バイサルファイト処理後、PCRを用いて増幅したDNAの生成を再現するものである。
 塩基変換部24は、コンピュータによって構成され、上述のテンプレートDNA上のCG配列のシトシン(C)を「Y」へ、その他の配列のシトシン(C)は、チミン(T)へ変換する機能を果たす。
 先述したように、バイサルファイト処理により、DNA二本鎖は相補性を失ってしまう。これは、バイサルファイト処理により、相補性のあるCG塩基対のシトシン(C)がチミン(T)へ変換されることで、塩基対の相補性が失われてしまうからである(図3A及び図3Bの太字の塩基参照)。このように相補性が失われたバイサルファイト処理後のDNA上にある増幅対象領域は、1組のプライマーで両鎖を同じように増幅することができない。そのため、二本鎖DNAのメチル化状態の解析を行う場合には、各鎖の各標的部位をそれぞれ含む増幅対象領域を増幅するプライマー対(フォーワードプライマー及びリバースプライマー)を標的部位ごとに作製する必要がある。つまり、図3Bの塩基変換後のA鎖の標的部位を含む増幅対象領域に係るプライマー対、及び塩基配列後のB鎖の標的部位を含む増幅対象領域に係るプライマー対をそれぞれ設計する必要がある。
 但し、後述の変形例5で説明するが、A鎖のみを解析したい場合やB鎖のみを解析したい場合、あるいはA鎖ないしはB鎖の一方を解析できれば良い場合は、必ずしも2組のプライマー対を設計する必要はない。
(相補鎖生成部)
 相補鎖生成部26は、図2に示す相補鎖生成工程S16を実施する部分であり、塩基変換処理後のDNA二本鎖それぞれに対し相補鎖を生成するものである。
 ここで、本実施形態のプライマーの設計方法の説明のために、塩基変換後A鎖及び塩基変換後のB鎖を、第1の鋳型鎖(A+鎖)及び第2の鋳型鎖(B+鎖)と呼び、第1の鋳型鎖の相補鎖を第1の相補鎖(A-鎖)、第2の鋳型鎖の相補鎖を第2の相補鎖(B-鎖)と呼ぶものとする(図3C参照)。
 図3Cに示すように、A+鎖の塩基配列に対し相補的な配列を生成することにより相補鎖A-を作製し、B+鎖の塩基配列に対し相補的な配列を生成することにより相補鎖B-を作製する。なお、「Y」と相補性のある塩基を、アデニン(A)の可能性とグアニン(G)の可能性の両方を含む「R」とする。
 相補鎖生成部26は、コンピュータによって構成され、塩基変換処理後のDNA二本鎖それぞれに対し上述の相補鎖を生成する機能を果たす。
 これにより、第1の鋳型鎖(A+鎖)は、「Y」(即ち、メチル化サイト)を除き、チミン(T)、アデニン(A)及びグアニン(G)の3塩基で構成され、第1の相補鎖(A-鎖)は、「R」(メチル化サイト)を除き、チミン(T)、アデニン(A)及びシトシン(C)の3塩基で構成されるが、第1の鋳型鎖(A+鎖)と第1の相補鎖(A-鎖)は相補性を持つことができる。
 また、同様に、第2の鋳型鎖(B+鎖)も、「Y」(メチル化サイト)を除き、チミン(T)、アデニン(A)及びグアニン(G)の3塩基で構成され、第2の相補鎖(B-鎖)は、「R」(メチル化サイト)を除き、チミン(T)、アデニン(A)及びシトシン(C)の3塩基で構成されるが、第2の鋳型鎖(B+鎖)と第2の相補鎖(B-鎖)は相補性を持つことができる。
(部分配列切出部)
 部分配列切出部28は、図2に示す部分配列切出工程S18を実施する部分であり、図4のフローチャートに示すように、標的部位情報取得部22で取得した2以上の標的部位の中から、標的部位を1つ選択し(ステップS280)、その選択された標的部位の位置情報に基づいて、各鎖のDNA配列から、選択された標的部位の「Y」又はそれに相補的な「R」(即ち、標的部位にあり、メチル化サイトにある塩基)を検出し、検出された「Y」及び「R」の5’末端側に位置する塩基配列(図3Dの(1)~(4))から所定の長さの部分配列の中から切り出せるだけ切り出し(ステップS282)、1以上の部分配列を取得するものである。
 なお、図4は、部分配列切出部28、プライマー候補配列選抜部30及びプライマー配列決定部32の動作の一例を示すフローチャートである。
 部分配列切出部28は、コンピュータによって構成され、上述の選択された標的部位の位置情報に基づいて、各鎖のDNA配列から、選択された標的部位の「Y」又はそれに相補的な「R」から所定の長さの部分配列の中から切り出せるだけ切り出し、1以上の部分配列を取得する機能を果たす。
 ここで、切り出される1以上の部分配列の長さは、特に限定されないが、処理の効率性や、本発明の所望の効果を顕著に得る観点から、ユーザが所望するPCR増幅産物の最大の長さとプライマーの最小の長さの差の長さから、標的部位の長さ(1塩基分)を除いた長さであることが好ましい。
 PCR増幅産物の長さは、公知の範囲、即ち、70~数キロbpであれば特に限定されない。PCRの成功率、及びDNAシーケンサーの配列解読能力等を考慮することが好ましい。
 プライマーの長さは、公知の範囲、即ち、15~45塩基であれば特に限定されない。プライマーの特異性、及びプライマー・ダイマーの形成性を考慮することが好ましい。
 例えば、ユーザが設定したPCR産物の最大の長さが300塩基であり、プライマーの最小の長さが20塩基である場合、切り出される所定の長さx=300-20-1(標的部位の長さ)=279と算出され、まず、各標的部位の5’末端側にある279塩基が切り出される。図3Dに示されるように、各鎖の標的部位、即ち、A+鎖の「Y」、A-鎖の「R」、B+鎖の「Y」及びB-鎖の「R」の5’末端側にある279塩基(図3Dの(1)~(4))が、各鎖からそれぞれ切り出される。
 続いて、279塩基の中から、プライマーの長さ(20塩基以上所定の長さ以下)で切り出せるだけ部分配列を切り出すことにより、1以上の部分配列を取得することができる。
 なお、PCR増幅産物の長さ、及びプライマーの長さの数値、又は数値範囲は、入力部12を介して、ユーザにより設定される。これらの条件が、予め、格納部14に格納されている場合には、格納部14から取得し、設定することもできる。
(プライマー候補配列選抜部)
 プライマー候補配列選抜部30は、図2に示すプライマー候補配列選抜工程S20を実施する部分であり、部分配列切出部28で切り出された各鎖の1以上の部分配列から、所定の選抜条件(1)~(3)を全て満たすものをプライマー候補配列として選抜するものである。
 具体的には、第1の鋳型鎖(A+鎖)から切り出された1以上の部分配列(即ち、図3Dの(1)から切り出された1以上の部分配列)が、所定の選抜条件を満たすものは、第1の鋳型鎖(A+鎖)のフォーワードプライマー候補配列として選抜し、第1の相補鎖(A-鎖)から切り出された1以上部分配列(即ち、図3Dの(2)から切り出された1以上の部分配列)が、所定の選抜条件を満たすものは、第1の鋳型鎖(A+鎖)のリバースプライマー候補配列として選抜し、第2の鋳型鎖(B+鎖)から切り出された1以上の部分配列(即ち、図3Dの(3)から切り出された1以上の部分配列)が、所定の選抜条件を満たすものは、第2の鋳型鎖(B+鎖)のフォーワードプライマー候補配列として選抜し、第2の相補鎖(B-鎖)から切り出された1以上の部分配列(即ち、図3Dの(4)から切り出された1以上の部分配列)が、所定の選抜条件を満たすものは、第2の鋳型鎖(B+鎖)のリバースプライマー候補配列として選抜する。
 プライマー候補配列選抜部30は、コンピュータによって構成され、上述の各鎖の1以上の部分配列から、所定の選抜条件(1)~(3)を全て満たすものをプライマー候補配列として選抜する機能を果たす。
 プライマー候補配列の「所定の選抜条件」とは、以下の項目(1)~(3)である。所定の選抜条件の数値及び数値範囲は、ユーザが入力部12を介して、予め設定しておくことができる。
(1)Tm値が所定の範囲内にあること、
(2)部分配列上に含まれるYG配列またはCR配列が所定の数以下であること
(3)塩基変換後の鋳型鎖DNA(ゲノム二本鎖DNA)上の関連領域外の塩基配列との接合数の上限が1以上の所定の数以下であること
 上記(1)の条件にかかる、「Tm値」の範囲は、公知の数値範囲、即ち、45~70℃であれば特に限定されない。PCRのサーマルサイクル条件、PCR増幅のかかり易さ(使用するPCR酵素によって増幅を進めやすい温度帯)、及びPCR増幅の特異性を考慮することが好ましい。Tm値は、例えば、最近接塩基対法で算出することができる。
 上記(2)の条件にかかる、「部分配列上に含まれるYG配列またはCR配列」の数は、特に限定されないが、本発明の所望の効果を顕著に得る観点から、好ましくは2以下であり、より好ましくは1以下であり、特に好ましくは0である。
 この条件を満たすことにより、プライマーと、プライマー接合部位におけるCG配列のシトシン(C)との接合による影響を小さくすることができる。
 上記(3)の条件にかかる、「塩基変換後の鋳型鎖DNA(ゲノム二本鎖DNA)上の関連領域外の配列」とは、部分配列の位置に対応する、塩基変換後の鋳型鎖DNA上の位置における配列を除く塩基配列のこと、部分配列を除く配列(塩基変換後の鋳型鎖DNA配列)と相補的な塩基配列をいう。
 「塩基変換後の鋳型鎖DNA上の関連領域外の配列との接合数の上限」は、特に限定されないが、本発明の所望の効果を顕著に得る観点から、好ましくは5以下であり、特に好ましくは2以下である。
 この条件満たすことにより、プライマーがバイサルファイト処理後のDNA上の関連領域外と接合する影響を小さくすることができる。
 PCRにおける加熱のサイクル数をnとして、図5Aに示すように、DNAにプライマー対(フォーワードプライマー及びリバースプライマー)が接合した場合、2のオーダーでPCR増幅産物が生成されるが、図5Bに示すように、フォーワードプライマー及びリバースプライマーのいずれか1つがDNAに接合した場合は、2nのオーダーでPCR増幅産物が生成される(図5Bは、フォーワードプライマーが接合した場合を示す)。
 従って、一般的な加熱サイクル数(nが20~40程度)でPCRが行われた場合に、DNAにプライマー対が増幅対象領域外のDNA配列に接合した場合は、非特異産物が大量に生成されてしまうため問題となるが、フォーワードプライマー及びリバースプライマーのいずれか1つが関連領域外のDNA配列に接合した場合は、非特異産物がそれほど多く生成されることがなく、特に問題とされない。そのため、従来は、フォーワードプライマー及びリバースプライマーのいずれか1つが関連領域外のDNA配列に接合した場合に、非特異産物が生成される問題については特に考慮されてこなかった。なお、図5Aの(1)は、増幅対象領域のDNA配列を示し、(2)は、増幅対象領域外のDNA配列を示す。また、図5Bの(3)は、部分配列の関連領域のDNA配列を示し、(4)は、関連領域外のDNA配列を示す。
 このように、プライマーの設計において判定される従来の条件に、各プライマーと、対象領域外のDNAとの接合とを所定の範囲内で許容した、上記(3)の条件を加えた判定を行うことにより、プライマー設計成功率を高めることができる。
 ここで、各鎖から切り出された1以上の部分配列の中から、所定の選抜条件を満たすものをプライマー候補配列として選抜する処理について、図4のフローチャートを用いて説明する。
 プライマー候補配列選抜部30は、まず、第1の鋳型鎖(A+鎖)から切り出された1以上の部分配列の中から、1つ取得し(ステップS300)、その部分配列のTm値が所定の範囲内にあるか否かを判定する(ステップS302)。
 Tm値が所定の範囲内でなければ、別の部分配列を取得し(ステップS300)、Tm値が所定の範囲内であれば、部分配列上に含まれるYG配列またはCR配列が所定の数以下であるか否かを判定する(ステップS304)。
 部分配列上に含まれるYG配列またはCR配列が所定の数以下でなければ、別の部分配列を取得し(ステップS300)、部分配列上に含まれるYG配列またはCR配列が所定の数以下であれば、塩基変換後の鋳型鎖DNA上の関連領域外の塩基配列との接合数の上限が1以上の所定の数以下であるか否かを判定する(ステップS306)。
 塩基変換後の鋳型鎖DNA上の関連領域外の塩基配列と、部分配列との接合数の上限が「1以上の所定の数」以下でなければ、別の部分配列を取得し(ステップS300)、塩基変換後の鋳型鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であれば、プライマー候補配列として選抜し(ステップS308)、第1の鋳型鎖(A+鎖)から切り出された全ての部分配列の判定が終了したか否かを判定する(ステップS310)。
 第1の鋳型鎖(A+鎖)から切り出された全ての部分配列の判定が終了していなければ、別の部分配列を取得し(ステップS300)、全ての部分配列の判定が終了していれば、選抜された1以上のプライマー候補配列を、第1の鋳型鎖(A+鎖)のフォーワードプライマー候補配列として決定する(ステップS312)。
 第1の相補鎖(A-鎖)から切り出された1以上の部分配列、第2の鋳型鎖(B+鎖)から切り出された1以上の部分配列、及び第2の相補鎖(B-鎖)から切り出された1以上の部分配列についても同様の判定を行い(ステップS300~S310)、第1の鋳型鎖(A+鎖)のリバースプライマー候補配列、第2の鋳型鎖(B+鎖)のフォーワードプライマー候補配列、及び第2の鋳型鎖(B+鎖)のリバースプライマー候補配列を決定する(ステップS312)。
(プライマー配列決定部)
 プライマー配列決定部32は、図2に示すプライマー配列決定工程S22を実施する部分であり、プライマー候補配列選抜部30で決定された1以上のプライマー候補配列、即ち、第1の鋳型鎖(A+鎖)の1以上のフォーワードプライマー候補配列、第1の鋳型鎖(A+鎖)の1以上のリバースプライマー候補配列、第2の鋳型鎖(B+鎖)の1以上のフォーワードプライマー候補配列、及び第2の鋳型鎖(B+鎖)の1以上のリバースプライマー候補配列の中から、(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合と、(II)異なる標的部位のプライマー配列が既に1以上決定されている場合に分けて、所定の配列の組み合わせ(ペア)を作り、その各組み合わせの配列間でローカルアライメント・スコアを算出し、その値が所定の閾値を超えているか否かに基づいて、各鎖(A+鎖またはB+鎖)における部分配列切出部28で選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列を採用し、決定するものである。以下に、各鎖において実行されるプライマー配列決定方法を説明する。
 (I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合、
[1] 第1の鋳型鎖(A+鎖)の1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
[2] 前記所定の標的部位の1以上のプライマー候補配列ペアから1つのペア選択し、前記選択したプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
[3] 前記所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、第1の鋳型鎖(A+鎖)における所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する。
 ここで、上記[2]で選択したプライマー候補配列ペアのスコアが閾値より高く、プライマー配列ペア(フォーワードプライマー配列及びリバースプライマー配列)を決定することができない場合は、上記[1]で選択したプライマー候補配列ペアの中から異なるペアを1つ選択し、[2]及び[3]の工程を実施し、プライマー配列ペアが少なくとも1つ決定するまで、このような工程を繰り返す。少なくとも1つのプライマー配列ペアを決定することができれば、上記[1]で選択した全てのプライマー候補配列ペアのスコア算出等の工程を必ずしも実行する必要はなく、部分配列切出工程S18に戻って、別の標的部位の選択を行い(図4のステップS280)、別の標的部位のプライマー配列の決定を行ってもよい。計算コストの削減や、手間や時間を省くことができるという効果を有する。
 また、上記[1]で選択した全てのプライマー候補配列のペアのスコアが閾値より高く、プライマー配列ペアとして採用及び決定することができない場合は、部分配列切出工程S18に戻って、別の標的部位の選択を行い(図4のステップS280)、別の標的部位のプライマー配列の決定を行う。
 (II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
[1]第1の鋳型鎖(A+鎖)の前記1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
[2]前記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、前記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、前記選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
[3]算出された全てのローカルアライメント・スコアの中から最大値(即ち、最もプライマー・ダイマーを形成しやすいペアのスコア)を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、第1の鋳型鎖(A+鎖)における所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する。
 ここで、上記[2]で選択したプライマー候補配列ペアが算出したスコアの最大値が閾値よりも高く、プライマー配列ペア(フォーワードプライマー配列及びリバースプライマー配列)を決定することができない場合は、上記[1]で選択したプライマー候補配列ペアの中から異なるペアを1つ選択し、[2]及び[3]の工程を実施し、プライマー配列ペアが少なくとも1つ決定するまで、このような工程を繰り返す。少なくとも1つのプライマー配列ペアを決定することができれば、上記[1]で選択した全てのプライマー候補配列ペアのスコア算出等の工程を必ずしも実行する必要はなく、部分配列切出工程S18に戻って、別の標的部位の選択を行い(図4のステップS280)、別の標的部位のプライマー配列の決定を行ってもよい。計算コストの削減や、手間や時間を省くことができるという効果を有する。
 また、上記[1]で選択した全てのプライマー候補配列のペアが算出したスコアの最大値が閾値より高く、プライマー配列ペアとして採用及び決定することができない場合は、部分配列切出工程S18に戻って、別の標的部位の選択を行い(図4のステップS280)、別の標的部位のプライマー配列の決定を行う。
 ここで、上記ローカルアライメント・スコアは、プライマー候補配列間、又は、プライマー候補配列と、既に決定されたプライマー配列間において、〈1〉塩基が相補的なペアは1か所あたり「X」、〈2〉非相補的なペアは1か所あたり「Y」、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」とした場合、前記「X」は1、前記「Y」は-4~-2、及び前記「Z」は-6~-3で算出する。また、所定の閾値は、1~4である。
 本願発明者らは、従来、一般的なスコア算出に使用するパラメータ(例えば、相補スコア1、非相補スコア-1、ギャップ/欠失スコア-2)、閾値(0)、配列比較の方法(例えば、候補配列の総当たり)が使用されてきたことに着目し、特に検討されることのない、ローカルアライメント・スコアの算出方法、スコア算出に係る配列比較の組み合わせや順序、プライマー配列の決定を選抜する所定の閾値等について鋭意検討し、上記方法によれば、少ない計算コストで、プライマー・ダイマーの形成率を極めて低く抑制しつつ、高いプライマー設計成功率を獲得することができることを知見した。特に、標的部位の数が多ければ多いほど、具体的には、標的部位の数が50以上のプライマー設計を実施する場合において、本発明の所望の効果を顕著に獲得することができる。
 上記効果を従来の方法で獲得する場合、化学的なエネルギー計算や深層学習といった計算コストの高い方法を用いてスコア算出を改良する必要があり、標的部位が多い場合、現実的な時間で計算ができないという課題があった。しかし、本願方法は、「単純な足し算によるスコア算出の範囲内」で上記効果を獲得することができるため、少ない計算コストで、標的部位の数が数千程度であれば現実的な時間で(一般的なコンピュータであれば数日程度)設計を行うことができるという効果を有する。
 プライマー配列決定部32は、コンピュータによって構成され、上述の1以上のプライマー候補配列の中からフォーワードプライマー配列及びリバースプライマー配列を採用し、決定する機能を果たす。
 ここで、図6及び7を参照して、上記ローカルアライメント・スコアの算出にかかる配列比較(配列の組み合わせ)方法及びその順序について、より具体的に説明する。
 まず、上記(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合のプライマー配列決定方法について説明する。
 上記[1]の工程において、まず、第1の鋳型鎖(A+鎖)の1以上のフォーワードプライマー候補配列及び第1の鋳型鎖(A+鎖)の1以上のリバースプライマー候補配列から作製が可能な全てのプライマー対(フォーワードプライマーとリバースプライマーの組み合わせ)を取得し、各プライマー対について、PCRによって増幅が予想されるPCR増幅産物の長さを算出する。次いで、算出されたPCR増幅産物の長さが、所定の数値範囲内にあるか否かを判定し、算出されたPCR増幅産物の長さが所定の数値範囲内にあれば、そのPCR増幅産物の長さが算出されたプライマー対(即ち、第1の鋳型鎖のフォーワードプライマー候補配列及び第1の鋳型鎖のリバースプライマー候補配列の組み合わせ)を、部分配列切出部28(部分配列切出工程)で選択された標的部位を含む領域を増幅する1以上のプライマー候補配列ペア、即ち、1以上の第1の鋳型鎖のフォーワードプライマー候補配列及びリバースプライマー候補配列ペアとして採用する(図4のステップS320)。
 ここで、算出されたPCR増幅産物の長さを判定する「所定の数値範囲」とは、ユーザが所望するPCR増幅産物の長さを含む範囲であり、先述したように、公知の範囲、即ち、70~数キロbpであれば特に限定されない。PCRの成功率、及びDNAシーケンサーの配列解読能力等を考慮することが好ましい。
 図6Aは、プライマー候補配列選抜部30(プライマー候補配列選抜工程)で選抜されたプライマー候補配列(3つのフォーワードプライマー候補配列及び2つのリバースプライマー候補配列)を示す。図6Bは、上記[1]の工程で選択された所定の標的部位にかかる1以上のプライマー候補配列ペアを示す(即ち、本ケースでは、3つのフォーワードプライマー候補配列及び2つのリバースプライマー候補配列の全てのペアのPCRによって増幅が予想されるPCR増幅産物の長さが所定の範囲内にあると判定された)。
 次いで、上記[2]の工程において、図6Bに示すプライマー候補配列ペア(6ペア)の中から、「フォーワード候補配列FC1」及び「リバース候補配列RC1」を1つのペアとして選択し、そのペアの配列間におけるローカルアライメント・スコアを算出する。
 次いで、上記[3]の工程において、算出されたローカルアライメント・スコアの値が、所定の閾値以下である場合は、上記[2]で選択した「フォーワード候補配列FC1」及び「リバース候補配列RC1」ペアを前記選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する(図4のステップS324、ステップS322)。
 次に、上記(II)異なる標的部位のプライマー配列が既に1以上決定されている場合のプライマー配列決定方法について説明する。
 上記[1]の工程において、まず、上記(I)-[1]の工程と同様に、部分配列切出部28(部分配列切出工程)で選択された標的部位を含む領域を増幅する1以上の第1の鋳型鎖のフォーワードプライマー候補配列及びリバースプライマー候補配列ペアとして採用する(図4のステップS320)。図6Aは、プライマー候補選抜工程で選抜されたプライマー候補配列(3つのフォーワードプライマー候補配列及び2つのリバースプライマー候補配列)を示す。図6Bは、上記[1]で選択された6つの所定の標的部位にかかる1以上のプライマー候補配列ペアを示す(即ち、本ケースでは、3つのフォーワードプライマー候補配列及び2つのリバースプライマー候補配列の全てのペアのPCRによって増幅が予想されるPCR増幅産物の長さが所定の範囲内にあると判定された)。図7Aは、既に決定された異なる標的部位P1及びP2にかかるプライマー配列ペアを示す。
 次いで、上記[2]の工程において、図6Bに示すプライマー候補配列ペアの中から、「フォーワード候補配列FC1」及び「リバース候補配列RC1」を1つのペアとして選択し、各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、選択した候補配列の対となるプライマー候補配列との間のローカルアライメント・スコアを算出する。即ち、図7Bに示すように、「フォーワード候補配列FC1」と、「標的部位P1のフォーワード配列」、「標的部位P1のリバース配列」、「標的部位P2のフォーワード配列」または「標的部位P2のリバース配列」との間のローカルアライメント・スコア、「リバース候補配列RC1」と、「標的部位P1のフォーワード配列」、「標的部位P1のリバース配列」、「標的部位P2のフォーワード配列」または「標的部位P2のリバース配列」との間のローカルアライメント・スコア、及び、「フォーワード候補配列FC1」及び「リバース候補配列RC1」のペア間におけるローカルアライメント・スコアを算出する。つまり、9つのローカルアライメント・スコアを算出する。
 次いで、上記[3]の工程において、算出された9つのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、上記選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する(図4のステップS324、ステップS322)。
 ここで、図8に示すローカルアライメントの例を参照して、より具体的に、ローカルアライメント・スコアの算出方法及び閾値に基づく判定方法について説明する。図8は、上から、プライマー候補配列をプライマー配列として採用するか否かの判定にかかる、(1)配列[I]と配列[II]、(2)配列[I]と配列[III]、(3)配列[I]と配列[IV]のローカルアライメントを示す。図中、配列間の塩基が相補的なペアを形成する場合には、「|」を付し、非相補的なペアを形成している場合には「:」付し、ギャップには「-」を付し、欠失には、何も付さないこととした。
 ローカルアライメント・スコアの算出にあたり、配列間において、〈1〉塩基が相補的なペアは1か所あたり「X」=1、〈2〉非相補的なペアは1か所あたり「Y」=-3、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」=-6とし、閾値は、4と設定した。
 上記(1)の配列[I]と配列[II]の間では、相補的なペアが5か所あるため、スコアは、1×5-3×0-6×0=5となる(図8の上図)。しかし、このスコアは、閾値4を超えているので、プライマー候補配列[I]は、不採用となる。
 上記(2)の配列[I]と配列[III]の間では、相補的なペアが4か所、非相補的なペアが1か所あるため、スコアは、1×4-3×1-6×0=1となる。このスコアは、閾値4以下であるため、プライマー候補配列[I]は、採用することができる。
 上記(3)の配列[I]と配列[IV]の間では、相補的なペアが9か所、欠失が1か所あるため、スコアは、1×9-3×0-6×1=3なる。このスコアは、閾値4以下であるため、プライマー候補配列[I]は、採用することができる。
 上記[2]の工程において、図6Bに示すプライマー候補配列ペアの中から、全てのペア(6ペア)を選択し、各ペアが算出したローカルアライメント・スコアの最大値が仮に表1に示すとおりであったとする。ここで、所定の閾値を3と設定した場合、所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用及び決定される候補配列プライマーペアは、全6ペアのうち、最大値が3以下の4ペアだけである。つまり、この4つのプライマー候補配列ペアが、第1の鋳型鎖(A+鎖)のフォーワード配列及びリバース配列がプライマー配列として採用され、決定される。
 同様に、まず、第2の鋳型鎖(B+鎖)の1以上のフォーワードプライマー候補配列及び第2の鋳型鎖(B+鎖)の1以上のリバースプライマー候補配列の中から、(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合と、(II)異なる標的部位のプライマー配列が既に1以上決定されている場合に分けて、所定の配列の組み合わせ(ペア)を作り、その各組み合わせの配列間でローカルアライメント・スコアを算出し、その値が所定の閾値を超えているか否かに基づいて、B+鎖における部分配列切出部28で選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列を採用し、決定する(ステップS322)。
 全てのプライマー対について、PCR増幅産物の長さが所定の範囲内にあるか否かの判定が終了すれば、部分配列切出部28(部分配列切出工程)において、全ての標的部位を選択したか否か判定する(ステップS24)。
 全ての標的部位が選択されていなければ、部分配列切出工程S18に戻って、別の標的部位の選択を行い(ステップS280)、全ての標的部位が選択されていれば、終了する。
(制御部)
 制御部34は、プライマー設計処理部18内の各部だけでなく、入力部12、格納部14、及び出力部16にも直接的または間接的に接続し、入力部12からのユーザの指示に基づいて、または、格納部14に格納された所定の動作プログラム等に基づいて、プライマー設計装置10の各部を制御して、プライマーを設計するものであり、例えば、コンピュータ等のCPU(Central Processing Unit:中央処理装置)等で構成される。
 制御部34は、プライマー候補配列選抜部30において、全ての部分配列が所定の選抜基準を全て満たすか否かの判定が終了するまで(ステップS310)、判定作業(ステップS300~S308)を繰り返すように制御する。
 制御部34は、プライマー配列決定部32において、作製された全てのプライマー対について、PCR増幅産物の長さが所定の範囲内にあるか否かの判定が終了するまで、判定作業(ステップ320)を繰り返すように制御する。
 制御部34は、プライマー配列決定部32において、所定の標的部位に係るプライマー配列ペアが少なくとも1つ決定するまで、(I)及び(II)の[1]で選択したプライマー候補配列ペアの中から異なるペアを1つ選択し、(I)及び(II)の[2]及び[3]の工程の実施を繰り返し、所定の標的部位に係るプライマー配列ペアが決定されない場合は、部分配列切出工程(ステップS18、S280~S282)において、異なる標的部位を1つ選択し、プライマー候補配列選抜工程(ステップS20、S300~S312)及びプライマー配列決定工程(ステップS22、S320~S322)を行うよう制御する。
 制御部34は、部分配列切出部28において、標的部位情報取得部22で取得した全ての標的部位が検出されるまで(ステップS24)、部分配列切出工程(ステップS18、S280~S282)、プライマー候補配列選抜工程(ステップS20、S300~S312)、及びプライマー配列決定工程(ステップS22、S320~S322)を繰り返す、繰り返し工程が実施されるように、部分配列切出部28、プライマー候補配列選抜部30及びプライマー配列決定部32を制御する。
 本発明の実施形態1のプライマー設計装置10によれば、優れた設計成功率でアンプリコンメチル化シーケンス解析用のプライマーを設計できる。また、その設計に基づくプライマーを獲得することができる。その結果、より多くの標的部位にプライマーを設計しメチル化度の計測を行うことができる。
[変形例1]
 次に、本発明の実施形態1の変形例1に係るプライマー設計装置について説明する。なお、この変形例1に係るプライマー設計装置において、実施形態1と同様の処理については、その説明を省略する。
 実施形態1では、プライマー配列決定において、ローカルアライメント・スコアを算出するプライマー候補配列ペアの数、及び、所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列の数を特に限定していないが、これに限定されず、全てのペアについてスコアを算出し、各標的部位を含む領域を増幅するプライマー配列ペアを1つのみ選択することもできる。
 この変形例1において、プライマー配列決定部32は、以下に示す工程を実施することもできる。
 (I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
 上記[2]の工程において、上記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択されたプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
 上記[3]の工程において、算出されたローカルアライメント・スコアが、所定の閾値以下であるローカルアライメント・スコアを算出した1以上のプライマー候補配列ペアを選抜し、さらに、選抜された全ペアの中から、上記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、上記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する。
 (II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
 上記[2]の工程において、上記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、上記選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
 上記[3]の工程において、各ペアについて、算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを選抜し、さらに、上記選抜された全ペアの中から、上記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する。
 このような工程を実施することにより、所定の標的部位を含む領域を増幅することが可能な1以上のプライマー配列ペアの中から、プライマー・ダイマー形成率が最も低く、且つ、プライマー設計成功率が最も高いペアをプライマー配列として決定することができるという効果を有する。
 例えば、上記[2]の工程において、図6Bに示すプライマー候補配列ペアの中から全てのペアを選択し、各ペアが算出したローカルアライメント・スコアの最大値が表1に示すとおりであったとする。所定の閾値を3と設定した場合、所定の閾値以下のスコアの最大値を有するペアは、最大値が3以下の4ペア選抜され、さらに、前記選抜された全ペアの中から、前記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアは、「フォーワード候補配列FC2」と「リバース候補配列RC2」のプライマー候補配列ペアであるため、このペアが、所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用及び決定される。
[変形例2]
 次に、本発明の実施形態1の変形例2に係るプライマー設計装置について説明する。なお、この変形例2に係るプライマー設計装置において、実施形態1と同様の処理については、その説明を省略する。
 実施形態1においては、ユーザがプライマー設計率を設定することなく、プライマーを設計したが、これに限定されず、事前に設定された、ユーザが所望するプライマー設計成功率に基づいて、プライマー設計を行うこともできる。
 予め、実施形態1及び各変形例に記載のプライマー設計装置(方法)を用いて、少なくとも、所定の閾値と、標的部位(計測サイト)の数、プライマー設計成功率との対応関係を計測しておき、その対応関係を格納部14に保存する。ここで、「所定の閾値」は、1~4であれば特に限定されない。
 X、Y、Zが全て整数の場合、標的部位が1000個未満であれば、閾値1、2、3、4全てについて対応関係を作成しておくことが好ましい。標的部位が1000個以上であれば、少なくとも2個以上の閾値について対応関係を作成しておくことが好ましい。X、Y、Zに非整数を含む場合、標的部位が1000個未満であれば、少なくとも5個以上の対応関係を作成しておくことが好ましい。標的部位が1000個以上であれば、少なくとも2個以上の閾値について対応関係を作成しておくことが好ましい。
 ユーザが入力部12を介して、少なくとも、ユーザが所望するプライマー設計成功率と、標的部位の数を設定し、プライマー設計を実行するよう指示を入力すると、プライマー配列決定部32は、格納部14に保存された対応関係の中から、上記プライマー設計成功率及び上記標的部位の数の設定値以上、且つ、その差が小さい上記プライマー設計成功率及び上記標的部位の数に対応する上記所定の閾値を読み出し、その所定の閾値に基づいて、プライマー配列を決定する。
 このような変形例2のプライマー設計装置により、ユーザは、試料が少ない場合や、所望するプライマー設計成功率又は複数のプライマー設計成功率におけるプライマー設計を試みたい場合等、プライマー設計時の背景や事情に応じて、容易且つコスト負担が少なくプライマー配列を設計することができる。また、その設計に基づくプライマーを獲得することができる。
 図9を参照して、プライマー配列決定の際に使用される閾値の選択方法を具体的に説明する。図9は、事前に、実施形態1及び各変形例に記載のプライマー設計装置(方法)を用いて、100個の標的部位に係るプライマーを設計し、各ペアのローカルアライメント・スコアを判定する閾値を1~4の整数として計測されたプライマー設計成功率、即ち、所定の閾値と、標的部位(計測サイト)の数、プライマー設計成功率との対応関係を示す。この対応関係は、格納部17に保存されている。
 例えば、ユーザが30%以上のプライマー設計成功率を望む場合、ユーザは入力部12を介して、少なくとも、プライマー設計成功率を30%、標的部位の数を100と設定し、プライマー設計を実行するよう指示を入力する。格納部14にある対応関係の中から条件を満たす標的部位の数100、及びユーザが所望するプライマー設計成功率である30%より大きく、且つ、最も近い31%のプライマー設計成功率に対応する閾値2がプライマー配列決定部32に読み出され、その対応関係における閾値2に基づいて、プライマー配列決定工程を実行し、31部位分のプライマー配列ペアを獲得する。
[変形例3]
 次に、本発明の実施形態1の変形例3に係るプライマー設計装置について説明する。なお、この変形例3に係るプライマー設計装置において、実施形態1と同様の処理については、その説明を省略する。
 実施形態1においては、メチル化され得るシトシン(C)をCG配列中のシトシン(C)のみとし、その中からピックアップされたシトシン(C)を標的部位としたが、これに限定されず、さらに、メチル化され得るシトシン(C)にCHG配列中のシトシン(C)を含んでもよく、また、その中からピックアップされたシトシン(C)を標的部位としてもよい。
 この変形例3において、標的部位情報取得部22は、さらに、入力部12を介して、塩基配列データ取得部20で取得されたゲノム二本鎖DNAに含まれる2以上の標的部位、及びその位置情報を取得する。
 塩基変換部24は、さらに、塩基配列データ取得部20から取得したテンプレートDNA上のCHG配列のシトシン(C)も「Y」へ変換し、その他の配列(即ち、CG配列及びCHG配列以外の配列)のシトシン(C)は、チミン(T)へ変換する。
 プライマー候補配列選抜部30は、部分配列切出部28で切り出された各鎖の1以上の部分配列から、さらに、以下の項目(4)を含む所定の選抜条件(1)~(4)を全て満たすものをプライマー候補配列として選抜する。
(4)部分配列上に含まれるYHG配列またはCDR配列が所定の数以下であること
 ここで、上記(4)の条件にかかる、「部分配列上に含まれるYHG配列またはCDR配列」の数は、特に限定されないが、本発明の所望の効果を顕著に得る観点から、好ましくは2以下であり、より好ましくは1以下であり、特に好ましくは0である。
 この条件を満たすことにより、プライマーと、プライマー接合部位におけるCHG配列のシトシン(C)との接合による影響を少なくすることができる。
 この本発明の実施形態1の変形例3のプライマー設計装置により、容易に、且つ、短時間で、CHG配列にも対応したアンプリコンメチル化シーケンス解析用のプライマーを設計することができる。また、その設計に基づくプライマーを獲得することができる。その結果、これら配列に係る解析も可能になるため、DNAのメチル化の状態(メチル化度)をより詳細に解析することができる。
 なお、変形例3は、既出の変形例1または2とも組み合わせ可能である。
[変形例4]
 次に、本発明の実施形態1の変形例4に係るプライマー設計装置について説明する。なお、この変形例4に係るプライマー設計装置において、実施形態1と同様の処理については、その説明を省略する。
 実施形態1においては、メチル化され得るシトシン(C)をCG配列中のシトシン(C)のみとし、その中からピックアップされたシトシン(C)を標的部位としたが、これに限定されず、さらに、メチル化され得るシトシン(C)にCHH配列中のシトシン(C)を含んでもよく、また、その中からピックアップされたシトシン(C)を標的部位としてもよい。
 この変形例4において、標的部位情報取得部22は、さらに、入力部12を介して、塩基配列データ取得部20で取得されたゲノム二本鎖DNAに含まれる2以上の標的部位、及びその位置情報を取得する。
 塩基変換部24は、さらに、塩基配列データ取得部20から取得したテンプレートDNA上のCHH配列のシトシン(C)も「Y」へ変換し、その他の配列(即ち、CG配列及びCHH配列以外の配列)のシトシン(C)は、チミン(T)へ変換する。
 プライマー候補配列選抜部30は、部分配列切出部28で切り出された各鎖の1以上の部分配列から、さらに、以下の項目(5)を含む所定の選抜条件(1)~(3)及び(5)を全て満たすものをプライマー候補配列として選抜する。
(5)部分配列上に含まれるYHH配列またはDDR配列が所定の数以下であること
 ここで、上記(5)の条件にかかる、「部分配列上に含まれるYHH配列またはDDR配列」の数は、特に限定されないが、本発明の所望の効果を顕著に得る観点から、好ましくは2以下であり、より好ましくは1以下であり、特に好ましくは0である。
 この条件を満たすことにより、プライマーと、プライマー接合部位におけるCHH配列のシトシン(C)との接合による影響を少なくすることができる。
 この本発明の実施形態1の変形例4のプライマー設計装置により、容易に、且つ、短時間で、CHH配列にも対応したアンプリコンメチル化シーケンス解析用のプライマーを設計することができる。また、その設計に基づくプライマーを獲得することができる。その結果、これら配列に係る解析も可能になるため、DNAのメチル化の状態(メチル化度)をより詳細に解析することができる。
 なお、変形例4は、既出の変形例1または2とも組み合わせ可能である。また、変形例4は、既出の変形例3と組み合わせ可能である。つまり、メチル化され得るシトシン(C)にCHG配列及びCHH配列中のシトシン(C)の両方を含んでもよく、また、その中からピックアップされたシトシン(C)を標的部位としてもよい。
 このような場合、プライマー候補配列選抜部30は、部分配列切出部28で切り出された各鎖の1以上の部分配列から、さらに、選抜条件(1)~(5)を全て満たすものをプライマー候補配列として選抜する。
[変形例5]
 次に、本発明の実施形態1の変形例5に係るプライマー設計装置について説明する。なお、この変形例4に係るプライマー設計装置において、実施形態1と同様の構成については、同一の符号を付し、実施形態1と同様の処理については、その説明を省略する。
 実施形態1においては、DNA二本鎖のどちらも増幅し解析するために、二組のプライマーを設計する装置及び方法を示したが、これに限定されず、DNA二本鎖のいずれかの鎖のみを解析する場合は、一組のプライマーを設計するだけでよい。つまり、図3Bにおいて、A鎖とB鎖に基づいてプライマーを設計したが、A鎖のみに基づいてプライマーを設計すればよい。
 また、DNAの維持メチル化機構が働いていると考えられる場合は、一組のプライマーのみを設計すれば良い。DNAの一方の鎖のCG配列中のCがメチル化されている場合は、他方の鎖のCG配列中のCもメチル化されている可能性が、一方の鎖のCG配列中のCがメチル化されていない場合は他方の鎖のCG配列中のCもメチル化されていない可能性が、非常に高いからである。なお、このような場合において、片方の鎖に基づいて一組のプライマーが設計できない時は、もう片方の鎖に基づいてプライマー設計を行えばよい。
 このように、一組のプライマーのみを設計する場合、相補鎖生成部26において、図3Cに示すA+鎖の塩基配列に対し相補的な塩基配列を持つ相補鎖A-のみを作製する。
 次いで、部分配列切出部28は、標的部位情報取得部22で取得した2以上の標的部位の中から、標的部位を1つ選択し(ステップS280)、その選択された標的部位の位置情報に基づいて、A+鎖及びA-鎖のDNA配列から、選択された標的部位の「Y」又はそれに相補的な「R」(即ち、標的部位にあり、メチル化サイトにある塩基)を検出し、検出された「Y」及び「R」の5’末端側に位置する塩基配列(図3Dの(1)及び(2))から所定の長さの部分配列の中から切り出せるだけ切り出し(ステップS282)、1以上の部分配列を取得する。
 プライマー候補配列選抜部30は、図2に示すプライマー候補配列選抜工程S20を実施する部分であり、部分配列切出部28で切り出された各鎖の1以上の部分配列から、所定の選抜条件(1)~(3)を全て満たすものをプライマー候補配列として選抜する。
 第1の鋳型鎖(A+鎖)から切り出された1以上の部分配列(即ち、図3Dの(1)から切り出された1以上の部分配列)が、所定の選抜条件を満たすものは、第1の鋳型鎖(A+鎖)のフォーワードプライマー候補配列として選抜し、第1の相補鎖(A-鎖)から切り出された1以上部分配列(即ち、図3Dの(2)から切り出された1以上の部分配列)が、所定の選抜条件を満たすものは、第1の鋳型鎖(A+鎖)のリバースプライマー候補配列として選抜する。
 プライマー配列決定部32は、選抜された第1の鋳型鎖(A+鎖)の1以上のフォーワードプライマー候補配列及び第1の鋳型鎖(A+鎖)の1以上のリバースプライマー候補配列の中から、(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合と、(II)異なる標的部位のプライマー配列が既に1以上決定されている場合に分けて、所定の配列の組み合わせ(ペア)を作り、その各組み合わせの配列間でローカルアライメント・スコアを算出し、その値が所定の閾値を超えているか否かに基づいて、A+鎖における部分配列切出部28で選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する。
 なお、変形例5は、既出の変形例1~4の少なくとも1つと組み合わせ可能である。
[実施形態2]
 図10は、本発明の実施形態2に係るプライマー設計装置の一例を概念的に示すブロック図である。実施形態1のプライマー設計装置10は、通信インターフェース(通信装置)を備えることもできる。
 図10に示す実施形態2のプライマー設計装置10Aは、図1に示す実施形態1のプライマー設計装置10と、通信インターフェース36を有する以外は、同様の構成を有するものであるので、同一の構成要素には、同一の参照符号を付し、その説明は省略する。
 図11に示すように、プライマー設計装置10Aは、インターネット等の通信回線網38を介して、装置外に設置された公共データベースを備える検索サーバ42に接続可能である。
 本実施形態の装置10Aは、通信インターフェース36を介して、塩基配列データ取得部20、標的部位情報取得部22、塩基変換部24、相補鎖生成部26、部分配列切出部28、プライマー候補配列選抜部30、及びプライマー配列決定部32の少なくとも1つを、外部のサーバ40のサイトにあるプログラムで実行することができる。なお、このような場合は、本実施形態のプライマー設計装置10Aは、外部のサーバのプログラムで実行する各手段については含まなくてもよい。
 例えば、通信インターフェース36は、制御部34の指示に基づき、通信回線網38を介して、公共データベースから遺伝子及びゲノムを含むDNA塩基配列を取得し、格納部14に格納することができる。ここで、公共データベースの例としては、米国NCBI(National Center for Biotechnology Information:米国・国立生物工学情報センター)のGenBank、EMBL(European Molecular Biology Laboratory:欧州分子生物学研究所)のENA、国立遺伝学研究所のDDBJ等が挙げられる。
 公共データベースから取得する塩基配列は、プライマーを設計する生物種のゲノムDNAの塩基配列の部分配列であってもよいが、全配列であることが好ましい。
 例えば、通信インターフェース36は、制御部34の指示に基づき、通信回線網38を介して、公共の検索サーバ42を用いて、配列の相同性検索を行い、プライマー配列決定部32のローカルアライメント検索等を行うことができる。ここで、公共の検索サーバ42としては、米国NCBI(National Center for Biotechnology Information:米国・国立生物工学情報センター)のBLAST等が挙げられる。
[実施形態3]
 実施形態3は、実施形態1及び2に係るプライマー設計装置及び設計方法により設計されたプライマー配列に基づきプライマーを合成して、プライマーを製造する方法である。
 プライマーの設計方法は、実施形態1及び2に示すとおりである。
 プライマーの合成方法は、公知の方法を使用することができ、例えば、DNA合成装置やRNA合成装置により、dNTP(Deoxyribonucleoside triphosphate:デオキシリボヌクレオシド三リン酸)等を材料として、末端塩基から化学合成する方法等があげられる。合成装置としては、市販品を使用することができる。
 本発明の装置は、装置が備える各々の構成要素を専用のハードウェアで構成してもよいし、各々の構成要素をプログラムされたコンピュータで構成してもよい。
 本発明の方法は、例えば、その各々のステップをコンピュータに実行させるためのプログラムにより実施することができる。また、このプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供することもできる。
 以上、本発明について詳細に説明したが、本発明は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。
[実施例1、比較例1]
 本実施形態1のプライマー設計装置を用いて、リファレンスゲノムGRCh37(GenBank assembly accession: GCA_000001405.1、RefSeq assembly accession: GCF_000001405.13)の塩基配列データ、表1に示すランダムに選択した100箇所の計測サイト(標的部位)及びその位置情報に基づく、70bp~120bpのPCR増幅産物の長さのマルチプレックスPCR用のプライマーを設計した。なお、プライマーの長さは、20~35塩基(mer)、メチル化され得るCは、CG配列中のCのみとしてプライマーを設計した。また、部分配列を判定する条件は以下のように設定した。
条件(1):Tm値が55℃~65℃にあること
条件(2):部分配列上に含まれるYG配列またはCR配列が0であること
条件(3):関連領域外の配列との接合数の上限が2であること
 ローカルアライメント・スコアの算出にあたり、実施例1は、配列間において、〈1〉塩基が相補的なペアは1か所あたり「X」=1、〈2〉非相補的なペアは1か所あたり「Y」=-3、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」=-6とし、閾値は、1と設定した。
 一方、比較例1は、配列間において、〈1〉塩基が相補的なペアは1か所あたり「X」=1、〈2〉非相補的なペアは1か所あたり「Y」=-1、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」=-2とし、閾値は、0と設定した。
 表3に、実施例1及び比較例1の各計測サイトのプライマー設計の成否、及びプライマー設計の成否の結果から算出されたプライマー設計成功率を示す。また、表4に、実施例1において設計できたプライマーを示し、表5に、比較例1において設計できたプライマーを示す。各プライマーペアは、ローカルアライメント・スコアの最大値が閾値以下となった最初のペアを採用した。
 表3に示すように、各プライマー設計成功率は、実施例1で62%、比較例1で4%であった。この結果より、プライマー配列決定工程においてローカルアライメント・スコアの最大値に対する閾値を所定の範囲に設定することで、プライマー設計成功率が高まることが確認された。
[実施例1~4、比較例2~4]
 本実施形態1のプライマー設計装置を用いて、リファレンスゲノムGRCh37(GenBank assembly accession: GCA_000001405.1、RefSeq assembly accession: GCF_000001405.13)の塩基配列データ、ランダムに選択した表1に示す100箇所の計測サイト(標的部位)及びその位置情報に基づく、70bp~120bpのPCR増幅産物の長さのマルチプレックスPCR用のプライマー配列を設計した。なお、プライマーの長さは、20~35塩基(mer)、メチル化され得るCは、CG配列中のCのみとしてプライマーを設計した。また、部分配列を選定する条件は以下のように設定した。
条件(1):Tm値が55℃~65℃にあること
条件(2):部分配列上に含まれるYG配列またはCR配列が0であること
条件(3):関連領域外の配列との接合数の上限が2であること
 ローカルアライメント・スコアの算出にあたり、配列間において、〈1〉塩基が相補的なペアは1か所あたり「X」=1、〈2〉非相補的なペアは1か所あたり「Y」=-3、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」=-6とした。
 実施例1~4及び比較例2~4の閾値は、それぞれ、表6に示すように設定された。
 また、各実施例及び比較例で使用されたローカルアラインメント・スコアに関する条件(スコア算出に使用するパラメータ、及び閾値)と同じプライマーのダイマー形成率も算出した。別途選択した91の標的部位を増幅する、2本のプライマーの間のローカルアライメント・スコアが0~6に分布する1組のプライマーセットを用意し(即ち、各標的部位について1ペアずつ設計され、合計182本のプライマーを用意する)、バイサルファイト処理を施した標品DNA(Zymo Research社 Human WGA Methylated DNA) をマルチプレックスPCRにて増幅した。得られた増幅産物の配列を次世代シーケンサー(illumina社 MiSeq)により取得した。ここで、取得された配列は、標的部位を含む目的の増幅産物、プライマー・ダイマー、その他の非特異増幅産物からなる。コンピュータ内で、用意したプライマー配列から生じ得る全てのプライマー・ダイマー配列を生成し、次世代シーケンサーにより取得した配列と照合および集計することによって、実際に生成されたプライマー・ダイマー配列及びその本数を検出した。用意したプライマー配列から選ばれる全ての2配列の組み合わせを、ローカルアライメント・スコアに従って、0~6の7群に振り分けた。各群に所属する2配列の数のうち、実際にプライマー・ダイマーが生成された(次世代シーケンサーで10本以上の配列が取得された)割合を計算し、ダイマー形成率とした。
 表7に、実施例1~4及び比較例2~4の各計測サイトのプライマー設計の成否、及びプライマー設計の成否の結果から算出されたプライマー設計成功率を示す。また、実施例2~4において設計できたプライマーを表8~10に示し、比較例2~4において設計できたプライマーを表11~13に示す。 図12Aに、各実施例及び比較例に基づく、プライマー配列決定の際に設定された各閾値に対するプライマー設計成功率、図12Bに、各実施例及び比較例で設計された各閾値に対するダイマー形成率を示す。
Figure JPOXMLDOC01-appb-T000009
Figure JPOXMLDOC01-appb-T000010
Figure JPOXMLDOC01-appb-T000012
Figure JPOXMLDOC01-appb-T000013
 表7、図12A及び図12Bに示されるように、ローカルアライメント・スコアの最大値が閾値1~4の整数で判定され、採用されたプライマー配列ペア(実施例1~4)は、高いプライマー設計成功率を獲得しつつ、ダイマーの形成も2%以下と極めて低く抑えられることがわかる。一方、ローカルアライメント・スコアの最大値が閾値0、5及び6で判定され、採用されたプライマー配列ペア(比較例2~4)は、低いダイマー形成率であっても、プライマー設計成功率が低い結果、または、高い設計成功率を獲得していても、ダイマー形成率が高い結果が生じていることがわかる。
 なお、比較例3のプライマー設計成功率(84%)が実施例4のプライマー設計成功率(82%)を僅かに上回っている。しかし、実施例4、即ち、本願発明に係る設計及び製造したプライマーを用いてマルチプレックスPCRを行った場合では、ダイマー形成率が2%以下に抑えられるのに対し、比較例3、即ち、ローカルアライメント・スコアの最大値が本願発明に係る数値範囲を外れた閾値5で判定された場合では、採用されたプライマー配列ペアのうち20%程度でダイマーが形成されている。そのため、比較例3で設計、製造されたプライマー配列ペアをマルチプレックスPCRに使用した場合、所望の標的部位を増幅できない、多量のプライマー・ダイマーが生成されて増幅した別の標的部位のシーケンスを阻害する等の問題が生じ、破綻する可能性が高い。
 10、10A プライマー設計装置
 12 入力部
 14 格納部
 16 出力部
 18 プライマー設計処理部
 20 塩基配列データ取得部
 22 標的部位情報取得部
 24 塩基変換部
 26 相補鎖生成部
 28 部分配列切出部
 30 プライマー候補配列選抜部
 32 プライマー配列決定部
 34 制御部
 36 通信インターフェース
 38 通信回線網
 40 サーバ
 42 検索サーバ
 本発明で設計されたプライマーは、創薬・診断・その他バイオ産業分野において、生体試料のDNAメチル化度計測に利用可能である。

Claims (20)

  1.  少なくとも1本のゲノム二本鎖DNAのメチル化度の計測のために、バイサルファイト反応又は酵素反応、及びマルチプレックスPCRを利用し、前記メチル化度を計測する2以上の標的部位をそれぞれ含む複数の領域を同時に増幅するために用いられるアンプリコンメチル化シーケンス解析用のプライマーを設計するための方法であって、
     前記DNAの鋳型鎖に対し相補鎖を生成する相補鎖生成工程と、
     前記2以上の標的部位の中から1つ選択し、前記各鎖から、その選択された標的部位の5’末端側に位置する塩基配列の中から、所定の長さの部分配列を1以上切り出す部分配列切出工程と、
     前記切り出された1以上の部分配列を1以上のプライマー候補配列として選抜するプライマー候補配列選抜工程と、
     前記1以上のプライマー候補配列の中から、前記選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列を採用し、決定するプライマー配列決定工程と、
     前記部分配列切出工程において、前記2以上の標的部位が全て選択されるまで、前記部分配列切出工程、前記プライマー候補配列選抜工程、及び前記プライマー配列決定工程を繰り返す、繰り返し工程と、
    を有し、
    (I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
      前記プライマー配列決定工程は、
       [1] 前記1以上のプライマー候補配列から前記所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
       [2] 前記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、前記選択したプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
       [3]前記所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
    (II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
      前記プライマー配列決定工程は、
       [1]前記1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
       [2]前記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、前記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、前記選択した候補配列ペアの配列間のローカルアライメント・スコアを算出し、
       [3]算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定するものであって、
     前記(I)及び前記(II)の前記[3]の工程において、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用されない場合は、前記(I)及び前記(II)の[1]で選択された前記1以上のプライマー候補配列ペアの中から、異なる1つのペアを選択し、少なくとも1つのプライマー候補配列ペアが採用されるまで、前記[2]及び[3]の工程を繰り返し、
     前記ローカルアライメント・スコアは、前記プライマー候補配列間における、〈1〉塩基が相補的なペアは1か所あたり「X」、〈2〉非相補的なペアは1か所あたり「Y」、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」とした場合、前記「X」は1、前記「Y」は-4~-2、及び前記「Z」は-6~-3で算出し、
     前記所定の閾値は、1~4である、
     アンプリコンメチル化シーケンス解析用プライマー設計方法。
  2.  前記プライマー配列決定工程は、
     前記(I)標的部位が2以上であって、異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
      前記[2]の工程において、前記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択されたプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
      前記[3]の工程において、算出されたローカルアライメント・スコアが、前記所定の閾値以下であるローカルアライメント・スコアを算出した1以上のプライマー候補配列ペアを選抜し、さらに、選抜された全ペアの中から、前記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
     前記(II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
      前記[2]の工程において、前記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、前記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、前記選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
      前記[3]の工程において、各ペアについて、算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを選抜し、さらに、前記選抜された全ペアの中から、前記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する、
     請求項1に記載のアンプリコンメチル化シーケンス解析用プライマー設計方法。
  3.  前記ゲノム二本鎖DNAの塩基配列データを取得する塩基配列データ取得工程と、
     前記2以上の標的部位及びその位置情報を取得する標的部位情報取得工程と、
     前記塩基配列データにおいて、前記ゲノム二本鎖DNAにおいて、メチル化され得る「C」を「Y」へ変換し、その他の「C」は、「T」へ変換する塩基変換工程と、
    をさらに有し、
     前記相補鎖生成工程は、前記塩基変換後のゲノム二本鎖DNAの各鋳型鎖に対し相補鎖を生成し、
     前記部分配列切出工程は、前記2以上の標的部位の中から1つ選択し、その選択された標的部位の位置情報に基づいて、前記各鎖から、前記選択された標的部位が変換された前記「Y」又はそれに相補的な「R」の5’末端側に位置する塩基配列の中から所定の長さの部分配列を1以上切り出し、
     前記プライマー候補配列選抜工程は、前記各鎖から切り出された1以上の部分配列の中から、所定の選抜条件を満たすものをプライマー候補配列として選抜し、
     前記メチル化され得る「C」とは、CG配列中の「C」であり、
     前記所定の選抜条件は、
    (1)Tm値が所定の範囲内にあること、
    (2)前記部分配列上に含まれるYG配列またはCR配列が所定の数以下であること、及び
    (3)前記塩基変換後のゲノム二本鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であること
    を含む、請求項1に記載のアンプリコンメチル化シーケンス解析用プライマー設計方法。
     [但し、「C」、「G」、「Y」及び「R」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「R」はアデニン又はグアニンを表す。]
  4.  前記メチル化され得る「C」は、さらに、CHG配列中の「C」を含み、
     前記所定の選抜条件は、さらに、(4)前記部分配列上に含まれるYHG配列またはCDR配列が所定の数以下であることを含む、請求項3に記載のプライマー設計方法。
    [但し、「C」、「G」、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す。]
  5.  前記メチル化され得る「C」は、さらに、CHH配列中の「C」を含み、
    前記所定の選抜条件は、さらに、(5)前記部分配列上に含まれるYHH配列またはDDR配列が所定の数以下であることを含む、請求項3に記載のプライマー設計方法。
    [但し、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す。]
  6.  プライマー候補配列選抜工程は、
     前記塩基変換後のゲノム二本鎖DNAを第1の鋳型鎖及び第2の鋳型鎖とし、前記第1の鋳型鎖の相補鎖を第1の相補鎖、前記第2の鋳型鎖の相補鎖を第2の相補鎖として、
     前記第1の鋳型鎖から切り出された1以上の部分配列が、所定の選抜条件を満たすものは、第1の鋳型鎖のフォーワードプライマー候補配列として選抜し、前記第1の相補鎖から切り出された1以上部分配列が、前記所定の選抜条件を満たすものは、第1の鋳型鎖のリバースプライマー候補配列として選抜し、前記第2の鋳型鎖から切り出された1以上の部分配列が、前記所定の選抜条件を満たすものは、第2の鋳型鎖のフォーワードプライマー候補配列として選抜し、第2の相補鎖から切り出された1以上の部分配列が、前記所定の選抜条件を満たすものは、第2の鋳型鎖のリバースプライマー候補配列として選抜する工程である、請求項3に記載のプライマー設計方法。
  7.  前記プライマー配列決定工程は、前記プライマー候補配列選抜工程において、前記選抜された1以上の第1の鋳型鎖のフォーワードプライマー候補配列と前記選抜された1以上の第1の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、前記算出されたPCR増幅産物の長さが所定の範囲内にあるプライマー候補配列の組み合わせを、前記部分配列切出工程において選択された前記標的部位を含む領域を増幅する前記第1の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用し、前記選抜された第2の鋳型鎖のフォーワードプライマー候補配列と前記選抜された第2の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、前記算出されたPCR増幅産物の長さが前記所定の範囲内にあるプライマー候補配列の組み合わせを、前記部分配列切出工程において選択された前記標的部位を含む領域を増幅する前記第2の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用して決定する工程である、請求項3に記載のプライマー設計方法。
  8.  予め、請求項1に記載のプライマー設計方法を用いて、少なくとも、前記標的部位の数と、前記所定の閾値と、前記プライマー設計成功率との対応関係を計測し、前記対応関係を格納部に保存し、
     ユーザが入力部を介して、少なくとも、前記ユーザが所望するプライマー設計成功率、及び前記標的部位の数を設定し、プライマー設計を実行するよう指示すると、前記格納部に保存された上記対応関係の中から、前記プライマー設計成功率及び前記標的部位の数の設定値以上、且つ、差が小さい前記プライマー設計成功率及び前記標的部位の数に対応する前記所定の閾値を読み出し、
     読み出された前記所定の閾値に基づいて、前記1以上のプライマー候補配列の中から、前記所定の標的部位を含む領域を増幅するプライマー配列を採用し、決定する、請求項1に記載のプライマー設計方法。
  9.  プライマー設計工程と、
     前記プライマー設計工程で設計されたプライマー配列に基づきプライマーを合成する合成工程と、
    を備え、
     前記プライマー設計工程が、請求項1に記載のプライマー設計方法により実施されることを特徴とする、プライマーの製造方法。
  10.  少なくとも1本の二本鎖DNAのメチル化度の計測のために、バイサルファイト反応又は酵素反応、及びマルチプレックスPCRを利用し、前記メチル化度を計測する2以上の標的部位をそれぞれ含む複数の領域を同時に増幅するために用いられるアンプリコンメチル化シーケンス解析用のプライマーを設計するための装置であって、
     前記DNAの鋳型鎖に対し相補鎖を生成する相補鎖生成部と、
     前記2以上の標的部位の中から1つ選択し、前記各鎖から、その選択された標的部位の5’末端側に位置する塩基配列の中から、所定の長さの部分配列を1以上切り出す部分配列切出部と、
     前記切り出された1以上の部分配列を1以上のプライマー候補配列として選抜するプライマー候補配列選抜部と、
     前記1以上のプライマー候補配列の中から、前記選択された所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列を採用し、決定するプライマー配列決定部と、
     前記部分配列切出部において、前記2以上の標的部位が全て選択されるまで、前記部分配列切出部、前記プライマー候補配列選抜部、及び前記プライマー配列決定部の各処理を繰り返すよう制御する制御部と、
    を有し、
    (I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
      前記プライマー配列決定工程は、
       [1] 前記1以上のプライマー候補配列から前記所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
       [2] 前記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、前記選択したプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
       [3]前記所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
    (II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
      前記プライマー配列決定工程は、
       [1]前記1以上のプライマー候補配列から所定の標的部位にかかる1以上のプライマー候補配列ペアを選択し、
       [2]前記所定の標的部位の1以上のプライマー候補配列ペアから1つのペアを選択し、各ペアについて、前記選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
       [3]算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定するものであって、
     前記(I)及び前記(II)の前記[3]の工程において、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用されない場合は、前記(I)及び前記(II)の[1]で選択された前記1以上のプライマー候補配列ペアの中から、異なる1つのペアを選択し、少なくとも1つのプライマー候補配列ペアが採用されるまで、前記[2]及び[3]の工程を繰り返し、
     前記ローカルアライメント・スコアは、前記プライマー候補配列間における、〈1〉塩基が相補的なペアは1か所あたり「X」、〈2〉非相補的なペアは1か所あたり「Y」、及び、〈3〉挿入または欠失がある場合は1か所あたり「Z」とした場合、前記「X」は1、前記「Y」は-4~-2、及び前記「Z」は-6~-3で算出し、
     前記所定の閾値は、1~4である、
     アンプリコンメチル化シーケンス解析用プライマー設計装置。
  11.   前記プライマー配列決定部は、
      前記(I)異なる標的部位のプライマー配列が未だ1以上決定されていない場合は、
      前記[2]の工程において、前記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択されたプライマー候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
      前記[3]の工程において、算出されたローカルアライメント・スコアが、所定の閾値以下であるローカルアライメント・スコアを算出した1以上のプライマー候補配列ペアを選抜し、さらに、選抜された全ペアの中から、前記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定し、
     前記(II)異なる標的部位のプライマー配列が既に1以上決定されている場合は、
      前記[2]の工程において、前記所定の標的部位の1以上のプライマー候補配列ペアから全てのペアを選択し、各ペアについて、選択したプライマー候補配列ペアの各候補配列と、既に決定された異なる標的部位の各プライマー配列との間のローカルアライメント・スコア、及び、前記選択した候補配列ペアの配列間におけるローカルアライメント・スコアを算出し、
      前記[3]の工程において、各ペアについて、算出された全てのローカルアライメント・スコアの中から最大値を検出し、その値が所定の閾値以下であるローカルアライメント・スコアを算出したプライマー候補配列ペアを選抜し、さらに、前記選抜された全ペアの中から、前記ローカルアライメント・スコアの最大値が最も小さい値を有するプライマー候補配列ペアを検出し、前記所定の標的部位を含む領域を増幅するフォーワードプライマー配列及びリバースプライマー配列として採用し、決定する、
     請求項10に記載のアンプリコンメチル化シーケンス解析用プライマー設計装置。
  12.  前記ゲノム二本鎖DNAの塩基配列データを取得する塩基配列データ取得部と、
     前記2以上の標的部位及びその位置情報を取得する標的部位情報取得部と、
     前記塩基配列データにおいて、前記ゲノム二本鎖DNAにおいて、メチル化され得る「C」を「Y」へ変換し、その他の「C」は、「T」へ変換する塩基変換部と、
    を更に有し、
     前記相補鎖生成部は、前記塩基変換後のゲノム二本鎖DNAの各鋳型鎖に対し相補鎖を生成し、
     前記部分配列切出部は、前記2以上の標的部位の中から1つ選択し、その選択された標的部位の位置情報に基づいて、前記各鎖から、前記選択された標的部位が変換された前記「Y」又はそれに相補的な「R」の5’末端側に位置する塩基配列の中から所定の長さの部分配列を1以上切り出し、
     前記プライマー候補配列選抜部は、前記各鎖から切り出された1以上の部分配列の中から、所定の選抜条件を満たすものをプライマー候補配列として選抜し、
     前記メチル化され得る「C」とは、CG配列中の「C」であり、
     前記所定の選抜条件は、
    (1)Tmが所定の範囲内にあること、
    (2)前記部分配列上に含まれるYG配列またはCR配列が所定の数以下であること、及び
    (3)前記塩基変換後のゲノム二本鎖DNA上の関連領域外の配列との接合数の上限が1以上の所定の数以下であること
    を含む、
    請求項10に記載のアンプリコンメチル化シーケンス解析用プライマー設計装置。
     [但し、「C」、「G」、「Y」及び「R」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「R」はアデニン又はグアニンを表す。]
  13.  前記メチル化され得る「C」は、さらに、CHG配列中の「C」を含み、
     前記所定の選抜条件は、さらに、(4)前記部分配列上に含まれるYHG配列またはCDR配列が所定の数以下であることを含む、請求項12に記載のプライマー設計装置。
    [但し、「C」、「G」、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「C」はシトシン、「G」はグアニン、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す。]
  14.  前記メチル化され得る「C」は、さらに、CHH配列中の「C」を含み、
    前記所定の選抜条件は、さらに、(5)前記部分配列上に含まれるYHH配列またはDDR配列が所定の数以下であることを含む、請求項12に記載のプライマー設計装置。
    [但し、「Y」、「H」、「R」及び「D」は、IUPACが定める塩基標記であり、「Y」はチミン又はシトシン、「H」は、アデニン、シトシン、又はチミン、「D」は、チミン、グアニン、又はアデニン、「R」はアデニン又はグアニンを表す。]
  15.  プライマー候補配列選抜部は、
     前記塩基変換後のゲノム二本鎖DNAを第1の鋳型鎖及び第2の鋳型鎖とし、前記第1の鋳型鎖の相補鎖を第1の相補鎖、前記第2の鋳型鎖の相補鎖を第2の相補鎖として、
     前記第1の鋳型鎖から切り出された1以上の部分配列が、所定の選抜条件を満たすものは、第1の鋳型鎖のフォーワードプライマー候補配列として選抜し、前記第1の相補鎖から切り出された1以上部分配列が、前記所定の選抜条件を満たすものは、第1の鋳型鎖のリバースプライマー候補配列として選抜し、前記第2の鋳型鎖から切り出された1以上の部分配列が、前記所定の選抜条件を満たすものは、第2の鋳型鎖のフォーワードプライマー候補配列として選抜し、第2の相補鎖から切り出された1以上の部分配列が、前記所定の選抜条件を満たすものは、第2の鋳型鎖のリバースプライマー候補配列として選抜するものである、請求項12に記載のプライマー設計装置。
  16.  前記プライマー配列決定部は、前記プライマー候補配列選抜部において、前記選抜された1以上の第1の鋳型鎖のフォーワードプライマー候補配列と前記選抜された1以上の第1の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、前記算出されたPCR増幅産物の長さが所定の範囲内にあるプライマー候補配列の組み合わせを、前記部分配列切出部において選択された前記標的部位を含む領域を増幅する前記第1の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用し、前記選抜された第2の鋳型鎖のフォーワードプライマー候補配列と前記選抜された第2の鋳型鎖のリバースプライマー候補配列の全ての組み合わせについて、PCRによって増幅が予想されるPCR増幅産物の長さを算出し、前記算出されたPCR増幅産物の長さが前記所定の範囲内にあるプライマー候補配列の組み合わせを、前記部分配列切出部において選択された前記標的部位を含む領域を増幅する前記第2の鋳型鎖のフォーワードプライマー配列及びリバースプライマー配列として採用して決定するものである、請求項15に記載のプライマー設計装置。
  17.  予め、請求項10に記載のプライマー設計装置を用いて、少なくとも、前記標的部位の数と、前記所定の閾値と、前記プライマー設計成功率との対応関係を計測し、保存する格納部と、
     ユーザが指示を入力する入力部と、
    を更に有し、
     前記プライマー配列決定部は、ユーザが入力部を介して、少なくとも、前記ユーザが所望するプライマー設計成功率、及び前記標的部位の数を設定し、プライマー設計を実行するよう指示すると、前記格納部に保存された上記対応関係の中から、前記プライマー設計成功率及び前記標的部位の数の設定値以上、且つ、差が小さい上記プライマー設計成功率及び前記標的部位の数に対応する前記所定の閾値を読み出し、前記読み出した所定の閾値に基づいて、前記1以上のプライマー候補配列の中から、前記所定の標的部位を含む領域を増幅するプライマー配列を採用し、決定する、請求項10に記載のアンプリコンメチル化シーケンス解析用プライマー設計装置。
  18.  さらに、通信インターフェースを備え、
     前記通信インターフェースにより、装置外の通信回線網を介してサーバに接続することができ、前記サーバ内のプログラムにより、前記塩基配列データ取得部、前記標的部位情報取得部、前記塩基変換部、前記相補鎖生成部、前記部分配列切出部、前記プライマー候補配列選抜部及び前記プライマー配列決定部からなる群の少なくとも1つを実行することができる、請求項12に記載のプライマー設計装置。
  19.  請求項1に記載のプライマー設計方法をコンピュータ上で実行することを特徴とする、プライマーの設計用プログラム。
  20.  請求項19に記載のプライマーの設計用プログラムが記録されていることを特徴とする、コンピュータにおいて読み取り可能な記録媒体。
PCT/JP2023/021016 2022-08-31 2023-06-06 アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体 WO2024047992A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022137785 2022-08-31
JP2022-137785 2022-08-31

Publications (1)

Publication Number Publication Date
WO2024047992A1 true WO2024047992A1 (ja) 2024-03-07

Family

ID=90099312

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/021016 WO2024047992A1 (ja) 2022-08-31 2023-06-06 アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体

Country Status (1)

Country Link
WO (1) WO2024047992A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018061695A1 (ja) * 2016-09-29 2018-04-05 富士フイルム株式会社 マルチプレックスpcrに供するプライマーの設計方法
WO2018061693A1 (ja) * 2016-09-29 2018-04-05 富士フイルム株式会社 マルチプレックスpcrに供するプライマーの設計方法
WO2018061699A1 (ja) * 2016-09-29 2018-04-05 富士フイルム株式会社 マルチプレックスpcrに供するプライマーの設計方法
WO2022113835A1 (ja) * 2020-11-26 2022-06-02 富士フイルム株式会社 アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018061695A1 (ja) * 2016-09-29 2018-04-05 富士フイルム株式会社 マルチプレックスpcrに供するプライマーの設計方法
WO2018061693A1 (ja) * 2016-09-29 2018-04-05 富士フイルム株式会社 マルチプレックスpcrに供するプライマーの設計方法
WO2018061699A1 (ja) * 2016-09-29 2018-04-05 富士フイルム株式会社 マルチプレックスpcrに供するプライマーの設計方法
WO2022113835A1 (ja) * 2020-11-26 2022-06-02 富士フイルム株式会社 アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JENNIFER LU, JOHNSTON ANDREW, BERICHON PHILIPPE, RU KE-LIN, KORBIE DARREN, TRAU MATT: "PrimerSuite: A High-Throughput Web-Based Primer Design Program for Multiplex Bisulfite PCR", SCIENTIFIC REPORTS, vol. 7, no. 1, 1 December 2017 (2017-12-01), pages 41328, XP055560239, DOI: 10.1038/srep41328 *

Similar Documents

Publication Publication Date Title
US11667959B2 (en) Systems and methods to detect rare mutations and copy number variation
US11879158B2 (en) Systems and methods to detect rare mutations and copy number variation
US10894974B2 (en) Systems and methods to detect rare mutations and copy number variation
CN112752852A (zh) 用于检测供体来源的细胞游离dna的方法
US11913065B2 (en) Systems and methods to detect rare mutations and copy number variation
US20180135044A1 (en) Non-unique barcodes in a genotyping assay
US20230290442A1 (en) Method, manufacturing method, design device, design program, and recording medium for primer for amplicon methylation sequence analysis
WO2024047992A1 (ja) アンプリコンメチル化シーケンス解析用のプライマーの設計方法、製造方法、設計装置、設計プログラムおよび記録媒体
US20220389489A1 (en) Systems and methods to detect rare mutations and copy number variation
Lopez Barrezueta Repurposing DNA for information processing and storage

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23859762

Country of ref document: EP

Kind code of ref document: A1