WO2004107243A1 - 情報担体としてのdna符号の設計方法 - Google Patents

情報担体としてのdna符号の設計方法 Download PDF

Info

Publication number
WO2004107243A1
WO2004107243A1 PCT/JP2004/007271 JP2004007271W WO2004107243A1 WO 2004107243 A1 WO2004107243 A1 WO 2004107243A1 JP 2004007271 W JP2004007271 W JP 2004007271W WO 2004107243 A1 WO2004107243 A1 WO 2004107243A1
Authority
WO
WIPO (PCT)
Prior art keywords
dna
code
sequence
sequences
template
Prior art date
Application number
PCT/JP2004/007271
Other languages
English (en)
French (fr)
Inventor
Masanori Arita
Original Assignee
National Institute Of Advanced Industrial Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute Of Advanced Industrial Science And Technology filed Critical National Institute Of Advanced Industrial Science And Technology
Priority to US10/558,502 priority Critical patent/US20070042372A1/en
Publication of WO2004107243A1 publication Critical patent/WO2004107243A1/ja

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B82NANOTECHNOLOGY
    • B82YSPECIFIC USES OR APPLICATIONS OF NANOSTRUCTURES; MEASUREMENT OR ANALYSIS OF NANOSTRUCTURES; MANUFACTURE OR TREATMENT OF NANOSTRUCTURES
    • B82Y10/00Nanotechnology for information processing, storage or transmission, e.g. quantum computing or single electron logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/123DNA computing

Definitions

  • the present invention can avoid errors that may occur when using artificially designed DNA as an information carrier, and can be used as a simple and general information carrier for writing information into a biopolymer.
  • the present invention relates to a DNA code design method, a DNA code obtained by a powerful design method, and a method of writing arbitrary information to DNA by embedding a powerful DNA code word in an arbitrary non-coding region containing no genetic information.
  • DNA has a structure in which four types of bases, namely, adenine (A), cytosine (C), guanine (G), and thymine (T) are linked in a chain, where A is T and C is G A--T and CG are said to be complementary because they form a base pair by hydrogen bonding, and the two DNA strands have a complementary double helix structure, and the strong DNA double helix When the temperature rises, it dissociates into single-stranded DNA units, and when the temperature falls, it rejoins the complementary strand. The process of binding to the complementary strand is called hybridisation, and it is well known that the temperature at which DNA strands dissociate and hybridize depends on the GC content in the sequence.
  • A adenine
  • C cytosine
  • G guanine
  • T thymine
  • Non-Patent Document 1 To describe information using this DNA, prepare a plurality of oligonucleotide sequences corresponding to the characters. Such a collection of fixed-length artificial oligonucleotide sequences is used in many fields of application as described below.
  • Non-Patent Document 2 there is a completely new type of computer called a "DNA computer” as a representative of a computational paradigm different from current computers (for example, see Non-Patent Document 2).
  • symbolic processing is realized by expressing logical variables or components of graphs as DNA base sequences in order to solve mathematical problems, etc., and applying experimental methods in molecular biology to the base sequences. I do. Again, an artificially designed set of fixed-length oligonucleotide sequences is used.
  • DNA code is a set of mutually different base sequences having the same length.
  • the constraints that the DNA code designed in this way must satisfy are that physical properties such as melting temperature are constant for all codewords (base sequences), and that the desired (Mishybridization) does not occur, and the design method has much in common with the classic error correction code design method.
  • the design of DNA codes is different from that of error correction codes, and there is no standard design method.
  • the following describes three basic approaches that have been used in the design of DNA codes: (1) template-map strategy, (2) De Bruijn sequence design (DeBruijn construction), and (3) Stochastic method ( stochastic method).
  • the DNA code designed by this method can only satisfy the properties that have been studied in the conventional binary code.
  • DNA cannot identify the code word delimiter (comma), unlike codes used electronically. Therefore, if the reading frame of a code word shifts, it is necessary to provide a mechanism that can detect the shift. There is.
  • This property is called comma-free in that it does not require commas.
  • a code that always generates d mismatches (when the reading frame is shifted) between a concatenated portion of codewords and each codeword is called a comma-free code with index d.
  • the template map strategy cannot make the DNA code comma-free.
  • a De Bruijn array of order k is a circular sequence of length 2 k in which an array of length k occurs exactly once, and a linear time algorithm (linear time) for constructing the De Bruijn array. algorithm) is known.
  • De Bruijn sequence power of order k The selected oligonucleotide sequence does not have a continuous match of length k or more, so if the length of the DNA codeword is 2k or more, the concatenated portion of the codeword will It is possible to prevent a perfect match with the code word (comma-free code at index 1) o In fact, Brenner applied the comma-free code at index 1 to the design of oligonucleotide tags (e.g. See Patent Documents 16 and 17). When using the De Bruijn array, it is difficult to have comma-free codes with indices of 2 or more. It is also difficult to guarantee the number of mismatches between codewords designed using the De Bruijn array. Therefore, it is very difficult to design a DNA code that has high commas-free property of high index and a large number of mismatches between code words.
  • Stochastic methods are the most widely used approach to code design. Deaton et al. Use a genetic algorithm to find codewords that satisfy the “extended” Hamming constraint, i.e., a constraint that also takes into account mismatched shifts, and have a consistent melting temperature. (For example, see Non-Patent Document 18). According to their report, due to the complexity of the problem, genetic algorithms can only be applied to the design of codewords up to length 25 (see, for example, Non-Patent Document 19).
  • Landweber et al. Used a random codeword generator to design two sets of 10 codewords of length 15. The resulting sequence satisfies the following conditions: (1) no concatenation of 5 or more bases, no matter which codeword is spliced, (2) melting temperature aligned at 45 ° C, (3) Avoid secondary structure, and (4) there is no consecutive combination of more than 7 base pairs (if the first condition is satisfied, the fourth condition is unnecessary.
  • the conditions given in the original text are provided). They realized these restrictions with only three types of bases (for example, see Non-Patent Document 20). Similarly, a group that designed a power codeword with only three bases uses random code generation for its design (for example, see Non-Patent Document 21-123).
  • the disadvantages of the probabilistic method are that the designed codewords are different each time (because of the stochastic nature), the number of codewords that can be designed cannot be estimated, and the characteristics of the designed codewords (for example, mismatch) , Etc.) cannot be estimated in advance.
  • the designed DNA code must maintain a large distance between the codewords and the mining distance. What makes DNA code design more difficult than error correction code theory is not only the codewords, but also the number of mismatches in hybridization with their complementary sequences! It is.
  • Comma-Free is a property that guarantees not only the number of mismatches when the reading frames of codewords are aligned but also a predetermined number of mismatches even when the reading frames of the array are shifted. Since DNA does not have a fixed reading frame, it is desirable that the designed code is comma-free. By definition, the concatenation of two not necessarily different codewords, XX
  • the code is comma-free with index d (for example, see Non-Patent Documents 25 and 26). ). Therefore, the DNA code must be comma-free with high indices. It should be noted that this is not compensated for by introducing a “spacer” codeword between the comma-free codewords. Although the presence of such a spacer facilitates decoding of a code word, it does not contribute to avoiding mishybridization. In addition, the spacer inserts an extra DNA sequence between each codeword, thereby reducing the information density.
  • the melting temperature of the DNA code is necessary to ensure unbiased reactions in the experiments.
  • Patent Document 1 JP 2001-352980 A
  • Patent Document 2 European Patent No. 97302313
  • Patent Document 3 US Patent No. 5604097
  • Non-Patent Document 1 Biochemistry 37, 26, 9435-9444, 1998
  • Non-Patent Document 2 Science 266, 5187, 1021-1024, 1994
  • Non-Patent Document 3 Proceedings of the National Academy of Sciences of USA 89, 12, 5381-5383, 1992
  • Non-Patent Document 4 Proceedings of the National Academy of Sciences of USA 97, 4, 1665-1670, 2000
  • Non-Patent Document 5 Journal of Computational Biology 7, 3-4, 503-519, 2000
  • Non-Patent Document 6 10th Foresight Conference on Molecular Nanotechnology (Bethesda,
  • Non-Patent Document 7 Nucleic Acids Research 25, 23, 4748-4757, 1997
  • Non-Patent Document 9 Langmuir 18, 3, 805-812, 2002
  • Non-Patent Document 10 Journal of Computational Biology 8, 3, 201-219, 2001
  • Non-Patent Document 11 Journal of Computational Biology 7, 3-4, 503-519, 2000
  • Non-Patent Document 12 Genome Research 10, 6, 853-860, 2000
  • Non-Patent Document 13 Judson, H.F .: The Eighth Day of Creation: Makers of the
  • Non-Patent Document 14 IEEE Transactions on Information Theory, IT-11, 107-112, 1965
  • Non-Patent Document 15 Stiffler, J. J .: Theory of Synchronous Communication.Prentice-Hall, Inc., Englewood Cliffs, N. J., 1971
  • Non-Patent Document 16 Proceedings of the National Academy of Sciences of USA 89, 12, 5381-5383, 1992
  • Non-Patent Document 17 Proceedings of the National Academy of sciences of USA 97, 4, 1665-1670, 2000
  • Non-Patent Document 18 DNA Based Computers II, DIMACS Series in Discrete Mathematics and Theoretical Computer Science 44, 247-258, 1998
  • Non-Patent Document 19 Proceedings of the 3rd Annual Genetic Programming Conference, Morgan Kauftnann 684-690, 1998
  • Non-Patent Document 20 Proceedings of the National Academy of Sciences of USA 97, 4, 1385-1389, 2000
  • Non-Patent Document 21 DNA Computing: 6th International Workshop on DNA-Based
  • Non-Patent Document 22 LNCS 2054, 17-26, 2001
  • Non-Patent Document 23 Science 296, 5567, 499-502, 2002
  • Non-Patent Document 24 Proceedings of 8th International Meeting on DNA-Based Computers (DNA 2002; Sapporo, Japan), 311—323, 2002
  • Non-Patent Document 25 Canadian Journal of Mathematics 10, 202-209, 1958
  • Non-Patent Document 26 Canadian Journal of Mathematics 39, 3, 513—526, 1987
  • Non-Patent Document 27 Proceedings of the National Academy of sciences of USA 83, 11,
  • Non-Patent Document 28 biochemistry 37, 26, 9435-9444, 1998
  • Non-Patent Document 29 Critical Reviews in Biochemistry and Molecular Biology 2b, 3-4, 227-259, 1991
  • primer sequence When reading DNA, a specific sequence called a primer is required.
  • the primer sequence is placed at both ends of the information-retaining sequence, and amplifies only the region (information sequence) sandwiched between the primer sequences.
  • the conventional DNA coding technology is based on the assumption that written information can be read from DNA "as is”, and does not consider the presence of read errors. Also, do not consider the primers, or prepare a specific sequence at both ends of the information to be embedded in DNA. In addition, since the conventional method does not show a specific means for writing information in DNA, it does not show a method of aligning physical characteristics and preventing the appearance of a specific sequence. There are many experimental restrictions on the replication of genetic information, and it is impossible to replicate genetic information without errors even with advanced technology. Even if the error is eliminated at the replication stage, when an information sequence is written in the DNA of a living body, sudden mutation of the sequence due to in vivo molecules or radiation must be taken into consideration.
  • an object of the present invention is to provide a code as an information carrier for reading and writing arbitrary information in an arbitrary non-coding region that does not contain genetic information of DNA (artificial meaning such as alphabets is given. It is an object of the present invention to provide a set of base sequences for a set of symbols, that is, a method for designing a DNA code.
  • the codeword of a powerful DNA code can be associated with the coding system used by the computer, and no matter how the characters are connected, The feature is that decoding can be performed with very high reliability.
  • This DNA codeword has characteristics that are sufficiently different from those of natural DNA, and can be embedded in any part without containing the genetic information of DNA. Further, the DNA codeword produced by the design method of the present invention can be used as an information storage medium.
  • each oligonucleotide sequence in the set S1 of oligonucleotide sequences having a predetermined length n (n is an integer of 3 or more, and preferably 6 or more), each oligonucleotide in the set S1 Sequence, between the sequence complementary to each of the other oligonucleotide sequences in the set S1, between the sequences shifted from these, and between the oligonucleotide sequences, between the complementary sequences, and between the Including a mismatch of a predetermined value or more between the oligonucleotide sequence and the sequence obtained by linking the complementary sequence, between the oligonucleotide sequence, the complementary sequence, and the sequence obtained by shifting them.
  • mishybridization between the respective oligonucleotide sequences, between the complementary sequences, and between the respective oligonucleotide sequences and the sequence obtained by linking the complementary sequences A method of systematically designing a set S1 of oligonucleotide sequences that can be avoided, and a set S1 of oligonucleotide sequences that can avoid mishybridization for inverted sequences as well as complementary sequences Propose a systematic design method! / Puru (Japanese Patent Application 2001-3317 32).
  • the present inventor has conducted intensive studies to solve the above-mentioned problems.
  • a template having a subword constraint of length m is selected, and a predetermined template having a subword constraint of length m is selected.
  • a set of base sequences S2 that can be used as characters when describing information by combining with code words of error correction codes is used to find a DNA code design method that satisfies all of these conditions.
  • the present invention has been completed by realizing the correspondence between the existing character encoding system including codes and the encoding system based on the base sequence of DNA.
  • the present invention provides an oligonucleotide sequence having a predetermined length n (n is an integer of 6 or more).
  • n is an integer of 6 or more.
  • a predetermined length L consisting of 0 and 1 (L is 6 or more) (Integer) bit string (GC template)
  • GC template the distance between each GC template, the mining distance, the hamming distance between the reverse arrangement of each GC template, the distance between these GC templates, and the mining distance
  • a set having a subword constraint of length m is selected as a template from the set of selected selected GC templates, and a codeword of a predetermined error correction code also having a subword constraint of length m is selected.
  • a method for designing a DNA code characterized by preparing a set S1 of nucleotide sequences (Claim 1), an oligonucleotide sequence having a predetermined length n (n is an integer of 6 or more), and G ([AG]) or T or C ([CT]), expressed as a bit string (AG template) of a predetermined length L (L is an integer of 6 or more) consisting of 0 and 1 ,
  • the design method (Claim 2) and the set S1 of oligonucleotide sequences that maintain the Hamming distance k are between the sequences, between the complementary sequences of the other sequences, and between the shifted sequences.
  • mismatch greater than or equal to a predetermined value between the sequences, the complementary sequences, and the sequence obtained by linking the sequences and the complementary sequence. Mishybridization between the complementary sequence, the sequence shifted from the sequence, and the sequences, the sequences, and the sequence obtained by linking the sequence and the complementary sequence.
  • DNA code design method (claim 3), characterized in that to facilitate the decoding of the information and a predetermined length
  • the method of designing a DNA code (Claim 4), wherein the set SI of oligonucleotide sequences of n is a set S1 of oligonucleotide sequences having a length of 32 or less, and the predetermined value k of Hamming distance is L DNA code design method characterized by a value of 1Z4 or more (Claim 5), and a DNA code design method characterized by a value of 1Z2 or more of a subword constraint L of length m (Claim 6) or a method for designing a DNA code, wherein the set S1 of oligonucleotide sequences is a set of oligonucleotide sequences containing a specific partial sequence or containing no specific partial sequence (claim Item 7), Code words of predetermined error correction code Chosen from codes
  • a method for designing a DNA code characterized by
  • the present invention provides a method for writing arbitrary information in a non-coding region that does not contain DNA genetic information using a computer-readable coding system, from a set of base sequences corresponding to symbol units.
  • DNA code (Claim 11), DNA code (Claim 12) that is a collective power of base sequences that can easily detect errors such as skipping or substitution of several bases, and reading frames for base sequences corresponding to symbol units It has an error correction function that can decode (decode) with high reliability even in the presence of errors such as misalignment and substitution of multiple bases! /, Corresponding to DNA codes (claim 13) and symbol units No stable secondary structure is formed between base sequences, and primers are used regardless of how letters are linked.
  • a DNA code that does not cause physical inhibition that impedes the width (Claim 14), a DNA code that consists of a set of base sequences corresponding to symbol units that can be easily distinguished from natural DNA (Claim 15),
  • DNA sequences (Claim 16), which can easily verify whether or not a specific subsequence appears in the base sequence in the base sequence, and mismatches in at least four positions in any hybridization can be used.
  • the present invention provides a method for writing arbitrary information into DNA, wherein the DNA is vector DNA (claim 20), and a method for writing DNA, wherein the DNA is genomic DNA.
  • the method of writing arbitrary information on DNA (Claim 21), the method of writing arbitrary information on DNA that can identify the creator of DNA by DNA code (Claim 22), and the method of writing these DNA codes
  • a labeling vector embedded in any non-coding region that does not contain DNA genetic information (Claim 23), or these DNA codes are embedded in any non-coding region that does not contain DNA genetic information Labeled dani cells (Claim 24) and DNA tags having these DNA codes (Claim 25) are provided.
  • a DNA code having the following characteristics can be designed.
  • an oligonucleotide sequence having a predetermined length n is obtained by using G or C ([GC]) or A or T ([AT] ),
  • L is an integer of 6 or more
  • the Hamming distance between each GC template and each GC template Hamming distance between the reverse sequence of the above, the Hamming distance between the shifted sequence, and the sequence of each GC template, the reverse sequence of each GC template, and the sequence connecting each GC template and its reverse sequence
  • a GC template with a difference between the mining distance force V and the deviation that is equal to or greater than a predetermined value k is selected, and from the set of the selected GC templates, a set having a subword constraint of length m is selected as a template.
  • n is an integer of 6 or more
  • each position is A or G ( [AG]) or T or C ([CT]) means a bit string (AG template) of a predetermined length (L is an integer of 6 or more) consisting of 0 and 1
  • a set of oligonucleotide sequences corresponding to a unit signal in information transmission by selecting a set having m subword constraints as a template and combining it with a codeword of a predetermined error correction code also having a subword constraint of length m
  • the oligonucleotide sequence includes a DNA sequence and an RNA sequence. Designing the RNA Code of the Project ”.
  • the term "encoding” refers to associating a specific base sequence with a character or symbol so that the character or symbol can be handled by a computer
  • the term "DNA code” refers to DNA as a medium.
  • the DNA code obtained by the design method of the present invention can be used to write arbitrary information to any non-coding region such as an intron, 5, one non-coding region, and 3, one non-coding region which does not contain DNA genetic information. It can be used advantageously.
  • the upper limit of the predetermined length n (n is an integer of 6 or more) of the oligonucleotide sequence is not limited, but is usually 100 bases, and preferably 32 bases.
  • a subset of the set S1 is also included.
  • a DNA code that also has the collective power of a base sequence corresponding to a unit signal such as an alphabet using a set S1 including a mismatch including a complementary sequence centering on a case where an oligonucleotide sequence is a DNA sequence is referred to as a GC template.
  • the description mainly focuses on the design using a plate.
  • the P array in the set S1 designed using the template has a shift between the own array and the other P arrays in the set S1 with and without a shift (the arrays are shifted). Irrespective of the case, it contains a mismatch equal to or greater than a predetermined value and can be avoided by mishybridization if it can avoid mishybridization.
  • mismatch refers to a pairing with a base other than a complementary base in the case of hybridization, and a mismatch having a predetermined value or more is not particularly limited as long as the number of mismatches is such that mismatch hybridization can be avoided.
  • a mismatch having a predetermined value or more is not particularly limited as long as the number of mismatches is such that mismatch hybridization can be avoided.
  • the oligonucleotide sequence constituting the set S1 can be manipulated as a sequence set that can easily specify the occurrence position of a specific partial sequence.
  • specific subsequences include a restriction enzyme recognition site, a poly A portion of RNA, and a translation initiation codon.
  • Arbitrary DNA such as an ATG, a stop codon such as TAA, TAG, TGA, etc., an expression signal sequence, a consensus sequence recognized by a transcription factor GCCAATCT, ATGCAAAT, or a nucleotide sequence encoding a variable domain of an antibody Sequence signals can be exemplified.
  • the above-mentioned set S1 of oligonucleotide sequences can usually be designed in two stages.
  • the first stage is the design stage of the GC template using the no and mining distances, and the second stage is to use the error correction code theory from the set of oligonucleotide sequences represented by the designed GC template.
  • This is a stage of designing a target set S1 of the oligonucleotide sequences of the present invention.
  • the first step is to determine whether each position in the sequence is [GC] or [AT]. This position is a GC template consisting of 0 and 1; b b---b (b ⁇ ⁇ 0, 1 ⁇ ), where 1 is the [AT
  • a GC template of length L would represent 2 ⁇ arrays instead of streets.
  • the base sequence is determined by specifically substituting the site of GC template 1 with [AT] and the site of GC template with [GC] (or the reverse combination).
  • the above-mentioned no-ming distance is used as a measure of the degree of similarity between arrays.
  • a GC template t linking sequence between the GC template t, linking sequence of the reverse sequence t R between the GC template t, the Hamming distance between the linking sequences of GC template t and reverse sequence t R
  • MD abbreviation for minimum distance
  • the above-described method for designing a GC template is used in the first step for preparing the above-mentioned oligonucleotide sequence collection S1.
  • a GC template design method is a method in which an oligonucleotide sequence having a predetermined length n is represented by each position being [GC] or [AT].
  • the hamming distance between each GC template When expressed as a bit string (GC template) that has 0 and 1 forces, the hamming distance between each GC template, the hamming distance between the reverse arrangement of each GC template, and the hamming between these shifted sequences Distance and Hamming distance between each GC template, between each reverse sequence of each GC template, and each GC template and its connected reverse sequence MD (t) force MD (t) force
  • the length L of the GC template is 6 or more, preferably 6-100, more preferably 6-32, and particularly preferably molecular biology. A well 20 before and after use in the experiment, 5 following cases are such obtained having the desired Hamming distance.
  • the predetermined value k is not particularly limited as long as it is a value that becomes the oligonucleotide sequence of the present invention that can avoid misalignment of oligonucleotides produced from a strong GC template and misidization.
  • the length L of the GC template is 1 Z5 or more, more preferably 1 Z4 or more, particularly preferably 1 Z3 or more.
  • the force at which more GC templates exist is the largest k value (MD value) for a given length.
  • GC templates with a) are particularly important.
  • the shortest GC template that satisfies a specific MD value (k value) is shown in [Table 2].
  • the number excluding the GC template is indicated as "item”.
  • the GC template sequences listed in the above [Table 1]-[Table 4] etc. can be used by those skilled in the art by exhaustively searching all patterns from all 0 sequences to all 1 sequences. Can be selected. However, it is not necessary to search all 2 L patterns to find a GC template of length L. Since the GC template with bit 01 inverted has the same property, bit 1 included in the GC template has L Consider what is / 2 or less. In addition, the constraint on the number of mismatches indicates that when the minimum distance is d, there are at least (L sqrt (L 2 — 2dL)) Z2 bits 1 (sqrt is a square root). The GC template can be efficiently obtained by using such a constraint in an additional manner.
  • the set S1 of oligonucleotide sequences generated from the GC template contains specific partial sequences such as the above-described restriction enzyme recognition site or oligonucleotides not containing the specific partial sequences. Designing to be a set of arrays can be designed more easily because it corresponds to narrowing the space for exhaustive search.
  • the set of oligonucleotide sequences S1 is a set of oligonucleotide sequences represented by the designed GC template following the design step of the GC template using the Hamming distance. It can be designed by using the theory, that is, by combining it with a codeword of an error correction code.
  • any codeword of a known error correction code can be used, such as a code, a Mining code, a BCH code, a maximum length sequence code, a Golay code, a ReedMuller code, and a ReedSolomon code. , Hadamard code, Preparata code, reversible code, constant weight code, non-linear code, and the like.
  • An error correction code is a set of codewords in which the number of mismatches between arbitrary codewords is equal to or greater than a certain value.However, if the set of set S1 and its reverse array prevents mishybridization, It is only necessary to apply a set of codewords such that the number of matches (rather than mismatches) between any codewords is greater than a certain number.
  • the information of the code word is reflected in the sequence together with the information of the GC template. Therefore, to guarantee k mismatches with the complementary sequence
  • the code that keeps at least the number of matches k is used. Good.
  • a code In the theory of error correcting codes, a code is used in which redundant bits for error detection and correction called “check bits” are added to given information bits to make the nominating distance between arbitrary code words equal to or more than a certain value. Is being developed. The minimum value of the Hamming distance between codewords is called the minimum distance. Since the goal of coding theory is to design a code with a large number of code words while keeping the minimum distance large, there are many codes that meet the purpose of the present invention. For example, a Golay code with a code length of 23 and a minimum distance of 7 has 4096 words. Using this code, 4096 oligonucleotides can be designed for one GC template of length 23 (MD value up to 9).
  • a subword constraint of length m must be taken into consideration when selecting a template to be used in the above set S1. .
  • select a powerful set make sure that no more than m bit strings of 01 are continuous between templates that generate the set S1, and that the distance between codewords from the error-correcting codeword is the maximum clique.
  • the design is such that no more than m consecutive bit strings match between codewords.
  • the m value in such a subword constraint of length m is preferably a value of 10 or less from the viewpoint that mismatch can be sufficiently dispersed. For example, when L is 12, the m value can be 7.
  • arbitrary information is written into an arbitrary non-coding region that does not include genetic information of DNA by using a computer-readable code system such as a binary code.
  • a computer-readable code system such as a binary code.
  • a DNA code that is the collective power of base sequences that are coded so that the melting temperature calculated by the pair method is within a predetermined range, and coded so that errors such as skipping or substitution of several bases can be detected easily Decoding with high reliability even in the presence of errors such as misalignment of the reading frame of the encoded base sequence or substitution of multiple bases, such as a DNA code consisting of a set of base sequences.
  • a DNA code with an error-correcting function that does not form a stable secondary structure between encoded base sequences, and physical inhibition that prevents amplification by primers regardless of how the codewords are linked.
  • DNA code that does not generate the collective power of the encoded base sequence corresponding to the character that can be easily distinguished from natural DNA
  • the DNA code, base arrangement is limited, and the appearance of specific partial sequences can be easily verified
  • a DNA code that can be used preferably can be obtained by the DNA code designing method of the present invention. And as a specific example, even if the codewords are linked so as to include their complementary sequences, there are mismatches between codewords in at least four positions, and there are only six consecutive base matches, so mishybridization has occurred. And a DNA code consisting of 112 codewords of length 12, which keeps the same melting temperature in the nearest base pair approximation.
  • the above-mentioned DNA code of the present invention comprising a set of base sequences corresponding to characters such as alphabets is replaced with an intron containing no genetic information of DNA.
  • the method of embedding in the present invention is not particularly limited as long as it is a method for embedding in any non-coding region such as 5'-non-coding region or 3'-non-coding region.
  • Examples of the DNA in which the NA code is embedded include vector DNA such as plasmid vector DNA and virus vector DNA, and genomic DNA of animal and plant cells or microbial cells.
  • vector DNA such as plasmid vector DNA and virus vector DNA
  • genomic DNA of animal and plant cells or microbial cells.
  • DNA signature can be performed.
  • the present invention also relates to a labeled vector or a labeled cell, which does not contain the genetic information of DNA encoding DNA of the present invention and which is embedded in any non-coding region and which can identify the creator.
  • the sequences are unlikely to cause miso and hybridization, so that the present invention
  • the set of base sequences encoded above can be advantageously used for a DNA or RNA chip or as a DNA or RNA tag.
  • the set of encoded base sequences of the present invention is also useful as a primer in PCR and the like.
  • the set of encoded base sequences of the present invention is:
  • Various symbol processing operations such as logical formulas and graph structures, can be easily proved to have no specific sequence portion such as a restriction enzyme recognition site, since it is difficult to cause mishybridization with each other.
  • the sequence obtained at the end of the experiment can be used as a “calculation result” for DNA computation in a DNA computation system. It can be used to advantage.
  • Non-linear (12, 144, 4) codes are short error correcting codes having a length of at least 128 codes (Sloane, NJA and Mac Williams, FJ: The Theory of Error-Correcting Codes. Elsevier, 1977J)
  • the notation (12, 144, 4) above means a code of length 12 with 144 codewords with a minimum distance of 4 (one error correction, two error detections).
  • the clique problem solver http: ⁇ rtm.science.unitn.it / intertools /
  • the codes represented by (12, 144, 4) are shown in Table 7, and among the 144 powerful codewords with a dagger! 56 codewords that satisfy 7 subword constraints
  • GC templates having a length of 12 and a minimum distance of 4, and among them, Table 31 shows 31 templates in which the reverse sequence and the one inverted by 01 are regarded as the same.
  • a template pair is chosen because 128 codewords cannot be obtained from one template due to subword constraints.
  • Such two pairs of templates no matter how the templates are linked, contain four or more mismatches and do not share a partial sequence of seven or more lengths.
  • Table 9 shows such eight pairs of template pairs.
  • the DNA codewords generated from this template pair have an even distribution of GC bases when concatenated. Under this condition, DNA code from these templates has a close melting temperature (New Generation Computing 20, 3, 263-277, 2002) 0
  • the number of codewords that can be designed in this way is 112, which does not satisfy 128 ASCII characters. However, some characters are not used in ASCII characters. For example, the values &# 14 to &# 31 are not used in HTML characters. Thus, the powerful 112 code words are sufficient to represent the ASCII characters of DNA. This compromise is better than relaxing the constraints to get 128 codes.
  • the present state of the information description method using DNA was examined, and the necessity and problems in configuring a DNA code were described.
  • the DNA code designing method of the present invention can provide 112 DNA code words having a length of 12 and a comma-free index of 4.
  • the DNA code of the present invention allows for any linkage between the codes, including the complementary strand, and no powerful DNA code has been known to date.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Nanotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Error Detection And Correction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 設計したDNAを利用する際に生じる誤り等を回避しうる、DNAの遺伝情報を含まない任意の非コード領域に任意の情報を書き込むための情報担体としての情報コードの集合からなるDNA符号の設計方法が提供される。所定の長さのDNA配列を、G又はCとA又はTを0と1からなるビット列(テンプレート)で表わした場合、各テンプレート間、シフト配列間、連結配列間とのハミング距離が、いずれも所定値以上になるテンプレートを選択し、さらにその中から長さmのサブワード制約を有するテンプレートを選定する。こうして選択したテンプレートと、長さmのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることにより情報伝達における単位信号に対応する塩基配列の集合S1を得る。  

Description

明 細 書
情報担体としての DNA符号の設計方法
技術分野
[0001] 本発明は、人工的に設計した DNAを情報担体として利用する際に生じうる誤りを 回避できるとともに、生体高分子へ情報を書き込むための単純で一般的な情報担体 とすることのできる DNA符号の設計方法、力かる設計方法により得られる DNA符号 、カゝかる DNA符号語を遺伝情報を含まな ヽ任意の非コード領域に埋め込むことによ る DNAへの任意の情報書込み手法に関する。
背景技術
[0002] DNAは 4種類の塩基、すなわちアデニン (A) ,シトシン(C) ,グァニン(G) ,チミン( T)が鎖状に連結した構造を有し、 Aは Tと、 Cは Gと水素結合により塩基対を形成す ることから、 A— T, C Gは相補的であるといわれ、 2本の DNA鎖が相補的に 2重らせ ん構造を有し、力かる DNA2重らせんは、温度が上昇すると 1本鎖 DNAずつに解離 し、温度が降下すると再び相補鎖と結合する。この相補鎖と結合する過程はハイプリ ダイズといわれ、 DNA鎖の解離する温度やハイブリダィズする温度は、その配列中 の GC含量に左右されることがよく知られている。また、 2本鎖における非相補的塩基 対は、安定した水素結合を形成することができず、(塩基の)ミスマッチと呼ばれてい る。 DNA2重らせんの安定性 (例えば、自由エネルギー)は、塩基のミスマッチの数 及び分布に依存している(例えば、非特許文献 1参照)。この DNAを用いて情報を記 述するには、文字に対応する複数のオリゴヌクレオチド配列を用意する。このような固 定長の人工オリゴヌクレオチド配列の集合は、以下に示すように多くの応用分野で用 いられている。
[0003] 例えば、バイオテクノロジーの進展に伴い、人為的な遺伝子改変が日常的に行わ れるので、改変した遺伝子の著作権を保護することが重要視されている。しかしなが ら、遺伝子には 4塩基の組み合わせによって構成されている以外に、特に主だった 特徴はなぐ遺伝子改変によって新規作製された生物細胞、若しくは遺伝子断片等 を特徴づけ、不正利用から保護する方法は未だ確立されていない。こうした開発者 の意図しない利用や盗用に歯止めをかけるためには、 DNA署名 (DNA signature)ま たは テガノグラフィー (他の情報内に隠すことで実現する、表向きは見えない 署名)が有用とされる。例えば、これは、 DNAの出所を識別するために署名情報を D NA塩基配列として表現し、人為的に改変したゲノムに、識別用の塩基配列を組み 込むことで実現される(例えば、特許文献 1参照)。実用上は、固定長のオリゴヌタレ ォチド配列を人為的に設計し、署名用配列として利用する。
[0004] また、現在のコンピュータと異なる計算パラダイムの代表として「DNAコンピュータ」 と呼ばれる、まったく新しいタイプのコンピュータがある(例えば、非特許文献 2参照) 。この研究分野では、数学の問題等を解くために論理変数又はグラフの構成要素を DNAの塩基配列として表現し、その塩基配列に分子生物学における実験的方法を 適用することにより、記号処理を実現する。ここでも、人為的に設計された固定長オリ ゴヌクレオチド配列の集合が使用される。
[0005] また、 DNAタグ Zアンチタグシステム (例えば、非特許文献 3— 5参照)では、固定 長の短 、オリゴヌクレオチドタグを用いて遺伝子発現量を観察する。これらのタグは、 個々の遺伝子に対応する情報を表現した符号とみなすことができる。その他、 DNA をデータ蓄積の将来的な媒体として利用する方法 (例えば、非特許文献 6参照)も提 唱されている。これらのアプローチでも個々のデータを表現するために固定長のオリ ゴヌクレオチド配列を利用する。
[0006] 以上の手法は、全て塩基配列に情報を書き込むことを主眼としており、「DNA符号 」の設計を必要とする。ここでの DNA符号とは、同じ長さを持つ、互いに異なる塩基 配列の集合である。こうして設計される DNA符号が満たすべき制約とは、全符号語( 塩基配列)について、融解温度などの物理的性質が一定であることと、符号語の間で 望ましくな 、ノヽイブリダィゼーシヨン(ミスハイブリダィゼーシヨン)を起こさな 、ことであ り、その設計法は、古典的な誤り訂正符号の設計法と多くの共通点をもつ。しかしな がら、 DNA符号の設計は誤り訂正符号のそれと異なる部分もあり、標準的な設計方 法は存在しない。以下、従来 DNA符号の設計に用いられてきた次の 3つの基本的 アプローチについて説明する:(1)テンプレート マップ戦略(template- map strategy )、 (2) De Bruijn配列による設計 (DeBruijn construction)、及び(3)確率的方法 ( stochastic method)で teる。
[0007] (テンプレート マップ戦略)
この設計法は、 Condonのグループが最初に提案した (例えば、非特許文献 7参照) 。基本的なアイデアは、 DNA符号における制約を 2つの 2進符号に割り振り、両者を 組み合わせて 4進符号 (DNA符号)を構成する。例えば、 GC含量を一定に保つ 2進 符号 (テンプレート (template)と呼ばれる)と、符号語間のミスマッチを保証する 2進符 号 (マップ (map)と呼ばれる)を組み合わせ、両者の制約をともに満たす 4進符号を設 計する。 Frutos et al.は、長さ 8の DNA符号 108語を設計、(1)各符号語は 4つの G Cを持ち、(2)各符号語の間には、相補配列を含め少なくとも 4つのミスマッチを持つ (例えば、非特許文献 8参照)ようにした。また、 Li et al.は、 Hadamard符号(
Hadamard code)を使用し、この設計法をより長い DNA符号へと一般ィ匕した (例えば 、非特許文献 9参照)。例として長さ 12でミスマッチ数が少なくとも 6の DNA符号を 52 8語設計している。
[0008] テンプレート マップ戦略は、二つの 2進符号を組み合わせて DNA符号を作成す るため、この手法で設計した DNA符号は従来 2進符号で研究された性質しか満たす ことができない。しかし、 DNAは、電子的に用いられる符号と異なり符号語の区切り( comma)を特定できないため、符号語の読み枠がずれた場合に、ずれていることを必 ず検出できる仕組みを持たせる必要がある。この性質はコンマを必要としな 、と 、う 意味でコンマフリー(comma-free)と呼ばれる。符号語の連結部分と各符号語の間で 、(読み枠がずれた際に)必ずミスマッチを d個生じる符号を、インデクス dのコンマフリ 一符号という。残念なことに、 2進符号において高いインデタスのコンマフリー符号に 関する理論はほとんど研究されていない。そのため(例えば、非特許文献 14、 15参 照)、テンプレート マップ戦略では DNA符号にコンマフリー性を持たせることができ ない。
[0009] (De Bruijnの構成)
塩基対が連続して一致する長さが長 、程、ミスハイブリダィゼーシヨンの危険性は 高くなる。そのため、長さ kの連続した塩基の一致を持たない (k:通常は 7から 8)制約 (サブワード制約)を課する必要がある。 Ben-Dor et al.は、オーダー kの De Bruijn配 列から同じ融解温度を有する長さ kの配列を切り出してくることにより、長さ kのサブヮ ード制約を満たすオリゴヌクレオチドタグの最適選択アルゴリズムを示した (例えば、 非特許文献 11参照)。オーダー kの De Bruijn配列とは長さ kの配列が正確に 1度生じ る、長さ 2kの巡回配列(circular sequence)であり、 De Bruijn配列を構成するための線 形時間アルゴリズム(linear time algorithm)が知られている。
De Bruijn配列を用いる類似手法は他にもあり、こうして構成されたタグを利用した D NAチップが市販されている (例えば、特許文献 2、非特許文献 12参照)。
[0010] オーダー kの De Bruijn配列力 選んだオリゴヌクレオチド配列は、長さ k以上の連続 一致を持たな 、ため、 DNA符号語の長さを 2k以上にすれば符号語の連結部分が 他の符号語と完全に一致することを防ぐことができる (インデクス 1のコンマフリー符号 ) o実際、 Brennerは、インデクス 1のコンマフリー符号をオリゴヌクレオチドタグの設計 に適用した (例えば、特許文献 3、非特許文献 16、 17参照)。し力し De Bruijn配列を 用いた場合、インデタスが 2以上のコンマフリー符号を持たせることは難しい。また、 De Bruijn配列を利用して設計した符号語間ではミスマッチの個数を保証することも難 しい。従って、高いインデタスのコンマフリー性や、符号語間でミスマッチ個数の多い DNA符号を設計することは非常に難 、。
[0011] (確率的方法)
確率的方法は、符号の設計に最も広く使用されるアプローチである。 Deaton et al. は、「拡張した (extended)」 Hamming制約、すなわち、シフトした場合のミスマッチも考 慮する制約を満たし、かつ融解温度の揃った符号語を探すために、遺伝的アルゴリ ズムを用いた (例えば、非特許文献 18参照)。彼らの報告によれば、問題の複雑さの ために、遺伝的アルゴリズムは長さ 25までの符号語の設計にしか適用できない(例え ば、非特許文献 19参照)。
[0012] Landweber et al.は、長さ 15の符号語 10語を 2セット設計するために、ランダムな符 号語生成プログラムを使用した。それにより設計した配列は、以下の条件を満たす: ( 1)どの符号語をつなぎあわせても、 5以上の塩基の連続一致がない、(2) 45°Cに揃 つた融解温度、(3)二次構造の回避、及び (4) 7つの塩基対以上の連続した組み合 わせはない(最初の条件が満たされていれば、 4つ目の条件は不要である。ここには 原典に示されている条件を提示した)。彼らはこれらの制約を、 3種の塩基のみで実 現した (例えば、非特許文献 20参照)。同じように、 3種の塩基のみ力 符号語を設 計したグループは、設計にランダムな符号生成を用いている(例えば、非特許文献 2 1一 23参照)。
[0013] 確率的方法に用いるアルゴリズムの理論的な分析はなされていないが、その手法 の威力は、 Tulpan et al. (例えば、非特許文献 24参照)の研究において明らかにされ ている。彼らは、確率的方法によりテンプレート マップ戦略によって設計された符号 の語数を増カロさせることはができた力 確率的方法だけではテンプレート マップ戦 略による設計をしのぐことはできな力つた。従って確率的方法は、既に設計された符 号語の数を増やすために用いることが好ましい。確率的方法の欠点は、(確率的であ るがゆえに)設計される符号語が毎回異なる点、設計可能な符号語の数を推し量れ ない点、設計される符号語の特徴 (例えばミスマッチの個数など)をあらかじめ推し量 ることができな 、点などである。
[0014] 以上、設計の従来法を示したが、いずれも短所があり理想的な設計法とは言いが たい。理想的な DNA符号語は、以下に説明するさまざまな制約を満たさねばならな い。
(ハミング距離の制約)
設計した DNA符号は、全ての符号語間で、ノ、ミング距離を大きく保たねばならない 。誤り訂正符号の理論と比べ DNA符号設計をより困難にしているのは、符号語のみ ならず、それらの相補配列とのハイブリダィゼーシヨンにおけるミスマッチ数も考慮し なければならな!/、点である。
[0015] (Comma- Freeの制約)
Comma-Freeとは、符号語の読み枠が揃った際のミスマッチ個数のみならず、配列 の読み枠がずれた時でも所定のミスマッチ数が保証される性質である。 DNAは固定 された読み枠を持たないため、設計した符号は comma-freeであることが望ましい。定 義上は、 2つの必ずしも相違しない符号語、 X X · χ及び y y -yの連結部分 (すな
1 2 n 1 2 n
わち、 X X - --x y y - --y ;0<r<n)力 別の符号語と必ず d個以上のミスマッチを含 r+1 H-2 n 1 2 r
む場合、コードはインデクス dで comma-freeである(例えば、非特許文献 25、 26参照 )。従って、 DNA符号は、高いインデタスで comma-freeでなくてはならない。ここで留 意すべきは、 comma-freeという性質力 符号語間に「スぺーサー(spacer)」符号語を 導入することによっては補償されないことである。かかるスぺーサ一の存在は、符号 語の復号を容易にはできても、ミスハイブリダィゼーシヨンの回避には貢献しない。ま た、スぺーサ一は、余分な DNA配列を各符号語間に入れるため、情報の密度を減 らしてしまう。
[0016] (エネルギーの制約)
ミスマッチに対する上記制約に加え、 DNA符号の融解温度を揃えることは、実験 おいて偏りない反応を保証するために必要である。融解温度を推定するための公式 は複数ある:(1)非常に短いオリゴヌクレオチドについては、 GC含量又は 2— 4ルール (2 - 4ルールでは融解温度を (AT塩基対の数) X 2 + (GC塩基対の数) X 4°Cで評 価する)、(2)比較的短いオリゴヌクレオチドについては、最近接塩基対法を用いた 概算 (例えば、非特許文献 27、 28参照)、そして (3)より長いオリゴヌクレオチドにつ いては、 Wetmurの概算(例えば、非特許文献 29参照)である。これら公式のうちのひ とつを使用することにより、全符号語の融解温度が狭い範囲内にあるように設計する ことができる。
[0017] (その他の制約)
利用するモデルによって、塩基のミスマッチに関する以下の制約が知られている。
1.制限酵素の認識部位、塩基の単なる反復、又はその他生物学的なシグナル配列 などに対応する部分配列が出現しないようにすること。この制約は、設計した符号語 中のみならず、それらの(相補配列を含めた)連結部分のどこにもあってはならない。 この制約は符号語の書き込み先がゲノム DNAなどあら力じめ決まった配列の場合、 また特定の制限酵素を使用する場合に必要となる。
2.長さ kのサブワード力 設計した符号語とそれらの連結の間に 2度以上現れないこ と。この制約は、ミスハイブリダィゼーシヨンの回避を確実にするために必要である。
3.期待される符号語のハイブリダィゼーシヨンを妨げるような二次構造が生じてはな らない。この制約は、 DNA符号語の応用分野において温度調節が重要な役割を占 める場合に必要となる。 特許文献 1:特開 2001— 352980号公報
特許文献 2:欧州特許第 97302313号公報
特許文献 3:米国特許第 5604097号明細書
非特許文献 1 : Biochemistry 37, 26, 9435-9444, 1998
非特許文献 2 : Science 266, 5187, 1021-1024, 1994
非特許文献 3: Proceedings of the National Academy of Sciences of USA 89, 12, 5381-5383, 1992
非特許文献 4 : Proceedings of the National Academy of Sciences of USA 97, 4, 1665-1670, 2000
非特許文献 5 Journal of Computational Biology 7, 3-4, 503-519, 2000
非特許文献 6 : 10th Foresight Conference on Molecular Nanotechnology (Bethesda,
USA) Poster abstract, 2002
非特許文献 7 : Nucleic Acids Research 25, 23, 4748-4757, 1997
非特許文献 9 : Langmuir 18, 3, 805-812, 2002
非特許文献 10 Journal of Computational Biology 8, 3, 201-219, 2001
非特許文献 11 Journal of Computational Biology 7, 3-4, 503-519, 2000
非特許文献 12 : Genome Research 10, 6, 853-860, 2000
非特許文献 13 :Judson, H. F.: The Eighth Day of Creation: Makers of the
Revolution in Biology. (Original 1979; Expanded Edition 1996) Cold Spring Harbor
Laboratory 1996
非特許文献 14 : IEEE Transactions on Information Theory, IT- 11, 107-112, 1965 非特許文献 15 : Stiffler, J. J.: Theory of Synchronous Communication. Prentice-Hall, Inc., Englewood Cliffs, N. J., 1971
非特許文献 16 : Proceedings of the National Academy of Sciences of USA 89, 12, 5381-5383, 1992
非特許文献 17 : Proceedings of the National Academy of sciences of USA 97, 4, 1665-1670, 2000
非特許文献 18 : DNA Based Computers II, DIMACS Series in Discrete Mathematics and Theoretical Computer Science 44, 247-258, 1998
非特許文献 19 : Proceedings of the 3rd Annual Genetic Programming Conference, Morgan Kauftnann 684-690, 1998
非特許文献 20 : Proceedings of the National Academy of Sciences of USA 97, 4, 1385-1389, 2000
非特許文献 21 : DNA Computing: 6th International Workshop on DNA- Based
Computers (DNA 2000; Leiden, The Netherlands)
非特許文献 22 : LNCS 2054, 17-26, 2001
非特許文献 23 : Science 296, 5567, 499-502, 2002
非特許文献 24: Proceedings of 8th International Meeting on DNA- Based Computers (DNA 2002; Sapporo, Japan), 311—323, 2002
非特許文献 25 : Canadian Journal of Mathematics 10, 202-209, 1958
非特許文献 26 : Canadian Journal of Mathematics 39, 3, 513—526, 1987
非特許文献 27 : Proceedings of the National Academy of sciences of USA 83, 11,
3746-3750, 1986
非特許文献 28 biochemistry 37, 26, 9435-9444, 1998
非特許文献 29 : Critical Reviews in Biochemistry and Molecular Biology 2b, 3-4, 227-259, 1991
発明の開示
発明が解決しょうとする課題
上述したように、ノィォテクノロジー及びナノテクノロジーが進歩するに従 、、 DNA に情報を書き込むことへの需要は高まりつつあり、力かる技術が適用される分野は、 人工的な情報を DNAに書き込もうとする点で、従来におけるバイオテクノロジーとは 異なっている。 DNA符号のための様々な設計法が提案されてはいる力 それらの手 法は DNAを情報媒体として使う際の(例えば ASCIIコードのような)標準コードを目 指してはいない。これは、それぞれの手法が利用される分野において DNA配列の 満たすべき制約が異なることに起因すると考えられる。情報媒体として DNAを利用 する場合、単純かつ汎用的な符号が必要とされる。 [0020] DNA中に情報を読み書きする際には、以下の現象を考慮せねばならない。
1. DNAを読み取る際、塩基配列の読み間違いや、数塩基程度のスキップなどのェ ラーが生じる。
2. DNAを読み取る際には、プライマーと呼ばれる特異的な配列が必要となる。ブラ イマ一配列は、情報を保持する配列の両端に配置され、プライマー配列で挟まれた 領域 (情報配列)のみを増幅する。
3. DNAに書き込む配列の物理的特性 (融解温度など)が揃うことが必要とされる。 情報を表現する DNA配列の物理的特性が大幅に異なる場合には、特異な二次構 造を作成したり、プライマーによる増幅効率が激減したりする。また、目標 DNA中に 情報配列を組み込む際にも困難をともなう。
4.出現して欲しくない配列の存在がある。このため、例えば、特定の制限酵素部位 が情報配列中に出な 、ようにする制約や、特定の遺伝子配列と共通の配列を持たな いようにする制約は非常に重要であり、一般的である。
[0021] 従来の DNA符号に関する技術は、書き込んだ情報を「そっくりそのまま」 DNAから 読み出せるという仮定のもとに理論が構築されており、読み取りエラーの存在を考慮 していない。また、プライマーについても考慮しないか、「DNAへ埋め込む情報の両 端に特異的な配列を用意する」 、つた非常に曖昧な解決法し力提示して 、な 、。 また、従来法は、 DNAの中に情報を書き込むための具体的な手段を示していない ため、物理的特性を揃え、特定配列の出現を防ぐといった手法も表していない。遺伝 情報の複製には多くの実験的制約が存在し、高い技術力をもってしても遺伝情報を 誤り無しに複製することは不可能である。また複製の段階で誤りがなくなったとしても 、生体の DNAに情報配列を記入する場合は、生体内分子や放射線による配列の突 然変異も考慮しなくてはならない。
[0022] したがって、本発明の課題は、 DNAの遺伝情報を含まな ヽ任意の非コード領域に 、任意の情報を読み書きするための情報担体としての符号 (アルファベットなど人工 的に意味付けをおこなった記号の集合)用塩基配列の集合、すなわち DNA符号の 設計方法を提供することにある。力かる DNA符号の符号語は、コンピュータが利用 するコード体系と対応付け可能であり、文字をどのようにつなぎあわせても符号語の 復号が非常に高い信頼度で可能となる点に特徴がある。この DNA符号語は、天然 DNAと十分に異なる特徴を有しており、 DNAの遺伝情報を含まな ヽ任意の部分に 埋め込むことができる。また、本発明の設計方法により作製された DNA符号語は、 情報の記憶媒体として利用することも可能である。
課題を解決するための手段
[0023] 本発明者は、先に、所定の長さ n (nは 3以上、好ましくは 6以上の整数)のオリゴヌク レオチド配列の集合 S1中の各オリゴヌクレオチド配列力 集合 S1中の各オリゴヌタレ ォチド配列との間、集合 S1中の他の各オリゴヌクレオチド配列の相補配列との間、こ れらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補 配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との 間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相 補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配 列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を 連結した配列との間でのミスハイブリダィゼーシヨンを回避することができるオリゴヌク レオチド配列の集合 S1をシステマティックに設計する方法や、相補配列同様に、逆 配列に対してもミスハイブリダィゼーシヨンを回避することができるオリゴヌクレオチド 配列の集合 S 1をシステマティックに設計する方法を提案して!/ヽる(特願 2001-3317 32)。
[0024] 本発明者は、上記課題を解決するために鋭意研究し、 DNAに情報を埋め込む配 列の設計には誤り訂正機能のほかに融解温度のような物理的特性も均質に保つ必 要があることから、上記本発明者によるオリゴヌクレオチド配列の集合を設計する際に 用いたテンプレートから、更に長さ mのサブワード制約を有するものを選定し、同じく 長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせること で情報を記述する際の文字として利用可能な塩基配列の集合 S2とすることにより、こ れらの条件を全て満たす DNA符号の設計法を見 ヽだし、 ASCIIコードを含む既存 の文字コード体系と DNAの塩基配列によるコード体系との対応付けを実現すること で本発明を完成するに至った。
[0025] すなわち、本発明は、所定の長さ n(nは 6以上の整数)のオリゴヌクレオチド配列を 、その各ポジションが G又は C ( [GC] )ある!/、は A又は T ( [AT] )であることを意味す る、 0と 1からなる所定の長さ L (Lは 6以上の整数)のビット列(GCテンプレート)で表 わした場合、各 GCテンプレート間のノ、ミング距離、各 GCテンプレートの逆配列との 間のハミング距離、これらをシフトした配列との間のノ、ミング距離、並びに、各 GCテン プレート同士、各 GCテンプレートの逆配列同士、及び各 GCテンプレートとその逆配 列を連結した配列との間のハミング距離力 V、ずれも所定値 k以上になる GCテンプ レートを選択し、力かる選択された GCテンプレートの集合から、長さ mのサブワード 制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有す る所定の誤り訂正符号の符号語と組み合わせることによりオリゴヌクレオチド配列の 集合 S1を作成することを特徴とする DNA符号の設計方法 (請求項 1)や、所定の長 さ n (nは 6以上の整数)のオリゴヌクレオチド配列を、その各ポジションが A又は G ( [A G])あるいは T又は C ( [CT])であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数)のビット列 (AGテンプレート)で表わした場合、各 AGテンプレート間の ハミング距離、各 AGテンプレートの逆反転配列との間のノ、ミング距離、これらをシフ トした配列との間のハミング距離、並びに、各 AGテンプレート同士、各 AGテンプレ 一トの逆反転配列同士、及び各 AGテンプレートとその逆反転配列を連結した配列と の間のハミング距離が、いずれも所定値 k以上になる AGテンプレートを選択し、かか る選択された AGテンプレートの集合から、長さ mのサブワード制約を有する集合をテ ンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号 の符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作成することを 特徴とする DNA符号の設計方法 (請求項 2)や、ハミング距離 kを保つオリゴヌクレオ チド配列の集合 S1が、各配列同士の間、他の各配列の相補配列との間、これらをシ フトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配 列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記 各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並 びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連 結した配列との間でのミスハイブリダィゼーシヨンを回避することができ、また情報の 復号を容易にすることを特徴とする DNA符号の設計方法 (請求項 3)や、所定の長さ nのオリゴヌクレオチド配列の集合 SIが、 32以下の長さのオリゴヌクレオチド配列の 集合 S1であることを特徴とする DNA符号の設計方法 (請求項 4)や、ハミング距離の 所定値 kが、 Lの 1Z4以上の値であることを特徴とする DNA符号の設計方法 (請求 項 5)や、長さ mのサブワード制約力 Lの 1Z2以上の値であることを特徴とする DN A符号の設計方法 (請求項 6)や、オリゴヌクレオチド配列の集合 S1が、特定の部分 配列を含む、又は特定の部分配列を含まな 、オリゴヌクレオチド配列の集合であるこ とを特徴とする DNA符号の設計方法 (請求項 7)や、所定の誤り訂正符号の符号語 力 ハミング符号、 BCH符号、最大長系列符号、 Golay符号、 ReedMuller符号、 ReedSolomon符号、 Hadamard符号、 Preparata符号、リバーシブル符号、重み一定符 号、非線型符号から選ばれる符号語であることを特徴とする DNA符号の設計方法( 請求項 8)や、記号単位に対応する塩基配列の集合が、天然の DNAと異なる配列を 有し、かつ一定の [GC] [AT]または [CT] [AG]の並びを有することを特徴とする D NA符号の設計方法 (請求項 9)が提供される。
また、本発明は、 DNAの遺伝情報を含まな 、任意の非コード領域に、コンピュータ で解読可能なコード体系を用いて任意の情報を書き込むことができる、記号単位に 対応する塩基配列の集合から DNA符号 (請求項 10)や、一定の [GC] [AT]または [CT] [AG]の並びを有し、融解温度が所定の範囲内に揃うように設計された塩基配 列の集合力 なる DNA符号 (請求項 11)や、数塩基のスキップまたは置換等の誤り の検出が容易な塩基配列の集合力 なる DNA符号 (請求項 12)や、記号単位に対 応する塩基配列の読み枠のずれや、複数塩基の置換等の誤りの存在下でも高 ヽ信 頼度で解読 (復号)できる誤り訂正機能を備えて!/、る DNA符号 (請求項 13)や、記号 単位に対応する塩基配列同士で安定な二次構造を形成せず、文字をどのように連 結してもプライマーによる増幅を妨げるような物理的阻害が生じない DNA符号 (請求 項 14)や、天然の DNAと容易に区別しうる、記号単位に対応する塩基配列の集合か らなる DNA符号 (請求項 15)や、塩基配列における塩基並び方が制限され、特定の 部分配列が出現するかどうかを簡単に検証することができる DNA符号 (請求項 16) や、いかなるハイブリダィゼーシヨンでも少なくとも 4つの位置でミスマッチを示し、連 続的なサブシーケンスが高々 6つしかなぐ最近接塩基対概算において同じ融解温 度を保持する、長さ 12、 112語の符号語からなる DNA符号 (請求項 17)や、上記の いずれかの設計方法により得ることができる DNA符号 (請求項 18)や、その DNA符 号を、 DNAの遺伝情報を含まな 、任意の非コード領域に埋め込むことを特徴とする DNAへの任意の情報の書込み方法 (請求項 19)が提供される。
[0027] さらに、本発明は、 DNAがベクター DNAであることを特徴とする DNAへの任意の 情報の書込み方法 (請求項 20)や、 DNAがゲノム DNAであることを特徴とする DN Aへの任意の情報の書込み方法 (請求項 21)や、 DNA符号により、 DNAの作成者 を識別することができる DNAへの任意の情報の書込み方法 (請求項 22)や、これら の DNA符号が、 DNAの遺伝情報を含まな 、任意の非コード領域に埋め込まれた 標識ィ匕ベクター(請求項 23)や、これらの DNA符号が、 DNAの遺伝情報を含まない 任意の非コード領域に埋め込まれた標識ィ匕細胞 (請求項 24)や、これらの DNA符号 を有する DNAタグ (請求項 25)が提供される。
発明の効果
[0028] 本発明によると、以下の特徴をもつ DNA符号を設計することができる。
1.全ての文字が同じ GCZATの並びをもつ。この条件により融解温度を揃えること ができ、かつ天然 DNAとの区別が容易である。また、数塩基のスキップといった誤り 検出も容易である。さらに、全ての文字配列が同じパターンであることから、特定の塩 基配列の出現箇所が極度に制限され、特定の部分配列が出現するかどうかを簡単 に検証することができる。
2.全ての文字どうしは、文字を表現する DNA配列長の約 1Z3に相当する塩基が 異なっており、さらに相補配列を含め、任意の文字をつなげた部分とも、約 1Z3に相 当する塩基が異なっている。これは「誤り訂正機能」と呼ばれ、文字配列の読み枠の ずれや、複数塩基の置換と!/、つた誤りの存在下でも高 、信頼度で情報文字列を解 読できる機能を提供する。
3.全ての文字どうしおよび文字の連結部分は、一定の長さ以上の連続した塩基配 列一致部分を持たない。この条件から、文字どうしで非常に安定な二次構造を作らな いことが示され、文字配列をどのようにつなげてもプライマーによる増幅を妨げるよう な物理的阻害は起こらない。 発明を実施するための最良の形態
本発明の DNA符号の設計方法としては、所定の長さ n (nは 6以上の整数)のオリゴ ヌクレオチド配列を、その各ポジションが G又は C ( [GC] )あるいは A又は T ( [AT] ) であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数)のビット列(GC テンプレート)で表わした場合、各 GCテンプレート間のハミング距離、各 GCテンプレ 一トの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、 並びに、各 GCテンプレート同士、各 GCテンプレートの逆配列同士、及び各 GCテン プレートとその逆配列を連結した配列との間のノ、ミング距離力 V、ずれも所定値 k以 上になる GCテンプレートを選択し、かかる選択された GCテンプレートの集合から、 長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサ ブワード制約を有する所定の誤り訂正符号の符号語と組み合わせる、あるいは、所 定の長さ n(nは 6以上の整数)のオリゴヌクレオチド配列を、その各ポジションが A又 は G ( [AG] )あるいは T又は C ( [CT] )であることを意味する、 0と 1からなる所定の長 さし (Lは 6以上の整数)のビット列 (AGテンプレート)で表わした場合、各 AGテンプレ ート間のハミング距離、各 AGテンプレートの逆反転配列との間のノ、ミング距離、これ らをシフトした配列との間のノ、ミング距離、並びに、各 AGテンプレート同士、各 AGテ ンプレートの逆反転配列同士、及び各 AGテンプレートとその逆反転配列を連結した 配列との間のハミング距離が、 V、ずれも所定値 k以上になる AGテンプレートを選択し 、力かる選択された AGテンプレートの集合から、長さ mのサブワード制約を有する集 合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂 正符号の符号語と組み合わせることにより、情報伝達における単位信号に対応する オリゴヌクレオチド配列の集合 S1を作成する方法であれば特に制限されるものでは なぐ上記オリゴヌクレオチド配列には DNA配列や RNA配列が含まれ、上記「情報 担体としての DNA符号の設計方法」には、便宜上「情報担体としての RNA符号の設 計方法」も含まれる。なお、本発明において、符号化とは、文字や記号をコンピュータ で扱うために、文字や記号に特定の塩基配列を対応させることをいい、また、 DNA 符号とは、 DNAを媒体として表記された単位信号 (アルファベット等の文字、 DNA 符号語ということもある)の集合を云う。本発明の設計方法により得られる DNA符号 は、 DNAの遺伝情報を含まないイントロン、 5,一非コード領域、 3,一非コード領域等 の任意の非コード領域に任意の情報を書き込む場合に、有利に用いることができる。
[0030] 上記オリゴヌクレオチド配列の所定の長さ n(nは 6以上の整数)の上限は限定され ないが、通常 100塩基、好ましくは 32塩基であり、上記オリゴヌクレオチド配列の集合 S1には、便宜上集合 S1の部分集合も含まれる。以下、オリゴヌクレオチド配列が DN A配列の場合を中心とし、相補配列も含めてミスマッチを含む集合 S1を用いた、アル ファベット等の単位信号に対応する塩基配列の集合力もなる DNA符号を、 GCテン プレートを用いて設計する場合を中心に説明する。
[0031] テンプレートを用いて設計される上記集合 S1中の P配列は、それ自体の配列及び 集合 S1中の他の P配列との間に、シフトのない場合とシフトのある(配列同士をずらし た)場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダィゼーシヨンを回 避することができるば力りでなぐ集合 S1中の他の(それ自体を除く)各オリゴヌクレオ チド配列の相補配列である Pe配列との間、すなわち、 P配列における Aを T、 Τを Α、 Gを C、 Cを Gにそれぞれ置換し、 5'と 3'の向きを逆にした Pe配列との間に、シフトの ない場合とシフトのある場合に関わらず所定値以上のミスマッチを含み、ミスノ、イブリ ダイゼーシヨンを回避することや、集合 S1中の各オリゴヌクレオチド配列を連結したォ リゴヌクレオチド配列、すなわち、各 P配列同士の連結配列、各 PC配列同士の連結 配列、各 P配列と PC配列との連結配列、各 PC配列と各 P配列との連結配列等との間 に、所定値以上のミスマッチを含み、ミスハイブリダィゼーシヨンを回避することができ る。ここで、ミスマッチとは、ハイブリダィズした場合の相補塩基以外との対合をいい、 所定値以上のミスマッチとしては、ミスハイブリダィゼーシヨンを回避することができるミ スマッチ数であれば特に制限されないが、好ましくはオリゴヌクレオチド配列の所定の 長さ n (nは 6以上の整数)の 1Z5個以上、より好ましくは 1/4個以上、特に好ましく は 1Z3個以上のミスマッチを挙げることができる。
[0032] また、上記集合 S1を構成するオリゴヌクレオチド配列としては、特定の部分配列の 出現個所を容易に特定できる配列集合として操作しうることが好まし 、。かかる特定 の部分配列としては、制限酵素認識部位や、 RNAのポリ A部分、翻訳開始コドンで ある ATG、ストップコドンである TAA, TAG, TGA等を初めとする発現シグナル配 列や、転写因子の認識するコンセンサス配列 GCCAATCT, ATGCAAATや、抗 体の可変ドメインをコードする塩基配列などの任意の DNA配列シグナルを例示する ことができる。
[0033] 上述のオリゴヌクレオチド配列の集合 S 1は、通常、 2段階で設計できる。最初の段 階は、ノ、ミング距離を用いた GCテンプレートの設計段階、次の段階は、設計された GCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の 理論を利用して、 目的とする本発明のオリゴヌクレオチド配列の集合 S 1を設計する段 階である。最初の段階で、配列の各ポジションが [GC]か [AT]かを決定する。このポ ジシヨンは 0と 1からなる GCテンプレート; b b - - -b (b≡{0, 1 } )で表現され、 1は [AT
1 2 i i
] , 0は [GC]、又は 1は [GC] , 0は [AT]を意味する。このため、長さ Lの GCテンプレ ートで、 通りでなく 2^通りの配列を表現することになる。次の段階で、 GCテンプレー トが 1の部位は [AT] , 0の部位は [GC]、(又はその逆の組み合わせ)の塩基へ具体 的に置換することにより塩基配列が決定される。
[0034] 上記ノ、ミング距離は、配列間の類似度の尺度として用いられる。例えば、 2つの文 字列 x = x X · χと y=y y - --yのハミング距離は、 x≠yとなるインデクス iの数と定義
1 2 n 1 2 n i i
される。また、 DNA配列間のミスノ、イブリダィゼーシヨンは、配列がシフトした (ずれた )状態でも起こりうるから、配列がシフトした場合のノ、ミング距離も考慮する必要がある 。シフトはどちらか一方の配列が他方に比べて長い場合に生じることであるから、例 えば、 I X I く I y Iとすると、 2つの文字列間のハミング距離は、 Xと、長さ I X Iの y 中に含まれる( I y I - I X I + 1)個の部分配列それぞれとのノ、ミング距離の最小値 とすることができる。この最小値で表されるノ、ミング距離を H (x, y)で表す。
[0035] 次に、 GCテンプレート tと、該 GCテンプレート t同士の連結配列, GCテンプレート t の逆配列 tR同士の連結配列, GCテンプレート tと逆配列 tRの連結配列とのハミング距 離を求めるために GCテンプレート tに対する関数 MD (minimum distanceの略)を考 える。上記 GCテンプレート tの逆配列 tRは、 GCテンプレート tのビット列を逆向きに並 ベた配列を意味する。 GCテンプレート tと、連結配列における両外側の配列となる G Cテンプレート tやその逆配列 tRとのノ、ミング距離は既に求められているから、連結配 列に対して GCテンプレート tをシフトさせハミング距離の最小値を求める場合、連結 配列の両端の一文字ずつを取り除 、た配列につ 、て検討すればょ 、。 MD (t)の式 には記号〔〕を用いると便利である。記号〔〕は〔s s s "'s s ] =s - --s 、すなわち両
1 2 3 m-1 m 2 m-1
端の一文字ずつを取り除いた配列を意味する。そうすると、 GCテンプレート tと連結 配列とのノ、ミング距離の最小値 MD (t)は次式で表される。
MD (t) =min{H (t, tR) , H (t, 〔tt〕), H (t, 〔ttR〕), H (t, 〔tRt〕), H (t, [tV] ) } [0036] したがって、ある GCテンプレート tに対して MD (t) =k(k≥0)の場合、連結配列に 対して GCテンプレート tをシフトさせた場合、連結配列の両端の一文字ずつを取り除 いた配列 〕, 〔ttR〕, 〔tRt〕, 〔tY〕に対して、その連結部分を含め、少なくとも kのハ ミング距離が保証される。図 1に、 GCテンプレート t= 110100の場合に MD (t) = 2 となることが示されている。この場合、逆配列 tR=001011, [tt] = 1010011010, 〔 ttR] = 1010000101, 〔tRt〕 =0101111010, 〔tRtR〕 =0101100101となり、図 1に は各ノ、ミング距離が 2の場合が示されている。図 1からもわ力るように、 GCテンプレー ト t= 110100は、どのようにシフトしてもノ、ミング距離を 2より小さくできないので、 MD (t) = 2となる。
[0037] このように、上記 GCテンプレートの設計方法は、上記オリゴヌクレオチド配列の集 合 S1を作製するための最初の段階で用いられる。かかる GCテンプレートの設計方 法としては、上述の説明からもわ力るように、所定の長さ nのオリゴヌクレオチド配列を 、その各ポジションが [GC]あるいは [AT]であることを意味する、 0と 1力もなるビット 列(GCテンプレート)で表わした場合、各 GCテンプレート間のノ、ミング距離、各 GC テンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミン グ距離、並びに、各 GCテンプレート同士、各 GCテンプレートの逆配列同士、及び各 GCテンプレートとその逆配列を連結した配列との間のハミング距離 MD (t)力 いず れも所定値 k以上になる GCテンプレートを選択する方法であれば特に制限されるも のではないが、 GCテンプレートの長さ Lは 6以上、好ましくは 6— 100、より好ましくは 6— 32、特に好ましくは分子生物学実験でよく用いられる 20前後であり、 5以下の場 合は所望のハミング距離を有するものが得られな 、。力かる長さ Lを有する GCテンプ レートを用いると、相当する長さ nのオリゴヌクレオチド配列の集合 S1を得ることができ る。また、所定値 kとしては、力かる GCテンプレートから作製されるオリゴヌクレオチド 配列力 ミスノ、イブリダィゼーシヨンを回避することができる本発明のオリゴヌクレオチ ド配列となる値であれば特に制限されないが、好ましくは GCテンプレートの長さ Lの 1 Z5以上、より好ましくは 1Z4以上、特に好ましくは 1Z3以上の値を挙げることができ る。
[0038] 一般に、長さ Lを大きくした場合や、 MD値 (k値)を下げた場合はより多くの GCテン プレートが存在することになる力 所定の長さで最も大きい k値 (MD値)を有する GC テンプレートは特に重要である。長さ L = 6— 32で最も大きい k値 (MD値)を有する G Cテンプレートとしては、長さ L=6— 10のとき所定値 k= 2、長さ L= 11一 15のとき所 定値 k=4、長さ L= 16— 18のとき所定値 k=6、長さ L= 19のとき所定値 k= 7、長さ L = 20— 22, 24のとき所定値 k=8、長さ L = 23, 25のとき所定値 k= 9、長さ L = 26 , 27のとき所定値 k= 10、長さ L= 28, 29のとき所定値 k= l l、長さ L= 30— 32のと き所定値 k= 12の GCテンプレートである。上記の長さ L = 6— 32の GCテンプレート における所定値 kの最大値と、その最大値を有する GCテンプレート数と、具体例を [ 表 1]に示す。また、特定の MD値 (k値)を満たす最短の GCテンプレートを [表 2]に 示す。さらに、長さ L= 11一 27の GCテンプレートにおける具体例を [表 3]に、長さ L = 28— 30の GCテンプレートにおける具体例を [表 4]に示す。なお、 [表 2]において は、 01の反転又は逆配列が等しくなる場合を省いて列挙されており、 [表 3]及び [表 4]においては、サイクリックシフト(cyclic shift)して同一になる GCテンプレートを省い た数が「数 (item)」として示されて 、る。
[0039] [表 1]
O
Figure imgf000021_0001
Figure imgf000022_0001
[f 濯]
uzLoo/toozdr/iJd ει^οι請 OAV
Figure imgf000024_0001
[0043] 上記 [表 1]一 [表 4]等に列挙されている GCテンプレート配列は、全て 0の配列から 全て 1の配列までの全パターンを網羅的に探索することにより、当業者であれば選び 出すことができる。しかし、長さ Lの GCテンプレートを見つけるのに 2L個のパターン全 てを探す必要はなぐビット 01を反転させた GCテンプレートは同じ性質を持つことか ら、 GCテンプレートに含まれるビット 1が L/2以下のものを考えればよい。また、ミス マッチ個数の制約から、最小距離が dの場合、少なくとも(L sqrt (L2— 2dL) ) Z2個 のビット 1をもつことが示される(sqrtは平方根)。このような制約を追カ卩的に用いること で、 GCテンプレートを効率よく求めることができる。さらに、 GCテンプレートの設計に 際して、 GCテンプレートから作製したオリゴヌクレオチド配列の集合 S1が、前述した 制限酵素認識部位等の特定の部分配列を含む、又は特定の部分配列を含まないォ リゴヌクレオチド配列の集合となるように設計することは、網羅的探索の空間を狭める ことに対応するため、より容易に設計することができる。
[0044] 上記オリゴヌクレオチド配列の集合 S1は、上記ハミング距離を用いた GCテンプレ ートの設計段階に続ぐ設計された GCテンプレートが表現するオリゴヌクレオチド配 列の集合の中から、誤り訂正符号の理論を利用する段階、すなわち、誤り訂正符号 の符号語と組み合わせることにより設計することができる。上記誤り訂正符号の符号 語としては、公知の誤り訂正符号の符号語であればどのようなものでもよぐノ、ミング 符号、 BCH符号、最大長系列符号、 Golay符号、 ReedMuller符号、 ReedSolomon符 号、 Hadamard符号、 Preparata符号、リバーシブル符号、重み一定符号、非線型符号 等を具体的に例示することができる。
[0045] 誤り訂正符号の理論を用いる動機は、シフトの無!、場合に相補配列との間でミスマ ツチを保証することにある。従って、逆配列を考慮する集合 S1については、必ずしも 誤り訂正符号を用いる必要はない。誤り訂正符号は任意の符号語間にミスマッチの 数が一定以上存在するような符号語の集合であるが、集合 S1とその逆配列の集合 がミスハイブリダィゼーシヨンを防ぐようにする場合は、任意の符号語間に(ミスマッチ ではなく)マッチの数が一定以上存在するような符号語の集合を適用するだけでよい 。上記オリゴヌクレオチド配列の集合 S1は、 GCテンプレートの情報とともに符号語の 情報が配列に反映される。従って、相補配列との間で k個のミスマッチを保証するに は、ノ、ミング距離 (ミスマッチの数) k以上を保つ誤り訂正符号を用いればよぐ逆配列 との間で k個のミスマッチを保証するには、マッチの数 k以上を保つ符号を用いれば よい。
[0046] 誤り訂正符号の理論では、与えられた情報ビットに検査ビットと呼ばれる誤り検出、 訂正用の冗長なビットを付け加え、任意の符号語間のノヽミング距離を一定値以上に するような符号が開発されている。この符号語間のハミング距離の最小値は最小距 離と呼ばれる。符号理論の目標は、最小距離を大きく保ちつつ符号語数が多いもの を設計することにあるため、本発明の目的にかなう符号が多く存在する。例えば符号 長 23で最小距離が 7の Golay符号は 4096語ある。この符号を用いれば長さ 23の GC テンプレート(MD値は 9まで)一つに対し、 4096個のオリゴヌクレオチドを設計可能 である。
[0047] 汎用の DNA符号には、更に厳しい制約をみたすオリゴヌクレオチド配列を用意す るため、上記の集合 S1で利用するテンプレートを選択する際に長さ mのサブワード 制約もあわせて考慮せねばならない。力かる集合を選定する際には、集合 S1を生成 するテンプレート間で 01のビット列が m個以上連続することのないようにし、また、誤り 訂正符号語からは、符号語間の距離を最大クリーク問題への自明なトランスフォーメ ーシヨンを使うことで、符号語間でビット列が m個以上連続一致しないように設計する 。このような長さ mのサブワード制約における m値としては、ミスマッチを十分に分散さ せることができる点で、 10以下の値であることが好ましい。例えば Lが 12のとき、 m値 として 7を挙げることができる。
[0048] 例えば、集合 S1におけるテンプレートとして、 MD (t) =4、長さ 7のサブワード制約 を有する長さ L= 12の 000110011101と 001010111100 (上段)に、最 /J、距離 4、 長さ 7のサブワード制約を有する長さ L = 12の非線型符号の符号語として、 001110 010000、 001001010100、 000000000000、 010001110101、 1110100110 00 (下段)を組み合わせると、得られる塩基配列はいかなる連結、シフトに対しても、 お互いに最低 4ミスマッチを含み、ミスマッチを起こさな!/、塩基配列が 7塩基以上連続 することがない。例えば、 00を A, 01を T, 10を G, 11を Cにすると、 GC含量が 1/2 となる [表 5]に示される 12塩基力もなる 10個の DNA配列の集合が与えられる。また , OO^G, 01を C, 10を A, 11を Tにすると、 GC含量が 1/2である [表 6]に示される 12塩基力もなる 10個の DNA配列の集合が与えられる。
[0049] [表 5]
0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0
A A T C C A A C G T A G A A T C G T A G C C A G A A A G G A A
1 1 1 0 1 0 0 0 1 7 0 0 1 1 1 0 1 0 0 0 1 〗 0 0 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 0 0 0
G G G A C» A T A G G T T C G C A C T T T G C A A C C G A G
0 0 1 0 1 0 1 1 1 1 0 0 O O 1 0 1 0 1 1 1 1 0 0 0 0 1 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 A A C T C A G C G T A A A A C A G T G C G C A A A A G A G A G
1 1 1 0 0 0 0 1 0 1 0 1 1 1 1: < o0 0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0: < o 1—1 1 1 1 0 1 0 0 1 1 0 0 0 G G A A A T G A G T C C G C A T T T C A C A G C C G A A
[0050] [表 6]
D o o ;
O o o:
0 0 0 1 1 0 0 1 1 1 0 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0
0 0 1 1 1 0 0 1 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0
G G C T T (·; G T A A G A C G T A T G A G G G A A G G
1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 0 0 0 A A A G A G C G A A C C T A丁 '':; T C C C A T G G T T A G A
0 0 1 0 1 0 1 1 1 1 0 0 0 0 1 0 1 0 1 0 0 1 0 1 0 1
0 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0
G G T C T G A T A A G G G G T G A C A G G A G A G A
1 1 1 0 0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 0 0 0 A A A G G G C A G A C T T A T G C C C T G T C A T T A G G
[0051] 次に、本発明の DNA符号は、 DNAの遺伝情報を含まな ヽ任意の非コード領域に 、 2進符号などのコンピュータで解読可能なコード体系を用いて任意の情報を書き込 むことができる、符号ィ匕された塩基配列集合力もなるものであれば特に制限されるも のではないが、 GC含量だけでなく GC塩基の並び方が揃い、生物学実験で用いられ る最近接塩基対法により計算される融解温度が所定の範囲内に揃うように符号化さ れた塩基配列の集合力 なる DNA符号や、数塩基のスキップまたは置換等の誤りの 検出が容易な符号化された塩基配列の集合カゝらなる DNA符号、符号化された塩基 配列の読み枠のずれや複数塩基の置換等の誤りの存在下でも高い信頼度で解読で きる誤り訂正機能を備えた DNA符号、符号化された塩基配列同士で安定な二次構 造を形成せず、符号語をどのように連結してもプライマーによる増幅を妨げるような物 理的阻害が生じない DNA符号、天然の DNAと容易に区別しうる、文字に対応する 符号化された塩基配列の集合力 なる DNA符号、塩基の並びが制限され、特定の 部分配列の出現を簡単に検証することができる DNA符号が好ましぐ力かる DNA符 号は、前記本発明の DNA符号の設計方法により得ることができる。そして具体例とし て、符号語をその相補配列を含めていかように連結しても符号語間で少なくとも 4つ の位置でミスマッチ含み、塩基の連続一致がたかだか 6つしかな 、ためにミスハイブ リダィゼーシヨンを防ぎ、さらに最近接塩基対概算における同じ融解温度を保持する 、長さ 12の符号語 112語からなる DNA符号を挙げることができる。
[0052] また、本発明による DNAを用いた任意の情報の書込み法としては、アルファベット 等の文字に対応する塩基配列の集合からなる上記本発明の DNA符号を、 DNAの 遺伝情報を含まないイントロン、 5'—非コード領域、又は 3'—非コード領域等の任意 の非コード領域に埋め込む方法であれば特に制限されるものではなぐ本発明の D
NA符号が埋め込まれる DNAとしては、プラスミドベクター DNAやウィルスベクター DNA等のベクター DNA、動植物細胞や微生物細胞のゲノム DNAを例示すること ができる。本発明の DNAへの任意の情報の書込み方法により、 DNAの遺伝情報を 含まない任意の非コード領域に、作成者を識別することができるアルファベット等の 文字に対応する DNA符号を埋め込むことにより、 DNA署名を行うことができる。本 発明はまた、本発明の DNA符号力 ¾NAの遺伝情報を含まな 、任意の非コード領 域に埋め込まれた、作成者を識別することができる標識化ベクターや標識化細胞に 関する。
[0053] 基板上に複数種類の本発明の DNA符号カゝらなるオリゴヌクレオチド鎖を高密度に 固定ィ匕しても、配列同士が互いにミスノ、イブリダィゼーシヨンを起こしにくいため、本 発明の符号ィ匕された塩基配列の集合は DNA又は RNAチップに、あるいは DNA又 は RNAタグとして有利に用いることができる。また、相補配列ともミスハイブリダィゼー シヨンを起こしにくいため、本発明の符号ィ匕された塩基配列の集合は PCR等におけ るプライマーとしても有用である。さらに、本発明の符号化された塩基配列の集合は、 互いにミスハイブリダィゼーシヨンを起こしにくいことにカ卩えて、制限酵素認識部位等 の特定の配列部分を有しな 、ことを容易に証明できることから、論理式やグラフ構造 など様々な記号処理演算系を書き込んだ DNA配列を人工的に合成し、その配列を 分子生物学実験のプロトコールに従って切り貼りすることにより、実験の最後に得られ る配列が DNA計算の「計算結果」となる DNA計算システムに有利に用いることがで きる。
実施例
[0054] 以下、実施例により本発明をより具体的に説明するが、本発明の技術的範囲はこ れらの例示に限定されるものではない。
[0055] (DNAアスキー符号)
DNAを用いて ASCIIコード(128文字)の設計を想定した場合、アルファベット等 の各文字に対し、 1つの DNA符号語が使用される。少なくとも 128符号を持つ長さの 短い誤り訂正符号に、非線型(nonlinear) (12, 144, 4)符号がある(Sloane, N. J. A. and Mac Williams, F. J.: The Theory of Error-Correcting Codes. Elsevier, 1977J。 上記(12, 144, 4)の表示は、最小距離 4を持つ 144符号語の長さ 12のコード(1つ の誤り修正、 2つの誤り検出)を意味する。 144語の中から、最大クリーク問題のソル バー(http:〃 rtm.science.unitn.it/intertools/)を使用することにより、長さ 6、長さ 7及 び長さ 8のサブワード制約をそれぞれ満たす、 32、 56及び 104の語を選択すること ができる。(12, 144, 4)で表されるコードは表 7に示され、力かる 144の符号語の内 でダガーが付されて!ヽるものは、長さ 7のサブワード制約を満たす 56の符号語である
[0056] [表 7] ΙΙϋΟΙΟΙΙΧΚΚΚ) 】顧 "οιοοοο' iinoonooi io noooooonioi 101100100000' 10100100l000t 101ί)00010001 ioiooofloonor 】ooimoooiH)t 100100011000 100 I 00000011 100011000010 1000蘭 0100 100010001001 1D0000110010 1麵鳴 1100' ()11100000010 οποιηοοοιοη 011000110000' 011000001001 010110001000 010100100100 010100010001
()讓蘭) 001 0100KXJ10010 mo on HKX) mcxmiooono oinonoio()oiit 010000011100 001110010000* 0011010000011 001細 101000, Q(}1010000011 0010011000L0 οοιοοιοιοιοο' OOlDOO!OOtOl 001000011010' ooonoLOOoio O00UO (蘭 01 0001011 lOOOO1
0001議 01010 nnoiooioiooif 000100010110 000011100100 000011011000 OOOOlOllOOOl1 οοουιοοοιπο 000001010011 WKWOlOOHOl' oonoiomn 001111110101
0l(X)11011Lllf 議 11011ひ mf ΟΙΟΠΙΙΟΙΙΙΟ' ΟΠ010Π10Π t onoiinnoo omooniioi' OlllOUOlOtl 011110011110' looioimoii 100111001111' lOOlllllOlLO lOLOOlllOUl 10101101)011 101.01 L101H0 101100111110 101101101101 101U0010111. VOll 10111001 LOllllOlllOO' 101111100011 Hooioimio' ii(K)iiiinovif 110101010111 union Π1001 110110011101 uonnioioii' Il011l011010f 11011110010L lUOOlOilLOl a looi 11 loio 111010110101 nioiimono* 111011101001 111100011011 111L001001L1 ΙΙΗΟΙΟΟΠΙθ' 1 LilOlllOOOl 111110101100 1ΠΠ0110Ο101 0OO0(X)0{)flO0Of liuimu10000001.11111 00001110101 if 000101100111 0001100】 ιοιΌ
(KwnoiuioD 001001111901 001ϋΙ(Χ)Π10Ι otnomi loiio oon trail oi ]f ΟΟΠ110001101
0I00011I0101 οιοοιοιοποι' 010100001111f 010100111010 010111010應 011000010111 11000I0IU0 on ιοιοποοο' 011110100001 mi 11 rooooo 1Π 100010100' liitnooiiooot 11麵 100100 11.讓 000011, 110110000110 110101100010 110101001001 ιιοουοοιιοο 110000111 01 r 101110001010* lonoioinoiof 10101111000O 1010110OOt0lf loomioi議 100111010001 100100110101 f 1000101001 n' 100001011110
[0057] 長さが 12で最小距離 4の GCテンプレートは 74個あり、これらのうち、逆配列及び 0 1反転したものを同一とみなした 31のテンプレートを表 8に示す。サブワード制約のも とで、 128の符号語を 1つのテンプレートから得ることはできないため、テンプレートの 対を選択する。かかる 2対のテンプレートは、テンプレートどうしをいかように連結して も、 4以上のミスマッチを含み、長さ 7以上の部分配列を共有しない。そのような 8糸且の テンプレート対を表 9に示す。このテンプレート対から生成される DNA符号語は、連 結された場合に GC塩基の分布が均等になる。この条件の下では、これらのテンプレ ートに由来する DNA符号は、近い融解温度を持つ (New Generation Computing 20, 3, 263-277, 2002) 0
[0058] [表 8] loioni looooo oi uxioux)oo lonoi umoo 101100001000 omouoiooo πποπιοιοαο
001010011000101110011000.111001-011扁 01011011100000110讓) 10001110110010Π 00111101010000111011010011101000! 10[) nOOlOlOllOO 101111000010111001100010 010111100010 !IIIOOOIOOK) 01100000101U ΟΙΙϋΙΟΙΟΟΠΟ 10000111011.0 lOOlOOOllllQ 111010010001 110110010001 100110101001 101110000101 111000100101 〗10101000011 1101 (丽) 0011
[0059] [表 9] 00011001 1 101 and OOI OIO U I IOO 000] 10011 101 and 001111010100 001010111画 nd 101110011000 001 111010100 and 10111001 1000 010001100Π 1 and 1 10000101011 0100011001 i l and 11010腦 0011 1 1000010101 1 and 11 1001 100010 1 10101000011 and Π 1001100010
[0060] 表 9の 8糸且のテンプレート対のうちの 1対のテンプレートを、表 7の長さ 7のサブワード 制約を満たす 56の符号語を組み合わせることによって、以下の条件を満たす 112符 号語を得ることができる(その内の 10符号語を表 5や表 6に示す)。
符号語とその相補配列の間で、少なくとも 4つの位置でミスマッチを含む。 かかる 4つのミスマッチは、それら自体及びそれらの相補配列(指数 4の comma-freeness)とのシフト及び連結の下で保証される。
- 、かなるシフト及び連鎖にぉ 、ても、長さ 7以上の部分配列を共有しな 、。
全ての符号は、最近接塩基対概算における融解温度が近い。
全ての符号が 2つのテンプレートのみに由来するため、特定の部分配列の出現を 簡単に突き止めることができる。また、特定の部分配列を回避することも簡単である。
[0061] こうして設計できる符号語数は 112であり、 128の ASCII文字を満たしていない。し かし、 ASCII文字においていくつかの文字は使用されていない。例えば、 HTML文 字において & # 14から & # 31までの値は使用されていない。従って、力かる 112符 号語は、 DNAの ASCII文字を表現するのに十分である。この妥協は 128符号を得 るために制約を緩めるよりは好ま U、。
[0062] DNAを用いた情報記述法の現状にっ ヽて検討し、 DNA符号を構成する際の必 要性及び問題について説明した。本発明の DNA符号の設計方法により、長さ 12の 112の DNA符号語及び comma-free指数 4を提供することができる。本発明の DNA 符号は相補鎖を含む符号間の任意の連鎖を考慮しており、力かる DNA符号は現在 まで知られていない。
図面の簡単な説明
[0063] [図 1]本発明の GCテンプレート t= 110100を用いた場合、連結配列に対して GCテ ンプレート tをどのようにシフトさせても、ハミング距離の最小値 MD (t) = 2となることを 示す図である。

Claims

請求の範囲
[1] 所定の長さ n (nは 6以上の整数)のオリゴヌクレオチド配列を、その各ポジションが G 又は C ( [GC])あるいは A又は T( [AT])であることを意味する、 0と 1からなる所定の 長さ L (Lは 6以上の整数)のビット列(GCテンプレート)で表わした場合、各 GCテン プレート間のハミング距離、各 GCテンプレートの逆配列との間のハミング距離、これ らをシフトした配列との間のノ、ミング距離、並びに、各 GCテンプレート同士、各 GCテ ンプレートの逆配列同士、及び各 GCテンプレートとその逆配列を連結した配列との 間のハミング距離が、いずれも所定値 k以上になる GCテンプレートを選択し、かかる 選択された GCテンプレートの集合から、長さ mのサブワード制約を有する集合をテン プレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の 符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作成することを特 徴とする DNA符号の設計方法。
[2] 所定の長さ n (nは 6以上の整数)のオリゴヌクレオチド配列を、その各ポジションが A 又は G ( [AG] )あるいは T又は C ( [CT] )であることを意味する、 0と 1からなる所定の 長さ L (Lは 6以上の整数)のビット列 (AGテンプレート)で表わした場合、各 AGテン プレート間のハミング距離、各 AGテンプレートの逆反転配列との間のハミング距離、 これらをシフトした配列との間のハミング距離、並びに、各 AGテンプレート同士、各 A Gテンプレートの逆反転配列同士、及び各 AGテンプレートとその逆反転配列を連結 した配列との間のノ、ミング距離力 V、ずれも所定値 k以上になる AGテンプレートを選 択し、力かる選択された AGテンプレートの集合から、長さ mのサブワード制約を有す る集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤 り訂正符号の符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作 成することを特徴とする DNA符号の設計方法。
[3] ノ、ミング距離 kを保つオリゴヌクレオチド配列の集合 S1が、各配列同士の間、他の 各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士 、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間に、所 定値以上のミスマッチを含み、前記各配列同士の間、他の各配列の相補配列との間 、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及 び前記各配列と前記相補配列を連結した配列との間でのミスハイブリダィゼーシヨン を回避することができ、また情報の復号を容易にすることを特徴とする請求項 1又は 2 記載の DNA符号の設計方法。
[4] 所定の長さ nのオリゴヌクレオチド配列の集合 S1が、 32以下の長さのオリゴヌクレオ チド配列の集合 S1であることを特徴とする請求項 1一 3のいずれか記載の DNA符号 の設計方法。
[5] ノ、ミング距離の所定値 k力 Lの 1Z4以上の値であることを特徴とする請求項 1一 4 の!、ずれか記載の DNA符号の設計方法。
[6] 長さ mのサブワード制約力 Lの 1Z2以上の値であることを特徴とする請求項 1一 5 の!、ずれか記載の DNA符号の設計方法。
[7] オリゴヌクレオチド配列の集合 S1が、特定の部分配列を含む、又は特定の部分配 列を含まな 、オリゴヌクレオチド配列の集合であることを特徴とする請求項 1一 6の ヽ ずれか記載の DNA符号の設計方法。
[8] 所定の誤り訂正符号の符号語が、ハミング符号、 BCH符号、最大長系列符号、
Golay符号、 ReedMuller符号、 ReedSolomon符号、 Hadamard符号、 Preparata符号、リ バーシブル符号、重み一定符号、非線型符号から選ばれる符号語であることを特徴 とする請求項 1一 7のいずれか記載の DNA符号の設計方法。
[9] 記号単位に対応する塩基配列の集合が、天然の DNAと異なる配列を有し、かつ 一定の [GC] [AT]または [CT] [AG]の並びを有することを特徴とする請求項 1一 8 の!、ずれか記載の DNA符号の設計方法。
[10] DNAの遺伝情報を含まない任意の非コード領域に、コンピュータで解読可能なコ ード体系を用いて任意の情報を書き込むことができる、記号単位に対応する塩基配 列の集合カゝらなることを特徴とする DNA符号。
[11] 一定の [GC] [AT]または [CT] [AG]の並びを有し、融解温度が所定の範囲内に 揃うように設計された塩基配列の集合力もなることを特徴とする請求項 10記載の DN
A符号。
[12] 数塩基のスキップまたは置換等の誤りの検出が容易な塩基配列の集合力 なること を特徴とする請求項 10又は 11記載の DNA符号。
[13] 記号単位に対応する塩基配列の読み枠のずれや、複数塩基の置換等の誤りの存 在下でも高 ヽ信頼度で解読 (復号)できる誤り訂正機能を備えて ヽることを特徴とす る請求項 10— 12のいずれか記載の DNA符号。
[14] 記号単位に対応する塩基配列同士で安定な二次構造を形成せず、文字をどのよう に連結してもプライマーによる増幅を妨げるような物理的阻害が生じないことを特徴と する請求項 10— 13のいずれか記載の DNA符号。
[15] 天然の DNAと容易に区別しうる、記号単位に対応する塩基配列の集合からなるこ とを特徴とする請求項 10— 14のいずれか記載の DNA符号。
[16] 塩基配列における塩基並び方が制限され、特定の部分配列が出現するかどうかを 簡単に検証することができることを特徴とする請求項 10— 15のいずれか記載の DN
A符号。
[17] いかなるハイブリダィゼーシヨンでも少なくとも 4つの位置でミスマッチを示し、連続 的なサブシーケンスが高々 6つしかなぐ最近接塩基対概算において同じ融解温度 を保持する、長さ 12、 112語の符号語からなることを特徴とする請求項 10— 16のい ずれか記載の DNA符号。
[18] 請求項 1一 9のいずれか記載の設計方法により得ることができることを特徴とする請 求項 10— 17のいずれか記載の DNA符号。
[19] 請求項 10— 18のいずれか記載の DNA符号を、 DNAの遺伝情報を含まない任意 の非コード領域に埋め込むことを特徴とする DNAへの任意の情報の書込み方法。
[20] DNAがベクター DNAであることを特徴とする請求項 19記載の DNAへの任意の 情報の書込み方法。
[21] DNAがゲノム DNAであることを特徴とする請求項 19記載の DNAへの任意の情 報の書込み方法。
[22] DNA符号により、 DNAの作成者を識別することができることを特徴とする請求項 1 9一 21のいずれか記載の DNAへの任意の情報の書込み方法。
[23] 請求項 10— 18のいずれか記載の DNA符号力 DNAの遺伝情報を含まない任意 の非コード領域に埋め込まれたことを特徴とする標識ィ匕ベクター。
[24] 請求項 10— 18のいずれか記載の DNA符号力 DNAの遺伝情報を含まない任意 の非コード領域に埋め込まれたことを特徴とする標識化細胞。
[25] 請求項 10— 18のいずれか記載の DNA符号を有することを特徴とする DNAタグ (
PCT/JP2004/007271 2003-05-29 2004-05-27 情報担体としてのdna符号の設計方法 WO2004107243A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US10/558,502 US20070042372A1 (en) 2003-05-29 2004-05-27 Method for designing dna codes used as information carrier

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-151738 2003-05-29
JP2003151738A JP2004355294A (ja) 2003-05-29 2003-05-29 情報担体としてのdna符号の設計方法

Publications (1)

Publication Number Publication Date
WO2004107243A1 true WO2004107243A1 (ja) 2004-12-09

Family

ID=33487236

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/007271 WO2004107243A1 (ja) 2003-05-29 2004-05-27 情報担体としてのdna符号の設計方法

Country Status (4)

Country Link
US (1) US20070042372A1 (ja)
JP (1) JP2004355294A (ja)
CN (1) CN1791875A (ja)
WO (1) WO2004107243A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7882464B1 (en) * 2005-02-14 2011-02-01 Cadence Design Systems, Inc. Method and system for power distribution analysis
JP4853898B2 (ja) * 2005-08-30 2012-01-11 独立行政法人産業技術総合研究所 Dna標準物質
CA2692575A1 (en) * 2006-06-30 2008-01-10 Jpl Llc Embedded data dna sequence security system
US8407554B2 (en) * 2009-02-03 2013-03-26 Complete Genomics, Inc. Method and apparatus for quantification of DNA sequencing quality and construction of a characterizable model system using Reed-Solomon codes
US8053744B2 (en) 2009-04-13 2011-11-08 Src, Inc. Location analysis using nucleic acid-labeled tags
US20110269119A1 (en) * 2009-10-30 2011-11-03 Synthetic Genomics, Inc. Encoding text into nucleic acid sequences
JP2011186632A (ja) * 2010-03-05 2011-09-22 Nec Software Kyushu Ltd 塩基配列集合算出装置、塩基配列集合算出方法およびコンピュータプログラム
US8703493B2 (en) 2010-06-15 2014-04-22 Src, Inc. Location analysis using fire retardant-protected nucleic acid-labeled tags
US8716027B2 (en) 2010-08-03 2014-05-06 Src, Inc. Nucleic acid-labeled tags associated with odorant
EP2603607B1 (en) 2010-08-11 2016-04-06 Celula, Inc. Genotyping dna
WO2012031031A2 (en) 2010-08-31 2012-03-08 Lawrence Ganeshalingam Method and systems for processing polymeric sequence data and related information
WO2012122547A2 (en) 2011-03-09 2012-09-13 Lawrence Ganeshalingam Biological data networks and methods therefor
AU2013277986B2 (en) 2012-06-22 2016-12-01 Annai Systems Inc. System and method for secure, high-speed transfer of very large files
CN104182236B (zh) * 2014-08-28 2017-12-12 北京航空航天大学 一种基于遗传密码的软件通路编解码方法
WO2017101112A1 (zh) * 2015-12-18 2017-06-22 云舟生物科技(广州)有限公司 载体设计方法及载体设计装置
WO2017190297A1 (zh) * 2016-05-04 2017-11-09 深圳华大基因研究院 利用dna存储文本信息的方法、其解码方法及应用
US9929813B1 (en) * 2017-03-06 2018-03-27 Tyco Electronics Subsea Communications Llc Optical communication system and method using a nonlinear reversible code for probablistic constellation shaping
RU2659025C1 (ru) * 2017-06-14 2018-06-26 Общество с ограниченной ответственностью "ЛЭНДИГРАД" Способы кодирования и декодирования информации
WO2020243074A1 (en) * 2019-05-31 2020-12-03 Illumina, Inc. Obtaining information from a biological sample in a flow cell
RU2756641C2 (ru) * 2019-10-29 2021-10-04 Хиллол Дас Способ сохранения информации с использованием ДНК и устройство хранения информации
CN113539370B (zh) * 2021-06-29 2024-02-20 中国科学院深圳先进技术研究院 编码方法、解码方法、装置、终端设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10507357A (ja) * 1994-10-13 1998-07-21 リンクス セラピューティクス, インコーポレイテッド 分子タグ化システム
WO2003038091A1 (fr) * 2001-10-29 2003-05-08 Japan Science And Technology Agency Sequences oligonucleotidiques exemptes d'erreurs d'hybridation et procedes de conception correspondants

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10507357A (ja) * 1994-10-13 1998-07-21 リンクス セラピューティクス, インコーポレイテッド 分子タグ化システム
WO2003038091A1 (fr) * 2001-10-29 2003-05-08 Japan Science And Technology Agency Sequences oligonucleotidiques exemptes d'erreurs d'hybridation et procedes de conception correspondants

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARITA M. ET AL: "DNA Sequence Design Using Templates", NEW GENERATION COMPUTING, vol. 20, no. 3, 2002, pages 263 - 277, XP002980865 *
FAULHAMMER D. ET AL: "Molecular computation: RNA solutions to chess problems", PNAS USA, vol. 97, no. 4, 15 February 2000 (2000-02-15), pages 1385 - 1389, XP002979510 *
FRUTOS A. ET AL: "Demonstration of a word design strategy for DNA computing on surfaces", NUCLEIC ACIDS RESEARCH, vol. 25, no. 23, 1 December 1997 (1997-12-01), pages 4748 - 4757, XP002980866 *

Also Published As

Publication number Publication date
US20070042372A1 (en) 2007-02-22
JP2004355294A (ja) 2004-12-16
CN1791875A (zh) 2006-06-21

Similar Documents

Publication Publication Date Title
WO2004107243A1 (ja) 情報担体としてのdna符号の設計方法
Anavy et al. Data storage in DNA with fewer synthesis cycles using composite DNA letters
Bornholt et al. A DNA-based archival storage system
De Silva et al. New trends of digital data storage in DNA
US9830553B2 (en) Code generation method, code generating apparatus and computer readable storage medium
Buschmann et al. Levenshtein error-correcting barcodes for multiplexed DNA sequencing
TWI673604B (zh) 信息編碼和信息解碼的方法
Organick et al. Scaling up DNA data storage and random access retrieval
US20180211001A1 (en) Trace reconstruction from noisy polynucleotide sequencer reads
US20200035331A1 (en) Re-writable DNA-Based Digital Storage with Random Access
US20210074380A1 (en) Reverse concatenation of error-correcting codes in dna data storage
Cao et al. Minimum free energy coding for DNA storage
US20200387769A1 (en) Efficient assembly of oligonucleotides for nucleic acid based data storage
CN110569974B (zh) 可包含人造碱基的dna存储分层表示与交织编码方法
Löchel et al. Fractal construction of constrained code words for DNA storage systems
Yachie et al. Stabilizing synthetic data in the DNA of living organisms
Nassirpour et al. Embedded codes for reassembling non-overlapping random DNA fragments
US20050089860A1 (en) Oligonucleotide sequences free from mishybridization and method of designing the same
Milenkovic et al. DNA-Based Data Storage Systems: A Review of Implementations and Code Constructions
D'yachkov et al. New results on DNA codes
Garzon et al. Digital information encoding on DNA
Fan et al. Constrained channel capacity for dna-based data storage systems
Haughton et al. Performance of DNA data embedding algorithms under substitution mutations
Jiang et al. DNA Storage Designer: A practical and holistic design platform for storing digital information in DNA sequence
Mahjabin et al. A Survey on DNA-Based Cryptography and Steganography

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004813917X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 5538/DELNP/2005

Country of ref document: IN

122 Ep: pct application non-entry in european phase
WWE Wipo information: entry into national phase

Ref document number: 2007042372

Country of ref document: US

Ref document number: 10558502

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10558502

Country of ref document: US