WO2005096208A1 - 塩基配列検索装置及び塩基配列検索方法 - Google Patents

塩基配列検索装置及び塩基配列検索方法 Download PDF

Info

Publication number
WO2005096208A1
WO2005096208A1 PCT/JP2005/006397 JP2005006397W WO2005096208A1 WO 2005096208 A1 WO2005096208 A1 WO 2005096208A1 JP 2005006397 W JP2005006397 W JP 2005006397W WO 2005096208 A1 WO2005096208 A1 WO 2005096208A1
Authority
WO
WIPO (PCT)
Prior art keywords
base sequence
input
unit
sequence
base
Prior art date
Application number
PCT/JP2005/006397
Other languages
English (en)
French (fr)
Inventor
Shinichi Morishita
Tomoyuki Yamada
Original Assignee
Bio-Think Tank Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bio-Think Tank Co., Ltd. filed Critical Bio-Think Tank Co., Ltd.
Priority to JP2006511830A priority Critical patent/JP4614949B2/ja
Priority to US10/594,644 priority patent/US20080263002A1/en
Priority to EP05727509A priority patent/EP1732022A4/en
Publication of WO2005096208A1 publication Critical patent/WO2005096208A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Definitions

  • Base sequence search apparatus and base sequence search method are Base sequence search apparatus and base sequence search method
  • the present invention relates to an apparatus and a method for searching for a gene base sequence representing gene information.
  • DNA has a structure in which nucleotides including bases of adenine (A), cytosine (C), guanine (G), and thymine (T) are arranged side by side.
  • the structure of A and T and G and C form a double helix structure.
  • the nucleotide sequence of the DNA that expresses the gene (hereinafter referred to as the “gene base sequence”) is transcribed into RNA (Ribonucleic Acid), spliced to produce mRNA (messenger RNA), and the protein is synthesized.
  • RNA is a nucleic acid having D-ribose as a sugar component and bases of adenine (A), cytosine (C), guanine (G), and peracil (U).
  • RNA interference is a phenomenon in which the presence of a specific double-stranded RNA in a cell destroys the mRNA of a specific sequence and suppresses gene expression. This phenomenon was first discovered in experiments with nematode cells. Later, this phenomenon became known to occur in mammalian cells and attracted attention. By artificially causing RNA interference, the function of a specific gene can be suppressed, and the function of that specific gene can be examined. Also, by using RNA interference, there is a possibility that a drug that exerts the effect of suppressing the action of a specific gene can be developed.
  • FIG. 1 is a diagram schematically showing the process of RNA interference.
  • RNA interference is thought to occur through the following processes.
  • siRNA long short interfering RNA
  • RNA-induced silencing complex 102 is formed.
  • RISC (102) is compatible with the siRNA.
  • the mRNA (103) becomes nonfunctional.
  • “there is homology between one base sequence (S) and another base sequence (T)” means that two base sequences (S, T) have complementarity, or , Imperfect complementarity.
  • “Complementarity” means that pairs of A and T, G and C, and A and U are completely formed in the entire two base sequences. Therefore, homology means that pairs other than A and T, G and C, and A and U occur in a part of two base sequences.
  • homology is often determined to be 80% or more, preferably 90% or more, and more preferably 95% or more. Considering not only the ratio of complementary base pairs but also the number of consecutive complementary base sequences in the base sequence, the homology between the two base sequences can be considered. They may also determine the gender. It is also known that a pair of G and U may be formed in three types of base pairs having complementarity of A and T, G and C, and A and U, The presence or absence of homology may be determined in consideration of the existence of G and U base pairs.
  • siRNA sequence that appears only in the gene of interest and has no homology to the nucleotide sequence of another gene. Therefore, when designing an siRNA sequence, it is necessary to confirm that a gene having a nucleotide sequence similar to the siRNA sequence does not exist other than the target gene.
  • a “microarray” is a type of DNA chip in which oligo DNA having a length of about 15 to 60 bases is synthesized on a substrate such as glass (for example, see Non-Patent Document 1).
  • FIG. 2 exemplifies processes such as gene analysis and genetic diagnosis using a microarray.
  • a DNA (202) to which a label 203 such as a fluorescent dye is added flows on a microarray 201 having oligo DNA synthesized on a substrate such as glass, the DNA complements or becomes complementary to the DNA.
  • Oligo DNA on the microarray having the same sex binds (hybridizes) (symbol 204).
  • the type of DNA (202) and the like are determined by detecting the fluorescence with the fluorescent dye of the label to determine where the oligo DNA hybridized.
  • FIG. 2 several oligo DNAs are not shown on the microarray, but in the actual microarray, oligo DNAs are arranged in the order of 10,000 in a region of about 0.5 inch in length and width.
  • BLAST for example, see Non-Patent Document 2
  • Smith-Waterman for example, see Non-Patent Document 3
  • Non-patent Document 1 Naoki Sugimoto, “Gene Chemistry”, 19 pages, published by Kagaku Doujin Inc., 2002
  • Non-Patent Document 2 S.F.Altschul, W. Gish, W. Miller, E.W.Myers, and D.J.
  • Non-Patent Document 3 T.F.Smith, and MS Waterman, "Identification of com mon molecular subsequences", J. Mol. Biol., 147, 195—197, 1981, Disclosure of the invention.
  • the method using BLAST has a problem in that it overlooks the existence of similar nucleotide sequences.
  • BLAST a search is usually performed using a portion in which seven bases are consecutively the same. For this reason, when a base sequence of 19 bases is given, for example, a base sequence having base mismatch or mismatch at the position of X in FIG. 3 cannot be found, and a similar base sequence is overlooked.
  • an object of the present invention is to provide an apparatus and a method capable of detecting the presence of a similar base sequence with a small amount of calculation.
  • the present invention specifies two partial sequences having a predetermined length and a remaining portion of the input base sequence force, and the corresponding bases do not match!
  • the Hamming distance which is the number of bases to be replaced with bases, is divided and assigned to those subsequences and the rest, and is assigned to each of the two subsequences.
  • a search is performed by selecting the one with a smaller total number of base sequences obtained by adding an operation of replacing the bases with the Hamming distance with incompatible bases.
  • the amount of calculation required for search can be reduced, and the no and mining distances can be the same as or equal to predetermined values. There is no possibility of overlooking the presence of a similar base sequence that is less than the predetermined value.
  • a base for searching for a similar base sequence using an index for searching for the occurrence of a base sequence of a predetermined length in a database storing a gene base sequence representing gene information is used.
  • a sequence search device two partial sequences of a predetermined length and the remaining portion are specified from the input base sequence, and the number of bases to be replaced with bases whose corresponding bases do not match The Hamming distance is divided and assigned to those subarrays and the rest, and for each of the two subarrays, A description will be given of a base sequence search apparatus that performs a search by selecting a base having a smaller total number of base sequences obtained by adding an operation of replacing the bases of the assigned Hamming distance with incompatible bases.
  • corresponding bases are compatible
  • the binary relation often means that the bases forming a pair are the same.
  • this corresponds to the case where the binary relation satisfies only the reflex rule. It is also possible to use a binary relation taking into account the fact that the bases G and U are easily bonded.
  • the “predetermined length” is a predetermined length. This predetermined length is the length of the base sequence that can be accepted by the index for searching the database storing the gene base sequence. For example, in the case of BLAST, the predetermined length is usually 7.
  • the “similar nucleotide sequence” is a nucleotide sequence having the same length and similarity to the input nucleotide sequence, and is a nucleotide sequence appearing in the gene nucleotide sequence. The term “similar” means that, for example, as described later, the mining distance from the input base sequence becomes a given value.
  • the “gene base sequence” is a base sequence stored in a database. Depending on the structure of the index, there may be a plurality of predetermined lengths.
  • Such a base sequence search device receives, for example, a similarity (for example, Hamming distance) to the base sequence input to a web browser, and stores the data in which the gene base sequence is stored.
  • the present invention can be implemented as a server device that issues a combination or the like, performs a process, and returns a result to the WEB browser. Therefore, each unit and each means, which are constituent elements of the base sequence search apparatus according to the present invention, can be configured by hardware, software, or both hardware and software (program). is there. For example, as an example of realizing these, when using a computer, hardware consisting of CPU, memory, bus, interface, peripheral devices, etc., and software executable on these hardware are used. Can be mentioned.
  • FIG. 4 shows an example of a functional block diagram of the base sequence search device according to the first embodiment of the present invention.
  • the base sequence search device 400 includes a base sequence input unit 401, a Hamming distance input unit 402, It has a specification unit 403, an allocation unit 404, a selection unit 405, a replacement base sequence generation unit 406, and a search unit 407.
  • the “base sequence input section” 401 inputs a base sequence having a length exceeding a predetermined length. For example, a web browser receives information indicating the input base sequence.
  • “Hamming distance input unit” 402 inputs a Hamming distance for an input base sequence.
  • the web browser power also receives the input numerical value.
  • the “input base sequence” is a base sequence input to the base sequence input unit 401.
  • the Hamming distance is a value indicating the number of bases to be replaced with incompatible bases. No., the ming distance is defined for two base sequences of the same length, and the number of corresponding bases is incompatible. By specifying the hamming distance for one base sequence, In addition, a set of base sequences obtained by replacing the number of bases with the Hamming distance with incompatible bases can be defined.
  • the "specifying portion" 403 is a partial sequence of the input base sequence, has a predetermined length, and specifies two different partial sequences and the remaining portion.
  • the two subsequences may have a common part. In some cases, the remaining portion may not be provided.
  • FIG. 7 exemplifies the two partial arrays specified by the specifying unit 403 and the remaining part.
  • the first partial sequence 711 and the second partial sequence 712 are present in the input base sequence 710 so as not to have a common part, and the two ends and the center of the input base sequence are The rest are 713, 714, 715.
  • the first partial sequence 721 and the second partial sequence 724 have a common portion substantially at the center of the input base sequence 720, and the remaining portion is located at the end of the input base sequence 720. 723, 724 power.
  • the first part Sequence 731 extends from the left end of input base sequence 730
  • second partial sequence 732 extends from the right end of input base sequence 730
  • first partial sequence 731 and second partial sequence 732 form input base sequence 730.
  • the input base sequence exceeds twice the predetermined length, the approximate center of the input base sequence 740 becomes the remaining portion 743 as illustrated in FIG. 7 (4).
  • the lengths of the first and second subsequences are fixed lengths, depending on the structure of the index, there may be a plurality of predetermined lengths as described above.
  • the length of the first partial sequence and the length of the second partial sequence may be the same or different.
  • the “assigning unit” 404 divides and assigns the Hamming distance input by the Hamming distance input unit 402 to the partial array specified by the specifying unit 403 and the remaining portion.
  • "dividing and assigning the Hamming distance” means dividing the No. and Mining distances into non-negative integers and allocating the integers obtained by the division to the partial array and the remainder. Therefore, the sum of the assigned values is the no and the mining distance.
  • Such processing can be easily realized by a program. For example, it can be realized by a program that nests loops corresponding to the number of subarrays and the remainder, and all allocations can be obtained.
  • FIG. 17 shows an example in which an example of a program for dividing and assigning the no and mining distances is described in C language.
  • the partial sequence is specified by a numeral. For example, if the number of sub-arrays is, the sub-arrays are specified by P, P-1, P-2, ..., 1 and the P-th, P- 1, ... Assume that the first element corresponds to the subarray.
  • distributeHammingDistance every time distributeHammingDistance is called one time, one of vec [P], vec [P-1], vec [P 2], ⁇ VeC [l],
  • the Hamming distance assigned to the subarray is substituted, and a recursive call to distributeHammingDistance is made. For example, In a certain call to distributeHammingDistance, if the Hamming distance assigned to the subarray q is assigned to vec [q], if q is not 1, the first argument of distributeHammingDistance is set to q-1. A recursive call is made.
  • int represents an integer data type.
  • int h means that a variable h takes an integer data type value.
  • ⁇ S4 ⁇ means that S1 is executed first, and as long as the condition of S2 is satisfied, execution of S4 and then execution of S3 are repeated.
  • DistributeHammingDistance is illustrated in FIG. 17 as an example! /
  • FIG. 8 is a diagram for explaining the allocation of the hamming distance by the allocation unit 404 corresponding to the cases (1) to (4) of FIG.
  • the allocation unit 404 from the left end of the input base sequence (that is, the remaining portion, the first partial sequence, the remaining portion, the second partial sequence, the remaining portion), m, Given values m, m, m, and m, m, m, m, m, m
  • the “input Hamming distance” is The Hamming distance input to the input unit 402.
  • the “selection unit” 405 performs the operation of replacing the number of bases indicated by the Hamming distance assigned by the assignment unit among the two partial sequences identified by the identification unit 403 with incompatible bases. Select the one that does not have a large total number of substitution base sequences, which are base sequences generated by performing a partial sequence. This total number has the formula: (number of incompatible bases),
  • the sub-array having the larger Hamming distance allocated by the allocation unit 404 is selected. That is, in the case of FIG. 8 (1), comparing m and m, for example,
  • the number may be smaller. Therefore, the size of the total number of the substituted base sequences may not match the size of the Hamming distance, so care must be taken. In the following, the description will be simplified. Therefore, the description will be made assuming that the total number of substituted base sequences is not large when the Hamming distance allocated by the allocation unit 404 is not large.
  • m is compared with m. For example, if m is not larger,
  • FIG. 9 shows that, when the input Hamming distance is 3, the allocation in allocation section 404 and the selection in selection section 405 are performed when the partial arrangement and the remaining part are specified as shown in FIG. 7 (4). Is shown.
  • the sum of m, m, and m is equal to the input Hamming distance 3,
  • the number of choices that make 3 1 3 1 is greater than the number of choices that make m ⁇ m.
  • substitution base sequence generation unit 406 If the substitution base sequence generation unit 406 generates the substitution base sequence and performs a search by referring to the index in the search unit, the search for 10 cases where the sum of m, m, and m is 3 will be covered.
  • the no and the mining distance input to the no and the mining distance input unit are assigned to a plurality of parts, and the smaller one such as m ⁇ m and m> m is selected,
  • the sum of m 1, m 2, and m gives the input Hamming distance.
  • FIG. 10 shows that when the input Hamming distance is 3, the allocation in allocation section 404 when the partial array and the remaining part are specified as shown in FIG. Indicates a selection.
  • the sum of m 1, m 2 and m is equal to the input Hamming distance 3
  • the hamming distance input to the no / ming distance input unit is assigned to a plurality of parts, and m + m> m + m and m + m ⁇ m + m Not so big
  • substitution base sequence generation unit 406 generates a substitution base sequence having a mining distance and a mining distance allocated by the allocation unit 404 for the partial sequence selected by the selection unit 405. That is, among the bases of the partial sequence selected by the selection unit 405, the number of bases indicated by the Hamming distance allocated by the allocation unit 404 is replaced with a base that does not match. Generate a base sequence. For example, in the case of FIG. 9, for the first partial sequence, a partial sequence in which the min and min distances are 0 and 1 is generated as a substituted base sequence. Also for the second partial sequence, a partial sequence having a Hamming distance of 0 or 1 is generated as a substituted base sequence. If the hamming distance is 1, if the hamming distance is 1, any one of the bases in the first subsequence is replaced with an incompatible base. A base sequence is generated.
  • the first partial sequence is generated as a substituted base sequence having a Hamming distance of 0, 1, 2, or 3.
  • a partial sequence having no and mining distances of 0 and 1 is generated as a substituted base sequence.
  • the input Hamming distance force S3 and the need to generate a substituted base sequence with a No and Mining distance of 3 seem to be inefficient.
  • 3 was assigned to m, so the first part
  • a program for generating a substitution base sequence can be easily created. For example, a program in which loops are nested is created, and the position of a partial sequence in which a base is replaced with an incompatible base is specified by an outer loop. However, the substitution of the base at the position specified by the outer loop with an unsuitable base may be performed by the inner loop. If the predetermined length is L and it is defined that the bases differ when they do not match, then in the case of Fig. 9, 1 + 3C
  • One replacement base sequence is generated.
  • 1 + 3 C + 3 2 C + 3 of 3 C Street A replacement nucleotide sequence is generated, but the amount of computation required for this generation is generally L, which is smaller than the length of the input nucleotide sequence1. Less than the computational complexity to get everything! / ,.
  • FIG. 18 shows an example of a program that, when a hamming distance of 2 is assigned to a partial sequence having a length L by a sequence S, a replacement base sequence of the partial sequence is generated.
  • the subscripts of the sequence start from 0, and any of the symbols A, C, G, or T indicating bases in S [0], S [l], ⁇ , S [L-1] Is stored.
  • foreach a 1 in ⁇ A, C, G, T ⁇ ⁇ S ⁇ indicates that S is executed while changing the value of the variable al to A, C, G, T one after another. .
  • FIG. 18 shows an example of a program that, when a hamming distance of 2 is assigned to a partial sequence having a length L by a sequence S, a replacement base sequence of the partial sequence is generated.
  • the subscripts of the sequence start from 0, and any of the symbols A, C, G, or T indicating bases in S [0], S [l], ⁇ , S [L-1] Is stored.
  • Search unit 407 performs a search using the above-mentioned index using the replacement base sequence generated by the replacement base sequence generation unit as a key. Indexes are often implemented using hashing techniques.
  • the “index” is an index for searching for an occurrence of a base sequence of a predetermined length in a database storing a gene sequence. By such a search using the index, generally, information on the position where the substituted base sequence appears (for example, information indicating the position of the base at the end of the substituted base sequence from the ⁇ end of the DNA) ) Is obtained.
  • search unit 407 makes an inquiry to the database. Also, if there is another server that has such a database, the search unit 407 sends an inquiry to the server, receives a query, and receives the result! You can! /
  • FIG. 11 illustrates a flowchart of a process of the base sequence search apparatus of FIG. 4 according to the present embodiment.
  • a base sequence is input by the base sequence input unit 401 or the like (base sequence input step).
  • the hamming distance is input from the No. and ming distance input units 402 (humming distance input step).
  • the specifying unit 403 and the like specify the two partial arrays and the remaining part (specific step).
  • the input unit Hamming distance is divided and assigned by the assigning unit 404 and the like ( Assignment step).
  • step S1105 the selection unit 405 or the like selects the partial sequence having the smaller total number of the substituted base sequences having the Hamming distance allocated in the allocation step so that duplication does not occur (selection step).
  • step S 1106 a substituted base sequence is generated by the substituted base sequence generating unit 406 or the like (substituted base sequence generating step).
  • step S1107 a search is performed by the search unit 407 or the like (search step).
  • the base sequence search device uses a base sequence search method including a base sequence input step, a Hamming distance input step, a specifying step, an assignment step, a selection step, a replacement base sequence generation step, and a search step. It can be considered as a device.
  • step S1101 the hamming distance to be input in step S1102 is 0, 1, 2, 3, 4, and so on.
  • the other steps may be repeatedly executed while changing.
  • step S1101103 may be performed
  • step S1102 may be performed, and other steps may be performed.
  • steps S1101 to S1104 steps S1105 and subsequent steps may be collectively executed. In this way, the calculation can be efficiently performed without repeating the search using the same subsequence again.
  • the amount of calculation required for the search can be reduced, and the similar base sequence in which the no and the mining distance are a predetermined value or less, or a combination of arbitrary values is obtained. You can search without omission.
  • the configuration of the base sequence search device represented by the functional block diagram of FIG. 4 can be realized by hardware such as a CPU, a memory, and other LSIs of any computer. it can. Further, the software can be realized by a program or the like loaded into a memory. Further, it can also be realized by cooperation between hardware and software. In particular, when software is used, the programs that constitute such software are recorded on various media, and if necessary, used as a computer to implement a base sequence search device. It can be read mechanically.
  • “medium” refers to any “portable physical medium” such as a flexible disk, magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, DVD, flash disk, and various computer systems.
  • the computer is not limited to a mainframe computer, but may be an information processing device such as a workstation or a personal computer. Further, a peripheral device such as a printer or a scanner may be further connected to such an information processing device.
  • a “program” is a data processing method described in an arbitrary language or description method, and may be in any form such as a source code or a binary code. Note that a “program” is not necessarily limited to a single configuration, but may be distributed and configured as multiple modules or libraries, or may operate in conjunction with a separate program typified by an operating system. Including those that achieve the above. It should be noted that a known configuration or procedure can be used for a specific configuration for reading the medium in the base sequence search device, a reading unit, an installation procedure after reading, and the like.
  • the base sequence input unit 401, the Hamming distance input unit 402, the specifying unit 403, the assignment unit 404, the selection unit 405, and the replacement base sequence generation unit 406 can be realized as a module constituting a program. Such modules are naturally controlled by the computer CPU.
  • the base sequence search device includes an external system, such as the Internet, that provides an external program or the like for searching an external database relating to the base sequence information of genes and the like.
  • Configuration communicably connected via a communication network May be used.
  • a powerful configuration provides a website for running external programs.
  • the external system may be configured as a WEB server, an ASP server, or the like.
  • the base sequence search device may be communicably connected to an external system.
  • the configuration of the communication network is not particularly limited, for example, it is configured by a communication device such as a router or a wired or wireless communication line such as a dedicated line.
  • FIG. 12 shows an example of a functional block diagram of the base sequence search device according to the second embodiment of the present invention.
  • the base sequence search device 1200 includes a base sequence input unit 401, a Hamming distance input unit 402, a specifying unit 403, an assignment unit 404, a selection unit 405, a replacement base sequence generation unit 406, and a search unit 407.
  • the specifying unit 403 includes a first specifying unit 1201. Therefore, the base sequence search device according to the present embodiment has a configuration in which the specifying unit of the base sequence search device according to Embodiment 1 has the first specifying means.
  • First specifying means 1201 is one of the two partial sequences as long as the number of bases of the base sequence input at the base sequence input section is not more than twice or less than twice the predetermined length. The end of the partial sequence is made coincident with the other end of the input base sequence, and the remaining portion does not occur and is not specified. Since the remaining part does not occur and is not specified, the allocating unit does not allocate the no and the mining distance to the remaining part.
  • the first specifying means specifies the first partial arrangement and the second partial arrangement as shown in FIG. 7 (3). Therefore, in such a case, the first embodiment has already been described, and the subsequent description will be omitted.
  • FIG. 13 shows an example of a functional block diagram of a base sequence search device according to Embodiment 3 of the present invention.
  • the base sequence search device 1300 includes a base sequence input unit 401, a Hamming distance input unit 402, a specifying unit 403, an assignment unit 404, a selection unit 405, a replacement base sequence generation unit 406, and a search unit 407.
  • the specifying unit 403 includes a second specifying unit 1301.
  • the specifying unit 403 may include the first specifying unit described in the second embodiment. Therefore, the base sequence search device according to the present embodiment has a configuration in which the specifying unit of the base sequence search device according to Embodiment 1 or 2 includes the second specifying unit.
  • the "second specifying means" 1301 determines that the two partial sequences do not overlap if the number of bases in the base sequence input in the base sequence input section is greater than twice the predetermined length. , And identify the two subsequences. In this case, the remaining portion may be one or two.
  • the input base sequence is specified so that two partial sequences are arranged at the left and right ends of the input base sequence, or the input base sequence is specified such that the two partial sequences are connected.
  • the second specifying means specifies the first partial sequence and the second partial sequence as shown in FIG. 7 (4). Therefore, in such a case, the first embodiment has already been described, and the subsequent description will be omitted.
  • a base sequence search device that obtains a candidate for a similar base sequence based on a search result of a search unit and determines a Hamming distance from an input base sequence I will explain it.
  • FIG. 14 shows an example of a functional block diagram of a base sequence search device according to Embodiment 4 of the present invention.
  • the base sequence search device 1400 includes a base sequence input unit 401, a Hamming distance input unit 402, a specifying unit 403, an assignment unit 404, a selection unit 405, a replacement base sequence generation unit 406, and a search unit 407. It has a candidate base sequence acquisition unit 1401 and a determination unit 1402. Further, the specifying unit 403 may include one or both of the first specifying unit described in the second embodiment and the second specifying unit described in the third embodiment. Therefore, the base sequence search device according to the present embodiment has a configuration in which any one of the base sequence search devices according to Embodiments 1 to 3 includes the similar candidate base sequence acquisition unit 1401 and the determination unit 1402. It has become.
  • Similar candidate nucleotide sequence acquisition unit 1401 acquires a similar candidate nucleotide sequence based on the search result obtained by the search unit 407.
  • the “similar candidate nucleotide sequence” is a nucleotide sequence appearing in a gene nucleotide sequence including a substitution nucleotide sequence. More specifically, for example, if a search is performed using the replacement base sequence of the first partial sequence and the position of the base at the end of the replacement base sequence is found, the first partial sequence occupies the input base sequence. A gene base sequence of the same length as the input base sequence is obtained from the base sequence obtained in consideration of the positional relationship.
  • the position obtained by the search is the position of the leftmost base of the first partial sequence, the length of the remaining portion on the left side of the first partial sequence (if such a remaining portion (If no, set to 0.) From the left position, obtain a gene base sequence of the same length as the input base sequence.
  • the position force to the right by the length of the remaining portion on the right side of the second subsequence is also directed to the left, and is the same as the input base sequence.
  • the "determining unit" 1402 calculates the Hamming distance between the similar candidate base sequence obtained by the similar candidate base sequence obtaining unit and the input base sequence, by using the Hamming distance input to the Hamming distance input unit 402, It is determined whether or not it is less than or equal to the input Hamming distance pair. This determination can be made by performing a comparison in order from the base at the end of the input base sequence and the similar candidate base sequence.
  • the flowchart of the process of the base sequence search device includes a step of acquiring a similar candidate base sequence after step S1107 of the flowchart illustrated in FIG. 11, and a step of acquiring a similar candidate base sequence and an input base. A step of determining whether the hamming distance to the array is equal to the input hamming distance U or not.
  • a nucleotide sequence similar to the input nucleotide sequence can be obtained. For example, information on a gene that may be inactivated by siRNA other than the target gene to be inactivated by siRNA is obtained. It is possible to obtain.
  • a description will be given of a base sequence search apparatus capable of designating a combination of bases that are incompatible.
  • FIG. 15 shows an example of a functional block diagram of a base sequence search device according to Embodiment 5 of the present invention.
  • the base sequence search device 1500 includes a base sequence input unit 401, a Hamming distance input unit 402, a specifying unit 403, an assignment unit 404, a selection unit 405, a replacement base sequence generation unit 406, and a search unit 407. It has a candidate base sequence acquisition section 1401, a determination section 1402, and an incompatible base set input section 1501. Therefore, the base sequence search device according to the present embodiment has a configuration in which the base sequence search device according to the fourth embodiment has the mismatched base set input unit 1501.
  • the “incompatible base set input unit” 1501 specifies a set of incompatible bases. For example, enter text information indicating a base pair that should be determined to be incompatible. Alternatively, by inputting a pair of bases to be determined to be compatible (for example, G and U), a set of bases to be determined to be indirectly incompatible may be specified.
  • a search is performed by the search unit based on the set of bases input to the mismatched base set input unit 1501, and the no and mining distances are obtained. For example, based on the set of bases input by the non-conforming base set input unit 1501, a substituted base sequence is generated by the substituted base sequence generation unit 406, a search unit 407 selects a database for search, and determines The Hamming distance is determined in part 1402.
  • a combination of bases that are weak but may bind such as G and U, can be considered, and a more accurate base sequence can be designed.
  • Embodiment 6 of the present invention a base sequence search device capable of designating the distribution of base matching between an input base sequence and a similar base sequence will be described.
  • FIG. 16 shows an example of a functional block diagram of a base sequence search device according to Embodiment 6 of the present invention.
  • the base sequence search device 1600 includes a base sequence input unit 401, a Hamming distance input unit 402, a specifying unit 403, an assignment unit 404, a selection unit 405, a replacement base sequence generation unit 406, and a search unit 407. It has a candidate base sequence acquisition unit 1401, a determination unit 1402, and a matching distribution input unit 1601, and the determination unit 1402 has a determination unit 1602.
  • base sequence detection The cable search device 1600 may have the mismatched base set input unit described in the fifth embodiment. Therefore, in the base sequence search device according to the present embodiment, the base sequence search device according to Embodiment 4 or 5 has the matching distribution input unit 1601 and the determination unit 1402 has the determination unit 1602, It has a configuration! /
  • the “match distribution input unit” 1601 inputs distribution information representing the match distribution of the bases corresponding to the base sequence and the similar base sequence input to the base sequence input unit 401.
  • distribution information include information indicating that base mismatches occur less or more at the 5 'end, and that base mismatches occur at approximately equal intervals.
  • the distribution information may be, for example, a program for determining a distribution of matching bases. Alternatively, it may be information for selecting some of the types of distributions of base matches that have been previously determined.
  • Distribution determining means 1602 determines whether or not the distribution information input by the adaptive distribution input unit 1602 is satisfied.
  • the determination unit 1402 may display the result of the determination by the distribution determination unit together with the similar base sequence.
  • the base sequence search device is characterized in that, in the base sequence search device according to the sixth embodiment, distribution information input at the matching distribution input unit 1601 is compared with a base sequence and a similar base sequence. This is the lower limit of the length to which the corresponding bases continuously match.
  • the length of the base sequence input to the base sequence input section is 15 to 60, preferably 15 to 25. Ma In this embodiment, the predetermined length is 11 to 14.
  • the base sequence search apparatus By setting the length of the base sequence input to the base sequence input section to 15 to 60, preferably 15 to 25, the base sequence search apparatus according to the present embodiment is suitable for siRNA design. It can be. In the database used by the inventor for the benchmark test, when the length of the input base sequence was 19 or 20, when the predetermined length was 11 to 14, the fastest search could be performed.
  • the predetermined length is small, the number of candidates for similar candidate nucleotide sequences increases, while when the predetermined length is large, the amount of calculation is required for the generation of the replacement nucleotide sequence in the replacement nucleotide sequence generation unit,
  • the number of misses increases when queries are made to the hash tables that make up the index.In other words, the number of queries that refer to arrays that do not exist in the original database increases, and the amount of computation increases.
  • the intermediate point is considered to be the case where the predetermined length is 11 to 14.
  • the length of the base sequence input to the base sequence input section was not limited to 19 or 20, and that a search from 15 to 60 could be performed practically.
  • the present invention can be used for determining the sequence of an oligo DNA having a length of about 60.
  • a character string similar to the input character string can be searched from the character strings stored in the database.
  • “similar” means that the input character string is a character string having a predetermined Hamming distance or the input character string.
  • the following character string search device is provided. That is, it is an index for searching a database storing character strings in which alphabets are arranged one-dimensionally, and a character string of a predetermined length, which is a predetermined length, appears in the character strings stored in the database. By using an index for searching for a position, a similar character string having the same length as the input character string and appearing in the character string stored in the database is converted to a similar character string.
  • a character string search device for searching comprising: a character string input unit that inputs a character string having a length exceeding the predetermined length; and an input character string that is a character string input to the character string input unit.
  • a hamming distance input unit for inputting a hamming distance indicating the number of alphabets for which replacement with the alphabet is not performed, and a partial character string of the input character string, wherein the predetermined length is
  • the identification unit that identifies two different partial character strings and the remaining part, and the partial character string identified by the identification unit and the remaining part are input by the no and mining distance input units.
  • an assignment unit that divides and assigns the Hamming distance that has been assigned, and replaces the alphabet of the number indicated by the Hamming distance assigned by the assignment unit with an incompatible alphabet among the two partial character strings identified by the identification unit.
  • a selection unit that selects the one with a smaller total number of replacement character strings, which is a character string generated by performing an operation on the partial character string; and assigning the partial character string selected by the selection unit to Generating a replacement character string having a Hamming distance assigned by the unit; and performing a search using the index using the replacement character string generated by the replacement character string generation unit as a search key.
  • a character string search device having a search unit for performing the search can be provided.
  • the technique of the present invention can be used for similarity search of peptide sequences, that is, for searching for peptides similar to the input peptide sequence. .
  • Embodiment 10 of the present invention an embodiment will be described in which the base sequence search device of any of Embodiments 1 to 8 is improved with respect to the search for repeat sequences.
  • FIG. 19 illustrates a functional block diagram of the base sequence search device according to Embodiment 10 of the present invention.
  • the base sequence search device according to any one of Embodiments 1 to 8 has a repeat sequence storage unit 1901 and a repeat sequence information storage unit 1902, and the search unit 407 It has a repeat sequence determining means 1903 and a repeat sequence search means 1904.
  • FIG. 19 is a functional block diagram when the base sequence search device according to the first embodiment includes these units and means.
  • the "repeat sequence accumulation unit" 1901 accumulates the nucleotide sequence of the predetermined length repeatedly appearing in the gene nucleotide sequence.
  • the “predetermined length” is a value determined by an index used by the base sequence search device, and is a length of the base sequence at which position in the gene base sequence that the base sequence appears can be searched by the index. .
  • Fig. 20 illustrates a state where a nucleotide sequence that repeatedly appears in a gene nucleotide sequence is stored in a table.
  • identifiers that uniquely identify nucleotide sequences that repeatedly appear in gene nucleotide sequences and their nucleotide sequences on the same line. identifiers and nucleotide sequences are stored in association with each other in a table.
  • Repeat sequence information storage unit 1902 stores repeat sequence information.
  • the repeat sequence information is information in which a base sequence stored in the repeat sequence storage unit 1901 is associated with an appearance position of the base sequence in the gene sequence.
  • FIG. 21 illustrates a table for storing repeat sequence information.
  • the identifier used in the table of FIG. 20 and the position where the nucleotide sequence appears in the gene nucleotide sequence are shown. By storing them in the same row, the association is performed.
  • the column named “repeat sequence identifier” the identifier is stored, and in the column named “appearance position”, the position where the nucleotide sequence appears in the gene nucleotide sequence is stored.
  • Repeat sequence determination means 1903 determines whether or not the replacement base sequence generated by the replacement base sequence generation unit 406 is stored in the repeat sequence storage unit 1901. For example, it is checked whether or not a substituted base sequence is stored in a column named “repeat sequence” in the table of FIG. In this process, an index (for example, by B + tree) that has a base sequence stored in a column named “repeat sequence” as a key and an identifier stored in a column named “repeat sequence identifier” as a value Configuration) can be performed at high speed.
  • the base sequence determined by the repeat sequence determining means 1903 to be stored in the repeat sequence storage unit 1901 is referred to as a repeat sequence.
  • the "repeat sequence search means" 1904 includes a repeat sequence information storage unit 1902 when the repeat sequence determination means 1903 determines that the replacement base sequence is stored in the S repeat sequence storage unit 1901.
  • a search is performed based on the repeat sequence information stored in the. For example, the identifier stored in the column of repeat sequence identifier is obtained from the table in FIG. 20, the occurrence position is obtained from the table in FIG. 21, and the base sequences before and after the occurrence position in the gene base sequence are obtained.
  • the search is performed by determining whether the base sequence is within a predetermined Hamming distance from the input base sequence.
  • FIG. 22 exemplifies a flowchart for explaining the flow of processing in the search unit of the base sequence search device of FIG. 19 according to the present embodiment.
  • the repeat sequence determining means determines whether or not the replacement base sequence is a repeat sequence. If it is a repeat array (that is, if it branches to YES in step S2201), the process proceeds to step S2202, and a search is performed by repeat array search means 1904 based on the repeat array information. If the sequence is not a repeat sequence (that is, if branching to NO in step S2201), the process proceeds to step S2203 to search for a similar base sequence according to the first to eighth embodiments. Further, it is also possible to perform no search if the sequence is a repeat sequence, and to search only when it is determined that the sequence is not a repeat sequence. (Embodiment 10: Main effects)
  • the replacement base sequence is a repeat sequence
  • by performing a search process for the repeat sequence it is possible to prevent a reduction in search speed due to the repeat sequence.
  • Embodiment 11 of the present invention a base sequence search device that accumulates search results for similar base sequences will be described.
  • FIG. 23 illustrates a functional block diagram of a base sequence search device according to Embodiment 11 of the present invention.
  • the base sequence search device according to the present embodiment has a configuration in which the base sequence search device according to any one of Embodiments 4 to 7 includes a similar base sequence accumulation unit 2301.
  • FIG. 23 is a functional block diagram when the base sequence search device according to the fourth embodiment has a similar base sequence accumulation unit 2301.
  • the "similar base sequence accumulation unit” 2301 determines the hamming distance force S hamming distance input unit 402 between the input base sequence and the similar base sequence acquired by the similar candidate base sequence acquisition unit 1401 in the determination unit 1402. If it is determined that the distance is less than or equal to the Hamming distance input to (1), the input base sequence, (2) the Hamming distance between the input base sequence and its similar base sequence, and (3) the similar base sequence And are stored in association with each other.
  • FIG. 24 shows the data for storing (1) the input base sequence, (2) the Hamming distance between the input base sequence and the similar base sequence, and (3) the similar base sequence in association with each other.
  • input base sequence the Hamming distance between the input base sequence and the similar base sequence
  • similar base sequence the similar base sequence in association with each other.
  • FIG. 25 exemplifies a flowchart for explaining the processing flow of the determination unit and the similar base sequence accumulation unit of the base sequence search device according to the present embodiment.
  • the determining unit determines whether the Hamming distance between the input base sequence and the similar base sequence is the input Hamming distance. If so, branch to the YES branch of step S2501.
  • step S2502 (1) the input base sequence, (2) the Hamming distance, and (3) the similar base sequence are stored in the similar base sequence storage unit 2301 in association with each other.
  • step S2502 is not executed.
  • the search results of the base sequence search device are stored in the similar base sequence storage unit 2301, whether the search has already been performed for the same input base sequence and the same Hamming distance as the search target is performed. By retrieving and judging the information stored in the similar base sequence storage unit 2301, similar base sequences can be searched efficiently.
  • the base sequence search apparatus according to the present embodiment is particularly useful, for example, when providing search services to a large number of people via the Internet or the like. For example, if a first person performs a search and then a second person performs the same search, the second person can divert the search results provided to the first person, The response time can be shortened and the load on the base sequence search device can be reduced.
  • the ⁇ association rate '' is a value that indicates the percentage of the two types of base sequences that bind when the two types of base sequences are placed in a fluid environment such as a liquid. It is.
  • Such a value can be calculated by performing a physicochemical calculation from the base sequence. For example, the calculation method is disclosed in the document cited as Non-Patent Document 1 described above.
  • FIG. 26 illustrates a functional block diagram of a base sequence search device according to Embodiment 12 of the present invention.
  • the base sequence search device according to the present embodiment has a configuration in which any one of the base sequence search devices according to Embodiments 4 to 7 includes an association rate calculation unit 2601.
  • FIG. 26 is a functional block diagram in the case where the base sequence search device according to the fourth embodiment includes an association rate calculation unit 2601.
  • the “association rate calculation unit” 2601 calculates the Hamming distance between the similar candidate base sequence acquired by the similar candidate base sequence acquisition unit 1401 and the input base sequence input by the base sequence input unit 401. When it is determined that the distance is less than or equal to the Hamming distance input to the mining distance input unit 402, (1) the input base sequence input by the base sequence input unit 401 and (2) the similar candidate base sequence obtaining unit The association rate with the similar candidate nucleotide sequence obtained in 1401 is calculated. For example, conditions such as liquid temperature and pH are set beforehand, and the association rate under those conditions is calculated physicochemically. When calculating the association rate, bases constituting the input base sequence or bases constituting the similar candidate base sequence are replaced with complementary bases.
  • the base sequence search device of the present invention can efficiently search for base sequences whose hamming distance is less than or equal to a predetermined value with respect to the input base sequence, and how much the association rate and the actual number of wet base experiments are. The prediction of the effect of the drug using experimental results and RNA interference.
  • Embodiment 13 of the present invention describes an apparatus for searching for a base sequence that can be used as a control in a wet experiment or the like.
  • FIG. 27 illustrates a functional block diagram of an ineffective base sequence generator according to Embodiment 13 of the present invention.
  • the ineffective base sequence generator 2700 includes a base sequence acquisition unit 2701, an ineffective candidate replacement base sequence generation unit 2702, an ineffective candidate replacement base sequence input unit 2703, a second no, a mining distance input unit 2704, and a selection unit. Unit 2705.
  • Base sequence obtaining unit 2701 obtains a base sequence having a length exceeding the predetermined length.
  • the “predetermined length” is, as described in Embodiment 10, a value determined by an index used by the base sequence search device according to any of Embodiments 4 to 7, and the base sequence of the gene base sequence It is the length of a base sequence that can be searched for by its index to appear at the position.
  • the base sequence acquisition unit is connected to, for example, a client device via a communication network, and acquires a base sequence input to a web browser or the like operating on the client device.
  • the base sequence obtained by the base sequence obtaining unit 2701 is, for example, a base sequence that has been found to be V that does not function as a target mRNA.
  • the "ineffective candidate replacement nucleotide sequence generator” 2702 generates an ineffective candidate replacement nucleotide sequence.
  • the “ineffective candidate substitution base sequence” is a base sequence obtained by substituting a predetermined number of bases in the base sequence obtained by the base sequence obtaining unit. For example, if the base sequence length is 21 and the predetermined number is 3, the number of (4 I) 3 C ineffective candidate positions
  • a replacement base sequence (4 in “4-1” indicates that it is the type of base).
  • a base sequence predicted to have a low association rate with the target mRNA base sequence may be generated based on special knowledge rather than all ineffective candidate substitution base sequences.
  • an invalidation candidate substitution base sequence may be generated using a sequence having a small number of appearances.
  • the “ineffective candidate replacement base sequence input unit” 2703 inputs the ineffective candidate replacement base sequence generated by the ineffective candidate replacement base sequence generation unit 2702 to the base sequence search device 2706 according to Embodiment 12. I do. For example, if the ineffective base sequence generation device and the base sequence search device according to the twelfth embodiment are connected by a LAN or the like, information indicating the ineffective candidate replacement base sequence is sent to the base sequence search device according to the twelfth embodiment. Send
  • the “second nominal distance input unit” 2704 inputs a predetermined Hamming distance to the base sequence search device 2706 to which the ineffective candidate replacement base sequence input unit 2703 has input the ineffective candidate replacement base sequence. For example, when the ineffective candidate substitution base sequence input unit 2703 inputs the ineffective candidate substitution base sequence, a predetermined Hamming distance is input.
  • the "selection unit" 2705 selects a base sequence with a low association rate obtained from the base sequence search device 2706 based on the input of the ineffective candidate substitution base sequence input unit and the input of the second Hamming distance input unit 2704. I do. For example, the association rate between a certain ineffective candidate substitution base sequence and a similar base sequence similar thereto is 50%, and the association ratio between another ineffective candidate substitution base sequence and a similar base sequence similar thereto is 10%. If there is, the latter ineffective candidate substitution base sequence is selected and displayed as a base sequence with no effect to the user of the ineffective base sequence generator.
  • FIG. 28 is a flowchart illustrating the processing flow of the ineffective base sequence generator according to the present embodiment.
  • the base sequence is obtained by the base sequence obtaining unit 2701.
  • an ineffective candidate substitution base sequence is generated by the ineffective candidate substitution base sequence generation unit 2702.
  • the base The ineffective candidate substitution base sequence and a predetermined Hamming distance are input to the sequence search device 2706.
  • Step S2803 is performed once for each ineffective candidate replacement nucleotide sequence, and an association rate is obtained for each ineffective candidate replacement nucleotide sequence.
  • an ineffective candidate substitution base sequence having a low association rate is selected by the selection unit 2705.
  • the nucleotide sequence obtained by the selection is presumed to be a nucleotide sequence having no effect, it can be used as a control in a wet experiment.
  • Embodiment 14 of the present invention an apparatus for performing base sequence alignment using the base sequence search apparatus of the present invention will be described.
  • FIG. 29 is a diagram for explaining an outline of a process performed by the device according to the fourteenth embodiment of the present invention.
  • a gene base sequence 2901 there is a gene base sequence 2901, and it is desired to know in which part of this sequence a base sequence similar to the base sequence 2902 exists.
  • a partial sequence 2903 of the base sequence 2902 is obtained.
  • the length of the partial sequence 2903 is a length suitable for the nucleotide sequence search apparatus of the present invention, and is preferably 15 to 25.
  • a similar nucleotide sequence 2904 of the partial sequence 2903 is found in the gene nucleotide sequence 2901.
  • the base sequences before and after the partial sequence 2903 and the similar base sequence 2904 are compared using a conventionally known method such as dynamic programming.
  • a conventionally known method such as dynamic programming.
  • FIG. 30 illustrates a functional block diagram of a base sequence alignment apparatus according to Embodiment 14 of the present invention.
  • the base sequence alignment apparatus 3000 has a second base sequence acquisition unit 3001, a partial base sequence selection unit 3002, a partial base sequence input unit 3003, a third Hamming distance input unit 3004, and an alignment unit 3005.
  • “Second nucleotide sequence acquisition unit” 3001 acquires a nucleotide sequence exceeding the predetermined length.
  • "Partial nucleotide sequence selection unit” 3002 selects a partial nucleotide sequence that is a part of the nucleotide sequence acquired by second nucleotide sequence acquisition unit 3001. For example, a base sequence having a length of 15 to 25 is selected from the base sequences obtained by the second base sequence obtaining unit 3001. It is desirable that the obtained partial base sequence does not become the repeat sequence described in the twelfth embodiment. This is because a large number of alignment candidates are found and step S3104 described later must be executed many times. Therefore, as in Embodiment 12, the repeat sequence storage unit is provided in the base sequence alignment device, and the partial base sequence is obtained by referring to the content stored in the repeat sequence storage unit. You may.
  • the "partial base sequence input unit" 3003 inputs the partial base sequence selected by the partial base sequence selection unit to the base sequence search device 3006 according to any one of Embodiments 4 to 8.
  • the “third number, mining distance input unit” 3004 inputs a predetermined Hamming distance to the base sequence search device 3006 to which the partial base sequence input unit has input the partial base sequence.
  • a similar base sequence of the partial base sequence is obtained, and the position in the gene base sequence is obtained.
  • the "alignment unit" 3005 is based on a search result obtained from the base sequence search device 3006 by performing the input by the partial base sequence input unit 3003 and the input by the third Hamming distance input unit 3004, Then, the base sequence obtained by the second base sequence obtaining unit 3001 is aligned with the gene base sequence. For example, assuming that the partial base sequence is the portion indicated by reference numeral 2903 and the base sequence search device 3006 determines that the similar base sequence to the partial base sequence is the portion indicated by reference numeral 2904, The base sequence before and after the base sequence to be performed and the base sequence indicated by reference numeral 2902 are calculated using a dynamic programming technique or the like to indicate a score value indicating how similar the base sequence is.
  • FIG. 31 is a flowchart illustrating a processing flow of the base sequence alignment apparatus of FIG. 30 according to the present embodiment.
  • the second nucleotide sequence acquisition unit 3101 acquires a nucleotide sequence.
  • the partial base sequence selection unit 3 At 002, a partial base sequence is selected.
  • the partial base sequence and the Hamming distance are input to the base sequence search device 3006 by the partial base sequence input unit 3003 and the third Hamming distance input unit 3004.
  • the base sequence is aligned with the gene base sequence based on the search result by base sequence search device 3006.
  • Step S3104 is repeatedly executed for only the search result obtained in step S3103.
  • BLAST etc. were used.For example, by using BLAST etc., for example, a search for a base sequence where consecutive 7-mers are matched can be performed to determine where similar base sequences appear in the gene base sequence. In some cases, it was difficult to perform accurate alignment. In the present invention, since a similar base sequence of the partial base sequence is searched, more accurate alignment can be performed.
  • the base sequence search device and the base sequence search method according to the present invention can reduce the amount of calculation required for the search, and the no and mining distances are equal to or less than a predetermined value, that is, It is useful for designing a base sequence, etc., because it does not overlook the existence of a similar base sequence.
  • a predetermined value that is, It is useful for designing a base sequence, etc., because it does not overlook the existence of a similar base sequence.
  • various predetermined guidelines specifically, it is possible to design an siRNA having a high RNA interference (RNAi) effect
  • RNAi RNA interference
  • FIG. 1 Schematic representation of the process of RNA interference
  • FIG. 17 No. Example of program for dividing and assigning the mining distance
  • FIG. 22 is a flowchart of a process performed by a search unit of the base sequence search device according to the tenth embodiment of the present invention.
  • FIG. 28 is a flowchart of a process performed by the ineffective base sequence generator according to Embodiment 13 of the present invention.
  • FIG. 29 is a schematic diagram of processing by an apparatus according to Embodiment 14 of the present invention.
  • FIG. 30 is a functional block diagram of a base sequence alignment apparatus according to Embodiment 14 of the present invention.
  • FIG. 31 is a flowchart of a process performed by the nucleotide sequence alignment apparatus according to the fourteenth embodiment of the present invention.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 siRNAなどの塩基配列を設計する場合に、類似する塩基配列を含む遺伝子を漏れなく高速に検索する装置及び方法などを提供する。このために、入力された塩基配列から所定の長さの二つの部分配列とその余の部分とを特定して、対応する塩基が適合しない数であるハミング距離を、それらの部分配列とその余の部分とに分割して割り当てて、2つの部分配列のうち、割り当てられた数が大きくないほうを選択して、検索を行なうようにする。

Description

明 細 書
塩基配列検索装置及び塩基配列検索方法
技術分野
[0001] 本発明は、遺伝子情報を表わす遺伝子塩基配列を検索する装置及び方法に関す る。
背景技術
[0002] ワトソンとクリックとによる DNA(Doexyribo Nucleic Acid)の構造の解明に基づき、塩 基配列に基づく遺伝子情報の研究が発展している。 DNAは、アデニン (A)、シトシ ン(C)、グァニン (G)、チミン (T)の塩基の 、ずれかを含むヌクレオチドが並んで 、る 構造を持ち、細胞の核の中では、通常、 Aと T、 Gと C、の結合により、二重らせんの 構造となっている。遺伝子を表現する DNAのヌクレオチドの配列(以下、「遺伝子塩 基配列」と呼ぶ)力 RNA (Ribonucleic Acid)に転写され、スプライシングを経て、 mR NA (messenger RNA)が生成され、たんぱく質の合成がされることが知られている。 R NAは、 D—リボースを糖成分として、アデニン (A)、シトシン(C)、グァニン(G)、ゥラ シル (U)を塩基とする核酸である。
[0003] ところで、近年、 RNA干渉と呼ばれる現象が発生することが知られるようになった。
RNA干渉とは、細胞内に特定の 2本鎖 RNAが存在することにより、特定の配列の m RNAが破壊され、遺伝子の発現が抑制される現象である。この現象は、最初、線虫 の細胞を用いた実験で発見された。その後、この現象は、哺乳動物細胞でも起きるこ とが知られるようになり、注目を集めることとなった。人為的に RNA干渉を起こすこと により、特定の遺伝子の働きを抑制することができ、その特定の遺伝子の働きを調べ ることができるカゝらである。また、 RNA干渉を利用することにより、特定の遺伝子の働 きを抑制する効果を発揮する薬を開発できる可能性も生まれてきた。
[0004] 図 1は、 RNA干渉の過程の概略を示す図である。 RNA干渉は、以下のようなプロ セスを経て発生すると考えられている。およそ 21から 23塩基対の長さの siRNA( short interfering RNA) 101がマルチ.タンパク質複合体と結合し、 RISC (
RNA- induced silencing complex) 102を形成する。 RISC (102)は、その siRNAと相 同性を持つ mRNA(103)と結合し、その mRNA(103)を断片 104、 105などへ分 解することにより、その mRNA (103)が機能しなくなる。ここで、「ある塩基配列(S)と 別の塩基配列 (T)との間に相同性がある」とは、 2つの塩基配列(S、 T)が相補性を 有している力、または、不完全な相補性を有していることをいう。「相補性」とは、二つ の塩基配列の全体において、 Aと T、 Gと C、 Aと Uとの対が完全に形成されていること をいう。したがって、相同性とは、二つの塩基配列の一部に、 Aと T、 Gと C、 Aと U以 外の対が発生していることを意味する。なお、どのような場合に、二つの塩基配列の 間に相補性を有する塩基対がどれだけの存在すれば、その二つの塩基配列が相同 性を有すると判断されるかについて説明すると次のようになる。すなわち、 RNA干渉 の場合には、 80%以上、好ましくは 90%以上、さらに好ましくは 95%以上の場合に 、相同性を有すると判断される場合が多い。また、相補性を有する塩基対の割合の みならず、相補性を有する塩基列が塩基配列中にどれだけの個数連続して現れて いるかを考慮にいれて、二つの塩基配列の間の相同性の有無を判断することもある 。また、 Aと T、 Gと C、 Aと Uとの 3種類の相補性を有する塩基対に、 Gと Uとの対が形 成される可能性もあることが知られて 、るので、 Gと Uとの塩基対の存在も考慮に入 れて相同性の有無を判断することもある。
[0005] したがって、 RNA干渉を発生させ、目的とする遺伝子の働きを抑制するためには、 siRNAの配列を設計することが重要である。すなわち、目的とする遺伝子だけに現 れ、他の遺伝子の塩基配列と相同性を持たない、 siRNAの配列を設計することが重 要である。したがって、 siRNAの配列を設計する際には、 siRNAの配列に似た塩基 配列を持つ遺伝子が目的とする遺伝子以外には存在しないことを確認することが必 要となる。
[0006] また、近年、マイクロアレイを用いた遺伝子解析や遺伝子診断などが実施されて!ヽ る。「マイクロアレイ」とは、長さが 15から 60塩基程度のオリゴ DNAをガラスなどの基 板上に合成した DNAチップの一種である(例えば、非特許文献 1参照。 ) o
[0007] 図 2は、マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を例示する。
ガラスなどの基板上に合成したオリゴ DNAを持つマイクロアレイ 201上に、蛍光色素 などの標識 203を付加された DNA (202)を流すと、その DNAと相補性あるいは相 同性を持つマイクロアレイ上のオリゴ DNAとが結合 (ハイブリダィズ)する(符号 204) 。どの場所のオリゴ DNAとハイブリダィズしたかを、標識の蛍光色素による蛍光を検 出することにより、 DNA (202)の種類などを判定する。図 2では、マイクロアレイ上に 数本のオリゴ DNAし力示されていないが、実際のマイクロアレイは、縦横の長さが 0. 5インチ程度の領域に万のオーダーでオリゴ DNAが配置される。
[0008] したがって、どのような塩基配列を持つオリゴ DNAをマイクロアレイに配置するかを 決めることは、マイクロアレイの設計において、極めて重要な工程である。
[0009] 従来においては、似た塩基配列が存在するかどうかの検出は、 BLAST (例えば非 特許文献 2参照。)と呼ばれるソフトウェアや、 Smith— Watermanと呼ばれるァルゴ リズム (例えば、非特許文献 3参照。)を用いた、遺伝子情報を表わす遺伝子塩基配 列を格納したデータベースの検索により行なわれている場合が多い。
非特許文献 1 :杉本直己著、 "遺伝子化学"、 19ページ、株式会社化学同人発行、 2 002年
非特許文献 2 : S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J.
Lipman, "Basic local alignment search tool", J. Mol. Biol. , 215, 403 -410, 1990
非特許文献 3 : T. F. Smith, and M. S. Waterman, "Identification of com mon molecular subsequences", J. Mol. Biol. , 147, 195— 197, 1981 発明の開示
発明が解決しょうとする課題
[0010] し力しながら、 BLASTを使用する方法では、似た塩基配列の存在を見落としてしま うという課題がある。 BLASTは、通常、 7塩基が連続して同じになる部分を用いて検 索が行なわれる。このため、 19塩基の塩基配列が与えられた場合、例えば、図 3の X の位置で塩基の不一致あるいは不適合がある塩基配列を見つけることができず、似 た塩基配列の存在を見落としてしまう。
[0011] また、 Smith— Watermanアルゴリズムを用いれば、似た塩基配列の存在を正しく 検出することが可能である力 必要とされる計算量が大きぐ検出までに時間がかか るという課題がある。 [0012] そこで、本発明は、似た塩基配列の存在を少ない計算量で検出することができる装 置及び方法などを提供することを目的とする。
課題を解決するための手段
[0013] かかる目的を達成するために、本発明では、入力された塩基配列力 所定の長さ の二つの部分配列とその余の部分とを特定して、対応する塩基が適合しな!、塩基へ の置換を行なう塩基の個数であるハミング距離を、それらの部分配列とその余の部分 とに分割して割り当てて、 2つの部分配列のうち、それぞれの部分配列に対して、割り 当てられたハミング距離の個数の塩基を適合しない塩基に置換する操作を加えて得 られる塩基配列の総数が大きくないほうを選択して、検索を行なうようにする。
[0014] これにより、検索に用いる塩基配列であって塩基を置換して生成する塩基配列の 数を少なくすることができ、検索のために必要となる計算量を小さくすることができ、 課題が解決される。また、ノ、ミング距離が所定の値と同じまたは所定の値未満となる、 似た塩基配列の存在を見落とすこともなくなるので、課題が解決される。
発明の効果
[0015] 本発明に係る塩基配列検索装置及び塩基配列検索方法によれば、検索のために 必要となる計算量を小さくすることができ、また、ノ、ミング距離が所定の値と同じまた は所定の値未満となる、似た塩基配列の存在を見落とすことも無 ヽ。
発明を実施するための最良の形態
[0016] 以下、本発明を実施するための最良の形態について、図を用いて実施形態として 説明する。なお、本発明は、これら実施の形態に何ら限定されるものではなぐその 要旨を逸脱しな 、範囲にぉ 、て、種々なる態様で実施し得る。
[0017] (実施形態 1 :主に請求項 1、 9について説明する)
[0018] 本発明の実施形態 1として、遺伝子情報を表わす遺伝子塩基配列を格納したデー タベースにおける所定長の塩基配列の出現を検索するための索引を用いて、類似 塩基配列を検索するための塩基配列検索装置として、入力された塩基配列から所定 の長さの二つの部分配列とその余の部分とを特定し、対応する塩基が適合しな 、塩 基への置換を行なう塩基の個数であるハミング距離を、それらの部分配列とその余の 部分とに分割して割り当てて、 2つの部分配列のうち、それぞれの部分配列に対して 、割り当てられたハミング距離の個数の塩基を適合しない塩基に置換する操作を加 えて得られる塩基配列の総数が大きくないほうを選択して検索を行なう塩基配列検 索装置について説明する。
[0019] ここに「対応する塩基が適合する」とは、対応する二つの塩基が、所定の二項関係 を満たすことをいう。ここでいう二項関係とは、多くの場合、対を構成する塩基が合い 等しいことをいう。すなわち、数学の集合論の言葉で説明すれば、二項関係が反射 律のみを満たす場合に該当する。また、塩基の Gと Uとが結合しやすいことを考慮に 入れた二項関係を用いてもょ 、。
[0020] なお、ここに、「所定長」とは所定の長さである。この所定の長さは、遺伝子塩基配 列を格納したデータベースの検索を行なうための索引が受け付けることができる塩基 配列の長さである。例えば、 BLASTの場合には、通常は、所定長は 7となる。また、「 類似塩基配列」とは、入力された塩基配列と同じ長さで類似する塩基配列であって、 前記遺伝子塩基配列に出現する塩基配列である。「類似する」とは、例えば、後で説 明するように、入力された塩基配列とのノ、ミング距離が与えられた値になることである 。また、「前記遺伝子塩基配列」とは、データベースに格納されている塩基配列である 。なお、索引の構造によっては、所定長は複数存在する場合がある。
[0021] このような塩基配列検索装置は、例えば、 WEBブラウザに入力された塩基配列と 類似の程度 (例えば、ハミング距離)を受け取り、遺伝子塩基配列を格納したデータ
Figure imgf000007_0001
ヽ合わせなどを発行して処理を行な ヽ、結果を前記 WEBブラウザ に返信するサーバ装置として実現が可能である。したがって、本発明に係る塩基配 列検索装置の構成要素である各部、各手段は、ハードウェア、ソフトウェア、ハードウ エアとソフトウェア(プログラム)の両者、の 、ずれかによつて構成することが可能であ る。たとえば、これらを実現する一例として、計算機を利用する場合には、 CPU,メモ リ、バス、インターフェース、周辺装置などから構成されるハードウエアと、これらのハ 一ドウエア上にて実行可能なソフトウェアを挙げることができる。
[0022] (実施形態 1 :構成)
図 4は、本発明の実施形態 1に係る塩基配列検索装置の機能ブロック図を例示す る。塩基配列検索装置 400は、塩基配列入力部 401と、ハミング距離入力部 402と、 特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 4 07と、を有する。
[0023] 「塩基配列入力部」 401は、所定長を超える長さの塩基配列を入力する。例えば、 WEBブラウザ力 入力された塩基配列を示す情報を受信する。
[0024] 「ハミング距離入力部」 402は、入力塩基配列に対して、ハミング距離を入力する。
例えば、 WEBブラウザ力も入力された数値を受信する。ここに、「入力塩基配列」とは 、塩基配列入力部 401に入力された塩基配列である。また、ハミング距離とは、適合 しない塩基への置換の操作を行なう塩基の個数を示す値である。ノ、ミング距離は、 2 つの同じ長さの塩基配列に対して定義され、対応する塩基が適合しない数であり、 1 つの塩基配列に対してハミング距離を指定することにより、その塩基配列のうち、ハミ ング距離の個数の塩基を適合しない塩基に置換して得られる塩基配列の集合が定 義できる。
[0025] ハミング距離の例を挙げる。例えば、図 5には、 19の塩基力もなる塩基配列が上下 に並んでいるが、「X」で示される 3箇所に対応する塩基が適合していないので、ハミ ング距離は 3となる。図 6は、ノ、ミング距離の定義を示す。 Sと Tが n個の塩基力もなる 塩基配列として、 Sを i番目の塩基とするときの Sと Tのハミング距離 d (S, T)が定義
i H
されている。なお、 Uを集合とするとき、 I U Iにより集合の要素の数を表わすとし、 ≠は、両辺の塩基が適合しないことを意味する(例えば、同じでないことを意味する) 。したがって、ノ、ミング距離は、負でない整数となる。
[0026] 「特定部」 403は、入力塩基配列の部分配列であって、所定長の長さを持ち、異な る 2つの部分配列と、その余の部分と、を特定する。 2つの部分配列は共通部分があ つてもよい。また、場合によっては、その余の部分は無くてもよい。
[0027] 図 7は、特定部 403により特定される 2つの部分配列とその余の部分とを例示する。
図 7 (1)においては、第一の部分配列 711と第二の部分配列 712とが共通部分を持 たないように入力塩基配列 710に存在し、入力塩基配列の両端と中央部分に、その 余の部分 713、 714、 715がある。図 7 (2)においては、第一の部分配列 721と第二 の部分配列 724が入力塩基配列 720の略中央に共通部分を有し、入力塩基配列 7 20の端の部分にその余の部分 723、 724力ある。図 7 (3)においては、第一の部分 配列 731が入力塩基配列 730の左端から伸び、また、第二の部分配列 732が入力 塩基配列 730の右端から伸び、第一の部分配列 731と第二の部分配列 732は、入 力塩基配列 730の略中央部分で共通部分を有している。入力塩基配列がある所定 長の 2倍を超える場合には、図 7 (4)に例示されるように、入力塩基配列 740の略中 央がその余の部分 743となる。なお、第一の部分配列と第二の部分配列の長さは所 定長であるが、索引の構造によっては上述のように所定長が複数存在する場合があ り、そのような場合には、第一の部分配列の長さと第二の部分配列の長さは同じであ つてもよいし、異なっていてもよい。
[0028] 「割当部」 404は、特定部 403で特定された部分配列とその余の部分とに、ハミング 距離入力部 402で入力されたハミング距離を分割して割り当てる。ここ〖こ、「ハミング 距離を分割して割り当てる」とは、ノ、ミング距離を負でない整数に分割して、分割で得 られた整数を部分配列とその余の部分に割り振ることである。したがって、割り振られ た値の総和は、ノ、ミング距離になる。このような処理は、プログラムにより容易に実現 することができる。例えば、部分配列とその余の部分の個数分のループを入れ子に するプログラムにより実現することができ、全ての割り振りを得ることができる。
[0029] 図 17は、ノ、ミング距離を分割して割り当てるプログラムの例を C言語で記述した例 を示す。この例では、部分配列が数字で特定されるとする。例えば、部分配列の個数 力 であれば、 P、 P— 1、 P— 2、 · · ·、 1でそれぞれの部分配列が特定されるとし、所 定の配列の P番目、 P— 1番目、…、 1番目の要素が、部分配列に対応しているとする 。このとき、 distributeHammingDistanceの第 1引数には、部分配列の個数 Pを渡し、第 2引数には、第 1引数に渡された個数の部分配列に割り当てるハミング距離 Hを渡す と、 P、 P—l、 P— 2、 · · ·、 1でそれぞれ特定される部分配列にハミング距離が割り当 てられることになる。なお、 distributeHammingDistanceの第 3引数には部分配列の総 数を、第 4引数には、所定の配列を渡す。 DistributeHammingDistanceの動作を具体 的に説明すると次のようになる。すなわち、所定の配列が vecで指し示されるとすると 、 distributeHammingDistanceがー回呼ばれるたびに、 vec [P]、 vec [P— 1]、 vec [P 2]、 〜VeC [l]のどれかに、部分配列に割り当てられたハミング距離が代入され、 distributeHammingDistanceの再帰呼び出しがされる。例えば、 distributeHammingDistanceの或る呼び出しにお 、て vec [q]に、部分配列 qに割り当 てられたハミング距離が代入されると、 qが 1でなければ、 distributeHammingDistance の第 1引数を q—1にして再帰呼び出しが行なわれる。最後に vec[l]に、ノ、ミング距 離が代入されると、全ての部分配列に対するノ、ミング距離の割り当ての一つが完成 するので、 vec [P]、 vec [P— 1]、 vec [P— 2]、 " 6。[1]の値カ¾1:^^とぃぅ関数を 用いて出力される。もちろん、 printfによる出力を行なう代わりに、ノ、ミング距離の割り 当てをメモリに構成されるデータ構造に格納して、選択部 405がそのデータ構造を参 照し、後に説明されるように、部分配列の選択が行なえるようにするのは、当業者にと つて容易なことである。
[0030] なお、図 17のプログラムにおいて、 intは、整数のデータ型を表わし、例えば、 int h;は、 hという変数が整数のデータ型の値をとることを意味する。また、 for(Sl ; S2 ; S 3) {S4}は、まず S1を実行し、 S2の条件が成り立つ限り、 S4を実行した後に S3を実 行することを繰り返すことを表わす。なお、 DistributeHammingDistanceは、図 17に例 示されて!/、るが、念のために記載すると以下のようになる。
distnbuteHammingDistance(int P, int H, int nbize, int* vec) { int h; if (P==l) {vec[l] = h; /*全ての部分へのハミング距離の割り当ての一つが完成したので vecに格納 されたハミング距離を出力する */ for (int i = 1; i <= nSize; i = i + 1) { printK"Part %d th: %d", i, vec[i]); /*セパレータ又はターミネータを出力する */ if (i != nSize) { /*セパレータとしてカンマを出力する */ printK", "ヽ' , } else { /*ターミネータとして改 行を出力する */ printK"¥n"); } } else { for (h = 0; h <= H; h = h + 1) { vec[P] = h; distributeHammingDistance(P— 1, H— h, nSize, vec); } } }と定義される。このように、 リカーシブコールを行なうことにより、部分配列とその余の部分の個数分のループを 入れ子にすることができる。
[0031] 図 8は、図 7の(1)から (4)の場合に対応して、割当部 404によるハミング距離の割 り振りを説明するための図である。図 8 (1)において、入力塩基配列の左端の部分か ら (すなわち、その余の部分、第一の部分配列、その余の部分、第二の部分配列、そ の余の部分)、 m 、 m 、 m 、 m 、 mという値が割り振られたとすると、 m 、 m 、 m 、 m
1 2 3 4 5 1 2 3
、 mの和が入カノ、ミング距離となる。ここに、「入力ハミング距離」とは、ノ、ミング距離 入力部 402に入力されたハミング距離である。
[0032] 同様に、図 8 (2)においても、入力塩基配列の左端の部分から (すなわち、その余 の部分、第一の部分配列の左部分、共通部分、第二の部分配列の右部分、その余 の部分)、 m 、 m 、 m 、 m 、 mが割り振られたとすると、これらの値の和が入力ハミン
1 2 3 4 5
グ距離となる。
[0033] 図 8 (3)においては、入力塩基配列の左端の部分から (すなわち、第一の部分配列 の左部分、共通部分、第二の部分配列の右部分)、 m 、 m 、 mが割り振られたとす
1 2 3
ると、これら 3つの値の和が入力ハミング距離となる。
[0034] 図 8 (4)においては、入力塩基配列の左端の部分から (すなわち、第一の部分配列 、その余の部分、第二の部分配列)、 m 、 m 、 mが割り振られたとすると、これら 3つ
1 2 3
の値の和が入力ハミング距離となる。
[0035] 「選択部」 405は、特定部 403で特定された 2つの部分配列のうち、前記割当部で 割り当てられたハミング距離で示される個数の塩基を適合しない塩基へ置換する操 作を前記部分配列に対して行なって生成される塩基配列である置換塩基配列の総 数が大きくない方を選択する。この総数は、式:(適合しない塩基の数)レ、:
(所
C により計算でき、この計算結果に基づいて選択を行なう。しかし、多く の場合には、割当部 404で割り当てられたハミング距離の大きくな 、方の部分配列を 選択することになる。すなわち、図 8 (1)の場合には、 mと mとを比較して、例えば、
2 4
mの方が大きくなければ、第一の部分配列を選択する。逆に、 mの方が小さければ
2 4
、第二の部分配列を選択する。ただし、例えば、所定長が 4である 2つの部分配列に 対して、一方にはハミング距離として 3が、他方には 4が割り当てられたとすると、一方 の部分配列の置換塩基配列の総数は次のように計算される。すなわち、適合しない 塩基とは、異なる塩基であるとすると、塩基の種類は 4であるので、ある塩基と異なる 塩基の種類の数は (4 1)となり、一方の部分配列の置換塩基配列の総数は、(4 I) 3 C = 108である。し力しながら、他方の部分配列の置換塩基配列の総数は、(4
4 3
- I)4 C =81となり、割り当てられたノ、ミング距離の大きな他方の置換塩基配列の
4 4
数が少なくなる場合がある。したがって置換塩基配列の総数の大小とハミング距離の 大小とは一致しない場合があり、注意が必要である。なお、以下では、説明を簡単に するために、割当部 404で割り当てられたハミング距離が大きくない場合が、置換塩 基配列の総数が大きくないと仮定して説明を行なう。
[0036] 同様に図 8 (2)の場合には、 m +mと m +mとを比較して、例えば、 m +mの方
2 3 3 4 2 3 が大きくなければ、第一の部分配列を選択する。逆に、 m +mの方が小さければ、
3 4
第二の部分配列を選択する。
[0037] また、図 8 (3)の場合には、 m +mと m +mとを比較して、例えば、 m +mの方
1 2 2 3 1 2 が大きくなければ第一の部分配列を選択する。逆に、 m +mの方が小さければ、第
2 3
二の部分配列を選択する。
[0038] また、図 8 (4)の場合には、 mと mとを比較して、例えば、 mの方が大きくなければ
1 3 1
、第一の部分配列を選択する。逆に、 mの方が小さければ、第二の部分配列を選択
3
する。
[0039] 図 9は、入力ハミング距離が 3であるとき、図 7 (4)のように部分配列とその余の部分 が特定された場合の割当部 404での割り振りと、選択部 405による選択を示す。図 9 では、説明を簡略化するために、 m、 m、 mの和が入力ハミング距離 3と等しい場
1 2 3
合について説明している。 m、 m、 mの和が 3になる組合せは、 10通りあるが、選択
1 2 3
部 405で、例えば m≤mとなる選択が行なわれると、選択の結果として 6通りの組み
1 3
合わせが得られる。これからさらに、 mの値の組み合せについて重複を除くと、 0と 1 との組み合わせになる。同様のことが、第二の部分配列と mについても言える。結果
3
として、 mについても、 0と 1とになる。なお、 m =mの場合は除かれるので、 m >m
3 1 3 1 となる選択が行なわれる場合の数は、 m≤mとなる選択が行なわれる場合の数より
3 1 3
も少なくなる。このことは、後に説明する置換塩基配列生成部 406と検索部 407との 動作により、 m力 と 1との場合について、また、 mについても 0と 1との場合について
1 3
、置換塩基配列生成部 406で置換塩基配列を生成して検索部で索引を参照して検 索を行なえば、 m、 m、 mの和が 3になる 10通りの場合についての検索がカバーさ
1 2 3
れることを意味する。
[0040] また、ノ、ミング距離入力部に入力されたノ、ミング距離が複数の部分に割り当てられ 、 m≤m、 m >mのように大きくない方の選択が行なわれるので、上記のパラダラ
1 3 1 3
フの記述により得られる m、 mの値の組み合わせは、ノ、ミング距離入力部に入力さ れたハミング距離未満であっても得られるものである。したがって、ノ、ミング距離 Hの 場合について選択を行なうと、 H未満のノ、ミング距離力 Sハミング距離入力部に入力さ れた場合につ!、ての選択も行なわれる。
[0041] したがって、 m 、 m 、 mの和が入力ハミング距離 3未満である場合についても同様
1 2 3
に処理ができる。このように、本発明では、 m 、 m 、 mの和が入力ハミング距離が与
1 2 3
えられた値のみならず、その値未満の場合の処理を一回の処理で実行することがで きる。
[0042] 図 10は、同じく入力ハミング距離が 3であるとき、図 7 (3)のように部分配列とその余 の部分が特定された場合の割当部 404での割り振りと、選択部 405による選択を示 す。図 10でも、説明を簡略ィ匕するために、 m 、 m 、 mの和が入力ハミング距離 3と
1 2 3
等しい場合について説明している。 m 、 m 、 mの和が 3になる組み合せは、同じく 1
1 2 3
0通りである力 選択部 405で m +m≤m +mとなる選択が行なわれると、選択の
1 2 2 3
結果として、 6通りの組み合せが得られる。これらの組み合わせ力 第一の部分配列 に割り振られた m +mの値について重複を除くと、 0、 1、 2、 3の 4通りが得られる。
1 2
同じことが第二の部分配列と m +mについても言える。ただし、 m +m =m +m
2 3 1 2 2 3 となる場合が除かれるので、 m +m >m +m
1 2 2 3となる選択が行なわれる場合の数は
、 m +m≤m +mとなる選択がされる場合の数よりも少なくなる。この結果、 m +m
1 2 2 3 2 については、 0と 1との 2通りが得られる。このことは、後に説明する置換塩基配列生
3
成咅 406と検索咅 407との動作により、 m +m力 0、 1、 2、 3の場合につ!/、て、また、
1 2
m +m〖こついても 0と 1との場合について、置換塩基配列生成部 406で置換塩基配
2 3
列を生成して検索部で索引を参照して検索を行なえば、 m 、 m 、 mの和が 3になる
1 2 3
10通りの場合についての検索がカバーされることを意味する。
[0043] また、上述したのと同じように、ノ、ミング距離入力部に入力されたハミング距離が複 数の部分に割り当てられ、 m +m >m +m 、 m +m≤m +mのように大きくない
1 2 2 3 1 2 2 3
方の選択が行なわれるので、上記のパラグラフの記述により得られる m +m 、 m +
1 2 2 mの値の組み合わせは、ノ、ミング距離入力部に入力されたハミング距離未満であつ
3
ても得られるものである。したがって、ノ、ミング距離 Hの場合について選択を行なうと、 H未満のノ、ミング距離カ 、ミング距離入力部に入力された場合についての選択も行 なわれる。
[0044] 「置換塩基配列生成部」 406は、選択部 405により選択された部分配列に対して、 割当部 404で割り当てられたノ、ミング距離をもつ置換塩基配列を生成する。すなわ ち、選択部 405により選択された部分配列の塩基のうち、割当部 404で割り当てられ たハミング距離で示される個数の塩基を適合しな 、塩基に置換することを行な 、、置 換塩基配列を生成する。例えば、図 9の場合には、第一の部分配列について、ノ、ミン グ距離が 0と 1となる部分配列が置換塩基配列として生成される。また、第二の部分 配列についても、ハミング距離が 0と 1となる部分配列が置換塩基配列として生成され る。ノ、ミング距離力 SOであれば、第一の部分配列そのものであり、ハミング距離が 1で あれば、第一の部分配列の塩基のうちの任意の 1つを、適合しない塩基に置き換え て置換塩基配列が生成される。
[0045] 同様に図 10の場合には、第一の部分配列について、ハミング距離が 0、 1、 2、 3の 置換塩基配列として生成される。また、第二の部分配列についても、ノ、ミング距離が 0と 1となる部分配列が置換塩基配列として生成される。この場合、入力ハミング距離 力 S3であり、また、ノ、ミング距離が 3の置換塩基配列を生成しなければいけないのは、 効率が悪いように見える。しかし、 3が割り振られたのは、 mであるので、第一の部分
2
配列と第二の部分配列との共通部分に対して、ノ、ミング距離が 3となる置換塩基配列 を生成すればよい。もし、その共通部分の長さが短ければ、ハミング距離が 3となる置 換塩基配列の総数は限られたものとなる。このように第一の部分配列と第二の部分 配列とが共通部分を持つ場合には、共通部分とそうでない部分とに割り振られたハミ ング距離を考慮して、共通部分とそうでない部分に個別に置換塩基配列を生成する ことにより、置換塩基配列の生成の効率を上げることができる。
[0046] 置換塩基配列を生成するプログラムは容易に作成することができ、例えば、ループ を入れ子にしたプログラムを作成し、外側のループにより、塩基を適合しない塩基に 置換する部分配列の位置を特定し、外側のループにより特定された位置の塩基を適 合しない塩基に置換することを内側のループにより行なうようにすればよい。所定長 を Lとし、塩基が異なるときを適合しないと定義すれば、図 9の場合には、 1 + 3 C通
し 1 りの置換塩基配列が生成される。図 10の場合には、 1 + 3 C + 32 C + 33 C通りの 置換塩基配列が生成されるが、この生成に必要な計算量は、一般に Lは入力塩基配 列の長さの値よりも小さ 1、ので、入力塩基配列とハミング距離が 3となる塩基配列の 全てを求める計算量より小さ!/、。
[0047] 図 18は、配列 Sにより長さが Lの部分配列に 2というハミング距離が割り当てられた 場合に、その部分配列の置換塩基配列を生成するプログラムを例示する。このプログ ラムでは、配列の添え字は 0から始まり、 S [0]、 S [l]、 · ··、 S [L— 1]に塩基を示す A 、 C、 G、 Tのいずれかのシンボルが格納されているとする。また、例えば、 foreach a 1 in {A, C, G, T} {S}は、変数 alの値を A, C, G, Tに次々に変化させながら、 Sを実行することを表わすとしている。図 18において、 for(ll = 0 ;ll <L ;ll =ll + l )と for(12 = 0 ;12<L ;12=12+ l)とが上記の「外側のループ」を表わし、 foreach a 1 in {A, C, G, T}と foreach a2 in {A, C, G, T}とが上記の「内側のループ」 を表わしている。図 18にプログラムが示されている力 念のために明細書にもそのプ ログラムを記しておく。 for (11 = 0; 11 < L; 11 = 11 + 1) { for (12 = 11 + 1; 12 < L; 12 = 12 + 1) { foreach al in {A, C, G, T} { if (S[ll] != al ) { foreach a2 in {A, C, G, T} { if (S[12] != a2) { Sの 11番目の塩基を alに置換し、 Sの 12番目の塩基を a2に置換して得ら れる置換塩基配列を生成; } } } } } }。
[0048] 「検索部」 407は、置換塩基配列生成部で生成された置換塩基配列をキーとして前 記索引を用いて検索を行なう。多くの場合、索引はハッシュの手法を用いて実現され ている。「前記索引」とは、所定長の塩基配列の、遺伝子配列を格納したデータべ一 スにおける出現を検索するための索引である。このような索引による検索により、一般 には、置換塩基配列が出現する位置情報 (例えば、置換塩基配列の端の塩基が、 D NAの^端から何番目の位置の塩基になるかを示す情報)が得られる。
[0049] もし、塩基配列検索装置が遺伝子塩基配列を格納したデータベースを備えていれ ば、検索部 407は、そのデータベースに対して問い合わせを行なう。また、他のサー バであって、そのようなデータベースを備えているサーバがあれば、検索部 407はそ のサーバに問 、合わせを送信して、結果を受信するようになって!/、てもよ!/、。
[0050] (実施形態 1:処理の流れ)
図 11は、本実施形態に係る図 4の塩基配列検索装置の処理の流れ図を例示する 。ステップ S1101において、塩基配列入力部 401などにより、塩基配列を入力する( 塩基配列入力ステップ)。ステップ S1102において、ノ、ミング距離入力部 402などに より、ハミング距離を入力する(ハミング距離入力ステップ)。ステップ S1103において 、特定部 403などにより、 2つの部分配列とその余の部分とを特定する(特定ステップ ) oステップ SI 104において、割当部 404などにより、入力されたハミング距離を分割 して割り当てる (割当ステップ)。ステップ S1105において、選択部 405などにより、割 当ステップで割り当てられたハミング距離を有する置換塩基配列の総数の大きくない 方の部分配列を重複が発生しな 、ように選択する(選択ステップ)。ステップ S 1106 において、置換塩基配列生成部 406などにより、置換塩基配列を生成する(置換塩 基配列生成ステップ)。ステップ S1107において、検索部 407などにより、検索を行 なう(検索ステップ)。
[0051] したがって、塩基配列検索装置は、塩基配列入力ステップ、ハミング距離入力ステ ップ、特定ステップ、割当ステップ、選択ステップ、置換塩基配列生成ステップ、検索 ステップを含む塩基配列検索方法を使用するための装置とみなすこともできる。
[0052] なお、図 11に例示された流れ図は一例であり、ステップ S1101で入力された塩基 配列の一つについて、ステップ S1102で入力されるべきハミング距離を 0、 1、 2、 3、 4などと変化させながら、その他のステップを繰り返し実行してもよい。また、ステップ S 1101を行なった後でステップ S1103を行ない、ステップ S 1102を実行して、その他 のステップを実行するようになっていてもよい。入力するハミング距離を 0、 1、 2、 3、 4 などと変化させながら、ステップ S1101からステップ S1104までを実行した後に、まと めてステップ S 1105以下を実行するようにしてもよい。このようにすることにより、同じ 部分配列を用いた検索を再度繰り返すことなぐ効率よく計算を進めることができる。
[0053] (実施形態 1:主な効果)
本実施形態により、検索のために必要となる計算量を小さくすることができ、また、 ノ、ミング距離が所定の値、もしくはそれ以下、もしくは任意の値の組み合わせとなる、 似た塩基配列を漏れなく検索することができる。
[0054] なお、図 4の機能ブロック図により表わされる塩基配列検索装置の構成は、ハードウ エアとしては、任意の計算機の CPU、メモリ、その他の LSIなどにより実現することが できる。また、ソフトウェアとしては、メモリにロードされたプログラムなどにより実現する ことができる。また、ハードウェアとソフトウェアとの連携により実現することもできる。特 にソフトウェアが用いられて実現される場合には、そのようなソフトウェアを構成するプ ログラムを、各種の媒体に記録しておき、必要に応じて塩基配列検索装置を実現す るための計算機に機械的に読み取られるようにすることができる。ここで、「媒体」とは 、フレキシブルディスク、光磁気ディスク、 ROM, EPROM、 EEPROM、 CD— RO M、 MO、 DVD,フラッシュディスク等の任意の「可搬用の物理媒体」や、各種計算 機システムに内蔵される ROM、 RAM, HD等の任意の「固定用の物理媒体」、ある いは LAN、 WAN,インターネットに代表されるネットワークを介してプログラムを送信 する場合の通信回線や搬送波のように短期にプログラムを保持する「通信媒体」を含 むものとする。なお、ここにいう計算機とは、メインフレーム計算機に限定されることは なぐワークステーションやパーソナルコンピュータなどの情報処理装置であってもよ い。また、そのような情報処理装置には、プリンタやスキャナなどの周辺装置がさらに 接続されていてもよい。
[0055] また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法で あり、ソースコードやバイナリコート等の形式を問わない。なお、「プログラム」は必ずし も単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構 成されるものや、オペレーティングシステムに代表される別個のプログラムと協同して その機能を達成するものをも含む。なお、塩基配列検索装置において媒体を読み取 るための具体的な構成、読み取り手段、あるいは、読み取り後のインストール手順等 は、周知の構成や手順を用いることができる。例えば、本実施形態に係る塩基配列 検索装置の、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割 当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407とは、それぞれ プログラムを構成するモジュールとして実現することができる。そのようなモジュール は、当然、計算機の CPUにより制御を受けることとなる。
[0056] 本明細書では図示を省略して 、るが、塩基配列検索装置は、遺伝子の塩基配列 情報等に関する外部データベースの検索などを行なうための外部プログラム等を提 供する外部システムに、インターネット等の通信網を介して通信可能に接続された構 成であってもよい。力かる構成により、外部プログラムを実行するウェブサイトが提供さ れる。外部システムは、 WEBサーバや ASPサーバ等として構成されてもよい。例え ば、塩基配列検索装置が外部システムに通信可能に接続されてもよい。通信網の構 成は特には限定されないが、例えば、ルータ等の通信装置や専用線等の有線又は 無線の通信回線により構成される。
[0057] (実施形態 2:主に請求項 2につ 、て説明する)
[0058] 図 12は、本発明の実施形態 2に係る塩基配列検索装置の機能ブロック図を例示す る。塩基配列検索装置 1200は、塩基配列入力部 401と、ハミング距離入力部 402と 、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、を有し、特定部 403は、第一特定手段 1201を有している。したがって、本実 施形態に係る塩基配列検索装置は、実施形態 1に係る塩基配列検索装置の特定部 が第一特定手段を有した構成となって 、る。
[0059] 「第一特定手段」 1201は、塩基配列入力部で入力された塩基配列の塩基数が前 記所定長の 2倍以下または 2倍未満であれば、前記 2つの部分配列のうち一方の部 分配列の端を前記入力塩基配列の他方の端と一致させ、その余の部分が生じず特 定されないことにする。その余の部分が生じず特定されないことにより、割当部では、 その余の部分にノ、ミング距離を割り当てることはしないこととなる。
[0060] すなわち、第一特定手段は、図 7 (3)のように第一の部分配列と第二の部分配列と を特定する。したがって、このような場合は実施形態 1について既に説明されている ので、以後の説明は省略する。
[0061] (実施形態 3:主に請求項 3につ 、て説明する)
[0062] 図 13は、本発明の実施形態 3に係る塩基配列検索装置の機能ブロック図を例示す る。塩基配列検索装置 1300は、塩基配列入力部 401と、ハミング距離入力部 402と 、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、を有し、特定部 403は、第二特定手段 1301を有している。また、特定部 403 は、実施形態 2で説明した第一特定手段を有していてもよい。したがって、本実施形 態に係る塩基配列検索装置は、実施形態 1または 2に係る塩基配列検索装置の特 定部が第二特定手段を有した構成となって 、る。 [0063] 「第二特定手段」 1301は、塩基配列入力部で入力された塩基配列の塩基数が前 記所定長の 2倍より大であれば、前記 2つの部分配列が重ならないことにして、前記 2 つの部分配列を特定する。この場合、その余の部分が一つになるようにしてもよいし 、 2つになるようにしてもよい。例えば、 2つの部分配列が入力塩基配列の左右の端 に配置されるように特定したり、 2つの部分配列が連接されるように入力塩基配列を 特定したりする。
[0064] すなわち、第二特定手段は、図 7 (4)のように第一の部分配列と第二の部分配列と を特定する。したがって、このような場合は実施形態 1について既に説明されている ので、以後の説明は省略する。
[0065] (実施形態 4:主に請求項 4につ 、て説明する)
[0066] 本発明の実施形態 4として、検索部での検索結果に基づ!/、て、類似塩基配列の候 補を取得して、入力塩基配列とのハミング距離を判定する塩基配列検索装置にっ 、 て説明する。
[0067] (実施形態 4 :構成)
図 14は、本発明の実施形態 4に係る塩基配列検索装置の機能ブロック図を例示す る。塩基配列検索装置 1400は、塩基配列入力部 401と、ハミング距離入力部 402と 、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、類似候補塩基配列取得部 1401と、判定部 1402と、を有している。また、特 定部 403は、実施形態 2で説明した第一特定手段と実施形態 3で説明した第二特定 手段とのいずれか一方または両方を有していてもよい。したがって、本実施形態に係 る塩基配列検索装置は、実施形態 1から 3のいずれか一の塩基配列検索装置が類 似候補塩基配列取得部 1401と、判定部 1402と、を有している構成となっている。
[0068] 「類似候補塩基配列取得部」 1401は、検索部 407での検索結果に基づいて、類 似候補塩基配列を取得する。「類似候補塩基配列」とは、置換塩基配列を含んで遺 伝子塩基配列に現れる塩基配列である。より具体的に説明すると、例えば、第一の 部分配列の置換塩基配列により検索が行なわれ、置換塩基配列の端の塩基の位置 が判明したとすると、第一の部分配列が入力塩基配列に占める位置関係を勘案して 得られる塩基配列で、入力塩基配列と同じ長さの遺伝子塩基配列を取得する。すな わち、検索で得られる位置が第一の部分配列の左端の塩基の位置であるとすると、 第一の部分配列の左側のその余の部分の長さ (もし、そのようなその余の部分がなけ れば 0とする)だけ左の位置から、入力塩基配列と同じ長さの遺伝子塩基配列を取得 する。第二の部分配列の置換塩基配列について検索が行なわれた場合も同様に、 第二の部分配列の右側のその余の部分の長さだけ右の位置力も左に向力つて入力 塩基配列と同じ長さの遺伝子塩基配列を取得する。この取得は、データベースを検 索することにより行なわれる。もし、塩基配列検索装置が、そのようなデータベースを 備えていれば、そのデータベースから取得を行ない、別のサーバにそのようなデータ ベースが備えられていればそのサーバに取得の要求を送信して、類似候補塩基配 列を得る。
[0069] 「判定部」 1402は、類似候補塩基配列取得部で取得された類似候補塩基配列と、 前記入力塩基配列と、のハミング距離が、ハミング距離入力部 402に入力されたハミ ング距離、もしくはそれ以下、または入力されたハミング距離の組に一致するかどうか を判定する。この判定は、入力塩基配列と類似候補塩基配列との端の塩基から順に 比較を行なうことにより行なうことができる。
[0070] 本実施形態に係る塩基配列検索装置の処理の流れ図は、図 11に例示された流れ 図のステップ S1107の後に、類似候補塩基配列を取得するステップと、類似候補塩 基配列と入力塩基配列とのハミング距離が、入力ハミング距離に等 U、かどうかを判 定するステップと、を実行する流れ図となる。
[0071] (実施形態 4:主な効果)
本実施形態によれば、入力塩基配列に類似する塩基配列を取得することができ、 例えば、 siRNAにより不活性ィ匕する目的の遺伝子以外に不活性ィ匕される可能性の ある遺伝子の情報を得ることが可能となる。
[0072] (実施形態 5:主に請求項 5につ 、て説明する)
[0073] 本発明の実施形態 5として、不適合となる塩基の組合せを指定することができる塩 基配列検索装置について説明する。
[0074] (実施形態 5 :構成)
図 15は、本発明の実施形態 5に係る塩基配列検索装置の機能ブロック図を例示す る。塩基配列検索装置 1500は、塩基配列入力部 401と、ハミング距離入力部 402と 、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、類似候補塩基配列取得部 1401と、判定部 1402と、不適合塩基組入力部 1 501と、を有している。したがって、本実施形態に係る塩基配列検索装置は、実施形 態 4に係る塩基配列検索装置が不適合塩基組入力部 1501を有している構成となつ ている。
[0075] 「不適合塩基組入力部」 1501は、適合しない塩基の組を指定する。例えば適合し ないと判断するべき塩基のペアを示すテキスト情報を入力する。あるいは、適合と判 断するべき塩基のペア (例えば、 Gと U)を入力することにより、間接的に適合しないと 判断するべき塩基の組が指定されるようになって 、てもよ 、。
[0076] 本実施形態においては、不適合塩基組入力部 1501に入力された塩基の組に基 づいて検索部で検索が行なわれ、また、ノ、ミング距離が求められる。例えば、不適合 塩基組入力部 1501により入力された塩基の組に基づ 、て、置換塩基配列が置換塩 基配列生成部 406で生成され、検索部 407では検索のためのデータベースが選択 され、判定部 1402でハミング距離が求められる。
[0077] (実施形態 5:主な効果)
本実施形態によれば、例えば、 Gと Uのように弱いながらも結合する可能性のある 塩基の組合せを考慮することができ、より正確な塩基配列の設計を行なうことが可能 となる。
[0078] (実施形態 6:主に請求項 6につ 、て説明する)
[0079] 本発明の実施形態 6として、入力塩基配列と類似塩基配列との塩基の適合の分布 を指定することができる塩基配列検索装置について説明する。
[0080] (実施形態 6 :構成)
図 16は、本発明の実施形態 6に係る塩基配列検索装置の機能ブロック図を例示す る。塩基配列検索装置 1600は、塩基配列入力部 401と、ハミング距離入力部 402と 、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、類似候補塩基配列取得部 1401と、判定部 1402と、適合分布入力部 1601 と、を有しており、判定部 1402は、判定手段 1602を有している。また、塩基配列検 索装置 1600は、実施形態 5にて説明した不適合塩基組入力部を有していてもよい。 したがって、本実施形態に係る塩基配列検索装置は、実施形態 4または 5に係る塩 基配列検索装置が、適合分布入力部 1601を有し、判定部 1402は、判定手段 160 2を有して 、る構成となって!/、る。
[0081] 「適合分布入力部」 1601は、塩基配列入力部 401に入力された塩基配列と類似塩 基配列との対応する塩基の適合の分布を表わす分布情報を入力する。分布情報の 例としては、 5'端側の方に塩基の不適合の発生が少ない、あるいは、多い、塩基の 不適合がほぼ等間隔で発生していることを示す情報がある。分布情報は、例えば、 塩基の適合の分布を判定するプログラムであってもよい。あるいは、あら力じめ塩基 の適合の分布の類型をいくつか決めておき、それらを選択するための情報であって ちょい。
[0082] 「分布判定手段」 1602は、適合分布入力部 1602で入力された分布情報が満たさ れて 、るかどうかを判定する。
[0083] 判定部 1402は、例えば、類似塩基配列とともに、分布判定手段での判定の結果を 表示するようになって 、てもよ 、。
[0084] (実施形態 6:主な効果)
本実施形態により、より正確な塩基配列の設計を行なうことが可能となる。
[0085] (実施形態 7:主に請求項 7につ 、て説明する)
[0086] 本発明の実施形態 7に係る塩基配列検索装置は、実施形態 6に係る塩基配列検 索装置において、適合分布入力部 1601で入力される分布情報を、塩基配列と類似 塩基配列との対応する塩基が連続して適合する長さの下限としたものである。
[0087] 2つの塩基配列において、対応する塩基に不適合となるものがあっても、対応する 塩基が連続して適合していると、結合 (ハイブリダィズ)してしまう場合がある。本実施 形態においては、塩基が連続して適合する長さの下限を指定することにより、結合し てしまう可能性のある類似塩基配列を検出するようにしたものである。
[0088] (実施形態 8:主に請求項 8につ 、て説明する)
[0089] 本発明の実施形態 8は、実施形態 1から 7のいずれか一の実施形態において、塩 基配列入力部に入力される塩基配列の長さを 15から 60まで、望ましくは 15から 25ま でとし、所定長を 11から 14とした実施形態である。
[0090] 塩基配列入力部に入力される塩基配列の長さを 15から 60まで、望ましくは 15から 25までとすることにより、本実施形態に係る塩基配列検索装置を siRNAの設計に適 したものとすることができる。また、発明者がベンチマークテストに用いたデータべ一 スでは、入力塩基配列の長さが 19または 20のときには、所定長を 11から 14とした場 合が、最も高速に検索が行なえた。これは、所定長が小さいと、類似候補塩基配列 の候補の数が多くなり、一方、所定長を大きくすると、置換塩基配列生成部での置換 塩基配列の生成に計算量が必要となるとともに、索引を構成するノ、ッシュテーブルに 対して問い合わせを行なった際のミスヒットが増加する、すなわち、もともとのデータべ ース中に存在しない配列を問い合わせすることになる場合が増え、計算量が増加す るためためであり、その中間点が、所定長が 11から 14である場合と考えられる。また 、塩基配列入力部に入力される塩基配列の長さは、 19または 20に限定されることな く、 15から 60までは実用的に検索を行なうことができることが確認できた。なお、 61 以上になると急激にパフォーマンスの低下などが発生し実用に堪えなくなるというわ けではなぐ入力される塩基配列の長さが大きくなるにつれて徐々にパフォーマンス が低下することが確認された。したがって、 60程度の長さのオリゴ DNAの配列の決 定にも本発明は使用することができることが確認できている。
[0091] (実施形態 9:主に請求項 10、 11につ 、て説明する)
[0092] 以上、データベースに格納された遺伝子塩基配列に対する検索について述べたが 、本発明の技術は、遺伝子塩基配列に限らず、一般の文字列検索などに応用するこ とができる。すなわち、遺伝子塩基配列は、 4つの塩基が一次元に配列したものであ るので、それぞれの塩基を、文字列を構成するアルファベットとみなすことにより、遺 伝子塩基配列を文字列とみなすことができる。また、上記の説明から判明するように、 塩基の数力 である点は、本発明の技術を一般の文字列に対して適用する制限とは ならない。
[0093] したがって、本発明の技術により、データベースに蓄積された文字列から、入力さ れた文字列に類似する文字列を検索することが可能となる。ここに「類似する」とは、 入力された文字列力 所定のハミング距離となる文字列、または入力された文字列 力 所定のハミング距離未満となる文字列を意味する。
[0094] したがって、次の文字列検索装置が提供される。すなわち、アルファベットが一次 元に配列した文字列を格納したデータベースを検索するための索引であり、所定の 長さである所定長の文字列が前記データベースに格納された文字列の中に出現す る位置を検索するための索引、を用いて、入力される文字列と同じ長さで類似する文 字列であり前記前記データベースに格納された文字列に出現する文字列である類 似文字列を検索するための文字列検索装置であって、前記所定長を超える長さの文 字列を入力する文字列入力部と、前記文字列入力部に入力された文字列である入 力文字列に対して、適合しな 、アルファベットへの置換の操作を行なうアルファベット の個数を示すハミング距離を入力するハミング距離入力部と、前記入力文字列の部 分文字列であって、前記所定長の長さを持ち異なる 2つの部分文字列と、その余の 部分と、を特定する特定部と、前記特定部で特定された部分文字列とその余の部分 とに、前記ノ、ミング距離入力部で入力されたハミング距離を分割して割り当てる割当 部と、前記特定部で特定された 2つの部分文字列のうち、前記割当部で割り当てられ たハミング距離で示される個数のアルファベットを適合しないアルファベットへ置換す る操作を前記部分文字列に対して行なって生成される文字列である置換文字列の 総数が大きくない方を選択する選択部と、前記選択部により選択された部分文字列 に対して、前記割当部で割り当てられたハミング距離をもつ置換文字列を生成する 置換文字列生成部と、前記置換文字列生成部で生成された置換文字列を検索キー として前記索引を用いて検索を行なう検索部と、を有する文字列検索装置を提供す ることが可能となる。
[0095] また、文字列のアルファベットをペプチドとすることにより、本発明の技術をペプチド 配列の類似検索、すなわち、入力されたペプチド配列に類似のペプチドを検索する ことにち使用することがでさる。
[0096] (実施形態 10 :主に請求項 12について説明する)
[0097] 本発明の実施形態 10として、実施形態 1から 8のいずれかの塩基配列検索装置に ついて、リピート配列の検索について改良を行なった実施形態について説明する。
[0098] (実施形態 10 :構成) 図 19は、本発明の実施形態 10に係る塩基配列検索装置の機能ブロック図を例示 する。本実施形態に係る塩基配列検索装置は、実施形態 1から 8のいずれかの塩基 配列検索装置が、リピート配列蓄積部 1901と、リピート配列情報蓄積部 1902と、を 有し、検索部 407が、リピート配列判定手段 1903と、リピート配列検索手段 1904と、 を有する構成となっている。図 19は、実施形態 1に係る塩基配列検索装置が、これら の部、手段を有する場合の機能ブロック図である。
[0099] 「リピート配列蓄積部」 1901は、遺伝子塩基配列中に繰り返して出現する前記所定 長の塩基配列を蓄積する。「前記所定長」とは、塩基配列検索装置が用いる索引に よって定まる値であり、塩基配列が遺伝子塩基配列のどの位置に現れるかをその索 引により検索できるような塩基配列の長さである。
[0100] 遺伝子塩基配列の中に同じ塩基配列が複数回出現することが知られており、塩基 配列によっては、その塩基配列の種類は少ないが、膨大な回数にのぼって遺伝子塩 基配列に出現することが知られている。もし、置換塩基配列生成部 406で生成される 置換塩基配列がこのような膨大な回数にのぼって遺伝子塩基配列に出現すると、実 施形態 1から 8の塩基配列検索装置の行なう処理の効率を低下させる。そこで、本実 施形態では、置換塩基配列生成部 406で生成される置換塩基配列が、遺伝子塩基 配列中に繰り返して出現する場合を特別に扱うことにする。このために、まず、遺伝 子塩基配列中に繰り返して出現する塩基配列をリピート配列蓄積部 1901に蓄積す る。
[0101] 図 20は、遺伝子塩基配列中に繰り返して出現する塩基配列を表に格納した状態を 例示する。遺伝子塩基配列中に繰り返して出現する塩基配列を一意に識別する識 別子とその塩基配列を同じ行に格納することにより、識別子と塩基配列を関連づけて 表に格納している。
[0102] 「リピート配列情報蓄積部」 1902は、リピート配列情報を蓄積する。リピート配列情 報とは、リピート配列蓄積部 1901に蓄積された塩基配列に、その塩基配列の遺伝子 配列中における出現位置を関連付けた情報である。
[0103] 図 21は、リピート配列情報を蓄積するための表を例示する。この表では、図 20の表 で使用されている識別子と、塩基配列が遺伝子塩基配列の中に出現する位置と、を 同じ行に格納することにより、関連づけを行なっている。「リピート配列識別子」という 名前の列には、識別子が格納され、「出現位置」という名前の列には、塩基配列が遺 伝子塩基配列の中に出現する位置が格納されて 、る。
[0104] 「リピート配列判定手段」 1903は、置換塩基配列生成部 406で生成された置換塩 基配列が、リピート配列蓄積部 1901に蓄積されているかどうかを判定する。例えば、 図 20の表の「リピート配列」という名前の列に、置換塩基配列が格納されているかどう かを調べる。この処理は、キーとして「リピート配列」という名前の列に格納されている 塩基配列を持ち、バリューとして「リピート配列識別子」という名前の列に格納されて いる識別子を持つ索引(例えば、 B+木により構成されるもの)を用いることにより、高 速に行なうことができる。なお、リピート配列判定手段 1903により、リピート配列蓄積 部 1901に蓄積されていると判定される塩基配列をリピート配列と呼ぶことにする。
[0105] 「リピート配列検索手段」 1904は、リピート配列判定手段 1903にて、置換塩基配列 力 Sリピート配列蓄積部 1901に蓄積されていると判定された場合には、リピート配列情 報蓄積部 1902に蓄積されたリピート配列情報に基づいて検索を行なう。例えば、図 20の表よりリピート配列識別子という列に格納されている識別子を得て、図 21の表よ り出現位置を求め、遺伝子塩基配列におけるその出現位置の前後の塩基配列を取 得して、その塩基配列が入力塩基配列と所定のハミング距離以下であるかどうかの 判断を行なうなどして検索を行なう。
[0106] (実施形態 10 :処理の流れ)
図 22は、本実施形態に係る図 19の塩基配列検索装置の検索部での処理の流れ を説明するフローチャートを例示する。ステップ S2201において、リピート配列判定 手段により、置換塩基配列がリピート配列であるかどうかを判定する。もし、リピート配 列である場合 (すなわち、ステップ S2201において YESに分岐する場合)ならば、処 理をステップ S2202へ進め、リピート配列検索手段 1904により、リピート配列情報に 基づいて検索を行なう。もし、リピート配列でない場合 (すなわち、ステップ S2201に おいて NOへ分岐する場合)ならば、ステップ S2203へ処理を進め、実施形態 1ない し 8による類似塩基配列の検索を行なう。また、リピート配列である場合ならば検索を 行なわず、リピート配列でな 、と判断された場合のみ検索することも可能である。 [0107] (実施形態 10:主な効果)
本実施形態では、置換塩基配列がリピート配列である場合には、リピート配列用の 検索処理を行なうことにより、リピート配列による検索スピードの低下を防止することが できる。
[0108] (実施形態 11 :主に請求項 13について説明する)
[0109] 本発明の実施形態 11として、類似塩基配列の検索結果を蓄積する塩基配列検索 装置について説明する。
[0110] (実施形態 11 :構成)
図 23は、本発明の実施形態 11に係る塩基配列検索装置の機能ブロック図を例示 する。本実施形態に係る塩基配列検索装置は、実施形態 4から 7のいずれかの塩基 配列検索装置が、類似塩基配列蓄積部 2301を有する構成となっている。図 23は、 実施形態 4に係る塩基配列検索装置が、類似塩基配列蓄積部 2301を有する場合 の機能ブロック図である。
[0111] 「類似塩基配列蓄積部」 2301は、判定部 1402にて、入力塩基配列と、類似候補 塩基配列取得部 1401により取得された類似塩基配列と、のハミング距離力 Sハミング 距離入力部 402に入力されたハミング距離以下であると判定された場合、 (1)その入 力塩基配列と、(2)その入力塩基配列とその類似塩基配列とのハミング距離と、 (3) その類似塩基配列と、を関連付けて蓄積する。
[0112] 図 24は、(1)入力塩基配列と、(2)その入力塩基配列とその類似塩基配列とのハミ ング距離と、(3)その類似塩基配列と、を関連付けて蓄積するための表の構造を例 示する。「入力塩基配列」、「ハミング距離」、「類似塩基配列」という名前のそれぞれ の列に、(1)入力塩基配列と、(2)その入力塩基配列とその類似塩基配列とのハミン グ距離と、(3)その類似塩基配列と、が格納される。
[0113] (実施形態 11 :処理の流れ)
図 25は、本実施形態に係る塩基配列検索装置の判定部と類似塩基配列蓄積部と の処理の流れを説明するフローチャートを例示する。ステップ S2501において、判定 部により、入力塩基配列と類似塩基配列とのハミング距離が入力されたハミング距離 であるかどうかを判定する。もし、そうであれば、ステップ S2501の YESの枝へ分岐し 、ステップ S2502において、類似塩基配列蓄積部 2301に、(1)入力塩基配列と、 (2 )ハミング距離と、(3)類似塩基配列と、を関連付けて蓄積する。ステップ S2501で N Oの枝へ分岐する場合には、ステップ S2502は実行しない。
[0114] (実施形態 11:主な効果)
本実施形態では、塩基配列検索装置の検索結果が類似塩基配列蓄積部 2301に 蓄積されるので、もし、既に検索対象と同じ入力塩基配列と同じハミング距離とに対し て検索が行なわれているかどうかを、類似塩基配列蓄積部 2301に蓄積された情報 を検索して判断することにより、類似塩基配列の検索を効率よく行なうことができる。 本実施形態に係る塩基配列検索装置は、例えば、インターネットなどにより検索のサ 一ビスを多数の人に提供する場合に特に有用である。例えば、第一の人が検索を行 ないその後、第二の人が同じ検索を行なった場合、第二の人には、第一の人に対し て提供した検索の結果を流用することにより、応答時間の短縮や、塩基配列検索装 置の負荷の低減を行なうことができる。
[0115] (実施形態 12 :主に請求項 14について説明する)
[0116] 本発明の実施形態 12として、会合率を計算する塩基配列検索装置について説明 する。ここに「会合率」とは、 2種類の塩基配列を液体の中などの流動性のある環境下 に置 ヽた場合、どれだけの割合でその 2種類の塩基配列が結合するかを示す値であ る。このような値は、塩基配列より物理化学的な計算を行なうことにより計算することが できる。例えば、上記の非特許文献 1として挙げた文献にその計算方法が開示され ている。
[0117] (実施形態 12 :構成)
図 26は、本発明の実施形態 12に係る塩基配列検索装置の機能ブロック図を例示 する。本実施形態に係る塩基配列検索装置は、実施形態 4から 7のいずれかの塩基 配列検索装置が、会合率計算部 2601を有する構成となっている。図 26は、実施形 態 4に係る塩基配列検索装置が、会合率計算部 2601を有する場合の機能ブロック 図である。
[0118] 「会合率計算部」 2601は、類似候補塩基配列取得部 1401により取得された類似 候補塩基配列と塩基配列入力部 401により入力された入力塩基配列とのハミング距 離カ 、ミング距離入力部 402に入力されたハミング距離以下であると判定された場 合に、 (1)塩基配列入力部 401により入力された入力塩基配列と (2)類似候補塩基 配列取得部 1401で取得された類似候補塩基配列との会合率を計算する。例えば、 液体の温度、 pHなどの条件を設定しておき、その条件での会合率を物理化学的に 計算する。なお、会合率を計算する場合には、入力塩基配列を構成する塩基または 類似候補塩基配列を構成する塩基を相補的な塩基に置換する。
[0119] (実施形態 12 :主な効果)
本発明の塩基配列検索装置では、入力塩基配列とハミング距離が所定の値以下 の塩基配列を効率よく検索することができ、しかも、実際にウエット実験を行なった場 合にどれだけの会合率となるかを得ることができ、実験結果や RNA干渉を用いた薬 の効果の予測などを行なうことができる。
[0120] (実施形態 13 :主に請求項 15について説明する)
[0121] 本発明の実施形態 13として、ウエット実験などでコントロールとして用いることができ る塩基配列を検索する装置について説明する。
[0122] (実施形態 13 :構成)
図 27は、本発明の実施形態 13に係る無効果塩基配列生成装置の機能ブロック図 を例示する。無効果塩基配列生成装置 2700は、塩基配列取得部 2701と、無効果 候補置換塩基配列生成部 2702と、無効果候補置換塩基配列入力部 2703と、第二 ノ、ミング距離入力部 2704と、選択部 2705と、を有する。
[0123] 「塩基配列取得部」 2701は、前記所定長を超える長さの塩基配列を取得する。「前 記所定長」とは、実施形態 10で説明したように、実施形態 4から 7のいずれかに係る 塩基配列検索装置が用いる索引によって定まる値であり、塩基配列が遺伝子塩基配 列のどの位置に現れるかをその索引により検索できるような塩基配列の長さである。 塩基配列取得部は、例えば、通信網を介してクライアント装置と接続され、そのクライ アント装置で動作する WEBブラウザなどに入力された塩基配列を取得する。塩基配 列取得部 2701が取得する塩基配列は、例えば、目的とする mRNAの機能をさせな V、ことが判明した塩基配列である。
[0124] 「無効果候補置換塩基配列生成部」 2702は、無効果候補置換塩基配列を生成す る。「無効果候補置換塩基配列」とは、塩基配列取得部で取得された塩基配列の塩 基のうち、所定の個数の塩基を置換して得られる塩基配列である。例えば、塩基配列 の長さが 21であり、所定の個数が 3であれば、(4 I) 3 Cの個数の無効果候補置
21 3
換塩基配列を生成する(「4—1」の 4は、塩基の種類力 であることを示す)。また、全 ての無効果候補置換塩基配列するのではなぐ特別な知見に基づいて目的とする m RNAの塩基配列と会合率が低くなると予測される塩基配列を生成するようにしてもよ い。また、出現回数の少ない配列を用いて無効化候補置換塩基配列を生成するよう にしてもよい。
[0125] 「無効果候補置換塩基配列入力部」 2703は、無効果候補置換塩基配列生成部 2 702で生成された無効果候補置換塩基配列を実施形態 12に係る塩基配列検索装 置 2706に入力する。例えば、無効果塩基配列生成装置と実施形態 12に係る塩基 配列検索装置とが LANなどで接続されていれば、実施形態 12に係る塩基配列検索 装置へ向けて無効果候補置換塩基配列を表わす情報を送信する。
[0126] 「第二ノヽミング距離入力部」 2704は、無効果候補置換塩基配列入力部 2703が無 効果候補置換塩基配列を入力した塩基配列検索装置 2706に所定のハミング距離 を入力する。例えば、無効果候補置換塩基配列入力部 2703が無効果候補置換塩 基配列を入力するときに所定のハミング距離を入力する。
[0127] 「選択部」 2705は、無効果候補置換塩基配列入力部の入力と第二ハミング距離入 力部 2704の入力とにより塩基配列検索装置 2706より得られた会合率の低い塩基 配列を選択する。例えば、ある無効果候補置換塩基配列とそれに類似する類似塩基 配列との会合率が 50%であり、別の無効果候補置換塩基配列とそれに類似する類 似塩基配列との会合率が 10%であれば、後者の無効果候補置換塩基配列を選択し 、効果の無 、塩基配列として無効果塩基配列生成装置の利用者に表示などする。
[0128] (実施形態 13 :処理の流れ)
図 28は、本実施形態に係る無効果塩基配列生成装置の処理の流れを説明するフ ローチャートを例示する。ステップ S2801において、塩基配列を、塩基配列取得部 2 701により取得する。ステップ S2802において、無効果候補置換塩基配列を、無効 果候補置換塩基配列生成部 2702により生成する。ステップ S2803において、塩基 配列検索装置 2706に、無効果候補置換塩基配列と所定のハミング距離を入力する 。ステップ S2803は、個々の無効果候補置換塩基配列に対して一回ずつ行なわれ、 個々の無効果候補置換塩基配列に対して会合率が取得される。ステップ S2804に おいては、会合率の低い無効果候補置換塩基配列を、選択部 2705により選択する
[0129] (実施形態 13:主な効果)
本実施形態により、与えられた塩基配列に似た塩基配列であって、会合率の低い ものを選択することができる。選択により得られた塩基配列は、効果のない塩基配列 と推定されるので、ウエット実験におけるコントロールなどとして用いることができる。
[0130] (実施形態 14 :主に請求項 16について説明する)
[0131] 本発明の実施形態 14として、本発明の塩基配列検索装置を用いた塩基配列のァ ラインメントを行なう装置について説明する。
[0132] 図 29は、本発明の実施形態 14における装置による処理の概要を説明するための 図である。遺伝子塩基配列 2901があるとして、この配列のどの部分に、塩基配列 29 02と似た塩基配列が存在するかを知りたいとする。この場合において、塩基配列 29 02の部分配列 2903を得る。部分配列 2903の長さは、本発明の塩基配列検索装置 に適した長さであり、望ましくは 15から 25である。そして、本発明の塩基配列検索装 置を用いて、部分配列 2903の類似塩基配列 2904を遺伝子塩基配列 2901の中に 見つける。その後、部分配列 2903と類似塩基配列 2904との前後の塩基の配列を、 ダイナミックプログラミングなどによる従来知られている手法を用いて、比較する。この ような操作により、遺伝子塩基配列 2901のどの部分に塩基配列 2902と似た塩基配 列が存在する力を効率良く知ることができる。
[0133] (実施形態 14 :構成)
図 30は、本発明の実施形態 14に係る塩基配列アラインメント装置の機能ブロック 図を例示する。塩基配列アラインメント装置 3000は、第二塩基配列取得部 3001と、 部分塩基配列選択部 3002と、部分塩基配列入力部 3003と、第三ハミング距離入 力部 3004と、アラインメント部 3005と、を有する。
[0134] 「第二塩基配列取得部」 3001は、前記所定の長さを超える塩基配列を取得する。 [0135] 「部分塩基配列選択部」 3002は、第二塩基配列取得部 3001で取得された塩基配 列の一部分である部分塩基配列を選択する。例えば、第二塩基配列取得部 3001で 取得された塩基配列から長さが 15から 25の長さの塩基配列を選択する。取得される 部分塩基配列は、実施形態 12で説明したリピート配列にならないのが望ましい。な ぜなら、アラインメントの候補が多数発見されてしまい後に説明するステップ S3104 を多くの回数実行しなければいけなくなるからである。そのため、実施形態 12のよう に、リピート配列蓄積部が塩基配列アラインメント装置に備わっており、そのリピート配 列蓄積部に蓄積された内容を参照して、部分塩基配列が取得されるようになってい てもよい。
[0136] 「部分塩基配列入力部」 3003は、部分塩基配列選択部で選択された部分塩基配 列を実施形態 4から 8のいずれかに係る塩基配列検索装置 3006に入力する。
[0137] 「第三ノ、ミング距離入力部」 3004は、所定のハミング距離を部分塩基配列入力部 が部分塩基配列を入力した塩基配列検索装置 3006に入力する。部分塩基配列入 力部 3003と第三ハミング距離入力部 3004とによるそれぞれの入力により、部分塩 基配列の類似塩基配列が求まり、遺伝子塩基配列中での位置が求まる。
[0138] 「アラインメント部」 3005は、部分塩基配列入力部 3003による入力と第三ハミング 距離入力部 3004による入力とが行われることによって塩基配列検索装置 3006より 得られた検索の結果に基づ 、て、第二塩基配列取得部 3001により取得された塩基 配列を遺伝子塩基配列にアラインメントする。例えば、部分塩基配列が符号 2903で 示される部分であるとして、部分塩基配列の類似塩基配列が符号 2904で示される 部分であることが、塩基配列検索装置 3006により判明したとすると、符号 2904で示 される塩基配列の前後の塩基配列と、符号 2902で示される塩基配列がどの程度似 て!、るかを示すスコア値などを、ダイナミックプログラミングの手法などを用いて計算 する。
[0139] (実施形態 14 :処理の流れ)
図 31は、本実施形態に係る図 30の塩基配列アラインメント装置の処理の流れを説 明するフローチャートを例示する。ステップ S3101において、第二塩基配列取得部 3 001により、塩基配列を取得する。ステップ S3102において、部分塩基配列選択部 3 002において、部分塩基配列を選択する。ステップ S3103において、部分塩基配列 入力部 3003と第三ハミング距離入力部 3004とにより、部分塩基配列とハミング距離 を塩基配列検索装置 3006へ入力する。ステップ S3104により、塩基配列検索装置 3006による検索の結果に基づいて塩基配列を遺伝子塩基配列にアラインメントする 。ステップ S3104は、ステップ S3103で得られた検索の結果だけ繰り返して実行され る。
[0140] (実施形態 14:主な効果)
従来のアラインメントの手法では、 BLASTなどが用いられていた力 BLASTなど を用いると、例えば連続する 7merがー致する塩基配列の検索を行なって類似する 塩基配列が遺伝子塩基配列のどこに出現するかを求めることになるので、ァラインメ ントを正確に行なうことが困難な場合があった。本発明では、部分塩基配列の類似塩 基配列を検索するので、より正確なアラインメントを行なうことができる。
産業上の利用可能性
[0141] 本発明に係る塩基配列検索装置及び塩基配列検索方法は、検索のために必要と なる計算量を小さくすることができ、また、ノ、ミング距離が所定の値以下となり、すなわ ち、似た塩基配列の存在を見落とすことも無いので、塩基配列などの設計に有用で ある。例えば、本発明に係る塩基配列検索装置及び塩基配列検索方法を、 siRNA の塩基配列設計に適用した場合、特に、 RNA干渉 (RNAi)効果の高い siRNAを設 計可能とする種々の所定ガイドライン (具体的には、 Ui-Teiらによるガイドライン Ui-Tei, ., Naito'Y., Takahasni. ., Haraguchi.T., Ohki— Hamazaki'H., Juni'A., Ueda'R. and Saigo.K., 'Guidelines for the selection of hignly effective siRNA sequences for mammalian and chick RNA interference', Nucleic Adas Research, 2004, Vol. 32, No.3, 936-948等)と組み合わせて適用した場合に、作業に要する時 間の短縮及び適切な設計の点から、より有効である。
図面の簡単な説明
[0142] [図 1]RNA干渉の過程の概略を示す図
[図 2]マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を説明するための 図 [図 3]BLASTで見落とされる可能性のある塩基配列を説明するための図
圆 4]本発明の実施形態 1に係る塩基配列検索装置の機能ブロック図
[図 5]ハミング距離が 3の塩基配列の一例図
圆 6]ハミング距離の定義を示す図
[図 7]特定される 2つの部分配列とその余の部分との一例図
圆 8]ノ、ミング距離の割り振りを説明するための図
圆 9]割当部によるハミング距離の割り振りと選択部による選択を説明するための図 圆 10]割当部によるハミング距離の割り振りと選択部による選択を説明するための図 圆 11]本発明の実施形態 1に係る塩基配列検索装置の処理の流れ図
圆 12]本発明の実施形態 2に係る塩基配列検索装置の機能ブロック図
圆 13]本発明の実施形態 3に係る塩基配列検索装置の機能ブロック図
圆 14]本発明の実施形態 4に係る塩基配列検索装置の機能ブロック図
圆 15]本発明の実施形態 5に係る塩基配列検索装置の機能ブロック図
圆 16]本発明の実施形態 6に係る塩基配列検索装置の機能ブロック図
[図 17]ノ、ミング距離を分割して割り当てるプログラムの一例図
圆 18]置換塩基配列を生成するプログラムの一例図
圆 19]本発明の実施形態 10に係る塩基配列検索装置の機能ブロック図
[図 20]リピート配列を格納する表の一例図
圆 21]リピート配列情報を蓄積するための表の一例図
[図 22]本発明の実施形態 10に係る塩基配列検索装置の検索部の処理のフローチヤ ート
圆 23]本発明の実施形態 11に係る塩基配列検索装置の機能ブロック図
圆 24]入力塩基配列とハミング距離と類似塩基配列とを関連付けて蓄積するための 表の構造図
圆 25]本発明の実施形態 11に係る塩基配列検索装置の判定部と類似塩基配列蓄 積部との処理のフローチャート
圆 26]本発明の実施形態 12に係る塩基配列検索装置の機能ブロック図
圆 27]本発明の実施形態 13に係る無効果塩基配列生成装置の機能ブロック図 [図 28]本発明の実施形態 13に係る無効果塩基配列生成装置の処理のフローチヤ一 卜
[図 29]本発明の実施形態 14における装置による処理の概要図
[図 30]本発明の実施形態 14に係る塩基配列アラインメント装置の機能ブロック図
[図 31]本発明の実施形態 14に係る塩基配列アラインメント装置の処理のフローチヤ ート
符号の説明
400 塩基配列検索装置
401 塩基配列入力部
402 ハミング距離入力部
403 特定部
404 割当部
405 選択部
406 置換塩基配列生成部
407 検索部

Claims

請求の範囲
[1] 遺伝子情報を表わす遺伝子塩基配列を格納したデータベースを検索するための 索引であり、所定の長さである所定長の塩基配列が前記遺伝子塩基配列の中に出 現する位置を検索するための索引、を用いて、入力される塩基配列と同じ長さで類 似する塩基配列であり前記遺伝子塩基配列に出現する塩基配列である類似塩基配 列を検索するための塩基配列検索装置であって、
前記所定長を超える長さの塩基配列を入力する塩基配列入力部と、
前記塩基配列入力部に入力された塩基配列である入力塩基配列に対して、適合し ない塩基への置換の操作を行なう塩基の個数を示すハミング距離を入力するハミン グ距離入力部と、
前記入力塩基配列の部分配列であって、前記所定長の長さを持ち異なる 2つの部 分配列と、その余の部分と、を特定する特定部と、
前記特定部で特定された部分配列とその余の部分とに、前記ハミング距離入力部 で入力されたハミング距離を分割して割り当てる割当部と、
前記特定部で特定された 2つの部分配列のうち、前記割当部で割り当てられたハミ ング距離で示される個数の塩基を適合しない塩基へ置換する操作を前記部分配列 に対して行なって生成される塩基配列である置換塩基配列の総数が大きくない方を 選択する選択部と、
前記選択部により選択された部分配列に対して、前記割当部で割り当てられたハミ ング距離をもつ置換塩基配列を生成する置換塩基配列生成部と、
前記置換塩基配列生成部で生成された置換塩基配列を検索キーとして前記索引 を用いて検索を行なう検索部と、
を有する塩基配列検索装置。
[2] 前記特定部は、
前記塩基配列入力部で入力された塩基配列の塩基数が前記所定長の 2倍以下ま たは 2倍未満であれば、前記 2つの部分配列のうちの一方の部分配列の端を前記入 力塩基配列の一方の端と一致させ、前記 2つの部分配列のうちの他方の部分配列の 端を前記入力塩基配列の他方の端と一致させ、その余の部分が生じず特定されな いことにする第一特定手段を有する請求項 1に記載の塩基配列検索装置。
[3] 前記特定部は、
前記塩基配列入力部で入力された塩基配列の塩基数が前記所定長の 2倍より大 であれば、前記 2つの部分配列が重ならな 、ことにして前記 2つの部分配列を特定 する第二特定手段を有する請求項 1または 2に記載の塩基配列検索装置。
[4] 前記検索部での検索結果に基づ!、て、前記置換塩基配列を含んで遺伝子塩基配 列に現れる塩基配列である類似候補塩基配列を取得する類似候補塩基配列取得 部と、
前記類似候補塩基配列取得部で取得された類似候補塩基配列と前記入力塩基配 列とのハミング距離が前記ハミング距離入力部に入力されたハミング距離と同じ、又 はそれ未満であるかどうかを判定する判定部と、
を有する請求項 1から 3のいずれか一に記載の塩基配列検索装置。
[5] 適合しな!ヽ塩基の組を指定する不適合塩基組入力部を有し、不適合塩基組入力 部に入力された塩基の組に基づいて、検索部で検索が行なわれ、また、ノ、ミング距 離が求められる請求項 4に記載の塩基配列検索装置。
[6] 前記塩基配列入力部に入力された塩基配列と類似塩基配列との対応する塩基の 適合の分布を表わす分布情報を入力する適合分布入力部を有し、
前記判定部は、前記適合分布入力部で入力された分布情報が満たされて!/ヽるかど うかを判定する分布判定手段を有する請求項 4または 5のいずれか一に記載の塩基 配列検索装置。
[7] 前記適合分布入力部で入力される分布情報は、塩基配列と類似塩基配列との対 応する塩基が連続して適合する長さの下限である請求項 6に記載の塩基配列検索 装置。
[8] 前記塩基配列入力部に入力される塩基配列の長さは 15から 60であり、前記所定 長は、 11から 14である請求項 1から 7のいずれか一に記載の塩基配列検索装置。
[9] 遺伝子情報を表わす遺伝子塩基配列を格納したデータベースを検索するための 索引であって、所定の長さである所定長の塩基配列が前記遺伝子塩基配列の中に 出現する位置を検索するための索引、を用いて、入力される塩基配列と同じ長さで 類似する塩基配列であり前記遺伝子塩基配列に出現する塩基配列である類似塩基 配列を検索するための塩基配列検索方法であって、
前記所定長を超えるの長さの塩基配列を入力する塩基配列入力ステップと、 前記塩基配列入力部に入力された塩基配列である入力塩基配列に対して、適合し ない塩基への置換の操作を行なう塩基の個数を示すハミング距離を入力するハミン グ距離入力ステップと、
前記入力塩基配列の部分配列であって、前記所定長の長さを持ち異なる 2つの部 分配列と、その余の部分と、を特定する特定ステップと、
前記特定ステップで特定された 2つの部分配列とその余の部分とに、前記ハミング 距離入力ステップにて入力されたハミング距離を分割して割り当てる割当ステップと、 前記特定ステップで特定された 2つの部分配列のうち、前記割当部で割り当てられ たハミング距離で示される個数の塩基を適合しない塩基へ置換する操作を前記部分 配列に対して行なって生成される塩基配列である置換塩基配列の総数が大きくない 方を選択する選択ステップと、
前記選択ステップにより選択された部分配列に対して、前記割当ステップにて割り 当てられたハミング距離をもつ置換塩基配列を生成する置換塩基配列生成ステップ と、
前記置換塩基配列生成ステップで生成された部分配列を検索キーとして前記索引 を用いて検索を行なう検索ステップと、
を含む塩基配列検索方法。
アルファベットが一次元に配列した文字列を格納したデータベースを検索するため の索引であり、所定の長さである所定長の文字列が前記データベースに格納された 文字列の中に出現する位置を検索するための索引、を用いて、入力される文字列と 同じ長さで類似する文字列であり前記前記データベースに格納された文字列に出現 する文字列である類似文字列を検索するための文字列検索装置であって、
前記所定長を超える長さの文字列を入力する文字列入力部と、
前記文字列入力部に入力された文字列である入力文字列に対して、適合しな 、ァ ルファベットへの置換の操作を行なうアルファベットの個数を示すハミング距離を入力 するハミング距離入力部と、
前記入力文字列の部分文字列であって、前記所定長の長さを持ち異なる 2つの部 分文字列と、その余の部分と、を特定する特定部と、
前記特定部で特定された部分文字列とその余の部分とに、前記ハミング距離入力 部で入力されたハミング距離を分割して割り当てる割当部と、
前記特定部で特定された 2つの部分文字列のうち、前記割当部で割り当てられた ノ、ミング距離で示される個数のアルファベットを適合しないアルファベットへ置換する 操作を前記部分文字列に対して行なって生成される文字列である置換文字列の総 数が大きくない方を選択する選択部と、
前記選択部により選択された部分文字列に対して、前記割当部で割り当てられた ノ、ミング距離をもつ置換文字列を生成する置換文字列生成部と、
前記置換文字列生成部で生成された置換文字列を検索キーとして前記索引を用 いて検索を行なう検索部と、
を有する文字列検索装置。
[11] 前記文字列は、ペプチド配列である請求項 10に記載の文字列検索装置。
[12] 遺伝子塩基配列中に繰り返して出現する前記所定長の塩基配列を蓄積するリビー ト配列蓄積部と、
前記リピート配列蓄積部に蓄積された塩基配列に、その塩基配列の前記遺伝子塩 基配列中における出現位置を関連付けた情報であるリピート配列情報を蓄積するリ ピート配列情報蓄積部と、
を有し、
前記検索部は、
前記置換塩基配列が前記リピート配列蓄積部に蓄積されているかどうかを判定す るリピート配列判定手段と、
前記リピート配列判定手段にて前記置換塩基配列が前記リピート配列蓄積部に蓄 積されていると判定された場合には、前記リピート配列情報蓄積部に蓄積されたリピ ート配列情報に基づいて検索を行なうリピート配列検索手段と、
を有する請求項 1から 8のいずれか一に記載の塩基配列検索装置。 [13] 前記判定部にて、前記入力塩基配列と、前記類似候補塩基配列取得部により取得 された類似候補塩基配列と、のハミング距離が前記ハミング距離入力部に入力され たハミング距離以下であると判定された場合に、前記入力塩基配列と、前記入力塩 基配列と前記類似塩基配列とのハミング距離と、前記類似候補塩基配列と、を関連 付けて蓄積する類似塩基配列蓄積部を有する請求項 4から 7のいずれか一に記載の 塩基配列検索装置。
[14] 前記判定部にて、前記類似候補塩基配列取得部により取得された類似候補塩基 配列と前記入力塩基配列とのハミング距離が前記ハミング距離入力部に入力された ハミング距離以下であると判定された場合に、前記塩基配列入力部により入力された 塩基配列と前記類似候補塩基配列取得部で取得された類似候補塩基配列の会合 率を計算する会合率計算部
を有する請求項 4力 7のいずれか一に記載の塩基配列検索装置。
[15] 前記所定長を超える長さの塩基配列を取得する塩基配列取得部と、
前記塩基配列取得部で取得された塩基配列の塩基のうち、所定の個数の塩基を 置換して得られる塩基配列である無効果候補置換塩基配列を生成する無効果候補 置換塩基配列生成部と、
前記無効果候補置換塩基配列生成部で生成された無効果候補置換塩基配列を 請求項 14に記載の塩基配列検索装置に入力する無効果候補置換塩基配列入力部 と、
所定のハミング距離を前記無効果候補置換塩基配列入力部が無効果候補置換塩 基配列を入力した塩基配列検索装置に入力する第二ハミング距離入力部と、 前記無効果候補置換塩基配列生成部で生成された無効果候補置換塩基配列の 中から、前記無効果候補置換塩基配列入力部による入力と前記第二ハミング距離入 力部による入力とによって前記塩基配列検索装置より得られた会合率の低い塩基配 列を選択する選択部と、
を備える無効果塩基配列生成装置。
[16] 前記所定長を超える長さの塩基配列を取得する第二塩基配列取得部と、
前記第二塩基配列取得部で取得された塩基配列の一部分である部分塩基配列を 選択する部分塩基配列選択部と、
前記部分塩基配列選択部で選択された部分塩基配列を請求項 4から 8のいずれか 一に記載の塩基配列検索装置に入力する部分塩基配列入力部と、
所定のハミング距離を前記部分塩基配列入力部が部分塩基配列を入力した塩基 配列検索装置に入力する第三ハミング距離入力部と、
前記部分塩基配列入力部による入力と前記第三ハミング距離入力部によるの入力 とによって前記塩基配列検索装置より得られた検索の結果に基づいて、前記第二塩 基配列取得部により取得された塩基配列を前記遺伝子塩基配列にアラインメントす るアラインメント部と、
を有する塩基配列アラインメント装置。
PCT/JP2005/006397 2004-03-31 2005-03-31 塩基配列検索装置及び塩基配列検索方法 WO2005096208A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006511830A JP4614949B2 (ja) 2004-03-31 2005-03-31 塩基配列検索装置及び塩基配列検索方法
US10/594,644 US20080263002A1 (en) 2004-03-31 2005-03-31 Base Sequence Retrieval Apparatus
EP05727509A EP1732022A4 (en) 2004-03-31 2005-03-31 APPARATUS FOR RECOVERING A BASIC SEQUENCE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-108456 2004-03-31
JP2004108456 2004-03-31

Publications (1)

Publication Number Publication Date
WO2005096208A1 true WO2005096208A1 (ja) 2005-10-13

Family

ID=35063999

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/006397 WO2005096208A1 (ja) 2004-03-31 2005-03-31 塩基配列検索装置及び塩基配列検索方法

Country Status (4)

Country Link
US (1) US20080263002A1 (ja)
EP (1) EP1732022A4 (ja)
JP (1) JP4614949B2 (ja)
WO (1) WO2005096208A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140071A (zh) * 2015-10-21 2018-06-08 相干逻辑公司 使用分级反向索引表的dna比对
US11222712B2 (en) 2017-05-12 2022-01-11 Noblis, Inc. Primer design using indexed genomic information
US11308056B2 (en) 2013-05-29 2022-04-19 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
WO2022244089A1 (ja) 2021-05-18 2022-11-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101482011B1 (ko) * 2012-10-29 2015-01-14 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법
KR101508816B1 (ko) * 2012-10-29 2015-04-07 삼성에스디에스 주식회사 염기 서열 정렬 시스템 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LI M. ET AL: "Finding Similar Regions In Many Strings.", PROC.ANNU. ACM SYMP. THEORY COMPUT., vol. 31, 1999, pages 473 - 482, XP002989474 *
NAVARRO G.A. ET AL: "Guided Tour to Approximate String Matching.", ACM COMPUTING SURVEYS., vol. 33, no. 1, 2001, pages 31 - 88, XP002235679 *
See also references of EP1732022A4 *
UI-TEI K. ET AL: "Guidelines for the selection of highly effective siRNA sequences for mammalian and chick RNA interference.", NUCLEIC ACIDS RESEARCH., vol. 32, no. 3, 9 February 2004 (2004-02-09), pages 936 - 948, XP002329955 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308056B2 (en) 2013-05-29 2022-04-19 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
CN108140071A (zh) * 2015-10-21 2018-06-08 相干逻辑公司 使用分级反向索引表的dna比对
JP2018535484A (ja) * 2015-10-21 2018-11-29 コーヒレント・ロジックス・インコーポレーテッド 階層的転置索引表を使用したdnaアラインメント
CN108140071B (zh) * 2015-10-21 2022-04-29 相干逻辑公司 使用分级反向索引表的dna比对
US11594301B2 (en) 2015-10-21 2023-02-28 Coherent Logix, Incorporated DNA alignment using a hierarchical inverted index table
US11222712B2 (en) 2017-05-12 2022-01-11 Noblis, Inc. Primer design using indexed genomic information
WO2022244089A1 (ja) 2021-05-18 2022-11-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
JPWO2005096208A1 (ja) 2008-02-21
EP1732022A4 (en) 2008-09-24
US20080263002A1 (en) 2008-10-23
EP1732022A1 (en) 2006-12-13
JP4614949B2 (ja) 2011-01-19

Similar Documents

Publication Publication Date Title
US8178503B2 (en) Ribonucleic acid interference molecules and binding sites derived by analyzing intergenic and intronic regions of genomes
Schbath et al. Mapping reads on a genomic sequence: an algorithmic overview and a practical comparative analysis
Heyne et al. GraphClust: alignment-free structural clustering of local RNA secondary structures
Grover et al. Searching microsatellites in DNA sequences: approaches used and tools developed
Rahn et al. Journaled string tree—a scalable data structure for analyzing thousands of similar genomes on your laptop
WO2005096208A1 (ja) 塩基配列検索装置及び塩基配列検索方法
Frid et al. A simple, practical and complete O-time Algorithm for RNA folding using the Four-Russians Speedup
Wang et al. A steganalysis-based approach to comprehensive identification and characterization of functional regulatory elements
US8065091B2 (en) Techniques for linking non-coding and gene-coding deoxyribonucleic acid sequences and applications thereof
Wienbrandt et al. Using the reconfigurable massively parallel architecture COPACOBANA 5000 for applications in bioinformatics
Frid et al. An improved Four-Russians method and sparsified Four-Russians algorithm for RNA folding
Subramaniyan et al. Accelerating maximal-exact-match seeding with enumerated radix trees
US20200265923A1 (en) Efficient Seeding For Read Alignment
JP2003256433A (ja) 遺伝子構造解析方法およびその装置
JP4991287B2 (ja) 特異的塩基配列探索方法
Martin et al. Fast and accurate genome-scale identification of DNA-binding sites
JP7393439B2 (ja) 遺伝子シークエンシングデータ処理方法及び遺伝子シークエンシングデータ処理装置
Biswas et al. PR2S2Clust: patched rna-seq read segments’ structure-oriented clustering
Aguena et al. A Survey on Solutions for Planted Motif Search Challenging Instances
Kamarudin et al. A Review of Bioinformatics Model and Computational Software of Next Generation Sequencing
WO2023021205A1 (en) Computer-implemented methods and systems for transcriptomics
Khan et al. AI and Genomes for Decisions Regarding the Expression of Genes
Chang et al. The application of alternative splicing graphs in quantitative analysis of alternative splicing form from EST database
Zhao et al. Identifying TF Binding Motifs from a Partial Set of Target Genes and its Application to Regulatory Network Inference
Sarje et al. Parallel algorithms for alignments on the cell be

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006511830

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 2005727509

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005727509

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10594644

Country of ref document: US