WO2014126213A1 - 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途 - Google Patents

類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途 Download PDF

Info

Publication number
WO2014126213A1
WO2014126213A1 PCT/JP2014/053516 JP2014053516W WO2014126213A1 WO 2014126213 A1 WO2014126213 A1 WO 2014126213A1 JP 2014053516 W JP2014053516 W JP 2014053516W WO 2014126213 A1 WO2014126213 A1 WO 2014126213A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence information
candidate
similar
group
sequence
Prior art date
Application number
PCT/JP2014/053516
Other languages
English (en)
French (fr)
Inventor
穣 秋冨
克紀 堀井
Original Assignee
Necソリューションイノベータ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Necソリューションイノベータ株式会社 filed Critical Necソリューションイノベータ株式会社
Priority to JP2015500317A priority Critical patent/JP6072890B2/ja
Priority to EP14752140.5A priority patent/EP2958038A1/en
Priority to US14/768,030 priority patent/US20150379197A1/en
Publication of WO2014126213A1 publication Critical patent/WO2014126213A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/13Applications; Uses in screening processes in a process of directed evolution, e.g. SELEX, acquiring a new function

Definitions

  • the present invention relates to determination of similarity between sequence information in a sequence information group, specifically, a candidate selection method for selecting candidate sequence information for similarity determination from sequence information, and a similar sequence information group from candidate sequence information.
  • the present invention relates to a similar selection method to be selected, a determination method for determining concentration of a target similar sequence information group, and apparatuses, programs, and recording media for executing these methods.
  • nucleic acid molecules called aptamers have been developed as binding molecules to targets instead of antibodies.
  • the aptamer is generally prepared by a SELEX (Systematic Evolution of Ligands by Exponential enrichment) method (Patent Document 1, Non-Patent Document 1).
  • SELEX Systematic Evolution of Ligands by Exponential enrichment
  • the contact between the nucleic acid library and the target and the amplification of the nucleic acid bound to the target are set as a single selection process, and a plurality of rounds are repeated. This enriches nucleic acid sequences that bind to the target in the round-by-round library from the initial library.
  • aptamer candidate groups for example, a plurality of nucleic acid sequences having a relatively high degree of enrichment in the library are selected as aptamer candidate groups, and further, by binding strength with the target, etc., finally binding to the target
  • the aptamer to be determined can be determined.
  • aptamer candidate groups can be selected according to the degree of enrichment in the library, and therefore the degree of enrichment needs to be evaluated in the SELEX method.
  • the evaluation of the degree of concentration is usually performed as follows. First, the nucleic acid sequence contained in each round library is decoded with a sequence. Then, the number of appearances of the same nucleic acid sequence in the library (hereinafter also referred to as the degree of duplication) is counted. The degree of concentration of each nucleic acid sequence is evaluated by increasing or decreasing the count number. For example, a multiplicity m n of the nucleic acid sequence X in the n-th round (R n), compared next round, i.e.
  • the library also includes completely the same nucleotide sequence for a certain nucleic acid sequence (hereinafter also referred to as an original sequence), but a similar nucleic acid sequence having a mismatch of about several bases with respect to the original sequence (Hereinafter also referred to as similar sequences).
  • the inventors of the present invention may have different binding strengths with the target, for example, but the characteristics of the target are the same as the original sequence. And has gained knowledge. For this reason, the evaluation of aptamers can be made more efficient by making the nucleic acid sequences that are similar to each other within an allowable range, instead of the classification of whether or not the nucleic acid sequences are completely identical, as the same sequence group.
  • an object of the present invention is to provide an apparatus, a method, a program, and a recording medium for easily determining similarity between sequence information.
  • the candidate selection device of the present invention comprises the following means (a), (b), (c) and (d):
  • This is a candidate selection device that selects a candidate sequence information group as a similar determination candidate.
  • (A) means for executing a step of counting the frequency of each virtual array information in the virtual array information group for each array information in the array information group;
  • (d) the similarity of the comparison target sequence information with respect to the comparison source sequence information is the similarity set in the virtual sequence information group Means for executing a step of selecting the comparison source sequence information and the comparison destination sequence information as a candidate sequence information group for determining similarity between the
  • the similarity selection apparatus of the present invention includes the following means (A) and (B), and the means (A) is a candidate selection apparatus of the present invention, and is similar to each other from the sequence information group: A similar selection device that selects similar sequence information groups.
  • means for executing a step of selecting similar sequence information as a similar sequence information group G3
  • the determination apparatus of the present invention comprises the following means (X) and (Y), wherein the means (X) is the similarity selection apparatus of the present invention, It is a determination device.
  • (X) Means for executing a step of selecting target sequence information and similar sequence information from the sequence information group as a target similar sequence information group
  • (Y) Similar to the target sequence information in the similar sequence information group Means for executing a step of determining the concentration of the similar sequence information group from the sum of the degree of overlap with the sequence information
  • the candidate selection method of the present invention includes the following steps (a), (b), (c), and (d), a candidate sequence that is a candidate for determining similarity between sequence information from a sequence information group This is a candidate selection method for selecting an information group.
  • A For each sequence information of the sequence information group, a step of counting the frequency of each virtual sequence information of the virtual sequence information group (b) From the sequence information group, the sequence information to be compared and the sequence information to be compared (C) The difference between the frequency of each virtual sequence information of the comparison source sequence information and the frequency of each virtual sequence information of the comparison target sequence information is determined as the comparison target sequence with respect to the comparison source sequence information.
  • a step of calculating as the similarity of information (d) When the similarity of the comparison target sequence information with respect to the comparison source sequence information satisfies the allowable condition of the similarity set in the virtual sequence information group, the comparison source sequence information and Selecting the comparison target sequence information as a candidate sequence information group for judging similarity between sequence information
  • the similar selection method of the present invention includes the following steps (A) and (B):
  • the step (A) includes the candidate selection method of the present invention, and is a similar selection method for selecting similar sequence information groups similar to each other from the sequence information group.
  • (A) a step of selecting a candidate sequence information group that is a candidate for determining similarity between sequence information from the sequence information group
  • (B) comparing each candidate sequence information of the candidate sequence information group with each other, the same and similar sequences Selecting information as a similar sequence information group (G3)
  • the determination method of the present invention includes the following steps (X) and (Y), wherein the step (X) includes the similar selection method of the present invention, This is a determination method.
  • (X) a step of selecting target sequence information and similar sequence information from the sequence information group as a target similar sequence information group (Y) between the target sequence information and the similar sequence information in the similar sequence information group
  • the program of the present invention is capable of executing on a computer at least one selected from the group consisting of the candidate selection method of the present invention, the similarity selection method of the present invention, and the determination method of the present invention. It is a program to do.
  • the recording medium of the present invention records the program of the present invention.
  • a candidate sequence group for determining similarity is selected. For this reason, for example, unlike the conventional method of confirming the similarity between all the sequence information, the similarity determination can be performed easily and efficiently. For this reason, for example, it is possible to reduce labor, time, and cost for determination of aptamer concentration.
  • FIG. 1 is a block diagram showing an embodiment of a candidate selection apparatus of the present invention.
  • FIG. 2 is a flowchart showing an embodiment of the candidate selection method and candidate selection program of the present invention.
  • FIG. 3 is a flowchart showing an embodiment of the candidate selection method and candidate selection program of the present invention.
  • FIG. 4 is a block diagram showing an embodiment of the similarity selection apparatus of the present invention.
  • FIG. 5 is a flowchart for explaining an embodiment of the similarity selection method and the similarity selection program of the present invention.
  • FIG. 6 is a flowchart for explaining an embodiment of the similarity selection method and the similarity selection program of the present invention.
  • FIG. 7 is a block diagram showing another embodiment of the similar selection device of the present invention.
  • FIG. 8 is a flowchart for explaining another embodiment of the similarity selection method and the similarity selection program of the present invention.
  • FIG. 9 is a flowchart for explaining another embodiment of the similarity selection method and the similarity selection program of the present invention.
  • sequence information group means a group composed of a plurality of pieces of sequence information, and the plurality of pieces of sequence information may be, for example, all different pieces of sequence information or different pieces of sequence information from the same sequence information. May be included.
  • An object of the present invention is to select candidate sequence information that is a candidate for similarity determination when determining similarity between different sequence information. For this reason, the plurality of pieces of sequence information are preferably different pieces of sequence information, for example.
  • the number of the sequence information included in the sequence information group is not particularly limited.
  • array information is not particularly limited, and is information related to the arrangement of elements.
  • the element include at least one of letters and symbols, and specific examples include letters or symbols indicating the type of nucleic acid, letters or symbols indicating the type of amino acid, and the like.
  • characters or symbols indicating the type of nucleic acid include characters or symbols indicating the type of base such as A, G, C, T and U.
  • the character or symbol indicating the type of amino acid include a three-letter code such as Met and a one-character code or symbol such as M.
  • Specific examples of the sequence information include sequence information of nucleic acid sequences and sequence information of amino acid sequences.
  • the length of the array information can also be referred to as the number of elements constituting the array information.
  • the length of the sequence information is not particularly limited, and the number of elements is, for example, 5 to 200, preferably 10 to 150, and more preferably 20 to 120.
  • the “virtual array information group” means a group composed of a plurality of virtual array information.
  • the virtual array information is virtual array information constructed from elements (also referred to as structural units) constituting the array information.
  • the element can be determined according to the type of array information of the array information group, and specifically, is the same element as the array information in the array information group.
  • the virtual array information can be referred to as information in which the elements are arbitrarily arranged, for example, and the virtual array information group can be referred to as a group composed of a plurality of information in arbitrary different arrays.
  • the length of the virtual array information can also be referred to as the number of elements constituting the virtual array information.
  • the length of the virtual array information is not particularly limited, and the number of elements is, for example, 1 to 10, preferably 1 to 7, and more preferably 1 to 4. It is preferable that each virtual array information of the virtual array information group has the same length, for example.
  • comparison or comparison sequence information selected from the sequence information group is referred to as comparison source sequence information and comparison destination sequence information, respectively.
  • the former sequence information is also referred to as “comparison source” and the other sequence information is also referred to as “comparison destination”.
  • frequency of virtual array information means the frequency at which the virtual array information appears in the target array information, and may be, for example, an element of the frequency vector and the number of appearances.
  • frequency difference means a frequency difference between two or more pieces of sequence information, for example, a difference between the frequency of the sequence information of the comparison destination and the frequency of the sequence information of the comparison source.
  • “similarity” indicates the degree of similarity of comparison target sequence information with respect to comparison source sequence information.
  • the “similarity allowance condition” is a similarity condition indicating that the comparison target sequence information can be a candidate for similarity determination with respect to the comparison source sequence information.
  • the similarity allowance condition can be set arbitrarily, and can be set, for example, based on the number of element mismatches allowed when two pieces of sequence information are compared.
  • the comparison between the two pieces of sequence information is, for example, a comparison between the arrangements of the elements of the two pieces of sequence information.
  • As the allowable condition for the similarity for example, a value obtained by multiplying the number of mismatches (M) allowed when two pieces of array information are compared with the length (number N of elements) of the virtual array information can be set.
  • the “redundancy” means the number of pieces of sequence information that are completely the same in a group of sequence information composed of a plurality of pieces of sequence information.
  • “similarity duplication” refers to the degree of duplication of sequence information that is completely the same in a sequence information group composed of a plurality of sequence information and other sequence information similar to the sequence information. It means the total with the degree of overlap.
  • the sum of the degrees of overlap between the sequence information and each of the other similar sequence information is obtained by calculating the respective similar overlap information.
  • the candidate selection device of the present invention includes the following means (a), (b), (c) and (d), and determines similarity between sequence information from the sequence information group: This is a candidate selection device that selects a candidate sequence information group as a candidate.
  • the virtual sequence information group is a group of virtual sequence information constructed from elements constituting the sequence information.
  • the means (c) is preferably means for executing the following steps (c1) and (c2).
  • (C1) A step of obtaining a difference between the frequency in the comparison source sequence information and the frequency in the comparison destination sequence information for each virtual sequence information
  • (c2) A positive difference among the frequency differences of the virtual sequence information Calculating the absolute value of only the sum of the absolute values or the absolute value of the sum of only the negative difference, and calculating the absolute value as the similarity of the comparison target sequence information with respect to the comparison source sequence information
  • the allowable condition of the similarity is a condition set based on the number of mismatches allowable when two pieces of sequence information are compared.
  • the comparison of two pieces of sequence information can also be called an alignment of two pieces of sequence information.
  • the sequence information is preferably a base sequence, and the elements constituting the sequence information are preferably A, G, C, T, and U bases.
  • the base length of the virtual sequence information is, for example, 1 to 10 bases.
  • each virtual sequence information of the virtual sequence information group has the same base length.
  • the allowable condition for the similarity is a condition set based on the number of mismatched bases allowed when two pieces of sequence information are compared.
  • the allowable condition of the similarity is a value obtained by multiplying the number of mismatched bases (M) allowed when two pieces of sequence information are compared with the base length (N) of the virtual sequence information.
  • M mismatched bases
  • N base length
  • the candidate selection device of the present invention preferably further includes the following means (e).
  • the means (b) is obtained from the sequence information group every time the step is executed. It is preferable to select different sequence information as the comparison source sequence information.
  • the candidate selection method of the present invention includes the following steps (a), (b), (c), and (d), and determines similarity between sequence information from the sequence information group:
  • This is a candidate selection method for selecting a candidate sequence information group as a candidate.
  • the description in the candidate selection device of the present invention can be used unless otherwise indicated.
  • a step of counting the frequency of each virtual sequence information of the virtual sequence information group (b) From the sequence information group, the sequence information to be compared and the sequence information to be compared (C) The difference between the frequency of each virtual sequence information of the comparison source sequence information and the frequency of each virtual sequence information of the comparison target sequence information is determined as the comparison target sequence with respect to the comparison source sequence information.
  • a step of calculating as the similarity of information (d) When the similarity of the comparison target sequence information with respect to the comparison source sequence information satisfies the allowable condition of the similarity set in the virtual sequence information group, the comparison source sequence information and Selecting the comparison target sequence information as a candidate sequence information group for judging similarity between sequence information
  • the virtual sequence information group is a group of virtual sequence information constructed from elements constituting the sequence information.
  • the step (c) preferably includes the following steps (c1) and (c2).
  • (C1) A step of obtaining a difference between the frequency in the comparison source sequence information and the frequency in the comparison destination sequence information for each virtual sequence information
  • (c2) A positive difference among the frequency differences of the virtual sequence information Calculating the absolute value of only the sum of the absolute values or the absolute value of the sum of only the negative difference, and calculating the absolute value as the similarity of the comparison target sequence information with respect to the comparison source sequence information
  • the allowable condition for the similarity is a condition set based on the number of mismatches allowed when two pieces of sequence information are compared.
  • the sequence information is preferably a base sequence, and the elements constituting the sequence information are preferably A, G, C, T, and U bases.
  • the virtual sequence information preferably has a base length of 1 to 10 bases.
  • each virtual sequence information of the virtual sequence information group has the same base length.
  • the allowable condition for the similarity is a condition set based on the number of mismatched bases allowed when two pieces of sequence information are compared.
  • the similarity allowance condition is a value obtained by multiplying the number of mismatched bases (M) allowed when two pieces of sequence information are compared with the base length (N) of the virtual sequence information. Preferably there is.
  • the candidate selection method of the present invention preferably further includes the following step (e).
  • step (e) it is preferable to select different sequence information as the comparison source sequence information from the sequence information group for each execution of the step.
  • step (E) repeating the steps (b), (c) and (d)
  • the candidate selection method of the present invention it is preferable that all the steps are executed on a computer. In the candidate selection method of the present invention, for example, all the steps may be executed by the candidate selection device of the present invention.
  • sequence information is referred to as a sequence
  • sequence information group is referred to as a sequence group.
  • Embodiment 1 is related with the candidate selection apparatus and candidate selection method of this invention.
  • the present embodiment is an example in which a nucleic acid base sequence is used as the sequence.
  • a candidate sequence group that is a candidate for determining similarity between base sequences can be selected from a base sequence group consisting of a plurality of base sequences.
  • FIG. 1 shows an example of the configuration of the candidate selection device of this embodiment.
  • the candidate selection device 10 includes an input unit 11, a sequence storage unit 121, a similarity storage unit 122 and a candidate sequence storage unit 123, a similarity calculation unit 131 and a candidate sequence selection unit 132, and an output unit 14.
  • the similarity calculation means 131 and the candidate sequence selection means 132 may be incorporated into data processing means (data processing apparatus) 13 which is hardware, and software or the software is incorporated therein. It may be hardware.
  • Each of the storage units 121, 122, and 123 may be incorporated in the storage unit 12 that is hardware, for example, as shown in FIG.
  • the data processing unit 13 may include a CPU or the like.
  • the sequence storage unit 121 includes an input unit 11 and a similarity calculation unit 131
  • the similarity storage unit 122 includes a similarity calculation unit 131 and a candidate sequence selection unit 132
  • the candidate sequence storage unit 123 includes a candidate sequence selection unit 132 and
  • the output means 14 is electrically connected to each other.
  • the input means 11 may be electrically connected to the similarity calculation means 131
  • the similarity calculation means 131 may be electrically connected to the candidate sequence selection means 132
  • the candidate sequence selection means 132 may be electrically connected to the output means 14, respectively.
  • the candidate selection device 10 may store information in the storage unit 12, output the stored information to the data processing unit 13, and perform data processing, or input the information to the data processing unit 13. Data processing may be performed.
  • the input means 11 is means (input device) for inputting information on the array group and the virtual array group.
  • the input unit 11 is not particularly limited, and for example, a normal input unit, an input file, another computer, or the like provided in a computer such as a keyboard and a mouse can be used.
  • the input unit 11 may be a unit that reads information on the array group and the virtual array group stored in a database. In this case, for example, the array information stored in advance in the server is called to the input means 11 through the network.
  • the input unit 11 may include a communication interface, for example.
  • the number of sequences to be input in the sequence group is not particularly limited, and the lower limit is, for example, 5, preferably 10, and the upper limit is, for example, 10 million, preferably 1 million.
  • the information item of the sequence to be input is, for example, the order of elements constituting the sequence, that is, the base sequence.
  • the length of the sequence is not particularly limited, and is, for example, 5 to 200 bases long, preferably 10 to 150 bases long, and more preferably 20 to 120 bases long.
  • the number of virtual sequences in the virtual sequence group is not particularly limited and can be appropriately determined according to the base length of the virtual sequence.
  • the lower limit of the base length is, for example, 1 base length, preferably 2 base lengths, more preferably 3 base lengths, and the upper limit thereof is, for example, 10 base lengths, preferably 9 bases. It is long, more preferably 8 bases long, and even more preferably 7 bases long.
  • the lengths of the virtual arrays are preferably the same.
  • the virtual sequence of the virtual sequence group the number is, for example, a fourth n-th power (4 n pieces).
  • the number of virtual sequences of one base length is the first power of 4, that is, four of A, C, G, and T
  • the number of virtual sequences having a length of 2 bases is the square of 4, that is, AA, AC, AG, AT, CC, CA, CG, CT, GG, GA, GC, GT, TT, TA, TC, TG It is 16 pieces.
  • the similarity calculation unit 131 counts the frequency of each virtual sequence group for each sequence of the sequence group as the step (a), and compares the comparison source sequence and the comparison target sequence from the sequence group as the step (b). In step (c), the degree of similarity of the comparison target sequence with respect to the comparison source sequence is calculated.
  • the order of the steps (a), (b), and (c) is not particularly limited, and the order is not limited.
  • the frequency (S n ) in the comparison source sequence and the frequency (T n ) in the comparison target sequence are calculated for each virtual sequence as (c1).
  • the difference (S n ⁇ T n ) with respect to () is obtained, and in the step (c2), only the absolute value of the sum of only the positive differences or the negative difference is included in the frequency difference (S n ⁇ T n ). This can be done by obtaining the absolute value of the sum of. That is, the absolute value of the sum is used as the similarity.
  • Candidate sequence selection means 132 selects candidate sequences for determining similarity between sequence information based on the similarity of the comparison target sequence with respect to the comparison source sequence and the allowable condition of the similarity set in the virtual sequence group I do.
  • the plurality of candidate sequences selected here becomes a candidate sequence group.
  • the degree of similarity is 2 or less, the allowable sequence satisfies the allowable condition, and therefore the comparison source sequence and the comparison target sequence are selected as candidate sequences for determining similarity between the sequence information.
  • the similarity exceeds 2
  • the numerical value of the allowable condition is exceeded and the allowable condition is not satisfied, and therefore the comparison target sequence is not selected as a candidate sequence for determining similarity to the comparison source sequence.
  • Target original sequence Seq1 aac cgg tt
  • Target sequence Seq2 aac cAg tt
  • the output means (output device) 14 may be any means that outputs the result of the candidate sequence selection means 132.
  • the output unit 14 may be a unit that outputs information stored in the candidate sequence storage unit 123.
  • the output means 14 is not particularly limited, and for example, a normal output device provided in a computer such as a display device or a printing device, an output file, another computer, or the like can be used.
  • the candidate selection method of this embodiment includes an A1 step (sequence input), an A2 step (similarity calculation), and an A3 step (candidate sequence selection).
  • Each array in the array group and each virtual array in the virtual array group are input and stored in the array storage unit 121.
  • the information items of the sequence group and the virtual sequence group include, for example, the order of bases in the sequence.
  • a new comparison source sequence set (A21) and a new comparison target sequence set (A22) are performed from the sequence group, and each of the set comparison source sequence and the comparison target sequence Count the frequency of virtual arrays. Then, for each virtual array, the difference between the frequency of the comparison source sequence and the frequency of the comparison target sequence is obtained, and the sum of only positive differences or the sum of negative differences is calculated. Specifically, when n (n is a positive number) virtual arrays exist, n frequencies (S 1 ,..., S n ) as the frequencies of the virtual arrays for the comparison source array, For the comparison target sequence, n frequencies (T 1 ,..., T n ) are obtained.
  • (A3) Candidate Sequence Selection Then, it is determined whether or not the similarity satisfies the allowable value of similarity, that is, whether or not it is higher than the allowable value (A31). In the case of NO, that is, when the similarity is smaller than an allowable value, it is determined that the comparison target sequence has an allowable number of mismatches with respect to the comparison source sequence, and the comparison source sequence and the comparison target A result indicating that the sequence is a candidate sequence for similarity determination is output (A32).
  • an uncompared comparison target sequence is confirmed (A34). If YES, that is, if there is an uncompared comparison target sequence, the same processing is performed from step A22. If NO, that is, if there is no uncompared comparison target sequence, the presence or absence of an uncompared comparison source sequence is further confirmed (A35). If YES, that is, if there is an uncompared comparison source sequence, the same processing is performed from step A21. If NO, that is, if there is no uncompared comparison source sequence, the processing ends. In addition, when one sequence is compared as a comparison source sequence and another sequence is compared as a comparison target sequence, the comparison using the former as the comparison target sequence and the latter as the comparison source sequence is omitted and the comparison result is used. Also good.
  • the A2 step and the A3 step will be described as an example of a case where the virtual sequence has a base length of 1.
  • the comparison source sequence is Seq3
  • the comparison target sequence is Seq4.
  • M the number of mismatched bases that can be accepted as similar judgment candidates
  • This absolute value 3 is the degree of similarity of the comparison target sequence Seq4 with respect to the comparison source sequence Seq3, and indicates that the comparison target sequence Seq4 has at least three mismatches when aligned with the comparison source sequence Seq3.
  • the comparison target sequence Seq4 is excluded from the candidate sequences for similarity determination of the comparison source sequence Seq3.
  • the similarity 3 the allowable value 3. Therefore, the comparison target sequence Seq4 is selected as a candidate sequence for similarity determination of the comparison source sequence Seq3.
  • the comparison target sequence when the comparison target sequence satisfies the permissible condition, the comparison target sequence is selected as a candidate sequence for similarity determination together with the comparison source sequence. That is, it selects as a candidate sequence group.
  • the comparison target sequence when the comparison target sequence does not satisfy the allowable condition, the comparison target sequence is not selected as a candidate sequence for similarity determination.
  • the comparison source sequence when there is no comparison target sequence that satisfies the permissible condition for the comparison source sequence, the comparison source sequence is not selected as a candidate sequence for similarity determination.
  • the input unit 11 and the similarity calculation unit 131, and the similarity calculation unit 131 and the candidate sequence selection unit 132 may be electrically connected to each other. Further, the candidate selection device 10 may or may not include various storage units, for example. In this case, for example, the similarity calculation unit 131 may calculate the similarity for each sequence input by the input unit 11, and the candidate sequence may be selected by the candidate sequence selection unit 132 for the calculated similarity. .
  • the similarity selection apparatus of the present invention includes the following means (A) and (B) as described above,
  • the (A) means is a similar selection device for selecting similar sequence information groups similar to each other from the sequence information group, characterized in that it is the candidate selection device of the present invention.
  • (A) Means for executing a step of selecting a candidate sequence information group that is a candidate for similarity determination between sequence information from the sequence information group (B) Each candidate sequence information of the candidate sequence information group is compared with each other and identical And means for executing a step of selecting similar sequence information as a similar sequence information group (G3)
  • the means (A) may be the candidate selection device of the present invention, and the description of the candidate selection device of the present invention can be used.
  • the sequence information group is a group of the different sequence information selected from the sequence information group (G) including the same sequence information and different sequence information.
  • the means (B) is preferably means for executing the following steps (B1), (B2), (B3), (B4) and (B5).
  • (B1) A step of selecting candidate sequence information as a comparison source and candidate sequence information as a comparison destination from the candidate sequence information group (B2) Presence / absence of similarity of the comparison destination candidate sequence information with respect to the comparison source candidate sequence information (B3) The duplication degree of the comparison source candidate sequence information and the duplication degree of the comparison destination candidate sequence information similar to the comparison source candidate sequence information are summed, and the total value obtained is compared with the comparison (B4) selecting different candidate sequence information from the candidate sequence information group as candidate sequence information to be a new comparison source, and (B1), (B2) and (B4) B3) Step of repeating the step (B5) Among the candidate sequence information, the candidate sequence information showing the largest similarity redundancy and candidate sequence information similar to the candidate sequence information are selected as the similar sequence information group (G3) That process
  • the presence or absence of similarity between the comparison source candidate sequence and the comparison destination candidate sequence is not particularly limited, and can be determined by a known method.
  • sequences can be aligned with each other, and similarities and dissimilarities can be determined based on the number of allowable mismatches (different elements).
  • the number of allowable mismatches is dissimilar when the number exceeds the allowable number of mismatches, and the number of mismatches is similar when the number is less than or equal to the allowable number of mismatches.
  • the number of allowable mismatches is not particularly limited and can be arbitrarily determined.
  • ⁇ Redundancy is reset to 0 while the subsequent process is repeated. Therefore, since the degree of duplication in the step (B3) is initial information of each array, it is also referred to as “initial degree of duplication”. In addition, the degree of overlap 0 reset in the subsequent process is also referred to as “redundancy 0” or “reset overlap”.
  • the means (B) is a means for further executing the following steps (B6), (B7) and (B8).
  • the recalculation of the similar overlap degree means, for example, resetting the already obtained similar overlap degree and newly calculating the similar overlap degree.
  • (B6) Of the candidate sequence information, a step of resetting the redundancy of candidate sequence information showing the largest similarity redundancy and the redundancy of candidate sequence information similar to the candidate sequence information to 0 (B7)
  • a step of recalculating the degree of similarity duplication for other candidate sequence information having a value other than 0 (B8) Among the other candidate sequence information, the candidate sequence information showing the largest degree of similarity duplication and similar to the candidate sequence information Reselecting candidate sequence information to be selected as a group of similar sequence information
  • the means (B) is a means for further executing the following step (B9).
  • (B9) Among the other candidate sequence information, reset the candidate sequence information showing the largest similar redundancy and the redundancy of candidate sequence information similar to the candidate sequence information to 0, and (B7) and (B B8) Repeating the process
  • a plurality of similar sequence information groups can be selected by repeating the selection of a similar candidate group based on the largest similar redundancy and the recalculation of the similarity redundancy.
  • the re-selection of the similar sequence information group is preferably performed until, for example, the redundancy is reset to 0 for all candidate sequences.
  • the means (B) may execute the exclusion of combinations that have already been executed as a combination of the comparison source complementary sequence information and the comparison destination candidate sequence information in the step (B1). preferable.
  • the information item of the array information may include, for example, the overlapping degree of each array in addition to the order of the elements constituting the array. In this case, it is preferable that all the sequences included in the sequence group are different sequences.
  • sequence information the following (B ') means which performs the process which counts the said duplication degree may be included, for example.
  • the array included in the array group may include, for example, an array in which the order of elements is completely the same in addition to a different array.
  • B ′ Means for performing the step of counting the number of completely identical sequence information as the degree of duplication for the sequence information group
  • the similarity selection method of the present invention includes the following steps (A) and (B) as described above,
  • the step (A) includes the candidate selection method of the present invention, and is a similar selection method for selecting similar sequence information groups similar to each other from the sequence information group.
  • (A) a step of selecting a candidate sequence information group that is a candidate for determining similarity between sequence information from the sequence information group
  • (B) comparing each candidate sequence information of the candidate sequence information group with each other, the same and similar sequences Selecting information as a similar sequence information group (G3)
  • the step (B) preferably includes the following steps (B1), (B2), (B3), (B4), and (B5).
  • (B1) A step of selecting candidate sequence information as a comparison source and candidate sequence information as a comparison destination from the candidate sequence information group (B2) Presence / absence of similarity of the comparison destination candidate sequence information with respect to the comparison source candidate sequence information (B3) The duplication degree of the comparison source candidate sequence information and the duplication degree of the comparison destination candidate sequence information similar to the comparison source candidate sequence information are summed, and the total value obtained is compared with the comparison (B4) selecting different candidate sequence information from the candidate sequence information group as candidate sequence information to be a new comparison source, and (B1), (B2) and (B4) B3) Step of repeating the step (B5) Among the candidate sequence information, the candidate sequence information showing the largest similarity redundancy and candidate sequence information similar to the candidate sequence information are selected as the similar sequence information group (G3) That process
  • the step (B) preferably further includes the following steps (B6), (B7), and (B8).
  • B6 Of the candidate sequence information, a step of resetting the redundancy of candidate sequence information showing the largest similarity redundancy and the redundancy of candidate sequence information similar to the candidate sequence information to 0 (B7)
  • the candidate sequence information showing the largest degree of similarity duplication and similar to the candidate sequence information Reselecting candidate sequence information to be selected as a group of similar sequence information
  • the step (B) preferably further includes the following step (B9).
  • (B9) Among the other candidate sequence information, reset the candidate sequence information showing the largest similar redundancy and the redundancy of candidate sequence information similar to the candidate sequence information to 0, and (B7) and (B B8) Repeating the process
  • step (B) it is preferable to exclude combinations already executed as combinations of the comparison source complementary sequence information and the comparison destination candidate sequence information in the step (B1).
  • the similarity selection method of the present invention it is preferable that all the steps are executed on a computer. In the similarity selection method of the present invention, for example, all the steps may be executed by the similarity selection device of the present invention.
  • the present invention is not limited to the following embodiments.
  • the description of the said Embodiment 1 can be used for selection of the said candidate sequence group.
  • the sequence information is referred to as a sequence
  • the sequence information group is referred to as a sequence group.
  • the second embodiment relates to a similarity selection device and a similarity selection method of the present invention.
  • the present embodiment is an example in which a nucleic acid base sequence is used as the sequence.
  • the description of Embodiment 1 can be used unless otherwise indicated.
  • a candidate sequence that is a candidate for determining similarity between base sequences is selected from a base sequence group that includes a plurality of base sequences, and is similar to each other from a candidate sequence group that includes a plurality of the candidate sequences. Similar sequences can be selected as groups of similar sequences.
  • FIG. 4 shows an example of the similarity selection device of the present embodiment.
  • the similarity selection device 20 includes an input unit 11, a sequence storage unit 121, a similarity storage unit 122, a candidate sequence storage unit 123 and a similar sequence storage unit 124, a similarity calculation unit 131, and a candidate sequence selection unit. 132 and similar sequence selection means 133, and output means 14.
  • the similarity calculation unit 131, the candidate sequence selection unit 132, and the similar sequence selection unit 133 may be incorporated in the data processing unit 13 that is hardware, and the software or the software is incorporated. Hardware may be used.
  • Each of the storage units 121, 122, 123, and 124 may be incorporated in the storage unit 12 that is hardware, for example, as shown in FIG.
  • the data processing unit 13 may include a CPU or the like.
  • the candidate sequence storage unit 123 is further electrically connected to the similar sequence selection unit 133, and the similar sequence storage unit 124 is electrically connected to the similar sequence selection unit 133 and the output unit 14, respectively.
  • the candidate sequence selection unit 132 may be electrically connected to the similar sequence selection unit 133, and the similar sequence selection unit 133 may be electrically connected to the output unit 14, respectively.
  • the similarity selection device 20 may store information in the storage unit 12, output the stored information to the data processing unit 13, and perform data processing, or input the information to the data processing unit 13. Data processing may be performed.
  • the information item of the array to be input includes the overlapping degree of each array in addition to the order of the elements constituting the array as described above.
  • the information item includes the degree of duplication, it is preferable that all of the arrays constituting the array group are different arrays.
  • the (B ′) means may be included.
  • the means (B ′) the number of completely identical sequence information can be counted as the degree of duplication for the sequence group.
  • the similarity selection method of this embodiment includes an A1 step (sequence input), an A2 step (similarity calculation), an A3 step (candidate sequence selection), and an A4 step (similar sequence selection).
  • A1 step sequence input
  • A2 step similarity calculation
  • A3 step candidate sequence selection
  • A4 step similar sequence selection
  • the A1 step, the A2 step, and the A3 step can be performed in the same manner as in the first embodiment, and specifically, can be performed according to the above-described flowchart of FIG.
  • the information item of the sequence group includes, for example, the order of bases in the sequence and the degree of sequence overlap
  • the information item of the virtual sequence group includes, for example, the order of bases in the sequence.
  • a new comparison source candidate sequence set (A41) and a new comparison target candidate sequence set (A42) are performed from the candidate sequence group selected in the A3 step, and the set comparison target candidate sequences are Then, it is determined whether or not it is similar to the comparison source candidate sequence (A43). In the case of NO, that is, when the comparison target candidate sequence is not similar to the comparison source candidate sequence, a result that the comparison target candidate sequence is not a similar sequence group with the comparison source candidate sequence is obtained. Output (A44). On the other hand, in the case of YES, that is, when the comparison target candidate sequence is similar to the comparison source candidate sequence, the result that the comparison target candidate sequence is a similar sequence group with the comparison source candidate sequence is obtained. Output (A45).
  • step A46 the presence or absence of an uncompared comparison target candidate sequence is confirmed with respect to the comparison source candidate sequence. If YES, that is, if there is an uncompared comparison target sequence, the same processing is performed from step A42. If NO, that is, if there is no uncompared comparison target candidate sequence, the presence / absence of an uncompared comparison source candidate sequence is further confirmed (A47). If YES, that is, if there is an uncompared comparison source candidate sequence, the same processing is performed from step A41. If NO, that is, if there is no uncompared comparison source candidate sequence, the processing ends.
  • comparison result May be used.
  • the comparison source candidate sequence and the comparison destination candidate sequence from each candidate sequence in the candidate sequence group, and judging similarity between sequences, the comparison source candidate sequence and A similar sequence group consisting of similar candidate sequences for comparison can be selected.
  • the input unit 11 and the similarity calculation unit 131, the similarity calculation unit 131 and the candidate sequence selection unit 132, and the candidate sequence selection unit 132 and the similar sequence selection unit 133 are electrically connected, respectively. It may be connected.
  • the similarity selection apparatus 20 may be provided with various memory
  • the similarity calculation unit 131 calculates the similarity for each sequence input by the input unit 11, the candidate sequence selection unit 132 selects a candidate sequence group for the calculated similarity, and The similar sequence group may be selected by the similar sequence selection means 133 for the selected candidate sequence group.
  • the third embodiment relates to the similar selection device and the similar selection method of the present invention, as in the second embodiment.
  • the present embodiment is an example in which the degree of overlap is used in the selection of the similar sequence group in the second embodiment.
  • the description of Embodiments 1 and 2 can be incorporated unless otherwise specified.
  • a similar sequence group can be easily selected by using the similarity between sequences.
  • FIG. 7 shows an example of the similarity selection device of this embodiment.
  • the similarity selection device 30 includes a similar redundancy degree storage unit 124 a and a similar sequence storage part 124 b, a similar redundancy degree calculation unit 133 a, and a similar sequence selection unit 133 b.
  • the similarity duplication degree calculation unit 133a and the similar sequence selection unit 133b may be incorporated in the data processing unit 13 which is hardware, or may be software or hardware in which the software is incorporated.
  • the similar redundancy storage unit 124 a and the similar sequence storage unit 124 b may be incorporated in the storage unit 12 that is hardware.
  • the candidate sequence storage unit 123 is electrically connected to the similar redundancy calculation unit 133a, and the similar redundancy storage unit 124a is electrically connected to the similar redundancy calculation unit 133a and the similar sequence selection unit 133b.
  • the similar sequence storage unit 124b is electrically connected to the similar sequence selection unit 133b and the output unit 14, respectively.
  • the candidate sequence selection unit 132 is electrically connected to the similarity duplication degree calculation unit 133a
  • the similarity duplication degree calculation unit 133a is electrically connected to the similar sequence selection unit 133b
  • the similar sequence selection unit 133b is electrically connected to the output unit 14, respectively. May be.
  • the similarity selection method of this embodiment includes an A1 step (sequence input), an A2 step (similarity calculation), an A3 step (candidate sequence selection), and an A4 step (similar sequence selection).
  • the A4 step includes an A4a step (similar redundancy calculation) and an A4b step (similar sequence selection based on the calculation result of similar redundancy). 8 and 9, the same steps as those in FIGS. 5 and 6 are denoted by the same reference numerals.
  • the A1 step, the A2 step, and the A3 step can be performed in the same manner as in the second embodiment.
  • the information item of the array to be input includes, for example, the overlapping degree of each array in addition to the order of the elements constituting the array.
  • a new comparison source candidate sequence is set (A41 ′) from the candidate sequence group selected in the A3 step, and it is determined whether or not the degree of overlap is 0 (A42 ′). In the case of NO, that is, when the multiplicity is 0 (initial multiplicity is 0 or reset multiplicity is 0), a new comparison source candidate sequence is set again (A41 ′). On the other hand, if YES, that is, if the degree of overlap is not 0 (initial degree of overlap ⁇ 1), the degree of overlap of the comparison source candidate sequence is set (A43 ′).
  • a new comparison destination candidate sequence is set (A44 ′), and it is determined whether or not the comparison destination candidate sequence is similar to the comparison source candidate sequence (A45 ′).
  • the similarity of the comparison source candidate sequence and the similarity of the comparison destination candidate sequence are summed, and the total value is similar overlap Degree (A46 ').
  • This similarity overlap is called the similarity overlap of the comparison source candidate sequence.
  • NO that is, when the comparison destination candidate sequence is not similar to the comparison source candidate sequence, the presence or absence of an uncompared comparison destination candidate sequence is confirmed (A47 ′).
  • step A44 ′ If YES, that is, if there is an uncompared comparison target candidate sequence, the same processing is performed from step A44 ′. If NO, that is, if there is no uncompared comparison target candidate sequence, the presence or absence of an uncompared comparison source candidate sequence is further confirmed (A48 ′). If YES, that is, if there is an uncompared comparison source candidate sequence, the same processing is performed from step A41 ′. In the case of NO, that is, when there is no uncompared comparison source candidate sequence, the similarity redundancy is reset, that is, reset to 0 for candidate sequences other than the candidate sequence with the highest similarity redundancy and the similarity redundancy is not 0. Set (A49 ').
  • the redundancy is reset to 0 for the candidate sequence having the largest similar redundancy and a candidate sequence similar to the candidate sequence (A410 ′).
  • the presence / absence of a candidate sequence whose degree of overlap is not 0 is confirmed (A411 ′). If YES, that is, if there is a candidate sequence whose degree of polymerization is not 0 (initial duplication degree ⁇ 1), this is set as a new comparison source candidate sequence, and the same processing is performed from step A41 ′.
  • a candidate sequence with a non-zero degree of overlap and a candidate sequence similar thereto are taken as similar sequence groups, and a list of similar sequence groups is output (A412 ′) ).
  • the information items to be output include, for example, each sequence included in the similar sequence group and the similar overlap degree.
  • the candidate sequence group there are five different sequences (Seq1, Seq2, Seq3, Seq4, Seq5) included in the candidate sequence group, and the respective overlapping degrees (that is, the number of occurrences) are ⁇ 5, The case of 4, 3, 2, 1 ⁇ will be described as an example.
  • Table 1 shows the types of candidate sequences and their redundancy.
  • the initial duplication degree of the comparison source candidate sequence and the initial duplication degree of the comparison destination candidate sequence similar thereto are summed, and this total value is calculated as the similar duplication degree of the comparison source candidate sequence.
  • Table 3 below shows the similarity overlap.
  • a comparison source candidate sequence showing the largest similarity duplication is selected from the comparison source candidate sequences, and the comparison source candidate sequence and a comparison destination candidate sequence similar thereto are used as a similar sequence group.
  • Seq4 showing the largest degree of similar duplication 11 and Seq1 and Seq2 similar thereto are the same similar sequence group.
  • the similarity redundancy is reset for the candidate sequences whose similarity redundancy is not 0, and the initial of the comparison source candidate sequence showing the largest similarity redundancy
  • the duplication degree and the initial duplication degree of a similar comparison target candidate sequence are reset to 0 (reset duplication degree 0).
  • the similar duplication degree is reset, and the initial duplication degree of Seq4 and Seq1 and Seq2 similar to it is reset to 0 (re-set) Setting overlap 0).
  • the similar candidate group is calculated and the similar candidate group is selected based on the largest similar degree of overlap.
  • the selection of similar candidate groups is preferably repeated until the initial redundancy of all candidate sequences is reset to zero.
  • Seq3 showing the largest similar redundancy 3 among candidate sequences whose non-redundancy is not 0 is set as a similar sequence group.
  • one sequence is a comparison source candidate sequence
  • the other sequence is a comparison destination candidate sequence
  • the one sequence is a comparison destination candidate sequence
  • the other sequence is a comparison source candidate
  • the candidate sequence group can be classified into a similar sequence group.
  • the concentration determination apparatus of the present invention includes the following (X) and (Y) means, and the (X) means is the similar selection apparatus of the present invention. It is a determination apparatus of concentration of similar sequence information group.
  • (Y) Similar to the target sequence information in the similar sequence information group Means for executing a step of determining the concentration of the similar sequence information group from the sum of the degree of overlap with the sequence information
  • the (X) means may be the similarity selection apparatus of the present invention, and the description of the similarity selection apparatus of the present invention can be used.
  • the (X) means executes a step of selecting a similar sequence information group as a comparison source and a similar sequence information group as a comparison destination, respectively.
  • the (Y) means is preferably means for executing the following steps (Y1) and (Y2). (Y1) the sum of the degrees of overlap between the target sequence information in the similar sequence information group of the comparison source and the similar sequence information, the target sequence information in the similar sequence information group of the comparison destination, and the sequence information similar thereto (Y2) when the sum of the duplication degrees in the similar sequence information group of the comparison source is larger than the sum of the duplication degrees in the similar sequence information group of the comparison destination, Determining that the comparison source similar sequence information group is more concentrated than the comparison target sequence information group
  • the determination of concentration may be performed, for example, by comparing differences in the degree of concentration between the sequence information for different sequence information included in the same sequence information group.
  • the similar sequence information group of the comparison source and the similar sequence information group of the comparison destination are similar sequence information groups selected from the same sequence group, and the purpose of the similar sequence information group of the comparison source And the target sequence information of the similar sequence information group to be compared are different sequence information. Thereby, for example, it is possible to select sequence information having a relatively high degree of enrichment and similar sequence information from the same sequence information group.
  • a similar sequence information group having a relatively high concentration is selected from a plurality of similar sequence information groups included in a specific round library, that is, an aptamer having a high concentration is selected. Selection of sequence groups can be performed.
  • the determination of the enrichment may be performed, for example, by comparing the difference in enrichment level between the sequence information groups for the same sequence information included in different sequence information groups.
  • the similar sequence information group of the comparison source and the similar sequence information group of the comparison destination are similar sequence information groups selected from different sequence groups, and the purpose of the similar sequence information group of the comparison source And the target sequence information of the comparison target similar sequence information group are the same sequence information.
  • a sequence information group having a relatively high degree of enrichment can be selected for a similar sequence information group of specific sequence information.
  • a library with a relatively high concentration of a specific aptamer-like sequence group can be selected from among the libraries in each round.
  • the enrichment determination method of the present invention includes the following steps (X) and (Y), wherein the step (X) includes the similarity selection method of the present invention, This is a determination method. Unless otherwise indicated, the description in the concentration determination apparatus of the present invention can be used for the concentration determination method of the present invention.
  • (X) a step of selecting target sequence information and similar sequence information from the sequence information group as a similar sequence information group to be determined
  • (Y) the target sequence information and the similar sequence in the similar sequence information group
  • the step (X) is a step of selecting a similar sequence information group as a comparison source and a similar sequence information group as a comparison destination, respectively.
  • the step (Y) preferably includes the following steps (Y1) and (Y2). (Y1) the sum of the degrees of overlap between the target sequence information in the similar sequence information group of the comparison source and the similar sequence information, the target sequence information in the similar sequence information group of the comparison destination, and the sequence information similar thereto (Y2) when the sum of the duplication degrees in the similar sequence information group of the comparison source is larger than the sum of the duplication degrees in the similar sequence information group of the comparison destination, Determining that the comparison source similar sequence information group is more concentrated than the comparison target sequence information group
  • the enrichment determination method of the present invention is a similar sequence information group in which the similar sequence information group of the comparison source and the similar sequence information group of the comparison destination are selected from the same sequence group,
  • the target sequence information of the comparison source similar sequence information group and the target sequence information of the comparison target similar sequence information group may be different sequence information.
  • the concentration determination method of the present invention is a similar sequence information group in which the similar sequence information group of the comparison source and the similar sequence information group of the comparison destination are selected from different sequence groups,
  • the target sequence information of the comparison source similar sequence information group and the target sequence information of the comparison target similar sequence information group may be the same sequence information.
  • the use of the present invention is not particularly limited, but is preferably applied to, for example, determination of concentration in aptamer preparation. According to the present invention, as described above, for example, it is possible to compare the enrichment degree of different aptamer-like sequence information groups in the same library, or to compare the enrichment degree of the same aptamer-like sequence information group in different libraries. It is.
  • Example 1 In this example, similar sequence groups were classified by a similar selection method of the present invention for a library targeting low molecular weight compounds.
  • sequence group 85,800 nucleic acid sequence groups having a length of 40 bases were used.
  • Table 7 shows the conditions of the virtual sequence group, the allowable number of mismatched bases, and the allowable conditions.
  • a candidate sequence group for determining similarity is selected. For this reason, for example, unlike the conventional method of confirming the similarity between all the sequence information, the similarity determination can be performed easily and efficiently. For this reason, for example, it is possible to reduce labor, time, and cost for determination of aptamer concentration.

Abstract

配列情報間の類似を、容易に判断するための装置を提供する。本発明の候補選択装置10は、入力手段11、配列記憶部121、類似度記憶部122、候補配列記憶部123、類似度計算手段131、候補配列選択手段132、出力手段14を備える。入力手段11は、配列群および仮想配列群の情報を入力し、類似度計算手段131は、前記配列群から比較元と比較先とを選択し、比較元配列と前記比較先配列との前記各仮想配列の頻度の相違を、前記比較元配列に対する前記比較先配列の類似度として計算する。候補配列選択手段132は、前記比較元配列に対する前記比較先配列の類似度が、前記仮想配列群に設定した類似度の許容条件を満たす場合、前記比較元配列および前記比較先配列を、配列間の類似を判断する候補配列群として選択する。前記候補配列群について、配列間の類似を判断することにより、ある配列とこれに類似する配列とを類似配列情報群として選択する。

Description

類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途
 本発明は、配列情報群における配列情報間の類似の判断に関する発明であり、具体的には、配列情報から類似判断の候補配列情報を選択する候補選択方法、候補配列情報から類似配列情報群を選択する類似選択方法、目的の類似配列情報群の濃縮を判定する判定方法、およびこれらの方法を実行する各装置、プログラムならびに記録媒体に関する。
 近年、抗体に代わるターゲットへの結合分子として、いわゆるアプタマーと呼ばれる核酸分子の開発が進められている。前記アプタマーは、一般に、SELEX(Systematic Evolution of Ligands by EXponential enrichiment)法により調製されている(特許文献1、非特許文献1)。SELEX法は、核酸ライブラリーと前記ターゲットとの接触、および、前記ターゲットに結合した核酸の増幅を、1セットの選択処理とし、複数ラウンドを繰り返し行う。これによって、初期のライブラリーから、ラウンド毎のライブラリーにおいて前記ターゲットに結合する核酸配列が濃縮される。そして、例えば、ライブラリー内で濃縮度合いが相対的に高い複数の核酸配列を、アプタマー候補群として選択し、さらに、前記ターゲットとの結合力等を評価することによって、最終的に前記ターゲットに結合するアプタマーを決定することができる。
 このように、アプタマー候補群は、ライブラリー内における濃縮度合いによって選択できるため、SELEX法においては、濃縮度合いの評価が必要である。濃縮度合いの評価は、通常、以下のように行われている。まず、各ラウンドのライブラリーに含まれる核酸配列をシーケンスで解読する。そして、ライブラリー内における同じ核酸配列の出現数(以下、重複度ともいう)をカウントする。このカウント数の増減により、各核酸配列の濃縮度合いを評価する。例えば、n回目のラウンド(R)における核酸配列Xの重複度mと、次のラウンド、すなわちn+1回目のラウンド(Rn+1)における核酸配列Xの重複度mn+1とを比較して、重複度m<重複度mn+1であれば、核酸配列Xは、ラウンド(n+1)において、ラウンド(n)よりも濃縮されていると判断できる。また、同じラウンドのライブラリー内において、核酸配列Xの重複度mと核酸配列Yの重複度mとを比較して、重複度の大きい方が、他方に比べて濃縮されていると判断できる。
特許第2763958号
Science.(1990)249,505-510.
 しかしながら、濃縮度合いによってアプタマー候補群を選択しても、異なる全ての核酸配列について、前記ターゲットとの結合力を評価することは、非常に労力を有し、現実的ではない。
 一方、ライブラリー内には、ある核酸配列(以下、元配列ともいう)に対して完全に同じ塩基配列も含まれるが、前記元配列に対して数塩基程度のミスマッチを有する類似した核酸配列(以下、類似配列ともいう)が含まれる場合がある。そして、発明者らは、前記類似配列は、例えば、前記ターゲットとの結合の強さが前記元配列と異なることがあるが、前記ターゲットに対する特性等は、前記元配列と同一であることが多いとの知見を得ている。このため、核酸配列について、完全に同一か否かという分類ではなく、許容できる範囲で類似し合っている核酸配列を、同一の配列群とすることにより、アプタマーの評価を効率化できる。しかしながら、この場合、複数の核酸配列を一個ずつ照らし合わせて類似か否かを判断することも、労力、コストおよび時間がかかる。特に、次世代シーケンサー等を用いて大量の核酸配列の情報が得られた場合等、非常に計算コストがかかる。また、このような問題は、核酸配列に特化した問題ではなく、要素が並んだ配列情報について、共通する問題である。
 そこで、本発明は、容易に、配列情報間の類似を判断するための装置、方法、プログラムおよび記録媒体を提供することを目的とする。
 前記目的を達成するために、本発明の候補選択装置は、下記(a)、(b)、(c)および(d)手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置である。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
 本発明の類似選択装置は、下記(A)および(B)手段を備え、前記(A)手段が、前記本発明の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程を実行する手段
 本発明の判定装置は、下記(X)および(Y)手段を備え、前記(X)手段が、前記本発明の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置である。
(X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
(Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
 本発明の候補選択方法は、下記(a)、(b)、(c)および(d)工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法である。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
 本発明の類似選択方法は、下記(A)および(B)工程を含み、
前記(A)工程が、前記本発明の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程
 本発明の判定方法は、下記(X)および(Y)工程を含み、前記(X)工程が、前記本発明の類似選択方法を含むことを特徴とする、目的の類似配列情報群の濃縮の判定方法である。
(X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程
(Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
 本発明のプログラムは、前記本発明の候補選択方法、前記本発明の類似選択方法および前記本発明の判定方法からなる群から選択された少なくとも一つを、コンピュータ上で実行可能なことを特徴とするプログラムである。
 本発明の記録媒体は、前記本発明のプログラムを記録していることを特徴とする。
 本発明によれば、配列情報間の類似を判断するにあたって、まず、類似を判断するための候補配列群が選択される。このため、例えば、全ての配列情報間の類似を確認する従来の方法とは異なり、簡便に効率よく類似の判断を行うことができる。このため、例えば、アプタマーの濃縮の判定等についても、労力、時間およびコストの軽減が可能となる。
図1は、本発明の候補選択装置の実施形態を示すブロック図である。 図2は、本発明の候補選択方法および候補選択プログラムの実施形態を示すフローチャートである。 図3は、本発明の候補選択方法および候補選択プログラムの実施形態を示すフローチャートである。 図4は、本発明の類似選択装置の実施形態を示すブロック図である。 図5は、本発明の類似選択方法および類似選択プログラムの実施形態を説明するためのフローチャートである。 図6は、本発明の類似選択方法および類似選択プログラムの実施形態を説明するためのフローチャートである。 図7は、本発明の類似選択装置のその他の実施形態を示すブロック図である。 図8は、本発明の類似選択方法および類似選択プログラムのその他の実施形態を説明するためのフローチャートである。 図9は、本発明の類似選択方法および類似選択プログラムのその他の実施形態を説明するためのフローチャートである。
 本発明において、「配列情報群」は、複数の配列情報から構成される群を意味し、前記複数の配列情報は、例えば、全て、異なる配列情報でもよいし、同じ配列情報と異なる配列情報とを含んでもよい。本発明は、異なる配列情報間における類似を判断するにあたって、類似判断の候補となる候補配列情報の選択を目的とする。このため、前記複数の配列情報は、例えば、全て、異なる配列情報が好ましい。前記配列情報群に含まれる前記配列情報の個数は、特に制限されない。
 本発明において、「配列情報」は、特に制限されず、要素の並びに関する情報である。前記要素は、例えば、文字および記号の少なくとも一方があげられ、具体例として、核酸の種類を示す文字または記号、アミノ酸の種類を示す文字または記号等があげられる。核酸の種類を示す文字または記号としては、例えば、A、G、C、TおよびU等の塩基の種類を示す文字または記号があげられる。アミノ酸の種類を示す文字または記号としては、例えば、Met等の3文字表記、M等の1文字表記の文字または記号があげられる。前記配列情報は、具体例として、核酸配列の配列情報、アミノ酸配列の配列情報等があげられる。前記配列情報の長さは、前記配列情報を構成する要素の数ともいうことができる。前記配列情報の長さは、特に制限されず、要素が、例えば、5~200個であり、好ましくは、10~150個であり、さらに好ましくは20~120個である。
 本発明において、「仮想配列情報群」は、複数の仮想配列情報から構成される群を意味する。前記仮想配列情報は、前記配列情報を構成する要素(構成単位ともいう)から構築された仮想の配列情報である。前記要素は、前記配列情報群の配列情報の種類に応じて決定でき、具体的には、前記配列情報群における配列情報と同じ要素である。前記仮想配列情報は、例えば、前記要素を任意に並べた情報ということができ、前記仮想配列情報群は、複数の、任意の異なる並びの情報から構成される群ということができる。前記仮想配列情報の長さは、前記仮想配列情報を構成する要素の数ともいうことができる。前記仮想配列情報の長さは、特に制限されず、要素が、例えば、1~10個であり、好ましくは、1~7個であり、さらに好ましくは1~4個である。前記仮想配列情報群の各仮想配列情報は、例えば、全て同じ長さであることが好ましい。
 本発明において、前記配列情報群から選択した比較または対比し合う配列情報を、それぞれ、比較元配列情報および比較先配列情報という。ある配列情報に対して、他の配列情報を対比する場合、前者の配列情報を「比較元」ともいい、後者の他の配列情報を「比較先」ともいう。
 本発明において、「仮想配列情報の頻度」とは、対象となる配列情報において、前記仮想配列情報が出現する頻度を意味し、例えば、頻度ベクトルの要素、出現数ということもできる。また、「頻度の相違」とは、二つ以上の配列情報間の頻度の相違を意味し、例えば、比較先の配列情報の頻度と比較元の配列情報の頻度との相違である。
 本発明において、「類似度」は、比較元配列情報に対する比較先配列情報の類似の程度を示す。また、本発明において、「類似度の許容条件」は、前記比較元配列情報に対して、前記比較先配列情報が類似判断の候補となり得ることを示す、類似度の条件である。前記類似度の許容条件は、任意に設定でき、例えば、2つの配列情報を対比した場合に許容できる要素のミスマッチの個数に基づいて設定できる。2つの配列情報の対比とは、例えば、2つの配列情報の要素の並びの対比である。前記類似度の許容条件は、例えば、2つの配列情報を対比した場合に許容できるミスマッチの個数(M)に、前記仮想配列情報の長さ(要素の個数N)を乗じた値を設定できる。
 本発明において、「重複度」とは、複数の配列情報から構成される配列情報群において、完全に同一である配列情報の個数を意味し、例えば、出現数ということもできる。また、本発明において、「類似重複度」とは、複数の配列情報から構成される配列情報群において、完全に同一である配列情報の重複度と、前記配列情報に類似する他の配列情報の重複度との合計を意味する。前記配列情報に対して、類似する他の配列情報が2つ以上存在する場合、例えば、前記配列情報と、類似する各他の配列情報との間の重複度の合計を、それぞれの類似重複度とする。
<本発明の候補選択装置および候補選択方法>
 本発明の候補選択装置は、前述のように、下記(a)、(b)、(c)および(d)手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置である。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
 本発明の候補選択装置において、前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群であることが好ましい。
 本発明の候補選択装置において、前記(c)手段が、下記(c1)および(c2)工程を実行する手段であることが好ましい。
(c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
(c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
 本発明の候補選択装置において、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件であることが好ましい。2つの配列情報の対比とは、2つの配列情報のアラインメントということもできる。
 本発明の候補選択装置において、例えば、前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基であることが好ましい。
 本発明の候補選択装置において、前記仮想配列情報の塩基長が、例えば、1~10塩基長であることが好ましい。
 本発明の候補選択装置において、前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長であることが好ましい。
 本発明の候補選択装置において、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件であることが好ましい。
 本発明の候補選択装置において、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値であることが好ましい。
 本発明の候補選択装置は、さらに、下記(e)手段を有することが好ましい。
(e)前記(b)、(c)および(d)手段による各工程の反復を実行する手段
この場合、前記(b)手段は、例えば、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択することが好ましい。
 本発明の候補選択方法は、前述のように、下記(a)、(b)、(c)および(d)工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法である。本発明の候補選択方法は、特に示さない限り、前記本発明の候補選択装置における説明を援用できる。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
 本発明の候補選択方法は、前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群であることが好ましい。
 本発明の候補選択方法は、前記(c)工程が、下記(c1)および(c2)工程を含むことが好ましい。
(c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
(c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
 本発明の候補選択方法は、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件であることが好ましい。
 本発明の候補選択方法は、前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基であることが好ましい。
 本発明の候補選択方法は、前記仮想配列情報の塩基長が、1~10塩基長であることが好ましい。
 本発明の候補選択方法は、前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長であることが好ましい。
 本発明の候補選択方法は、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件であることが好ましい。
 本発明の候補選択方法は、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値であることが好ましい。
 本発明の候補選択方法は、さらに、下記(e)工程を含むことが好ましい。この場合、前記(b)工程において、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択することが好ましい。
(e)前記(b)、(c)および(d)工程を反復する工程
 本発明の候補選択方法は、前記各工程が、全て、コンピュータ上で実行されることが好ましい。本発明の候補選択方法は、例えば、前記各工程が、全て、前記本発明の候補選択装置により実行されてもよい。
 以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。以下、配列情報を配列、配列情報群を配列群と示す。
[実施形態1]
 実施形態1は、本発明の候補選択装置および候補選択方法に関する。本実施形態は、前記配列として、核酸の塩基配列を使用する一例である。
 本実施形態によれば、複数の塩基配列からなる塩基配列群から、塩基配列間の類似の判断候補となる候補配列群を選択できる。
 図1に、本実施形態の候補選択装置の一例の構成を示す。図1に示すように、候補選択装置10は、入力手段11、配列記憶部121、類似度記憶部122および候補配列記憶部123、類似度計算手段131および候補配列選択手段132、ならびに出力手段14を備える。類似度計算手段131および候補配列選択手段132は、例えば、図1に示すように、ハードウェアであるデータ処理手段(データ処理装置)13に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。各記憶部121、122、123は、例えば、図1に示すように、ハードウェアである記憶手段12に組み込まれてもよい。データ処理手段13は、CPU等を備えてもよい。
 配列記憶部121は、入力手段11および類似度計算手段131と、類似度記憶部122は、類似度計算手段131および候補配列選択手段132と、候補配列記憶部123は、候補配列選択手段132および出力手段14と、それぞれ電気的に接続されている。また、入力手段11は、類似度計算手段131と、類似度計算手段131は、候補配列選択手段132と、候補配列選択手段132は、出力手段14と、それぞれ電気的に接続されてよい。候補選択装置10は、例えば、情報を記憶手段12に記憶させ、記憶させた情報をデータ処理手段13に出力してデータ処理を行ってもよいし、前記情報をデータ処理手段13に入力してデータ処理を行ってもよい。
 入力手段11は、配列群および仮想配列群の情報を入力する手段(入力装置)である。入力手段11は、特に制限されず、例えば、キーボード、マウス等のコンピュータに備わる通常の入力手段、入力ファイルおよび他のコンピュータ等を用いることができる。入力手段11は、例えば、データベースに格納された、前記配列群および仮想配列群の情報を読み出す手段でもよい。この場合、例えば、予めサーバに格納された配列情報が、回線網を通じて、入力手段11に呼び出される。また、入力手段11は、例えば、通信インターフェースを含んでもよい。
 前記配列群における入力する配列の数は、特に制限されず、下限は、例えば、5個、好ましくは10個であり、上限は、例えば、1000万個、好ましくは100万個である。入力する配列の情報項目は、例えば、配列を構成する要素の順序、すなわち塩基の並びである。前記配列の長さは、特に制限されず、例えば、5~200塩基長であり、好ましくは、10~150塩基長であり、さらに好ましくは20~120塩基長である。
 前記仮想配列群の仮想配列の数は、特に制限されず、前記仮想配列の塩基長に応じて適宜決定できる。前記塩基長は、その下限が、例えば、1塩基長であり、好ましくは2塩基長であり、より好ましくは3塩基長であり、その上限が、例えば、10塩基長であり、好ましくは9塩基長であり、より好ましくは8塩基長であり、さらに好ましくは7塩基長である。前記仮想配列群において、前記各仮想配列の長さは、全て同じ長さが好ましい。
 前記仮想配列を構成する要素が4つの塩基(A、C、G、およびTまたはU)であり、前記仮想配列の塩基長がn(正数)の場合、前記仮想配列群における前記仮想配列の数は、例えば、4のn乗個(4個)である。具体例として、前記要素が4つの塩基A、C、GおよびTの場合、前記1塩基長の仮想配列の数は、4の1乗、つまり、A、C、GおよびTの4個であり、前記2塩基長の仮想配列の数は、4の2乗、つまり、AA、AC、AG、AT、CC、CA、CG、CT、GG、GA、GC、GT、TT、TA、TC、TGの16個である。
 類似度計算手段131は、前記(a)工程として、前記配列群の各配列について各仮想配列群の頻度のカウント、前記(b)工程として、前記配列群からの比較元配列と比較先配列との選択、前記(c)工程として、前記比較元配列に対する前記比較先配列の類似度の計算を行う。前記(a)、(b)および(c)工程の順序は、特に制限されず、順不同である。
 前記(c)工程における前記類似度の計算は、前述のように、前記(c1)として、前記仮想配列ごとに、前記比較元配列における頻度(S)と前記比較先配列における頻度(T)との差(S-T)を求め、前記(c2)工程として、前記頻度の差(S-T)のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求めることで行える。すなわち、前記総和の絶対値を、前記類似度とする。
 候補配列選択手段132は、前記比較元配列に対する前記比較先配列の類似度と、前記仮想配列群に設定した類似度の許容条件とに基づいて、配列情報間の類似を判断する候補配列の選択を行う。ここで選択された複数の候補配列が、候補配列群となる。
 前記類似度の許容条件は、2つの配列を対比した場合に許容できるミスマッチの塩基数に基づき設定でき、具体例として、前記許容できるミスマッチの塩基数(M)に前記仮想配列の塩基長(N)を乗じた値(N×M)があげられる。例えば、塩基長N=1の前記仮想配列(A、C、GおよびT)であって、前記許容できるミスマッチの塩基数M=2に設定した場合、許容条件(N×M)は、1×2=2となる。そして、前記類似度が2以下の場合、許容条件の数値以下となり許容条件を満たすため、前記比較元配列および前記比較先配列は、配列情報間の類似を判断する候補配列として選択する。他方、前記類似度が2を超える場合、許容条件の数値を超え許容条件を満たさないため、前記比較先配列は、前記比較元配列との類似を判断する候補配列として選択しない。
 前記許容条件の一例として、前記許容できるミスマッチの塩基数(M)に前記仮想配列の塩基長(N)を乗じた値(N×M)を設定するのは、以下の理由による。例えば、以下の2つの配列をアラインメントした場合、大文字の1塩基がミスマッチである。これらの配列について、塩基長N=2の仮想配列の頻度をカウントした場合、対象元配列Seq1において、下線部がcgおよびggとカウントされるのに対し、対象先配列Seq2において、下線部がcAおよびAgとカウントされる。つまり、許容できるミスマッチの塩基数が1であっても、1つミスマッチの存在によって、カウントされる仮想配列は、最大2つが変動することになる。このため、前記許容できるミスマッチの塩基数(M)に、前記仮想配列の塩基長(N)を乗じることで、カウントへの影響を補正できる。
対象元配列Seq1:aaccggtt
対象先配列Seq2:aaccAgtt
 出力手段(出力装置)14は、候補配列選択手段132の結果を出力する手段であればよい。また、前記出力手段14は、候補配列記憶部123に記憶された情報を出力する手段でもよい。前記出力手段14は、特に制限されず、例えば、ディスプレイ装置、印刷装置等のコンピュータに備わる通常の出力装置、出力ファイル、および、他のコンピュータ等を使用できる。
 つぎに、図2および図3のフローチャートを参照し、本実施形態の候補選択方法を説明する。本実施形態の候補選択方法は、A1ステップ(配列入力)、A2ステップ(類似度計算)およびA3ステップ(候補配列選択)を含む。
(A1)配列入力
 配列群の各配列および仮想配列群の各仮想配列を、それぞれ入力し、配列記憶部121に記憶させる。前記配列群および前記仮想配列群の情報項目は、例えば、配列における塩基の順序があげられる。
(A2)類似度計算
 前記配列群から、新しい比較元配列のセット(A21)および新しい比較先配列のセット(A22)を行い、セットした前記比較元配列と前記比較先配列について、それぞれ、前記各仮想配列の頻度をカウントする。そして、各仮想配列について、前記比較元配列の頻度と前記比較先配列の頻度との差を求め、正数の差のみの総和または負数の差のみの総和を計算する。具体的には、n個(nは正数)の仮想配列が存在する場合、前記比較元配列について、各仮想配列の頻度としてn個の頻度(S、・・・・、S)、前記比較先配列について、n個の頻度(T、・・・・、T)が得られる。そして、各仮想配列の頻度について、前記比較元配列と前記比較先配列との差、すなわち、(S-T)、・・・・、(S-T)を求め、正数の差のみの総和または負数の差のみの総和を計算し、総和の絶対値を求める。前記総和の絶対値が、前記比較元配列に対する前記比較先配列の類似度である。
(A3)候補配列選択
 そして、前記類似度が、類似度の許容値を満たすか否か、つまり、許容値よりも大きいか否かを判断する(A31)。NOの場合、つまり、前記類似度が許容値よりも小さい場合、前記比較先配列は、前記比較元配列に対して許容できる数のミスマッチを有すると判断して、前記比較元配列と前記比較先配列が類似判断の候補配列であるとの結果を出力する(A32)。他方、YESの場合、つまり、前記類似度が許容値よりも大きい場合、前記比較先配列は、前記比較元配列に対して許容できない数のミスマッチを有すると判断して、前記比較先配列が類似候補配列ではないとの結果を出力する(A33)。
 その後は、未比較の比較先配列の有無を確認する(A34)。YESの場合、つまり、未比較の比較先配列がある場合、A22ステップから同様の処理を行う。そして、NOの場合、つまり、未比較の比較先配列がない場合、さらに、未比較の比較元配列の有無を確認する(A35)。YESの場合、つまり、未比較の比較元配列がある場合、A21ステップから同様の処理を行い、NOの場合、つまり、未比較の比較元配列がない場合、終了する。なお、ある配列を比較元配列とし他の配列を比較先配列として比較済みである場合、前者を比較先配列とし後者を比較元配列とする比較は、省略し、比較済みの結果を使用してもよい。
 前記A2ステップおよびA3ステップについて、さらなる具体例として、前記仮想配列が塩基長1の場合を例にあげて説明する。
 塩基長N=1の仮想配列を下記4種類、比較元配列をSeq3、比較先配列をSeq4と仮定する。そして、2つの配列をアラインメントした場合に、類似の判断候補として許容できるミスマッチの塩基数をMとし、許容値をN×M=1×M=Mとする。
仮想配列:A、C、GおよびT
比較元配列Seq3:ACGTACGT
比較先配列Seq4:AAGAACAT
 比較元配列Seq3および比較先配列Seq4における各仮想配列(A、C、G、T)の頻度{fA、fC、fG、fT}は、それぞれ、SEQ1が{2、2、2、2}およびSeq2が{5、1、1、1}となり、各頻度{fA、fC、fG、fT}の差は、Aが(2-5=-3)、Cが(2-1=1)、Gが(2-1=1)、Tが(2-1=1)となる。負数の差の総数(―3+0+0+0=-3)の絶対値は3であり、正数の差の総数(0+1+1+1=3)の絶対値は3である。この絶対値3が、比較元配列Seq3に対する比較先配列Seq4の類似度であり、比較先配列Seq4が、比較元配列Seq3とアラインメントした際に、少なくとも3つのミスマッチを有することを示す。前記許容できるミスマッチの上限塩基数Mを、例えば、2とした場合、許容値はN×M=1×2=2である。このため、計算した類似度と許容値とを対比すると、類似度3>許容値2であるため、比較先配列Seq4は、比較元配列Seq3の類似判断の候補配列からはずす。他方、前記許容できるミスマッチの上限塩基数Mを、例えば、3とした場合、許容値はN×M=1×3=3である。このため、計算した類似度と許容値とを対比すると、類似度3=許容値3であるため、比較先配列Seq4は、比較元配列Seq3の類似判断の候補配列として選択する。
 このようにして、前記比較先配列が前記許容条件を満たす場合には、前記比較先配列は、前記比較元配列と共に、類似判断の候補配列として選択する。つまり、候補配列群として選択する。他方、前記比較先配列が前記許容条件を満たさない場合には、前記比較先配列は、類似判断の候補配列として選択しない。また、前記比較元配列に対して、前記許容条件を満たす比較先配列が存在しない場合は、前記比較元配列も、類似判断の候補配列として選択しない。
 本実施形態における候補選択装置10において、入力手段11と類似度計算手段131、類似度計算手段131と候補配列選択手段132が、それぞれ電気的に接続されてもよい。また、候補選択装置10は、例えば、各種記憶部を備えてもよいし、備えていなくてもよい。この場合、例えば、入力手段11により入力された各配列について、類似度計算手段131により類似度を計算し、計算された類似度について、候補配列選択手段132により候補配列の選択を行ってもよい。
<本発明の類似選択装置および類似選択方法>
 本発明の類似選択装置は、前述のように、下記(A)および(B)手段を備え、
前記(A)手段が、前記本発明の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程を実行する手段
 本発明の類似選択装置において、前記(A)手段は、前記本発明の候補選択装置であればよく、前記本発明の候補選択装置の記載を援用できる。
 本発明の類似選択装置は、前記配列情報群が、同一の配列情報および異なる配列情報からなる配列情報群(G)から選択された前記異なる配列情報の群であることが好ましい。
 本発明の類似選択装置は、前記(B)手段が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を実行する手段であることが好ましい。
(B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
(B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
(B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
(B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
(B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
 前記(B2)工程において、前記比較元候補配列と前記比較先候補配列との類似の有無は、特に制限されず、公知の方法で決定できる。具体的には、配列と配列とをアラインメントして、許容できるミスマッチ(異なる要素)の数に基づき、類似と非類似とを判断できる。具体例として、例えば、前記両配列をアラインメントした際、ミスマッチの数が、前記許容できるミスマッチの数を超える場合は非類似、前記許容できるミスマッチの数以下の場合は類似と判断できる。前記許容できるミスマッチの個数は、特に制限されず、任意に決定できる。
 重複度は、後の工程が繰り返される間に、0に再設定される。そこで、前記(B3)工程における重複度は、各配列の初期の情報であることから、「初期重複度」ともいう。また、後の工程において再設定した重複度0は、「重複度0」または「再設定重複度」ともいう。
 本発明の類似選択装置は、前記(B)手段が、さらに、下記(B6)、(B7)および(B8)工程を実行する手段であることが好ましい。類似重複度の再算出とは、例えば、すでに得られた類似重複度をリセットし、新たに類似重複度を算出することを意味する。
(B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
(B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
(B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
 本発明の類似選択装置は、前記(B)手段が、さらに、下記(B9)の工程を実行する手段であることが好ましい。
(B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
 このように、最も大きな類似重複度に基づく類似候補群の選択と、類似重複度の再計算とを繰り返すことによって、複数の類似配列情報群が選択できる。前記類似配列情報群の再選択は、例えば、全ての候補配列について重複度が0に再設定されるまで行うことが好ましい。
 本発明の類似選択装置は、前記(B)手段が、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せの除外を実行することが好ましい。
 本発明の類似選択装置において、配列情報の情報項目として、例えば、配列を構成する要素の順序の他に、前記各配列の重複度を含んでもよい。この場合、前記配列群に含まれる配列は、全て、異なる配列であることが好ましい。また、配列情報の情報項目として、前記重複度を含まない場合、例えば、前記重複度をカウントする工程を実行する、下記(B’)手段を含んでもよい。この場合、前記配列群に含まれる配列は、例えば、異なる配列の他に、完全に要素の順序が同じである配列を含んでもよい。
(B’)前記配列情報群について、完全に同一な配列情報の数を重複度としてカウントする工程を実施する手段
 本発明の類似選択方法は、前述のように、下記(A)および(B)工程を含み、
前記(A)工程が、前記本発明の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程
 本発明の類似選択方法は、前記(B)工程が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を含むことが好ましい。
(B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
(B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
(B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
(B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
(B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
 本発明の類似選択方法は、前記(B)工程が、さらに、下記(B6)、(B7)および(B8)工程を含むことが好ましい。
(B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
(B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
(B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
 本発明の類似選択方法は、前記(B)工程が、さらに、下記(B9)工程を含むことが好ましい。
(B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
 本発明の類似選択方法は、前記(B)工程において、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せを除外することが好ましい。
 本発明の類似選択方法は、前記各工程が、全て、コンピュータ上で実行されることが好ましい。本発明の類似選択方法は、例えば、前記各工程が、全て、前記本発明の類似選択装置により実行されてもよい。
 以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。また、本実施形態において、前記候補配列群の選択は、前記実施形態1の記載を援用できる。以下、配列情報を配列、配列情報群を配列群と示す。
[実施形態2]
 実施形態2は、本発明の類似選択装置および類似選択方法に関する。本実施形態は、前記配列として、核酸の塩基配列を使用する一例である。本実施形態は、特に示さない限り、実施形態1の記載を援用できる。
 本実施形態によれば、複数の塩基配列からなる塩基配列群から、塩基配列間の類似の判断候補となる候補配列を選択し、複数の前記候補配列からなる候補配列群から、相互に類似する類似配列を類似配列群として選択できる。
 図4に、本実施形態の類似選択装置の一例を示す。図4において、図1の候補選択装置10と同じ箇所には、同じ符号を付している。図4に示すように、類似選択装置20は、入力手段11、配列記憶部121、類似度記憶部122、候補配列記憶部123および類似配列記憶部124、類似度計算手段131、候補配列選択手段132および類似配列選択手段133、ならびに出力手段14を備える。類似度計算手段131、候補配列選択手段132および類似配列選択手段133は、例えば、図4に示すように、ハードウェアであるデータ処理手段13に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。各記憶部121、122、123、124は、例えば、図4に示すように、ハードウェアである記憶手段12に組み込まれてもよい。データ処理手段13は、CPU等を備えてもよい。
 候補配列記憶部123は、さらに、類似配列選択手段133と電気的に接続されており、類似配列記憶部124は、類似配列選択手段133および出力手段14と、それぞれ電気的に接続されている。また、候補配列選択手段132は、類似配列選択手段133と、類似配列選択手段133は、出力手段14と、それぞれ電気的に接続されてよい。類似選択装置20は、例えば、情報を記憶手段12に記憶させ、記憶させた情報をデータ処理手段13に出力してデータ処理を行ってもよいし、前記情報をデータ処理手段13に入力してデータ処理を行ってもよい。
 本実施形態において、入力する配列の情報項目は、前述のような、配列を構成する要素の順序の他に、前記各配列の重複度を含むことが好ましい。前記情報項目として、前記重複度を含む場合、前記配列群を構成する配列は、全て、異なる配列であることが好ましい。
 また、前記情報項目として、前記重複度を含まない場合、例えば、前記(B’)手段を含んでもよい。前記(B’)手段により、前記配列群について、完全に同一な配列情報の数を重複度としてカウントできる。
 つぎに、図5および図6のフローチャートを参照し、本実施形態の類似選択方法を説明する。本実施形態の類似選択方法は、A1ステップ(配列入力)、A2ステップ(類似度計算)、A3ステップ(候補配列選択)およびA4ステップ(類似配列選択)を含む。図5において、図2と同じステップには同じ符号を付している。
 前記A1ステップ、前記A2ステップおよび前記A3ステップは、前記実施形態1と同様に行うことができ、具体的には、前述した図3のフローチャートに従って行うことができる。前記配列入力において、前記配列群の情報項目は、例えば、配列における塩基の順序および配列の重複度があげられ、前記仮想配列群の情報項目は、例えば、配列における塩基の順序があげられる。
(A4)類似配列選択
 前記A3ステップで選択された候補配列群から、新しい比較元候補配列のセット(A41)および新しい比較先候補配列のセット(A42)を行い、セットした前記比較先候補配列が、前記比較元候補配列に類似するか否かを判断する(A43)。そして、NOの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似していない場合、前記比較先候補配列は、前記比較元候補配列との類似配列群ではないとの結果を出力する(A44)。他方、YESの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似している場合、前記比較先候補配列は、前記比較元候補配列との類似配列群であるとの結果を出力する(A45)。
 その後は、前記比較元候補配列に対して、未比較の比較先候補配列の有無を確認する(A46)。YESの場合、つまり、未比較の比較先配列がある場合、A42ステップから同様の処理を行う。そして、NOの場合、つまり、未比較の比較先候補配列がない場合、さらに、未比較の比較元候補配列の有無を確認する(A47)。YESの場合、つまり、未比較の比較元候補配列がある場合、A41ステップから同様の処理を行い、NOの場合、つまり、未比較の比較元候補配列がない場合、終了する。なお、ある配列を比較元候補配列とし他の配列を比較先候補配列として比較済みである場合、前者を比較先候補配列とし後者を比較元候補配列とする比較は、省略し、比較済みの結果を使用してもよい。
 このようにして、前記候補配列群における各候補配列から、前記比較元候補配列および前記比較先候補配列を、それぞれ順次セットし、配列間の類似を判断することによって、前記比較元候補配列とそれに類似する比較先候補配列とからなる類似配列群を選択できる。
 本実施形態における類似選択装置20において、入力手段11と類似度計算手段131、類似度計算手段131と候補配列選択手段132、候補配列選択手段132と類似配列選択手段133とが、それぞれ電気的に接続されてもよい。また、類似選択装置20は、例えば、各種記憶部を備えてもよいし、備えていなくてもよい。この場合、例えば、入力手段11により入力された各配列について、類似度計算手段131により類似度を計算し、計算された類似度について、候補配列選択手段132により候補配列群の選択を行い、さらに、選択された候補配列群について、類似配列選択手段133により類似配列群の選択を行ってもよい。
[実施形態3]
 実施形態3は、実施形態2と同様に、本発明の類似選択装置および類似選択方法に関する。本実施形態は、前記実施形態2の前記類似配列群の選択において、重複度を用いる一例である。本実施形態は、特に示さない限り、実施形態1および2の記載を援用できる。
 本実施形態によれば、配列間の類似度を用いることによって、簡便に、類似配列群を選択できる。
 図7に、本実施形態の類似選択装置の一例を示す。図7において、図4の類似選択装置20と同じ箇所には、同じ符号を付している。図7に示すように、類似選択装置30は、類似重複度記憶部124aおよび類似配列記憶部124b、類似重複度計算手段133aおよび類似配列選択手段133bを備える。類似重複度計算手段133aおよび類似配列選択手段133bは、例えば、図7に示すように、ハードウェアであるデータ処理手段13に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。類似重複度記憶部124aおよび類似配列記憶部124bは、例えば、図7に示すように、ハードウェアである記憶手段12に組み込まれてもよい。
 候補配列記憶部123は、類似重複度計算手段133aと電気的に接続されており、類似重複度記憶部124aは、類似重複度計算手段133aおよび類似配列選択手段133bと電気的に接続されており、類似配列記憶部124bは、類似配列選択手段133bおよび出力手段14と、それぞれ電気的に接続されている。また、候補配列選択手段132は、類似重複度計算手段133aと、類似重複度計算手段133aは、類似配列選択手段133bと、類似配列選択手段133bは、出力手段14と、それぞれ電気的に接続されてもよい。
 つぎに、図8および図9のフローチャートを参照し、本実施形態の類似選択方法を説明する。本実施形態の類似選択方法は、A1ステップ(配列入力)、A2ステップ(類似度計算)、A3ステップ(候補配列選択)およびA4ステップ(類似配列選択)を含む。本実施形態において、A4ステップは、A4aステップ(類似重複度計算)と、A4bステップ(類似重複度の計算結果に基づく類似配列選択)を含む。図8および図9において、図5および図6と同じステップには同じ符号を付している。
 前記A1ステップ、前記A2ステップおよび前記A3ステップは、前記実施形態2と同様に行うことができる。本実施形態において、入力する配列の情報項目は、例えば、配列を構成する要素の順序の他に、前記各配列の重複度を含む。
(A4)類似配列選択
 前記A3ステップで選択された候補配列群から、新しい比較元候補配列をセット(A41’)し、その重複度が0か否かを判断する(A42’)。NOの場合、つまり、重複度0の場合(初期重複度が0または再設定重複度0)、再度、新しい比較元候補配列をセットする(A41’)。他方、YESの場合、つまり、重複度が0でない場合(初期重複度≧1)、前記比較元候補配列の重複度をセットする(A43’)。そして、新しい比較先候補配列をセット(A44’)し、前記比較先候補配列が、前記比較元候補配列に類似するか否かを判断する(A45’)。YESの場合、つまり、前記比較先候補配列が前記比較元候補配列に類似する場合、前記比較元候補配列の類似度と前記比較先候補配列の類似度とを合計し、その合計値を類似重複度とする(A46’)。この類似重複度は、前記比較元候補配列の類似重複度という。他方、NOの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似しない場合、未比較の比較先候補配列の有無を確認する(A47’)。そして、YESの場合、つまり、未比較の比較先候補配列がある場合、A44’ステップから同様の処理を行う。そして、NOの場合、つまり、未比較の比較先候補配列がない場合、さらに、未比較の比較元候補配列の有無を確認する(A48’)。YESの場合、つまり、未比較の比較元候補配列がある場合、A41’ステップから同様の処理を行う。NOの場合、つまり、未比較の比較元候補配列がない場合、最も大きい類似重複度の候補配列以外であって、類似重複度が0でない候補配列について、類似重複度をリセット、つまり0に再設定する(A49’)。さらに、最も大きい類似重複度の候補配列およびそれに類似する候補配列について、重複度を0に再設定する(A410’)。つぎに、重複度が0でない候補配列の有無を確認する(A411’)。YESの場合、つまり、重合度が0でない候補配列(初期重複度≧1)がある場合、これを新しい比較元候補配列とし、A41’ステップから同様の処理を行う。NOの場合、つまり、重複度が0でない候補配列が存在しない場合、類似重複度が0でない候補配列とそれに類似する候補配列とを類似配列群とし、類似配列群の一覧を出力する(A412’)。出力する情報項目は例えば、前記類似配列群に含まれる各配列ならびに類似重複度等があげられる。
 前記A4ステップについて、さらなる具体例として、候補配列群に含まれる異なる配列が5種類(Seq1、Seq2、Seq3、Seq4、Seq5)であり、それぞれの重複度(すなわち、出現数)が、{5、4、3、2、1}である場合を例にあげて説明する。
 まず、下記表1に、候補配列の種類とその重複度を示す。
Figure JPOXMLDOC01-appb-T000001
 つぎに、それぞれの配列間における類似を判断する。下記表2において、類似の関係にあるものを、網掛けで示す。
Figure JPOXMLDOC01-appb-T000002
 そして、それぞれの比較元候補配列について、前記比較元候補配列の初期重複度とそれに類似する前記比較先候補配列の初期重複度とを合計し、この合計値を比較元候補配列の類似重複度とする。下記表3に、類似重複度を示す。そして、前記比較元候補配列のうち、最も大きい類似重複度を示す比較元候補配列を選択し、前記比較元候補配列とそれに類似する比較先候補配列とを、類似配列群とする。下記表3において、最も大きい類似重複度11を示すSeq4ならびにそれに類似するSeq1およびSeq2が、同じ類似配列群となる。
Figure JPOXMLDOC01-appb-T000003
 続いて、最も大きい類似重複度を示す比較元候補配列以外であって、類似重複度が0ではない候補配列について、類似重複度をリセットし、最も大きい類似重複度を示す比較元候補配列の初期重複度とそれに類似する比較先候補配列の初期重複度とを、0に再設定する(再設定重複度0)。下記表4において、最も大きい類似重複数11を示すSeq4以外の配列について、類似重複度をリセットし、且つ、Seq4と、それに類似するSeq1およびSeq2の初期重複度を、0に再設定する(再設定重複度0)。
Figure JPOXMLDOC01-appb-T000004
 そして、重複度が0以外(初期重複度≧1)の比較元候補配列について、同様にして、類似重複度の計算、最も大きい類似重複度に基づく類似候補群の選択を行う。類似候補群の選択は、全ての候補配列の初期重複度が0に再設定されるまで、繰り返し行うことが好ましい。下記表5において、重複度が0ではない候補配列のうち、最も大きい類似重複度3を示すSeq3を、類似配列群とする。
Figure JPOXMLDOC01-appb-T000005
 なお、配列間の類似について、一方の配列を比較元候補配列とし、他方の配列を比較先候補配列とするのと、前記一方の配列を比較先候補配列とし、前記他方の配列を比較元候補配列とするのは、実質的に同じといえる。そこで、前記類似配列群の選択をより促進できるため、例えば、比較元候補配列と比較先候補配列との組合せから、すでに実行した組合せを除外することが好ましい。この場合、例えば、下記表6のように、異なる配列間の組合せを半分にできる(セル数の半減)。
Figure JPOXMLDOC01-appb-T000006
 これらの処理を繰り返すことによって、候補配列群を類似配列群に分類することができる。
<目的の類似配列群の濃縮を判定する装置>
 本発明の濃縮の判定装置は、前述のように、下記(X)および(Y)手段を備え、前記(X)手段が、前記本発明の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置である。
(X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
(Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
 本発明の判定装置において、前記(X)手段は、前記本発明の類似選択装置であればよく、前記本発明の類似選択装置の記載を援用できる。
 本発明の濃縮の判定装置は、前記(X)手段が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程を実行し、
前記(Y)手段が、下記(Y1)および(Y2)工程を実行する手段であることが好ましい。
(Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
(Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
 本発明において、濃縮の判定は、例えば、同じ配列情報群に含まれる異なる配列情報について、前記配列情報の間における濃縮度合いの違いを比較することにより行ってもよい。この場合、例えば、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である。これによって、例えば、同じ配列情報群から、相対的に濃縮度合いの高い配列情報およびその類似配列情報を選択することが可能となる。具体例としては、例えば、アプタマーの調製において、特定のラウンドのライブラリーに含まれる複数の類似配列情報群から、相対的に濃縮度の高い類似配列情報群の選択、つまり濃縮度が高いアプタマー類似配列群の選択を行うことができる。
 また、前記濃縮の判定は、例えば、異なる配列情報群に含まれる同じ配列情報について、前記配列情報群の間における濃縮度合いの違いを比較することにより行ってもよい。この場合、例えば、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である。これによって、例えば、特定の配列情報の類似配列情報群について、相対的に濃縮度合いの高い配列情報群を選択することができる。具体例としては、例えば、アプタマーの調製において、各ラウンドのライブラリーのうち、特定のアプタマー類似配列群の濃縮度が相対的に高いライブラリーを選択することができる。
 本発明の濃縮の判定方法は、下記(X)および(Y)工程を含み、前記(X)工程が、前記本発明の類似選択方法を含むことを特徴とする、類似配列情報群の濃縮の判定方法である。本発明の濃縮の判定方法は、特に示さない限り、前記本発明の濃縮の判定装置における記載を援用できる。
(X)配列情報群から、目的の配列情報とそれに類似する配列情報とを判定対象の類似配列情報群として選択する工程
(Y)前記類似配列情報群における前記目的の配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
 本発明の濃縮の判定方法は、前記(X)工程が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程であり、
前記(Y)工程が、下記(Y1)および(Y2)工程を含むことが好ましい。
(Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
(Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
 本発明の濃縮の判定方法は、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報であってもよい。
 本発明の濃縮の判定方法は、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報であってもよい。
 本発明の用途は、特に制限されないが、例えば、アプタマーの調製における濃縮の判定に適用することが好ましい。本発明によれば、前述のように、例えば、同じライブラリー内における異なるアプタマー類似配列情報群の濃縮度合いの比較、または、異なるライブラリー内における同じアプタマー類似配列情報群の濃縮度合いの比較が可能である。
 つぎに、本発明の実施例について説明する。ただし、本発明は、下記の実施例により制限されない。
[実施例1]
 本実施例では、低分子化合物をターゲットとするライブラリーについて、本発明の類似選択方法により、類似配列群の分類を行った。
 配列群として、40塩基長の85,800個の核酸配列群を使用した。仮想配列群の条件、許容できるミスマッチの塩基数および許容条件を下記表7に示す。
Figure JPOXMLDOC01-appb-T000007
 実施例は、前記条件に従い、前記表6に示すセル数の半減を行って、候補配列群の選択、類似配列群の選択を行った。これらの計算にかかった時間を前記表7にあわせて示す。なお、比較例は、前記配列群の全ての核酸配列について、アラインメントによる類似の判断を行い、類似配列群を選択した。その結果、実施例によれば、比較例よりも格段に短い計算時間で類似配列群の選択を行うことができた。
 以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
 この出願は、2013年2月15日に出願された日本出願特願2013-027851を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、配列情報間の類似を判断するにあたって、まず、類似を判断するための候補配列群が選択される。このため、例えば、全ての配列情報間の類似を確認する従来の方法とは異なり、簡便に効率よく類似の判断を行うことができる。このため、例えば、アプタマーの濃縮の判定等についても、労力、時間およびコストの軽減が可能となる。
10    候補選択装置
20、30 類似選択装置
11    入力手段
12    記憶手段
121   配列記憶部
122   類似度記憶部
123   候補配列記憶部
124   類似配列記憶部
124a  類似重複度記憶部
124b  類似配列記憶部
13    データ処理手段
131   類似度計算手段
132   候補配列選択手段
133   類似配列選択手段
133a  類似重複度計算手段
133b  類似配列選択手段
14    出力手段

Claims (44)

  1. 下記(a)、(b)、(c)および(d)手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置。
    (a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
    (b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
    (c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
    (d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
  2. 前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群である、請求項1記載の候補選択装置。
  3. 前記(c)手段が、下記(c1)および(c2)工程を実行する手段である、請求項1または2記載の候補選択装置。
    (c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
    (c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
  4. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件である、請求項1から3のいずれか一項に記載の候補選択装置。
  5. 前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基である、請求項1から4のいずれか一項に記載の候補選択装置。
  6. 前記仮想配列情報の塩基長が、1~10塩基長である、請求項5記載の候補選択装置。
  7. 前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長である、請求項5または6記載の候補選択装置。
  8. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件である、請求項3から7のいずれか一項に記載の候補選択装置。
  9. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値である、請求項5から8のいずれか一項に記載の候補選択装置。
  10. さらに、下記(e)手段を有する、請求項1から9のいずれか一項に記載の候補選択装置。
    (e)前記(b)、(c)および(d)手段による各工程の反復を実行する手段
  11. 前記(b)手段は、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択する、請求項10記載の候補選択装置。
  12. 下記(A)および(B)手段を備え、
    前記(A)手段が、請求項1から11のいずれか一項に記載の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置。
    (A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
    (B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程を実行する手段
  13. 前記(B)手段が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を実行する手段である、請求項12記載の類似選択装置
    (B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
    (B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
    (B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
    (B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
    (B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
  14. 前記(B)手段が、さらに、下記(B6)、(B7)および(B8)工程を実行する手段である、請求項13記載の類似選択装置。
    (B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
    (B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
    (B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
  15. 前記(B)手段が、さらに、下記(B9)の工程を実行する手段である、請求項14記載の類似選択装置。
    (B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
  16. 前記(B)手段が、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せの除外を実行する、請求項13から15のいずれか一項に記載の類似選択装置。
  17. 下記(X)および(Y)手段を備え、前記(X)手段が、請求項12から16のいずれか一項に記載の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置。
    (X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
    (Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
  18. 前記(X)手段が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程を実行し、
    前記(Y)手段が、下記(Y1)および(Y2)工程を実行する手段である、請求項17記載の判定装置。
    (Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
    (Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
  19. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である、請求項18記載の判定装置。
  20. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である、請求項18記載の判定装置。
  21. 下記(a)、(b)、(c)および(d)工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法。
    (a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
    (b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
    (c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
    (d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
  22. 前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群である、請求項21記載の候補選択方法。
  23. 前記(c)工程が、下記(c1)および(c2)工程を含む、請求項21または22記載の候補選択方法。
    (c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
    (c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
  24. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件である、請求項21から23のいずれか一項に記載の候補選択方法。
  25. 前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基である、請求項21から24のいずれか一項に記載の候補選択方法。
  26. 前記仮想配列情報の塩基長が、1~10塩基長である、請求項25記載の候補選択方法。
  27. 前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長である、請求項25または26記載の候補選択方法。
  28. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件である、請求項23から27のいずれか一項に記載の候補選択方法。
  29. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値である、請求項25から28のいずれか一項に記載の候補選択方法。
  30. さらに、下記(e)工程を含む、請求項21から29のいずれか一項に記載の候補選択方法。
    (e)前記(b)、(c)および(d)工程を反復する工程
  31. 前記(b)工程において、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択する、請求項30記載の候補選択方法。
  32. 下記(A)および(B)工程を含み、
    前記(A)工程が、請求項21から31のいずれか一項に記載の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法。
    (A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
    (B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程
  33. 前記(B)工程が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を含む、請求項32記載の類似選択方法
    (B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
    (B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
    (B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
    (B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
    (B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
  34. 前記(B)工程が、さらに、下記(B6)、(B7)および(B8)工程を含む、請求項33記載の類似選択方法。
    (B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
    (B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
    (B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
  35. 前記(B)工程が、さらに、下記(B9)工程を含む、請求項34記載の類似選択方法。
    (B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
  36. 前記(B)工程において、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せを除外する、請求項33から35のいずれか一項に記載の類似選択方法。
  37. 下記(X)および(Y)工程を含み、前記(X)工程が、請求項32から36のいずれか一項に記載の類似選択方法を含むことを特徴とする、類似配列情報群の濃縮の判定方法。
    (X)配列情報群から、目的の配列情報とそれに類似する配列情報とを判定対象の類似配列情報群として選択する工程
    (Y)前記類似配列情報群における前記目的の配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
  38. 前記(X)工程が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程であり、
    前記(Y)工程が、下記(Y1)および(Y2)工程を含む、請求項37記載の判定方法。
    (Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
    (Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
  39. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である、請求項38記載の判定方法。
  40. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である、請求項38記載の判定方法。
  41. 請求項21から31のいずれか一項に記載の候補選択方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
  42. 請求項32から36のいずれか一項に記載の類似選択方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
  43. 請求項37から40のいずれか一項に記載の判定方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
  44. 請求項41から43のいずれか一項に記載のプログラムを記録していることを特徴とする記録媒体。
PCT/JP2014/053516 2013-02-15 2014-02-14 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途 WO2014126213A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015500317A JP6072890B2 (ja) 2013-02-15 2014-02-14 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途
EP14752140.5A EP2958038A1 (en) 2013-02-15 2014-02-14 Selection device for candidate sequence information for similarity determination, selection method, and use for such device and method
US14/768,030 US20150379197A1 (en) 2013-02-15 2014-02-14 Selection device for candidate sequence information for similarity determination, selection method, and use for such device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013027851 2013-02-15
JP2013-027851 2013-02-15

Publications (1)

Publication Number Publication Date
WO2014126213A1 true WO2014126213A1 (ja) 2014-08-21

Family

ID=51354211

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/053516 WO2014126213A1 (ja) 2013-02-15 2014-02-14 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途

Country Status (4)

Country Link
US (1) US20150379197A1 (ja)
EP (1) EP2958038A1 (ja)
JP (1) JP6072890B2 (ja)
WO (1) WO2014126213A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990234B1 (en) * 2014-02-28 2015-03-24 Lucas J. Myslinski Efficient fact checking method and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2763958B2 (ja) 1990-06-11 1998-06-11 ネクスター ファーマスーティカルズ,インコーポレイテッド 核酸リガンド
JP2005102695A (ja) * 2003-09-12 2005-04-21 National Institute Of Advanced Industrial & Technology 物質特異的に結合するタンパク質及びその遺伝子の探索、解析方法
JP2012146067A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
JP2012146066A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6466685B1 (en) * 1998-07-14 2002-10-15 Kabushiki Kaisha Toshiba Pattern recognition apparatus and method
WO2001080559A2 (en) * 2000-04-18 2001-10-25 Silicon Image Method, system and apparatus for identifying the source type and quality level of a video sequence
JP2002008189A (ja) * 2000-06-22 2002-01-11 Matsushita Electric Ind Co Ltd 車両検出装置および車両検出方法
US7707148B1 (en) * 2003-10-07 2010-04-27 Natural Selection, Inc. Method and device for clustering categorical data and identifying anomalies, outliers, and exemplars
US8023577B2 (en) * 2007-02-02 2011-09-20 Texas Instruments Incorporated Systems and methods for efficient channel classification
MX2010002253A (es) * 2008-07-01 2010-03-17 Panasonic Corp Metodo de evaluacion de señal reproducida, dispositivo de evaluacion de señal reproducida y dispositivo de disco optico equipado con los mismos.
KR101328358B1 (ko) * 2009-06-17 2013-11-11 후지쯔 가부시끼가이샤 생체 인증 장치, 생체 인증 방법 및 생체 인증용 컴퓨터 프로그램이 기록된 컴퓨터 판독가능한 기록매체
JP5867389B2 (ja) * 2010-05-24 2016-02-24 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
CN102592136B (zh) * 2011-12-21 2013-10-16 东南大学 基于几何图像中中频信息的三维人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2763958B2 (ja) 1990-06-11 1998-06-11 ネクスター ファーマスーティカルズ,インコーポレイテッド 核酸リガンド
JP2005102695A (ja) * 2003-09-12 2005-04-21 National Institute Of Advanced Industrial & Technology 物質特異的に結合するタンパク質及びその遺伝子の探索、解析方法
JP2012146067A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
JP2012146066A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCIENCE, vol. 249, 1990, pages 505 - 510

Also Published As

Publication number Publication date
JPWO2014126213A1 (ja) 2017-02-02
EP2958038A1 (en) 2015-12-23
JP6072890B2 (ja) 2017-02-01
US20150379197A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
Zhou et al. Evaluating fast maximum likelihood-based phylogenetic programs using empirical phylogenomic data sets
Sato et al. IPknot: fast and accurate prediction of RNA secondary structures with pseudoknots using integer programming
Reeder et al. Consensus shapes: an alternative to the Sankoff algorithm for RNA consensus structure prediction
Piro et al. DUDes: a top-down taxonomic profiler for metagenomics
Bao et al. SEED: efficient clustering of next-generation sequences
NL2011817C2 (en) A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure.
Lai et al. A de novo metagenomic assembly program for shotgun DNA reads
Liu et al. Index suffix–prefix overlaps by (w, k)-minimizer to generate long contigs for reads compression
Liu et al. High-speed and high-ratio referential genome compression
Patro et al. Predicting protein interactions via parsimonious network history inference
Chou et al. Tailor: a computational framework for detecting non-templated tailing of small silencing RNAs
Seetin et al. TurboKnot: rapid prediction of conserved RNA secondary structures including pseudoknots
Eggenhofer et al. RNAlien–unsupervised RNA family model construction
Tammi et al. Correcting errors in shotgun sequences
Tambe et al. Barcode identification for single cell genomics
Vaser et al. SWORD—a highly efficient protein database search
Ferdous et al. Solving the minimum common string partition problem with the help of ants
Pan et al. Novo&Stitch: accurate reconciliation of genome assemblies via optical maps
JP6072890B2 (ja) 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途
Storato et al. K2mem: discovering discriminative k-mers from sequencing data for metagenomic reads classification
Yeo et al. ARCS: assembly roundup by chromium scaffolding
Huang et al. Accurate classification of RNA structures using topological fingerprints
Xulvi-Brunet et al. Computational analysis of fitness landscapes and evolutionary networks from in vitro evolution experiments
Kettleborough et al. Reconstructing (super) trees from data sets with missing distances: not all is lost
Balvert et al. Ogre: overlap graph-based metagenomic read clustEring

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14752140

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015500317

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14768030

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2014752140

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014752140

Country of ref document: EP