WO2007097213A1 - Rna配列情報処理装置 - Google Patents

Rna配列情報処理装置 Download PDF

Info

Publication number
WO2007097213A1
WO2007097213A1 PCT/JP2007/052369 JP2007052369W WO2007097213A1 WO 2007097213 A1 WO2007097213 A1 WO 2007097213A1 JP 2007052369 W JP2007052369 W JP 2007052369W WO 2007097213 A1 WO2007097213 A1 WO 2007097213A1
Authority
WO
WIPO (PCT)
Prior art keywords
stem
graph
rna
rna sequence
graphs
Prior art date
Application number
PCT/JP2007/052369
Other languages
English (en)
French (fr)
Inventor
Kouji Tsuda
Taishin Kin
Michiaki Hamada
Kiyoshi Asai
Original Assignee
National Institute Of Advanced Industrial Science And Technology
Mizuho Information Research Institute, Inc.
The University Of Tokyo
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute Of Advanced Industrial Science And Technology, Mizuho Information Research Institute, Inc., The University Of Tokyo filed Critical National Institute Of Advanced Industrial Science And Technology
Publication of WO2007097213A1 publication Critical patent/WO2007097213A1/ja

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/10Nucleic acid folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Definitions

  • the present invention relates to a technique for processing a plurality of RNA sequence data by a bioinformatics technique and extracting a secondary structure motif commonly included in the plurality of RNA sequence data.
  • RNA itself plays a physiologically important role as a functional molecule without translating many RNAs into proteins. These RNAs are collectively called functional RNAs (non-coding RNAs, ncRNAs) and have attracted a great deal of attention. Like protein, functional RNA is thought to be more important for its function than its primary sequence. Tinoco et al. Reported that most of the three-dimensional structure of RNA is determined by secondary structure (Reference A1).
  • RNAs form functional families with globally or local secondary structure motifs that are evolutionarily highly conserved (eg tRNA, RNaseP— Dact—a, tmRNA (http://www.sanger.ac.uk/software/rfam/)). Therefore, identifying functional RNA families and extracting secondary structural motifs that characterize functional RNA families provide very useful information when analyzing functional RNAs.
  • RNAfold a single RNA sequence based on Minimum Free Energy (MFE), represented by mfold (Reference A2) and RNAfold (Reference A3).
  • MFE Minimum Free Energy
  • RNAfold RNAfold
  • these methods have been studied for a relatively long time, they are generally not very accurate. The reason for this is thought to be the accuracy of the energy parameter, and because the actual RNA molecule is interacting with other molecules to form a three-dimensional structure, the optimal single sequence is optimal. It is thought that the RNA molecule has a structure different from the structure. Therefore, a method for deriving a sub-optimal secondary structure consisting only of the optimal structure A4, A5, and A6) have been studied, and methods for statistically sampling RNA secondary structure (References A7 and A8) have also been studied.
  • Another method is a (common) secondary structure prediction method using a plurality of RNAs that are considered to have a common secondary structure.
  • This method requires input sequence alignment (RNAalifold (Reference A9), ILM (Reference A10), Pfold (Reference Al 1), etc.) and methods that do not require alignment (ScaRNA (Reference A12). ), CoSullivana (Reference A13), PMcomp / PMmulti (Reference A14), RNAcast (Reference A15), comRNA (Reference A16), CaRNAc (Reference A17), etc.). Since these methods use more information than secondary structure prediction based only on MFE if an input sequence group having a similar structure is appropriately given, it is generally considered to be highly accurate. Yes. However, a mathematically rigorous algorithm that derives multiple array forces and their common secondary structure without assuming alignment is equivalent to a technique called the Sankoff algorithm (Ref. A18). It is enormous.
  • RNA information analysis techniques that focus on RNA motifs that can be obtained only by such general secondary structure prediction methods (Reference A19).
  • ERPIN References A20 and A21
  • Infernal Reference A22
  • RNAMotif Reference A23
  • These techniques can be used to find sequences with known motifs.
  • GPRM Reference A24
  • GPRM uses a genetic algorithm to discover secondary structural motifs that distinguish input sequence groups from random sequence groups.
  • RNAprofile proposes a technique for reducing the search space by using Greedy and heuristic methods, and for discovering unstructured RNA structure group locally conserved secondary structure motifs. More recently, a technique for finding motifs from unaligned RNA sequences that is robust against noise and that combines a covariance model called CMfinder (Reference A26) and a heuristic technique has also been proposed. The method for extracting motifs from these functional RNA families has been devised so as not to be affected by noise to some extent, but it is basically a sequence that is one of the single RNA family. To apply to groups.
  • the identification of functional RNA families and the extraction of secondary structural motifs are integrated. It is desirable to be performed simultaneously by various processes. This is because the determination of a family requires a secondary structural motif that characterizes the family, and the determination of a secondary structural motif requires a family. In a sense, this is close to the problem of simultaneous feature extraction and clustering.
  • RAG Reference A27
  • This is a method for modeling the secondary structure of RNA.
  • Reference A28 also proposes a method for expressing a profile of a genomic sequence (fragment) using a profile, as well as expressing the profile in a graph when the RNA family secondary structure profile is given. And then.
  • RNAshape s an integrated RNA analysis package based on abstract shapes.Bioinform atics, Dec 2005. JOURNAL ARTICLE.
  • the ERPIN server an interface to profile- based RNA motif identification. Nucleic Acids Res, Vol. 32, No. Web Serv er issue, pp. 160—165, Jul 2004. Evaluation Studies.
  • RNAP rofile an algorithm for finding conserved secondary structure motifs in unali gned RNA sequences. Nucleic Acids Res, Vol. 32, No. 10, pp. 3258—3269, 2004.
  • CMfinder a covariance model based RNA motif finding algorithm. Bioinformatics, Dec 2005. JOURNAL ARTICLE. (Reference A27)
  • the present invention has been made under the above-mentioned background, and the object thereof is suitable sequence data that can extract a secondary structure motif from an RNA sequence group by bioinformatics information processing using a computer. To provide processing technology.
  • One object of the present invention is to simultaneously identify functional RNA families and extract motifs. It is to provide a technique that can be performed.
  • the present invention provides a sequence information processing technique for RNA sequence data.
  • the present invention is a graph analysis (graph mining) in which an RNA sequence group is modeled by a directed directed label using a taxonomy and has been actively studied in the field of data mining in recent years.
  • graph mining graph mining
  • stem patterns secondary structure motifs
  • RNA sequences that have the stem patterns functional RNA family
  • the graph mining method used here is a method for efficiently and completely extracting a subgraph (graph pattern) that appears frequently from a given graph set.
  • various algorithms have been used in recent years. Proposed.
  • the present invention applies these graph mining techniques and at the same time efficiently reduces the search space by utilizing the property that the graph pattern to be extracted is Clique (complete graph).
  • the present invention further improves efficiency by introducing a new concept called graph generalization cost.
  • the present invention can derive a plurality of ranked stem pattern candidates and simultaneously derive a plurality of secondary structures of each RNA for the stem pattern.
  • the method of constructing vertex label taxonomy by clustering the similarity power between vertices proposed in the present invention and performing frequent graph mining is based on the similarity between vertices and non- This method can be suitably applied when the degree of similarity can be defined naturally.
  • RNA sequence information processing apparatus which includes a stem candidate extraction unit that extracts a plurality of RNA secondary structure stem candidates from each of a plurality of RNA sequence data, RNA sequence data power Each of the plurality of extracted stem candidates has a vertex, and a graph generation unit that generates a stem graph connecting the vertices with edges, and the plurality of RNA sequence powers A graph that analyzes the stem graph and extracts subgraphs that are similar to the shape of the graph, have similar stem candidates at corresponding vertices, and appear frequently in the plurality of stem graphs as frequent stem patterns representing RNA secondary structure motifs And an analysis unit.
  • the present invention provides a plurality of RNA sequence data capabilities and a plurality of stem graphs. Generate.
  • a stem graph is a graph in which potential stem candidates in an RNA sequence are vertices, and vertices are connected by edges.
  • the subgraph is a stem pattern, which represents a partial secondary structure of the RNA sequence. Therefore, if a similar subgraph appears frequently in multiple stem graphs, the similar subgraph is a secondary structure motif common to multiple RNA sequences. Focusing on this point, the present invention extracts similar subgraphs that frequently appear in a plurality of stem graphs as frequent stem patterns representing RNA secondary structure motifs.
  • a secondary structure motif can be extracted from an RNA sequence group.
  • RNA sequence group after a functional RNA family has been identified.
  • a frequent stem pattern is extracted, and at the same time, an RNA sequence (stem graph) including the frequent stem pattern is also known. That is, at the same time as the secondary structure motif is extracted, the family containing the secondary structure motif can be identified.
  • the present invention can also be applied to a sequence group of functional families that have already been identified. In this case, secondary structure motifs are preferably extracted.
  • the RNA sequence information processing apparatus of the present invention may be realized by a single computer or a system having multiple computer powers.
  • the RNA sequence information processing apparatus may accept (input) and provide (output) data via a network such as the Internet.
  • the present invention is not limited to the above-described RNA sequence information processing apparatus.
  • Another aspect of the present invention is an information processing method using a computer, for example, and a program for realizing such a method.
  • various inventions relating to the above-described RNA sequence information processing apparatus can be applied to such another embodiment.
  • Another aspect of the present invention is an RNA sequence information processing method for extracting a secondary structure motif by a plurality of RNA sequence capabilities computer processing.
  • This method extracts a plurality of RNA secondary structure stem candidates from each of a plurality of RNA sequence data, and has each of the plurality of stem candidates extracted from each RNA sequence data force as a vertex, A plurality of stem graphs generated from each of the plurality of RNA sequences, the graph shapes are similar, and the corresponding vertex stem candidates are similar, Subgraphs that frequently appear in the plurality of stem graphs are extracted as frequent stem patterns representing RNA secondary structure motifs.
  • This aspect also provides the above-described advantages of the present invention.
  • Another aspect of the present invention is an RNA sequence information processing program for causing a computer to execute sequence information processing for extracting secondary structure motifs from a plurality of RNA sequences.
  • This program extracts a plurality of RNA secondary structure candidate stems from each of a plurality of RNA sequence data, and has each of the plurality of stem candidates extracted from each RNA sequence data as a vertex. Generate a stem graph connecting the edges with each other, analyze the plurality of stem graphs generated from each of the plurality of RNA sequences, and have similar graph shapes and similar stem candidates at corresponding vertices Then, the computer is executed to extract a subgraph frequently appearing in the plurality of stem graphs as a frequent stem pattern representing an RNA secondary structure motif.
  • This aspect also provides the above-described advantages of the present invention.
  • the present invention can provide a sequence data processing technique capable of extracting a secondary structure motif from a plurality of RNA sequence forces by information processing using a computer.
  • the present invention can provide a technique capable of simultaneously specifying a functional RNA family and extracting a motif.
  • FIG. 1 is a diagram showing DNA and RNA sequences.
  • FIG. 2 is a diagram showing an example of a local secondary structure of RNA.
  • FIG. 3 is a diagram showing an example of RNA secondary structure.
  • FIG. 4 is a diagram showing a computer that realizes RNA sequence information processing according to the present embodiment.
  • FIG. 5 is a diagram showing an overall view of RNA sequence information processing according to the present embodiment.
  • FIG. 6 is a functional block diagram of the RNA sequence information processing apparatus of the present embodiment.
  • FIG. 7 is a diagram showing a base pair probability matrix.
  • FIG. 8 is a diagram showing a stem graph.
  • FIG. 9 is a diagram showing a stem graph.
  • FIG. 10 is a diagram showing three types of connection relationships between stem candidates.
  • FIG. 11 is a diagram showing taxonomies as classification data.
  • FIG. 12 is a diagram showing the principle of graph analysis in the present embodiment.
  • FIG. 13 is a diagram showing a comparison process of stem patterns using classification data.
  • FIG. 14 is a diagram showing a generalization cost of a stem pattern.
  • FIG. 15 is a diagram showing the definition of support level.
  • FIG. 16 is a diagram showing a DFS tree of a pattern search algorithm.
  • FIG. 17 is a diagram showing an algorithm for realizing RNA sequence information processing according to the present embodiment.
  • FIG. 18 is a diagram showing an algorithm for realizing RNA sequence information processing according to the present embodiment.
  • the bioinformatics technology of the present embodiment treats an RNA sequence as an object of processing, expresses the secondary structure of RNA in a directed graph, and classifies it into a hierarchical classification.
  • bases constituting DNA and RNA are represented by a, u (t), c, and g. And a and u make complementary base pairs, and c and g make complementary base pairs.
  • reverse complementary sequences form a double helix.
  • structural RNA folds a single strand.
  • a secondary structure is created by complementary base pairs.
  • FIG. 2 shows an example of a local secondary structure.
  • two regions complementary to each other exist on the single-stranded RNA. Two complementary regions are joined together, A secondary structure is created.
  • the complementary regions that make up the secondary structure are called stems.
  • the two partial arrays that form the stem are referred to as parts or stem parts as appropriate. Two parts are joined to form a stem.
  • FIG. 3 shows an example of a larger range of secondary structure. As shown in the figure, multiple stems exist in one RNA sequence.
  • FIG. 4 shows a computer that realizes the RNA sequence information processing apparatus of the present embodiment.
  • the program execution unit 3 is composed of a processor such as a CPU.
  • the program storage unit 5 and the processing data storage unit 7 are composed of memories.
  • the computer 1 also includes an external storage device 11 such as a hard disk. Further, the computer 1 includes an input device 13, an output device 15, a recording medium mounting unit 17, a communication unit 19 and the like.
  • the program storage unit 5 stores a program for realizing the apparatus and method of the present embodiment, and particularly stores a stem candidate extraction program, a graph generation program, a classification data generation program, and a graph analysis program. To do. These programs are read from the external storage device 11 and executed by the program execution unit 3. Details of the functions of these programs will be described later.
  • the processing data storage unit 7 stores data to be processed and data after processing.
  • the processing data storage unit 7 stores, for example, RNA sequence data to be processed, stem candidate data, system graph data, classification data, and graph analysis data.
  • the memory functions as a work area for processing by the program execution unit 3, and feces various processing data. .
  • Data input / output to / from the computer 1 is typically performed via the input device 13 and the output device 15. In addition, data input / output may be performed between the recording medium and the recording medium via the recording medium mounting unit 17. Data input / output may be performed via the communication unit 19.
  • Computer 1 may be connected to a web server and data may be input / output via the network. Alternatively, the computer 1 may have a WEB server function.
  • the RNA sequence information processing apparatus extracts stem candidates latent in individual sequences from the RNA sequence group, and extracts stem patterns that frequently appear in the RNA sequence group.
  • Stempa A turn is a pattern (partial arrangement) formed by a plurality of stems. This stem pattern is applied to RNA motif extraction, RNA family extraction, and secondary structure prediction with multiple sequence power.
  • input data and output data are as follows.
  • the input data is RNA sequence group data.
  • the RNA sequences need not be aligned. Moreover, the RNA sequence groups do not have to belong to the same RNA family.
  • Computer 1 functions as an RNA sequence information processing device, processes RNA sequence group data according to the various programs shown in Fig. 4, obtains frequent stem patterns that frequently appear in RNA sequence groups, and supports frequent stem patterns. Determine secondary structure. These frequent stem patterns and secondary structures are output as output data.
  • the minimum support level and the maximum generalized cost are input as the meters. These parameters are processed as extraction conditions in the frequent stem pattern extraction process.
  • FIG. 5 shows an overview of RNA sequence information processing!
  • an RNA sequence group is input (Sl).
  • the RNA sequence groups need not be aligned.
  • Each RNA sequence is processed by the stem candidate extraction program (S2), and stem candidates for each RNA sequence are extracted (S3).
  • the stem candidate extraction program is realized by a program that generates a base pair probability sequence.
  • a stem graph, a classification data force graph generation program, and a classification data generation program are generated from the stem candidate information (S4).
  • One stem graph is generated for each RNA sequence.
  • the stem graph is a graph in which a plurality of stem candidates from which RNA sequence power is also extracted are used as vertices and the vertices are connected by edges.
  • a directed graph with a label as described later is generated.
  • the classification data is data obtained by classifying all stem candidates (vertices of the graph) extracted from a plurality of RNA sequence groups based on their similarity.
  • the classification data is tree-type taxonomy data (taxonomy) having a hierarchical structure.
  • the stem graph group is analyzed by a graph analysis program (S5), subgraphs that frequently appear in the stem dull group are extracted, and a secondary structure corresponding to the subgraph is obtained (S6).
  • a subgraph is a pattern consisting of some vertices and edges of a stem graph. Yes, it corresponds to a stem pattern.
  • subgraphs that are similar in graph shape have similar stem candidates at corresponding vertices, and appear frequently in the stem graph group are extracted. Similarity of vertices is required for classification data.
  • Such frequent subgraphs are extracted as frequent stem patterns representing RNA secondary structural motifs. Then, a secondary structure corresponding to the frequent subgraph is required.
  • FIG. 6 shows an RNA sequence information processing apparatus for realizing the above-described processing in the form of a functional block diagram.
  • the sequence data input unit 23 inputs RNA sequence group data.
  • the input RNA sequence data is stored in the sequence data storage unit 25.
  • the stem candidate extraction unit 27 extracts stem candidates of RNA secondary structure from each input RNA sequence and stores them in the stem candidate storage unit 29.
  • the graph generation unit 31 generates a stem graph of each RNA sequence and stores it in the graph storage unit 33. Further, the classification data generation unit 35 generates classification data regarding the vertices (stem candidates) of the stem graph and stores the classification data in the classification data storage unit 37. In the present embodiment, a directed graph with labels and hierarchical tree-type taxonomy data are generated.
  • the graph analysis unit 39 analyzes the stem graph group while referring to the classification data, and extracts subgraphs that frequently appear in the system graph.
  • the graph analysis unit 39 extracts subgraphs having similar graph shapes and similar stem candidates at corresponding vertices. Such partial graph power is extracted as a frequent stem pattern representing the RNA secondary structure motif.
  • the minimum support level input unit 41 and the maximum generalized cost input unit 43 input the minimum support level and the maximum generalized cost, which are parameters for determining the extraction conditions in the frequent stem pattern extraction process. These parameters are used for the processing of the graph analysis unit 39.
  • the output unit 45 outputs information on the frequent stem pattern extracted by the graph analysis unit 39.
  • the output unit 45 outputs secondary structure data corresponding to the frequent stem pattern.
  • the secondary structure data is generated by the secondary structure data generation unit 47.
  • the array data input unit 23, the minimum support level input unit 41, and the maximum generalization cost input unit 43 are set by the input device 13, the recording medium mounting unit 17 or the communication unit 19 of FIG. Realized.
  • the output unit 45 is realized by the output device 15, the recording medium mounting unit 17, or the communication unit 19 shown in FIG.
  • the data execution unit 3 and the graph analysis unit 39 execute the stem candidate extraction program, the graph generation program, the classification data generation program, and the graph analysis program stored in the program storage unit 5 of FIG. Is realized.
  • the secondary structure data generation unit 47 is also realized by the program execution unit 3 executing the program in the program storage unit 5.
  • the sequence data storage unit 25, the stem candidate storage unit 29, the graph storage unit 33, and the classification data storage unit 37 are realized by the processing data storage unit 7 and the external storage device 11 of FIG.
  • the stem candidate extraction unit 27 in FIG. 6 performs a process of extracting a plurality of stem candidates of RNA secondary structure from each RNA sequence data.
  • the stem candidate extraction unit 27 calculates the base pair formation probability of any two bases on the RNA sequence based on the energy of the molecular structure. Continuous base pair regions are extracted from the matrix as system candidates.
  • FIG. 7 shows a base pair probability matrix generated from RNA sequence data together with an example of the secondary structure of the RNA sequence.
  • the base pair probability matrix the same RNA sequence is arranged in the horizontal and vertical directions.
  • the matrix element (i, j) represents the probability that the i-th base and the j-th base form a base pair. This probability is obtained by calculation to find a structure with minimum energy.
  • the probability is represented by the size of the power point. Since one RNA sequence is arranged in both directions, the probability of total base pairing is expressed in the half region (triangle region) as shown.
  • the stem is a region arranged in a 45 degree direction that rises to the right as shown in the figure with a plurality of element forces having a high probability.
  • the stem candidate extraction unit 27 generates a base pair probability matrix as shown in FIG. 7 from each RNA sequence data.
  • the McCaskill algorithm is preferably used.
  • the stem candidate extraction unit 27 extracts, from the base pair probability matrix, a region in which a predetermined number n or more elements having a probability equal to or higher than the predetermined value p are continuous. This area is specified as a stem candidate and stored in the stem candidate storage unit 29.
  • the stem candidate extraction unit 27 calculates the average of the probabilities of all elements in the stem candidate. The average value is between 0 and 1. This average value is stored in the stem candidate storage unit 29 as a score of a stem candidate. This score is used to determine the similarity between stem candidates described later.
  • the preferred example of the stem candidate extraction process has been described above.
  • the stem candidate extraction process is not limited to the above.
  • a known stem sequence may be searched from the RNA sequence and identified as a stem candidate. Two partial sequences constituting the stem are searched.
  • the sequence of a known stem may be determined from known secondary structures obtained from previous studies.
  • the graph generation unit 31 in FIG. 6 performs a process of generating a stem graph corresponding to each RNA sequence based on information on candidate stems from which each RNA sequence data capability is also extracted.
  • FIG. 8 and FIG. 9 show examples of stem graphs.
  • the stem graph is drawn on the base pair probability matrix, and in Fig. 9, the stem graph is drawn alone.
  • each stem candidate is a vertex in the stem graph.
  • nine stem candidates are vertices. The stem candidates are connected by edges.
  • the stem graph is a directed graph with a label, and labels are assigned to vertices and edges of the graph. Each vertex and each edge is given a unique label to identify them. Furthermore, the following two pieces of information are given to each side.
  • Direction A direction representing a positional relationship between stem candidates.
  • the direction of the side is indicated by an arrow.
  • the direction of the edge is set so that it points from the stem candidate on the 5 'side (left side in the general linear arrangement) to the stem candidate on the third side (right side in the general linear arrangement).
  • the stem candidate position is specified by the position of the stem part on the 5 ′ side of each stem candidate.
  • the 5 ′ side is the left and the 3 ′ side is the right.
  • the 5 'side is up and the 3' side is down.
  • the direction of the side is set so as to be directed from the fifth stem candidate in the vertical arrangement to the third stem candidate.
  • the side arrow points from the upper stem candidate to the lower stem candidate in FIG.
  • connection relationship This is because the connection relationship between stem candidates belongs to three types of deviations Information. As shown in Figure 10, the three types are Juxtaposed, Embedded, and Overlapped. These are consistent relations.
  • the graph in Figure 9 includes parallel ("J") and embedded ("E") edges.
  • the graph generation unit 31 excludes stem candidate pairs that do not fall into any of the above three types from being connected by edges. This excludes inconsistent relations. For example, stem candidates # 2 and # 8 do not fall under the above connection types and are therefore not connected by edges.
  • the stem candidates for # 2 and # 8 share the same part on one side of the stem. Therefore, it is unlikely that both of these stem candidates are real stems. Since such stem candidate pairs are not connected by edges, a reasonable graph is formed.
  • the stem graph (directed graph with label) generated by the graph generation unit 31 has been described above.
  • the graph generation unit 31 sets the stem candidates extracted by the stem candidate extraction unit 27 as vertices, sets edges between the vertices, and assigns labels to the vertices and edges. As a result, the above graph is generated.
  • the graph generator 31 generates a stem graph as described above for each RNA sequence. Therefore, the graph generation unit 31 generates the same number of graphs as the number of input RNA sequences. These graphs are stored in the graph storage unit 33.
  • the classification data generation unit 35 in FIG. 6 performs processing for generating classification data for classifying stem candidate groups.
  • the classification data is hierarchical and tree-type taxonomy data.
  • the classification data generation process will be described in more detail.
  • the above-described stem graph generation process generates one stem graph from one RNA sequence.
  • this classification process classifies all stem candidates from which a plurality of RNA sequence capabilities are also extracted to generate one classification data.
  • Stem candidate classification is performed based on the similarity between stem candidates. Similarity is required for all combinations of stem candidates, and classification is performed using the similarity.
  • the similarity parameter is typically sequence homology between stem candidates.
  • the similarity of stem candidate pairs is defined by four similarities including the sequence homology above. (1) Sequence homology between stem candidates, (2) Score of each stem candidate, (3) Similarity of loop distance, (4) Similarity of position within the sequence.
  • the score of (2) is a probability calculated at the time of stem candidate extraction. More specifically, the score is the average of the base pair formation probabilities of stem candidates.
  • the sum of scores of two stem candidates is used.
  • the larger the sum of the scores the greater the similarity between the two stem candidates, and the smaller the sum of the scores, the smaller the similarity between the two stem candidates (the greater the dissimilarity).
  • the present invention focuses on the fact that the larger the sum of the scores, the higher the possibility that both of the two stem candidates are actual stems. Considering this, the present invention determines that the similarity is higher as the possibility that both stem candidates are actual stems is higher.
  • the loop distance in (3) is the distance (number of bases) between the two parts that make up the stem.
  • the position (4) is the position in the RNA sequence to which each stem candidate belongs. The position may be represented by a distance (number of bases) from the sequence end.
  • RNA sequence data the sequence of each candidate system, the score, the loop distance, and the position within the sequence (the score is As already explained, the base pair probability is also calculated).
  • the similarity of a set of stem candidates is calculated, so the four data forces also calculate the four similarity parameters and then combine them to produce the overall similarity of the set of stem candidates. Parameters are calculated. Such similarity parameters are calculated for any set of stem candidates.
  • the similarity parameter calculation process will be described in more detail later.
  • a similarity parameter that increases as the difference between the two stem candidates increases may be used. That is, the similarity parameter is realized with dissimilarity.
  • FIG. 11 shows the classification data generated based on the similarity as described above!
  • the classification data generation unit 35 performs clustering based on the similarity between the vertices, thereby generating tree-type taxonomy data as illustrated.
  • the left figure is a dendrogram generated by hierarchical clustering of system candidates. Similarity between candidate stems for clustering is (1) sequence homology as described above. Sequence similarity, (2) score of candidate, (3) loop distance, (4) ⁇ ⁇ ⁇ (position in sequence) mix Defined by The figure on the right is a taxonomy of the candidate stem label constructed from a dendrogram.
  • the vertices 1 to 7 in the lowest layer correspond to individual stem candidates.
  • the upper layer vertices represent a plurality of similar vertices in the lower layer. For example, since the bottom three vertices 1, 2, and 3 are similar, the three vertices are classified as one vertex 8 in the second layer.
  • the classification data generation unit 35 generates such classification data and stores it in the classification data storage unit 37.
  • the similar range is wider in the upper layer than in the lower layer. That is, the degree of generality is higher in the upper layer than in the lower layer. Therefore, in this embodiment, in order to express the degree of generality, the generalization cost is defined so that the value increases as it goes to the upper layer, as shown in FIG.
  • the i layer generalization cost is expressed as l -n (i) ZN.
  • N is the number of vertices in the lowest layer (total number of stem candidates).
  • n (i) is the number of vertices belonging to layer i.
  • the general cost is used in the following graph analysis process.
  • the graph analysis unit 39 in FIG. 6 performs a process of extracting subgraphs that frequently appear in a plurality of stem graphs generated by the graph generation unit 31.
  • similar subgraphs are extracted.
  • Similar subgraphs are graphs with similar graph shapes and similar stem candidates at corresponding vertices. Since the subgraph corresponds to the stem candidate pattern, the subgraph will be referred to as a stem pattern and the extracted frequent subgraph will be referred to as a frequent stem pattern.
  • the graph analysis unit 39 performs a process of extracting a stem pattern (subgraph) whose appearance frequency in the stem graph is equal to or higher than a predetermined threshold.
  • This frequency is typically expressed as a ratio of “the number of stem graphs including a specific similar stem pattern” to “the total number of stem graphs”, as will be described later.
  • the single frequent stem pattern to be issued may actually be a set of a plurality of stem patterns.
  • FIG. 12 shows the principle of graph analysis.
  • Figure 12 shows two stem graphs. Two stem graph forces with similar stem patterns are also extracted.
  • the stem pattern consists of three vertices and three sides connecting them.
  • the similarity of the stem pattern is determined by the similarity of the graph shape and the similarity of the vertices in the graph. In the present embodiment, when the following three conditions are satisfied, the graph shapes of the two subgraphs are similar.
  • a complete (Clique) graph is extracted as described later. Therefore, in similar subgraphs, the number of vertices is the same, any two vertices are connected by an edge, and the label of each edge satisfies the condition (2) (3). Fulfill.
  • Similarity between vertices can be judged using classification data.
  • classification data vertices belonging to the same group are judged to be similar.
  • FIG. 13 shows an example of two stem patterns.
  • the corresponding two sets of vertices are the same, but the corresponding set of vertices are different.
  • the taxonomy of these apex forces in Fig. 11 it is assumed that they belong to the same classification in the hierarchy one level above. In this case, the corresponding vertices are similar and the two stem patterns are similar.
  • the corresponding vertices are similar if the corresponding vertices belong to the same classification in the upper layer comparison.
  • the hierarchy is sequentially changed up, and the similarity between vertices is determined.
  • the generalization cost increases as the level increases.
  • the general cost of layer i is represented by 1 n (i) ZN, where N is the number of vertices in the lowest layer (total number of system candidates), and n (i) is The number of vertices belonging to layer i.
  • FIG. 14 shows the generalized cost of the stem pattern!
  • the generalized cost of the stem pattern is the average general cost of each vertex.
  • the maximum generalization cost of the stem pattern is specified, and frequent system patterns are extracted so that the generalization cost is less than or equal to the maximum generalization cost. For example, if the general rule of Fig. 13 is performed, the generalization cost exceeds the maximum value. In this case, the two stem patterns in FIG. 13 are not similar.
  • Support level is more than minimum support level
  • the degree of support represents the degree of frequent occurrence, as shown in FIG.
  • one stem pattern exists in two of the three stem graphs.
  • the support level of the corresponding pattern is 2Z3.
  • a complete graph is a graph in which each vertex is connected by all vertices and edges. If the stem pattern is part of an RNA sequence, the stem pattern is always a complete graph. The general cost is as described above.
  • a closed pattern is a pattern that “is a pattern that truly includes itself and does not have a pattern that has the same level of support as you”.
  • the above-described graph analysis processing is preferably realized by a pattern search algorithm. More specifically, the graph analysis function is realized by the DFS code tree search algorithm of FIG. This search algorithm searches the tree in the depth direction while changing the pattern little by little, and counts various candidate patterns.
  • the pattern search algorithm executes the above-described graph analysis processing. That is, the pattern shape is changed. In addition, the general degree is changed based on the taxonomy. Various patterns are counted from a plurality of stem graphs. A frequent stem pattern that satisfies the above-mentioned conditions is required.
  • the ⁇ turn search algorithm is configured to efficiently and completely count various patterns. Furthermore, the present embodiment performs the limited processing described below in consideration of the above-described pattern extraction conditions, thereby realizing further efficiency.
  • Branch hunting by inverse monotonicity of support (2) Limiting the DFS code tree child elements by Clique constraint, (3) Branch hunting using maximum generalization cost constraint, (4) Excessive Branch hunting to remove generalized patterns. “Pruning” means to exclude a partial tree on the tree from the search target.
  • the graph analysis process for extracting frequent stem patterns has been described above.
  • the graph analysis unit 39 extracts a frequent stem pattern by performing the above-described processing. Further, the secondary structure raw data generation unit 47 generates secondary structure data corresponding to the extracted frequent stem patterns. Secondary structure data corresponding to these frequent stem patterns is output from the output unit 45.
  • the graph analysis unit 39 extracts all frequent stem patterns that meet the above-described conditions. Therefore, the graph analysis unit 39 normally extracts a plurality of frequent stem patterns. Furthermore, since similarity is taken into consideration, one frequent stem pattern may correspond to a plurality of stem patterns. Secondary structure data may be generated from each stem pattern (partial graph). These data may be output.
  • the RNA sequence information processing apparatus, method, and program according to the present embodiment have been described in detail above. Hereinafter, advantages of various aspects of the present invention will be described together.
  • the present invention generates a plurality of stem graphs, and extracts frequent stem patterns from the plurality of stem graphs. Frequent stem patterns represent RNA secondary structural motifs. Therefore, the present invention can extract a secondary structure motif from the RNA sequence group.
  • RNA sequence group after a functional RNA family has been identified.
  • the frequent stem pattern is extracted and at the same time the frequent step
  • the RNA sequence (stem graph) that contains the pattern is also known. That is, at the same time as the secondary structure motif is extracted, the family containing the secondary structure motif can be identified.
  • the present invention can also be applied to a sequence group of functional families that have already been identified. In this case, secondary structure motifs are preferably extracted.
  • the graph generation unit may give the direction corresponding to the positional relationship of each stem candidate pair on the RNA sequence to the label of the side connecting each stem candidate pair. . Then, the graph analysis unit may extract subgraphs having the same direction of corresponding edges from a plurality of stem graphs. Thereby, a plurality of subgraphs with similar stem graph forces can be extracted appropriately.
  • the graph generation unit may add information on whether the connection relationship of each stem candidate pair belongs to parallel, embedded, or overlapping, to a label of an edge connecting each stem candidate pair.
  • the graph analysis unit may extract subgraphs having the same connection relation of corresponding edges from a plurality of stem graphs. This makes it possible to properly extract multiple subgraphs with similar stem graph power.
  • the graph generation unit may exclude stem target candidates that do not fall into any of parallel, embedded, and overlapping, and the connection target force due to edges. As a result, the extraction of inappropriate subgraphs can be avoided, and multiple subgraphs with similar stem graph forces can be extracted appropriately.
  • the graph generation unit may extract a complete subgraph in which each vertex is connected to all other vertices in the subgraph by edges. This makes it possible to appropriately extract a plurality of stem graph force-like partial graphs.
  • the classification data generation unit may generate classification data for classifying a plurality of stem candidates included in a plurality of stem graphs based on similarity.
  • the graph analysis unit may extract a partial graph in which the corresponding vertex stem candidates belong to the same classification from a plurality of stem graphs. Thereby, the partial graphs having a plurality of similar stem graph forces can be appropriately extracted.
  • the classification data generation unit uses, as classification data, taxonomy data obtained by hierarchically clustering a plurality of stem candidates so that the width of the similar range increases as the lower layer force also increases toward the upper layer. May be generated.
  • the graph analysis unit responds based on the taxonomy data. Even if the candidate stem stems belong to different classes in the lower layer, subgraphs belonging to the same class may be extracted in the upper layer. This makes it possible to appropriately extract a plurality of stem graph force-like partial graphs.
  • the maximum generalized cost input unit may input the maximum general cost that is the maximum allowable generalized cost that increases according to the hierarchy in the taxonomy data.
  • the graph analysis unit may extract a subgraph having a generalization cost equal to or less than the maximum generalization cost. This makes it possible to appropriately extract a plurality of stem graph force-like subgraphs.
  • the classification data generation unit calculates the similarity parameter indicating the similarity of the stem candidate pair, the sequence homology of the stem candidate pair, the similarity of the distance of the loop formed by the stem candidate, and the RNA It may be determined according to at least one of the similarities in the positions of stem candidates in the sequence.
  • the classification data generator calculates the similarity parameter according to the base pair formation probability of the stem candidate based on the secondary structure energy. At this time, the sum of the base pair formation probabilities of the two stem candidates is evaluated. It can be determined that the greater the sum, the higher the similarity. All of these are taken into account in the above example. This makes it possible to appropriately determine similarities between vertices that are stem candidates and to appropriately extract similar partial drawings from a plurality of stem graphs. Parameters that are the basis for similarity determination should be attached to the label of the stem-draft vertex.
  • the minimum support level input unit may input a minimum support level that is a minimum allowable value of the support level of the partial graphs in the plurality of stem graphs.
  • the graph analysis unit may extract a subgraph having a support level equal to or greater than the minimum support level.
  • the degree of support is a term used in graph analysis and represents the frequency (degree of frequent occurrence).
  • the stem candidate extraction unit is based on the energy of the molecular structure! /, Based on the base pair probability matrix obtained by determining the base pair formation probability of any two bases on the RNA sequence. A region may be extracted as a stem candidate. As a result, stem candidates can be appropriately extracted.
  • a similar subgraph (frequent stem pattern) is extracted in consideration of the taxonomy between vertices.
  • the side taxonomy is Taking into account, a similar subgraph (frequent stem pattern) may be extracted.
  • an edge taxonomy is generated based on the similarity of edges using parameters that characterize edges.
  • the edge taxonomy is processed in the same way as the vertex taxonomy, and subgraphs with similar edges are extracted.
  • Section 2 describes the definitions of basic terms in graph theory, followed by a graph representation method for RNA and the problem to be solved by graph mining, as well as the theory and algorithm for solving it efficiently.
  • Section 3 describes the implementation method.
  • V U E ⁇ L U L is the vertex or edge force and its mapping to the label
  • a graph Gs is a subgraph of G (written as G c G ), and there exists a mapping ⁇ : V (G) ⁇ V (G)
  • the taxonomy with generalization cost (T) is the DAG directed acyclic graph of force LS), and the general cost c (v) ER is defined for each vertex vE LS.
  • Taxonomy with generalized costs is simply called Taxonomy.
  • Taxonomy vertex X let x or x's ancestor set (the set of all vertices that can be reached by following the directed edge from x!) As ⁇ (X). Given graph and taxonomy
  • Taxonomy T and graphs G and G are given.
  • G is a subgraph under Taxonomy T for which G Taxonomy T is given.
  • This section describes how to model a whole set of RNA sequences using a labeled directed graph and Taxonomy.
  • RNA analysis methods that actively use constituent elements of RNA secondary structures such as stems and loops as a unit have achieved some success.
  • Scarna (Reference B3) formulates the alignment of fixed-length stems by well-considered dynamic programming, and aligns two RNA sequences and predicts their common secondary structure at high speed.
  • RNAscf (Reference B4) predicts a common secondary structure by repeatedly aligning stem candidates in multiple sequences.
  • Carnac Reference B5 extracts potential stem candidates from a group of two or more RNA sequences, and predicts the secondary structure of each RNA sequence using a technique called cofolding.
  • comRNA (Reference B6) uses the Clique search method in graph theory to propose a method to align and discover common motifs from RNA sequences! /, NA! /.
  • These stem-based methods include a lot of heuristics, but there are many practical methods that have a good accuracy and complexity. In this method, as well as these methods, modeling is performed by actively using stem candidates.
  • RNA sequence can be expressed using a tree structure or RAG (Reference B7) if the secondary structure is determined as one.
  • RAG Reference B7
  • RNA is modeled using all stem candidates that have the potential to obtain RNA sequencing capabilities rather than modeling the secondary structure of each RNA sequence itself. The procedure is as follows. (1) Stem candidates are extracted from the base pair probability matrix of each RNA sequence and used as the vertices of the graph.
  • the base pairing probability matrix is calculated from the RNA sequence using McCaskill's algorithm (reference B8).
  • the G, j) element of the base pair probability matrix calculated by McCaskill's algorithm represents the probability that the i-th base and the j-th base form a base pair.
  • a maximum set of n or more consecutive base pair sets having a probability of forming a base pair of p or more is extracted as a stem candidate (Reference B3).
  • the current implementation allows M gaps in base pair units. However, stem candidates that can contain bulges cannot be considered (the number of stem candidates increases, so this should be allowed).
  • this stem candidate is the vertex of the graph.
  • the dissimilarity between the two vertices (stem candidates) in section 2.2.1 is defined as follows.
  • stem candidate S p (S) is 5, side stem start position
  • d (S) is loop distance
  • r (S) is 3 'stem start position
  • s (S) is base pair probability Put with the stem score calculated from the row.
  • the dissimilarity d (S, S) associated with the position in the array is
  • SW (S, S) is a step using the RIBOSUM permutation matrix (Reference B9).
  • Hierarchical clustering is performed on all stem candidates extracted by the method in Section 2.2.1 based on the above dissimilarity.
  • Taxonomy has a hierarchical structure.
  • the generalization cost of labels belonging to the nth level of Taxonomy is given by “1— (number of labels in nth level) / (number of vertices)”.
  • the relationship between two stem candidates can be classified as follows.
  • the set of stem candidates that can be established as a secondary structure must be a Clique subgraph when the RNA is graphed using the method described above.
  • FIG. 7 is a stem graph of tRNA.
  • vertex combinations (1, 2, 8, 9), (1, 2, 4, 5, 9), etc. are a set of stem candidates that are valid as RNA secondary structures.
  • our model method we construct a directed graph with all possible stem candidates for each sequence in the RNA sequence set, and consider taxonomy for vertex labels. Two new things are proposed. As mentioned at the beginning of this section, methods for modeling RNA secondary structures using tree structures and graphs have already been proposed. Modeling methods such as this method have been conceived so far. I helped. Therefore, the above model method is one of the contributions of this paper.
  • “Problem 1” Extract all stem patterns that frequently appear in RNA sequence sets. At the same time, a set of stems of RNA sequence corresponding to each stem pattern (secondary structure of RNA sequence) is specified.
  • problem 1 is rephrased as follows.
  • P is called an over-generalized pattern.
  • the following is an extension of the closed pattern definition proposed by Yan et al. (reference B18) to take taxonomy into account. Is. Patterns that are not closed patterns are also less useful as patterns.
  • the pattern P is a closed pattern
  • Taxonomy it is possible to extract a flexible pattern, while extracting There is concern that the number of patterns will increase. However, the taxonomy top-level label pattern is likely to be less important, even if it appears frequently. In order to determine whether this pattern power is composed only of the higher-level taxonomy labels !, we define a new concept called Noturn's general cost.
  • the general cost of a pattern is the average cost of the labels that make up the pattern.
  • DFS Subscripting Numbering the vertices of a graph according to the order in which they are searched in the DFS tree. Also, for graph G and DFS tree T, DFS subscripting
  • condition (ii) of (1) is not necessary. However, by including the condition (ii) in (1), edges can be compared even if the graph and its DFS tree are different.
  • the edges included in the graph can be given a linear order.
  • the expression method called DFS code is defined as follows in consideration of the vertex and edge labels.
  • edge is represented as (i, j, 1, 1, 1, d).
  • 1 represents the labels of the i-th and j-th vertices, respectively. 1 represents the label of edge (i, j).
  • the order of labels is the order of (fromlabel, tolabel, edgelabel, direction) (the order of (fromlabel, edgelabel, tolabel) in the original text). This will be important later when branching with generalized costs.
  • is the DFS tree of G].
  • min (G) is a canonical expression for graph G. Therefore, min (G) is sometimes called canonical DFS code.
  • DFS code a (a, a, ---, a) is given.
  • a valid DFS code (a, a,---, a, b) is called a child of DFS code a and a is a parent of DFS code ⁇
  • the DFS code tree defined above is an ordered tree with the DFS code as a node. Problem 3 searches in the order of this ordered tree. The following theorem guarantees that the DFS code tree can count all subgraphs.
  • the DFS Code Tree contains the minimum DFS code for all graphs.
  • ⁇ is the minimum DFS code. a (l ⁇ i ⁇ n) and all of its descendants (s i j 0 i
  • the DFS Code Tree that is left after branching the subtree rooted at a in the DFS code tree contains all the minimum DFS codes.
  • the resulting DFS code tree contains the minimum DFS code for all Clique subgraphs.
  • the pattern is not a Clique pattern.
  • the DFS code tree means a DFS code tree with the above restrictions added to its child elements.
  • the minimality of DFS code a is determined by comparing whether a is equal to the minimum DFS code of a. This is substantially equivalent to determining the isomorphism of the graph and requires a large amount of calculation.
  • the determination of the minimality of this DFS code can be avoided by using the following proposition.
  • the subtrees that remain after pruning the subtree contain the minimum DFS code for all clique patterns.
  • the first Clique pattern P is the vertex [vf power complete graph, and its DFS code,
  • the DFS tree is ( ⁇ , ⁇ , V, ⁇ , ⁇ , V). However, DFS subscripting ( ⁇ , ⁇ , V).
  • the first Clique pattern DFS code generated by extending is not minimal.
  • a label that satisfies x ⁇ y is assigned to an arbitrary label x E V (T) of GS and its arbitrary ancestor y in Taxonomy T.
  • the DFS code tree that remains as a result of pruning the subtree rooted at the DFS code whose generalization cost is greater than maxcost on the DFS code tree is the smallest DFS code with a generalization cost of maxcost or less and a clique pattern including.
  • su Vw (P) ⁇ i PPC (is called the weighted support of the pattern P.
  • Equation 18 means the number of patterns ⁇ ⁇ ⁇ ⁇ satisfying P ⁇ (the same pattern is counted as one).
  • the skeleton part is Algorithm 1 (Algorithm 1) in FIG.
  • the input of the algorithm is a set of RNA sequences (which may include multiple families or unknown families), minimum support, and maximum generalization cost.
  • Proposition 2.2 and Proposition 2.5 it is sufficient to consider only frequent patterns and patterns whose general cost is less than maxcost.
  • Algorithm 2 is a skeleton part of graph mining in the proposed method.
  • the minimality of the currently considered pattern s is determined, and the search for non-minimum patterns is terminated (line 3). This operation maintains the completeness of the algorithm according to Theorem 2.4. In this case, since it is costly to determine the minimality of the DFS code, those that do not need to be judged based on Proposition 2.4 are not judged.
  • the general cost is determined, and the search is terminated if the general cost is greater than maxcost. This is guaranteed by Proposition 2.5.
  • Line 6 expands the current pattern s by extending one edge.
  • the pattern is expanded to satisfy the condition of Proposition 2.3, and patterns that appear frequently (the support level is greater than minsup) are stored in C (line 6).
  • the algorithm GraphMining is called recursively in the order of DFS lexicograp hie order for the C pattern.
  • RNAminer RNA stem pattern miner
  • stem candidates are extracted as a maximal set of base pairs, so even if there is a slight overlap between stem candidates, give an edge!
  • the present invention can extract a secondary structure motif by a plurality of RNA sequence data capabilities computer processing, and is useful as a novel informatics technique.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

 RNA配列群から2次構造モチーフを抽出する新規な技術を提供する。複数のRNA配列データの各々から、RNA2次構造の複数のステム候補が抽出される。各RNA配列のステム候補を用いてステムグラフが生成される。ステムグラフは、複数のステム候補を頂点として有し、頂点間を辺で結んだグラフである。複数のRNA配列に対応する複数のステムグラフが分析される。それらステムグラフに頻出する類似した部分グラフが、RNA2次構造モチーフを表す頻出ステムパターンとして抽出される。複数のステムグラフのステム候補群が分類されて、分類データが生成される。分類データを用いて、類似する部分グラフが抽出される。ラベル付き有向グラフが好適に生成される。また、分類データとして階層的なタクソノミデータが生成される。

Description

明 細 書
RNA配列情報処理装置
技術分野
[0001] 本発明は、複数の RNA配列データをバイオインフォマティクス技術によって処理し て、それら複数の RNA配列データに共通に含まれる 2次構造モチーフを抽出する技 術に関する。
背景技術
[0002] 近年、多くの RNAがタンパク質に翻訳されることなぐ RNA自身が機能性分子とし て生理学的に重要な役割を果たすことが明らかになつてきた。これらの RNAは総称 して機能性 RNA(fonctional RNA)または非コード RNA (non- coding RNA, ncRNA)と 呼ばれ、非常に注目を集めている。たんぱく質と同様に、機能性 RNAは、 1次配列よ りも立体構造がその機能に重要であると考えられている。また、 Tinocoらは、 RNAの 立体構造の大部分が 2次構造により決定されるとの報告をしている (文献 A1)。それ らを裏付けるように、多くの機能性 RNAが、進化的に高度に保存された大域的ある いは局所的な 2次構造モチーフを有する機能ファミリーを形成して 、る(例えば tRNA, RNaseP— Dact— a, tmRNAなと (http://www.sanger.ac.uk/software/rfam/) )。従って、 機能性 RNAファミリーを特定すること及び機能性 RNAファミリーを特徴付ける 2次構 造モチーフを抽出することは、機能性 RNAを解析する際に非常に有用な情報をもた らす。
[0003] 現在のところ、 RNAの 2次構造予測の手法は大きく分けて 2種類存在する。そのひ とつが、 mfold (文献 A2)や RNAfold (文献 A3)に代表される、最小自由エネルギー( Minimum Free energy, MFE)に基づいた単一の RNA配列からの 2次構造予測であ る。これらの手法は比較的古くから研究がなされているが、一般的にはそれほど高精 度ではない。その理由は、エネルギーパラメタの精度にあると考えられており、また、 実際の RNA分子が他の分子との相互作用を受けながら立体構造を形成しているた めに単一の配列の最適な構造とは異なる構造を RNA分子が有することにあると考え られる。そのため、最適な構造だけでなぐ準最適な 2次構造まで導出する手法 (文 献 A4、 A5、 A6)が研究されており、また、統計的に RNAの 2次構造をサンプリング する手法 (文献 A7、 A8)の研究もなされている。
[0004] もうひとつの手法は、共通の二次構造を有すると考えられる複数の RNAを用いた( 共通) 2次構造予測手法である。この手法には、入力配列のアラインメントを必要とす る手法 (RNAalifold (文献 A9)、 ILM (文献 A10)、 Pfold (文献 Al 1)など)と、ァラインメ ントを必要としない手法(ScaRNA (文献 A12)、 Cofolga (文献 A13)、 PMcomp/PMmul ti (文献 A14)、 RNAcast (文献 A15)、 comRNA (文献 A16)、 CaRNAc (文献 A17)な ど)が存在する。これらの手法は、似たような構造を有する入力配列群が適切に与え られれば、 MFEだけに基づいた 2次構造予測よりも多くの情報を用いるので、一般 的には精度が良いとされている。ただし、アラインメントを仮定せずに複数配列力 そ の共通 2次構造を導出する数理的に厳密なアルゴリズムは、 Sankoffアルゴリズム(文 献 A18)と呼ばれる手法と等価となり、時間計算量と記憶計算量が膨大である。
[0005] このような一般的な 2次構造の予測手法だけでなぐ RNAのモチーフに焦点を当て た RNA情報解析技術も多数存在する(文献 A19)。 ERPIN (文献 A20、 A21)、 Infer nal (文献 A22)、 RNAMotif (文献 A23)は、 RNAのマルチプルアラインメントから、そ れらの 2次構造モチーフのモデル化を行 、、構築されたモデルを用いてゲノム上から そのモデルに適合する 2次構造モチーフの探索を行う。これらの手法は、既知のモチ ーフを有する配列を発見する際に利用可能である。一方で、ファミリーを形成すると 考えられる機能性 RNA配列群から、そのファミリーを特徴付けるモチーフを抽出する ための手法も存在する。 GPRM (文献 A24)は、遺伝的アルゴリズムを用いて入力配 列群とランダム配列群とを区別する 2次構造モチーフの発見を行う。 RNAprofile (文献 A25)は、 Greedyかつヒューリスティックな方法により探索空間を減少させ、整列して いない RNA配列群力 局所的に保存された 2次構造モチーフを発見する手法を提 案している。さらについ最近では、 CMfinder (文献 A26)と呼ばれる Covariance Model とヒューリスティック手法を組み合わせた、ノイズに対してロバストな、非整列 RNA配 列群からのモチーフ発見手法も提案されて 、る。これらの機能性 RNAファミリーから のモチーフ抽出手法は、ある程度のノイズに対しては影響を受けないような工夫がさ れて 、るが、基本的には単一の RN Aのファミリ一である配列群に適用する手法であ る。し力しながら、解析対象となる RNA配列集合に複数のファミリーや未知のファミリ 一が含まれるという現実的な状況においては、機能性 RNAファミリーの特定と 2次構 造モチーフの抽出は、一体的な処理によって同時に行われることが望ましい。なぜな ら、ファミリーの決定にはファミリーを特徴付ける 2次構造モチーフが必要であり、かつ 、 2次構造モチーフの決定にはファミリーが必要となるからである。これは、ある意味、 特徴抽出とクラスタリングを同時に行う問題に近いといえる。
その他の関連する背景技術を説明すると、 RNA配列のグラフによるモデルィ匕の既 存手法としては、 RAG (文献 A27)が有名である。これは RNAの 2次構造のモデル化 を行う方法である。また、文献 A28は、 RNAファミリーの 2次構造のプロファイルが与 えられた際に、そのプロファイルをグラフで表現すると同時に、プロファイルを用いて ゲノム配列(の断片)をグラフによりモデルィ匕する方法を提案して 、る。
下記のリスト中の各文献は、本明細書に組み込まれる(imcorporated)。
(文献 A1)
I Jr Tinoco and C Bustamante. How RNA folds. J Mol Biol, Vol. 293, No. 2, pp. 271-281, Oct 1999.
(文献 A2)
Michael Zuker. Mfold web server for nucleic acid folding and hybridization prediction. Nucleic Acids Res, Vol. 31, No. 13, pp. 3406—3415, Jul 2003. (文献 A3)
Ivo L Hofacker. Vienna RNA secondary structure server. Nucleic Acids R es, Vol. 31, No. 13, pp. 3429-3431, Jul 2003.
(文献 A4)
Robert Giegerich, Bjorn Voss, and Marc Rehmsmeier. Abstract shapes of RNA. Nucleic Acids Res, Vol. 32, No. 16, pp. 4843—4851, 2004. Evaluatio n Studies.
(文献 A5)
Steffen P, Voss B, Rehmsmeier M, Reeder J, and Giegerich R. RNAshape s: an integrated RNA analysis package based on abstract shapes. Bioinform atics, Dec 2005. JOURNAL ARTICLE.
(文献 A6)
S Wuchty, W Fontana, I L Hofacker, and P Schuster. Complete suboptim al folding of RNA and the stability of secondary structures. Biopolymers, V ol. 49, No. 2, pp. 145-165, Feb 1999.
(文献 A7)
Chi Yu Chan, Charles E Lawrence, and Ye Ding. Structure clustering fea tures on the Sfold Web server. Bioinformatics, Vol. 21, No. 20, pp. 3926— 3928, Oct 2005.
(文献 A8)
Ye Ding, Chi Yu Chan, and Charles E Lawrence. Sfold web server for s tatistical folding and rational design of nucleic acids. Nucleic Acids Res, V ol. 32, No. Web Server issue, pp. 135—141, Jul 2004.
(文献 A9)
Stefan Washietl and Ivo L Hofacker. Consensus folding of aligned sequenc es as a new measure for the detection of functional RNAs by comparative genomics. J Mol Biol, Vol. 342, No. 1, pp. 19—30, Sep 2004.
(文献 AlO)
Jianhua Ruan, Gary D Stormo, and Weixiong Zhang. ILM: a web server f or predicting RNA secondary structures with pseudoknots. Nucleic Acids Re s, Vol. 32, No. Web Server issue, pp. 146—149, Jul 2004.
(文献 Al l)
Bjarne Knudsen and Jotun Hein. Pfold: RNA secondary structure predictio n using stochastic context-free grammars. Nucleic Acids Res, Vol. 31, No.
13, pp. 3423-3428, Jul 2003. Evaluation Studies.
(文献 A12)
Y Tabei, K Tsuda, T Kin, and K Asai. Sし ARNA:Fast and Accurate Stru ctural Alignment of RNA Sequences by Matching Fixed-length Stem Fragme nts. submitted to Bioinformatics.
(文献 A13)
Akito Taneda. Cofolga: a genetic algorithm for finding the common folding of two RNAs. Comput Biol Chem, Vol. 29, No. 2, pp. 111—119, Apr 20 05.
(文献 A14)
Ivo L Hofacker, Stephan H F Bernhart, and Peter F Stadler. Alignment of RNA base pairing probability matrices. Bioinformatics, Vol. 20, No. 丄 4, pp. 2222-2227, Sep 2004. Evaluation Studies.
(文献 A15)
Jens Reeder and Robert Giegerich. Consensus shapes: an alternative to th e SankoiF algorithm for RNAc onsensus structure prediction. Bioinformatics, Vol. 21, No. 17, pp. 3516—3523, Sep 2005.
(文献 A16)
Yongmei Ji, Xing Xu, and Gary D Stormo. A graph theoretical approach for predicting common RNA secondary structure motifs including pseudoknot s in unaligned sequences. Bioinformatics, Vol. 20, No. 10, pp. 1591—1602, Jul 2004. Evaluation Studies.
(文献 A17)
Helene Touzet and Olivier Perriquet. CARNAC: folding families of related RNAs. Nucleic Acids Res, Vol. 32, No. Web Server issue, pp. 142—145, Jul 2004. Evaluation Studies.
(文献 A18)
D Sankoff. Simultaneous solution of the RNA folding alignment and pro25 tosequence problems. SIAM J. Appl. Math, pp. 810-825, 1985.
(文献 A19)
Athanasius F. Bompf 'unewerer, Christoph Flamm, し laudia Fried, Guido Fri tzsch, Ivo L. Hofacker, J org Lehmann, Kristin Missal, Axel Mosig, Bettina M"uller, Sonja J. Prohaska, B"arbel M. R. Stadler, Peter F. Stadler, And rea Tanzer, Stefan Washietl, and Christina Witwer. Evolutionary patterns of non-coding rnas. Th. Biosci" Vol. 123, pp. 301 - 369, 2005.
(文献 A20)
Andre Lambert, Jean-Fred Fontaine, Matthieu Legendre, Fabrice Leclerc, Emmanuelle Permal, Francois Major, Harald Putzer, Olivier Delfour, Bernard
Michot, and Daniel Gautheret. The ERPIN server: an interface to profile- based RNA motif identification. Nucleic Acids Res, Vol. 32, No. Web Serv er issue, pp. 160—165, Jul 2004. Evaluation Studies.
(文献 A21)
D Gautheret and A Lambert. Direct RNA motif definition and identificatio n from multiple sequence alignments using secondary structure profiles. J M ol Biol, Vol. 313, No. 5, pp. 1003—1011, Nov 2001.
(文献 A22)
S R Eddy and R Durbin. RNA sequence analysis using covariance models. Nucleic Acids Res, Vol. 22, No. 11, pp. 2079—2088, Jun 1994.
(文献 A23)
T J Macke, D J Ecker, R R Gutell, D Gautheret, D A Case, and R Sa mpath. RNAMotif, an RNA secondary structure definition and search algorit hm. Nucleic Acids Res, Vol. 29, No. 22, pp. 4724—4735, Nov 2001.
(文献 A24)
Yuh-Jyh Hu. Prediction of consensus structural motifs in a family of core gulated RNA sequences. Nucleic Acids Res, Vol. 30, No. 17, pp. 3886—389 3, Sep 2002.
(文献 A25)
uiulio Pavesi, uiancarlo Mauri, Marco Stefani, and Graziano Pesole. RNAP rofile: an algorithm for finding conserved secondary structure motifs in unali gned RNA sequences. Nucleic Acids Res, Vol. 32, No. 10, pp. 3258—3269, 2004.
(文献 A26)
Yao Z, Weinberg Z, and Ruzzo WL. CMfinder— a covariance model based RNA motif finding algorithm. Bioinformatics, Dec 2005. JOURNAL ARTICLE. (文献 A27)
Daniela Fera, Namhee Kim, Nahum ShiiFeldrim, Julie Zorn, Uri Laserson, Hin Hark Gan, and Tamar Schlick. RAG: RNA— As— Graphs web resource. B MC Bioinformatics, Vol. 5, p. 88, Jul 2004.
(文献 A28)
Yingiei Song, Chunmei Liu, Russell L. Malmberg, Fangfang Pan, and Limin g Cai. Tree decomposition based fast search of rna structures including ps eudoknots in genomes. In CSB, pp. 223.234. IEEE Computer Society, 2005
[0007] 上述してきたように、機能性 RNAの機能ファミリーを同定すること及びファミリーを特 徴付ける 2次構造モチーフを抽出することは共に機能性 RNAの解析において非常 に重要である。解析対象となる RNA配列集合に複数のファミリーや未知のファミリー が含まれているという現実的な問題設定の下では、機能性 RNAファミリーの特定と 2 次構造モチーフの抽出は互いに密接に関連した問題となり、同時に解くべき必要が 生じる。なぜなら、ファミリーの決定にはファミリーを特徴付ける 2次構造モチーフが必 要であり、かつ、 2次構造モチーフの決定にはファミリーが必要となるからである。しか しながら、既存の RNA解析手法では、これらの問題を同時に解く手法は存在しない 発明の開示
発明が解決しょうとする課題
[0008] 本発明は上記背景の下でなされたものであり、その目的は、コンピュータを用いた バイオインフォマティクスの情報処理によって RNA配列群から 2次構造モチーフを抽 出することができる好適な配列データ処理技術を提供することにある。
本発明の一つの目的は、機能性 RNAのファミリーの特定とモチーフ抽出を同時に 行うことが可能な技術を提供することにある。
課題を解決するための手段
[0009] 本発明は、 RNA配列データを対象とした配列情報処理技術を提供する。本発明 は、概略的には、 RNA配列群をタクソノミ (Taxonomy)を用いたラベル付き有向ダラ フでモデルィ匕し、近年データマイニングの分野で活発に研究されて 、るグラフ解析 ( グラフマイニング)手法を応用して、配列群に頻出するステムパターン(2次構造モチ ーフ)の抽出およびそのステムパターンを有する RNA配列集合 (機能性 RNAファミリ 一)の特定を行う。ここで言うグラフマイニング手法とは、与えられたグラフセットから多 頻度で出現する部分グラフ (グラフパターン)を効率的かつ完全に抽出する手法であ り、後に例示されるように近年様々なアルゴリズムが提案されている。本発明は、これ らのグラフマイニング手法を応用すると同時に、抽出するグラフパターンが Clique (完 全グラフ)であるという性質を利用して探索空間を効率良く削減させる。さらに、本発 明は、グラフの一般化コストと呼ばれる新しい概念を導入することにより、更なる効率 化を行っている。また、本発明は、ランク付けされたステムのパターンの候補を複数導 出すると同時に、ステムのパターンに対して各 RNAの 2次構造を複数導出することが 可能である。本発明で提案している、頂点間の類似度力もクラスタリングにより頂点ラ ベルの Taxonomyを構築し頻出グラフマイニングを行う手法は、対象をグラフによりモ デル化した際に、頂点間の類似度や非類似度が自然に定義できる場合に好適に適 用可能な手法となっている。
[0010] 本発明の一態様は、 RNA配列情報処理装置であり、この装置は、複数の RNA配 列データの各々から、 RNA2次構造の複数のステム候補を抽出するステム候補抽出 部と、各 RNA配列データ力 抽出された前記複数のステム候補の各々を頂点として 有し、頂点間を辺で結んだステムグラフを生成するグラフ生成部と、前記複数の RN A配列力 それぞれ生成された複数の前記ステムグラフを解析して、グラフ形状が類 似し、対応する頂点のステム候補が類似し、前記複数のステムグラフに頻出する部分 グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出するグラフ解 析部と、を備えている。
[0011] 上記のように、本発明は、複数の RNA配列データ力 複数のステムグラフをそれぞ れ生成する。ステムグラフは、 RNA配列中の潜在的なステムの候補が頂点であり、 頂点間を辺で結んだグラフである。このようなグラフにおいては、部分グラフがステム パターンであり、ステムパターンは RNA配列の部分的な 2次構造を表す。したがって 、同様の部分グラフが複数のステムグラフに頻出すれば、その類似部分グラフは、複 数の RNA配列に共通の 2次構造モチーフである。本発明は、この点に着目して、複 数のステムグラフに頻出する類似部分グラフを、 RNA2次構造モチーフを表す頻出 ステムパターンとして抽出している。このようにして、本発明によれば、 RNA配列群か ら 2次構造モチーフを抽出することができる。
[0012] 本発明の情報処理が、機能性 RNAのファミリーが特定されて 、な 、RNA配列群 に適用されたとする。この場合、頻出ステムパターンが抽出されると同時に、頻出ステ ムパターンを含む RNA配列 (ステムグラフ)も分かる。すなわち、 2次構造モチーフが 抽出されると同時に、 2次構造モチーフを含むファミリーを同定することができる。また 、本発明は、既に同定されている機能ファミリーの配列群に適用されてもよぐこの場 合にも 2次構造モチーフが好適に抽出される。
[0013] 本発明の RNA配列情報処理装置は、単独のコンピュータで実現されてもよぐ複 数のコンピュータ力もなるシステムによって実現されてもよ 、。 RNA配列情報処理装 置は、インターネット等のネットワークを介して、データの受付 (入力)と提供(出力)を 行ってもよい。
[0014] また、本発明は上記の RNA配列情報処理装置の態様に限定されな 、。本発明の 別の態様は、例えば、コンピュータによる情報処理方法であり、また、そのような方法 を実現するプログラムである。このような別の態様にも、上述の RNA配列情報処理装 置に関する各種の発明を適用可能なことはもちろんである。
[0015] 本発明の別の態様は、複数の RNA配列力 コンピュータ処理によって 2次構造モ チーフを抽出する RNA配列情報処理方法である。この方法は、複数の RNA配列デ ータの各々から、 RNA2次構造の複数のステム候補を抽出し、各 RNA配列データ 力 抽出された前記複数のステム候補の各々を頂点として有し、頂点間を辺で結ん だステムグラフを生成し、前記複数の RNA配列からそれぞれ生成された複数の前記 ステムグラフを分析して、グラフ形状が類似し、対応する頂点のステム候補が類似し、 前記複数のステムグラフに頻出する部分グラフを、 RNA2次構造モチーフを表す頻 出ステムパターンとして抽出する。この態様でも上述の本発明の利点が得られる。
[0016] また、本発明の別の態様は、複数の RNA配列から 2次構造モチーフを抽出する配 列情報処理をコンピュータに実行させる RNA配列情報処理プログラムである。このプ ログラムは、複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補 を抽出し、各 RNA配列データ力 抽出された前記複数のステム候補の各々を頂点と して有し、頂点間を辺で結んだステムグラフを生成し、前記複数の RNA配列からそ れぞれ生成された複数の前記ステムグラフを分析して、グラフ形状が類似し、対応す る頂点のステム候補が類似し、前記複数のステムグラフに頻出する部分グラフを、 R NA2次構造モチーフを表す頻出ステムパターンとして抽出する、処理を前記コンピ ユータ〖こ実行させる。この態様でも上述の本発明の利点が得られる。
[0017] 上記のように、本発明は、コンピュータを用いた情報処理によって複数の RNA配列 力も 2次構造モチーフを抽出することができる配列データ処理技術を提供できる。本 発明は、機能性 RNAのファミリーの特定とモチーフ抽出を同時に行うことが可能な技 術を提供できる。
[0018] 以下に説明するように、本発明には他の態様が存在する。したがって、この発明の 開示は、本発明の一部の態様の提供を意図しており、ここで記述され請求される発 明の範囲を制限することは意図していない。
図面の簡単な説明
[0019] [図 1]図 1は、 DNAおよび RNAの配列を示す図である。
[図 2]図 2は、 RNAの局所的な 2次構造の例を示す図である。
[図 3]図 3は、 RNAの 2次構造の例を示す図である。
[図 4]図 4は、本実施の形態の RNA配列情報処理を実現するコンピュータを示す図 である。
[図 5]図 5は、本実施の形態の RNA配列情報処理の全体像を示す図である。
[図 6]図 6は、本実施の形態の RNA配列情報処理装置の機能ブロック図である。
[図 7]図 7は、塩基対確率行列を示す図である。
[図 8]図 8は、ステムグラフを示す図である。 [図 9]図 9は、ステムグラフを示す図である。
[図 10]図 10は、ステム候補間の 3タイプの接続関係を示す図である。
[図 11]図 11は、分類データとしてのタクソノミを示す図である。
[図 12]図 12は、本実施の形態におけるグラフ解析の原理を示す図である。
[図 13]図 13は、分類データを用 Vヽたステムパターンの比較処理を示す図である。
[図 14]図 14は、ステムパターンの一般化コストを示す図である。
[図 15]図 15は、支持度の定義を示す図である。
[図 16]図 16は、パターン探索アルゴリズムの DFSツリーを示す図である。
[図 17]図 17は、本実施の形態の RNA配列情報処理を実現するアルゴリズムを示す 図である。
[図 18]図 18は、本実施の形態の RNA配列情報処理を実現するアルゴリズムを示す 図である。
発明を実施するための最良の形態
[0020] 以下に本発明の詳細な説明を述べる。ただし、以下の詳細な説明と添付の図面は 発明を限定するものではない。代わりに、発明の範囲は添付の請求の範囲により規 定される。
[0021] 以下に説明されるように、本実施の形態のバイオインフォマティクス技術は、全体と しては、 RNA配列を処理の対象とし、 RNAの 2次構造を有向グラフで表現し、階層 的分類に基づいたグラフ探索処理を有向グラフに組み合わせて 2次構造パターンの 抽出を行う新規な手法を提供する。
[0022] まず、本発明のノィォインフォマテイクス技術を説明する前に、 RNA配列の 2次構 造を説明する。
[0023] 図 1を参照すると、周知のように、 DNAおよび RNAを構成する塩基は、 a、 u(t)、 c 、 gで表される。そして、 aと uが相補塩基対を作り、 cと gが相補塩基対を作る。 DNA では、逆相補配列が 2重らせんを形成している。これに対して、構造 RNAでは、 1本 鎖が折り畳まれる。そして、相補塩基対により 2次構造が作られる。
[0024] 図 2は、局所的な 2次構造の例を示している。図示のように、 1本鎖 RNA上には、互 いに相補的な 2つの領域が存在している。 2箇所の相補的な領域が結合し、これによ り 2次構造が作られる。 2次構造を作る相補的な領域は、ステムと呼ばれている。以下 の説明では、ステムを形成する 2つの部分配列を、必要に応じてパーツまたはステム パーツと呼ぶ。 2つのパーツが結合されてステムが形成される。
[0025] 図 3は、より大きな範囲の 2次構造の例を示している。図示のように、 1つの RNA配 列に複数のステムが存在している。
[0026] 図 4は、本実施の形態の RNA配列情報処理装置を実現するコンピュータを示して いる。図 4のコンピュータ 1において、プログラム実行部 3は、 CPU等のプロセッサで 構成されている。プログラム記憶部 5および処理データ記憶部 7は、メモリで構成され る。また、コンピュータ 1は、ハードディスク等の外部記憶装置 11を備えている。さらに 、コンピュータ 1は、入力装置 13、出力装置 15、記録媒体装着部 17および通信部 1 9などを備えている。
[0027] プログラム記憶部 5は、本実施の形態の装置および方法を実現するためのプロダラ ムを記憶し、特に、ステム候補抽出プログラム、グラフ生成プログラム、分類データ生 成プログラムおよびグラフ解析プログラムを記憶する。これらプログラムは、外部記憶 装置 11から読み出され、そして、プログラム実行部 3により実行される。これらプロダラ ムの機能の詳細は後述する。
[0028] 処理データ記憶部 7は、処理されるべきデータや、処理後のデータを記憶する。処 理データ記憶部 7は、例えば、処理対象の RNA配列データ、ステム候補データ、ス テムグラフデータ、分類データおよびグラフ解析データを記憶する。その他にも、メモ リは、プログラム実行部 3による処理の作業エリアとして機能し、各種の処理データを feす。。
[0029] コンピュータ 1へのデータの入出力は、典型的には、入力装置 13および出力装置 1 5を介して行われる。その他、データの入出力は、記録媒体装着部 17を介して、記録 媒体との間で行われてよい。また、データの入出力は、通信部 19を介して行われて よい。コンピュータ 1が WEBサーバに接続され、ネットワークを介してデータが入出力 されてよい。あるいは、コンピュータ 1が WEBサーバの機能を有していてもよい。
[0030] RNA配列情報処理装置は、概略的には、 RNA配列群から、個々の配列に潜在す るステム候補を抽出し、 RNA配列群に頻出するステムパターンを抽出する。ステムパ ターンは、複数のステムにより形成されるパターン (部分的配列)である。このステムパ ターンは、 RNAのモチーフ抽出に応用され、また、 RNAのファミリー抽出に応用され 、さらには、複数配列力 の 2次構造予測に応用される。
[0031] 本実施の形態において、入力データと出力データは以下の通りである。入力デー タは、 RNA配列群のデータである。 RN A配列群に整列(ァライメント)が施されてい なくてよい。また、 RNA配列群が同一の RNAファミリーに属している必要はない。コ ンピュータ 1は RNA配列情報処理装置として機能し、図 4の各種プログラムに従って RNA配列群のデータを処理して、 RNA配列群に頻出する頻出ステムパターンを求 め、さらに、頻出ステムパターンに対応する二次構造を求める。これら頻出ステムバタ ーンおよび二次構造が出力データとして出力される。その他、本実施の形態では、 ノ メータとして最小支持度および最大一般化コストが入力される。これらパラメータ は、頻出ステムパターンの抽出処理において、抽出条件として処理される。
[0032] 図 5は、 RNA配列情報処理の全体像を示して!/、る。図示のように、 RNA配列群が 入力される(Sl)。上述したように、 RNA配列群は整列されていなくてよい。各 RNA 配列がステム候補抽出プログラムの処理を受け (S2)、各 RNA配列のステム候補が 抽出される(S3)。本実施の形態では、ステム候補抽出プログラムは、塩基対確率行 列を生成するプログラムによって実現される。
[0033] 次に、ステム候補の情報から、ステムグラフと分類データ力 グラフ生成プログラム および分類データ生成プログラムにより生成される(S4)。各 RNA配列に対して一つ のステムグラフが生成される。ステムグラフは、 RNA配列力も抽出された複数のステ ム候補を頂点とし、頂点間を辺で結んだグラフである。本実施の形態では、後述する ようなラベル付き有向グラフが生成される。また、分類データは、複数の RNA配列群 力 抽出された全部のステム候補 (グラフの頂点)をそれらの類似性に基づき分類し たデータである。本実施の形態では図示のように、分類データが、階層構造を持つッ リー型タクソノミデータ(taxonomy)である。
[0034] 次に、ステムグラフ群がグラフ解析プログラムによって解析されて (S5)、ステムダラ フ群に頻出する部分グラフが抽出され、さらに部分グラフに対応する 2次構造が求め られる(S6)。部分グラフは、ステムグラフの一部の頂点と辺で構成されるパターンで あり、ステムパターンに相当する。本実施の形態は、グラフ形状が類似し、かつ、対応 する頂点のステム候補が類似し、ステムグラフ群に頻出する部分グラフを抽出する。 頂点の類似は分類データ力 求められる。このような頻出部分グラフが、 RNA2次構 造モチーフを表す頻出ステムパターンとして抽出される。そして、頻出部分グラフに 対応する 2次構造が求められる。
[0035] 図 6は、上述した処理を実現するための RNA配列情報処理装置を機能ブロック図 のかたちで示している。図 6の RNA配列情報処理装置 21において、配列データ入 力部 23は、 RNA配列群のデータを入力する。入力された RNA配列データは、配列 データ記憶部 25に記憶される。ステム候補抽出部 27は、入力された各々の RNA配 列から、 RNA2次構造のステム候補を抽出し、ステム候補記憶部 29に格納する。
[0036] グラフ生成部 31は、各 RNA配列のステムグラフを生成し、グラフ記憶部 33に記憶 する。また、分類データ生成部 35は、ステムグラフの頂点 (ステム候補)に関する分類 データを生成して、分類データ記憶部 37に格納する。本実施の形態では、ラベル付 き有向グラフと階層的なツリー型タクソノミデータが生成される。
[0037] グラフ解析部 39は、分類データを参照しながらステムグラフ群を解析して、それらス テムグラフに頻出する部分グラフを抽出する。グラフ解析部 39は、グラフ形状が類似 し、かつ、対応する頂点のステム候補が類似する部分グラフを抽出する。このような部 分グラフ力 RNA2次構造モチーフを表す頻出ステムパターンとして抽出される。
[0038] 最小支持度入力部 41および最大一般化コスト入力部 43は、頻出ステムパターン 抽出処理における抽出条件を決定するパラメータである最小支持度および最大一般 化コストを入力する。これらパラメータは、グラフ解析部 39の処理に用いられる。
[0039] 出力部 45は、グラフ解析部 39によって抽出された頻出ステムパターンの情報を出 力する。また、出力部 45は、頻出ステムパターンに対応する 2次構造データを出力す る。 2次構造データは、 2次構造データ生成部 47により生成される。
[0040] 図 6の構成において、配列データ入力部 23、最小支持度入力部 41および最大一 般化コスト入力部 43は、図 4の入力装置 13、記録媒体装着部 17または通信部 19に よって実現される。また、出力部 45は、図 4の出力装置 15、記録媒体装着部 17また は通信部 19によって実現される。また、ステム候補抽出部 27、グラフ生成部 31、分 類データ生成部 35およびグラフ解析部 39は、図 4のプログラム記憶部 5に記憶され たステム候補抽出プログラム、グラフ生成プログラム、分類データ生成プログラムおよ びグラフ解析プログラムをプログラム実行部 3が実行することによって実現される。 2次 構造データ生成部 47も、プログラム記憶部 5のプログラムをプログラム実行部 3が実 行することにより実現される。また、配列データ記憶部 25、ステム候補記憶部 29、グ ラフ記憶部 33および分類データ記憶部 37は、図 4の処理データ記憶部 7および外 部記憶装置 11によって実現される。
[0041] 以下、 RNA配列情報処理装置の各部機能についてより詳細に説明する。
[0042] 「ステム候補の抽出」
図 6のステム候補抽出部 27は、各々の RNA配列データから、 RNA2次構造の複 数のステム候補を抽出する処理を行う。本実施の形態では、以下に説明するように、 ステム候補抽出部 27が、分子構造のエネルギに基づ 、て RNA配列上の任意の 2つ の塩基の塩基対形成確率を求めた塩基対確率行列から、連続する塩基対領域をス テム候補として抽出する。
[0043] 図 7は、 RNA配列データから生成された塩基対確率行列を、 RNA配列の 2次構造 の例と共に示している。塩基対確率行列においては、同一の RNA配列が横方向と 縦方向に配置される。行列の要素 (i, j)は、 i番目の塩基と j番目の塩基が塩基対を形 成する確率を表す。この確率は、エネルギが最小になる構造を求める計算によって 得られる。図 7では、確率の大きさ力 点の大きさで表されている。一つの RNA配列 が両方向に配置されているので、図示のような半分の領域 (三角形領域)にて、全塩 基対の確率が表される。
[0044] 図 7の塩基対確率行列において、ステムは、確率が大きい複数の要素力 図示のよ うに右上がりの 45度方向に並んだ領域である。
[0045] ステム候補抽出部 27は、各々の RNA配列データから、図 7に示されるような塩基 対確率行列を生成する。本実施の形態では、 McCaskillのアルゴリズムが好適に用 いられる。そして、ステム候補抽出部 27は、塩基対確率行列から、所定値 p以上の確 率を持つ要素が所定個数 n以上連続する領域を抽出する。この領域が、ステム候補 として特定され、ステム候補記憶部 29に記憶される。 [0046] さらに、ステム候補抽出部 27は、ステム候補における全要素の確率の平均を求め る。平均値は 0から 1の間の値になる。この平均値は、ステム候補のスコアとしてステム 候補記憶部 29に記憶される。このスコアは、後述のステム候補間の類似性の判断に 用いられる。
[0047] 以上にステム候補抽出処理の好適な例を説明した。ステム候補抽出処理は上記に 限定されない。より簡単な例としては、既知のステム配列が、 RNA配列から探索され 、ステム候補として特定されてよい。ステムを構成する 2つの部分配列が探索される。 既知のステムの配列は、過去の研究で得られた既知の 2次構造から求められてよい。
[0048] 「ステムグラフの生成」
図 6のグラフ生成部 31は、上述したように、各 RNA配列データ力も抽出されたステ ム候補の情報を基に、各 RNA配列に対応するステムグラフを生成する処理を行う。
[0049] 図 8および図 9は、ステムグラフの例を示している。図 8ではステムグラフが塩基対確 率行列の上に描かれており、図 9ではステムグラフが単独で描かれている。図示のよ うに、ステムグラフでは、各ステム候補が頂点である。図の例では、 9個のステム候補 が頂点になっている。そして、ステム候補間が辺で結ばれる。
[0050] 本実施の形態では、ステムグラフがラベル付き有向グラフであり、グラフの頂点およ び辺にはラベルが付与される。各頂点および各辺には、それらを識別するためのュ ニークなラベルが付与される。さらに、各辺には、下記の 2つの情報が付与される。
[0051] (1)向き:ステム候補間の位置関係を表す向きである。図 8では、辺の向きが矢印で 示されている。辺の向きは、配列上で 5'側(一般の直線配置で左側)のステム候補か ら 3,側(一般の直線配置で右側)のステム候補へ向くように設定される。ここで、ステ ム候補位置は、各ステム候補の 5 '側のステムパーツの位置で特定される。
[0052] 図 8 (および図 7)では、横方向の配置にて、 5'側が左であり、 3'側が右である。そ して、縦方向の配置では、 5'側が上であり、 3'側が下である。この場合、辺の向きは 、縦の配置の 5,側のステム候補から 3,側のステム候補へ向くように付けられて 、る。 要するに、辺の矢印は、図 8の上側のステム候補から下側のステム候補を向いている
[0053] (2)接続関係:これは、ステム候補間の接続関係が 3つのタイプの 、ずれに属する かの情報である。図 10に示されるように、 3つのタイプとは、並列(Juxtaposed)、埋込 み(Embedded)、重複(Overlapped)である。これらは、矛盾のない関係(consistent relation)である。図 9のグラフは、並列("J")と埋込み("E")の辺を含んでいる。
[0054] なお、グラフ生成部 31は、上記 3つのタイプのいずれにも該当しないステム候補対 を、辺による接続対象から除外する。これにより、矛盾のある関係(inconsistent relation)が除外される。例えば、ステム候補 # 2、 # 8は、上記の接続タイプに該当せ ず、したがって、辺で結ばれていない。
[0055] 上記の例にお!、て、 # 2、 # 8のステム候補では、ステムの片側パーツが共通して いる。したがって、これらのステム候補の両方共が本当のステムである可能性は無い 。このようなステム候補対が辺で結ばれないので、妥当なグラフが形成される。
[0056] 以上、グラフ生成部 31により生成されるステムグラフ(ラベル付き有向グラフ)につ いて説明した。グラフ生成部 31は、ステム候補抽出部 27により抽出されたステム候 補を頂点に設定し、頂点間の辺を設定し、頂点および辺にラベルを付与する処理を 行う。これにより上記のグラフが生成される。
[0057] グラフ生成部 31は、各々の RNA配列に対して上記のようなステムグラフを生成する 。したがって、グラフ生成部 31は、入力された RNA配列の数と同じ枚数のグラフを生 成する。これらグラフがグラフ記憶部 33に記憶される。
[0058] 「分類データの生成」
図 6の分類データ生成部 35は、上述したように、ステム候補群を分類する分類デー タを生成する処理を行う。本実施の形態では、図 11に示されるように、分類データが 、階層型でツリー型のタクソノミデータである。以下、分類データの生成処理について 、より詳細に説明する。
[0059] 上述のステムグラフ生成処理は、一本の RNA配列から一つのステムグラフを生成 する。一方、この分類処理は、複数の RNA配列力も抽出された全部のステム候補を 分類して一つの分類データを生成する。
[0060] ステム候補の分類は、ステム候補間の類似性に基づ!、て行われる。ステム候補の 全組合わせの類似性が求められ、類似性を使って分類が行われる。類似性のパラメ ータは、典型的には、ステム候補同士の配列の相同性である。本実施の形態では、 ステム候補対の類似性が、上記の配列相同性を含む 4つの類似性によって定義され る。(1)ステム候補同士の配列相同性、(2)各ステム候補のスコア、(3)ループの距 離の類似性、(4)配列内での位置の類似性。
[0061] 上記において、(2)のスコアは、ステム候補抽出時に算出された確率である。より詳 細には、スコアは、ステム候補の塩基対形成確率の平均である。本実施の形態は、 2 つのステム候補のスコアの和を利用している。本実施の形態は、スコアの和が大きい ほど 2つのステム候補の類似度を大き 、と考え、スコアの和が小さ 、ほど 2つのステム 候補の類似度が小さい (非類似度が大きい)と考える。ここで、本発明は、スコアの和 が大き 、ほど、 2つのステム候補の両方共が実際のステムである可能性が高 、ことに 着目している。このことを考慮し、本発明は、両方のステム候補が実際のステムである 可能性が高いほど類似性が高いと決めている。 (3)のループの距離は、ステムを構 成する 2つのパーツ間の距離 (塩基数)である。(4)の位置は、各ステム候補が属する RNA配列内での位置である。位置は、配列端からの距離 (塩基数)で表されてよい。
[0062] 4つの要素的な類似性パラメータを計算するために、 RNA配列のデータから、各ス テム候補が有する配列、スコア、ループ距離、配列内位置の 4つのデータが求められ る (スコアは既に説明したように塩基対確率力も算出されている)。各データから一組 のステム候補の類似性が計算され、したがって、 4つのデータ力も 4つの類似性パラメ ータが計算され、更にそれらが合成されて、一組のステム候補の総合的な類似性パ ラメータが計算される。このような類似性パラメータが、任意の組のステム候補に対し て計算される。類似性パラメータの算出処理は後述にてさらに詳しく説明される。本 実施の形態の実現例では、 2つのステム候補の違 、が大きくなるほど値が大きくなる ような類似性パラメータが使われてよい。つまり、類似性パラメータが、非類似度で実 現される。
[0063] 図 11は、上記のような類似性に基づ ヽて生成された分類データを示して!/ヽる。分 類データ生成部 35は、頂点間の類似性に基づいたクラスタリングを行い、これにより 、図示のようなツリー型のタクソノミデータを生成する。図 11において、左の図は、ス テム候補の階層的クラスタリングによって生成される系統樹 (dendrogram)である。クラ スタリングのためのステム候補間の類似性 (similarity)は、既述の通り、(1)配列相同 性(sequence similarity)、(2)候ネ甫のスコア(score of candidate) , (3)ノレープ距離( loop distance)、 (4)酉己歹 [J内位置 (position in sequence)のミックス (mixture)によつ て定義される。右側の図は、系統樹 (dendrogram)から構築されたステム候補のラベ ルのタクソノミである。
[0064] 図 11のタクソノミデータでは、最下層の頂点 1〜7は、個々のステム候補と対応する 。上位層の頂点 (分類、ラベル)は、下位層で類似する複数の頂点を代表する。例え ば、最下層の 3つの頂点 1、 2、 3が類似するので、それら 3つの頂点は第 2層では一 つの頂点 8に分類される。分類データ生成部 35は、このような分類データを生成して 、分類データ記憶部 37に記憶する。
[0065] 上記より明らかなように、分類データでは、下位層よりも上位層にて類似範囲が広 い。すなわち、下位層よりも上位層にて、一般ィ匕の程度が大きい。そこで、本実施の 形態では、一般ィ匕の程度を表現するために、図 11に示されるように、上位層へ行く ほど値が大きくなるように一般化コストが定義される。 i層の一般化コストは、 l -n (i) ZNで表される。ここで、 Nは、最下層の頂点数 (ステム候補の総数)である。 n (i)は、 階層 iに属する頂点数である。一般ィ匕コストは下記のグラフ解析処理にて用いられる ことになる。
[0066] 「グラフ解析処理」
図 6のグラフ解析部 39は、上述したように、グラフ生成部 31によって生成された複 数のステムグラフに頻出する部分グラフを抽出する処理を行う。ここでは、類似する部 分グラフが抽出される。類似する部分グラフとは、グラフ形状が類似し、かつ、対応す る頂点のステム候補が類似するグラフである。部分グラフはステム候補のパターンに 相当するので、以下、必要に応じて、部分グラフをステムパターンと呼び、抽出される 頻出部分グラフを頻出ステムパターンと!/、う。
[0067] より詳細には、グラフ解析部 39は、ステムグラフでの出現の頻度が所定しきい以上 のステムパターン (部分グラフ)を抽出する処理を行う。この頻度は、典型的には、後 述するように、「ステムグラフの総数」に対する、「特定の類似するステムパターンを含 むステムグラフの数」の比、で表される。
[0068] 頻出ステムパターンの抽出では、上記のように類似性が考慮される。したがって、抽 出される一つ頻出ステムパターンは、実際には、複数のステムパターンの集合になつ てよい。
[0069] 図 12は、グラフ解析の原理を示している。図 12は、 2つのステムグラフを示している 。互いに類似するステムパターンが 2つのステムグラフ力も抽出されている。図 12の 例では、ステムパターンは、 3つの頂点とそれらを結ぶ 3つの辺で構成されている。
[0070] ステムパターン (部分グラフ)の類似は、グラフ形状の類似性と、グラフ内の頂点の 類似性によって決まる。本実施の形態では、以下の 3条件が満たされるとき、 2つの 部分グラフのグラフ形状が類似する。
(1)頂点の数が同じである。
(2)対応する辺の向きが同じである。
(3)対応する辺の接続関係が同じである。
[0071] なお、本実施の形態では、後述するように完全 (Clique)グラフが抽出される。した がって、類似する部分グラフにおいては、頂点の数が同じであり、それらの任意の 2 つの頂点間が辺で結ばれ、かつ、各辺のラベルが(2) (3)の条件を満たす。
[0072] 次に、図 13を参照して、頂点間の類似について説明する。頂点間の類似は、分類 データを用いて判断することができる。分類データにおいて同じグループに属する頂 点を類似と判断する。
[0073] 図 13は、 2つのステムパターンの例を示している。図において、対応する 2組の頂 点は同じであるが、対応する 1組の頂点が異なっている。しかし、これら頂点力 図 11 のタクソノミにおいて、 1つ上の階層では同一分類に属するとする。この場合、対応頂 点が類似し、そして、 2つのステムパターンが類似する。
[0074] このようにして、下位層での比較では対応頂点が異なる分類に属しても、上位層の 比較で対応頂点が同じ分類に属していれば、対応頂点が類似する。グラフ解析処理 では、順次階層を上に変更して、頂点間の類似が判断される。
[0075] しかし、階層を高くしすぎると、類似範囲が広くなり過ぎる。例えば、最上層では、す ベての頂点が類似し、妥当な比較が困難になる。そこで、本実施の形態では、類似 判断における階層の高さが制限される。この制限のために、前述の一般化コストが用 いられる。 [0076] 一般化コストは、図 11に示したように、上位層へ行くほど大きくなる。前述の説明を 繰り返すと、 i層の一般ィ匕コストは、 1 n(i)ZNで表され、 Nは、最下層の頂点数 (ス テム候補の総数)であり、 n(i)は、階層 iに属する頂点数である。
[0077] 図 14は、ステムパターンの一般化コストを示して!/、る。ステムパターンの一般化コス トは、各頂点の一般ィ匕コストの平均である。グラフ解析処理では、ステムパターンの最 大一般化コストが指定され、一般化コストが最大一般化コスト以下になるように頻出ス テムパターンが抽出される。例えば、図 13の一般ィ匕を行うと、一般化コストが最大値 をオーバーしたとする。この場合、図 13の 2つのステムパターンは類似しない。
[0078] 上述の原理に基づきグラフ解析の問題を定式化すると、以下のようになる。
(1)ラベル付き有向グラフの集合、(2)ラベルの一般化コスト付きタクソノミ、(3)最 小支持度 (minsup)、 (4)最大一般ィ匕コスト (maxcost)が与えられた際に、以下を満 たすステムパターンをすベて抽出する。
A)支持度が最小支持度以上
B)完全グラフ(Cique)
C)一般化コストが最大一般化コスト以下
D)クローズドパターン(Closed Pattern)
[0079] 支持度は、図 15に示される通り、頻出の程度を表す。図において、一つのステムパ ターンが、 3つのステムグラフのうちの 2つに存在する。この場合、該当パターンの支 持度は、 2Z3である。完全グラフとは、各頂点がすべての頂点と辺で結ばれたグラフ である。ステムパターンが RNA配列の一部分であれば、必ずステムパターンが完全 グラフになる。一般ィ匕コストは、既に説明した通りである。クローズドパターンは、「自 分を真に含むパターンであって、自分と同じ支持度を持つようなパターンが存在しな い」パターンである。
[0080] 次に、図 16を参照すると、上述してきたグラフ解析処理は、パターン探索アルゴリズ ムにより好適に実現される。より詳細には、グラフ解析機能は、図 16の DFS code t reeの探索アルゴリズムにより実現される。この探索アルゴリズムは、少しずつパター ンを変えながら、ツリーを深さ方向に探索し、各種の候補パターンを数え上げる。
[0081] 本実施の形態では、パターン探索アルゴリズムが、上述のグラフ解析処理を実行す る。すなわち、パターンの形状が変更される。また、タクソノミに基づいて一般ィ匕の程 度が変更される。そして、各種のパターンが複数のステムグラフから数えられる。そし て、上述の条件を満たす頻出ステムパターンが求められる。
[0082] ノ《ターン探索のアルゴリズムは、効率よく完全に多様なパターンが数えられるように 構成されている。さらに、本実施の形態は、上述のパターン抽出の条件も考慮して下 記の制限された処理を行い、さらなる効率的を実現する。(1)支持度の逆単調性によ る枝狩り、(2) Clique制約により DFS code treeの子要素を限定、(3)最大一般化 コストの制約を用いた枝狩り、(4)過度に一般化されたパターンを除くための枝狩り。 枝狩り(pruning)とは、ツリー上の部分木を探索対象から除外することをいう。これらの 処理については、後にさらに詳細に説明する。
[0083] 以上に頻出ステムパターンを抽出するグラフ解析処理を説明した。グラフ解析部 39 は、上述の処理を行うことによって頻出ステムパターンを抽出する。さらに、 2次構造 生データ成部 47は、抽出された頻出ステムパターンに対応する 2次構造データを生 成する。これら頻出ステムパターンと対応する 2次構造データが出力部 45から出力さ れる。
[0084] ここで、グラフ解析部 39は、上述の条件に該当する全部の頻出ステムパターンを抽 出する。したがって、グラフ解析部 39は、通常は複数の頻出ステムパターンを抽出す る。さらに、類似性が考慮されているので、一つの頻出ステムパターンは、複数のステ ムパターンに対応することもある。 2次構造データは、各々のステムパターン (部分グ ラフ)から作られてよい。これらデータが、出力されてよい。
[0085] 以上に、本実施の形態の RNA配列情報処理装置、方法およびプログラムにつ!/ヽ て詳細に説明した。以下、本発明の各種態様の利点をまとめて述べる。本発明は、 複数の RNA配列データ力 複数のステムグラフをそれぞれ生成し、それら複数のス テムグラフから頻出ステムパターンを抽出する。頻出ステムパターンは、 RNA2次構 造モチーフを表している。したがって、本発明は、 RNA配列群から 2次構造モチーフ を抽出することができる。
[0086] 本発明の情報処理が、機能性 RNAのファミリーが特定されて 、な 、RNA配列群 に適用されたとする。この場合、頻出ステムパターンが抽出されると同時に、頻出ステ ムパターンを含む RNA配列 (ステムグラフ)も分かる。すなわち、 2次構造モチーフが 抽出されると同時に、 2次構造モチーフを含むファミリーを同定することができる。また 、本発明は、既に同定されている機能ファミリーの配列群に適用されてもよぐこの場 合にも 2次構造モチーフが好適に抽出される。
[0087] また、上述にて説明したように、グラフ生成部は、 RNA配列上での各ステム候補対 の位置関係に応じた向きを、各ステム候補対を結ぶ辺のラベルに付与してよい。そし て、グラフ解析部は、複数のステムグラフから、対応する辺の向きが同じ部分グラフを 抽出してよい。これにより、複数のステムグラフ力 類似する部分グラフを適切に抽出 することができる。
[0088] また、グラフ生成部は、各ステム候補対の接続関係が並列、埋込み、重複の 、ずれ かに属するかの情報を、各ステム候補対を結ぶ辺のラベルに付与してよい。グラフ解 析部は、複数のステムグラフから、対応する辺の接続関係が同じ部分グラフを抽出し てよい。これにより、複数のステムグラフ力 類似する部分グラフを適切に抽出するこ とがでさる。
[0089] また、グラフ生成部は、並列、埋込みおよび重複のいずれにも該当しないステム候 補対を、辺による接続対象力も除外してよい。これにより、不適当な部分グラフの抽出 を回避して、複数のステムグラフ力 類似する部分グラフを適切に抽出することができ る。
[0090] また、グラフ生成部は、各頂点が部分グラフ内のすべての他の頂点と辺で結ばれる 完全部分グラフを抽出してよい。これにより、複数のステムグラフ力 類似する部分グ ラフを適切に抽出することができる。
[0091] また、分類データ生成部は、複数のステムグラフに含まれる複数のステム候補を類 似性に基づいて分類する分類データを生成してよい。グラフ解析部は、複数のステ ムグラフから、対応する頂点のステム候補が同じ分類に属する部分グラフを抽出して よい。これにより、複数のステムグラフ力も類似する部分グラフを適切に抽出できる。
[0092] また、分類データ生成部は、分類データとして、複数のステム候補を、類似範囲の 広さが下位層力も上位層へ向力つて増大するように階層的にクラスタリングを行った タクソノミデータを生成してよい。グラフ解析部は、タクソノミデータに基づき、対応す る頂点のステム候補が下位層では異なる分類に属しても上位層では同一分類に属 する部分グラフを抽出してよい。これにより、複数のステムグラフ力 類似する部分グ ラフを適切に抽出することができる。
[0093] また、最大一般化コスト入力部が、タクソノミデータにて階層に応じて増大する一般 化コストの最大許容値である最大一般ィ匕コストを入力してよい。グラフ解析部は、最 大一般化コスト以下の一般化コストを有する部分グラフを抽出してよい。これにより、 複数のステムグラフ力 類似する部分グラフを適切に抽出することができる。
[0094] また、分類データ生成部は、ステム候補対の類似性を表す類似性パラメータを、ス テム候補対の配列相同性、ステム候補により形成されるループの距離の類似性、お よび、 RNA配列内でのステム候補の位置の類似性の少なくとも一つに応じて求めて よい。また、分類データ生成部は、二次構造エネルギに基づいたステム候補の塩基 対形成確率に応じて類似性パラメータを求めてよぐこのとき、 2つのステム候補の塩 基対形成確率の和が評価されてよぐそして、和の値が大きいほど類似度が高いと判 断されてよい。上記の例では、これら全部が加味されている。これにより、ステム候補 である頂点間の類似性を適切に判断して、複数のステムグラフから類似する部分ダラ フを適切に抽出することができる。類似性判断の基礎になるパラメータは、ステムダラ フの頂点のラベルに付与されてよ 、。
[0095] また、最小支持度入力部が、複数のステムグラフにおける部分グラフの支持度の最 小許容値である最小支持度を入力してよい。グラフ解析部は、最小支持度以上の支 持度を有する部分グラフを抽出してよい。支持度は、グラフ解析で使われる用語であ つて、頻度 (頻出の程度)を表す。最小支持度以上の支持度を有する部分グラフを抽 出することにより、 RNA配列群に頻出するステムパターンを適切に抽出できる。
[0096] また、ステム候補抽出部は、分子構造のエネルギに基づ!/、て RNA配列上の任意 の 2つの塩基の塩基対形成確率を求めた塩基対確率行列から、連続する塩基対領 域をステム候補として抽出してよい。これにより、ステム候補を適切に抽出することが できる。
[0097] また、上述の実施の形態では、頂点間のタクソノミが考慮されて、類似部分グラフ( 頻出ステムパターン)が抽出された。本発明のさらなる応用例では、辺のタクソノミが 考慮されて、類似部分グラフ (頻出ステムパターン)が抽出されてよい。この場合、辺 を特徴づけるパラメータを用いて、辺の類似性を基に、辺のタクソノミが生成される。 辺のタクソノミが、頂点のタクソノミと同様に処理されて、辺が類似する部分グラフが抽 出される。
[0098] 以下、上述の発明に関する研究について詳細に説明する。以下では、上述したラ ベル付き有向グラフ、タクソノミ、グラフ解析なども詳細に説明される。なお、参考文献 は、(文献 +番号)と表記し、文献のリストを最後に記載する。
[0099] 「1.はじめに」
この記述の構成は、以下の通りである。セクション 2は、グラフ理論の基本的な用語 の定義を述べ、その後に、 RNAのグラフ表現の方法および今回解決すべき問題の グラフマイニングによる定式化、さらにはそれを効率よく解く為の理論およびアルゴリ ズムについて詳細に説明する。セクション 3は、実装方法について述べる。
[0100] 「2.手法」
「2. 1 グラフ理論 'グラフマイニング力 の準備」
本文章では、特に断らない限り、グラフとは多重辺や自己ループ辺を許さないラベ ル付き有向グラフ G=(V, E, L , L , lb)を意味することとする。ここで、 V=V(G)=[v , '
E 1
•· ,ν ]は頂点の集合を表す。 E=E(G)=[(v,v) I V , v EV]は辺の集合を表す。(V , V) k i J i J i J は、頂点 v力も頂点 vへの辺を表す。 Lは頂点のラベルの集合を表す。 Lは辺のラベ
i j V E
ルの集合を表す。 lb :V U E→L U Lは頂点または辺力 そのラベルへの写像を表す
V E
。さらに、グラフ Gのトポロジー(topology) Gとは、 G =(V, E)で定義されるラベルを含
T T
まないグラフである。
[0101] 「定義 2. 1 (部分グラフ)」
グラフ Gが与えられて!/、るものとする。グラフ Gsが Gの部分グラフ(subgraph)である( G c Gと書く)とは、写像 φ: V(G )→V(G)が存在して
(1)任意の vEV(Gs)に対して lb(v)=lb( φ (v))
(2)任意の (v , v) EE(G )に対してlb(v , ν)=ΐ (ν), (ν))
i j s i j i j
を満たすことである。
Srikantら(文献 B1)は、アイテムセットにおける個々のアイテムの関係を Txonomyと して表現した。さらに、 Inokuchi (文献 B2)は、グラフのラベルに Taxonomyを考えるこ とを提案している。ここではこららを発展させ、ラベル間の関係と各ラベルの一般化コ ストを考慮した「一般ィ匕コスト付き Taxonomy」を定義する。
[0102] 「定義 2. 2 (—般ィ匕コスト付き Taxonomy)」
ラベルの集合 LSが与えられているものとする。このとき、一般化コスト付き Taxonomy Taxonomy with generalization cost) Tとは、頂 、力 LSの DAG directed acyclic gr aph)で、その各頂点 vE LSに対して一般ィ匕コスト c(v) E Rが定義されているものである
(注意 2. 1)関係 A→Bは、 B is a A (ラベル Aの方がラベル Bよりも一般ィ匕されている 、逆に言うとラベル Bの方がラベル Aよりも特殊化されている)を意味する。 Taxonomy を forestではなく DAGでモデル化したのは、 multiple taxonomiesを表現することを可 能にするためである(文献 Bl)。また、 c(A)、 c(B)は、それぞれ、ラベル A、 Bの一般ィ匕 に対するコストを表す。通常の場合、上位概念ほど一般ィ匕のコストが大きいと考えら れるので、 c(B)< c(A)である。
今後は簡単のため、一般化コスト付き Taxonomyを単に Taxonomyと呼ぶことにする。 Taxonomyの頂点 Xに対して、 xまたは xの祖先の集合 (xから有向辺を逆にたどって!/ヽ つて到達できる全ての頂点の集合)を τ (X)と表すことにする。グラフと Taxonomyが与
T
えられた際の部分グラフを以下のように定義する。
[0103] 「定義 2. 3 (Taxonomyが与えられた下での部分グラフ(文献 B2) )」
Taxonomy Tとグラフ G、 Gが与えられているものとする。 G力 Gの Taxonomy Tが与 えられた下での部分グラフ(subgraph under Taxonomy T)であるとき、
[数 1]
とかく。これは、写像 φ: V(G )→V(G)が存在して、
s
( 1)任意の vEV(G )に対して lb(v) E τ (lb( (ν)))
s Τ
(2)任意の (ν , v) E E(G )に対してlb(v , ν)≡ τ (lb( (ν), (ν)))
i j s i j T i j
を満たすことである。今後は、簡単のため、 Taxonomy Tが明らかな場合には、添え字 Tは省略する。 (注意 2. 2) 定義より明らかに
[数 2]
GS G ^ GS G である(逆は成立しない)。つまり、 Taxonomyが与えられた下での部分グラフの定義 は、通常の部分グラフの定義を弱めたものとなっている。
[0104] 「定義 2. 4 (Clique)」
グラフがクリーク(Clique)であるとは、任意の頂点間に辺が存在することである。
[0105] 「2. 2 グラフと Taxonomyを用いた RNA配列集合のモデル化」
本節では、ラベル付有向グラフと Taxonomyを用いて RNA配列の集合全体のモデ ルイ匕を行う方法にっ ヽて記述する。
近年、ステムやループなどの RNA2次構造の構成要素を一つの単位として積極的 に利用した RNA解析手法が一定の成功を納めている。例えば、 Scarna (文献 B3)は 固定長のステムのアラインメントを良く考えられたダイナミックプログラミングにより定式 化し、 2本の RNA配列のアラインメントおよびその共通 2次構造の予測を高速で行う 。 RNAscf (文献 B4)は、複数配列カもステム候補のアラインメントを繰り返し行うことに より、共通の 2次構造の予測を行う。また、 Carnac (文献 B5)は、 2本あるいは 3本以上 の RNA配列群から、可能性のあるステム候補を抽出し、 cofoldingと呼ばれる手法を 用いて、各 RNA配列の 2次構造を予測する。 comRNA (文献 B6)は、グラフ理論にお ける Clique探索手法を利用して、整列して!/、な!/、RNA配列群からその共通のモチー フを発見する手法を提案している。これらのステムベースの手法には、ヒユーリスティ ックな部分を多く含んでいるが、精度と計算量のノ ンスが取れた実用的な手法が多 い。本手法でも、これらの手法と同様にステムの候補を積極的に利用したモデルィ匕を 行う。
また、単一の RNA配列は、 2次構造を一つに決めれば、木構造や RAG (文献 B7) を用いて表現することが可能である。しかし、ここでは各 RNA配列の 2次構造自体を モデル化するのではなぐ RNA配列力 得られる可能性のあるステムの候補をすベ て用いて RNAのモデル化を行う。その手順は以下の通りである。 (1)各 RNA配列の塩基対確率行列からステム候補を抽出しグラフの頂点とする。
(2)ステム候補の類似度に基づいた階層型クラスタリングの榭形図から、頂点ラベ ルに対する Taxonomyを構築する。
(3) consistentなステム候補間を有向辺で結びその関係(Juxtaposed, Embedded, Overlapped)に応じて辺にラベルを付与する。
以下に各ステップについてもう少し詳細に説明を行う。
[0106] 「2. 2. 1 グラフの頂点」
McCaskillのアルゴリズム(文献 B8)を用いて RN A配列から塩基対確率行列(base pairing probability matrix)を計算する。ここで、 McCaskillのアルゴリズムにより計算さ れる塩基対確率行列の G, j)要素は、 i番目の塩基と j番目の塩基が塩基対を形成す る確率を表す。計算された塩基対確率行列から、塩基対を形成する確率が p以上で 、 n個以上の連続する塩基対集合の極大集合を、ステム候補 (Stem candidate)として 抽出する(文献 B3)。なお、現在の実装では、塩基対単位で M個のギャップは許容し ている。ただし、バルジが入るようなステム候補は考えることが出来ない (ステム候補 の数が増えるため許容して ヽな 、)。
さらにステム候補には、そのステム候補を形成する塩基対の確率の平均をスコアと して付与する(このスコアは 0以上 1以下の実数である)。本手法では、このステム候 補をグラフの頂点とする。
[0107] 「2. 2. 2 頂点ラベルの Taxonomyの構築」
頂点ラベルの Taxonomyを構築するために、セクション 2.2.1の 2つの頂点(ステム候 補)間の非類似度を以下のように定める。ステム候補 Sに対して、 p(S)を 5,側ステムの 開始位置、 d(S)をループの距離、 r(S)を 3 '側ステムの開始位置、 s(S)を塩基対確率行 列から計算されるステムのスコアと置く。このときステム候補 S、 Sに対して、ステム候
1 2
補の相同性に関する非類似度 d (S , S )、ステム候補のスコア力 計算される非類似
1 1 2
度 d (S , S ),ステム候補のループの距離に関する非類似度 d (S , S )、ステム候補の
2 1 2 3 1 2
配列内での位置に関連する非類似度 d (S , S )を、
4 1 2
[数 3] (5ι, ) = exp {-ccSW(S S2)} , ^(51552) = 1 - -(5(5 + ^)) ノ
Figure imgf000031_0001
とする。ステム Sと Sの非類似度は、これらを全て合わせた d(S , S )=∑ w d (¾
S )で定義する。ここで、 SW(S , S )は、 RIBOSUM置換行列(文献 B9)を用いたステ
2 1 2
ム Sとステム Sの Smith Watermanアラインメント(文献 BIO)のスコアである。また、 wは w=l, w≥0を満たす重みパラメタである
セクション 2. 2. 1の方法で抽出されたステム候補全てに対して、上述の非類似度 に基づき階層型クラスタリングを行う。この際得られる榭形図を用いて Taxonomyを構 築する。すなわち、クラス間の距離の列を d=[d ]N =l(d <d <---<d )とする際に、距 k k 1 2 N
離が d以下のクラスタに対して同一のラベルを付与することにより、 Taxonomyを構築 k
する。従って、今の場合 Taxonomyは階層構造になっている。ここで、 Taxonomyの第 n 階層に属するラベルの一般化コストを、「1— (第 n階層のラベル数)/ (頂点数)」で 与える。
「2. 2. 3 グラフの辺」
2つのステム候補間の関係は次のように分類できる。
「性質 2. 1(文献 B11、文献 B3)」
セクション 2. 2. 1で抽出した 2つのステム候補 Sl S2の位置関係は、ステム候補の 配列上での位置を S =([ls , le ],[rs , re ])、 S =([ls , le ],[rs , re ])(lsは 5,側のステ
1 1 1 1 1 2 2 2 2 2 k
ムの開始位置、 leは 5,側のステムの終了位置、 rsは 3,側のステムの開始位置、 re k k k は 3'側のステムの終了位置)とするときに、以下のいずれかが成立する。
[数 4] (1) Juxtaposed if reiく ls2 or τβ2 < Is^.
(2) Embedded if (lei く ¾s2 and re- < rsi) or {l ^く is\ and re- < rs^).
(3) Overlapped if (lei < 2 and l ^ < rs and re\ < TS2) or
(le2 < Isi nd lei < rs2 and re2く ^i).
(4) in-consistent if [lsi,lei] Π [is2,ie2] ≠ or [Isi e^ Π [ s2,T-e2] 0 or
[mjrei] Π [IS2 2] ^ 0 or [rs2,re2)n [ 2, j + 0.
(1)、 (2)、 (3)のいずれかの関係である場合に、 2つのステム候補 Sl、 S2の関係は consistentであると目つ。
本研究では、 2つのステム候補 S =([ls , le ],[rs , re ]),S =([ls , le ],[rs , re ])が Is
1 1 1 1 1 2 2 2 2 2 1 く Isかつ(1)、 (2)、 (3)のいずれかの関係であるならば、 S力も Sの向きに有向辺を
2 1 2
付与し、辺にはその関係に応じて異なるラベルを付与することとする。
[0109] 「2. 2.4 モデル化の特徴」
このようにモデルィ匕を行った場合、明らかに次の著しい性質が成立する。この性質 は、後にアルゴリズムを構築する際に非常に役に立つ。
「性質 2. 2」
2次構造として成立可能なステム候補の集合は、上述の方法で RNAをグラフ化し た際に、 Cliqueな部分グラフでなければならな 、。
例 1:図 7は、 tRNAのステムグラフである。図 7では、例えば、頂点の組み合わせ(1 , 2, 8, 9)、 (1, 2, 4, 5, 9)などが RNAの 2次構造として正当なステム候補のセットであ る。これに対して、ステム候補の集合(1, 3, 5)に対応する 2次構造は存在しない。 我々のモデルィ匕の手法では、 RNA配列集合の個々の配列に対してその可能性の あるステム候補を全て考慮したラベル付有向グラフを構築する事、及び、頂点のラベ ルには Taxonomyを考慮する事、といった 2つの事を新しく提案している。本セクション の最初にも述べたとおり、 RNAの 2次構造を木構造やグラフでモデルィ匕する方法は すでに提案されている力 本手法のようなモデルィ匕の方法は今までには考えられて こな力つた。従って、上記のモデルィ匕手法は本論文の貢献のひとつであるといえる。
[0110] 「2. 3 グラフマイニングとしての定式化」 我々が現在解決しょうとしている RNAの問題は以下のように述べられる。
「問題 1」 RNA配列集合に頻出するステムのパターンを全て抽出する。同時に各 ステムパターンに対応する RNA配列のステムの集合 (RNA配列の 2次構造)を特定 する。
本セクションでは、上記の問題をグラフマイニングとして定式ィ匕を行う。まず、次の定 義はグラフマイニング分野では非常に基本的なものである。
[0111] 「定義 2. 5 (支持度 (文献 B2) )」
グラフの集合 GS = [ G , · · · , G ]と Taxonomy Tとグラフ Pに対して、
1 N
[数 5] support) = I (1) をグラフ Pの支持度 (support)と呼ぶ。支持度が 0より大き!/ヽグラフをパターン (pattern )と呼ぶ。また、支持度が与えられた minsupより大きいパターンを頻出パターン(Frequ ent pattern)と呼ふ。
前セクションの結果およびこの定義を用いて問題 1を言 、換えると次のようになる。
[0112] 「問題 2」 グラフ集合 GSと Taxonomy Tおよび支持度 minsupが与えられている際に 、 Cliqueなパターンで支持度力 ¾insup以上のものをすベて導出する。同時に、導出さ れたパターンに対応する各グラフの部分グラフを特定する。
一般に、与えられたグラフ集合力も頻出パターン (Cliqueなパターンとは限らない) を完全に抽出する問題はグラフマイニングの問題として近年盛んに研究がなされて Vヽる (FSSM (文献 B12)、 FSG (文献 B13)、 AGM (文献 B14、 B15)、 AcGM (文献 Bl 6)、 gSpan (文献 B17) )。ラベルに Taxonomyを用いた場合の一般的なグラフマイニン グは (文献 B2)で提案された。今回は、ベースとなる一般のグラフマイニングアルゴリ ズムには gSpanアルゴリズムを用いて、頂点ラベルに Taxonomyを考慮できるように変 更を行った。また、後で述べる通り、抽出するパターンが Cliqueなパターンであること( 性質)を利用して探索の効率ィ匕を行っている。また、問題 1を完全に解くことも可能で ある力 本研究ではさらになる探索の効率ィ匕を行うために抽出されるパターンにいく つかの制約を課すことにする。 次に定義される過度に一般ィ匕されたパターンは、ラベルに Taxonomyを考慮した場 合に出現するパターンであるがパターンとしての有用性は低い。
[0113] 「定義 2. 6 (—般化パターン、過度に一般化されたパターン (文献 B2) )」
ノターン Pと Pのトポロジーが同型であるとする。
1 2
[数 6]
i 2 であるとき、 Ρは Ρの一般化パターン(generalized pattern)と呼ぶ。また、 Pが存在し
1 2 2
て、
[数 7]
Pi C i¾力つ
Figure imgf000034_0001
supportfP2) を満たす場合、 Pは過度に一般化されたパターン(over- generalized pattern)と呼ぶ 以下は、 Yanら(文献 B18)により提案された closed patternの定義を Taxonomyを考 慮した場合に拡張したものである。 closed patternでないパターンもパターンとしての 有用性は低い。
[0114] 「定義 2. 7 (closed pattern (文献 B 18) )」
グラフの集合 GS = [ G , G , · · · , G ]と Txonomv Tが与えられているものとする。こ
1 2 n
のとき、パターン Pが closed patternであるとは、
[数 8]
P≠P', P ^ P' and support ( ) = support{P') (2} を満たすパターン P'が存在しないことを言う。
(注意 2. 3) Yanら (文献 B18)は、通常の部分グラフ(定義 2. 1)の意味で closed patternを定義した。ここでは Taxonomyを用いた部分グラフ(定義 2. 3)の意味で close d patternを定義している。定義より、この意味で Closedなパターンは、定義 2. 6で定 義される過度に一般ィ匕された (over-generalized)パターンではな ヽ。
Taxonomyを考えることにより、柔軟なパターンの抽出が可能になる一方で、抽出さ れるパターンが増加することが懸念される。しかしながら、 Taxonomyの上位のラベル ば力りで構成されるパターンは、たとえ頻出していたとしてもあまり重要でない可能性 が高 、。このようなパターン力 taxonomyの上位のラベルばかりで構成されて!、るかど うかを判定するために、ノターンの一般ィ匕コストと呼ばれる概念を新たに定義する。
[0115] 「定義 2. 8 (パターンの一般ィ匕コスト)」
グラフ Gと Taxonomy Tが与えられているものとする。このときパターン Pの一般化コス ト(^generalization cost): cost、 P を、
[数 9] cos = ^v E cm) (3)
1^1 と定義する。言い換えれば、パターンの一般ィ匕コストは、パターンを構成するラベル のコストの平均である。
以上の定義をもとに、最終的に我々が解くべきグラフマイニングの問題は以下とな る。
[0116] 「問題 3」 グラフの集合 GS = [ G , G , · · · , G ]、 Taxonomy T、最小支持度 minsup
1 2 n
、最大一般ィ匕コスト maxcostが与えられた際に、以下の条件を満たすパターンを完全 に抽出する。
(1)支持度が minsup以上 (定義 2. 5を参照)
(2) Clique (定義 2. 4を参照)
(3) Closed patterns (定義 2. 7を参照)
(4)一般化コストが maxcost以下 (定義 2. 8を参照)
さらに、抽出されたパターンに対応する各グラフの部分グラフを全て特定する。
[0117] 「2. 4 理論」
本セクションでは、問題 3を解くためのグラフマイニングアルゴリズムの理論的な部 分について、出来る限り self-containedな形で記述を行う。以下の定義はグラファルゴ リズムの分野では基本的なものである。
[0118] 「定義 2. 9 (DFS木、 DFS添え字付け、前向きの辺、後ろ向きの辺(文献 B19) )」 本定義にお 、てグラフは連結グラフであるとする。 (1)深さ優先木 (DFS木、 DFS Tree):グラフを深さ優先探索した際に得られる木構 造。
(2) DFS添え字付け(DFS Subscripting):グラフの頂点に DFS木で探索される順番 に従って番号付けをしたもの。またグラフ Gと DFS木 Tに対して DFS subscriptingを Gと
T
書く。潘目の頂点を Vと表すと G =[v]と書ける。
i T i
(3)前向きの辺(Forward Edge)と後ろ向きの辺(Backward Edge):グラフ Gと深さ優 先木 Tが与えられた際に、 Gの辺の中で Tに含まれるものを前向きの辺(Forward Edge)、含まれないものを後ろ向きの辺(Backward edge)と呼ぶ。前向きの辺を (v, v Xiく j)、後ろ向きの辺を (v, v)(i>j)と表す。
1 J
(注意 2.4) 開始頂点の選び方などにより、同一のグラフに対して複数の深さ優先 木が存在する(すなわち複数の DFS Subscriptingが存在する)。
[0119] 「定義 2. 10(文献 B20)」
連結グラフ Gと DFS木 Tが与えられているものとする。前向きの辺の集合 E, =[e | f τ Vi
, j, i<j, e=(v, v)EE]と後ろ向きの辺の集合 E , =[e
i j T I Vi, j, i>j,e=(v, v)≡E]
i j に対して順序関係を以下の通り定義する(これらはすべて半順序関係であることは容 易に示せる)。
[数 10]
(1〕 {Ef,T上の順序)( 1: - J , T (vi3,vj2)
Figure imgf000036_0001
j2
(2) (Sfr.r上の順序) (Viい v ) も ,τ {¾,¾) ¾■〔i) it < i2 or (ii) = i2 j! <お.
(3) (Ef と EbTの間の順序) bf.T 4÷ (i) ei G Ε,,τ,^ £ BflT,ii < or
(注意 2. 5) DFS木 Tを固定する限り、(1)の (ii)の条件は必要ない。ただし、(1)の (ii)の条件を入れることにより、グラフやその DFS木が異なっている場合でも辺の比較 が可能になる。
(注意 2. 6) 今後は特に誤解が無い限り辺( V, V )を省略して( i, j )と書く。
この順序関係について以下の結果が成立する。
[0120] 「定理 2. 1(文献 B20)」
グラフ Gと DFS木 Tを固定したときに、定義 2. 10の順序を合わせて定義される E, f T U E , 上の順序関係は、線形順序である。なお、集合 (A, <)が線形順序集合である b T
とは、 (i) Va, b£Aに対して、 a<bかつ b<cならば a<c、かつ、 (ii)Va, b^Aに対 して、 a< bまたは b< aが成り立つことである(一般的には「a< ajと「a< bかつ b< aなら ば、 a=b」を条件に入れる場合も多いが、ここでは入れない)。
この定理により、グラフと深さ優先木を固定したときに、グラフに含まれる辺(前向き の辺または後ろ向きの辺のいずれか)には線形順序を与えることが出来る。さらに、 頂点や辺のラベルを考慮して次のように DFSコードと呼ばれる表現方法を定義する。
[0121] 「定義 2. 11(DFSコード (文献 B20))」
グラフ Gと DFS subscripting Gに対して辺を (i, j, 1, 1, 1 ,d )と表す。ここで 1,
T i j (i, j) (i, j) i
1はそれぞれ i番目、 j番目の頂点のラベルを表す。 1 は辺 (i, j)のラベルを表す。 d
J , j) , J
)は辺 G, j)の向き Gから jの向きであれば +1、 jから iの向きをー1とする)を表す。この とき、 Gの辺を定理 2. 1の順序に従って並べた順列 [(i, j, 1, 1, 1 ,d ;)]をグラフ i J (i, j) (i, I*
Gの DFSコード(DFS code)と呼び、 code(G, T)と書く。
(注意 2. 7) 上記の DFSコードの定義は原論文 (文献 B20)とは以下の点で異なる
(1)グラフが有向グラフのため辺の方向に関する項 d が存在する。
(i,j)
(2)ラベルの順序は、(fromlabel, tolabel, edgelabel, direction)の順番である(原論 文では(fromlabel, edgelabel, tolabel)の順番)。これは、後に一般化コストによる枝狩 りを行う際に重要になってくる。
DFSコード力 辺をひとつ拡張して新しい DFSコードを作成する場合、定義 2. 10の 順序関係により任意に拡張を行うことは出来ず、以下の制限がある。
[0122] 「命題 2. 1(DFSコードの拡張の制限 (文献 B20))」
グラフ Gと DFS木 Tが与えられているものとする。 a=code(G, T)=(a , a ,· · 'a ),a =(i
0 1 m k
, j),a =(i , j )とするとき以下が成立する。
k k k+1 k+1 k+1
(Daが前向きの辺かつ a が前向きの辺であるならば、
k k+1
i ≤j l
k+1 kかつ j =j+
k+1 k
(2) aが前向きの辺かつ a が後ろ向きの枝であるならば、
k k+1
i =j力つ j <i
k+1 k k+1 k (3) aが後ろ向きの辺かつ a が前向きの辺であるならば、
k k+1
i ≤i力つ j =i +1
k+l k k+1 k
(4) aが後ろ向きの辺かつ a が後ろ向きの枝であるならば、
k k+1
i =i力つ j <j
k+1 k k k+1
(証明) DFS木の定義および DFSコードの定義より明らかである。
[0123] 「定義 2. 12 (最右拡張 (文献 B20) )」
パターン Pとその DFSコードに対して以下の拡張を最右拡張(Right-most extension )と呼ぶ。
(1)最右頂点力 他の最右パスに含まれる頂点への辺の拡張 (後ろ向きの拡張、 ba ckward extension)
(2)最右パスに含まれる頂点から、 Pに含まれな!/、新 U、頂点への拡張 (前向きの ぉム張、 rorwara extension)
(注意 2. 8) 定義 2. 12を使って性質 2. 1を言い換えれば、パターン(DFSコード) の拡張は最右拡張に限るということである。
任意の 2つの DFS code (異なるグラフでもよ 、)の間に以下のようにして順序を与え ることが可能である。
[0124] 「定義 2. 13 (DFS Lexicographic Order (文献 B20) )」
連結グラフ Gに対して Z ( G ) = [ code ( G, T ) I VT : Gの DFS木 ]と表す。さらに Z = U Z(G)と置く(すなわち Zはすべての連結ラベル付きグラフの DFSコー
Gxonnectea graph
ドの集合である)。グラフの頂点のラベル集合 Lと辺のラベル集合 Lには、それぞれ
V E
[数 11] 線形順序 と LE が定義されていると仮定すると、 E X L X L X L上には辞書順で
V E V
[数 12] 順序 を入れることが可能である。このとき、 DFS Lexicographic orderとは以下で定義され る Z上の線形順序である。 a=code(Ga, Ta)=(a, a ,---,a )≡Z, β =code(G β ,
0 1 m
T j3 )=(b , b,''',b )GZに対して、 a≤ j3とは、次の(1)または(2)が成立することで
0 1 n
ある。
[数 13]
(!) 0 < t < m {m,n)となる ίが存在して, 任意の < ίに対して = かつ at r, bt (2) 任意の 0≤ ≤ mに対して ak = bkかつ n > m.
(注意 2. 9)
[数 14] ( , , , . 。, )) > bt = ibJb'k ljb,k ,] d( ,hi)とすると' (1)の at ^ btは以下のいずれかが成立することと同値である. at G ii:a,b and bt ς !pj
at e Eab, bt G Εβ^ and ja < jb
at e bt S E^b & =jb and ί 。 Ja) < &, )
at Eaib, bt e ¾t», jtt = ji, and = l(ib b) and d{ia a < d{ib b
< t E Ea ibt 6 Εβ,/ and く ia
at€ EaJ,bt e Εβ, ,ία - and lia く lib
¾
Figure imgf000039_0001
ib, a = kbJja < ijt
°t G Ea,f,bt ζ E&J,ia
Figure imgf000039_0002
t, and 。' j。) < ki )
、 ¾ C Eaj,bt C E0j,ia = , = = )
Figure imgf000039_0003
and , j«)く , )
[0125] 「定義 2. 14(最小 DFSコード)」
グラフ Gが与えられた際に、その DFSコードの中で (上記順序に対して)最小の DFS コードを最小 DFSコード(minimum DFS code)と呼び、 min(G)と書く(すなわち min ( G ) =min[code(G, T) | Τは Gの DFS木]である)。
以下の定理により、 min ( G )はグラフ Gに対する canonicalな表現となっている。従つ て、 min ( G )を canonical DFS codeと呼ぶこともある。
[0126] 「定理 2. 2(文献 B20)」
グラフ Gと G'が同型である必要十分条件は min ( G ) = min ( G' )となることである。
[0127] 「定義 2. 15(DFSコードの親および子(文献 B20))」
DFSコード a=(a , a,---,a )が与えられているとする。このとき妥当な DFSコード = (a , a , - - - ,a , b)を DFS code aの子 (child)、 aは DFSコード βの親 (parents)と呼
0 1 m
ぶ(「性質 2. 1」を満たさなければならな 、)。 αの子の集合を children( a )と書く。
[0128] 「定義 2. 16 (DFS Code Tree (文献 B2) )」
「親要素と子要素の関係が定義 2. 15で与えられ、さらに同じ親の子要素の関係は DFS lexicographic orderで与えて得られるような、 DFS codeを頂点とする木構造」を 、「DFS code treejと呼ぶ。
上で定義されている DFS code treeは DFSコードをノードとする順序木である。問題 3 はこの順序木の順序で探索を行っていく。 DFS code treeが全ての部分グラフを数え 上げることが可能であることを保障するのが次の定理である。
[0129] 「定理 2. 3 (DFS Code Tree Covering (文献 B20) )」
DFS Code Treeは全てのグラフの最小 DFSコードを含む。
DFS Code Tree Tと DFS code aが与えられたときに、 Tにおける αの祖先の集合を ans( a 子孫の集合を des ( a )と表す。
次の定理は、最小でない DFSコードを根とする部分木を枝狩りしても、全ての部分 グラフを数え上げることが可能であることを保障している。
[0130] 「定理 2. 4 (DFS Code Pruning (文献 B20) )」
グラフ Gと DFS code tree T内のグラフ Gの DFS codesを α , α , · · · , « (Vi, j≤nに
0 1 n
対し α≤ α , αが minimum DFS code)とする。 a (l≤i≤n)とその子孫の全て(す i j 0 i
なわち DFS code tree内の a .を根とする部分木)を枝狩りして残った DFS Code Tree は全ての最小 DFS codeを含む。
(注意 2. 10) 定理 2. 4により、 DFS code treeの最小 DFSコードでない DFS codeを 根とする部分木は全て枝狩りを行っても全ての部分グラフを網羅可能である (完全性
) o
定義より支持度に関して以下の単調性が成立することがわかる。これにより、支持度 が与えられた最小支持度を下回ったパターンはそれ以上拡張する必要がないことが 保障される。
[0131] 「命題 2. 2 (支持度の逆単調性)」
[数 15] パターン P, P!に対して Ρ' ならば support(P) < support(F')である. ここまでの理論は Yanらの貢献による。本研究では Yanらの理論をベースにラベルに Taxonomy情報およびその枝狩り手法 (文献 B2)の統合を行う。つまり、定義 2. 16で 定義される DFS code tree上を今回の制約を用いてさらに効率的に探索していく。さら に、 cliqueなパターンのみを抽出することを利用した探索の効率ィ匕及びパターンの一 般化コストによる枝狩り手法の提案を新たに行う。
導出パターンを Cliqueなパターンに制限する場合には、 DFS codeの子に対して「性 質 2. 1」よりさらに強い制約を与えることが可能である。
[0132] 「命題 2. 3 (抽出パターンの Clique性を利用した DFSコードの拡張の制限)」
グラフ Gと DFS木 Tが与えられているものとする。 a =code(G, T)=(a , a , · · ' a ),a =(i
0 1 m k
, j , 1 , 1 , 1 ,d )とするとき、 DFSコードの子要素に以下の制限を与えて得 k k ik jk (ik, jk) (ik, jk)
られる DFS code treeは、全ての Cliqueな部分グラフの最小 DFSコードを含む。
(D aが前向きの枝かつ a が前向きの枝であるならば、
k k+1
k=0力つ j =i =1力つ j =2
0 1 1
(2) aが前向きの枝かつ a が後ろ向きの枝であるならば、
k k+l
i =jかつ j =i (=0)
k+l k k+l 0
(3) aが後ろ向きの枝かつ a が前向きの枝であるならば、
k k+l
i =i 力つ j =i +1力つ i—2=]
k k+l k+l k k k
(4) aが後ろ向きの枝かつ a が後ろ向きの枝であるならば、
k k+l
i =i力 i =i
k+l k k+l k
[0133] (証明) (1)から (4)のいずれの条件も満たさない拡張によって得られられる DFSコ ードを根とする部分木には Cliqueなパターンを含まないことを示す。
(1) a および a が前向きの枝であるとする。 j≠i とすると、深さ優先木の定義か k k+l k k+l
ら今後の拡張により後ろ向きの辺 (j , j )が拡張されることはない。よって j =i として k+l k k k+l このとき、ちし k≠0とすると i > 1となり、定義 2. 10を繰り返し使うと a =(i , j )< (j k k k k k
, i - l)=(i , i -1XG , j )=a となるから、今後の拡張により得られるパターン k k+l k k+l k+l k+l
には後ろ向きの辺 (i , i 1)が存在しない(従って Cliqueなパターンではない)。 k=0 とする。すなわち、 aかつ a が前向きの枝であるならば、拡張を(1)に制限することに k k+1
より探索されないパターンはすべて Cliqueでないパターンとなる。
(2) aが前向きかつ a が後ろ向きの枝であるとする。 i =jは Propositionである。も k k+l k+l k
し、 j >0とすると、 a =(i , j )< (i , 0)< (i , j )=a であるから、後ろ向きの辺 (i , k+l k k k k+l k+l k+l k+l k+l
0)は今後の辺の拡張によって得られることはない。よって、拡張を (2)に制限するこ とにより探索されないパターンは全て Cliqueなパターンではない。
(3)明らかに i≥0と仮定してよい。 j =i +1は Propositionより成立するのは明らかで
k k+l k
ある。もし i≠i であるとすると後ろ向きの辺 (i , i )は今後拡張されることはないから
k k+l k+l k
、i =i 。もし i— 2≠jならば、 a =(i , j )< (i , i -2)< (i , j )=a となり、今後の k k+l k k k k k k+l k k+l k+l k+l
拡張により得られるパターンには後ろ向きの辺 (i , i 2)は存在しない。よって拡張
k+l k
を(3)に制限することにより探索されな 、パターンは全て Cliqueなパターンではな 、。
(4)上と同様に (4)の制限を加えることにより探索されないパターンは全て Cliqueな パターンではな ヽことが示せる。
以上と定理 2. 3より題意が証明できた。
(注意 2. 11) 以下では DFS code treeとは子要素に上記の制限をカ卩えた DFS cod e treeを意味するものとする。
一般に DFSコード aの最小性の判定は、 aの最小 DFSコードと aが等しいかどうか を比較することにより行われる。これは、グラフの同型性を判定することと実質的に等 価であり、多大な計算量を要する。しかしながら、抽出するパターンを Cliqueなパター ンに限る場合には、以下の命題を用いることによりこの DFSコードの最小性の判定を 回避することができる。
「命題 2. 4 (導出パターンの clique制限を用いた自明な最小でな!、DFSコード)」
DFSコード a =(a , a , - - - a ),a =(i , j , 1 , 1 ,1 , d 》が、ある kに対して a
0 1 m k k k ik jk (ik, jk) (ik, jk) 0 kO が前向きの枝かつ 1 く min[l I p< k ]であるならば、 DFS code tree内で αを根とする
jkO ρ 0
部分木を枝狩りして残った部分木は、すべての cliqueなパターンの最小 DFSコードを 含む。
(証明) パターン αを拡張して生成される最初の Cliqueなパターンの DFSコードは 最小でないことを示せば十分である。 DFSコード αに対するグラフの DFS木を T=[vf とすると、仮定力もある n(< N)が存在して l(v ) < l(v )となる。 aを拡張して得られる最
1 N n
初の Cliqueなパターン Pは、頂点 [vf 力 なる完全グラフとなり、その DFSコードひ,
i i=l
の DFS木は (ν,· · ·, V , ν,· · ·, V )である。しかしながら、 DFS添え字付け (ν,· · ·,
1 n-l η Ν 1 ν ,ν , · · 力も得られる DFSコードを 13とすると、 13 < aである。よって、パターン ex n-l N
を拡張して生成される最初の Cliqueなパターンの DFSコードは最小でない。
次の命題を用いると、一般化コストによる枝狩りを効率よく行うことが可能となる。 「命題 2. 5 (Cliqueと最大一般ィ匕コストの制限を用いた枝狩り)」
グラフの集合 GSと Taxonomy Tが固定されているものとする。さらに、以下の仮定を 置く。
( 1)ラベルの Taxonomyは頂点にのみ存在し、辺ラベルの一般化コストは全て 0であ る。
(2) GSの任意のラベル x E V ( T )と Taxonomy Tにおけるその任意の祖先 yに対し て x< yを満たすラベル付けがなされている。
(3)ラベル X, yが x< yを満たすならば、 c ( x ) ≤ c ( y )
このとき、 DFS code tree上で一般化コストが maxcostより大きい DFS codeを根とする 部分木を枝狩りした結果残る DFS code treeは、すべての一般化コストが maxcost以下 かつ cliqueなパターンの最小 DFSコードを含む。
(証明) 命題 2. 4により、パターンに新しい頂点ラベルが追加される(DFSコードを 前向きの辺により拡張する)場合、追加される頂点のラベルはパターンのどの頂点ラ ベルとも等しいか、より大きい。このことと仮定を用いると容易に証明できる。
(注意 2. 12) 前出の「分類データの生成」のセクションで説明された方法により構 築されるタクソノミデータが上記の命題の条件を満たすことは容易にわかる。
(注意 2. 13) この Propositionは導出パターンを Cliqueなパターンに制限しない場 合には成立しない。また、 DFSコードの順序付けを定義 2. 1 1のようにしなければ成 立しない(辺のラベルより 2つの頂点ラベルの方が順序付けに対する優先度が高い) 。さらに、辺のラベルにも Taxonomyを考慮した場合にも成立しない。
最後に、導出パターンを over-generalizedでないパターンに制限する場合に対する 枝狩りの基本となる理論につ 、て述べる。 [0136] 「定義 2. 17 (重みつき支持度 (文献 B2) )」
グラフ Gと Taxonomy Tが与えられた際に、パターン Pのグラフ Gにおける出現回数を [数 16]
と表す。このとき、グラフセット GS = [ G ]を固定したとき、パターン Pに対して
[数 17] suVw {P) = ∑ iP P C ( をパターン Pの重みつき支持度(weighted support)と呼ぶ。ここで、
[数 18] 匚 }|は P匚 を満たすバタ ン尸 の個数 (同型なパターンは 1つと数える) を意味する.
[0137] 「命題 2. 6」 グラフの集合 GSと Taxonomy Tを固定する。 GSの任意のラベル xEV ( T )と、 Taxonomy Tにおけるその任意の祖先 yE ans(x)に対して x<yを満たすラベル 付けがなされているものとする。このときパターン Pの一般化パターンを P'とすると、 P く P'である。すなわち任意のパターン Pに対してその一般化パターン P'は DFS code t ree上で Pより後に出現する。
(証明) Pと P'の最小 DFS codeをそれぞれ α , βとするとき、 aぐ βとなることを示 せばよい。一般化パターンの定義と、ラベル付けの仮定により容易に示せる。
[0138] 「命題 2. 7 (文献 Β2)」 DFS code tree上の DFS code Pに対して、 Pより以前に出て きた DFSコード P'で、 P (の表現するグラフ)が P' (の表現するグラフ)の一般ィ匕された パターンでありかつ sup (P)=sup (Ρ')を満たすものが存在するとき、 DFSコード Ρを根に もつ部分木を枝狩りした結果残る部分木は全ての over-genralizedでない部分グラフ の最小 DFSコードを含む。
(注意 2. 14) この命題を用いて過度に一般ィ匕されたパターンの枝狩りを効率良く 行うためには、あるパターンの特殊ィ匕パターンはそのパターンより以前に探索されて いなければならない。命題 2. 6により、任意のパターンはその特殊ィ匕パターンより DF b Lexicographic orderで後【こ出現するため、 DFS lexicographic orderで DF¾ code treeを探索すれば、上記の枝狩りは効率よく行えることがわ力る。
(注意 2. 15) この条件による枝狩りだけでは、全ての over- generalizedでないパタ ーンを DFS code treeの探索の段階で枝狩りをすることはできない。枝狩りにもれたパ ターンは後処理で削除する。
[0139] 「2. 5 ァノレゴリズム」
本セクションでは、セクション 2. 4で述べた理論に基づいて構築されるアルゴリズム について述べる。その骨格部分は、図 17のアルゴリズム 1 (Algorithm 1)である。アル ゴリズムの入力は RNA配列の集合 (複数のファミリーや未知のファミリーが含まれて いても構わない)と最小支持度(minimum support)、最大一般化コスト(maximum gen eralization cost)である。まず、セクション 2. 2に述べる方法により RNA配列集合から グラフ集合 GSおよび頂点ラベルの Taxonomy Tを構築する(line 2)。次に GSから辺の サイズが 1の頻出でありかつ一般化コストが maxcost以下のパターンを抽出する。ここ で頻出パターンと一般ィ匕コストが maxcost以下のパターンだけを考えれば十分なのは 、命題 2. 2と命題 2. 5により保障されている。その後、 C を DFS lexicographi order
initial
(定義 2. 13)でソートし、その順番で C のパターンに対して、アルゴリズム GraphMi
initial
ning (アルゴリズム 2 (Algorithm 2) (図 18) )を呼び出す。最後に、 PSから non- closed patternおよび non- cliqueパターンを除く(line 8)。
[0140] アルゴリズム 2 (Algorithm 2)は提案手法におけるグラフマイニングの骨格部分であ る。まず、現在考えているパターン sの最小性を判定し、最小でないものに関しては探 索を打ち切る(line 3)。この操作によりアルゴリズムの完全性が保たれることは定理 2. 4による。この際、 DFS codeの最小性判定にはコストがかかるため、命題 2. 4を用い て最小性の判定をやらなくていいものに関しては判定を行わない。次に一般ィ匕コスト の判定を行い、一般ィ匕コストが maxcostより大きいものに関しては探索を打ち切る。こ れを保障するのが命題 2. 5である。最後に over- generalizedなパターンであるかどう かの判定を行い、 over- generalizedなパターンであれば探索を打ち切る(line 4)。この 判定は、命題 2. 7により行う力 注意 2. 14にも述べたとおりこの段階ですベての over -generalizedなパターンを除くことはできな!、。以上で枝狩りをされなかったパターン は PSに保存する。ここで注意するのは、 PSには cliqueでないパターンも格納する(line 5)。これは over- generalizedなパターンの判定に使用するためである。
line 6では辺を 1つ拡張することにより、現在のパターン sの拡張を行う。ここでは命 題 2. 3の条件を満たすようにパターンを拡張し、頻出である(支持度が minsupより大 きい)パターンを Cに格納する(line 6)。その後、 Cのパターンに対して DFS lexicograp hie orderの順番で再帰的にアルゴリズム GraphMiningを呼び出す。
[0141] 「3 実装」
本アルゴリズムを実装したソフトウェア RNAminer (RNA stem pattern miner)を開発し た。実装は C++言語および STL I Boostライブラリを用いて行った。さらに現在の実装 においては、グラフの同型性判定ライブラリとして VFlib 2.0 (文献 B21)をクラスタリン グのライブラリとして Cluster 3.0 (文献 B22)を用いている。また、塩基対確率行列の 計算には Vienna RNA package (文献 B23)のライブラリを用いている。
なお、ステム候補の抽出の部分で塩基対単位でギャップが許されてよい。また、ス テム候補は塩基対の極大集合として抽出するので、ステム候補間が若干オーバラッ プして ヽても辺を与えてよ!ヽ。
[0142] 「参考文献」
以下の参考文献のうち、(文献 B3)は (文献 A12)と同じであり、(文献 B5)は (文献 A17)と同じであり、(文献 B6)は (文献 A16)と同じであり、(文献 B7)は(文献 A27) と同じである。下記のリスト中の各文献は、本明細書に組み込まれる(imcorporated)。
(文献 B1)
Ramaknshnan Srikant and Ra esn Agrawal. Mining generalized association r ules. Future Gener. Comput. Syst., Vol. 13, No. 2—3, pp. 161—180, 1997. (文献 B2)
Akihiro Inokuchi. Mining generalized substructures from a set of labeled g raphs. In ICDM, pp. 415—418. IEEE Computer Society, 2004.
(文献 B3)
Y Tabei, K Tsuda, T Kin, and K Asai. SCARNA:Fast and Accurate Stru ctural Alignment of RNA Sequences by Matching Fixed-length Stem Fragme nts . submitted to Bioinformatics .
(文献 B4)
Vineet Baiha, Haixu Tang, and Shaojie Zhang. Consensus folding of unalig ned rna sequences revisited. In Satoru Miyano, Jill P. Mesirov, Simon Kasif , Sorin Istrail, Pavel A. Pevzner, and Michael S. Waterman, editors, RECO MB, Vol. 3500 of Lecture Notes in Computer Science, pp. 172-187. Sprin ger, 2005.
(文献 B5)
Helene Touzet and Olivier Perriquet. CARNAC: folding families of related RNAs. Nucleic Acids Res, Vol. 32, No. Web Server issue, pp. 142—145, Jul 2004. Evaluation Studies.
(文献 B6)
Yongmei Ji, Xing Xu, and Gary D Stormo. A graph theoretical approach for predicting common RNA secondary structure motifs including pseudoknot s in unaligned sequences. Bioinformatics, Vol. 20, No. 10, pp. 1591 - 1602, Jul 2004. Evaluation Studies.
(文献 B7)
Daniela Fera, Namhee Kim, Nahum ShiiFeldrim, Julie Zorn, Uri Laserson, Hin Hark Gan, and Tamar Schlick. RA : RNA— As— Graphs web resource. B MC Bioinformatics, Vol. 5, p. 88, Jul 2004.
(文献 B8)
J S McCaskill. The equilibrium partition function and base pair binding pr obabilities for RNA secondary structure. Biopolymers, Vol. 29, No. 6—7, pp . 1105-1119, May 1990.
(文献 B9)
Robert J Klein and Sean R Eddy. RSEARCH: finding homologs of single structured RNA sequences. BMC Bioinformatics, Vol. 4, p. 44, Sep 2003. (文献 BIO)
T F Smith and M S Waterman. Identification of common molecular subseq uences. J Mol Biol, Vol. 147, No. 1, pp. 195-197, Mar 1981.
(文献 Bl l)
D Bouthinon and H Soldano. A new method to predict the consensus se condary structure of a set of unaligned RNA sequences. Bioinformatics, Vol . 15, No. 10, pp. 785-798, Oct 1999.
(文献 B12)
Jun Huan, Wei Wang, and Jan Prins. Efficient mining of frequent subgrap hs in the presence of isomorphism. In ICDM '03: Proceedings of the Third
IEEE International Conference on Data Mining, p. 549, Washington, DC, USA, 2003. IEEE Computer Society.
(文献 B13)
Michihiro Kuramochi and George Karypis. Frequent subgraph discovery. In ICDM '01: Proceedings of the 2001 IEEE International Conference on Dat a Mining, pp. 313—320, Washington, DC, USA, 2001. IEEE Computer Socie ty.
(文献 B14)
Akihiro Inokuchi, Takashi Washio, and Hiroshi Motoda. An apriori— based a Igorithm for mining frequent substructures from graph data. In PKDD '00: Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery, pp. 13—23, London, UK, 2000. Springer— Verlag.
(文献 B15)
Akihiro Inokuchi, Takashi Washio, and Hiroshi Motoda. Complete mining o f frequent patterns from graphs: Mining graph data. Mach. Learn., Vol. 50, No. 3, pp. 321-354, 2003.
(文献 B16)
Akihiro Inokuchi, Takashi Washio, Kunio Nishimura, and Hiroshi Motoda. A Fast Algorithm for Mining Frequent Connected Subgraphs. IBM Research. In IBM Research Report, 2002.
(文献 B17)
Xifeng Yan and Jiawei Han. gspan: Graph-based substructure pattern mini ng. In ICDM '02: Proceedings of the 2002 IEEE International Conference on Data Mining (ICDM'02), p. 721, Washington, DC, USA, 2002. IEEE Co mputer Society.
(文献 B18)
Xifeng Yan and Jiawei Han. Closegraph: mining closed frequent graph patt erns. In KDD '03: Proceedings of the ninth ACM SIGKDD international co nference on Knowledge discovery and data mining, pp. 286—295, New York,
NY, USA, 2003. ACM Press.
(文献 B19)
T. Cormen, C. Leiserson, R. Rivest, and C. Stein. Introduction to Algori thms (2nd edition). MIT Press, 2001.
(文献 B20)
Xifeng Yan and Jiawei Han. gspan: Graph-based substructure pattern mini ng. 2002.
(文献 B21)
C. Goggia and S. Tortorella. Graph matching: A fast algorithm and its e valuation. 1999.
(文献 B22)
M J L de Hoon, S Imoto, J Nolan, and S Miyano. Open source clusteri ng software. Bioinformatics, Vol. 20, No. 9, pp. 1453-1454, Jun 2004. Eva luation Studies.
(文献 B23)
I.L. Hofacker, W. Fontana, P.F. Stadler, S. Bonhoeifer, M. T acker, and P. Schuster. Fast folding and comparison of RNA secondary structures. Mo natsh. Chem., Vol. 125, pp. 167—188, 1994.
(文献 B24)
Bernhart SH, Hofacker IL, and Stadler PF. Local RNA base pairing proba bilities in large sequences. Bioinformatics, Dec 2005. JOURNAL ARTICLE.
[0143] 以上に現時点で考えられる本発明の好適な実施の形態を説明した力 本実施の形 態に対して多様な変形が可能なことが理解され、そして、本発明の真実の精神と範 囲内にあるそのようなすべての変形を添付の請求の範囲が含むことが意図されてい る。
産業上の利用可能性
[0144] 以上のように、本発明は、複数の RNA配列データ力 コンピュータ処理によって 2 次構造モチーフを抽出することができ、ノィォインフォマテイクス技術として有用であ る。

Claims

請求の範囲
[1] 複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出す るステム候補抽出部と、
各 RNA配列データ力 抽出された前記複数のステム候補の各々を頂点として有し 、頂点間を辺で結んだステムグラフを生成するグラフ生成部と、
前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して 、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムダラ フに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして 抽出するグラフ解析部と、
を備えたことを特徴とする RNA配列情報処理装置。
[2] 前記グラフ生成部は、前記 RNA配列上での各ステム候補対の位置関係に応じた 向きを、前記各ステム候補対を結ぶ辺のラベルに付与し、
前記グラフ解析部は、前記複数のステムグラフから、対応する辺の向きが同じ前記 部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処理装置。
[3] 前記グラフ生成部は、各ステム候補対の接続関係が並列、埋込み、重複の 、ずれ かに属するかの情報を、前記各ステム候補対を結ぶ辺のラベルに付与し、
前記グラフ解析部は、前記複数のステムグラフから、対応する辺の前記接続関係が 同じ前記部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処 理装置。
[4] 前記グラフ生成部は、前記並列、埋込みおよび重複のいずれにも該当しないステ ム候補対を、辺による接続対象から除外することを特徴とする請求項 3に記載の RN A配列情報処理装置。
[5] 前記グラフ生成部は、各頂点が部分グラフ内のすべての他の頂点と辺で結ばれる 完全部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処理装 置。
[6] 前記複数のステムグラフに含まれる前記複数のステム候補を類似性に基づいて分 類する分類データを生成する分類データ生成部を含み、
前記グラフ解析部は、前記複数のステムグラフから、対応する頂点のステム候補が 同じ分類に属する前記部分グラフを抽出することを特徴とする請求項 1に記載の RN A配列情報処理装置。
[7] 前記分類データ生成部は、前記分類データとして、前記複数のステム候補を、類 似範囲の広さが下位層から上位層へ向力つて増大するように階層的にクラスタリング を行ったタクソノミデータを生成し、
前記グラフ解析部は、前記タクソノミデータに基づき、対応する頂点のステム候補が 下位層では異なる分類に属しても上位層では同一分類に属する前記部分グラフを 抽出することを特徴とする請求項 6に記載の RNA配列情報処理装置。
[8] 前記タクソノミデータにて階層に応じて増大する一般ィ匕コストの最大許容値である 最大一般化コストを入力する最大一般化コスト入力部を含み、
前記グラフ解析部は、前記最大一般化コスト以下の一般化コストを有する前記部分 グラフを抽出することを特徴とする請求項 7に記載の RNA配列情報処理装置。
[9] 前記分類データ生成部は、ステム候補対の類似性を表す類似性パラメータを、ステ ム候補対の配列相同性、ステム候補により形成されるループの距離の類似性、およ び、 RNA配列内でのステム候補の位置の類似性の少なくとも一つに応じて求めるこ とを特徴とする請求項 6に記載の RNA配列情報処理装置。
[10] 前記複数のステムグラフにおける前記部分グラフの支持度の最小許容値である最 小支持度を入力する最小支持度入力部を含み、
前記グラフ解析部は、前記最小支持度以上の支持度を有する前記部分グラフを抽 出することを特徴とする請求項 1に記載の RNA配列情報処理装置。
[11] 前記ステム候補抽出部は、分子構造のエネルギに基づいて前記 RNA配列上の任 意の 2つの塩基の塩基対形成確率を求めた塩基対確率行列から、連続する塩基対 領域を前記ステム候補として抽出することを特徴とする請求項 1に記載の RNA配列 情報処理装置。
[12] 複数の RNA配列からコンピュータ処理によって 2次構造モチーフを抽出する RNA 配列情報処理方法であって、
複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出し、 各 RNA配列データ力 抽出された前記複数のステム候補の各々を頂点として有し 、頂点間を辺で結んだステムグラフを生成し、
前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して 、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムダラ フに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして 抽出する、
ことを特徴とする RNA配列情報処理方法。
複数の RNA配列から 2次構造モチーフを抽出する配列情報処理をコンピュータに 実行させる RNA配列情報処理プログラムであって、
複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出し、 各 RNA配列データ力 抽出された前記複数のステム候補の各々を頂点として有し 、頂点間を辺で結んだステムグラフを生成し、
前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して 、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムダラ フに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして 抽出する、
処理を前記コンピュータに実行させることを特徴とする RNA配列情報処理プロダラ ム„
PCT/JP2007/052369 2006-02-27 2007-02-09 Rna配列情報処理装置 WO2007097213A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006049694A JP4940396B2 (ja) 2006-02-27 2006-02-27 Rna配列情報処理装置
JP2006-049694 2006-02-27

Publications (1)

Publication Number Publication Date
WO2007097213A1 true WO2007097213A1 (ja) 2007-08-30

Family

ID=38437253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/052369 WO2007097213A1 (ja) 2006-02-27 2007-02-09 Rna配列情報処理装置

Country Status (2)

Country Link
JP (1) JP4940396B2 (ja)
WO (1) WO2007097213A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154589A (zh) * 2021-12-13 2022-03-08 成都索贝数码科技股份有限公司 一种基于相似性的模块减枝方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146538A (ja) * 2006-12-13 2008-06-26 Intec Web & Genome Informatics Corp マイクロrna検出装置、方法およびプログラム
JP5419145B2 (ja) * 2009-07-24 2014-02-19 Necソフト株式会社 アプタマー分類装置、アプタマー分類方法、プログラムおよび記録媒体
KR101330939B1 (ko) 2012-04-04 2013-11-18 경희대학교 산학협력단 정규 그래프 탐색 트리의 생성 방법
KR101376419B1 (ko) 2012-05-01 2014-03-19 강원대학교산학협력단 유전자 염기서열 및 주석정보 표시장치 및 표시방법
WO2018003809A1 (ja) * 2016-06-27 2018-01-04 国立大学法人京都大学 Rna構造ライブラリ
CN111581445B (zh) * 2020-05-08 2023-10-13 杨洋 基于图基元的图嵌入学习方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284595A (ja) * 2004-03-29 2005-10-13 Kiyoshi Asai Rna配列情報処理方法、プログラムおよび装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284595A (ja) * 2004-03-29 2005-10-13 Kiyoshi Asai Rna配列情報処理方法、プログラムおよび装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FERA D.: "RAG: RNA-As-Graphs web resource", BMC BIOINFORMATICS, vol. 5, 2004, pages 88 - 96, XP003024504 *
HAMADA M.: "Mining frequent stem patterns from unaligned RNA sequences", BIOINFORMATICS, vol. 22, no. 20, 14 August 2006 (2006-08-14), pages 2480 - 2487, XP003024500 *
INOKUCHI A.: "Mining generalized substructures from a set of labeled graphs", ICDM, IEEE COMPUTER SOCIETY, 2004, pages 415 - 418, XP003024502 *
JI Y.: "A graph theoretical approach for predicting commong RNA secondary structure motifs including pseudoknots in unaligned sequences", BIOINFORMATICS, vol. 20, no. 10, 2004, pages 1591 - 1602, XP003024501 *
SONG Y.: "Tree Decomposition Based Fast Search for RNA Structures Including Pseudoknots in Genomes", CSB, IEEE COMPUTER SOCIETY, 2005, pages 223 - 234, XP003024503 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154589A (zh) * 2021-12-13 2022-03-08 成都索贝数码科技股份有限公司 一种基于相似性的模块减枝方法
CN114154589B (zh) * 2021-12-13 2023-09-29 成都索贝数码科技股份有限公司 一种基于相似性的模块减枝方法

Also Published As

Publication number Publication date
JP4940396B2 (ja) 2012-05-30
JP2007226700A (ja) 2007-09-06

Similar Documents

Publication Publication Date Title
Bhowmick et al. Clustering and summarizing protein-protein interaction networks: A survey
Wang et al. Recent advances in clustering methods for protein interaction networks
Lee et al. A survey of algorithms for dense subgraph discovery
WO2007097213A1 (ja) Rna配列情報処理装置
Ambroise et al. Adjacency-constrained hierarchical clustering of a band similarity matrix with application to genomics
Achar et al. RNA motif discovery: a computational overview
Bernardes et al. Evaluation and improvements of clustering algorithms for detecting remote homologous protein families
Struyf et al. Hierarchical multi-classification with predictive clustering trees in functional genomics
Marino Analysis and enumeration
Hamada et al. Mining frequent stem patterns from unaligned RNA sequences
Klie et al. Biological cluster evaluation for gene function prediction
Gao et al. Clustering algorithms for detecting functional modules in protein interaction networks
Chen et al. Exploring consensus RNA substructural patterns using subgraph mining
Pizzuti et al. An evolutionary restricted neighborhood search clustering approach for PPI networks
Reddy et al. Clustering biological data
Zhang et al. Data integration of hybrid microarray and single cell expression data to enhance gene network inference
Kwarciak et al. Tabu search algorithm for DNA sequencing by hybridization with multiplicity information available
Marino Algorithms for biological graphs: analysis and enumeration
Fogelberg et al. Machine learning and genetic regulatory networks: a review and a roadmap
Zhang et al. An algorithm to learn causal relations between genes from steady state data: Simulation and its application to melanoma dataset
Bonomo et al. Prediction of Disease–lncRNA Associations via Machine Learning and Big Data Approaches
Mohyedinbonab et al. A review on applications of graph theory in network analysis of biological processes
Carter et al. Deployment and retrieval simulation of a single tether satellite system
Peng et al. An efficient algorithm for detecting closed frequent subgraphs in biological networks
Bhowmick et al. Clustering PPI Networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07708305

Country of ref document: EP

Kind code of ref document: A1