WO2007097213A1

WO2007097213A1 - Ｒｎａ配列情報処理装置

Info

Publication number: WO2007097213A1
Application number: PCT/JP2007/052369
Authority: WO
Inventors: Kouji Tsuda; Taishin Kin; Michiaki Hamada; Kiyoshi Asai
Original assignee: National Institute Of Advanced Industrial Science And Technology; Mizuho Information Research Institute, Inc.; The University Of Tokyo
Priority date: 2006-02-27
Filing date: 2007-02-09
Publication date: 2007-08-30
Also published as: JP4940396B2; JP2007226700A

Abstract

　ＲＮＡ配列群から２次構造モチーフを抽出する新規な技術を提供する。複数のＲＮＡ配列データの各々から、ＲＮＡ２次構造の複数のステム候補が抽出される。各RNA配列のステム候補を用いてステムグラフが生成される。ステムグラフは、複数のステム候補を頂点として有し、頂点間を辺で結んだグラフである。複数のＲＮＡ配列に対応する複数のステムグラフが分析される。それらステムグラフに頻出する類似した部分グラフが、ＲＮＡ２次構造モチーフを表す頻出ステムパターンとして抽出される。複数のステムグラフのステム候補群が分類されて、分類データが生成される。分類データを用いて、類似する部分グラフが抽出される。ラベル付き有向グラフが好適に生成される。また、分類データとして階層的なタクソノミデータが生成される。

Description

明細書

RNA配列情報処理装置

技術分野

[0001] 本発明は、複数の RNA配列データをバイオインフォマティクス技術によって処理して、それら複数の RNA配列データに共通に含まれる 2次構造モチーフを抽出する技術に関する。

背景技術

[0002] 近年、多くの RNAがタンパク質に翻訳されることなぐ RNA自身が機能性分子として生理学的に重要な役割を果たすことが明らかになつてきた。これらの RNAは総称して機能性 RNA(fonctional RNA)または非コード RNA (non- coding RNA, ncRNA)と呼ばれ、非常に注目を集めている。たんぱく質と同様に、機能性 RNAは、 1次配列よりも立体構造がその機能に重要であると考えられている。また、 Tinocoらは、 RNAの立体構造の大部分が 2次構造により決定されるとの報告をしている (文献 A1)。それらを裏付けるように、多くの機能性 RNAが、進化的に高度に保存された大域的あるいは局所的な 2次構造モチーフを有する機能ファミリーを形成して、る（例えば tRNA, RNaseP— Dact— a, tmRNAなと (http://www.sanger.ac.uk/software/rfam/) )。従って、機能性 RNAファミリーを特定すること及び機能性 RNAファミリーを特徴付ける 2次構造モチーフを抽出することは、機能性 RNAを解析する際に非常に有用な情報をもたらす。

[0003] 現在のところ、 RNAの 2次構造予測の手法は大きく分けて 2種類存在する。そのひとつが、 mfold (文献 A2)や RNAfold (文献 A3)に代表される、最小自由エネルギー（ Minimum Free energy, MFE)に基づいた単一の RNA配列からの 2次構造予測である。これらの手法は比較的古くから研究がなされているが、一般的にはそれほど高精度ではない。その理由は、エネルギーパラメタの精度にあると考えられており、また、実際の RNA分子が他の分子との相互作用を受けながら立体構造を形成しているために単一の配列の最適な構造とは異なる構造を RNA分子が有することにあると考えられる。そのため、最適な構造だけでなぐ準最適な 2次構造まで導出する手法 (文献 A4、 A5、 A6)が研究されており、また、統計的に RNAの 2次構造をサンプリングする手法 (文献 A7、 A8)の研究もなされている。

[0004] もうひとつの手法は、共通の二次構造を有すると考えられる複数の RNAを用いた（共通） 2次構造予測手法である。この手法には、入力配列のアラインメントを必要とする手法 (RNAalifold (文献 A9)、 ILM (文献 A10)、 Pfold (文献 Al 1)など)と、ァラインメントを必要としない手法（ScaRNA (文献 A12)、 Cofolga (文献 A13)、 PMcomp/PMmul ti (文献 A14)、 RNAcast (文献 A15)、 comRNA (文献 A16)、 CaRNAc (文献 A17)など）が存在する。これらの手法は、似たような構造を有する入力配列群が適切に与えられれば、 MFEだけに基づいた 2次構造予測よりも多くの情報を用いるので、一般的には精度が良いとされている。ただし、アラインメントを仮定せずに複数配列力その共通 2次構造を導出する数理的に厳密なアルゴリズムは、 Sankoffアルゴリズム（文献 A18)と呼ばれる手法と等価となり、時間計算量と記憶計算量が膨大である。

[0005] このような一般的な 2次構造の予測手法だけでなぐ RNAのモチーフに焦点を当てた RNA情報解析技術も多数存在する（文献 A19)。 ERPIN (文献 A20、 A21)、 Infer nal (文献 A22)、 RNAMotif (文献 A23)は、 RNAのマルチプルアラインメントから、それらの 2次構造モチーフのモデル化を行、、構築されたモデルを用いてゲノム上からそのモデルに適合する 2次構造モチーフの探索を行う。これらの手法は、既知のモチーフを有する配列を発見する際に利用可能である。一方で、ファミリーを形成すると考えられる機能性 RNA配列群から、そのファミリーを特徴付けるモチーフを抽出するための手法も存在する。 GPRM (文献 A24)は、遺伝的アルゴリズムを用いて入力配列群とランダム配列群とを区別する 2次構造モチーフの発見を行う。 RNAprofile (文献 A25)は、 Greedyかつヒューリスティックな方法により探索空間を減少させ、整列していない RNA配列群力局所的に保存された 2次構造モチーフを発見する手法を提案している。さらについ最近では、 CMfinder (文献 A26)と呼ばれる Covariance Model とヒューリスティック手法を組み合わせた、ノイズに対してロバストな、非整列 RNA配列群からのモチーフ発見手法も提案されて、る。これらの機能性 RNAファミリーからのモチーフ抽出手法は、ある程度のノイズに対しては影響を受けないような工夫がされて、るが、基本的には単一の RN Aのファミリ一である配列群に適用する手法である。し力しながら、解析対象となる RNA配列集合に複数のファミリーや未知のファミリ一が含まれるという現実的な状況においては、機能性 RNAファミリーの特定と 2次構造モチーフの抽出は、一体的な処理によって同時に行われることが望ましい。なぜなら、ファミリーの決定にはファミリーを特徴付ける 2次構造モチーフが必要であり、かつ、 2次構造モチーフの決定にはファミリーが必要となるからである。これは、ある意味、特徴抽出とクラスタリングを同時に行う問題に近いといえる。

その他の関連する背景技術を説明すると、 RNA配列のグラフによるモデルィ匕の既存手法としては、 RAG (文献 A27)が有名である。これは RNAの 2次構造のモデル化を行う方法である。また、文献 A28は、 RNAファミリーの 2次構造のプロファイルが与えられた際に、そのプロファイルをグラフで表現すると同時に、プロファイルを用いてゲノム配列（の断片）をグラフによりモデルィ匕する方法を提案して、る。

下記のリスト中の各文献は、本明細書に組み込まれる（imcorporated)。

(文献 A1)

I Jr Tinoco and C Bustamante. How RNA folds. J Mol Biol, Vol. 293, No. 2, pp. 271-281, Oct 1999.

(文献 A2)

Michael Zuker. Mfold web server for nucleic acid folding and hybridization prediction. Nucleic Acids Res, Vol. 31, No. 13, pp. 3406—3415, Jul 2003. (文献 A3)

Ivo L Hofacker. Vienna RNA secondary structure server. Nucleic Acids R es, Vol. 31, No. 13, pp. 3429-3431, Jul 2003.

(文献 A4)

Robert Giegerich, Bjorn Voss, and Marc Rehmsmeier. Abstract shapes of RNA. Nucleic Acids Res, Vol. 32, No. 16, pp. 4843—4851, 2004. Evaluatio n Studies.

(文献 A5)

Steffen P, Voss B, Rehmsmeier M, Reeder J, and Giegerich R. RNAshape s: an integrated RNA analysis package based on abstract shapes. Bioinform atics, Dec 2005. JOURNAL ARTICLE.

(文献 A6)

S Wuchty, W Fontana, I L Hofacker, and P Schuster. Complete suboptim al folding of RNA and the stability of secondary structures. Biopolymers, V ol. 49, No. 2, pp. 145-165, Feb 1999.

(文献 A7)

Chi Yu Chan, Charles E Lawrence, and Ye Ding. Structure clustering fea tures on the Sfold Web server. Bioinformatics, Vol. 21, No. 20, pp. 3926— 3928, Oct 2005.

(文献 A8)

Ye Ding, Chi Yu Chan, and Charles E Lawrence. Sfold web server for s tatistical folding and rational design of nucleic acids. Nucleic Acids Res, V ol. 32, No. Web Server issue, pp. 135—141, Jul 2004.

(文献 A9)

Stefan Washietl and Ivo L Hofacker. Consensus folding of aligned sequenc es as a new measure for the detection of functional RNAs by comparative genomics. J Mol Biol, Vol. 342, No. 1, pp. 19—30, Sep 2004.

(文献 AlO)

Jianhua Ruan, Gary D Stormo, and Weixiong Zhang. ILM: a web server f or predicting RNA secondary structures with pseudoknots. Nucleic Acids Re s, Vol. 32, No. Web Server issue, pp. 146—149, Jul 2004.

(文献 Al l)

Bjarne Knudsen and Jotun Hein. Pfold: RNA secondary structure predictio n using stochastic context-free grammars. Nucleic Acids Res, Vol. 31, No.

13, pp. 3423-3428, Jul 2003. Evaluation Studies.

(文献 A12)

Y Tabei, K Tsuda, T Kin, and K Asai. Sし ARNA:Fast and Accurate Stru ctural Alignment of RNA Sequences by Matching Fixed-length Stem Fragme nts. submitted to Bioinformatics.

(文献 A13)

Akito Taneda. Cofolga: a genetic algorithm for finding the common folding of two RNAs. Comput Biol Chem, Vol. 29, No. 2, pp. 111—119, Apr 20 05.

(文献 A14)

Ivo L Hofacker, Stephan H F Bernhart, and Peter F Stadler. Alignment of RNA base pairing probability matrices. Bioinformatics, Vol. 20, No. 丄 4, pp. 2222-2227, Sep 2004. Evaluation Studies.

(文献 A15)

Jens Reeder and Robert Giegerich. Consensus shapes: an alternative to th e SankoiF algorithm for RNAc onsensus structure prediction. Bioinformatics, Vol. 21, No. 17, pp. 3516—3523, Sep 2005.

(文献 A16)

Yongmei Ji, Xing Xu, and Gary D Stormo. A graph theoretical approach for predicting common RNA secondary structure motifs including pseudoknot s in unaligned sequences. Bioinformatics, Vol. 20, No. 10, pp. 1591—1602, Jul 2004. Evaluation Studies.

(文献 A17)

Helene Touzet and Olivier Perriquet. CARNAC: folding families of related RNAs. Nucleic Acids Res, Vol. 32, No. Web Server issue, pp. 142—145, Jul 2004. Evaluation Studies.

(文献 A18)

D Sankoff. Simultaneous solution of the RNA folding alignment and pro25 tosequence problems. SIAM J. Appl. Math, pp. 810-825, 1985.

(文献 A19)

Athanasius F. Bompf 'unewerer, Christoph Flamm, し laudia Fried, Guido Fri tzsch, Ivo L. Hofacker, J org Lehmann, Kristin Missal, Axel Mosig, Bettina M"uller, Sonja J. Prohaska, B"arbel M. R. Stadler, Peter F. Stadler, And rea Tanzer, Stefan Washietl, and Christina Witwer. Evolutionary patterns of non-coding rnas. Th. Biosci" Vol. 123, pp. 301 - 369, 2005.

(文献 A20)

Andre Lambert, Jean-Fred Fontaine, Matthieu Legendre, Fabrice Leclerc, Emmanuelle Permal, Francois Major, Harald Putzer, Olivier Delfour, Bernard

Michot, and Daniel Gautheret. The ERPIN server: an interface to profile- based RNA motif identification. Nucleic Acids Res, Vol. 32, No. Web Serv er issue, pp. 160—165, Jul 2004. Evaluation Studies.

(文献 A21)

D Gautheret and A Lambert. Direct RNA motif definition and identificatio n from multiple sequence alignments using secondary structure profiles. J M ol Biol, Vol. 313, No. 5, pp. 1003—1011, Nov 2001.

(文献 A22)

S R Eddy and R Durbin. RNA sequence analysis using covariance models. Nucleic Acids Res, Vol. 22, No. 11, pp. 2079—2088, Jun 1994.

(文献 A23)

T J Macke, D J Ecker, R R Gutell, D Gautheret, D A Case, and R Sa mpath. RNAMotif, an RNA secondary structure definition and search algorit hm. Nucleic Acids Res, Vol. 29, No. 22, pp. 4724—4735, Nov 2001.

(文献 A24)

Yuh-Jyh Hu. Prediction of consensus structural motifs in a family of core gulated RNA sequences. Nucleic Acids Res, Vol. 30, No. 17, pp. 3886—389 3, Sep 2002.

(文献 A25)

uiulio Pavesi, uiancarlo Mauri, Marco Stefani, and Graziano Pesole. RNAP rofile: an algorithm for finding conserved secondary structure motifs in unali gned RNA sequences. Nucleic Acids Res, Vol. 32, No. 10, pp. 3258—3269, 2004.

(文献 A26)

Yao Z, Weinberg Z, and Ruzzo WL. CMfinder— a covariance model based RNA motif finding algorithm. Bioinformatics, Dec 2005. JOURNAL ARTICLE. (文献 A27)

Daniela Fera, Namhee Kim, Nahum ShiiFeldrim, Julie Zorn, Uri Laserson, Hin Hark Gan, and Tamar Schlick. RAG: RNA— As— Graphs web resource. B MC Bioinformatics, Vol. 5, p. 88, Jul 2004.

(文献 A28)

Yingiei Song, Chunmei Liu, Russell L. Malmberg, Fangfang Pan, and Limin g Cai. Tree decomposition based fast search of rna structures including ps eudoknots in genomes. In CSB, pp. 223.234. IEEE Computer Society, 2005

[0007] 上述してきたように、機能性 RNAの機能ファミリーを同定すること及びファミリーを特徴付ける 2次構造モチーフを抽出することは共に機能性 RNAの解析において非常に重要である。解析対象となる RNA配列集合に複数のファミリーや未知のファミリーが含まれているという現実的な問題設定の下では、機能性 RNAファミリーの特定と 2 次構造モチーフの抽出は互いに密接に関連した問題となり、同時に解くべき必要が生じる。なぜなら、ファミリーの決定にはファミリーを特徴付ける 2次構造モチーフが必要であり、かつ、 2次構造モチーフの決定にはファミリーが必要となるからである。しかしながら、既存の RNA解析手法では、これらの問題を同時に解く手法は存在しない発明の開示

発明が解決しょうとする課題

[0008] 本発明は上記背景の下でなされたものであり、その目的は、コンピュータを用いたバイオインフォマティクスの情報処理によって RNA配列群から 2次構造モチーフを抽出することができる好適な配列データ処理技術を提供することにある。

本発明の一つの目的は、機能性 RNAのファミリーの特定とモチーフ抽出を同時に行うことが可能な技術を提供することにある。

課題を解決するための手段

[0009] 本発明は、 RNA配列データを対象とした配列情報処理技術を提供する。本発明は、概略的には、 RNA配列群をタクソノミ (Taxonomy)を用いたラベル付き有向ダラフでモデルィ匕し、近年データマイニングの分野で活発に研究されて、るグラフ解析 ( グラフマイニング)手法を応用して、配列群に頻出するステムパターン（2次構造モチーフ）の抽出およびそのステムパターンを有する RNA配列集合 (機能性 RNAファミリ一）の特定を行う。ここで言うグラフマイニング手法とは、与えられたグラフセットから多頻度で出現する部分グラフ (グラフパターン)を効率的かつ完全に抽出する手法であり、後に例示されるように近年様々なアルゴリズムが提案されている。本発明は、これらのグラフマイニング手法を応用すると同時に、抽出するグラフパターンが Clique (完全グラフ)であるという性質を利用して探索空間を効率良く削減させる。さらに、本発明は、グラフの一般化コストと呼ばれる新しい概念を導入することにより、更なる効率化を行っている。また、本発明は、ランク付けされたステムのパターンの候補を複数導出すると同時に、ステムのパターンに対して各 RNAの 2次構造を複数導出することが可能である。本発明で提案している、頂点間の類似度力もクラスタリングにより頂点ラベルの Taxonomyを構築し頻出グラフマイニングを行う手法は、対象をグラフによりモデル化した際に、頂点間の類似度や非類似度が自然に定義できる場合に好適に適用可能な手法となっている。

[0010] 本発明の一態様は、 RNA配列情報処理装置であり、この装置は、複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出するステム候補抽出部と、各 RNA配列データ力抽出された前記複数のステム候補の各々を頂点として有し、頂点間を辺で結んだステムグラフを生成するグラフ生成部と、前記複数の RN A配列力それぞれ生成された複数の前記ステムグラフを解析して、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムグラフに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出するグラフ解析部と、を備えている。

[0011] 上記のように、本発明は、複数の RNA配列データ力複数のステムグラフをそれぞれ生成する。ステムグラフは、 RNA配列中の潜在的なステムの候補が頂点であり、頂点間を辺で結んだグラフである。このようなグラフにおいては、部分グラフがステムパターンであり、ステムパターンは RNA配列の部分的な 2次構造を表す。したがって、同様の部分グラフが複数のステムグラフに頻出すれば、その類似部分グラフは、複数の RNA配列に共通の 2次構造モチーフである。本発明は、この点に着目して、複数のステムグラフに頻出する類似部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出している。このようにして、本発明によれば、 RNA配列群から 2次構造モチーフを抽出することができる。

[0012] 本発明の情報処理が、機能性 RNAのファミリーが特定されて、な、RNA配列群に適用されたとする。この場合、頻出ステムパターンが抽出されると同時に、頻出ステムパターンを含む RNA配列 (ステムグラフ)も分かる。すなわち、 2次構造モチーフが抽出されると同時に、 2次構造モチーフを含むファミリーを同定することができる。また、本発明は、既に同定されている機能ファミリーの配列群に適用されてもよぐこの場合にも 2次構造モチーフが好適に抽出される。

[0013] 本発明の RNA配列情報処理装置は、単独のコンピュータで実現されてもよぐ複数のコンピュータ力もなるシステムによって実現されてもよ、。 RNA配列情報処理装置は、インターネット等のネットワークを介して、データの受付 (入力）と提供（出力）を行ってもよい。

[0014] また、本発明は上記の RNA配列情報処理装置の態様に限定されな、。本発明の別の態様は、例えば、コンピュータによる情報処理方法であり、また、そのような方法を実現するプログラムである。このような別の態様にも、上述の RNA配列情報処理装置に関する各種の発明を適用可能なことはもちろんである。

[0015] 本発明の別の態様は、複数の RNA配列力コンピュータ処理によって 2次構造モチーフを抽出する RNA配列情報処理方法である。この方法は、複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出し、各 RNA配列データ力抽出された前記複数のステム候補の各々を頂点として有し、頂点間を辺で結んだステムグラフを生成し、前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムグラフに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出する。この態様でも上述の本発明の利点が得られる。

[0016] また、本発明の別の態様は、複数の RNA配列から 2次構造モチーフを抽出する配列情報処理をコンピュータに実行させる RNA配列情報処理プログラムである。このプログラムは、複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出し、各 RNA配列データ力抽出された前記複数のステム候補の各々を頂点として有し、頂点間を辺で結んだステムグラフを生成し、前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムグラフに頻出する部分グラフを、 R NA2次構造モチーフを表す頻出ステムパターンとして抽出する、処理を前記コンピユータ〖こ実行させる。この態様でも上述の本発明の利点が得られる。

[0017] 上記のように、本発明は、コンピュータを用いた情報処理によって複数の RNA配列力も 2次構造モチーフを抽出することができる配列データ処理技術を提供できる。本発明は、機能性 RNAのファミリーの特定とモチーフ抽出を同時に行うことが可能な技術を提供できる。

[0018] 以下に説明するように、本発明には他の態様が存在する。したがって、この発明の開示は、本発明の一部の態様の提供を意図しており、ここで記述され請求される発明の範囲を制限することは意図していない。

図面の簡単な説明

[0019] [図 1]図 1は、 DNAおよび RNAの配列を示す図である。

[図 2]図 2は、 RNAの局所的な 2次構造の例を示す図である。

[図 3]図 3は、 RNAの 2次構造の例を示す図である。

[図 4]図 4は、本実施の形態の RNA配列情報処理を実現するコンピュータを示す図である。

[図 5]図 5は、本実施の形態の RNA配列情報処理の全体像を示す図である。

[図 6]図 6は、本実施の形態の RNA配列情報処理装置の機能ブロック図である。

[図 7]図 7は、塩基対確率行列を示す図である。

[図 8]図 8は、ステムグラフを示す図である。 [図 9]図 9は、ステムグラフを示す図である。

[図 10]図 10は、ステム候補間の 3タイプの接続関係を示す図である。

[図 11]図 11は、分類データとしてのタクソノミを示す図である。

[図 12]図 12は、本実施の形態におけるグラフ解析の原理を示す図である。

[図 13]図 13は、分類データを用 Vヽたステムパターンの比較処理を示す図である。

[図 14]図 14は、ステムパターンの一般化コストを示す図である。

[図 15]図 15は、支持度の定義を示す図である。

[図 16]図 16は、パターン探索アルゴリズムの DFSツリーを示す図である。

[図 17]図 17は、本実施の形態の RNA配列情報処理を実現するアルゴリズムを示す図である。

[図 18]図 18は、本実施の形態の RNA配列情報処理を実現するアルゴリズムを示す図である。

発明を実施するための最良の形態

[0020] 以下に本発明の詳細な説明を述べる。ただし、以下の詳細な説明と添付の図面は発明を限定するものではない。代わりに、発明の範囲は添付の請求の範囲により規定される。

[0021] 以下に説明されるように、本実施の形態のバイオインフォマティクス技術は、全体としては、 RNA配列を処理の対象とし、 RNAの 2次構造を有向グラフで表現し、階層的分類に基づいたグラフ探索処理を有向グラフに組み合わせて 2次構造パターンの抽出を行う新規な手法を提供する。

[0022] まず、本発明のノィォインフォマテイクス技術を説明する前に、 RNA配列の 2次構造を説明する。

[0023] 図 1を参照すると、周知のように、 DNAおよび RNAを構成する塩基は、 a、 u(t)、 c 、 gで表される。そして、 aと uが相補塩基対を作り、 cと gが相補塩基対を作る。 DNA では、逆相補配列が 2重らせんを形成している。これに対して、構造 RNAでは、 1本鎖が折り畳まれる。そして、相補塩基対により 2次構造が作られる。

[0024] 図 2は、局所的な 2次構造の例を示している。図示のように、 1本鎖 RNA上には、互いに相補的な 2つの領域が存在している。 2箇所の相補的な領域が結合し、これにより 2次構造が作られる。 2次構造を作る相補的な領域は、ステムと呼ばれている。以下の説明では、ステムを形成する 2つの部分配列を、必要に応じてパーツまたはステムパーツと呼ぶ。 2つのパーツが結合されてステムが形成される。

[0025] 図 3は、より大きな範囲の 2次構造の例を示している。図示のように、 1つの RNA配列に複数のステムが存在している。

[0026] 図 4は、本実施の形態の RNA配列情報処理装置を実現するコンピュータを示している。図 4のコンピュータ 1において、プログラム実行部 3は、 CPU等のプロセッサで構成されている。プログラム記憶部 5および処理データ記憶部 7は、メモリで構成される。また、コンピュータ 1は、ハードディスク等の外部記憶装置 11を備えている。さらに、コンピュータ 1は、入力装置 13、出力装置 15、記録媒体装着部 17および通信部 1 9などを備えている。

[0027] プログラム記憶部 5は、本実施の形態の装置および方法を実現するためのプロダラムを記憶し、特に、ステム候補抽出プログラム、グラフ生成プログラム、分類データ生成プログラムおよびグラフ解析プログラムを記憶する。これらプログラムは、外部記憶装置 11から読み出され、そして、プログラム実行部 3により実行される。これらプロダラムの機能の詳細は後述する。

[0028] 処理データ記憶部 7は、処理されるべきデータや、処理後のデータを記憶する。処理データ記憶部 7は、例えば、処理対象の RNA配列データ、ステム候補データ、ステムグラフデータ、分類データおよびグラフ解析データを記憶する。その他にも、メモリは、プログラム実行部 3による処理の作業エリアとして機能し、各種の処理データを feす。。

[0029] コンピュータ 1へのデータの入出力は、典型的には、入力装置 13および出力装置 1 5を介して行われる。その他、データの入出力は、記録媒体装着部 17を介して、記録媒体との間で行われてよい。また、データの入出力は、通信部 19を介して行われてよい。コンピュータ 1が WEBサーバに接続され、ネットワークを介してデータが入出力されてよい。あるいは、コンピュータ 1が WEBサーバの機能を有していてもよい。

[0030] RNA配列情報処理装置は、概略的には、 RNA配列群から、個々の配列に潜在するステム候補を抽出し、 RNA配列群に頻出するステムパターンを抽出する。ステムパターンは、複数のステムにより形成されるパターン (部分的配列）である。このステムパターンは、 RNAのモチーフ抽出に応用され、また、 RNAのファミリー抽出に応用され、さらには、複数配列力の 2次構造予測に応用される。

[0031] 本実施の形態において、入力データと出力データは以下の通りである。入力データは、 RNA配列群のデータである。 RN A配列群に整列（ァライメント）が施されていなくてよい。また、 RNA配列群が同一の RNAファミリーに属している必要はない。コンピュータ 1は RNA配列情報処理装置として機能し、図 4の各種プログラムに従って RNA配列群のデータを処理して、 RNA配列群に頻出する頻出ステムパターンを求め、さらに、頻出ステムパターンに対応する二次構造を求める。これら頻出ステムバターンおよび二次構造が出力データとして出力される。その他、本実施の形態では、ノメータとして最小支持度および最大一般化コストが入力される。これらパラメータは、頻出ステムパターンの抽出処理において、抽出条件として処理される。

[0032] 図 5は、 RNA配列情報処理の全体像を示して!/、る。図示のように、 RNA配列群が入力される（Sl)。上述したように、 RNA配列群は整列されていなくてよい。各 RNA 配列がステム候補抽出プログラムの処理を受け (S2)、各 RNA配列のステム候補が抽出される（S3)。本実施の形態では、ステム候補抽出プログラムは、塩基対確率行列を生成するプログラムによって実現される。

[0033] 次に、ステム候補の情報から、ステムグラフと分類データ力グラフ生成プログラムおよび分類データ生成プログラムにより生成される（S4)。各 RNA配列に対して一つのステムグラフが生成される。ステムグラフは、 RNA配列力も抽出された複数のステム候補を頂点とし、頂点間を辺で結んだグラフである。本実施の形態では、後述するようなラベル付き有向グラフが生成される。また、分類データは、複数の RNA配列群力抽出された全部のステム候補 (グラフの頂点）をそれらの類似性に基づき分類したデータである。本実施の形態では図示のように、分類データが、階層構造を持つッリー型タクソノミデータ（taxonomy)である。

[0034] 次に、ステムグラフ群がグラフ解析プログラムによって解析されて (S5)、ステムダラフ群に頻出する部分グラフが抽出され、さらに部分グラフに対応する 2次構造が求められる（S6)。部分グラフは、ステムグラフの一部の頂点と辺で構成されるパターンであり、ステムパターンに相当する。本実施の形態は、グラフ形状が類似し、かつ、対応する頂点のステム候補が類似し、ステムグラフ群に頻出する部分グラフを抽出する。頂点の類似は分類データ力求められる。このような頻出部分グラフが、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出される。そして、頻出部分グラフに対応する 2次構造が求められる。

[0035] 図 6は、上述した処理を実現するための RNA配列情報処理装置を機能ブロック図のかたちで示している。図 6の RNA配列情報処理装置 21において、配列データ入力部 23は、 RNA配列群のデータを入力する。入力された RNA配列データは、配列データ記憶部 25に記憶される。ステム候補抽出部 27は、入力された各々の RNA配列から、 RNA2次構造のステム候補を抽出し、ステム候補記憶部 29に格納する。

[0036] グラフ生成部 31は、各 RNA配列のステムグラフを生成し、グラフ記憶部 33に記憶する。また、分類データ生成部 35は、ステムグラフの頂点 (ステム候補）に関する分類データを生成して、分類データ記憶部 37に格納する。本実施の形態では、ラベル付き有向グラフと階層的なツリー型タクソノミデータが生成される。

[0037] グラフ解析部 39は、分類データを参照しながらステムグラフ群を解析して、それらステムグラフに頻出する部分グラフを抽出する。グラフ解析部 39は、グラフ形状が類似し、かつ、対応する頂点のステム候補が類似する部分グラフを抽出する。このような部分グラフ力 RNA2次構造モチーフを表す頻出ステムパターンとして抽出される。

[0038] 最小支持度入力部 41および最大一般化コスト入力部 43は、頻出ステムパターン抽出処理における抽出条件を決定するパラメータである最小支持度および最大一般化コストを入力する。これらパラメータは、グラフ解析部 39の処理に用いられる。

[0039] 出力部 45は、グラフ解析部 39によって抽出された頻出ステムパターンの情報を出力する。また、出力部 45は、頻出ステムパターンに対応する 2次構造データを出力する。 2次構造データは、 2次構造データ生成部 47により生成される。

[0040] 図 6の構成において、配列データ入力部 23、最小支持度入力部 41および最大一般化コスト入力部 43は、図 4の入力装置 13、記録媒体装着部 17または通信部 19によって実現される。また、出力部 45は、図 4の出力装置 15、記録媒体装着部 17または通信部 19によって実現される。また、ステム候補抽出部 27、グラフ生成部 31、分類データ生成部 35およびグラフ解析部 39は、図 4のプログラム記憶部 5に記憶されたステム候補抽出プログラム、グラフ生成プログラム、分類データ生成プログラムおよびグラフ解析プログラムをプログラム実行部 3が実行することによって実現される。 2次構造データ生成部 47も、プログラム記憶部 5のプログラムをプログラム実行部 3が実行することにより実現される。また、配列データ記憶部 25、ステム候補記憶部 29、グラフ記憶部 33および分類データ記憶部 37は、図 4の処理データ記憶部 7および外部記憶装置 11によって実現される。

[0041] 以下、 RNA配列情報処理装置の各部機能についてより詳細に説明する。

[0042] 「ステム候補の抽出」

図 6のステム候補抽出部 27は、各々の RNA配列データから、 RNA2次構造の複数のステム候補を抽出する処理を行う。本実施の形態では、以下に説明するように、ステム候補抽出部 27が、分子構造のエネルギに基づ、て RNA配列上の任意の 2つの塩基の塩基対形成確率を求めた塩基対確率行列から、連続する塩基対領域をステム候補として抽出する。

[0043] 図 7は、 RNA配列データから生成された塩基対確率行列を、 RNA配列の 2次構造の例と共に示している。塩基対確率行列においては、同一の RNA配列が横方向と縦方向に配置される。行列の要素 (i, j)は、 i番目の塩基と j番目の塩基が塩基対を形成する確率を表す。この確率は、エネルギが最小になる構造を求める計算によって得られる。図 7では、確率の大きさ力点の大きさで表されている。一つの RNA配列が両方向に配置されているので、図示のような半分の領域 (三角形領域）にて、全塩基対の確率が表される。

[0044] 図 7の塩基対確率行列において、ステムは、確率が大きい複数の要素力図示のように右上がりの 45度方向に並んだ領域である。

[0045] ステム候補抽出部 27は、各々の RNA配列データから、図 7に示されるような塩基対確率行列を生成する。本実施の形態では、 McCaskillのアルゴリズムが好適に用いられる。そして、ステム候補抽出部 27は、塩基対確率行列から、所定値 p以上の確率を持つ要素が所定個数 n以上連続する領域を抽出する。この領域が、ステム候補として特定され、ステム候補記憶部 29に記憶される。 [0046] さらに、ステム候補抽出部 27は、ステム候補における全要素の確率の平均を求める。平均値は 0から 1の間の値になる。この平均値は、ステム候補のスコアとしてステム候補記憶部 29に記憶される。このスコアは、後述のステム候補間の類似性の判断に用いられる。

[0047] 以上にステム候補抽出処理の好適な例を説明した。ステム候補抽出処理は上記に限定されない。より簡単な例としては、既知のステム配列が、 RNA配列から探索され、ステム候補として特定されてよい。ステムを構成する 2つの部分配列が探索される。既知のステムの配列は、過去の研究で得られた既知の 2次構造から求められてよい。

[0048] 「ステムグラフの生成」

図 6のグラフ生成部 31は、上述したように、各 RNA配列データ力も抽出されたステム候補の情報を基に、各 RNA配列に対応するステムグラフを生成する処理を行う。

[0049] 図 8および図 9は、ステムグラフの例を示している。図 8ではステムグラフが塩基対確率行列の上に描かれており、図 9ではステムグラフが単独で描かれている。図示のように、ステムグラフでは、各ステム候補が頂点である。図の例では、 9個のステム候補が頂点になっている。そして、ステム候補間が辺で結ばれる。

[0050] 本実施の形態では、ステムグラフがラベル付き有向グラフであり、グラフの頂点および辺にはラベルが付与される。各頂点および各辺には、それらを識別するためのュニークなラベルが付与される。さらに、各辺には、下記の 2つの情報が付与される。

[0051] (1)向き:ステム候補間の位置関係を表す向きである。図 8では、辺の向きが矢印で示されている。辺の向きは、配列上で 5'側（一般の直線配置で左側）のステム候補から 3，側（一般の直線配置で右側）のステム候補へ向くように設定される。ここで、ステム候補位置は、各ステム候補の 5 '側のステムパーツの位置で特定される。

[0052] 図 8 (および図 7)では、横方向の配置にて、 5'側が左であり、 3'側が右である。そして、縦方向の配置では、 5'側が上であり、 3'側が下である。この場合、辺の向きは、縦の配置の 5，側のステム候補から 3，側のステム候補へ向くように付けられて、る。要するに、辺の矢印は、図 8の上側のステム候補から下側のステム候補を向いている

[0053] (2)接続関係：これは、ステム候補間の接続関係が 3つのタイプの、ずれに属するかの情報である。図 10に示されるように、 3つのタイプとは、並列（Juxtaposed)、埋込み（Embedded)、重複（Overlapped)である。これらは、矛盾のない関係（consistent relation)である。図 9のグラフは、並列（"J")と埋込み（"E")の辺を含んでいる。

[0054] なお、グラフ生成部 31は、上記 3つのタイプのいずれにも該当しないステム候補対を、辺による接続対象から除外する。これにより、矛盾のある関係（inconsistent relation)が除外される。例えば、ステム候補 # 2、 # 8は、上記の接続タイプに該当せず、したがって、辺で結ばれていない。

[0055] 上記の例にお!、て、 # 2、 # 8のステム候補では、ステムの片側パーツが共通している。したがって、これらのステム候補の両方共が本当のステムである可能性は無い。このようなステム候補対が辺で結ばれないので、妥当なグラフが形成される。

[0056] 以上、グラフ生成部 31により生成されるステムグラフ（ラベル付き有向グラフ）について説明した。グラフ生成部 31は、ステム候補抽出部 27により抽出されたステム候補を頂点に設定し、頂点間の辺を設定し、頂点および辺にラベルを付与する処理を行う。これにより上記のグラフが生成される。

[0057] グラフ生成部 31は、各々の RNA配列に対して上記のようなステムグラフを生成する。したがって、グラフ生成部 31は、入力された RNA配列の数と同じ枚数のグラフを生成する。これらグラフがグラフ記憶部 33に記憶される。

[0058] 「分類データの生成」

図 6の分類データ生成部 35は、上述したように、ステム候補群を分類する分類データを生成する処理を行う。本実施の形態では、図 11に示されるように、分類データが、階層型でツリー型のタクソノミデータである。以下、分類データの生成処理について、より詳細に説明する。

[0059] 上述のステムグラフ生成処理は、一本の RNA配列から一つのステムグラフを生成する。一方、この分類処理は、複数の RNA配列力も抽出された全部のステム候補を分類して一つの分類データを生成する。

[0060] ステム候補の分類は、ステム候補間の類似性に基づ!、て行われる。ステム候補の全組合わせの類似性が求められ、類似性を使って分類が行われる。類似性のパラメータは、典型的には、ステム候補同士の配列の相同性である。本実施の形態では、ステム候補対の類似性が、上記の配列相同性を含む 4つの類似性によって定義される。（1)ステム候補同士の配列相同性、（2)各ステム候補のスコア、（3)ループの距離の類似性、（4)配列内での位置の類似性。

[0061] 上記において、（2)のスコアは、ステム候補抽出時に算出された確率である。より詳細には、スコアは、ステム候補の塩基対形成確率の平均である。本実施の形態は、 2 つのステム候補のスコアの和を利用している。本実施の形態は、スコアの和が大きいほど 2つのステム候補の類似度を大き、と考え、スコアの和が小さ、ほど 2つのステム候補の類似度が小さい (非類似度が大きい）と考える。ここで、本発明は、スコアの和が大き、ほど、 2つのステム候補の両方共が実際のステムである可能性が高、ことに着目している。このことを考慮し、本発明は、両方のステム候補が実際のステムである可能性が高いほど類似性が高いと決めている。（3)のループの距離は、ステムを構成する 2つのパーツ間の距離 (塩基数)である。（4)の位置は、各ステム候補が属する RNA配列内での位置である。位置は、配列端からの距離 (塩基数)で表されてよい。

[0062] 4つの要素的な類似性パラメータを計算するために、 RNA配列のデータから、各ステム候補が有する配列、スコア、ループ距離、配列内位置の 4つのデータが求められる (スコアは既に説明したように塩基対確率力も算出されている）。各データから一組のステム候補の類似性が計算され、したがって、 4つのデータ力も 4つの類似性パラメータが計算され、更にそれらが合成されて、一組のステム候補の総合的な類似性パラメータが計算される。このような類似性パラメータが、任意の組のステム候補に対して計算される。類似性パラメータの算出処理は後述にてさらに詳しく説明される。本実施の形態の実現例では、 2つのステム候補の違、が大きくなるほど値が大きくなるような類似性パラメータが使われてよい。つまり、類似性パラメータが、非類似度で実現される。

[0063] 図 11は、上記のような類似性に基づヽて生成された分類データを示して!/ヽる。分類データ生成部 35は、頂点間の類似性に基づいたクラスタリングを行い、これにより、図示のようなツリー型のタクソノミデータを生成する。図 11において、左の図は、ステム候補の階層的クラスタリングによって生成される系統樹 (dendrogram)である。クラスタリングのためのステム候補間の類似性 (similarity)は、既述の通り、（1)配列相同性（sequence similarity)、（2)候ネ甫のスコア（score of candidate) , (3)ノレープ距離（ loop distance)、 (4)酉己歹 [J内位置 (position in sequence)のミックス (mixture)によつて定義される。右側の図は、系統樹 (dendrogram)から構築されたステム候補のラベルのタクソノミである。

[0064] 図 11のタクソノミデータでは、最下層の頂点 1〜7は、個々のステム候補と対応する。上位層の頂点 (分類、ラベル）は、下位層で類似する複数の頂点を代表する。例えば、最下層の 3つの頂点 1、 2、 3が類似するので、それら 3つの頂点は第 2層では一つの頂点 8に分類される。分類データ生成部 35は、このような分類データを生成して、分類データ記憶部 37に記憶する。

[0065] 上記より明らかなように、分類データでは、下位層よりも上位層にて類似範囲が広い。すなわち、下位層よりも上位層にて、一般ィ匕の程度が大きい。そこで、本実施の形態では、一般ィ匕の程度を表現するために、図 11に示されるように、上位層へ行くほど値が大きくなるように一般化コストが定義される。 i層の一般化コストは、 l -n (i) ZNで表される。ここで、 Nは、最下層の頂点数 (ステム候補の総数)である。 n (i)は、階層 iに属する頂点数である。一般ィ匕コストは下記のグラフ解析処理にて用いられることになる。

[0066] 「グラフ解析処理」

図 6のグラフ解析部 39は、上述したように、グラフ生成部 31によって生成された複数のステムグラフに頻出する部分グラフを抽出する処理を行う。ここでは、類似する部分グラフが抽出される。類似する部分グラフとは、グラフ形状が類似し、かつ、対応する頂点のステム候補が類似するグラフである。部分グラフはステム候補のパターンに相当するので、以下、必要に応じて、部分グラフをステムパターンと呼び、抽出される頻出部分グラフを頻出ステムパターンと!/、う。

[0067] より詳細には、グラフ解析部 39は、ステムグラフでの出現の頻度が所定しきい以上のステムパターン (部分グラフ）を抽出する処理を行う。この頻度は、典型的には、後述するように、「ステムグラフの総数」に対する、「特定の類似するステムパターンを含むステムグラフの数」の比、で表される。

[0068] 頻出ステムパターンの抽出では、上記のように類似性が考慮される。したがって、抽出される一つ頻出ステムパターンは、実際には、複数のステムパターンの集合になつてよい。

[0069] 図 12は、グラフ解析の原理を示している。図 12は、 2つのステムグラフを示している。互いに類似するステムパターンが 2つのステムグラフ力も抽出されている。図 12の例では、ステムパターンは、 3つの頂点とそれらを結ぶ 3つの辺で構成されている。

[0070] ステムパターン (部分グラフ）の類似は、グラフ形状の類似性と、グラフ内の頂点の類似性によって決まる。本実施の形態では、以下の 3条件が満たされるとき、 2つの部分グラフのグラフ形状が類似する。

(1)頂点の数が同じである。

(2)対応する辺の向きが同じである。

(3)対応する辺の接続関係が同じである。

[0071] なお、本実施の形態では、後述するように完全 (Clique)グラフが抽出される。したがって、類似する部分グラフにおいては、頂点の数が同じであり、それらの任意の 2 つの頂点間が辺で結ばれ、かつ、各辺のラベルが（2) (3)の条件を満たす。

[0072] 次に、図 13を参照して、頂点間の類似について説明する。頂点間の類似は、分類データを用いて判断することができる。分類データにおいて同じグループに属する頂点を類似と判断する。

[0073] 図 13は、 2つのステムパターンの例を示している。図において、対応する 2組の頂点は同じであるが、対応する 1組の頂点が異なっている。しかし、これら頂点力図 11 のタクソノミにおいて、 1つ上の階層では同一分類に属するとする。この場合、対応頂点が類似し、そして、 2つのステムパターンが類似する。

[0074] このようにして、下位層での比較では対応頂点が異なる分類に属しても、上位層の比較で対応頂点が同じ分類に属していれば、対応頂点が類似する。グラフ解析処理では、順次階層を上に変更して、頂点間の類似が判断される。

[0075] しかし、階層を高くしすぎると、類似範囲が広くなり過ぎる。例えば、最上層では、すベての頂点が類似し、妥当な比較が困難になる。そこで、本実施の形態では、類似判断における階層の高さが制限される。この制限のために、前述の一般化コストが用いられる。 [0076] 一般化コストは、図 11に示したように、上位層へ行くほど大きくなる。前述の説明を繰り返すと、 i層の一般ィ匕コストは、 1 n(i)ZNで表され、 Nは、最下層の頂点数 (ステム候補の総数)であり、 n(i)は、階層 iに属する頂点数である。

[0077] 図 14は、ステムパターンの一般化コストを示して!/、る。ステムパターンの一般化コストは、各頂点の一般ィ匕コストの平均である。グラフ解析処理では、ステムパターンの最大一般化コストが指定され、一般化コストが最大一般化コスト以下になるように頻出ステムパターンが抽出される。例えば、図 13の一般ィ匕を行うと、一般化コストが最大値をオーバーしたとする。この場合、図 13の 2つのステムパターンは類似しない。

[0078] 上述の原理に基づきグラフ解析の問題を定式化すると、以下のようになる。

(1)ラベル付き有向グラフの集合、（2)ラベルの一般化コスト付きタクソノミ、（3)最小支持度 (minsup)、（4)最大一般ィ匕コスト (maxcost)が与えられた際に、以下を満たすステムパターンをすベて抽出する。

A)支持度が最小支持度以上

B)完全グラフ（Cique)

C)一般化コストが最大一般化コスト以下

D)クローズドパターン（Closed Pattern)

[0079] 支持度は、図 15に示される通り、頻出の程度を表す。図において、一つのステムパターンが、 3つのステムグラフのうちの 2つに存在する。この場合、該当パターンの支持度は、 2Z3である。完全グラフとは、各頂点がすべての頂点と辺で結ばれたグラフである。ステムパターンが RNA配列の一部分であれば、必ずステムパターンが完全グラフになる。一般ィ匕コストは、既に説明した通りである。クローズドパターンは、「自分を真に含むパターンであって、自分と同じ支持度を持つようなパターンが存在しない」パターンである。

[0080] 次に、図 16を参照すると、上述してきたグラフ解析処理は、パターン探索アルゴリズムにより好適に実現される。より詳細には、グラフ解析機能は、図 16の DFS code t reeの探索アルゴリズムにより実現される。この探索アルゴリズムは、少しずつパターンを変えながら、ツリーを深さ方向に探索し、各種の候補パターンを数え上げる。

[0081] 本実施の形態では、パターン探索アルゴリズムが、上述のグラフ解析処理を実行する。すなわち、パターンの形状が変更される。また、タクソノミに基づいて一般ィ匕の程度が変更される。そして、各種のパターンが複数のステムグラフから数えられる。そして、上述の条件を満たす頻出ステムパターンが求められる。

[0082] ノ《ターン探索のアルゴリズムは、効率よく完全に多様なパターンが数えられるように構成されている。さらに、本実施の形態は、上述のパターン抽出の条件も考慮して下記の制限された処理を行い、さらなる効率的を実現する。（1)支持度の逆単調性による枝狩り、（2) Clique制約により DFS code treeの子要素を限定、（3)最大一般化コストの制約を用いた枝狩り、（4)過度に一般化されたパターンを除くための枝狩り。枝狩り（pruning)とは、ツリー上の部分木を探索対象から除外することをいう。これらの処理については、後にさらに詳細に説明する。

[0083] 以上に頻出ステムパターンを抽出するグラフ解析処理を説明した。グラフ解析部 39 は、上述の処理を行うことによって頻出ステムパターンを抽出する。さらに、 2次構造生データ成部 47は、抽出された頻出ステムパターンに対応する 2次構造データを生成する。これら頻出ステムパターンと対応する 2次構造データが出力部 45から出力される。

[0084] ここで、グラフ解析部 39は、上述の条件に該当する全部の頻出ステムパターンを抽出する。したがって、グラフ解析部 39は、通常は複数の頻出ステムパターンを抽出する。さらに、類似性が考慮されているので、一つの頻出ステムパターンは、複数のステムパターンに対応することもある。 2次構造データは、各々のステムパターン (部分グラフ）から作られてよい。これらデータが、出力されてよい。

[0085] 以上に、本実施の形態の RNA配列情報処理装置、方法およびプログラムにつ!/ヽて詳細に説明した。以下、本発明の各種態様の利点をまとめて述べる。本発明は、複数の RNA配列データ力複数のステムグラフをそれぞれ生成し、それら複数のステムグラフから頻出ステムパターンを抽出する。頻出ステムパターンは、 RNA2次構造モチーフを表している。したがって、本発明は、 RNA配列群から 2次構造モチーフを抽出することができる。

[0086] 本発明の情報処理が、機能性 RNAのファミリーが特定されて、な、RNA配列群に適用されたとする。この場合、頻出ステムパターンが抽出されると同時に、頻出ステムパターンを含む RNA配列 (ステムグラフ)も分かる。すなわち、 2次構造モチーフが抽出されると同時に、 2次構造モチーフを含むファミリーを同定することができる。また、本発明は、既に同定されている機能ファミリーの配列群に適用されてもよぐこの場合にも 2次構造モチーフが好適に抽出される。

[0087] また、上述にて説明したように、グラフ生成部は、 RNA配列上での各ステム候補対の位置関係に応じた向きを、各ステム候補対を結ぶ辺のラベルに付与してよい。そして、グラフ解析部は、複数のステムグラフから、対応する辺の向きが同じ部分グラフを抽出してよい。これにより、複数のステムグラフ力類似する部分グラフを適切に抽出することができる。

[0088] また、グラフ生成部は、各ステム候補対の接続関係が並列、埋込み、重複の、ずれかに属するかの情報を、各ステム候補対を結ぶ辺のラベルに付与してよい。グラフ解析部は、複数のステムグラフから、対応する辺の接続関係が同じ部分グラフを抽出してよい。これにより、複数のステムグラフ力類似する部分グラフを適切に抽出することがでさる。

[0089] また、グラフ生成部は、並列、埋込みおよび重複のいずれにも該当しないステム候補対を、辺による接続対象力も除外してよい。これにより、不適当な部分グラフの抽出を回避して、複数のステムグラフ力類似する部分グラフを適切に抽出することができる。

[0090] また、グラフ生成部は、各頂点が部分グラフ内のすべての他の頂点と辺で結ばれる完全部分グラフを抽出してよい。これにより、複数のステムグラフ力類似する部分グラフを適切に抽出することができる。

[0091] また、分類データ生成部は、複数のステムグラフに含まれる複数のステム候補を類似性に基づいて分類する分類データを生成してよい。グラフ解析部は、複数のステムグラフから、対応する頂点のステム候補が同じ分類に属する部分グラフを抽出してよい。これにより、複数のステムグラフ力も類似する部分グラフを適切に抽出できる。

[0092] また、分類データ生成部は、分類データとして、複数のステム候補を、類似範囲の広さが下位層力も上位層へ向力つて増大するように階層的にクラスタリングを行ったタクソノミデータを生成してよい。グラフ解析部は、タクソノミデータに基づき、対応する頂点のステム候補が下位層では異なる分類に属しても上位層では同一分類に属する部分グラフを抽出してよい。これにより、複数のステムグラフ力類似する部分グラフを適切に抽出することができる。

[0093] また、最大一般化コスト入力部が、タクソノミデータにて階層に応じて増大する一般化コストの最大許容値である最大一般ィ匕コストを入力してよい。グラフ解析部は、最大一般化コスト以下の一般化コストを有する部分グラフを抽出してよい。これにより、複数のステムグラフ力類似する部分グラフを適切に抽出することができる。

[0094] また、分類データ生成部は、ステム候補対の類似性を表す類似性パラメータを、ステム候補対の配列相同性、ステム候補により形成されるループの距離の類似性、および、 RNA配列内でのステム候補の位置の類似性の少なくとも一つに応じて求めてよい。また、分類データ生成部は、二次構造エネルギに基づいたステム候補の塩基対形成確率に応じて類似性パラメータを求めてよぐこのとき、 2つのステム候補の塩基対形成確率の和が評価されてよぐそして、和の値が大きいほど類似度が高いと判断されてよい。上記の例では、これら全部が加味されている。これにより、ステム候補である頂点間の類似性を適切に判断して、複数のステムグラフから類似する部分ダラフを適切に抽出することができる。類似性判断の基礎になるパラメータは、ステムダラフの頂点のラベルに付与されてよ、。

[0095] また、最小支持度入力部が、複数のステムグラフにおける部分グラフの支持度の最小許容値である最小支持度を入力してよい。グラフ解析部は、最小支持度以上の支持度を有する部分グラフを抽出してよい。支持度は、グラフ解析で使われる用語であつて、頻度 (頻出の程度)を表す。最小支持度以上の支持度を有する部分グラフを抽出することにより、 RNA配列群に頻出するステムパターンを適切に抽出できる。

[0096] また、ステム候補抽出部は、分子構造のエネルギに基づ!/、て RNA配列上の任意の 2つの塩基の塩基対形成確率を求めた塩基対確率行列から、連続する塩基対領域をステム候補として抽出してよい。これにより、ステム候補を適切に抽出することができる。

[0097] また、上述の実施の形態では、頂点間のタクソノミが考慮されて、類似部分グラフ（頻出ステムパターン）が抽出された。本発明のさらなる応用例では、辺のタクソノミが考慮されて、類似部分グラフ (頻出ステムパターン)が抽出されてよい。この場合、辺を特徴づけるパラメータを用いて、辺の類似性を基に、辺のタクソノミが生成される。辺のタクソノミが、頂点のタクソノミと同様に処理されて、辺が類似する部分グラフが抽出される。

[0098] 以下、上述の発明に関する研究について詳細に説明する。以下では、上述したラベル付き有向グラフ、タクソノミ、グラフ解析なども詳細に説明される。なお、参考文献は、（文献 +番号）と表記し、文献のリストを最後に記載する。

[0099] 「1.はじめに」

この記述の構成は、以下の通りである。セクション 2は、グラフ理論の基本的な用語の定義を述べ、その後に、 RNAのグラフ表現の方法および今回解決すべき問題のグラフマイニングによる定式化、さらにはそれを効率よく解く為の理論およびアルゴリズムについて詳細に説明する。セクション 3は、実装方法について述べる。

[0100] 「2.手法」

「2. 1 グラフ理論 'グラフマイニング力の準備」

本文章では、特に断らない限り、グラフとは多重辺や自己ループ辺を許さないラベル付き有向グラフ G=(V, E, L , L , lb)を意味することとする。ここで、 V=V(G)=[v , '

E 1

•· ,ν ]は頂点の集合を表す。 E=E(G)=[(v,v) I V , v EV]は辺の集合を表す。（V , V) k i J i J i J は、頂点 v力も頂点 vへの辺を表す。 Lは頂点のラベルの集合を表す。 Lは辺のラベ

i j V E

ルの集合を表す。 lb :V U E→L U Lは頂点または辺力そのラベルへの写像を表す

V E

。さらに、グラフ Gのトポロジー（topology) Gとは、 G =(V, E)で定義されるラベルを含

T T

まないグラフである。

[0101] 「定義 2. 1 (部分グラフ）」

グラフ Gが与えられて!/、るものとする。グラフ Gsが Gの部分グラフ（subgraph)である（ G c _Gと書く）とは、写像 φ： V(G )→V(G)が存在して

(1)任意の vEV(Gs)に対して lb(v)=lb( φ (v))

(2)任意の (v , v) EE(G )に対してlb(v , ν)=ΐ (ν), (ν))

i j s i j i j

を満たすことである。

Srikantら（文献 B1)は、アイテムセットにおける個々のアイテムの関係を Txonomyとして表現した。さらに、 Inokuchi (文献 B2)は、グラフのラベルに Taxonomyを考えることを提案している。ここではこららを発展させ、ラベル間の関係と各ラベルの一般化コストを考慮した「一般ィ匕コスト付き Taxonomy」を定義する。

[0102] 「定義 2. 2 (—般ィ匕コスト付き Taxonomy)」

ラベルの集合 LSが与えられているものとする。このとき、一般化コスト付き Taxonomy Taxonomy with generalization cost) Tとは、頂、力 LSの DAG directed acyclic gr aph)で、その各頂点 vE LSに対して一般ィ匕コスト c(v) E Rが定義されているものである

(注意 2. 1)関係 A→Bは、 B is a A (ラベル Aの方がラベル Bよりも一般ィ匕されている、逆に言うとラベル Bの方がラベル Aよりも特殊化されている）を意味する。 Taxonomy を forestではなく DAGでモデル化したのは、 multiple taxonomiesを表現することを可能にするためである（文献 Bl)。また、 c(A)、 c(B)は、それぞれ、ラベル A、 Bの一般ィ匕に対するコストを表す。通常の場合、上位概念ほど一般ィ匕のコストが大きいと考えられるので、 c(B)< c(A)である。

今後は簡単のため、一般化コスト付き Taxonomyを単に Taxonomyと呼ぶことにする。 Taxonomyの頂点 Xに対して、 xまたは xの祖先の集合 (xから有向辺を逆にたどって！/ヽつて到達できる全ての頂点の集合)を τ (X)と表すことにする。グラフと Taxonomyが与

T

えられた際の部分グラフを以下のように定義する。

[0103] 「定義 2. 3 (Taxonomyが与えられた下での部分グラフ（文献 B2) )」

Taxonomy Tとグラフ G、 Gが与えられているものとする。 G力 Gの Taxonomy Tが与えられた下での部分グラフ（subgraph under Taxonomy T)であるとき、

[数 1]

とかく。これは、写像 φ： V(G )→V(G)が存在して、

s

( 1)任意の vEV(G )に対して lb(v) E _τ (lb( (ν)))

s Τ

(2)任意の (ν , v) E E(G )に対してlb(v , ν)≡ τ (lb( (ν), (ν)))

i j s i j T i j

を満たすことである。今後は、簡単のため、 Taxonomy Tが明らかな場合には、添え字 Tは省略する。 (注意 2. 2) 定義より明らかに

[数 2]

G_S G ^ G_S G である（逆は成立しない)。つまり、 Taxonomyが与えられた下での部分グラフの定義は、通常の部分グラフの定義を弱めたものとなっている。

[0104] 「定義 2. 4 (Clique)」

グラフがクリーク（Clique)であるとは、任意の頂点間に辺が存在することである。

[0105] 「2. 2 グラフと Taxonomyを用いた RNA配列集合のモデル化」

本節では、ラベル付有向グラフと Taxonomyを用いて RNA配列の集合全体のモデルイ匕を行う方法にっヽて記述する。

近年、ステムやループなどの RNA2次構造の構成要素を一つの単位として積極的に利用した RNA解析手法が一定の成功を納めている。例えば、 Scarna (文献 B3)は固定長のステムのアラインメントを良く考えられたダイナミックプログラミングにより定式化し、 2本の RNA配列のアラインメントおよびその共通 2次構造の予測を高速で行う。 RNAscf (文献 B4)は、複数配列カもステム候補のアラインメントを繰り返し行うことにより、共通の 2次構造の予測を行う。また、 Carnac (文献 B5)は、 2本あるいは 3本以上の RNA配列群から、可能性のあるステム候補を抽出し、 cofoldingと呼ばれる手法を用いて、各 RNA配列の 2次構造を予測する。 comRNA (文献 B6)は、グラフ理論における Clique探索手法を利用して、整列して!/、な!/、RNA配列群からその共通のモチーフを発見する手法を提案している。これらのステムベースの手法には、ヒユーリスティックな部分を多く含んでいるが、精度と計算量のノンスが取れた実用的な手法が多い。本手法でも、これらの手法と同様にステムの候補を積極的に利用したモデルィ匕を行う。

また、単一の RNA配列は、 2次構造を一つに決めれば、木構造や RAG (文献 B7) を用いて表現することが可能である。しかし、ここでは各 RNA配列の 2次構造自体をモデル化するのではなぐ RNA配列力得られる可能性のあるステムの候補をすベて用いて RNAのモデル化を行う。その手順は以下の通りである。 (1)各 RNA配列の塩基対確率行列からステム候補を抽出しグラフの頂点とする。

(2)ステム候補の類似度に基づいた階層型クラスタリングの榭形図から、頂点ラベルに対する Taxonomyを構築する。

(3) consistentなステム候補間を有向辺で結びその関係（Juxtaposed, Embedded, Overlapped)に応じて辺にラベルを付与する。

以下に各ステップについてもう少し詳細に説明を行う。

[0106] 「2. 2. 1 グラフの頂点」

McCaskillのアルゴリズム（文献 B8)を用いて RN A配列から塩基対確率行列（base pairing probability matrix)を計算する。ここで、 McCaskillのアルゴリズムにより計算される塩基対確率行列の G, j)要素は、 i番目の塩基と j番目の塩基が塩基対を形成する確率を表す。計算された塩基対確率行列から、塩基対を形成する確率が p以上で、 n個以上の連続する塩基対集合の極大集合を、ステム候補 (Stem candidate)として抽出する（文献 B3)。なお、現在の実装では、塩基対単位で M個のギャップは許容している。ただし、バルジが入るようなステム候補は考えることが出来ない (ステム候補の数が増えるため許容してヽな、)。

さらにステム候補には、そのステム候補を形成する塩基対の確率の平均をスコアとして付与する（このスコアは 0以上 1以下の実数である）。本手法では、このステム候補をグラフの頂点とする。

[0107] 「2. 2. 2 頂点ラベルの Taxonomyの構築」

頂点ラベルの Taxonomyを構築するために、セクション 2.2.1の 2つの頂点（ステム候補）間の非類似度を以下のように定める。ステム候補 Sに対して、 p(S)を 5，側ステムの開始位置、 d(S)をループの距離、 r(S)を 3 '側ステムの開始位置、 s(S)を塩基対確率行列から計算されるステムのスコアと置く。このときステム候補 S、 Sに対して、ステム候

1 2

補の相同性に関する非類似度 d (S , S )、ステム候補のスコア力計算される非類似

1 1 2

度 d (S , S ),ステム候補のループの距離に関する非類似度 d (S , S )、ステム候補の

2 1 2 3 1 2

配列内での位置に関連する非類似度 d (S , S )を、

4 1 2

[数 3] (5ι, ) = exp {-ccSW(S S₂)} , ^(5₁₅5₂) = 1 - -(5(5 + ^)) ノ

とする。ステム Sと Sの非類似度は、これらを全て合わせた d(S , S )=∑ w d (¾

S )で定義する。ここで、 SW(S , S )は、 RIBOSUM置換行列（文献 B9)を用いたステ

2 1 2

ム Sとステム Sの Smith Watermanアラインメント（文献 BIO)のスコアである。また、 wは w=l, w≥0を満たす重みパラメタである

セクション 2. 2. 1の方法で抽出されたステム候補全てに対して、上述の非類似度に基づき階層型クラスタリングを行う。この際得られる榭形図を用いて Taxonomyを構築する。すなわち、クラス間の距離の列を d=[d ]^N =l(d <d <---<d )とする際に、距 k k 1 2 N

離が d以下のクラスタに対して同一のラベルを付与することにより、 Taxonomyを構築 k

する。従って、今の場合 Taxonomyは階層構造になっている。ここで、 Taxonomyの第 n 階層に属するラベルの一般化コストを、「1— (第 n階層のラベル数)/ (頂点数)」で与える。

「2. 2. 3 グラフの辺」

2つのステム候補間の関係は次のように分類できる。

「性質 2. 1(文献 B11、文献 B3)」

セクション 2. 2. 1で抽出した 2つのステム候補 Sl S2の位置関係は、ステム候補の配列上での位置を S =([ls , le ],[rs , re ])、 S =([ls , le ],[rs , re ])(lsは 5，側のステ

1 1 1 1 1 2 2 2 2 2 k

ムの開始位置、 leは 5，側のステムの終了位置、 rsは 3，側のステムの開始位置、 re k k k は 3'側のステムの終了位置)とするときに、以下のいずれかが成立する。

[数 4] (1) Juxtaposed if reiく ls2 or τβ2 < Is^.

(2) Embedded if (lei く ¾s₂ and re- < rsi) or {l ^く is\ and re- < rs^).

(3) Overlapped if (lei < 2 and l ^ < rs and re\ < TS2) or

(le₂ < Isi nd lei < rs₂ and re₂く ^i).

(4) in-consistent if [lsi,lei] Π [is₂,ie₂] ≠ or [Isi e^ Π [ s₂,T-e₂] 0 or

[_mjr_ei] Π [IS2 2] ^ 0 or [rs₂，re₂)n [ ₂, j + 0.

(1)、（2)、（3)のいずれかの関係である場合に、 2つのステム候補 Sl、 S2の関係は consistentであると目つ。

本研究では、 2つのステム候補 S =([ls , le ],[rs , re ]),S =([ls , le ],[rs , re ])が Is

1 1 1 1 1 2 2 2 2 2 1 く Isかつ（1)、（2)、（3)のいずれかの関係であるならば、 S力も Sの向きに有向辺を

2 1 2

付与し、辺にはその関係に応じて異なるラベルを付与することとする。

[0109] 「2. 2.4 モデル化の特徴」

このようにモデルィ匕を行った場合、明らかに次の著しい性質が成立する。この性質は、後にアルゴリズムを構築する際に非常に役に立つ。

「性質 2. 2」

2次構造として成立可能なステム候補の集合は、上述の方法で RNAをグラフ化した際に、 Cliqueな部分グラフでなければならな、。

例 1:図 7は、 tRNAのステムグラフである。図 7では、例えば、頂点の組み合わせ（1 , 2, 8, 9)、 (1, 2, 4, 5, 9)などが RNAの 2次構造として正当なステム候補のセットである。これに対して、ステム候補の集合（1, 3, 5)に対応する 2次構造は存在しない。我々のモデルィ匕の手法では、 RNA配列集合の個々の配列に対してその可能性のあるステム候補を全て考慮したラベル付有向グラフを構築する事、及び、頂点のラベルには Taxonomyを考慮する事、といった 2つの事を新しく提案している。本セクションの最初にも述べたとおり、 RNAの 2次構造を木構造やグラフでモデルィ匕する方法はすでに提案されている力本手法のようなモデルィ匕の方法は今までには考えられてこな力つた。従って、上記のモデルィ匕手法は本論文の貢献のひとつであるといえる。

[0110] 「2. 3 グラフマイニングとしての定式化」我々が現在解決しょうとしている RNAの問題は以下のように述べられる。

「問題 1」 RNA配列集合に頻出するステムのパターンを全て抽出する。同時に各ステムパターンに対応する RNA配列のステムの集合 (RNA配列の 2次構造)を特定する。

本セクションでは、上記の問題をグラフマイニングとして定式ィ匕を行う。まず、次の定義はグラフマイニング分野では非常に基本的なものである。

[0111] 「定義 2. 5 (支持度 (文献 B2) )」

グラフの集合 GS = [ G , · · · , G ]と Taxonomy Tとグラフ Pに対して、

1 N

[数 5] support) = I (1) をグラフ Pの支持度 (support)と呼ぶ。支持度が 0より大き!/ヽグラフをパターン (pattern )と呼ぶ。また、支持度が与えられた minsupより大きいパターンを頻出パターン（Frequ ent pattern)と呼ふ。

前セクションの結果およびこの定義を用いて問題 1を言、換えると次のようになる。

[0112] 「問題 2」グラフ集合 GSと Taxonomy Tおよび支持度 minsupが与えられている際に、 Cliqueなパターンで支持度力 ¾insup以上のものをすベて導出する。同時に、導出されたパターンに対応する各グラフの部分グラフを特定する。

一般に、与えられたグラフ集合力も頻出パターン (Cliqueなパターンとは限らない）を完全に抽出する問題はグラフマイニングの問題として近年盛んに研究がなされて Vヽる (FSSM (文献 B12)、 FSG (文献 B13)、 AGM (文献 B14、 B15)、 AcGM (文献 Bl 6)、 gSpan (文献 B17) )。ラベルに Taxonomyを用いた場合の一般的なグラフマイニングは (文献 B2)で提案された。今回は、ベースとなる一般のグラフマイニングアルゴリズムには gSpanアルゴリズムを用いて、頂点ラベルに Taxonomyを考慮できるように変更を行った。また、後で述べる通り、抽出するパターンが Cliqueなパターンであること（性質)を利用して探索の効率ィ匕を行っている。また、問題 1を完全に解くことも可能である力本研究ではさらになる探索の効率ィ匕を行うために抽出されるパターンにいくつかの制約を課すことにする。次に定義される過度に一般ィ匕されたパターンは、ラベルに Taxonomyを考慮した場合に出現するパターンであるがパターンとしての有用性は低い。

[0113] 「定義 2. 6 (—般化パターン、過度に一般化されたパターン (文献 B2) )」

ノターン Pと Pのトポロジーが同型であるとする。

1 2

[数 6]

i ₂ であるとき、 Ρは Ρの一般化パターン（generalized pattern)と呼ぶ。また、 Pが存在し

1 2 2

て、

[数 7]

Pi C i¾力つ

supportfP2) を満たす場合、 Pは過度に一般化されたパターン（over- generalized pattern)と呼ぶ以下は、 Yanら（文献 B18)により提案された closed patternの定義を Taxonomyを考慮した場合に拡張したものである。 closed patternでないパターンもパターンとしての有用性は低い。

[0114] 「定義 2. 7 (closed pattern (文献 B 18) )」

グラフの集合 GS = [ G , G , · · · , G ]と Txonomv Tが与えられているものとする。こ

1 2 n

のとき、パターン Pが closed patternであるとは、

[数 8]

P≠P', P ^ P' and support ( ) = support{P') (2} を満たすパターン P'が存在しないことを言う。

(注意 2. 3) Yanら (文献 B18)は、通常の部分グラフ（定義 2. 1)の意味で closed patternを定義した。ここでは Taxonomyを用いた部分グラフ（定義 2. 3)の意味で close d patternを定義している。定義より、この意味で Closedなパターンは、定義 2. 6で定義される過度に一般ィ匕された (over-generalized)パターンではなヽ。

Taxonomyを考えることにより、柔軟なパターンの抽出が可能になる一方で、抽出されるパターンが増加することが懸念される。しかしながら、 Taxonomyの上位のラベルば力りで構成されるパターンは、たとえ頻出していたとしてもあまり重要でない可能性が高、。このようなパターン力 taxonomyの上位のラベルばかりで構成されて!、るかどうかを判定するために、ノターンの一般ィ匕コストと呼ばれる概念を新たに定義する。

[0115] 「定義 2. 8 (パターンの一般ィ匕コスト）」

グラフ Gと Taxonomy Tが与えられているものとする。このときパターン Pの一般化コスト（^generalization cost)： cost、 P を、

[数 9] c_os = ^v E cm) (3)

1^1 と定義する。言い換えれば、パターンの一般ィ匕コストは、パターンを構成するラベルのコストの平均である。

以上の定義をもとに、最終的に我々が解くべきグラフマイニングの問題は以下となる。

[0116] 「問題 3」グラフの集合 GS = [ G , G , · · · , G ]、 Taxonomy T、最小支持度 minsup

1 2 n

、最大一般ィ匕コスト maxcostが与えられた際に、以下の条件を満たすパターンを完全に抽出する。

(1)支持度が minsup以上 (定義 2. 5を参照）

(2) Clique (定義 2. 4を参照）

(3) Closed patterns (定義 2. 7を参照）

(4)一般化コストが maxcost以下 (定義 2. 8を参照）

さらに、抽出されたパターンに対応する各グラフの部分グラフを全て特定する。

[0117] 「2. 4 理論」

本セクションでは、問題 3を解くためのグラフマイニングアルゴリズムの理論的な部分について、出来る限り self-containedな形で記述を行う。以下の定義はグラファルゴリズムの分野では基本的なものである。

[0118] 「定義 2. 9 (DFS木、 DFS添え字付け、前向きの辺、後ろ向きの辺（文献 B19) )」本定義にお、てグラフは連結グラフであるとする。 (1)深さ優先木 (DFS木、 DFS Tree)：グラフを深さ優先探索した際に得られる木構造。

(2) DFS添え字付け（DFS Subscripting)：グラフの頂点に DFS木で探索される順番に従って番号付けをしたもの。またグラフ Gと DFS木 Tに対して DFS subscriptingを Gと

T

書く。潘目の頂点を Vと表すと G =[v]と書ける。

i T i

(3)前向きの辺（Forward Edge)と後ろ向きの辺（Backward Edge)：グラフ Gと深さ優先木 Tが与えられた際に、 Gの辺の中で Tに含まれるものを前向きの辺（Forward Edge)、含まれないものを後ろ向きの辺（Backward edge)と呼ぶ。前向きの辺を (v, v Xiく j)、後ろ向きの辺を (v, v)(i>j)と表す。

1 J

(注意 2.4) 開始頂点の選び方などにより、同一のグラフに対して複数の深さ優先木が存在する（すなわち複数の DFS Subscriptingが存在する）。

[0119] 「定義 2. 10(文献 B20)」

連結グラフ Gと DFS木 Tが与えられているものとする。前向きの辺の集合 E, =[e | f τ Vi

, j, i<j, e=(v， v)EE]と後ろ向きの辺の集合 E , =[e

i j T I Vi, j， i>j,e=(v, v)≡E]

i j に対して順序関係を以下の通り定義する（これらはすべて半順序関係であることは容易に示せる）。

[数 10]

(1〕 {E_f,_T上の順序）（ _1: - J , _T (v_i3,v_j2)

j2

(2) (Sfr.r上の順序） (Viい v ) も ,_τ {¾,¾) ¾■〔i) i_t < i₂ or (ii) = i₂ j! <お.

(3) (E_f と E_b、_Tの間の順序） _bf._T 4÷ (i) _ei G Ε,,τ,^ £ B_flT,ii < or

(注意 2. 5) DFS木 Tを固定する限り、（1)の (ii)の条件は必要ない。ただし、（1)の (ii)の条件を入れることにより、グラフやその DFS木が異なっている場合でも辺の比較が可能になる。

(注意 2. 6) 今後は特に誤解が無い限り辺（ V, V )を省略して（ i, j )と書く。

この順序関係について以下の結果が成立する。

[0120] 「定理 2. 1(文献 B20)」

グラフ Gと DFS木 Tを固定したときに、定義 2. 10の順序を合わせて定義される E, f T U E , 上の順序関係は、線形順序である。なお、集合 (A, <)が線形順序集合である b T

とは、 (i) Va, b£Aに対して、 a<bかつ b<cならば a<c、かつ、 (ii)Va, b^Aに対して、 a< bまたは b< aが成り立つことである（一般的には「a< ajと「a< bかつ b< aならば、 a=b」を条件に入れる場合も多いが、ここでは入れない）。

この定理により、グラフと深さ優先木を固定したときに、グラフに含まれる辺（前向きの辺または後ろ向きの辺のいずれか）には線形順序を与えることが出来る。さらに、頂点や辺のラベルを考慮して次のように DFSコードと呼ばれる表現方法を定義する。

[0121] 「定義 2. 11(DFSコード (文献 B20))」

グラフ Gと DFS subscripting Gに対して辺を (i, j, 1, 1, 1 ,d )と表す。ここで 1,

T i j (i, j) (i, j) i

1はそれぞれ i番目、 j番目の頂点のラベルを表す。 1 は辺 (i, j)のラベルを表す。 d

J ， j) ， J

)は辺 G, j)の向き Gから jの向きであれば +1、 jから iの向きをー1とする）を表す。このとき、 Gの辺を定理 2. 1の順序に従って並べた順列 [(i, j, 1, 1, 1 ,d ；)]をグラフ i J (i, j) (i， I*

Gの DFSコード（DFS code)と呼び、 code(G, T)と書く。

(注意 2. 7) 上記の DFSコードの定義は原論文 (文献 B20)とは以下の点で異なる

(1)グラフが有向グラフのため辺の方向に関する項 d が存在する。

(i,j)

(2)ラベルの順序は、（fromlabel, tolabel, edgelabel, direction)の順番である（原論文では（fromlabel, edgelabel, tolabel)の順番）。これは、後に一般化コストによる枝狩りを行う際に重要になってくる。

DFSコード力辺をひとつ拡張して新しい DFSコードを作成する場合、定義 2. 10の順序関係により任意に拡張を行うことは出来ず、以下の制限がある。

[0122] 「命題 2. 1(DFSコードの拡張の制限 (文献 B20))」

グラフ Gと DFS木 Tが与えられているものとする。 a=code(G, T)=(a , a ,· · 'a ),a =(i

0 1 m k

, j),a =(i , j )とするとき以下が成立する。

k k k+1 k+1 k+1

(Daが前向きの辺かつ a が前向きの辺であるならば、

k k+1

i ≤j l

k+1 kかつ j =j+

k+1 k

(2) aが前向きの辺かつ a が後ろ向きの枝であるならば、

k k+1

i =j力つ j <i

k+1 k k+1 k (3) aが後ろ向きの辺かつ a が前向きの辺であるならば、

k k+1

i ≤i力つ j =i +1

k+l k k+1 k

(4) aが後ろ向きの辺かつ a が後ろ向きの枝であるならば、

k k+1

i =i力つ j <j

k+1 k k k+1

(証明） DFS木の定義および DFSコードの定義より明らかである。

[0123] 「定義 2. 12 (最右拡張 (文献 B20) )」

パターン Pとその DFSコードに対して以下の拡張を最右拡張（Right-most extension )と呼ぶ。

(1)最右頂点力他の最右パスに含まれる頂点への辺の拡張 (後ろ向きの拡張、 ba ckward extension)

(2)最右パスに含まれる頂点から、 Pに含まれな!/、新 U、頂点への拡張 (前向きのぉム張、 rorwara extension)

(注意 2. 8) 定義 2. 12を使って性質 2. 1を言い換えれば、パターン（DFSコード）の拡張は最右拡張に限るということである。

任意の 2つの DFS code (異なるグラフでもよ、）の間に以下のようにして順序を与えることが可能である。

[0124] 「定義 2. 13 (DFS Lexicographic Order (文献 B20) )」

連結グラフ Gに対して Z ( G ) = [ code ( G, T ) I VT : Gの DFS木 ]と表す。さらに Z = U Z(G)と置く（すなわち Zはすべての連結ラベル付きグラフの DFSコー

Gxonnectea graph

ドの集合である）。グラフの頂点のラベル集合 Lと辺のラベル集合 Lには、それぞれ

V E

[数 11] 線形順序と L_E が定義されていると仮定すると、 E X L X L X L上には辞書順で

V E V

[数 12] 順序を入れることが可能である。このとき、 DFS Lexicographic orderとは以下で定義される Z上の線形順序である。 a=code(Ga， Ta)=(a, a ,---,a )≡Z, β =code(G β ,

0 1 m

T j3 )=(b , b，'''，b )GZに対して、 _a≤ j3とは、次の（1)または（2)が成立することで

0 1 n

ある。

[数 13]

(!) 0 < t < m {m,n)となる ίが存在して，任意の < ίに対して = かつ a_{t r}, b_t (2) 任意の 0≤ ≤ mに対して a_k = b_kかつ n > m.

(注意 2. 9)

[数 14] （ , ，， . 。, )） > bt = ibJb'k lj_b，k ,^{] d}( ，hi)とすると' (1)の a_t ^ b_tは以下のいずれかが成立することと同値である. a_t G ii:_a,_b and b_t ς !pj

a_t e E_a，_b, b_t G Εβ^ and j_a < j_b

at e b_t S E^_{b &} =j_b and ί 。 _Ja) < &, ）

at E_aib, b_t e ¾t», j_tt = ji, and = l(_{ib b}) and d_{{ia a} < d_{{ib b}

< t E Ea ibt 6 Εβ,/ and く i_a

a_t€ E_aJ,b_t e Εβ, ,ία - and l_ia く l_ib

¾

ib， _a = k_bJj_a < ij_t

°t ^{G E}a，f，^bt ζ E_&J,i_a

t, ^and 。' j。） < ki )

、 ¾ C E_aj,b_t C E₀j,i_a = ， = = )

^and , j«)く , )

[0125] 「定義 2. 14(最小 DFSコード）」

グラフ Gが与えられた際に、その DFSコードの中で (上記順序に対して)最小の DFS コードを最小 DFSコード（minimum DFS code)と呼び、 min(G)と書く（すなわち min ( G ) =min[code(G, T) | Τは Gの DFS木]である）。

以下の定理により、 min ( G )はグラフ Gに対する canonicalな表現となっている。従つて、 min ( G )を canonical DFS codeと呼ぶこともある。

[0126] 「定理 2. 2(文献 B20)」

グラフ Gと G'が同型である必要十分条件は min ( G ) = min ( G' )となることである。

[0127] 「定義 2. 15(DFSコードの親および子（文献 B20))」

DFSコード _a=(a , a,---,a )が与えられているとする。このとき妥当な DFSコード = (a , a , - - - ,a , b)を DFS code aの子 (child)、 aは DFSコード βの親 (parents)と呼

0 1 m

ぶ（「性質 2. 1」を満たさなければならな、)。 αの子の集合を children( a )と書く。

[0128] 「定義 2. 16 (DFS Code Tree (文献 B2) )」

「親要素と子要素の関係が定義 2. 15で与えられ、さらに同じ親の子要素の関係は DFS lexicographic orderで与えて得られるような、 DFS codeを頂点とする木構造」を、「DFS code treejと呼ぶ。

上で定義されている DFS code treeは DFSコードをノードとする順序木である。問題 3 はこの順序木の順序で探索を行っていく。 DFS code treeが全ての部分グラフを数え上げることが可能であることを保障するのが次の定理である。

[0129] 「定理 2. 3 (DFS Code Tree Covering (文献 B20) )」

DFS Code Treeは全てのグラフの最小 DFSコードを含む。

DFS Code Tree Tと DFS code aが与えられたときに、 Tにおける αの祖先の集合を ans( a 子孫の集合を des ( a )と表す。

次の定理は、最小でない DFSコードを根とする部分木を枝狩りしても、全ての部分グラフを数え上げることが可能であることを保障している。

[0130] 「定理 2. 4 (DFS Code Pruning (文献 B20) )」

グラフ Gと DFS code tree T内のグラフ Gの DFS codesを α , α , · · · , « (Vi, j≤nに

0 1 n

対し α≤ α , αが minimum DFS code)とする。 a (l≤i≤n)とその子孫の全て（す i j 0 i

なわち DFS code tree内の a .を根とする部分木）を枝狩りして残った DFS Code Tree は全ての最小 DFS codeを含む。

(注意 2. 10) 定理 2. 4により、 DFS code treeの最小 DFSコードでない DFS codeを根とする部分木は全て枝狩りを行っても全ての部分グラフを網羅可能である (完全性

) o

定義より支持度に関して以下の単調性が成立することがわかる。これにより、支持度が与えられた最小支持度を下回ったパターンはそれ以上拡張する必要がないことが保障される。

[0131] 「命題 2. 2 (支持度の逆単調性)」

[数 15] パターン P, P^!に対して Ρ' ならば support(P) < support(F')である. ここまでの理論は Yanらの貢献による。本研究では Yanらの理論をベースにラベルに Taxonomy情報およびその枝狩り手法 (文献 B2)の統合を行う。つまり、定義 2. 16で定義される DFS code tree上を今回の制約を用いてさらに効率的に探索していく。さらに、 cliqueなパターンのみを抽出することを利用した探索の効率ィ匕及びパターンの一般化コストによる枝狩り手法の提案を新たに行う。

導出パターンを Cliqueなパターンに制限する場合には、 DFS codeの子に対して「性質 2. 1」よりさらに強い制約を与えることが可能である。

[0132] 「命題 2. 3 (抽出パターンの Clique性を利用した DFSコードの拡張の制限）」

グラフ Gと DFS木 Tが与えられているものとする。 a =code(G, T)=(a , a , · · ' a ),a =(i

0 1 m k

, j , 1 , 1 , 1 ,d )とするとき、 DFSコードの子要素に以下の制限を与えて得 k k ik jk (ik, jk) (ik, jk)

られる DFS code treeは、全ての Cliqueな部分グラフの最小 DFSコードを含む。

(D aが前向きの枝かつ a が前向きの枝であるならば、

k k+1

k=0力つ j =i =1力つ j =2

0 1 1

(2) aが前向きの枝かつ a が後ろ向きの枝であるならば、

k k+l

i =jかつ j =i (=0)

k+l k k+l 0

(3) aが後ろ向きの枝かつ a が前向きの枝であるならば、

k k+l

i =i 力つ j =i +1力つ i—2=]

k k+l k+l k k k

(4) aが後ろ向きの枝かつ a が後ろ向きの枝であるならば、

k k+l

i =i力 i =i

k+l k k+l k

[0133] (証明）（1)から (4)のいずれの条件も満たさない拡張によって得られられる DFSコードを根とする部分木には Cliqueなパターンを含まないことを示す。

(1) a および a が前向きの枝であるとする。 j≠i とすると、深さ優先木の定義か k k+l k k+l

ら今後の拡張により後ろ向きの辺 (j , j )が拡張されることはない。よって j =i として k+l k k k+l このとき、ちし k≠0とすると i > 1となり、定義 2. 10を繰り返し使うと a =(i , j )< (j k k k k k

, i - l)=(i , i -1XG , j )=a となるから、今後の拡張により得られるパターン k k+l k k+l k+l k+l

には後ろ向きの辺 (i ， i 1)が存在しない（従って Cliqueなパターンではない）。 k=0 とする。すなわち、 aかつ a が前向きの枝であるならば、拡張を（1)に制限することに k k+1

より探索されないパターンはすべて Cliqueでないパターンとなる。

(2) aが前向きかつ a が後ろ向きの枝であるとする。 i =jは Propositionである。も k k+l k+l k

し、 j >0とすると、 a =(i , j )< (i , 0)< (i , j )=a であるから、後ろ向きの辺 (i , k+l k k k k+l k+l k+l k+l k+l

0)は今後の辺の拡張によって得られることはない。よって、拡張を (2)に制限することにより探索されないパターンは全て Cliqueなパターンではない。

(3)明らかに i≥0と仮定してよい。 j =i +1は Propositionより成立するのは明らかで

k k+l k

ある。もし i≠i であるとすると後ろ向きの辺 (i , i )は今後拡張されることはないから

k k+l k+l k

、i =i 。もし i— 2≠jならば、 a =(i , j )< (i , i -2)< (i , j )=a となり、今後の k k+l k k k k k k+l k k+l k+l k+l

拡張により得られるパターンには後ろ向きの辺 (i , i 2)は存在しない。よって拡張

k+l k

を（3)に制限することにより探索されな、パターンは全て Cliqueなパターンではな、。

(4)上と同様に (4)の制限を加えることにより探索されないパターンは全て Cliqueなパターンではなヽことが示せる。

以上と定理 2. 3より題意が証明できた。

(注意 2. 11) 以下では DFS code treeとは子要素に上記の制限をカ卩えた DFS cod e treeを意味するものとする。

一般に DFSコード aの最小性の判定は、 aの最小 DFSコードと aが等しいかどうかを比較することにより行われる。これは、グラフの同型性を判定することと実質的に等価であり、多大な計算量を要する。しかしながら、抽出するパターンを Cliqueなパターンに限る場合には、以下の命題を用いることによりこの DFSコードの最小性の判定を回避することができる。

「命題 2. 4 (導出パターンの clique制限を用いた自明な最小でな!、DFSコード)」

DFSコード a =(a , a , - - - a ),a =(i , j , 1 , 1 ,1 , d 》が、ある kに対して a

0 1 m k k k ik jk (ik, jk) (ik, jk) 0 kO が前向きの枝かつ 1 く min[l I p< k ]であるならば、 DFS code tree内で αを根とする

jkO ρ 0

部分木を枝狩りして残った部分木は、すべての cliqueなパターンの最小 DFSコードを含む。

(証明）パターン αを拡張して生成される最初の Cliqueなパターンの DFSコードは最小でないことを示せば十分である。 DFSコード αに対するグラフの DFS木を T=[vf とすると、仮定力もある n(< N)が存在して l(v ) < l(v )となる。 aを拡張して得られる最

1 N n

初の Cliqueなパターン Pは、頂点 [vf 力なる完全グラフとなり、その DFSコードひ，

i i=l

の DFS木は (ν，· · ·， V ， ν，· · ·， V )である。しかしながら、 DFS添え字付け (ν，· · ·，

1 n-l η Ν 1 ν ,ν , · · 力も得られる DFSコードを 13とすると、 13 < aである。よって、パターン ex n-l N

を拡張して生成される最初の Cliqueなパターンの DFSコードは最小でない。

次の命題を用いると、一般化コストによる枝狩りを効率よく行うことが可能となる。「命題 2. 5 (Cliqueと最大一般ィ匕コストの制限を用いた枝狩り）」

グラフの集合 GSと Taxonomy Tが固定されているものとする。さらに、以下の仮定を置く。

( 1)ラベルの Taxonomyは頂点にのみ存在し、辺ラベルの一般化コストは全て 0である。

(2) GSの任意のラベル x E V ( T )と Taxonomy Tにおけるその任意の祖先 yに対して x< yを満たすラベル付けがなされている。

(3)ラベル X, yが x< yを満たすならば、 c ( x ) ≤ c ( y )

このとき、 DFS code tree上で一般化コストが maxcostより大きい DFS codeを根とする部分木を枝狩りした結果残る DFS code treeは、すべての一般化コストが maxcost以下かつ cliqueなパターンの最小 DFSコードを含む。

(証明）命題 2. 4により、パターンに新しい頂点ラベルが追加される（DFSコードを前向きの辺により拡張する）場合、追加される頂点のラベルはパターンのどの頂点ラベルとも等しいか、より大きい。このことと仮定を用いると容易に証明できる。

(注意 2. 12) 前出の「分類データの生成」のセクションで説明された方法により構築されるタクソノミデータが上記の命題の条件を満たすことは容易にわかる。

(注意 2. 13) この Propositionは導出パターンを Cliqueなパターンに制限しない場合には成立しない。また、 DFSコードの順序付けを定義 2. 1 1のようにしなければ成立しない（辺のラベルより 2つの頂点ラベルの方が順序付けに対する優先度が高い）。さらに、辺のラベルにも Taxonomyを考慮した場合にも成立しない。

最後に、導出パターンを over-generalizedでないパターンに制限する場合に対する枝狩りの基本となる理論につ、て述べる。 [0136] 「定義 2. 17 (重みつき支持度 (文献 B2) )」

グラフ Gと Taxonomy Tが与えられた際に、パターン Pのグラフ Gにおける出現回数を [数 16]

と表す。このとき、グラフセット GS = [ G ]を固定したとき、パターン Pに対して

[数 17] su_Vw {P) = ∑ i^{P P C} ( をパターン Pの重みつき支持度（weighted support)と呼ぶ。ここで、

[数 18] 匚 }|は P匚を満たすバタン尸の個数（同型なパターンは 1つと数える）を意味する.

[0137] 「命題 2. 6」グラフの集合 GSと Taxonomy Tを固定する。 GSの任意のラベル xEV ( T )と、 Taxonomy Tにおけるその任意の祖先 yE ans(x)に対して x<yを満たすラベル付けがなされているものとする。このときパターン Pの一般化パターンを P'とすると、 P く P'である。すなわち任意のパターン Pに対してその一般化パターン P'は DFS code t ree上で Pより後に出現する。

(証明） Pと P'の最小 DFS codeをそれぞれ α , βとするとき、 aぐ βとなることを示せばよい。一般化パターンの定義と、ラベル付けの仮定により容易に示せる。

[0138] 「命題 2. 7 (文献 Β2)」 DFS code tree上の DFS code Pに対して、 Pより以前に出てきた DFSコード P'で、 P (の表現するグラフ）が P' (の表現するグラフ）の一般ィ匕されたパターンでありかつ sup (P)=sup (Ρ')を満たすものが存在するとき、 DFSコード Ρを根にもつ部分木を枝狩りした結果残る部分木は全ての over-genralizedでない部分グラフの最小 DFSコードを含む。

(注意 2. 14) この命題を用いて過度に一般ィ匕されたパターンの枝狩りを効率良く行うためには、あるパターンの特殊ィ匕パターンはそのパターンより以前に探索されていなければならない。命題 2. 6により、任意のパターンはその特殊ィ匕パターンより DF b Lexicographic orderで後【こ出現するため、 DFS lexicographic orderで DF¾ code treeを探索すれば、上記の枝狩りは効率よく行えることがわ力る。

(注意 2. 15) この条件による枝狩りだけでは、全ての over- generalizedでないパターンを DFS code treeの探索の段階で枝狩りをすることはできない。枝狩りにもれたパターンは後処理で削除する。

[0139] 「2. 5 ァノレゴリズム」

本セクションでは、セクション 2. 4で述べた理論に基づいて構築されるアルゴリズムについて述べる。その骨格部分は、図 17のアルゴリズム 1 (Algorithm 1)である。アルゴリズムの入力は RNA配列の集合 (複数のファミリーや未知のファミリーが含まれていても構わない）と最小支持度（minimum support)、最大一般化コスト（maximum gen eralization cost)である。まず、セクション 2. 2に述べる方法により RNA配列集合からグラフ集合 GSおよび頂点ラベルの Taxonomy Tを構築する（line 2)。次に GSから辺のサイズが 1の頻出でありかつ一般化コストが maxcost以下のパターンを抽出する。ここで頻出パターンと一般ィ匕コストが maxcost以下のパターンだけを考えれば十分なのは、命題 2. 2と命題 2. 5により保障されている。その後、 C を DFS lexicographi order

initial

(定義 2. 13)でソートし、その順番で C のパターンに対して、アルゴリズム GraphMi

initial

ning (アルゴリズム 2 (Algorithm 2) (図 18) )を呼び出す。最後に、 PSから non- closed patternおよび non- cliqueパターンを除く（line 8)。

[0140] アルゴリズム 2 (Algorithm 2)は提案手法におけるグラフマイニングの骨格部分である。まず、現在考えているパターン sの最小性を判定し、最小でないものに関しては探索を打ち切る（line 3)。この操作によりアルゴリズムの完全性が保たれることは定理 2. 4による。この際、 DFS codeの最小性判定にはコストがかかるため、命題 2. 4を用いて最小性の判定をやらなくていいものに関しては判定を行わない。次に一般ィ匕コストの判定を行い、一般ィ匕コストが maxcostより大きいものに関しては探索を打ち切る。これを保障するのが命題 2. 5である。最後に over- generalizedなパターンであるかどうかの判定を行い、 over- generalizedなパターンであれば探索を打ち切る（line 4)。この判定は、命題 2. 7により行う力注意 2. 14にも述べたとおりこの段階ですベての over -generalizedなパターンを除くことはできな!、。以上で枝狩りをされなかったパターンは PSに保存する。ここで注意するのは、 PSには cliqueでないパターンも格納する（line 5)。これは over- generalizedなパターンの判定に使用するためである。

line 6では辺を 1つ拡張することにより、現在のパターン sの拡張を行う。ここでは命題 2. 3の条件を満たすようにパターンを拡張し、頻出である（支持度が minsupより大きい）パターンを Cに格納する（line 6)。その後、 Cのパターンに対して DFS lexicograp hie orderの順番で再帰的にアルゴリズム GraphMiningを呼び出す。

[0141] 「3 実装」

本アルゴリズムを実装したソフトウェア RNAminer (RNA stem pattern miner)を開発した。実装は C++言語および STL I Boostライブラリを用いて行った。さらに現在の実装においては、グラフの同型性判定ライブラリとして VFlib 2.0 (文献 B21)をクラスタリングのライブラリとして Cluster 3.0 (文献 B22)を用いている。また、塩基対確率行列の計算には Vienna RNA package (文献 B23)のライブラリを用いている。

なお、ステム候補の抽出の部分で塩基対単位でギャップが許されてよい。また、ステム候補は塩基対の極大集合として抽出するので、ステム候補間が若干オーバラップしてヽても辺を与えてよ!ヽ。

[0142] 「参考文献」

以下の参考文献のうち、（文献 B3)は (文献 A12)と同じであり、（文献 B5)は (文献 A17)と同じであり、（文献 B6)は (文献 A16)と同じであり、（文献 B7)は（文献 A27) と同じである。下記のリスト中の各文献は、本明細書に組み込まれる（imcorporated)。

(文献 B1)

Ramaknshnan Srikant and Ra esn Agrawal. Mining generalized association r ules. Future Gener. Comput. Syst., Vol. 13, No. 2—3, pp. 161—180, 1997. (文献 B2)

Akihiro Inokuchi. Mining generalized substructures from a set of labeled g raphs. In ICDM, pp. 415—418. IEEE Computer Society, 2004.

(文献 B3)

Y Tabei, K Tsuda, T Kin, and K Asai. SCARNA:Fast and Accurate Stru ctural Alignment of RNA Sequences by Matching Fixed-length Stem Fragme nts . submitted to Bioinformatics .

(文献 B4)

Vineet Baiha, Haixu Tang, and Shaojie Zhang. Consensus folding of unalig ned rna sequences revisited. In Satoru Miyano, Jill P. Mesirov, Simon Kasif ， Sorin Istrail, Pavel A. Pevzner, and Michael S. Waterman, editors, RECO MB, Vol. 3500 of Lecture Notes in Computer Science, pp. 172-187. Sprin ger, 2005.

(文献 B5)

Helene Touzet and Olivier Perriquet. CARNAC: folding families of related RNAs. Nucleic Acids Res, Vol. 32, No. Web Server issue, pp. 142—145， Jul 2004. Evaluation Studies.

(文献 B6)

Yongmei Ji, Xing Xu， and Gary D Stormo. A graph theoretical approach for predicting common RNA secondary structure motifs including pseudoknot s in unaligned sequences. Bioinformatics, Vol. 20, No. 10， pp. 1591 - 1602， Jul 2004. Evaluation Studies.

(文献 B7)

Daniela Fera, Namhee Kim, Nahum ShiiFeldrim, Julie Zorn, Uri Laserson, Hin Hark Gan, and Tamar Schlick. RA : RNA— As— Graphs web resource. B MC Bioinformatics, Vol. 5， p. 88， Jul 2004.

(文献 B8)

J S McCaskill. The equilibrium partition function and base pair binding pr obabilities for RNA secondary structure. Biopolymers, Vol. 29, No. 6—7， pp . 1105-1119， May 1990.

(文献 B9)

Robert J Klein and Sean R Eddy. RSEARCH: finding homologs of single structured RNA sequences. BMC Bioinformatics, Vol. 4, p. 44, Sep 2003. (文献 BIO)

T F Smith and M S Waterman. Identification of common molecular subseq uences. J Mol Biol, Vol. 147, No. 1, pp. 195-197, Mar 1981.

(文献 Bl l)

D Bouthinon and H Soldano. A new method to predict the consensus se condary structure of a set of unaligned RNA sequences. Bioinformatics, Vol . 15, No. 10, pp. 785-798, Oct 1999.

(文献 B12)

Jun Huan, Wei Wang, and Jan Prins. Efficient mining of frequent subgrap hs in the presence of isomorphism. In ICDM '03: Proceedings of the Third

IEEE International Conference on Data Mining, p. 549, Washington, DC, USA, 2003. IEEE Computer Society.

(文献 B13)

Michihiro Kuramochi and George Karypis. Frequent subgraph discovery. In ICDM '01: Proceedings of the 2001 IEEE International Conference on Dat a Mining, pp. 313—320, Washington, DC, USA, 2001. IEEE Computer Socie ty.

(文献 B14)

Akihiro Inokuchi, Takashi Washio, and Hiroshi Motoda. An apriori— based a Igorithm for mining frequent substructures from graph data. In PKDD '00: Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery, pp. 13—23, London, UK, 2000. Springer— Verlag.

(文献 B15)

Akihiro Inokuchi, Takashi Washio, and Hiroshi Motoda. Complete mining o f frequent patterns from graphs: Mining graph data. Mach. Learn., Vol. 50, No. 3, pp. 321-354, 2003.

(文献 B16)

Akihiro Inokuchi, Takashi Washio, Kunio Nishimura, and Hiroshi Motoda. A Fast Algorithm for Mining Frequent Connected Subgraphs. IBM Research. In IBM Research Report, 2002.

(文献 B17)

Xifeng Yan and Jiawei Han. gspan: Graph-based substructure pattern mini ng. In ICDM '02: Proceedings of the 2002 IEEE International Conference on Data Mining (ICDM'02), p. 721, Washington, DC, USA, 2002. IEEE Co mputer Society.

(文献 B18)

Xifeng Yan and Jiawei Han. Closegraph: mining closed frequent graph patt erns. In KDD '03: Proceedings of the ninth ACM SIGKDD international co nference on Knowledge discovery and data mining, pp. 286—295, New York,

NY, USA, 2003. ACM Press.

(文献 B19)

T. Cormen, C. Leiserson, R. Rivest, and C. Stein. Introduction to Algori thms (2nd edition). MIT Press, 2001.

(文献 B20)

Xifeng Yan and Jiawei Han. gspan: Graph-based substructure pattern mini ng. 2002.

(文献 B21)

C. Goggia and S. Tortorella. Graph matching: A fast algorithm and its e valuation. 1999.

(文献 B22)

M J L de Hoon, S Imoto, J Nolan, and S Miyano. Open source clusteri ng software. Bioinformatics, Vol. 20, No. 9, pp. 1453-1454, Jun 2004. Eva luation Studies.

(文献 B23)

I.L. Hofacker, W. Fontana, P.F. Stadler, S. Bonhoeifer, M. T acker, and P. Schuster. Fast folding and comparison of RNA secondary structures. Mo natsh. Chem., Vol. 125, pp. 167—188, 1994.

(文献 B24)

Bernhart SH, Hofacker IL, and Stadler PF. Local RNA base pairing proba bilities in large sequences. Bioinformatics, Dec 2005. JOURNAL ARTICLE.

[0143] 以上に現時点で考えられる本発明の好適な実施の形態を説明した力本実施の形態に対して多様な変形が可能なことが理解され、そして、本発明の真実の精神と範囲内にあるそのようなすべての変形を添付の請求の範囲が含むことが意図されている。

産業上の利用可能性

[0144] 以上のように、本発明は、複数の RNA配列データ力コンピュータ処理によって 2 次構造モチーフを抽出することができ、ノィォインフォマテイクス技術として有用である。

Claims

請求の範囲

[1] 複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出するステム候補抽出部と、

各 RNA配列データ力抽出された前記複数のステム候補の各々を頂点として有し、頂点間を辺で結んだステムグラフを生成するグラフ生成部と、

前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムダラフに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出するグラフ解析部と、

を備えたことを特徴とする RNA配列情報処理装置。

[2] 前記グラフ生成部は、前記 RNA配列上での各ステム候補対の位置関係に応じた向きを、前記各ステム候補対を結ぶ辺のラベルに付与し、

前記グラフ解析部は、前記複数のステムグラフから、対応する辺の向きが同じ前記部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処理装置。

[3] 前記グラフ生成部は、各ステム候補対の接続関係が並列、埋込み、重複の、ずれかに属するかの情報を、前記各ステム候補対を結ぶ辺のラベルに付与し、

前記グラフ解析部は、前記複数のステムグラフから、対応する辺の前記接続関係が同じ前記部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処理装置。

[4] 前記グラフ生成部は、前記並列、埋込みおよび重複のいずれにも該当しないステム候補対を、辺による接続対象から除外することを特徴とする請求項 3に記載の RN A配列情報処理装置。

[5] 前記グラフ生成部は、各頂点が部分グラフ内のすべての他の頂点と辺で結ばれる完全部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処理装置。

[6] 前記複数のステムグラフに含まれる前記複数のステム候補を類似性に基づいて分類する分類データを生成する分類データ生成部を含み、

前記グラフ解析部は、前記複数のステムグラフから、対応する頂点のステム候補が同じ分類に属する前記部分グラフを抽出することを特徴とする請求項 1に記載の RN A配列情報処理装置。

[7] 前記分類データ生成部は、前記分類データとして、前記複数のステム候補を、類似範囲の広さが下位層から上位層へ向力つて増大するように階層的にクラスタリングを行ったタクソノミデータを生成し、

前記グラフ解析部は、前記タクソノミデータに基づき、対応する頂点のステム候補が下位層では異なる分類に属しても上位層では同一分類に属する前記部分グラフを抽出することを特徴とする請求項 6に記載の RNA配列情報処理装置。

[8] 前記タクソノミデータにて階層に応じて増大する一般ィ匕コストの最大許容値である最大一般化コストを入力する最大一般化コスト入力部を含み、

前記グラフ解析部は、前記最大一般化コスト以下の一般化コストを有する前記部分グラフを抽出することを特徴とする請求項 7に記載の RNA配列情報処理装置。

[9] 前記分類データ生成部は、ステム候補対の類似性を表す類似性パラメータを、ステム候補対の配列相同性、ステム候補により形成されるループの距離の類似性、および、 RNA配列内でのステム候補の位置の類似性の少なくとも一つに応じて求めることを特徴とする請求項 6に記載の RNA配列情報処理装置。

[10] 前記複数のステムグラフにおける前記部分グラフの支持度の最小許容値である最小支持度を入力する最小支持度入力部を含み、

前記グラフ解析部は、前記最小支持度以上の支持度を有する前記部分グラフを抽出することを特徴とする請求項 1に記載の RNA配列情報処理装置。

[11] 前記ステム候補抽出部は、分子構造のエネルギに基づいて前記 RNA配列上の任意の 2つの塩基の塩基対形成確率を求めた塩基対確率行列から、連続する塩基対領域を前記ステム候補として抽出することを特徴とする請求項 1に記載の RNA配列情報処理装置。

[12] 複数の RNA配列からコンピュータ処理によって 2次構造モチーフを抽出する RNA 配列情報処理方法であって、

複数の RNA配列データの各々から、 RNA2次構造の複数のステム候補を抽出し、各 RNA配列データ力抽出された前記複数のステム候補の各々を頂点として有し、頂点間を辺で結んだステムグラフを生成し、

前記複数の RNA配列からそれぞれ生成された複数の前記ステムグラフを分析して、グラフ形状が類似し、対応する頂点のステム候補が類似し、前記複数のステムダラフに頻出する部分グラフを、 RNA2次構造モチーフを表す頻出ステムパターンとして抽出する、

ことを特徴とする RNA配列情報処理方法。

複数の RNA配列から 2次構造モチーフを抽出する配列情報処理をコンピュータに実行させる RNA配列情報処理プログラムであって、

処理を前記コンピュータに実行させることを特徴とする RNA配列情報処理プロダラム„