JPWO2004079627A1

JPWO2004079627A1 - 遺伝子を同定するための作用要素の選択方法

Info

Publication number: JPWO2004079627A1
Application number: JP2005503157A
Authority: JP
Inventors: 仁藤宮
Original assignee: 株式会社ダイナコム
Priority date: 2003-03-07
Filing date: 2004-03-08
Publication date: 2006-06-08
Also published as: WO2004079627A1

Abstract

遺伝子を特定するための作用要素として機能するプローブを効率的に絞り込み、特定することができる方法を提供することを目的とする。この発明によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、（ａ）前記遺伝子に作用する複数の作用要素の情報を格納する工程と、（ｂ）前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、（ｃ）前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程とを有することを特徴とする方法が提供される。

Description

本発明は遺伝子を同定するための作用要素の組み合わせの選択に関する方法であり、特に、２以上の遺伝子に対して作用する異なる複数の作用要素の作用結果に基づいて各遺伝子の同定行う方法に関連するものである。

例えば、未知の遺伝子等の生体高分子を同定する技術として、対象となる遺伝子などの生体高分子を網羅的に載せたマイクロアレイや、メンブレンが広く利用されてきている。
ＤＮＡマイクロアレイでは、対象となる生物種からｃＤＮＡを集め、ガラス基板上にそれらを並べて貼り付ける。そして、検体から取り出した試料となるメッセンジャーＲＮＡやそれらをＰＣＲ技術で増幅したｃＤＮＡ産物を前記のマイクロアレイと反応させる。ここで、試料となるｍＲＮＡやｃＤＮＡ産物は、マイクロアレイ上の特定のＤＮＡと相補鎖を形成する。この相補鎖を形成した結果は、あらかじめ試料に標識しておいた蛍光色素などを励起して光学的に読み取るなどの方法で検出することができる（ＭａｒｋＳｃｈｅｎａ：ＤＮＡＭｉｃｒｏａｒｒａｙｓ，ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９９９）。
ところで、前記した従来の方法では、単に相補的な結合をしたかどうかによって遺伝子配列を１対１で同定している。このため、多数のＤＮＡをマイクロアレイ上にならべて作用させる必要がある。
また、このようなＤＮＡはキャプチャーと称されるが、研究者がこれらのキャプチャーとなる実際のサンプルを入手するのは、実在するＤＮＡ断片を細胞から入手したりする必要があり、時間、費用、技術の面でも困難である。そのため、最近では、既に配列情報が読み取られたゲノムの配列情報やＥＳＴと呼ばれるメッセンジャーＲＮＡのポリＡ配列端末の配列情報を同定した配列情報を用いて、数十塩基長程度のオリゴ塩基配列を決定し、それを化学合成しプローブとして基板上に載せる方法が使われているようになってきている。ここで、オリゴ核酸とは、比較的短い塩基配列（例えば、数十から約２００ベースペア）を有した核酸を称する。
設計したプローブは対象となる遺伝子や混在する核酸に対して希望の部分だけに作用するような、固有の配列（作用要素）である必要がある。そこで、この固有の配列を決定する事が重要となる。

本発明は、このような事情に鑑みてなされたものであり、作用要素として機能するプローブを効率的に絞り込み、特定することができる方法を提供することを目的とする。
また、この発明は、上記のように絞り込み、特定した作用要素としてのオリゴ核酸塩基配列を利用して遺伝子を同定するための方法を提供することを目的とする。
さらに、この発明は、上記方法を利用するシステム及びコンピュータソフトウエアプログラムを提供することを目的とする。
本発明の第１の側面によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、（ａ）前記遺伝子に作用する複数の作用要素の情報を格納する工程と、（ｂ）前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、（ｃ）前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程とを有することを特徴とする方法が提供される。ここで、作用要素は、例えば、複数の遺伝子と作用（２本鎖形成）する可能性のある比較的短いオリゴ核酸配列である。
ここで、前記（ｃ）工程は、（ｃ−１）前記遺伝子に対する各作用要素の作用結果中の任意の１又は２以上の各作用要素の作用結果の情報エントロピーを算出する工程と、（ｃ−２）上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する工程と、を有するものである。
また、前記（ｃ−２）工程は、（ｃ−２−１）最も情報エントロピーの高い作用要素を第１の候補として決定する工程と、（ｃ−２−２）順次第１〜ｎ−１（ｎ≧２）の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第ｎの候補として決定する工程と、（ｃ−２−３）前記ｎが所定の数に達するか、第１〜第ｎの作用要素の情報エントロピーが所定の値に達するまで前記（ｃ−２−２）の工程を繰り返す工程と、（ｃ−２−４）前記（ｃ−２−２）の工程で決定された第１〜第ｎの候補を、絞り込んた作用要素として出力する工程とを有するものであり、ここで、前記情報エントロピーＨは、

で求められるものであり、
ここで、Ａ１，Ａ２，Ａ３，…．．，ＡＮは複数の作用要素の組み合わせのパターン（Ｎ個の組み合わせパターン）、そして、ｐＡ１＋ｐＡ２＋…．．＋ｐＡＮ＝１、０≦ｐＡ１，ｐＡ２，…．，ｐＡＮ≦１である。
また、前記（ｃ−２−３）工程は、第１〜第ｎの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの８０％に達したらならば（ｃ−２−２）の工程を打ち切る。
このような構成によれば、例えば、マイクロアレイ上に載置する遺伝子断片として、検体に作用する範囲の広い作用要素たとえば比較的短いオリゴ核酸配列などを用い、それらと遺伝子との作用の有無を調べる。そして、それらの作用要素の識別能力を情報エントロピーで評価し、遺伝子の同定に好適な作用要素を絞り込むことができる。このことで、当該絞り込まれた作用要素のみを調べる、すなわちプローブとして用いることで、検査対象遺伝子を同定することが可能になる。
また、この発明の１の実施形態によれば、前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する工程とをさらに有することを特徴とする方法が提供される。
このような構成によれば、当該検査対象遺伝子配列にのみ固有の部分配列が見つからないような場合であっても、他の遺伝子配列とも作用するような部分配列を作用要素として２つ以上合理的に組み合わせることで当該遺伝子の同定が行える可能性がある。このような方法によれば、ＤＮＡチップの設計等や遺伝子の同定が効率的に行える。
この発明の第２の主要な側面によれば、予め用意された所定の数、種類の作用要素のうち、上記の方法により絞り込まれた作用要素のみを調べることで遺伝子の同定を行うことを特徴とする遺伝子の同定方法が提供される。
また、この発明の第３の主要な側面によれば、第１の主要な側面に記載の方法により絞り込まれた作用要素（オリゴ核酸配列）が搭載されてなるＤＮＡチップが提供される。
さらに、この発明の第４の主要な側面によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するためのコンピュータソフトウエアプログラムであって、記憶媒体に格納された以下の手順を含む：（ａ）コンピュータに、前記遺伝子に作用する複数の作用要素の情報を格納する手順と、（ｂ）コンピュータに、前記遺伝子に対する各作用要素の作用結果を受け付ける手順と、（ｃ）コンピュータに、前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込ませる手順、が提供される。
この発明の他の特徴及び効果は、以下の発明の最良の実施形態の項に記載された好ましい実施形態と図面とを参照することによって、当業者に容易に理解することができる。

図１は、本発明の一実施例を説明するための全体構成図。
図２は、本発明に入力するためのデータ構成を説明するための図。
図３は、本発明の一実施例にかかわる処理フローを説明する図。
図４は、第２の実施例にかかわる処理フローを説明する図。
図５は、２本鎖形成判別の手法を示す模式図。

以下、本発明の一実施形態について、添付した図面を参照して説明する。この一実施形態は、本発明の作用要素の例として、オリゴ核酸配列を例にとって説明する。すなわち、この一実施形態では、検査対象遺伝子から最適なオリゴ核酸配列の候補を効率的・効果的に設計し、精度の高いＤＮＡチップを得ることを目的とする。
図１は、この実施形態によるシステムを示す全体構成図である。
このシステムは、ＣＰＵ１、ＲＡＭ２、キーボードやマウス等の入力機器３、ディスプレイやプリンタ等の出力機器４、モデム５が接続されてなるバス７に、データ記憶部８とプログラム記憶部９が接続されてなる。
データ記憶部８には、この発明に関係する構成のみ挙げると、検査対象遺伝子ファイル１１と、参照専用塩基配列ファイル１５と、オリゴ核酸配列ファイル１２と、検査対象遺伝子と前記オリゴ核酸配列との２本鎖形成判別結果１３と、その判別結果に基づいて絞り込まれた最適オリゴ核酸配列候補１４とが格納されるようになっている。
検査対象遺伝子ファイル１１は、ユーザが収集した興味のある複数の遺伝子（核酸塩基配列）を含むデータである。前記参照専用塩基配列ファイル１５は、ｃＤＮＡ／ＥＳＴデータベース等の外部データベースから任意に追加・設定された参照専用の塩基配列である。これらの配列ファイル１１は、前記モデム５を介して接続した１又は２以上の特定の外部データベースからダウンロードしてなるデータであっても良い。
オリゴ核酸配列ファイル１２は、前記「作用要素」のファイルである。通常ＤＮＡに搭載される作用要素としてのオリゴ核酸配列は、ミスハイブリダイゼーションを有効に防止する目的で例えば５０〜１００塩基（最低数十塩基長、最長１００塩基長）の範囲の長さのものが設定される。しかし、この発明では、より広く作用する一般的な作用要素から最適の作用要素を絞り込むものであるから、後述するようにして、同時に複数の遺伝子と２本鎖を形成する可能性のあるオリゴ核酸配列が多数用意される。このようなオリゴ核酸配列の例を、以下の説明では「ＯＡ」、「ＯＢ」、「ＯＣ」、「ＯＢ」と記述した。
入力データとしての前記２本鎖形成判別結果１３は例えば図２に示すようなものである。横軸に前記オリゴ核酸配列、縦軸に前記検査対象遺伝子が採られ、それらの間での２本鎖形成結果がマトリックス状に表示されている。２本鎖を形成すると判別された場合は「１」、形成しないと判別された場合は「０」が入力されている。ただし、このデータは「１」、「０」の２値に限られる必要はない。たとえばひとつの遺伝子に対して同一のオリゴ核酸塩基配列が２箇所以上で２本鎖を形成する場合は、その蛍光強度が２倍や３倍といった強度となる。したがってそのままその倍数でこのマトリックスに入力する。その場合、「０」、「１」ではなく、「２」、「３」等の値を入力してもよい。また、これらのデータはカンマ区切りファイルやタブ区切りファイルとして供給されてもよい。
そして、前記オリゴ核酸配列候補１４は、前記オリゴ核酸配列ファイルから本実施形態による処理の結果絞り込まれた前記オリゴ核酸配列の最適な候補の組み合わせが格納される。
一方、プログラム記憶部９には、この発明に関係する構成のみ挙げると、大きく分けて、各１つの検査対象遺伝子と参照用遺伝子ファイルとの類似性を判別して検査対象遺伝子と前記オリゴ核酸配列との２本鎖形成判別結果を生成する２本鎖形成判別結果生成部２１と、この２本鎖形成判別結果をＲＡＭ上に読み込むためのデータ受取処理部１６と、検査対象遺伝子に対する各オリゴ核酸配列（作用要素）の情報エントロピーを算出するための情報エントロピー算出部１７と、求められた情報エントロピーの値に応じて最適オリゴ核酸配列を絞り込む最適オリゴ核酸配列候補決定部１８と、最適オリゴ核酸配列候補を表示するための出力表示部１９と、上記最適オリゴ核酸配列候補及び他の情報を用いて最終的なＤＮＡチップ搭載用のオリゴ核酸配列を決定するＤＮＡチップ設計部２０とを有する。
これらの構成要素８〜２１は実際には、ハードディスク等の記録媒体に確保された一定の領域若しくはその領域に格納されたコンピュータソフトウエアの１又は２以上のプログラム命令からなり、前記ＣＰＵ１によってＲＡＭ２上に呼び出されて適宜実行されることでこの発明の機能を奏するようになっている。以下、上記構成要素の詳しい構成及び機能を、このシステムにより実行される実際のオリゴ核酸塩基配列決定手順と共に説明する。
図３は、この手順を示すフローチャートである。この図中の各符号Ｓ１〜Ｓ９は、以下の説明中の各ステップＳ１〜Ｓ９に対応する。
まず、前記２本鎖形成判別結果生成部で、検査対象遺伝子と前記オリゴ核酸配列（ＯＡ，ＯＢ，ＯＣ，ＯＤ・・・・）との２本鎖形成判別結果が生成される。
このため、２本鎖形成判別結果生成部２１は、解析対象核酸塩基配列ファイル１２及び参照専用塩基配列ファイル１５から各核酸塩基配列情報を読み込み、各塩基配列間の類似性を評価する機能を有する。類似性は塩基に対応する文字列を単純比較することによって行う。ここで、適宜な配列を選択するのに塩基配列の正確な１対１の相違比較が要求されるため、遺伝子配列検索で頻繁に用いられる挿入欠失を加味したホモロジー検索は適していない。あくまでも挿入欠失を想定しないで配列比較を行うことが好ましい。そのためにギャップに対応していない検索手段が適している。
ＢＬＡＳＴ法を使用する場合には、ギャップ対応前のものを用いデータベースサイズに依存して変化する期待値Ｅ−ｖａｌｕｅをかなりゆるく設定（高く設定）し、小さな部分一致でも取出せるようにする。ここで、Ｅ−ｖａｌｕｅとは、特定のサイズのデータベースを検索したときに、実験対象の遺伝子の断片が見つかる期待値である。さらに、それらで見つかった断片のスコアを参照し、しきい値で与えたスコア以上のものを類似配列とする。ここで、スコアとは比較対象の一致度（一致する配列の長さ若しくは類似度）に対応する量である。
図５は、解析対象核酸塩基配列のうちの最初の１本（図２の遺伝子１）を取り出して示したものである。この図では、説明の便宜のため、１本の解析対象核酸塩基配列を折り返して複数行に亘って表示している。また、核酸の塩基情報Ａ、Ｃ、Ｇ、Ｔ（Ｕ）はすべて四角形で示されている。
上記２本鎖形成判別結果生成部２１は、上述したＢＬＡＳＴ法によるホモロジー検索により、参照専用塩基配列に部分一致したものを２本鎖形成部分として登録していく。この図５では黒で塗りつぶして表示した部分（図に３３で示す）が一致部分配列を示している。したがって、白抜きのままの部分（図に３４で示す）は２本鎖を形成しない部分配列と判断される。
なお、ＢＬＡＳＴ法を用いない場合でも、適切な配列幅を決めて、それを窓幅としながら、ずらして比較する文字列一致検索の手法も利用できる。
このような方法で、所望のしきい値以上で相互に一致する部分を検索し、ヒットした部分配列を図２のオリゴ核酸配列（ＯＡ、ＯＢ、ＯＣ、ＯＤ・・・）として区別して登録していく。これらは、すべて遺伝子１と２本鎖を形成するものであるから、２本鎖判別結果にはすべて「１」が入力されている。
次に、この２本鎖形成判別結果生成部２１は、次の遺伝子２についても上記と同様の処理を行って、参照用塩基核酸配列との一致性を判別するとともに前記遺伝子１から抽出したオリゴ核酸配列との一致性も判別する（判別順序は重複を避けるために逆でも良い）。図２では、遺伝子１から抽出されたオリゴ核酸配列ＯＢと一致する部分があるとして、２本鎖形成結果が「１」と入力されている。
そして、この２本鎖形成判別結果生成部２１は、すべての検査対象遺伝子について上記処理を行った後で、その比較によって得られた結果、すなわち、抽出されたオリゴ核酸配列を前記オリゴ核酸配列ファイルに格納し、図２の判別結果は２本鎖形成判別結果１３に格納する。
ついで、データ受取処理部１６が、検査対象遺伝子と前記オリゴ核酸配列との２本鎖形成判別結果がＲＡＭに読み込む。続いて、情報エントロピー算出部１７及び最適オリゴ核酸配列候補決定部１８が、ステップＳ１以下で、格納されたデータを取り出しながら作業要素としての各オリゴ塩基配列ごとの情報エントロピーを計算し、最適オリゴ核酸配列候補決定する。
この情報エントロピーは、値「０」と値「１」の頻度をそれぞれｐ，ｑ（０＜ｐｏｒｑ＜１でｐ＋ｑ＝１）とすると、次式で与えられる。

ここで、ｌｏｇ２（）は、２を底とする対数である。このようにして求められた情報エントロピーは、それぞれの値の頻度の拮抗の度合いを明確に表す数値となり、ここでは、この数値が最も高いオリゴ核酸配列をまず選択し、第１の候補とする（ステップＳ１）。
なお、前述したように上記値は「１」及び「０」の２値に限られるものではない。たとえば、ひとつの遺伝子に対して同一のオリゴＤＮＡが２箇所以上で２本鎖を形成する場合は、その蛍光強度が２倍や３倍といった強度となる。したがってそのままその倍数でこのマトリックスに入力されている。その場合、「０」、「１」、「２」及び「３」をそれぞれの数値ごとに集計し、頻度の逆数について２を底とする対数をそれぞれとり、加算することで多値の場合でも同様に情報エントロピーを算出することが可能である。
次に、ステップＳ２で求めた第１の候補と組み合わせた場合に情報エントロピーが最大となる第２の候補を選択していく（ステップＳ２〜Ｓ４）。
複数の作用要素を組み合わせた場合の情報エントロピーは、それぞれ複数のオリゴ核酸配列の２本鎖形成の有無をそのまま数字で比較し、それらのパターンで同じものの頻度がどれだけあるかを求めて同様に算出する。たとえば全てのデータが２値の場合は、各遺伝子に対してオリゴ核酸配列とオリゴ核酸配列がそれぞれ２本鎖を形成するかどうかの順列組み合わせ結果として以下のように、「０−０」「０−１」「１−０」「１−１」の４通りが得られる。それぞれに関して数を集計して頻度Ｐ００〜Ｐ１１を求めることで、情報エントロピーが求められる。
第１候補−第２候補頻度
０−０Ｐ００
０−１Ｐ０１
１−０Ｐ１０
１−１Ｐ１１
この場合の情報エントロピーは次式となる。

このようにして第１の候補との組合せで情報エントロビーが最大になるオリゴ核酸配列を決定し、これを第２の候補として選択する（ステップＳ２〜Ｓ７）。
この手法の利点は、ペアワイズのみでなく複数の組合せに適用できる点である。第２の候補が決定されたならば、次に３以上のオリゴ核酸配列を組み合わせ、前記ステップＳ２〜Ｓ７を繰り返すことで第３以下の候補を順次決定していく（ステップＳ８）。
３つ以上の組合せの場合、そのすべての組合せについて頻度を求める。すなわち、第３の候補を求める場合、ｐ０００、ｐ１００、ｐ０１０、ｐ００１、ｐ１０１、ｐ１１０、ｐ０１１、ｐ１１１の８個の組合せの情報エントロピーを次式の通り計算することができる。

前記ペアワイズで決定した第１、第２の候補に対して、残りの任意のオリゴ核酸配列を第３の候補として組合せながら上記の情報エントロピーを算出する。その結果から情報エントロピーの最も大きなものを、第３の候補として決定する。以下同様に第４以降の候補を追加することで、複数存在するオリゴ核酸配列（作用要素）の中から意味ある組合せを有効な順に決定していくことが可能である。さらに一般化して記載すると、各作用要素の組み合わせのパターンがＮ種類存在し、それぞれがＡ１，Ａ２，Ａ３，…．．，ＡＮであるとする。また、それぞれのパターンの頻度がｐＡ１、ｐＡ２，…．，ｐＡＮとする。ここで、ｐＡ１＋ｐＡ２＋…．．＋ｐＡＮ＝１、０≦ｐＡ１，ｐＡ２，…．，ｐＡＮ≦１である。これらを用いた場合、情報エントロピーＨは、次式となる。

このオリゴ核酸配列の抽出は、例えば、抽出したオリゴ核酸配列の数が指定された数若しくは全体の個数に対する所定の割合になるまで繰り返される（ステップＳ８）。この数は、ユーザが指定したものを用いるようにしても良いし、ユーザ指定しない場合には、システム側が所定のしきい値を利用して決定するようにしても良い。この例では、データ群に含まれる遺伝子座位数がＮの場合、抽出した配列の数が√Ｎに達するまで繰り返される。そして、このようにして決定した第１〜第ｎのオリゴ核酸配列を、前記最適オリゴ核酸配列の候補として出力し表示する（ステップＳ９）
なお、候補抽出の打ち切りは、上記のトリガーに限定されるものではなく、例えば、作用要素全部を利用した場合の全体情報エントロピーの８０％になった場合にその組み合わせ数で打ち切るようにしてもよい。また、はじめから１０個の作用要素で打ち切るようにしてもよい。
なお、前記全体情報エントロピーは、遺伝子がどれだけ分類できるか、を意味する値である。すなわち図２において、全ての列ベクトルを比較し、それぞれの列ベクトルの頻度を求め、その頻度から同様に全体の情報エントロピーを求めるようにすれば簡単に求めることができる。
このようにして打ち切り条件を満足した作用要素の組み合わせが得られたら、それらの結果をステップＳ９において画面表示する。このように本実施例では、最終的に絞り込まれた好適なオリゴ核酸配列のグループによれば、そのオリゴ核酸のグループにより検査対象遺伝子を特定できる。特定できないとしても、絞り込まれたそれぞれのオリゴ核酸配列の識別能力で与えられる分割数まで分析対象の遺伝子を分類していくことが可能となる。
このような構成によれば、以下のような効果を得ることができる。
まず、この方法によれば、ＤＮＡチップを設計するための最適のオリゴ核酸配列を求める場合に、その計算時間と手間を激的に減少させることが可能になる。
すなわち、この方法によれば、通常よりも２本鎖結合の可能性が高い短いオリゴ核酸配列（部分配列）を合理的に２以上組み合わせる手法によって遺伝子の同定が行える。すなわち、全ての解析対象配列間と参照配列との類似性を見て各配列のみ固有・非固有の部分を特定してオリゴ核酸配列を決定する場合では、完全に他にない特異的な配列部分を用いるプローブ設計しかできないため、最適なオリゴ核酸配列を決定するのに非常に時間がかかる場合がある。これに対して、この実施形態の方法では、情報エントロピーを用いて準最適な解を求める方法により最適なオリゴ核酸配列を決定することができるので、その処理時間を効果的に短縮することができる。
例えば、遺伝子座位の数にもよるが、１００本の遺伝子を解析するためのオリゴ核酸配列の決定に１週間程かかっていたものを、ｍｓｅｃオーダにまでその時間を短縮することができる効果がある。
そして、この発明の方法によれば、前記で絞り込まれたオリゴ核酸配列を用いてＤＮＡチップの設計が行える。なお、この発明の手法は、単独でＤＮＡチップの設計に用いることも可能であるが、他のオリゴ核酸配列決定方法と組み合わせて用いることも可能である。その場合には、前記ＤＮＡチップ設計部がその組み合わせを実行する。例えば、本件発明者ら先に出願中の特願２００２−１７３４６７号明細書（本発明に一体化するものとする）に記載された方法との組み合わせにより、精度と設計時間とを合理的に超さわせたＤＮＡチップの設計が行える。
なお、この発明は、ＤＮＡチップの設計に限定されるものではない。それぞれの固有の配列を求めた部位において遺伝子増幅（ＰＣＲ）により、その産物の有無から同様の同定を行うことができる。また、制限酵素などの認識部位が含まれるように選択することで、制限酵素の作用の有無による情報エントロピーを求めながら該当する部位を設計することも可能である。
また、この発明の方法によれば、検査対象遺伝子の種類によらず、常に一定のセットのオリゴ核酸配列との作用結果を入力し、この作用結果に基づいて、実際の評価に使用するオリゴ核酸配列を絞り込むようにすることもできる。この場合、解析対象配列と参照配列との類似を見て最初から適切なオリゴ核酸配列を決定していく場合に比べて非常に簡便である。
この場合、この発明の方法によれば、遺伝子にかかわらず固定の作用要素を作用させるだけであるため、試薬の管理がしやすい。また、必ず手持ちの試薬をセットで用いるために、試薬の使用量にばらつきがないなどの長所を持つ。
次にこの発明の第２の実施形態について説明する。
この実施形態においては、全体固定の作用要素を使用するのではなく、ひとつの作用要素を適用した結果によって、次にテストすべき作用要素を個別に変えながらデシジョンツリー方式で決定していく方法である。なお、以下では、オリゴ核酸配列の用語を使わず、「作用要素」の用語を使って説明を行うこととする。
まず、ステップＳ１０において各作用要素の情報エントロピーを算出し、最大のものを選択する。次にステップＳ１０で決定された作用要素によって「作用あり」の枝と、「作用なし」の枝に属するようにデータを分割する（ステップＳ１１）。さらにステップＳ１１において分割されたそれぞれのブロックに関して、自分のツリーの上位において使われていない作用要素を順にひとつずつ取り出し、上位の枝で使用している作用要素と組み合わせて使用した場合に最大の情報エントロピーとなる作用要素をひとつ選択する（ステップＳ１２）。ほかのブロックに関しても同様に最大エントロピーとなる作用要素をそれぞれの枝となるブロックで決定する。
各枝に関して最大エントロピーとなる新しい作用要素が決まったので、その作用結果に基づき、「作用あり」と「作用なし」に分割する（ステップＳ１３）。ここで情報エントロピーの打ち切り閾値（例えば√Ｎ）に到達したかどうかを判定する（ステップＳ１４）。打ち切りでなければさらに各ブロックに分割して次段の作用要素を選んで最大の情報エントロピーのものを探す。さらに最後それ以上分割できなくなるまで繰り返す。最後に得られた検査ツリーを、ステップＳ１５において結果表示を行う。
この第２の実施例では、デシジョンツリー式に作用要素を決定しており、平均的な段数が少なく、好適なテスト方法を決定できる。しかし、前段の結果を待たなければ次のテストが決まらない点で、試薬の使用量なども予測しにくい欠点がある。また、準備すべき試薬の数が第１の実施例よりも多くなる欠点がある。
このように本実施例によれば、遺伝子と各作用要素間の相互作用のマトリクスがあれば、作用要素間では非直交関係ではあるが、その段階ごとに最大の情報エントロピーを持つ作用要素を選択しながら逐次的に求めることにより、好適な遺伝子同定手順を決定することが可能である。
なお、本実施例では、遺伝子としてマイクロアレイに使用するオリゴ核酸配列を想定して説明してきたが、例えばたんぱく質などの高分子のアレイであって、作用要素は高分子の化合物や、抗原抗体反応を起こすようなたんぱく質であってもまったく同様に解析可能である。また、リピート回数などの多型を対象にする場合であっても、作用要素として多値になるような繰り返しにマッチしたオリゴ核酸塩基配列を用いることで、発光強度を多値として計測することにより、まったく同様に適用することができる。
以上、説明したように本発明の遺伝子同定方法では多数の作用要素の情報エントロピーを算出し、それらの中から順に大きな情報エントロピーを持つものを選択し、さらに残りの組み合わせの中から最大の組み合わせとなるものを逐次的に決定する方法をとる。このように遺伝子を同定する作用要素を決定することで、好適な作用要素の組み合わせを効率よく絞り込むことができるという優れた効果を持つ。また、作用要素部位として、その固有配列情報が選択されることから、この部位を用いて対象遺伝子を同定するための目的にも使用できることは明らかである。

Claims

コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、
（ａ）前記遺伝子に作用する複数の作用要素の情報を格納する工程と、
（ｂ）前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、
（ｃ）前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程と
を有することを特徴とする方法。
請求項１記載の方法において、
前記（ｃ）工程は、
（ｃ−１）前記遺伝子に対する各作用要素の作用結果中の任意の１又は２以上の各作用要素の作用結果の情報エントロピーを算出する工程と、
（ｃ−２）上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する工程と、
を有することを特徴とする方法。
請求項２記載の方法において、
前記（ｃ−２）工程は、
（ｃ−２−１）最も情報エントロピーの高い作用要素を第１の候補として決定する工程と、
（ｃ−２−２）順次第１〜ｎ−１（ｎ≧２）の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第ｎの候補として決定する工程と、
（ｃ−２−３）前記ｎが所定の数に達するか、第１〜第ｎの作用要素の情報エントロピーが所定の値に達するまで前記（ｃ−２−２）の工程を繰り返す工程と、
（ｃ−２−４）前記（ｃ−２−２）の工程で決定された第１〜第ｎの候補を、絞り込んだ作用要素として出力する工程と
を有するものであり、
ここで、前記情報エントロピーＨは、

で求められるものであり、
ここで、Ａ１，Ａ２，Ａ３，…．．，ＡＮは複数の作用要素の組み合わせのパターン（Ｎ個の組み合わせパターン）、そして、ｐＡ１＋ｐＡ２＋…．．＋ｐＡＮ＝１、０≦ｐＡ１，ｐＡ２，…．，ｐＡＮ≦１である
ことを特徴する方法。
請求項３記載の方法において、
前記（ｃ−２−３）工程は、第１〜第ｎの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの８０％に達したらならば（ｃ−２−２）の工程を打ち切るものであることを特徴とする方法。
請求項１記載の方法において、
前記作用要素は、前記遺伝子に関わらず予め用意された所定の種類の複数の作用要素であり、各作用要素は２以上の遺伝子と作用する可能性のあるものであることを特徴とする方法。
請求項５記載の方法において、
前記作用要素は、複数のオリゴ核酸配列であり、
各オリゴ核酸配列は、２以上の遺伝子と２本鎖を形成する可能性のあるものであることを特徴とする方法。
請求項５で用意された所定の数、種類の作用要素のうち、請求項１に記載の方法により絞り込まれた作用要素を調べることで遺伝子の同定を行うことを特徴とする遺伝子の同定方法。
請求項５で用意された所定の数、種類の作用要素のうち、請求項１に記載の方法により絞り込まれた作用要素が搭載されてなるＤＮＡチップ。
請求項１記載の方法において、
前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する工程と、
をさらに有することを特徴とする方法。
コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するためのコンピュータソフトウエアプログラムであって、記憶媒体に格納された以下の手順を含む：
（ａ）コンピュータに、前記遺伝子に作用する複数の作用要素の情報を格納する手順と、
（ｂ）コンピュータに、前記遺伝子に対する各作用要素の作用結果を受け付ける手順と、
（ｃ）コンピュータに、前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込ませる手順。
請求項１０記載のコンピュータソフトウエアプログラムにおいて、
前記（ｃ）手順は、
（ｃ−１）前記遺伝子に対する各作用要素の作用結果中の任意の１又は２以上の各作用要素の作用結果の情報エントロピーを算出する手順と、
（ｃ−２）上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する手順と、
を有することを特徴とするコンピュータソフトウエアプログラム。
請求項１１記載のコンピュータソフトウエアプログラムにおいて、
前記（ｃ−２）手順は、
（ｃ−２−１）最も情報エントロピーの高い作用要素を第１の候補として決定する手順と、
（ｃ−２−２）順次第１〜ｎ−１（ｎ≧２）の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第ｎの候補として決定する手順と、
（ｃ−２−３）前記ｎが所定の数に達するか、第１〜第ｎの作用要素の情報エントロピーが所定の値に達するまで前記（ｃ−２−２）の手順を繰り返す手順と、
（ｃ−２−４）前記（ｃ−２−２）の手順で決定された第１〜第ｎの候補を、絞り込んだ作用要素として出力する手順と
を有するものであり、
ここで、前記情報エントロピーＨは、

で求められるものであり、
ここで、Ａ１，Ａ２，Ａ３，…．．，ＡＮは複数の作用要素の組み合わせのパターン（Ｎ個の組み合わせパターン）、そして、ｐＡ１＋ｐＡ２＋…．．＋ｐＡＮ＝１、０≦ｐＡ１，ｐＡ２，…．，ｐＡＮ≦１である
ことを特徴する方法。
請求項１２記載のコンピュータソフトウエアプログラムにおいて、
前記（ｃ−２−３）手順は、第１〜第ｎの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの８０％に達したらならば（ｃ−２−２）の手順を打ち切るものであることを特徴とするコンピュータソフトウエアプログラム。
請求項１０記載のコンピュータソフトウエアプログラムにおいて、
前記作用要素は、前記遺伝子に関わらず予め用意された所定の種類の複数の作用要素であり、各作用要素は２以上の遺伝子と作用する可能性のあるものであることを特徴とするコンピュータソフトウエアプログラム。
請求項１４記載のコンピュータソフトウエアプログラムにおいて、
前記作用要素は、複数のオリゴ核酸配列であり、
各オリゴ核酸配列は、２以上の遺伝子と２本鎖を形成する可能性のあるものであることを特徴とするコンピュータソフトウエアプログラム。
請求項１０記載のコンピュータソフトウエアプログラムにおいて、
前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する手順と、
をさらに有することを特徴とするコンピュータソフトウエアプログラム