JPWO2004079627A1 - 遺伝子を同定するための作用要素の選択方法 - Google Patents
遺伝子を同定するための作用要素の選択方法 Download PDFInfo
- Publication number
- JPWO2004079627A1 JPWO2004079627A1 JP2005503157A JP2005503157A JPWO2004079627A1 JP WO2004079627 A1 JPWO2004079627 A1 JP WO2004079627A1 JP 2005503157 A JP2005503157 A JP 2005503157A JP 2005503157 A JP2005503157 A JP 2005503157A JP WO2004079627 A1 JPWO2004079627 A1 JP WO2004079627A1
- Authority
- JP
- Japan
- Prior art keywords
- action
- gene
- information entropy
- elements
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
遺伝子を特定するための作用要素として機能するプローブを効率的に絞り込み、特定することができる方法を提供することを目的とする。この発明によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、(a)前記遺伝子に作用する複数の作用要素の情報を格納する工程と、(b)前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、(c)前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程と を有することを特徴とする方法が提供される。
Description
本発明は遺伝子を同定するための作用要素の組み合わせの選択に関する方法であり、特に、2以上の遺伝子に対して作用する異なる複数の作用要素の作用結果に基づいて各遺伝子の同定行う方法に関連するものである。
例えば、未知の遺伝子等の生体高分子を同定する技術として、対象となる遺伝子などの生体高分子を網羅的に載せたマイクロアレイや、メンブレンが広く利用されてきている。
DNAマイクロアレイでは、対象となる生物種からcDNAを集め、ガラス基板上にそれらを並べて貼り付ける。そして、検体から取り出した試料となるメッセンジャーRNAやそれらをPCR技術で増幅したcDNA産物を前記のマイクロアレイと反応させる。ここで、試料となるmRNAやcDNA産物は、マイクロアレイ上の特定のDNAと相補鎖を形成する。この相補鎖を形成した結果は、あらかじめ試料に標識しておいた蛍光色素などを励起して光学的に読み取るなどの方法で検出することができる(Mark Schena: DNA Microarrays, Oxford University Press, 1999)。
ところで、前記した従来の方法では、単に相補的な結合をしたかどうかによって遺伝子配列を1対1で同定している。このため、多数のDNAをマイクロアレイ上にならべて作用させる必要がある。
また、このようなDNAはキャプチャーと称されるが、研究者がこれらのキャプチャーとなる実際のサンプルを入手するのは、実在するDNA断片を細胞から入手したりする必要があり、時間、費用、技術の面でも困難である。そのため、最近では、既に配列情報が読み取られたゲノムの配列情報やESTと呼ばれるメッセンジャーRNAのポリA配列端末の配列情報を同定した配列情報を用いて、数十塩基長程度のオリゴ塩基配列を決定し、それを化学合成しプローブとして基板上に載せる方法が使われているようになってきている。ここで、オリゴ核酸とは、比較的短い塩基配列(例えば、数十から約200ベースペア)を有した核酸を称する。
設計したプローブは対象となる遺伝子や混在する核酸に対して希望の部分だけに作用するような、固有の配列(作用要素)である必要がある。そこで、この固有の配列を決定する事が重要となる。
DNAマイクロアレイでは、対象となる生物種からcDNAを集め、ガラス基板上にそれらを並べて貼り付ける。そして、検体から取り出した試料となるメッセンジャーRNAやそれらをPCR技術で増幅したcDNA産物を前記のマイクロアレイと反応させる。ここで、試料となるmRNAやcDNA産物は、マイクロアレイ上の特定のDNAと相補鎖を形成する。この相補鎖を形成した結果は、あらかじめ試料に標識しておいた蛍光色素などを励起して光学的に読み取るなどの方法で検出することができる(Mark Schena: DNA Microarrays, Oxford University Press, 1999)。
ところで、前記した従来の方法では、単に相補的な結合をしたかどうかによって遺伝子配列を1対1で同定している。このため、多数のDNAをマイクロアレイ上にならべて作用させる必要がある。
また、このようなDNAはキャプチャーと称されるが、研究者がこれらのキャプチャーとなる実際のサンプルを入手するのは、実在するDNA断片を細胞から入手したりする必要があり、時間、費用、技術の面でも困難である。そのため、最近では、既に配列情報が読み取られたゲノムの配列情報やESTと呼ばれるメッセンジャーRNAのポリA配列端末の配列情報を同定した配列情報を用いて、数十塩基長程度のオリゴ塩基配列を決定し、それを化学合成しプローブとして基板上に載せる方法が使われているようになってきている。ここで、オリゴ核酸とは、比較的短い塩基配列(例えば、数十から約200ベースペア)を有した核酸を称する。
設計したプローブは対象となる遺伝子や混在する核酸に対して希望の部分だけに作用するような、固有の配列(作用要素)である必要がある。そこで、この固有の配列を決定する事が重要となる。
本発明は、このような事情に鑑みてなされたものであり、作用要素として機能するプローブを効率的に絞り込み、特定することができる方法を提供することを目的とする。
また、この発明は、上記のように絞り込み、特定した作用要素としてのオリゴ核酸塩基配列を利用して遺伝子を同定するための方法を提供することを目的とする。
さらに、この発明は、上記方法を利用するシステム及びコンピュータソフトウエアプログラムを提供することを目的とする。
本発明の第1の側面によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、(a)前記遺伝子に作用する複数の作用要素の情報を格納する工程と、(b)前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、(c)前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程とを有することを特徴とする方法が提供される。ここで、作用要素は、例えば、複数の遺伝子と作用(2本鎖形成)する可能性のある比較的短いオリゴ核酸配列である。
ここで、前記(c)工程は、(c−1)前記遺伝子に対する各作用要素の作用結果中の任意の1又は2以上の各作用要素の作用結果の情報エントロピーを算出する工程と、(c−2)上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する工程と、を有するものである。
また、前記(c−2)工程は、(c−2−1)最も情報エントロピーの高い作用要素を第1の候補として決定する工程と、(c−2−2)順次第1〜n−1(n≧2)の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第nの候補として決定する工程と、(c−2−3)前記nが所定の数に達するか、第1〜第nの作用要素の情報エントロピーが所定の値に達するまで前記(c−2−2)の工程を繰り返す工程と、(c−2−4)前記(c−2−2)の工程で決定された第1〜第nの候補を、絞り込んた作用要素として出力する工程とを有するものであり、ここで、前記情報エントロピーHは、
で求められるものであり、
ここで、A1,A2,A3,…..,ANは複数の作用要素の組み合わせのパターン(N個の組み合わせパターン)、そして、pA1+pA2+…..+pAN=1、0≦pA1,pA2,….,pAN≦1である。
また、前記(c−2−3)工程は、第1〜第nの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの80%に達したらならば(c−2−2)の工程を打ち切る。
このような構成によれば、例えば、マイクロアレイ上に載置する遺伝子断片として、検体に作用する範囲の広い作用要素たとえば比較的短いオリゴ核酸配列などを用い、それらと遺伝子との作用の有無を調べる。そして、それらの作用要素の識別能力を情報エントロピーで評価し、遺伝子の同定に好適な作用要素を絞り込むことができる。このことで、当該絞り込まれた作用要素のみを調べる、すなわちプローブとして用いることで、検査対象遺伝子を同定することが可能になる。
また、この発明の1の実施形態によれば、前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する工程とをさらに有することを特徴とする方法が提供される。
このような構成によれば、当該検査対象遺伝子配列にのみ固有の部分配列が見つからないような場合であっても、他の遺伝子配列とも作用するような部分配列を作用要素として2つ以上合理的に組み合わせることで当該遺伝子の同定が行える可能性がある。このような方法によれば、DNAチップの設計等や遺伝子の同定が効率的に行える。
この発明の第2の主要な側面によれば、予め用意された所定の数、種類の作用要素のうち、上記の方法により絞り込まれた作用要素のみを調べることで遺伝子の同定を行うことを特徴とする遺伝子の同定方法が提供される。
また、この発明の第3の主要な側面によれば、第1の主要な側面に記載の方法により絞り込まれた作用要素(オリゴ核酸配列)が搭載されてなるDNAチップが提供される。
さらに、この発明の第4の主要な側面によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するためのコンピュータソフトウエアプログラムであって、記憶媒体に格納された以下の手順を含む:(a)コンピュータに、前記遺伝子に作用する複数の作用要素の情報を格納する手順と、(b)コンピュータに、前記遺伝子に対する各作用要素の作用結果を受け付ける手順と、(c)コンピュータに、前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込ませる手順、が提供される。
この発明の他の特徴及び効果は、以下の発明の最良の実施形態の項に記載された好ましい実施形態と図面とを参照することによって、当業者に容易に理解することができる。
また、この発明は、上記のように絞り込み、特定した作用要素としてのオリゴ核酸塩基配列を利用して遺伝子を同定するための方法を提供することを目的とする。
さらに、この発明は、上記方法を利用するシステム及びコンピュータソフトウエアプログラムを提供することを目的とする。
本発明の第1の側面によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、(a)前記遺伝子に作用する複数の作用要素の情報を格納する工程と、(b)前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、(c)前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程とを有することを特徴とする方法が提供される。ここで、作用要素は、例えば、複数の遺伝子と作用(2本鎖形成)する可能性のある比較的短いオリゴ核酸配列である。
ここで、前記(c)工程は、(c−1)前記遺伝子に対する各作用要素の作用結果中の任意の1又は2以上の各作用要素の作用結果の情報エントロピーを算出する工程と、(c−2)上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する工程と、を有するものである。
また、前記(c−2)工程は、(c−2−1)最も情報エントロピーの高い作用要素を第1の候補として決定する工程と、(c−2−2)順次第1〜n−1(n≧2)の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第nの候補として決定する工程と、(c−2−3)前記nが所定の数に達するか、第1〜第nの作用要素の情報エントロピーが所定の値に達するまで前記(c−2−2)の工程を繰り返す工程と、(c−2−4)前記(c−2−2)の工程で決定された第1〜第nの候補を、絞り込んた作用要素として出力する工程とを有するものであり、ここで、前記情報エントロピーHは、
で求められるものであり、
ここで、A1,A2,A3,…..,ANは複数の作用要素の組み合わせのパターン(N個の組み合わせパターン)、そして、pA1+pA2+…..+pAN=1、0≦pA1,pA2,….,pAN≦1である。
また、前記(c−2−3)工程は、第1〜第nの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの80%に達したらならば(c−2−2)の工程を打ち切る。
このような構成によれば、例えば、マイクロアレイ上に載置する遺伝子断片として、検体に作用する範囲の広い作用要素たとえば比較的短いオリゴ核酸配列などを用い、それらと遺伝子との作用の有無を調べる。そして、それらの作用要素の識別能力を情報エントロピーで評価し、遺伝子の同定に好適な作用要素を絞り込むことができる。このことで、当該絞り込まれた作用要素のみを調べる、すなわちプローブとして用いることで、検査対象遺伝子を同定することが可能になる。
また、この発明の1の実施形態によれば、前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する工程とをさらに有することを特徴とする方法が提供される。
このような構成によれば、当該検査対象遺伝子配列にのみ固有の部分配列が見つからないような場合であっても、他の遺伝子配列とも作用するような部分配列を作用要素として2つ以上合理的に組み合わせることで当該遺伝子の同定が行える可能性がある。このような方法によれば、DNAチップの設計等や遺伝子の同定が効率的に行える。
この発明の第2の主要な側面によれば、予め用意された所定の数、種類の作用要素のうち、上記の方法により絞り込まれた作用要素のみを調べることで遺伝子の同定を行うことを特徴とする遺伝子の同定方法が提供される。
また、この発明の第3の主要な側面によれば、第1の主要な側面に記載の方法により絞り込まれた作用要素(オリゴ核酸配列)が搭載されてなるDNAチップが提供される。
さらに、この発明の第4の主要な側面によれば、コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するためのコンピュータソフトウエアプログラムであって、記憶媒体に格納された以下の手順を含む:(a)コンピュータに、前記遺伝子に作用する複数の作用要素の情報を格納する手順と、(b)コンピュータに、前記遺伝子に対する各作用要素の作用結果を受け付ける手順と、(c)コンピュータに、前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込ませる手順、が提供される。
この発明の他の特徴及び効果は、以下の発明の最良の実施形態の項に記載された好ましい実施形態と図面とを参照することによって、当業者に容易に理解することができる。
図1は、本発明の一実施例を説明するための全体構成図。
図2は、本発明に入力するためのデータ構成を説明するための図。
図3は、本発明の一実施例にかかわる処理フローを説明する図。
図4は、第2の実施例にかかわる処理フローを説明する図。
図5は、2本鎖形成判別の手法を示す模式図。
図2は、本発明に入力するためのデータ構成を説明するための図。
図3は、本発明の一実施例にかかわる処理フローを説明する図。
図4は、第2の実施例にかかわる処理フローを説明する図。
図5は、2本鎖形成判別の手法を示す模式図。
以下、本発明の一実施形態について、添付した図面を参照して説明する。この一実施形態は、本発明の作用要素の例として、オリゴ核酸配列を例にとって説明する。すなわち、この一実施形態では、検査対象遺伝子から最適なオリゴ核酸配列の候補を効率的・効果的に設計し、精度の高いDNAチップを得ることを目的とする。
図1は、この実施形態によるシステムを示す全体構成図である。
このシステムは、CPU1、RAM2、キーボードやマウス等の入力機器3、ディスプレイやプリンタ等の出力機器4、モデム5が接続されてなるバス7に、データ記憶部8とプログラム記憶部9が接続されてなる。
データ記憶部8には、この発明に関係する構成のみ挙げると、検査対象遺伝子ファイル11と、参照専用塩基配列ファイル15と、オリゴ核酸配列ファイル12と、検査対象遺伝子と前記オリゴ核酸配列との2本鎖形成判別結果13と、その判別結果に基づいて絞り込まれた最適オリゴ核酸配列候補14とが格納されるようになっている。
検査対象遺伝子ファイル11は、ユーザが収集した興味のある複数の遺伝子(核酸塩基配列)を含むデータである。前記参照専用塩基配列ファイル15は、cDNA/ESTデータベース等の外部データベースから任意に追加・設定された参照専用の塩基配列である。これらの配列ファイル11は、前記モデム5を介して接続した1又は2以上の特定の外部データベースからダウンロードしてなるデータであっても良い。
オリゴ核酸配列ファイル12は、前記「作用要素」のファイルである。通常DNAに搭載される作用要素としてのオリゴ核酸配列は、ミスハイブリダイゼーションを有効に防止する目的で例えば50〜100塩基(最低数十塩基長、最長100塩基長)の範囲の長さのものが設定される。しかし、この発明では、より広く作用する一般的な作用要素から最適の作用要素を絞り込むものであるから、後述するようにして、同時に複数の遺伝子と2本鎖を形成する可能性のあるオリゴ核酸配列が多数用意される。このようなオリゴ核酸配列の例を、以下の説明では「OA」、「OB」、「OC」、「OB」と記述した。
入力データとしての前記2本鎖形成判別結果13は例えば図2に示すようなものである。横軸に前記オリゴ核酸配列、縦軸に前記検査対象遺伝子が採られ、それらの間での2本鎖形成結果がマトリックス状に表示されている。2本鎖を形成すると判別された場合は「1」、形成しないと判別された場合は「0」が入力されている。ただし、このデータは「1」、「0」の2値に限られる必要はない。たとえばひとつの遺伝子に対して同一のオリゴ核酸塩基配列が2箇所以上で2本鎖を形成する場合は、その蛍光強度が2倍や3倍といった強度となる。したがってそのままその倍数でこのマトリックスに入力する。その場合、「0」、「1」ではなく、「2」、「3」等の値を入力してもよい。また、これらのデータはカンマ区切りファイルやタブ区切りファイルとして供給されてもよい。
そして、前記オリゴ核酸配列候補14は、前記オリゴ核酸配列ファイルから本実施形態による処理の結果絞り込まれた前記オリゴ核酸配列の最適な候補の組み合わせが格納される。
一方、プログラム記憶部9には、この発明に関係する構成のみ挙げると、大きく分けて、各1つの検査対象遺伝子と参照用遺伝子ファイルとの類似性を判別して検査対象遺伝子と前記オリゴ核酸配列との2本鎖形成判別結果を生成する2本鎖形成判別結果生成部21と、この2本鎖形成判別結果をRAM上に読み込むためのデータ受取処理部16と、検査対象遺伝子に対する各オリゴ核酸配列(作用要素)の情報エントロピーを算出するための情報エントロピー算出部17と、求められた情報エントロピーの値に応じて最適オリゴ核酸配列を絞り込む最適オリゴ核酸配列候補決定部18と、最適オリゴ核酸配列候補を表示するための出力表示部19と、上記最適オリゴ核酸配列候補及び他の情報を用いて最終的なDNAチップ搭載用のオリゴ核酸配列を決定するDNAチップ設計部20とを有する。
これらの構成要素8〜21は実際には、ハードディスク等の記録媒体に確保された一定の領域若しくはその領域に格納されたコンピュータソフトウエアの1又は2以上のプログラム命令からなり、前記CPU1によってRAM2上に呼び出されて適宜実行されることでこの発明の機能を奏するようになっている。以下、上記構成要素の詳しい構成及び機能を、このシステムにより実行される実際のオリゴ核酸塩基配列決定手順と共に説明する。
図3は、この手順を示すフローチャートである。この図中の各符号S1〜S9は、以下の説明中の各ステップS1〜S9に対応する。
まず、前記2本鎖形成判別結果生成部で、検査対象遺伝子と前記オリゴ核酸配列(OA,OB,OC,OD・・・・)との2本鎖形成判別結果が生成される。
このため、2本鎖形成判別結果生成部21は、解析対象核酸塩基配列ファイル12及び参照専用塩基配列ファイル15から各核酸塩基配列情報を読み込み、各塩基配列間の類似性を評価する機能を有する。類似性は塩基に対応する文字列を単純比較することによって行う。ここで、適宜な配列を選択するのに塩基配列の正確な1対1の相違比較が要求されるため、遺伝子配列検索で頻繁に用いられる挿入欠失を加味したホモロジー検索は適していない。あくまでも挿入欠失を想定しないで配列比較を行うことが好ましい。そのためにギャップに対応していない検索手段が適している。
BLAST法を使用する場合には、ギャップ対応前のものを用いデータベースサイズに依存して変化する期待値E−valueをかなりゆるく設定(高く設定)し、小さな部分一致でも取出せるようにする。ここで、E−valueとは、特定のサイズのデータベースを検索したときに、実験対象の遺伝子の断片が見つかる期待値である。さらに、それらで見つかった断片のスコアを参照し、しきい値で与えたスコア以上のものを類似配列とする。ここで、スコアとは比較対象の一致度(一致する配列の長さ若しくは類似度)に対応する量である。
図5は、解析対象核酸塩基配列のうちの最初の1本(図2の遺伝子1)を取り出して示したものである。この図では、説明の便宜のため、1本の解析対象核酸塩基配列を折り返して複数行に亘って表示している。また、核酸の塩基情報A、C、G、T(U)はすべて四角形で示されている。
上記2本鎖形成判別結果生成部21は、上述したBLAST法によるホモロジー検索により、参照専用塩基配列に部分一致したものを2本鎖形成部分として登録していく。この図5では黒で塗りつぶして表示した部分(図に33で示す)が一致部分配列を示している。したがって、白抜きのままの部分(図に34で示す)は2本鎖を形成しない部分配列と判断される。
なお、BLAST法を用いない場合でも、適切な配列幅を決めて、それを窓幅としながら、ずらして比較する文字列一致検索の手法も利用できる。
このような方法で、所望のしきい値以上で相互に一致する部分を検索し、ヒットした部分配列を図2のオリゴ核酸配列(OA、OB、OC、OD・・・)として区別して登録していく。これらは、すべて遺伝子1と2本鎖を形成するものであるから、2本鎖判別結果にはすべて「1」が入力されている。
次に、この2本鎖形成判別結果生成部21は、次の遺伝子2についても上記と同様の処理を行って、参照用塩基核酸配列との一致性を判別するとともに前記遺伝子1から抽出したオリゴ核酸配列との一致性も判別する(判別順序は重複を避けるために逆でも良い)。図2では、遺伝子1から抽出されたオリゴ核酸配列OBと一致する部分があるとして、2本鎖形成結果が「1」と入力されている。
そして、この2本鎖形成判別結果生成部21は、すべての検査対象遺伝子について上記処理を行った後で、その比較によって得られた結果、すなわち、抽出されたオリゴ核酸配列を前記オリゴ核酸配列ファイルに格納し、図2の判別結果は2本鎖形成判別結果13に格納する。
ついで、データ受取処理部16が、検査対象遺伝子と前記オリゴ核酸配列との2本鎖形成判別結果がRAMに読み込む。続いて、情報エントロピー算出部17及び最適オリゴ核酸配列候補決定部18が、ステップS1以下で、格納されたデータを取り出しながら作業要素としての各オリゴ塩基配列ごとの情報エントロピーを計算し、最適オリゴ核酸配列候補決定する。
この情報エントロピーは、値「0」と値「1」の頻度をそれぞれp,q(0<p or q<1でp+q=1)とすると、次式で与えられる。
ここで、log2()は、2を底とする対数である。このようにして求められた情報エントロピーは、それぞれの値の頻度の拮抗の度合いを明確に表す数値となり、ここでは、この数値が最も高いオリゴ核酸配列をまず選択し、第1の候補とする(ステップS1)。
なお、前述したように上記値は「1」及び「0」の2値に限られるものではない。たとえば、ひとつの遺伝子に対して同一のオリゴDNAが2箇所以上で2本鎖を形成する場合は、その蛍光強度が2倍や3倍といった強度となる。したがってそのままその倍数でこのマトリックスに入力されている。その場合、「0」、「1」、「2」及び「3」をそれぞれの数値ごとに集計し、頻度の逆数について2を底とする対数をそれぞれとり、加算することで多値の場合でも同様に情報エントロピーを算出することが可能である。
次に、ステップS2で求めた第1の候補と組み合わせた場合に情報エントロピーが最大となる第2の候補を選択していく(ステップS2〜S4)。
複数の作用要素を組み合わせた場合の情報エントロピーは、それぞれ複数のオリゴ核酸配列の2本鎖形成の有無をそのまま数字で比較し、それらのパターンで同じものの頻度がどれだけあるかを求めて同様に算出する。たとえば全てのデータが2値の場合は、各遺伝子に対してオリゴ核酸配列とオリゴ核酸配列がそれぞれ2本鎖を形成するかどうかの順列組み合わせ結果として以下のように、「0−0」「0−1」「1−0」「1−1」の4通りが得られる。それぞれに関して数を集計して頻度P00〜P11を求めることで、情報エントロピーが求められる。
第1候補−第2候補 頻度
0−0 P00
0−1 P01
1−0 P10
1−1 P11
この場合の情報エントロピーは次式となる。
このようにして第1の候補との組合せで情報エントロビーが最大になるオリゴ核酸配列を決定し、これを第2の候補として選択する(ステップS2〜S7)。
この手法の利点は、ペアワイズのみでなく複数の組合せに適用できる点である。第2の候補が決定されたならば、次に3以上のオリゴ核酸配列を組み合わせ、前記ステップS2〜S7を繰り返すことで第3以下の候補を順次決定していく(ステップS8)。
3つ以上の組合せの場合、そのすべての組合せについて頻度を求める。すなわち、第3の候補を求める場合、p000、p100、p010、p001、p101、p110、p011、p111の8個の組合せの情報エントロピーを次式の通り計算することができる。
前記ペアワイズで決定した第1、第2の候補に対して、残りの任意のオリゴ核酸配列を第3の候補として組合せながら上記の情報エントロピーを算出する。その結果から情報エントロピーの最も大きなものを、第3の候補として決定する。以下同様に第4以降の候補を追加することで、複数存在するオリゴ核酸配列(作用要素)の中から意味ある組合せを有効な順に決定していくことが可能である。さらに一般化して記載すると、各作用要素の組み合わせのパターンがN種類存在し、それぞれがA1,A2,A3,…..,ANであるとする。また、それぞれのパターンの頻度がpA1、pA2,….,pANとする。ここで、pA1+pA2+…..+pAN=1、0≦pA1,pA2,….,pAN≦1である。これらを用いた場合、情報エントロピーHは、次式となる。
このオリゴ核酸配列の抽出は、例えば、抽出したオリゴ核酸配列の数が指定された数若しくは全体の個数に対する所定の割合になるまで繰り返される(ステップS8)。この数は、ユーザが指定したものを用いるようにしても良いし、ユーザ指定しない場合には、システム側が所定のしきい値を利用して決定するようにしても良い。この例では、データ群に含まれる遺伝子座位数がNの場合、抽出した配列の数が√Nに達するまで繰り返される。そして、このようにして決定した第1〜第nのオリゴ核酸配列を、前記最適オリゴ核酸配列の候補として出力し表示する(ステップS9)
なお、候補抽出の打ち切りは、上記のトリガーに限定されるものではなく、例えば、作用要素全部を利用した場合の全体情報エントロピーの80%になった場合にその組み合わせ数で打ち切るようにしてもよい。また、はじめから10個の作用要素で打ち切るようにしてもよい。
なお、前記全体情報エントロピーは、遺伝子がどれだけ分類できるか、を意味する値である。すなわち図2において、全ての列ベクトルを比較し、それぞれの列ベクトルの頻度を求め、その頻度から同様に全体の情報エントロピーを求めるようにすれば簡単に求めることができる。
このようにして打ち切り条件を満足した作用要素の組み合わせが得られたら、それらの結果をステップS9において画面表示する。このように本実施例では、最終的に絞り込まれた好適なオリゴ核酸配列のグループによれば、そのオリゴ核酸のグループにより検査対象遺伝子を特定できる。特定できないとしても、絞り込まれたそれぞれのオリゴ核酸配列の識別能力で与えられる分割数まで分析対象の遺伝子を分類していくことが可能となる。
このような構成によれば、以下のような効果を得ることができる。
まず、この方法によれば、DNAチップを設計するための最適のオリゴ核酸配列を求める場合に、その計算時間と手間を激的に減少させることが可能になる。
すなわち、この方法によれば、通常よりも2本鎖結合の可能性が高い短いオリゴ核酸配列(部分配列)を合理的に2以上組み合わせる手法によって遺伝子の同定が行える。すなわち、全ての解析対象配列間と参照配列との類似性を見て各配列のみ固有・非固有の部分を特定してオリゴ核酸配列を決定する場合では、完全に他にない特異的な配列部分を用いるプローブ設計しかできないため、最適なオリゴ核酸配列を決定するのに非常に時間がかかる場合がある。これに対して、この実施形態の方法では、情報エントロピーを用いて準最適な解を求める方法により最適なオリゴ核酸配列を決定することができるので、その処理時間を効果的に短縮することができる。
例えば、遺伝子座位の数にもよるが、100本の遺伝子を解析するためのオリゴ核酸配列の決定に1週間程かかっていたものを、msecオーダにまでその時間を短縮することができる効果がある。
そして、この発明の方法によれば、前記で絞り込まれたオリゴ核酸配列を用いてDNAチップの設計が行える。なお、この発明の手法は、単独でDNAチップの設計に用いることも可能であるが、他のオリゴ核酸配列決定方法と組み合わせて用いることも可能である。その場合には、前記DNAチップ設計部がその組み合わせを実行する。例えば、本件発明者ら先に出願中の特願2002−173467号明細書(本発明に一体化するものとする)に記載された方法との組み合わせにより、精度と設計時間とを合理的に超さわせたDNAチップの設計が行える。
なお、この発明は、DNAチップの設計に限定されるものではない。それぞれの固有の配列を求めた部位において遺伝子増幅(PCR)により、その産物の有無から同様の同定を行うことができる。また、制限酵素などの認識部位が含まれるように選択することで、制限酵素の作用の有無による情報エントロピーを求めながら該当する部位を設計することも可能である。
また、この発明の方法によれば、検査対象遺伝子の種類によらず、常に一定のセットのオリゴ核酸配列との作用結果を入力し、この作用結果に基づいて、実際の評価に使用するオリゴ核酸配列を絞り込むようにすることもできる。この場合、解析対象配列と参照配列との類似を見て最初から適切なオリゴ核酸配列を決定していく場合に比べて非常に簡便である。
この場合、この発明の方法によれば、遺伝子にかかわらず固定の作用要素を作用させるだけであるため、試薬の管理がしやすい。また、必ず手持ちの試薬をセットで用いるために、試薬の使用量にばらつきがないなどの長所を持つ。
次にこの発明の第2の実施形態について説明する。
この実施形態においては、全体固定の作用要素を使用するのではなく、ひとつの作用要素を適用した結果によって、次にテストすべき作用要素を個別に変えながらデシジョンツリー方式で決定していく方法である。なお、以下では、オリゴ核酸配列の用語を使わず、「作用要素」の用語を使って説明を行うこととする。
まず、ステップS10において各作用要素の情報エントロピーを算出し、最大のものを選択する。次にステップS10で決定された作用要素によって「作用あり」の枝と、「作用なし」の枝に属するようにデータを分割する(ステップS11)。さらにステップS11において分割されたそれぞれのブロックに関して、自分のツリーの上位において使われていない作用要素を順にひとつずつ取り出し、上位の枝で使用している作用要素と組み合わせて使用した場合に最大の情報エントロピーとなる作用要素をひとつ選択する(ステップS12)。ほかのブロックに関しても同様に最大エントロピーとなる作用要素をそれぞれの枝となるブロックで決定する。
各枝に関して最大エントロピーとなる新しい作用要素が決まったので、その作用結果に基づき、「作用あり」と「作用なし」に分割する(ステップS13)。ここで情報エントロピーの打ち切り閾値(例えば√N)に到達したかどうかを判定する(ステップS14)。打ち切りでなければさらに各ブロックに分割して次段の作用要素を選んで最大の情報エントロピーのものを探す。さらに最後それ以上分割できなくなるまで繰り返す。最後に得られた検査ツリーを、ステップS15において結果表示を行う。
この第2の実施例では、デシジョンツリー式に作用要素を決定しており、平均的な段数が少なく、好適なテスト方法を決定できる。しかし、前段の結果を待たなければ次のテストが決まらない点で、試薬の使用量なども予測しにくい欠点がある。また、準備すべき試薬の数が第1の実施例よりも多くなる欠点がある。
このように本実施例によれば、遺伝子と各作用要素間の相互作用のマトリクスがあれば、作用要素間では非直交関係ではあるが、その段階ごとに最大の情報エントロピーを持つ作用要素を選択しながら逐次的に求めることにより、好適な遺伝子同定手順を決定することが可能である。
なお、本実施例では、遺伝子としてマイクロアレイに使用するオリゴ核酸配列を想定して説明してきたが、例えばたんぱく質などの高分子のアレイであって、作用要素は高分子の化合物や、抗原抗体反応を起こすようなたんぱく質であってもまったく同様に解析可能である。また、リピート回数などの多型を対象にする場合であっても、作用要素として多値になるような繰り返しにマッチしたオリゴ核酸塩基配列を用いることで、発光強度を多値として計測することにより、まったく同様に適用することができる。
以上、説明したように本発明の遺伝子同定方法では多数の作用要素の情報エントロピーを算出し、それらの中から順に大きな情報エントロピーを持つものを選択し、さらに残りの組み合わせの中から最大の組み合わせとなるものを逐次的に決定する方法をとる。このように遺伝子を同定する作用要素を決定することで、好適な作用要素の組み合わせを効率よく絞り込むことができるという優れた効果を持つ。また、作用要素部位として、その固有配列情報が選択されることから、この部位を用いて対象遺伝子を同定するための目的にも使用できることは明らかである。
図1は、この実施形態によるシステムを示す全体構成図である。
このシステムは、CPU1、RAM2、キーボードやマウス等の入力機器3、ディスプレイやプリンタ等の出力機器4、モデム5が接続されてなるバス7に、データ記憶部8とプログラム記憶部9が接続されてなる。
データ記憶部8には、この発明に関係する構成のみ挙げると、検査対象遺伝子ファイル11と、参照専用塩基配列ファイル15と、オリゴ核酸配列ファイル12と、検査対象遺伝子と前記オリゴ核酸配列との2本鎖形成判別結果13と、その判別結果に基づいて絞り込まれた最適オリゴ核酸配列候補14とが格納されるようになっている。
検査対象遺伝子ファイル11は、ユーザが収集した興味のある複数の遺伝子(核酸塩基配列)を含むデータである。前記参照専用塩基配列ファイル15は、cDNA/ESTデータベース等の外部データベースから任意に追加・設定された参照専用の塩基配列である。これらの配列ファイル11は、前記モデム5を介して接続した1又は2以上の特定の外部データベースからダウンロードしてなるデータであっても良い。
オリゴ核酸配列ファイル12は、前記「作用要素」のファイルである。通常DNAに搭載される作用要素としてのオリゴ核酸配列は、ミスハイブリダイゼーションを有効に防止する目的で例えば50〜100塩基(最低数十塩基長、最長100塩基長)の範囲の長さのものが設定される。しかし、この発明では、より広く作用する一般的な作用要素から最適の作用要素を絞り込むものであるから、後述するようにして、同時に複数の遺伝子と2本鎖を形成する可能性のあるオリゴ核酸配列が多数用意される。このようなオリゴ核酸配列の例を、以下の説明では「OA」、「OB」、「OC」、「OB」と記述した。
入力データとしての前記2本鎖形成判別結果13は例えば図2に示すようなものである。横軸に前記オリゴ核酸配列、縦軸に前記検査対象遺伝子が採られ、それらの間での2本鎖形成結果がマトリックス状に表示されている。2本鎖を形成すると判別された場合は「1」、形成しないと判別された場合は「0」が入力されている。ただし、このデータは「1」、「0」の2値に限られる必要はない。たとえばひとつの遺伝子に対して同一のオリゴ核酸塩基配列が2箇所以上で2本鎖を形成する場合は、その蛍光強度が2倍や3倍といった強度となる。したがってそのままその倍数でこのマトリックスに入力する。その場合、「0」、「1」ではなく、「2」、「3」等の値を入力してもよい。また、これらのデータはカンマ区切りファイルやタブ区切りファイルとして供給されてもよい。
そして、前記オリゴ核酸配列候補14は、前記オリゴ核酸配列ファイルから本実施形態による処理の結果絞り込まれた前記オリゴ核酸配列の最適な候補の組み合わせが格納される。
一方、プログラム記憶部9には、この発明に関係する構成のみ挙げると、大きく分けて、各1つの検査対象遺伝子と参照用遺伝子ファイルとの類似性を判別して検査対象遺伝子と前記オリゴ核酸配列との2本鎖形成判別結果を生成する2本鎖形成判別結果生成部21と、この2本鎖形成判別結果をRAM上に読み込むためのデータ受取処理部16と、検査対象遺伝子に対する各オリゴ核酸配列(作用要素)の情報エントロピーを算出するための情報エントロピー算出部17と、求められた情報エントロピーの値に応じて最適オリゴ核酸配列を絞り込む最適オリゴ核酸配列候補決定部18と、最適オリゴ核酸配列候補を表示するための出力表示部19と、上記最適オリゴ核酸配列候補及び他の情報を用いて最終的なDNAチップ搭載用のオリゴ核酸配列を決定するDNAチップ設計部20とを有する。
これらの構成要素8〜21は実際には、ハードディスク等の記録媒体に確保された一定の領域若しくはその領域に格納されたコンピュータソフトウエアの1又は2以上のプログラム命令からなり、前記CPU1によってRAM2上に呼び出されて適宜実行されることでこの発明の機能を奏するようになっている。以下、上記構成要素の詳しい構成及び機能を、このシステムにより実行される実際のオリゴ核酸塩基配列決定手順と共に説明する。
図3は、この手順を示すフローチャートである。この図中の各符号S1〜S9は、以下の説明中の各ステップS1〜S9に対応する。
まず、前記2本鎖形成判別結果生成部で、検査対象遺伝子と前記オリゴ核酸配列(OA,OB,OC,OD・・・・)との2本鎖形成判別結果が生成される。
このため、2本鎖形成判別結果生成部21は、解析対象核酸塩基配列ファイル12及び参照専用塩基配列ファイル15から各核酸塩基配列情報を読み込み、各塩基配列間の類似性を評価する機能を有する。類似性は塩基に対応する文字列を単純比較することによって行う。ここで、適宜な配列を選択するのに塩基配列の正確な1対1の相違比較が要求されるため、遺伝子配列検索で頻繁に用いられる挿入欠失を加味したホモロジー検索は適していない。あくまでも挿入欠失を想定しないで配列比較を行うことが好ましい。そのためにギャップに対応していない検索手段が適している。
BLAST法を使用する場合には、ギャップ対応前のものを用いデータベースサイズに依存して変化する期待値E−valueをかなりゆるく設定(高く設定)し、小さな部分一致でも取出せるようにする。ここで、E−valueとは、特定のサイズのデータベースを検索したときに、実験対象の遺伝子の断片が見つかる期待値である。さらに、それらで見つかった断片のスコアを参照し、しきい値で与えたスコア以上のものを類似配列とする。ここで、スコアとは比較対象の一致度(一致する配列の長さ若しくは類似度)に対応する量である。
図5は、解析対象核酸塩基配列のうちの最初の1本(図2の遺伝子1)を取り出して示したものである。この図では、説明の便宜のため、1本の解析対象核酸塩基配列を折り返して複数行に亘って表示している。また、核酸の塩基情報A、C、G、T(U)はすべて四角形で示されている。
上記2本鎖形成判別結果生成部21は、上述したBLAST法によるホモロジー検索により、参照専用塩基配列に部分一致したものを2本鎖形成部分として登録していく。この図5では黒で塗りつぶして表示した部分(図に33で示す)が一致部分配列を示している。したがって、白抜きのままの部分(図に34で示す)は2本鎖を形成しない部分配列と判断される。
なお、BLAST法を用いない場合でも、適切な配列幅を決めて、それを窓幅としながら、ずらして比較する文字列一致検索の手法も利用できる。
このような方法で、所望のしきい値以上で相互に一致する部分を検索し、ヒットした部分配列を図2のオリゴ核酸配列(OA、OB、OC、OD・・・)として区別して登録していく。これらは、すべて遺伝子1と2本鎖を形成するものであるから、2本鎖判別結果にはすべて「1」が入力されている。
次に、この2本鎖形成判別結果生成部21は、次の遺伝子2についても上記と同様の処理を行って、参照用塩基核酸配列との一致性を判別するとともに前記遺伝子1から抽出したオリゴ核酸配列との一致性も判別する(判別順序は重複を避けるために逆でも良い)。図2では、遺伝子1から抽出されたオリゴ核酸配列OBと一致する部分があるとして、2本鎖形成結果が「1」と入力されている。
そして、この2本鎖形成判別結果生成部21は、すべての検査対象遺伝子について上記処理を行った後で、その比較によって得られた結果、すなわち、抽出されたオリゴ核酸配列を前記オリゴ核酸配列ファイルに格納し、図2の判別結果は2本鎖形成判別結果13に格納する。
ついで、データ受取処理部16が、検査対象遺伝子と前記オリゴ核酸配列との2本鎖形成判別結果がRAMに読み込む。続いて、情報エントロピー算出部17及び最適オリゴ核酸配列候補決定部18が、ステップS1以下で、格納されたデータを取り出しながら作業要素としての各オリゴ塩基配列ごとの情報エントロピーを計算し、最適オリゴ核酸配列候補決定する。
この情報エントロピーは、値「0」と値「1」の頻度をそれぞれp,q(0<p or q<1でp+q=1)とすると、次式で与えられる。
ここで、log2()は、2を底とする対数である。このようにして求められた情報エントロピーは、それぞれの値の頻度の拮抗の度合いを明確に表す数値となり、ここでは、この数値が最も高いオリゴ核酸配列をまず選択し、第1の候補とする(ステップS1)。
なお、前述したように上記値は「1」及び「0」の2値に限られるものではない。たとえば、ひとつの遺伝子に対して同一のオリゴDNAが2箇所以上で2本鎖を形成する場合は、その蛍光強度が2倍や3倍といった強度となる。したがってそのままその倍数でこのマトリックスに入力されている。その場合、「0」、「1」、「2」及び「3」をそれぞれの数値ごとに集計し、頻度の逆数について2を底とする対数をそれぞれとり、加算することで多値の場合でも同様に情報エントロピーを算出することが可能である。
次に、ステップS2で求めた第1の候補と組み合わせた場合に情報エントロピーが最大となる第2の候補を選択していく(ステップS2〜S4)。
複数の作用要素を組み合わせた場合の情報エントロピーは、それぞれ複数のオリゴ核酸配列の2本鎖形成の有無をそのまま数字で比較し、それらのパターンで同じものの頻度がどれだけあるかを求めて同様に算出する。たとえば全てのデータが2値の場合は、各遺伝子に対してオリゴ核酸配列とオリゴ核酸配列がそれぞれ2本鎖を形成するかどうかの順列組み合わせ結果として以下のように、「0−0」「0−1」「1−0」「1−1」の4通りが得られる。それぞれに関して数を集計して頻度P00〜P11を求めることで、情報エントロピーが求められる。
第1候補−第2候補 頻度
0−0 P00
0−1 P01
1−0 P10
1−1 P11
この場合の情報エントロピーは次式となる。
このようにして第1の候補との組合せで情報エントロビーが最大になるオリゴ核酸配列を決定し、これを第2の候補として選択する(ステップS2〜S7)。
この手法の利点は、ペアワイズのみでなく複数の組合せに適用できる点である。第2の候補が決定されたならば、次に3以上のオリゴ核酸配列を組み合わせ、前記ステップS2〜S7を繰り返すことで第3以下の候補を順次決定していく(ステップS8)。
3つ以上の組合せの場合、そのすべての組合せについて頻度を求める。すなわち、第3の候補を求める場合、p000、p100、p010、p001、p101、p110、p011、p111の8個の組合せの情報エントロピーを次式の通り計算することができる。
前記ペアワイズで決定した第1、第2の候補に対して、残りの任意のオリゴ核酸配列を第3の候補として組合せながら上記の情報エントロピーを算出する。その結果から情報エントロピーの最も大きなものを、第3の候補として決定する。以下同様に第4以降の候補を追加することで、複数存在するオリゴ核酸配列(作用要素)の中から意味ある組合せを有効な順に決定していくことが可能である。さらに一般化して記載すると、各作用要素の組み合わせのパターンがN種類存在し、それぞれがA1,A2,A3,…..,ANであるとする。また、それぞれのパターンの頻度がpA1、pA2,….,pANとする。ここで、pA1+pA2+…..+pAN=1、0≦pA1,pA2,….,pAN≦1である。これらを用いた場合、情報エントロピーHは、次式となる。
このオリゴ核酸配列の抽出は、例えば、抽出したオリゴ核酸配列の数が指定された数若しくは全体の個数に対する所定の割合になるまで繰り返される(ステップS8)。この数は、ユーザが指定したものを用いるようにしても良いし、ユーザ指定しない場合には、システム側が所定のしきい値を利用して決定するようにしても良い。この例では、データ群に含まれる遺伝子座位数がNの場合、抽出した配列の数が√Nに達するまで繰り返される。そして、このようにして決定した第1〜第nのオリゴ核酸配列を、前記最適オリゴ核酸配列の候補として出力し表示する(ステップS9)
なお、候補抽出の打ち切りは、上記のトリガーに限定されるものではなく、例えば、作用要素全部を利用した場合の全体情報エントロピーの80%になった場合にその組み合わせ数で打ち切るようにしてもよい。また、はじめから10個の作用要素で打ち切るようにしてもよい。
なお、前記全体情報エントロピーは、遺伝子がどれだけ分類できるか、を意味する値である。すなわち図2において、全ての列ベクトルを比較し、それぞれの列ベクトルの頻度を求め、その頻度から同様に全体の情報エントロピーを求めるようにすれば簡単に求めることができる。
このようにして打ち切り条件を満足した作用要素の組み合わせが得られたら、それらの結果をステップS9において画面表示する。このように本実施例では、最終的に絞り込まれた好適なオリゴ核酸配列のグループによれば、そのオリゴ核酸のグループにより検査対象遺伝子を特定できる。特定できないとしても、絞り込まれたそれぞれのオリゴ核酸配列の識別能力で与えられる分割数まで分析対象の遺伝子を分類していくことが可能となる。
このような構成によれば、以下のような効果を得ることができる。
まず、この方法によれば、DNAチップを設計するための最適のオリゴ核酸配列を求める場合に、その計算時間と手間を激的に減少させることが可能になる。
すなわち、この方法によれば、通常よりも2本鎖結合の可能性が高い短いオリゴ核酸配列(部分配列)を合理的に2以上組み合わせる手法によって遺伝子の同定が行える。すなわち、全ての解析対象配列間と参照配列との類似性を見て各配列のみ固有・非固有の部分を特定してオリゴ核酸配列を決定する場合では、完全に他にない特異的な配列部分を用いるプローブ設計しかできないため、最適なオリゴ核酸配列を決定するのに非常に時間がかかる場合がある。これに対して、この実施形態の方法では、情報エントロピーを用いて準最適な解を求める方法により最適なオリゴ核酸配列を決定することができるので、その処理時間を効果的に短縮することができる。
例えば、遺伝子座位の数にもよるが、100本の遺伝子を解析するためのオリゴ核酸配列の決定に1週間程かかっていたものを、msecオーダにまでその時間を短縮することができる効果がある。
そして、この発明の方法によれば、前記で絞り込まれたオリゴ核酸配列を用いてDNAチップの設計が行える。なお、この発明の手法は、単独でDNAチップの設計に用いることも可能であるが、他のオリゴ核酸配列決定方法と組み合わせて用いることも可能である。その場合には、前記DNAチップ設計部がその組み合わせを実行する。例えば、本件発明者ら先に出願中の特願2002−173467号明細書(本発明に一体化するものとする)に記載された方法との組み合わせにより、精度と設計時間とを合理的に超さわせたDNAチップの設計が行える。
なお、この発明は、DNAチップの設計に限定されるものではない。それぞれの固有の配列を求めた部位において遺伝子増幅(PCR)により、その産物の有無から同様の同定を行うことができる。また、制限酵素などの認識部位が含まれるように選択することで、制限酵素の作用の有無による情報エントロピーを求めながら該当する部位を設計することも可能である。
また、この発明の方法によれば、検査対象遺伝子の種類によらず、常に一定のセットのオリゴ核酸配列との作用結果を入力し、この作用結果に基づいて、実際の評価に使用するオリゴ核酸配列を絞り込むようにすることもできる。この場合、解析対象配列と参照配列との類似を見て最初から適切なオリゴ核酸配列を決定していく場合に比べて非常に簡便である。
この場合、この発明の方法によれば、遺伝子にかかわらず固定の作用要素を作用させるだけであるため、試薬の管理がしやすい。また、必ず手持ちの試薬をセットで用いるために、試薬の使用量にばらつきがないなどの長所を持つ。
次にこの発明の第2の実施形態について説明する。
この実施形態においては、全体固定の作用要素を使用するのではなく、ひとつの作用要素を適用した結果によって、次にテストすべき作用要素を個別に変えながらデシジョンツリー方式で決定していく方法である。なお、以下では、オリゴ核酸配列の用語を使わず、「作用要素」の用語を使って説明を行うこととする。
まず、ステップS10において各作用要素の情報エントロピーを算出し、最大のものを選択する。次にステップS10で決定された作用要素によって「作用あり」の枝と、「作用なし」の枝に属するようにデータを分割する(ステップS11)。さらにステップS11において分割されたそれぞれのブロックに関して、自分のツリーの上位において使われていない作用要素を順にひとつずつ取り出し、上位の枝で使用している作用要素と組み合わせて使用した場合に最大の情報エントロピーとなる作用要素をひとつ選択する(ステップS12)。ほかのブロックに関しても同様に最大エントロピーとなる作用要素をそれぞれの枝となるブロックで決定する。
各枝に関して最大エントロピーとなる新しい作用要素が決まったので、その作用結果に基づき、「作用あり」と「作用なし」に分割する(ステップS13)。ここで情報エントロピーの打ち切り閾値(例えば√N)に到達したかどうかを判定する(ステップS14)。打ち切りでなければさらに各ブロックに分割して次段の作用要素を選んで最大の情報エントロピーのものを探す。さらに最後それ以上分割できなくなるまで繰り返す。最後に得られた検査ツリーを、ステップS15において結果表示を行う。
この第2の実施例では、デシジョンツリー式に作用要素を決定しており、平均的な段数が少なく、好適なテスト方法を決定できる。しかし、前段の結果を待たなければ次のテストが決まらない点で、試薬の使用量なども予測しにくい欠点がある。また、準備すべき試薬の数が第1の実施例よりも多くなる欠点がある。
このように本実施例によれば、遺伝子と各作用要素間の相互作用のマトリクスがあれば、作用要素間では非直交関係ではあるが、その段階ごとに最大の情報エントロピーを持つ作用要素を選択しながら逐次的に求めることにより、好適な遺伝子同定手順を決定することが可能である。
なお、本実施例では、遺伝子としてマイクロアレイに使用するオリゴ核酸配列を想定して説明してきたが、例えばたんぱく質などの高分子のアレイであって、作用要素は高分子の化合物や、抗原抗体反応を起こすようなたんぱく質であってもまったく同様に解析可能である。また、リピート回数などの多型を対象にする場合であっても、作用要素として多値になるような繰り返しにマッチしたオリゴ核酸塩基配列を用いることで、発光強度を多値として計測することにより、まったく同様に適用することができる。
以上、説明したように本発明の遺伝子同定方法では多数の作用要素の情報エントロピーを算出し、それらの中から順に大きな情報エントロピーを持つものを選択し、さらに残りの組み合わせの中から最大の組み合わせとなるものを逐次的に決定する方法をとる。このように遺伝子を同定する作用要素を決定することで、好適な作用要素の組み合わせを効率よく絞り込むことができるという優れた効果を持つ。また、作用要素部位として、その固有配列情報が選択されることから、この部位を用いて対象遺伝子を同定するための目的にも使用できることは明らかである。
Claims (16)
- コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するための方法であって、
(a)前記遺伝子に作用する複数の作用要素の情報を格納する工程と、
(b)前記遺伝子に対する各作用要素の作用結果を受け付ける工程と、
(c)前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込む工程と
を有することを特徴とする方法。 - 請求項1記載の方法において、
前記(c)工程は、
(c−1)前記遺伝子に対する各作用要素の作用結果中の任意の1又は2以上の各作用要素の作用結果の情報エントロピーを算出する工程と、
(c−2)上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する工程と、
を有することを特徴とする方法。 - 請求項2記載の方法において、
前記(c−2)工程は、
(c−2−1)最も情報エントロピーの高い作用要素を第1の候補として決定する工程と、
(c−2−2)順次第1〜n−1(n≧2)の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第nの候補として決定する工程と、
(c−2−3)前記nが所定の数に達するか、第1〜第nの作用要素の情報エントロピーが所定の値に達するまで前記(c−2−2)の工程を繰り返す工程と、
(c−2−4)前記(c−2−2)の工程で決定された第1〜第nの候補を、絞り込んだ作用要素として出力する工程と
を有するものであり、
ここで、前記情報エントロピーHは、
で求められるものであり、
ここで、A1,A2,A3,…..,ANは複数の作用要素の組み合わせのパターン(N個の組み合わせパターン)、そして、pA1+pA2+…..+pAN=1、0≦pA1,pA2,….,pAN≦1である
ことを特徴する方法。 - 請求項3記載の方法において、
前記(c−2−3)工程は、第1〜第nの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの80%に達したらならば(c−2−2)の工程を打ち切るものであることを特徴とする方法。 - 請求項1記載の方法において、
前記作用要素は、前記遺伝子に関わらず予め用意された所定の種類の複数の作用要素であり、各作用要素は2以上の遺伝子と作用する可能性のあるものであることを特徴とする方法。 - 請求項5記載の方法において、
前記作用要素は、複数のオリゴ核酸配列であり、
各オリゴ核酸配列は、2以上の遺伝子と2本鎖を形成する可能性のあるものであることを特徴とする方法。 - 請求項5で用意された所定の数、種類の作用要素のうち、請求項1に記載の方法により絞り込まれた作用要素を調べることで遺伝子の同定を行うことを特徴とする遺伝子の同定方法。
- 請求項5で用意された所定の数、種類の作用要素のうち、請求項1に記載の方法により絞り込まれた作用要素が搭載されてなるDNAチップ。
- 請求項1記載の方法において、
前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する工程と、
をさらに有することを特徴とする方法。 - コンピュータを利用して、遺伝子を同定するための最適な作用要素の候補を設計するためのコンピュータソフトウエアプログラムであって、記憶媒体に格納された以下の手順を含む:
(a)コンピュータに、前記遺伝子に作用する複数の作用要素の情報を格納する手順と、
(b)コンピュータに、前記遺伝子に対する各作用要素の作用結果を受け付ける手順と、
(c)コンピュータに、前記で受け付けた作用結果に基づいて前記遺伝子を同定するために必要となる作用要素を絞り込ませる手順。 - 請求項10記載のコンピュータソフトウエアプログラムにおいて、
前記(c)手順は、
(c−1)前記遺伝子に対する各作用要素の作用結果中の任意の1又は2以上の各作用要素の作用結果の情報エントロピーを算出する手順と、
(c−2)上記情報エントロピーの値を比較して前記絞り込む作用要素を決定する手順と、
を有することを特徴とするコンピュータソフトウエアプログラム。 - 請求項11記載のコンピュータソフトウエアプログラムにおいて、
前記(c−2)手順は、
(c−2−1)最も情報エントロピーの高い作用要素を第1の候補として決定する手順と、
(c−2−2)順次第1〜n−1(n≧2)の候補との組み合わせで最も情報エントロピーが高くなる作用要素を第nの候補として決定する手順と、
(c−2−3)前記nが所定の数に達するか、第1〜第nの作用要素の情報エントロピーが所定の値に達するまで前記(c−2−2)の手順を繰り返す手順と、
(c−2−4)前記(c−2−2)の手順で決定された第1〜第nの候補を、絞り込んだ作用要素として出力する手順と
を有するものであり、
ここで、前記情報エントロピーHは、
で求められるものであり、
ここで、A1,A2,A3,…..,ANは複数の作用要素の組み合わせのパターン(N個の組み合わせパターン)、そして、pA1+pA2+…..+pAN=1、0≦pA1,pA2,….,pAN≦1である
ことを特徴する方法。 - 請求項12記載のコンピュータソフトウエアプログラムにおいて、
前記(c−2−3)手順は、第1〜第nの作用要素の情報エントロピーが、全作用要素の作用結果の情報エントロピーの80%に達したらならば(c−2−2)の手順を打ち切るものであることを特徴とするコンピュータソフトウエアプログラム。 - 請求項10記載のコンピュータソフトウエアプログラムにおいて、
前記作用要素は、前記遺伝子に関わらず予め用意された所定の種類の複数の作用要素であり、各作用要素は2以上の遺伝子と作用する可能性のあるものであることを特徴とするコンピュータソフトウエアプログラム。 - 請求項14記載のコンピュータソフトウエアプログラムにおいて、
前記作用要素は、複数のオリゴ核酸配列であり、
各オリゴ核酸配列は、2以上の遺伝子と2本鎖を形成する可能性のあるものであることを特徴とするコンピュータソフトウエアプログラム。 - 請求項10記載のコンピュータソフトウエアプログラムにおいて、
前記各検査対象遺伝子と参照用の塩基核酸配列との相同を比較して検査対象遺伝子配列のうち参照用の塩基核酸配列と一致した部分を作用要素として識別すると共に、当該遺伝子及び他の遺伝子中、前記作用要素と一致する部分があるかを前記作用結果として出力する手順と、
をさらに有することを特徴とするコンピュータソフトウエアプログラム
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003108400 | 2003-03-07 | ||
JP2003108400 | 2003-03-07 | ||
PCT/JP2004/002936 WO2004079627A1 (ja) | 2003-03-07 | 2004-03-08 | 遺伝子を同定するための作用要素の選択方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2004079627A1 true JPWO2004079627A1 (ja) | 2006-06-08 |
Family
ID=32959560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005503157A Pending JPWO2004079627A1 (ja) | 2003-03-07 | 2004-03-08 | 遺伝子を同定するための作用要素の選択方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2004079627A1 (ja) |
WO (1) | WO2004079627A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764793A (ja) * | 1993-08-30 | 1995-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 多数決型クラスタリング装置 |
JPH09167152A (ja) * | 1995-12-19 | 1997-06-24 | Hitachi Ltd | 対話的モデル作成方法 |
JP2000112936A (ja) * | 1998-10-01 | 2000-04-21 | Atr Interpreting Telecommunications Res Lab | 言語処理装置及び語義決定装置 |
WO2002010443A1 (en) * | 2000-07-27 | 2002-02-07 | The Australian National University | Combinatorial probes and uses therefor |
JP2002330768A (ja) * | 2001-05-11 | 2002-11-19 | Hitachi Software Eng Co Ltd | プローブ設計方法及びバイオチップ |
JP2003000280A (ja) * | 2001-02-28 | 2003-01-07 | Canon Inc | プローブ設計方法及び情報処理装置 |
-
2004
- 2004-03-08 JP JP2005503157A patent/JPWO2004079627A1/ja active Pending
- 2004-03-08 WO PCT/JP2004/002936 patent/WO2004079627A1/ja active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764793A (ja) * | 1993-08-30 | 1995-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 多数決型クラスタリング装置 |
JPH09167152A (ja) * | 1995-12-19 | 1997-06-24 | Hitachi Ltd | 対話的モデル作成方法 |
JP2000112936A (ja) * | 1998-10-01 | 2000-04-21 | Atr Interpreting Telecommunications Res Lab | 言語処理装置及び語義決定装置 |
WO2002010443A1 (en) * | 2000-07-27 | 2002-02-07 | The Australian National University | Combinatorial probes and uses therefor |
JP2004504068A (ja) * | 2000-07-27 | 2004-02-12 | ザ オーストラリアン ナショナル ユニバーシティー | コンビナトリアル・プローブ及びそのための用途 |
JP2003000280A (ja) * | 2001-02-28 | 2003-01-07 | Canon Inc | プローブ設計方法及び情報処理装置 |
JP2002330768A (ja) * | 2001-05-11 | 2002-11-19 | Hitachi Software Eng Co Ltd | プローブ設計方法及びバイオチップ |
Also Published As
Publication number | Publication date |
---|---|
WO2004079627A1 (ja) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Boonham et al. | Exploiting generic platform technologies for the detection and identification of plant pathogens | |
RU2610691C2 (ru) | Способ обнаружения микроделеций в области хромосомы с днк-маркирующим участком | |
JP5171254B2 (ja) | 多重プローブターゲット相互作用パターンの自動分析:パターンマッチング及び対立遺伝子同定 | |
US20020150932A1 (en) | Computer-aided visualization of expression comparison | |
EP2923293B1 (en) | Efficient comparison of polynucleotide sequences | |
CN107368706A (zh) | 测序数据结果分析方法和装置、测序文库构建和测序方法 | |
JP2016518822A (ja) | アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 | |
CN109063959A (zh) | 一种样本质量控制分析方法和系统 | |
CN103348350B (zh) | 核酸信息处理装置及其处理方法 | |
KR20220109707A (ko) | 염기서열 시퀀싱 데이터 분석 장치 및 그 동작 방법 | |
KR20070086080A (ko) | 유전자 발현량 규격화 방법, 프로그램 및 시스템 | |
WO2012096016A1 (ja) | 核酸情報処理装置およびその処理方法 | |
JPWO2004079627A1 (ja) | 遺伝子を同定するための作用要素の選択方法 | |
US20070275389A1 (en) | Array design facilitated by consideration of hybridization kinetics | |
US6994965B2 (en) | Method for displaying results of hybridization experiment | |
US20060234244A1 (en) | System for analyzing bio chips using gene ontology and a method thereof | |
CN117672343B (zh) | 测序饱和度评估方法及装置、设备及存储介质 | |
JP2008161056A (ja) | Dna配列解析装置、dna配列解析方法およびプログラム | |
KR20050096044A (ko) | 유전자 기능 분석 방법 | |
CN114155910B (zh) | 一种癌症体细胞突变功能影响预测方法 | |
JP2005190427A (ja) | 配列を同定するための変異要素のセット抽出方法 | |
KR20190061771A (ko) | Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법 | |
US7142989B2 (en) | Computer software to computer-design optimum oligo-nucleic acid sequence candidate from nucleic acid base sequences analyzed and method thereof | |
JP2002330768A (ja) | プローブ設計方法及びバイオチップ | |
WO2022168195A1 (ja) | 遺伝情報解析システム、及び遺伝情報解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060307 |