JPWO2005093631A1

JPWO2005093631A1 - 特異的塩基配列探索方法

Info

Publication number: JPWO2005093631A1
Application number: JP2006511480A
Authority: JP
Inventors: 真一森下; 山田　智之; 智之山田; 雄樹内藤
Original assignee: BIOTHINKTANK, CO. LTD.
Current assignee: BIOTHINKTANK, CO. LTD.
Priority date: 2004-03-26
Filing date: 2005-03-23
Publication date: 2008-02-14
Anticipated expiration: 2025-03-23
Also published as: US20070202504A1; EP1732021A1; JP4991287B2; EP1732021A4; WO2005093631A1

Abstract

発現遺伝子に特異的に現れる塩基配列を効率よく決定する。かかる目的を達成するために、発現遺伝子が、エクソン（３０１）…（３０６）で構成され、特に、エクソン（３０１）とエクソン（３０２）、エクソン（３０２）とエクソン（３０３）が接合するとした場合、エクソンの塩基配列（３０１）…（３０５）の和集合である塩基配列（４０１）…（４０３）と、エクソン（３０１）とエクソン（３０２）、エクソン（３０２）とエクソン（３０３）の境界にまたがって存在する塩基配列（４０４）と（４０５）、（４０６）と（４０７）、を接合して得られる境界塩基配列と、の集合を作り、この集合に対して検索を行なう。もし、発現遺伝子に特異的に現れる塩基配列であれば、検索結果数は１となり、そうでなければ、複数となる。

Description

本発明は、遺伝子の塩基配列に特異的に現れる塩基配列を検索する方法、装置、プログラムなどに関する。

ワトソンとクリックとによるＤＮＡ（Doexyribo Nucleic Acid）の構造の解明に基づき、塩基配列に基づく遺伝子情報の研究が発展している。ＤＮＡは、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、チミン（Ｔ）の塩基のいずれかを含むヌクレオチドが並んでいる構造を持ち、細胞の核の中では、通常、ＡとＴ、ＧとＣ、の結合により、二重らせんの構造となっている。遺伝子を表現するＤＮＡのヌクレオチドの配列（以下、「遺伝子配列」と呼ぶ）が、ＲＮＡ（Ribonucleic Acid）に転写され、スプライシングを経て、ｍＲＮＡ（messenger RNA）が生成され、たんぱく質の合成がされることが知られている。ＲＮＡは、Ｄ−リボースを糖成分として、アデニン（Ａ）、シトシン（Ｃ）、グアニン（Ｇ）、ウラシル（Ｕ）を塩基とする核酸である。遺伝子配列のうち、たんぱく質の情報を持つ部分がエクソンと呼ばれ、そうでない部分は、イントロンと呼ばれる。したがって、スプライシングにより、ＲＮＡのイントロン部分が切除されることとなる。

近年、ＲＮＡ干渉と呼ばれる現象が発生することが知られるようになった。ＲＮＡ干渉とは、細胞内の２本鎖ＲＮＡの存在により、特定の配列のｍＲＮＡを破壊し、遺伝子の発現を抑制する現象である。この現象は、最初、線虫の細胞を用いた実験で発見された。その後、この現象は、哺乳動物細胞でも起きることが知られるようになり、注目を集めることとなった。人為的にＲＮＡ干渉を起こすことにより、特定の遺伝子の働きを抑制することにより、その特定の遺伝子の働きを調べることができるからである。また、ＲＮＡ干渉の発見により、特定の遺伝子の働きを抑制する効果を発揮する薬を開発できる可能性も生まれてきた。

図１は、ＲＮＡ干渉の過程の概略を示す図である。ＲＮＡ干渉は、以下のようなプロセスを経て発生すると考えられている。およそ２１から２３塩基対の長さのｓｉＲＮＡ（short interfering RNA）１０１がマルチ・タンパク質複合体と結合し、ＲＩＳＣ（RNA-induced silencing complex）１０２を形成する。ＲＩＳＣは、そのｓｉＲＮＡと相同性を持つｍＲＮＡ１０３と結合し、そのｍＲＮＡを分解することにより、そのｍＲＮＡが機能しなくなる（図１において、断片１０４、１０５が、ｍＲＮＡが分解されてできた断片を表わしている）。ここで、「二つの塩基配列が相同性を有する」とは、２つの塩基配列が相補性を有しているか、または、不完全な相補性を有していることをいう。ここに「相補性」とは、二つの塩基配列の全体において、ＡとＴ、ＧとＣ、ＡとＵとの対が完全に形成されていることをいう。したがって、相同性とは、二つの塩基配列の一部に、ＡとＴ、ＧとＣ、ＡとＵという三種類の相補性を有する塩基対以外の対が発生していることを意味する。なお、どのような場合に、二つの塩基配列の間に相補性を有する塩基対がどれだけの存在すれば、その二つの塩基配列が相同性を有すると判断されるかについて説明すると次のようになる。すなわち、ＲＮＡ干渉の場合には、８０％以上、好ましくは９０％以上、さらに好ましくは９５％以上の場合に、相同性を有すると判断される場合が多い。また、相補性を有する塩基対の割合のみならず、相補性を有する塩基列が塩基配列中にどれだけの個数連続して現れているかを考慮にいれて、二つの塩基配列の間の相同性の有無を判断することもある。また、ＡとＴ、ＧとＣ、ＡとＵとの３種類の相補性を有する塩基対に、ＧとＵとの対が形成される可能性もあることが知られているので、ＧとＵとの塩基対の存在も考慮に入れて相同性の有無を判断することもある。

したがって、ＲＮＡ干渉を発生させ、目的とする遺伝子の働きを抑制するためには、ｓｉＲＮＡの配列を決定することが重要である。すなわち、目的とする遺伝子だけに現れ、他の遺伝子の塩基配列と相同性を持たない、ｓｉＲＮＡの配列を決定することが重要である。

なお、哺乳類においては、ある遺伝子の特定領域と相同性を有するｓｉＲＮＡの全てがＲＮＡ干渉を起こすわけではないことが知られている。そのため、ＲＮＡ干渉を発生させるためのｓｉＲＮＡの塩基配列の評価方法が提案されている（例えば、非特許文献１参照。）。この知見からすると、本発明は、塩基配列の評価の前段階として実施されるべきものである。あるいは、塩基配列の評価を行なった後に、高い評価値が得られた塩基配列の中から本発明を実施して特定領域と相同性を有する塩基配列を得るようにしてもよい。

また、近年、マイクロアレイを用いた遺伝子解析や遺伝子診断などが実施されている。「マイクロアレイ」とは、長さが１５から３０塩基程度のオリゴＤＮＡをガラスなどの基板上に合成したＤＮＡチップの一種である（例えば、非特許文献２参照。）。

図２は、マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を例示する。ガラスなどの基板上に合成したオリゴＤＮＡを持つマイクロアレイ２０１上に、蛍光色素などの標識２０３を付加されたＤＮＡ（２０２）を流すと、そのＤＮＡと相補性あるいは相同性を持つマイクロアレイ上のオリゴＤＮＡとが結合（ハイブリダイズ）する（符号２０４）。どの場所のオリゴＤＮＡとハイブリダイズしたかを、標識の蛍光色素による蛍光を検出することにより、ＤＮＡ（２０２）の種類などを判定する。図２では、マイクロアレイ上に数本のオリゴＤＮＡしか示されていないが、実際のマイクロアレイは、縦横の長さが０．５インチ程度の領域に万のオーダーでオリゴＤＮＡが配置される。

したがって、どのような塩基配列を持つオリゴＤＮＡをマイクロアレイに配置するかを決めることは、マイクロアレイの設計において、極めて重要な工程である。
ＡｎｇｅｌａＲｅｙｎｏｌｄｓ他著、"ＲａｔｉｏｎａｌｓｉＲＮＡｄｅｓｉｇｎｆｏｒＲＮＡｉｎｔｅｒｆｅｒｅｎｃｅ"、ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ、Ｐｕｂｌｉｓｈｅｄｏｎｌｉｎｅ１Ｆｅｂｒｕａｒｙ２００４．杉本直己著、"遺伝子化学"、１９ページ、株式会社化学同人発行、２００２年

本発明が解決しようとする課題は、与えられた遺伝子に特異的に現れる塩基配列を効率よく決定することである。「特異的」とは、その遺伝子にだけ現れ、他の遺伝子には現れないことを意味する。これにより、与えられた遺伝子だけを抑制するためのｓｉＲＮＡの塩基配列が得られる。また、与えられた遺伝子だけを検出するオリゴＤＮＡの配列が得られる。

既に遺伝子の塩基配列のデータベースが構築されているが、そのような既存のデータベースを使用して特異的に現れる塩基配列を決定するには困難が伴う。これについて以下説明する。

図３は、ＤＮＡ配列と、ｍＲＮＡに転写される発現遺伝子配列と、の関係を示す。図３（Ａ）には、４本のＤＮＡ配列の部分が示されているが、これらは、分かりやすさのために、一つのＤＮＡ配列全体の一部を示しており、同じ部分の塩基配列が上下に対応するように示されている。ＤＮＡ配列には、発現遺伝子を構成するエクソンの部分と、発現遺伝子を構成しないイントロンの部分と、があることが知られている。図３（Ａ）において、符号３０１、３０２、３０３、３０４、３０５、３０６の部分がエクソンであり、他の部分がイントロンであるとする。図３（Ｂ）は発現遺伝子配列を示す。図３（Ｂ）に示すように、一つのエクソンは、一つの発現遺伝子配列にだけ現れるとは限らず、複数の発現遺伝子配列に表れる場合がある。例えば、エクソン３０２は、エクソン３０１と接合されることにより、ある発現遺伝子を構成するが、エクソン３０３と接合されることにより、別の発現遺伝子を構成する。

また、エクソンの一部がエクソンとなっている場合がある。例えば、図３（Ａ）においてエクソン３０２の一部が、エクソン３０４となり、また、エクソン３０３の一部が、エクソン３０５、エクソン３０６になっている。

したがって、発現遺伝子配列を格納するデータベースにおいては、一つのエクソン、またはその一部、の塩基配列が、複数の発現遺伝子配列に表れることになる。このため、例えば、エクソン３０２に特異的に現れる塩基配列を検索すると、検索の結果は一つではなく、複数あることになり、特異的に現れる塩基配列でないと判断されてしまう可能性がある。その可能性を排除するため、検索の結果が複数得られた場合には、検索の結果を精査して、特定のエクソンだけに特異的に現れる配列かどうかのチェックを別途行なう必要がある。

このような現象を避ける一つの方法としては、ゲノム配列全体に対して検索を行なうものがある。しかし、このような検索を行なうと、発現遺伝子配列のエクソンの境界をまたぐ塩基配列が検索されないことになってしまう。すなわち、発現遺伝子配列が、ゲノム配列中の複数のエクソンが接合してできる場合において、塩基配列の一部分が一のエクソンに含まれ、その塩基配列の残りの部分が他のエクソンに含まれる場合、すなわち、エクソンの端に位置する塩基であるエクソンの境界が、その塩基配列の中に含まれる場合には、その塩基配列はゲノム配列中にそのまま現れることはないので、検索されない。このため、ある塩基配列が、発現遺伝子配列のエクソンの境界をまたぐように複数回現れる場合には、その塩基配列が特異的なものでないという判断を行なうことができない。もしくは、エクソンの境界をまたぐような配列が特異的であったとしても、その配列が特異的であるという判断を行なうこともできない。

そこで、本発明は、発現遺伝子に特異的に現れる塩基配列（より正確に言えば、一つのエクソンに特異的に現れる塩基配列、又は、エクソンが結合することにより発現遺伝子に特異的に現れる塩基配列）を効率よく検出する方法、装置、データベース、プログラムなどを提供することを目的とする。

本発明においては、塩基配列のデータベースとして、エクソンの塩基配列の和集合と、発現遺伝子のエクソンの境界をまたぐ塩基配列の集合と、の和集合を用いて検索を行なう。これにより、発現遺伝子配列に特異的に現れる塩基配列であれば、検索の結果は一となる。また、特異的に現れる塩基配列でなければ、検索の結果は複数となる。結果として、検索結果を調べるだけで、特異的に現れる塩基配列かどうかを直ちに判定することができる。これにより、課題が解決される。

なお、発現遺伝子のエクソンの境界をまたぐ塩基配列は、適宜統合することが可能である。これにより、データベースのレコード数を減少させることもできる。

また、相同性の程度を指定するために、検索の際に、いくつまでの塩基のミスマッチ（不適合）を許すかどうかを指定するようにしてもよい。また、加えて、相同性の程度を指定するために、不適合とみなす塩基の対を指定してもよい。また、不適合の発生の分布を指定してもよい。このように指定される分布の例としては、不適合でない塩基が連続する長さ（すなわち、塩基の対が連続して発生する長さ）がある。この長さがある程度以上の長さになると、ＲＮＡ干渉においては、不適合の塩基配列があるにもかかわらずｓｉＲＮＡがｍＲＮＡに結合してしまうと考えられている。そこで、そのような結合を排除するために、不適合でない塩基が連続する長さを指定する。

なお、本発明においては、ゲノム配列中のどの部分がエクソンであり、また、イントロンであるかについてが、検索に用いられる塩基配列のデータベースの構成に大きな影響を与える。以下の説明では、すでに研究された結果を用いることを主に想定しているが、今後の研究成果を取り入れて、塩基配列のデータベースを構成することが可能である。

本発明においては、エクソンの塩基配列と、エクソンの境界に現れる塩基配列と、から塩基配列集合を生成して、検索を行なうことにより、発現遺伝子に特異的に現れる塩基配列かどうかを検索結果数に基づいて決定できる。

以下、本発明を実施するための最良の形態を、図を用いて、実施形態として説明する。なお、本発明は、これら実施形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施し得る。

（発明の概要）
実施形態について説明する前に、本発明の概要をいくつかの節に分けて説明する。

図４は、エクソンの和集合と、発現遺伝子のエクソンの境界をまたぐ塩基配列と、を説明するための図である。なお、以下では、発現遺伝子を構成するエクソンの境界をまたぐ塩基配列を、「境界塩基配列」ということにする。

＜第一節：エクソンの塩基配列の和集合＞
図４（Ａ）は、エクソンの塩基配列の和集合を説明するための図である。図４（Ａ）には、図３（Ａ）のように、４本のＤＮＡ配列の部分が示されているが、これらは、一つのＤＮＡ配列全体の一部を示しており、同じ部分の塩基配列が、上下に対応するように示されている。エクソン３０１、３０２、３０３、３０４、３０５、３０６が図のような関係にあるとする。すなわち、エクソン３０１と重なり、又は、包含関係にあるエクソンは他になく、エクソン３０２の一部として、エクソン３０４があり、エクソン３０３の一部にエクソン３０５、３０６があるとする。このような場合に、これらのエクソンの和集合として、配列４０１、４０２、４０３が得られる。すなわち、配列４０１は、エクソン３０１そのものであり、配列４０２は、エクソン３０２とエクソン３０４との和である。このエクソン３０４は、エクソン３０２の一部であるので、配列４０２は、エクソン３０２そのものとなる。同様に、配列４０３は、エクソン３０３そのものとなる。図４においては、エクソン３０２とエクソン３０４との関係のように、あるエクソンが他のエクソンを包含している関係にある場合が示されている。他の関係としては、包含ではなく、二つのエクソンの塩基配列の一部だけ重なっている場合がある。この場合については、後に図６、図７などを用いて説明する。

＜第二節：境界塩基配列＞
図４の下部は、境界塩基配列を説明するための図である。エクソン３０１とエクソン３０２とが接合して発現遺伝子を構成する場合、その接合における境界の左右の部分４０４と４０５とを接合した塩基配列が、境界塩基配列となる。同様に、エクソン３０２とエクソン３０３とが接合する場合、部分４０６と４０７を接合した塩基配列が、境界塩基配列となる。なお、ここでの境界塩基配列の長さは、発現遺伝子配列に特異的に現れるかどうかを調べるための検索が行なわれる塩基配列の長さである。その長さをＮとすると、境界塩基配列は、Ｎ−１通りあることになる。

図５は、Ｎ−１通りの境界塩基配列を例示する。エクソン５０１とエクソン５０２とが接合して発現遺伝子を構成するとする。この場合、エクソン５０１の右端のＮ−１ｍｅｒ（「ｍｅｒ」は、塩基配列の長さの単位であり、１塩基の長さを１ｍｅｒとする）の部分５０３と、エクソン５０２の左端の１ｍｅｒの部分５０４と、を接合することにより、境界塩基配列が一つ得られる。以下、同様に、Ｎ−２ｍｅｒの部分５０５と２ｍｅｒの部分５０６、…、２ｍｅｒの部分５０７とＮ−２ｍｅｒの部分５０８、１ｍｅｒの部分５０９とＮ−１ｍｅｒの部分５１０、のＮ−２通りの塩基配列が得られる。これらＮ−１通りの塩基配列は、包含関係にはなく一部だけが重なっている関係にあり、エクソンの和集合を求める場合のように、統合して一つにまとめることが可能である。

＜第三節：塩基配列の統合＞
図６は、塩基配列の統合を説明するための図である。すなわち、塩基配列６０１と塩基配列６０２とが、部分６０３の重なっている関係にある場合、塩基配列６０１と塩基配列６０２とを統合して、塩基配列６０４が得られることが示されている。塩基配列６０４は、塩基配列６０１から部分６０３を除いた部分、部分６０３、塩基配列６０２から部分６０３を除いた部分の３つを接合することにより得られる。

＜第四節：塩基配列の統合の処理＞
図７は、統合を正確に説明するための図である。図７の上部に示すように、ＤＮＡの塩基配列を構成する塩基は、ＤＮＡの端（例えば、ＤＮＡの化学構造により、「５´末端」と呼ばれる端）の塩基を１として順に番号を付けることができる。例えば、端点７０１を５´末端とし、端点７０２を３´末端として、端点７０１の塩基より、１、２、３、…のように塩基に番号をつけることができる。このような番号を、塩基位置ということにする。図７の下部７０３において、例えば、塩基配列７０４に現れる塩基Ａの上に１０２４が付されているのは、その塩基Ａは、ＤＮＡの５´末端より、１０２４番目に現れることを示す。塩基配列７０４と７０５とが、一部だけが重なっている関係にあるとする。すなわち、塩基配列１０２６番目と１０２７番目との部分重なっている。この場合、塩基配列７０４と７０５とを統合することにより、塩基配列７０６が得られる。

図８は、塩基配列の和集合、特に統合、を計算するために用いるテーブルを例示する。ここでいう「計算」は計算機を用いてプログラムを動作させて行なうのが好適である。その場合には、テーブルとしては、データベース管理システムなどで管理されるようになっていてもよい。図８のテーブルは、「左端位置」と「右端位置」という名の列を有している。各行は、エクソンの塩基配列の左端と右端の塩基位置を格納する。また、エクソンの境界をまたぐ塩基配列の左端と右端の塩基位置を格納してもよい（後に説明するように、エクソンの境界をまたぐ塩基配列の統合には、やや複雑な操作が必要となる場合がある。図８のテーブルを使用することができるのは、限られた場合である）。なお、テーブルの各行には、行８０１には１が、行８０２には２が、という具合に行番号が付いているとする。従って、行８０１を「第１行目」、行８０２を「第２行目」という。

また、図８に例示されたテーブルに格納される各行に関連づけて、エクソンの属性情報が蓄積されていてもよい。例えば、図８のテーブルの行番号と、エクソンの属性情報と、を関連付けて蓄積する別のテーブルがあってもよい。あるいは、エクソンの属性情報は、図８に例示されたテーブルに列を追加してその列に格納されてもよい。ここに、「属性情報」とは、（１）エクソンの配列位置を示す情報または（２）エクソンが構成する遺伝子を識別する情報を、含む情報をいう。「エクソンの配列位置を示す情報」とは、エクソンがゲノム配列のどの位置に存在するかを示す情報である。例えば、ＤＮＡの端からの位置である。この情報は、図８に例示されたテーブルの左端位置または右端位置の列に格納されているが、和集合を求める際に、左端位置または右端位置の列に格納されている値が変化するので、別に格納してもよい。また、「エクソンが構成する遺伝子を識別する情報」とは、そのエクソンの塩基配列を含む遺伝子を表わす情報、例えば、遺伝子の名前など、である。また、エクソンの配列位置を示す情報、エクソンが構成する遺伝子を識別する情報、以外には、エクソンの長さなどがある。

図９は、塩基配列の和集合、特に統合、を計算するための処理のフローチャートを例示する。上述したように、「計算」は計算機を用いて行なうのが好適である。したがって、図９に例示されるフローチャートの処理は、計算機で行なうのが好適である。ステップＳ９０１において、左端位置という名前の列の値により、昇順に行をソートする。すなわち、図８に例示された表の行を、Ｎ＋１行目の左端位置という名前の列の値がＮ行目の左端位置という名前の列の値より小さくならないように、並び替えることを行なう。次にステップＳ９０２において、変数ｒに２を代入する。変数ｒは、現在、何行目の処理を行なっているかを示す変数である。

ステップＳ９０３において、ｒの値が、全行数の値以下であるかどうかを判断する。すなわち、第ｒ行目がテーブルに存在するかどうかを判断する。もし、そうならば（ステップＳ９０３：Ｙへ分岐する場合）、ステップＳ９０４以下を行なう。そうでなければ（ステップＳ９０３：Ｎへ分岐する場合）、全ての行に対する処理が終わったことになる。

ステップＳ９０４において、第ｒ行目が表わす塩基配列と第（ｒ−１）行目が表わす塩基配列が包含関係または一部が重なる関係にあるかどうかを調べる。すなわち、第（ｒ−１）行目の左端位置の列の値≦第ｒ行目の左端の列の値、かつ、第ｒ行目の左端位置の列の値≦第（ｒ−１）行目の右端位置の列の値、が成立するかどうかを調べる。ステップＳ９０５において、成立する場合（ステップＳ９０５：Ｙへ分岐する場合）には、ステップＳ９０６へ分岐し、そうでなければ（ステップＳ９０５：Ｎへ分岐する場合）、ステップＳ９０９へ分岐する。

ステップＳ９０６において、第ｒ行目の左端位置の列へ、第（ｒ−１）行目の左端位置の列の値を代入する。ステップＳ９０７において、第ｒ行目の右端位置の列の値が第（ｒ−１）行目の右端位置の値より小ならば、第ｒ行目の右端位置の列へ、第（ｒ−１）行目の右端位置の値を代入する。ステップＳ９０６とステップＳ９０７により、第（ｒ−１）行目と第ｒ行目とが表わす塩基配列を統合したものが、第ｒ行目により表わされるようになる。したがって、第（ｒ−１）行目は不要となるので、ステップＳ９０８により、第（ｒ−１）行目を削除する。これにより、全行数の値は１減ることとなる。その後、ステップＳ９０３へ戻る。なお、ステップＳ９０８において、第（ｒ−１）行目を削除して消滅させるのではなく、第（ｒ−１）行目を別のテーブルに移動して蓄積してもよい。これにより、例えば、エクソンの位置が、元来どの配列に由来しているものであるかという情報をその別のテーブルに蓄積することができ、検索が可能となる。

なお、ステップＳ９０７において、第ｒ行目に関連付けて蓄積されている属性情報を、第（ｒ−１）行目に関連付けて蓄積されている属性情報にマージすることを行なってもよい。マージの例としては、第ｒ行目に関連付けて蓄積されている属性情報を表現する文字列と、第（ｒ−１）行目に関連付けて蓄積されている属性情報を表現する文字列と、を連接する。このように連接して得られた文字列を第（ｒ−１）行目に関連づけて蓄積される属性情報としてもよい。例えば、第（ｒ−１）行目に関連付けて、「Ａ、Ｂ」のように区切りとして「、」が用いられて「Ａ」と「Ｂ」とが蓄積され、第ｒ行目に関連付けて「Ｃ」が蓄積されていれば、「Ａ、Ｂ」と「Ｃ」とを、区切りを示す「、」とともに連接して得られる「Ａ、Ｂ、Ｃ」を第（ｒ−１）行目に関連付けて蓄積してもよい。このようにすることにより、エクソンの和集合の要素がどのエクソンに由来しているか、例えば、どの遺伝子に関係しているか、を容易に知ることができる。

ステップＳ９０９においては、次の行に対する処理を行なうために、ｒの値を１増加させ、ステップＳ９０３へ戻る。

＜第五節：境界塩基配列の統合が直ちに求められる場合＞
図１０は、二つのエクソンが接合して発現遺伝子を構成する場合におけるＮ−１通りの境界塩基配列を統合した塩基配列の求め方を例示する。エクソン１００１とエクソン１００２とが接合して発現遺伝子を構成するとする。この場合、エクソン１００１とエクソン１００２との境界における境界塩基配列を統合した塩基配列は、エクソン１００１の右端のＮ−１ｍｅｒの塩基配列１００３と、エクソン１００２の左端のＮ−１ｍｅｒの塩基配列１００４を接合した２Ｎ−２ｍｅｒの塩基配列となる。ただし、図１０においては、エクソン１００１とエクソン１００２のそれぞれの長さがＮ−１ｍｅｒ以上である必要がある。

＜第六節：境界塩基配列の統合が直ちに求められない場合＞
図１１は、長さがＮ−１ｍｅｒ未満のエクソンが存在する場合を例示する。図１１において、符号１１０１、１１０２、１１０３、１１０４を付した部分がエクソンであるとし、エクソン１１０１、１１０２、１１０３が接合して一つの発現遺伝子を構成し、エクソン１１０１、１１０２、１１０４が接合して別の発現遺伝子を構成するとする。また、エクソン１１０２の長さはＮ−１ｍｅｒ未満とし、エクソン１１０３とエクソン１１０４は、一部が重なった関係にあるとする。符合１１０５、１１０６、１１０７、１１０８を付した部分はイントロンであるとする。

この場合、境界塩基配列を求めると、符号１１０９、１１１０が付されたものの実線部分に相当するものが得られる。発現遺伝子に特異的に現れる塩基配列かどうかを判断するための検索は、エクソン１１０１、１１０２、１１０３、１１０４の和集合に、これらの境界塩基配列の集合を和として加えた集合に対して行なうことになる。あるいは、これらの境界塩基配列の集合の代わりに、境界塩基配列の集合に対して次のような統合の操作を行なって得られる塩基配列の集合を用いてもよい。

＜第七節：境界塩基配列の統合を求める一般的な処理＞
図１２は、統合の操作を行なうために使用するテーブルを例示する。テーブルは、「発現遺伝子」、「左端位置」、「右端位置」の列からなっている。「発現遺伝子」の列は、境界塩基配列が現れる発現遺伝子を識別する識別子を格納する。図１２では、発現遺伝子を構成するエクソンの符号を並べたものにより、そのような識別子が表わされている。「左端位置」と「右端位置」とは、図８のテーブルにおける意味と同じ意味を持ち、境界塩基配列の左端の塩基の位置と、右端の塩基の位置と、を格納する。なお、統合の操作も、計算機でプログラムを動作させることにより実行することが可能である。その場合、テーブルは、データベース管理システムにより管理されて操作が行なわれるようになっていてもよい。また、そのようなプログラムはフレキシブルディスク、光ディスク、メモリスティックなどの媒体に記録することもできる。

まず、一つの境界塩基配列に対応して、図１２のテーブルの行が一つ作られるが、境界塩基配列の集合がテーブルに格納されるようにするために、「左端位置」と「右端位置」の列の値の組がユニークになるようにする。すなわち、「左端位置」と「右端位置」の列の値の組が複数回テーブルに現れないようにする処理を行なう。この処理を高速に行なうためには、例えば、左端位置の列と右端位置の列との組みに対して索引を定義しておき、テーブルに新たな行を追加しようとする際には、その索引を参照して、すでにテーブルに格納されている行の左端位置と右端位置という列の値の組に同じものがあるかどうかを調べるようにすればよい。ここにいう索引は、キーとしてテーブルの左端位置という名前の列と右端位置という名前の列との組の値を持ち、バリューとしてテーブル行番号やテーブルの行を一意に特定する列の値を持つ。もし、索引を参照して、新たに追加しようとする行の左端位置と右端位置という名前の列の値の組が同じなるような行が既にテーブルにあれば、テーブルに行を追加することはしない。もし、新たに追加しようとする行の左端位置と右端位置という名前の列の値の組が同じなるような行がまだ格納されていなければ、テーブルに行を追加する。これにより、境界塩基配列の集合が得られる。

次に、境界塩基配列の集合の要素の統合を行なう。この統合の際には、発現遺伝子の列の値が同じものの間で統合を行なう。すなわち、エクソン１１０１、１１０２、１１０３の境界塩基配列は、エクソン１１０１、１１０２、１１０３から構成される発現遺伝子の境界塩基配列と統合することとし、エクソン１１０１、１１０２、１１０４から構成される発現遺伝子とは統合しないようにする。このために、例えば、テーブルにおいて、発現遺伝子の列の値でソートを行ない、発現遺伝子の列の値が同じ行の集まりを作ることによりテーブルを分割して、それぞれの分割に対して、図９のフローチャートで示される処理を適用する。このように発現遺伝子の列の値が同じものの間で統合を行なうのは、発現遺伝子にあり得ない塩基配列が生成されることを防ぐためである。このような処理の結果、符合１１１３、１１１４が付された塩基配列が得られる。

図１３は、以上説明した境界塩基配列の集合に対する統合の処理のフローチャートを例示する。まず、最初のステップとして、左端位置、右端位置の列の値の組に重複が発生しないように、境界塩基配列の情報をテーブルに付加する。次のステップとして、発現遺伝子の列の値が同じである行の集合ごとに、統合の操作を行なう。すなわち、テーブルを、発現遺伝子の列の値が同じになるようにテーブルをグルーピングすることにより（例えば、ＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）におけるｇｒｏｕｐｂｙ節を用いることにより）テーブルをいくつかの小テーブルに分割し、それぞれの小テーブルに対して図９のフローチャートで示される処理を適用する。

（実施形態１：主に請求項２０、２４に対応する）
図１４は、本発明の実施形態１に係る塩基配列集合生成方法の処理のフローチャートを例示する。本実施形態に係る塩基配列集合生成方法は、候補塩基長取得ステップと、エクソン塩基配列集合取得ステップと、境界塩基配列集合生成ステップと、和集合生成ステップと、を含む。これらのステップは、図１４に例示されたフローチャートのＳ１４０１、Ｓ１４０２、Ｓ１４０３、Ｓ１４０４にそれぞれ対応する。以下の説明から分かるように、これらのステップは、計算機にプログラムを動作させて実行させることが可能である。また、そのようなプログラムをフレキシブルディスク、光ディスク、メモリスティックなどの媒体に記録することも可能である。

「候補塩基長取得ステップ」（Ｓ１４０１）は、発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さ（以下、「候補塩基配列長」という。）を取得するステップである。取得される候補塩基配列長は、本実施形態に係る塩基配列集合生成方法により生成される塩基配列の集合が、ｓｉＲＮＡの設計を目的とするならば、その上限は、好ましくは３０以下、より好ましくは、２２以下、さらに好ましくは２０以下であり、その下限は、好ましくは１３以上、より好ましくは１６以上、さらに好ましくは１８以上である。例えば、１９が好適な値である。また、その塩基配列の集合が、マイクロアレイのオリゴＤＮＡの設計を目的とするならば、その上限は３０以下であるのが好ましい。

「エクソン塩基配列集合取得ステップ」（Ｓ１４０２）は、エクソンの塩基配列の和集合を取得する。本明細書において「取得」という単語は、生成の意味を含むとする。もし、ここでエクソンの塩基配列の和集合を生成するのであれば、上記の第四節で述べたように生成する。

「境界塩基配列集合生成ステップ」（Ｓ１４０３）は、境界塩基配列集合を生成する。「境界塩基配列集合」とは、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長取得ステップで取得された長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合である。具体的には、上記の第五節、又は、第六節、第七節で説明した処理により得られる塩基配列の集合である。

「和集合生成ステップ」（Ｓ１４０４）は、エクソン塩基配列集合取得ステップで取得された塩基配列の集合と、境界塩基配列集合生成ステップで生成された塩基配列の集合と、の和集合を生成するステップである。このステップにおける和集合は、基本的には、単純な集合の和を取る操作で得られるものである。ただし、例外として、単純な集合の和の操作にならない場合が２つある。まず、エクソンの塩基配列の和集合の要素である塩基配列であって、発現遺伝子の端に配置され、Ｎ−１ｍｅｒ以下のものがある場合は、そのような塩基配列は境界塩基配列またはそれを統合した塩基配列に含まれている（すなわち、包含関係にある）ので、そのような塩基配列を除去する必要がある。また、エクソンの塩基配列の和集合の要素である塩基配列であって、発現遺伝子の端ではなく中間に配置され、２Ｎ−２ｍｅｒ以下のものがある場合には、そのような塩基配列が、境界塩基配列またはそれを統合した塩基配列に含まれる可能性がある（Ｎ−１ｍｅｒ以下である場合には必ず含まれる）ので、そのような塩基配列が存在すれば除去する。

図１５は、図１４の和集合生成ステップＳ１４０４で得られた塩基配列を格納したテーブルを例示する。例えば、「左端位置」の列には塩基配列の左端の塩基の塩基配列のＤＮＡ配列における位置を格納し、「塩基配列」の列には、塩基配列を格納する。他に、発現遺伝子の識別子などの情報を格納するための列があってもよい。

本実施形態により生成される塩基配列の集合に対して検索を行なうことにより、与えられた遺伝子に特異的に現れる塩基配列を効率よく決定できることとなる。すなわち、特異的に現れる塩基配列であれば、その塩基配列を用いて塩基配列の集合を検索すると、検索結果は１となり、そうでなければ、検索結果は複数となる。

（実施形態２：主に請求項１、２、２３に対応する）
図１６は、本発明の実施形態２に係る特異的塩基配列探索方法のフローチャートを例示する。本実施形態に係る特異的塩基配列探索方法は、特異的塩基配列候補取得ステップと、塩基配列検索ステップと、判断ステップと、を含む。以下の説明から分かるように、これらのステップは、プログラムによって計算機に実行させることが可能である。また、そのようなプログラムをフレキシブルディスク、光ディスク、メモリスティックなどの媒体に記録することも可能である。

「特異的塩基配列候補取得ステップ」（Ｓ１６０１）は、特異的塩基配列候補を取得する。「特異的塩基配列候補」とは、発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である。任意の塩基配列を候補としてもよいが、例えば、従来技術として知られる方法により塩基配列に対して特異的に現れる可能性が高いかどうかの評価を行ない、特異的に現れる可能性が高いという評価値が得られた塩基配列を候補としてもよい。ここにいう従来技術として知られている方法としては、（１）発現遺伝子の塩基配列情報と同一または類似の塩基配列を、ＮＣＢＩのＲｅｆＳｅｑなどのデータベースで公開されている塩基配列情報などから、例えば、ＢＬＡＳＴ、ＦＡＳＴＡ、ｓｓｅａｒｃｈなどの既存のホモロジ検索手段を用いて検索し、（２）検索された塩基配列のうち発現遺伝子とは無関係の遺伝子の塩基配列情報の総数や発現遺伝子とは無関係の遺伝子の塩基配列情報に付された同一類似の度合いを示す値―例えば、ＢＡＬＳＴ、ＦＡＳＴＡ、ｓｓｅａｒｃｈの場合における「Ｅｖａｌｕｅ」―に基づいて、同一または類似の度合いを示す値の逆数の総和を算出して、その総和を求め、（３）その総和に基づいて―例えば、総和の大小などに基づいて―発現遺伝子の塩基配列に特異的であるか否かを判断する方法がある。特異的塩基配列候補取得ステップを計算機に実行させるためには、キーボードなどから入力された特異的塩基配列候補を表わす文字列などを読み取ることを計算機に行なわせる。

「塩基配列検索ステップ」（Ｓ１６０２）は、塩基配列集合の中から、適合塩基配列を検索する。「塩基配列集合」とは、エクソンの塩基配列の和集合と、境界塩基配列の集合と、の和集合を含む集合である。塩基配列集合は、例えば、第一節で説明したエクソンの塩基配列の和集合と、第二節で説明した境界塩基配列の集合と、の和集合である。あるいは、実施形態１に係る塩基配列集合生成方法にて生成された集合であってもよい。エクソンの塩基配列の和集合については、エクソンの塩基配列に対して第四節で説明した統合の処理を行なって得られるものであってもよい。また、塩基配列集合は、ゲノム配列が解読されてない等の理由によって、エクソンであるか、あるいは、その境界にまたがって存在するのかが不明な配列をさらに含んでいてもよい。場合によっては、塩基配列集合は、遺伝子の配列の集合全体となってもよい。また、第四節の終わりの部分で説明したように、エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報が関連付けられていてもよい。

「境界塩基配列」とは、第二節で述べた通りである。すなわち、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列であり、特異的塩基配列候補の塩基配列と同じ長さの塩基配列である。「適合塩基配列」とは、特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基配列である。ここに「２つの塩基配列が適合する」とは、２つの塩基配列を構成する塩基を、対ごとに比較を行なった結果、所定の二項関係を満たさない対が所定の数以下であることをいう。ここでいう二項関係とは、多くの場合、対を構成する塩基が合い等しいことをいう。すなわち、数学の集合論の言葉で説明すれば、二項関係が反射律のみを満たす場合である。また、塩基のＧとＵとが結合しやすいことを考慮に入れた二項関係を用いてもよい。また、二項関係のみに依存して適合かどうかを判断せず、適合する塩基の連続する数などを考慮に入れて、２つの塩基配列が適合するかどうかを判断してもよい。「所定の数以下」とは、例えば、２０％以下、好ましくは１０％以下、より好ましくは５％以下を意味してもよい。このような検索の方法については、バイオインフォマティクスの分野で研究が進んでおり、例えば、ＦＡＳＴＡ、ＢＬＡＳＴ、スミス‐ウォーターマンダイナミックプログラミング法を使う方法など、計算機を用いて行なう方法が知られている（例えば、ＤａｖｉｄＷ．Ｍｏｕｎｔ著、"Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ：ＳｅｑｕｅｎｃｅａｎｄＧｅｎｏｍｅＡｎａｌｙｓｉｓ"、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ、２００１年など参照。）。

「判断ステップ」（Ｓ１６０３）は、塩基配列検索ステップでの検索結果に、適合塩基配列が複数あるかどうかに基づいて、特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が特異的塩基配列であるか判断する。ここに「特異的塩基配列」とは、発現遺伝子に特異的に現れる塩基配列を意味する。判断ステップでは、検索結果の適合塩基配列が１であれば、特異的塩基配列候補が特異的塩基配列であると判断すればよい。もし、検索結果の適合塩基配列が２以上であれば、特異的塩基配列でないと判断する。もし、検索結果の適合塩基配列が０であれば、類似のものが存在しないと判断する。検索結果の適合塩基配列が０となる場合には、このような特異的塩基配列候補は、何の効果ももたらさないと推定される。したがって、計算機に判断ステップを実行させるには、検索結果集合の数を取得させて判断をさせることになる。

（実施形態３：主に請求項３に対応する）
本発明の実施形態３は、実施形態２に係る特異的塩基配列探索方法において、境界塩基配列の集合を、第四節、第七節にあるように塩基配列の統合をして得られる集合としたものである。

すなわち、境界塩基配列の集合を、（１）複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、（２）特異的塩基配列候補の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合としたものである。なお、統合ができなくなるまで、すなわち、完全に統合の処理を行なう必要はない。また、統合の処理により、エクソンの塩基配列の和集合の中に、統合されて得られる塩基配列に含まれる塩基配列が現れる場合があり、そのような塩基配列を取り除く必要が出てくるのは、実施形態１で述べたとおりである。

塩基配列を示す情報とは、例えば、図８に例示されたテーブルに格納された各行、あるいは、図１２に例示されたテーブルに格納された各行、を意味する。

本実施形態においては、統合が行なわれるので、検索が行なわれる要素を減少させることができ、集合のサイズを小さくすることができる。また、検索のスピードを向上させることができる。

（実施形態４：主に請求項４に対応する）
本発明の実施形態４は、実施形態２または３に係る特異的塩基配列探索方法に、適合許容数取得ステップを含ませた特異的塩基配列探索方法である。

図１７は、本実施形態に係る特異的塩基配列探索方法のフローチャートを例示する。このフローチャートは、図１６のフローチャートに適合許容数取得ステップであるＳ１７０２を追加したものである。

「適合許容数取得ステップ」とは、適合許容数を取得する。「適合許容数」とは、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である。好ましくは、１、２、３、４、５のいずれかの値である。ここでいう「塩基の不適合」とは、塩基の対が所定の二項関係を満たさないことをいう。計算機に適合許容数取得ステップを実行させるためには、例えば、キーボードなどから入力されたり、画面に表示されたラジオボタンの選択により入力されたりする適合許容数を計算機に読み取らせる。

本実施形態においては、塩基配列検索ステップでは、適合許容数取得ステップで取得された適合許容数に基づいて検索が行なわれる。例えば、前に説明したＢＬＡＳＴなどを用いて検索を行なう。この場合、「適合許容数に基づいて」とは不適合となる塩基対の数が適合許容数以下になるように検索を行なうことを意味する。ただし、ＢＬＡＳＴにおいては、通常、７塩基が連続して同じになる部分を用いて検索が行なわれるため、候補塩基配列長が１９で適合許容数が３である場合には、図１８の×の位置で塩基の不適合がある場合を検索することができない。そこで、特異的塩基配列候補において、×の位置の塩基を他の塩基に置き換えた塩基配列を生成して、特定記塩基配列候補が表わす塩基配列と一致しまたは相補性のある塩基配列を検索するようにしてもよい。なお、適合許容数を指定して検索を行なう方法としては、Tomoyuki YAMADA and Sinichi MORISHITA, "Computing Highly Specific and Noise-Tolerant Oligomers Efficiently, To appear in Journal of Bioinformatics and Computational Biology, Imperial College Pressに述べられている方法がある。

（実施形態５：主に請求項５に対応する）
本発明の実施形態５として、塩基配列検索ステップにて不適合と判断する塩基の対を取得するステップを含む特異的塩基配列探索方法について説明する。

本実施形態に係る特異的塩基配列探索方法は、実施形態４に係る特異的塩基配列探索方法が、さらに、不適合塩基対取得ステップを含む方法である。

「不適合塩基対取得ステップ」とは、塩基配列検索ステップにおいて不適合と判断する塩基の対を取得する。この取得は、計算機に接続されたキーボードから入力された塩基対を取得することにより行なわれたり、媒体に記録された塩基対を示す情報を読み込んだり、通信回線を通じて入力される情報を取得したりすることにより行なわれる。塩基配列検索ステップにおいては、同一の塩基でなければ不適合と扱うのが通常である。しかし、例えば、ＧとＵとが結合して対を形成することが知られているので、ＧとＵとの対を不適合とみなしたくない場合もある。そこで、本実施形態においては、不適合であると判断する塩基の対を取得することができるようにする。なお、不適合であると判断する塩基の対を取得するかわりに、適合すると判断する塩基の対を取得することにより、間接的に不適合であると判断する塩基の対を取得してもよい。また、取得される塩基の対は、適合あるいは不適合の程度を関連付けて取得されるようになってもよい。例えば、同じ塩基の対であれば１という値を割り当て、例えば、ＧとＵの対には、０．５という値を割り当ててもよい。なお、不適合塩基対取得ステップは、塩基配列検索ステップＳ１７０３が実行されるまでに実行される。例えば、不適合塩基対取得ステップを実行してから、図１７に例示されるフローチャートを実行する。

（実施形態６：主に請求項６、７に対応する）
本発明の実施形態６として、塩基の不適合の発生の分布を指定して検索を行なう特異的塩基配列探索方法について説明する。

本実施形態に係る特異的塩基配列探索方法は、実施形態２から５のいずれかに係る特異的塩基配列探索方法が、さらに、不適合分布情報取得ステップを含む方法である。

「不適合分布情報取得ステップ」とは、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、分布情報を取得する。「分布情報」とは、塩基の不適合の発生の分布を示す情報である。分布情報の例としては、塩基の不適合が連続して２以上存在しない、特異的塩基配列候補の５´末端側には不適合が少ない、特異的塩基配列候補との塩基の不適合が連続して所定の回数以上発生しない、などがある。このように分布情報を取得する目的としては、例えば、同じ数の塩基の不適合があっても、塩基の不適合が連続などしていると核酸がハイブリダイズしにくくなるので、適合許容数を満たしていても、塩基の不適合が連続などしている塩基配列を排除することがある。また、塩基の不適合があっても、不適合とみなされない塩基が連続している場合には、不適合な部分があるにもかかわらず、ハイブリダイズする可能性が出てくるので、そのような場合を排除することを目的として、不適合とみなされない塩基が所定の値以上連続しないことを指定する。

分布情報は、例えば、塩基の不適合の分布が所定の分布となっているかどうかを判定するプログラムであってもよい。あるいは、あらかじめ塩基の不適合の分布の類型をいくつか決めておき、それらを選択するための情報であってもよい。例えば、塩基の不適合の分布に番号をつけておき、その番号を示す情報であってもよい。

本実施形態においては、塩基配列検索ステップの処理は、例えば、次のように行なう。すなわち、不適合分布情報取得ステップで取得された分布情報をさらに考慮に入れて、検索が行なわれる。例えば、まず、実施形態２から５のいずれかにおける検索を行ない、検索の結果から、不適合分布情報を満たすもの―例えば塩基の不適合が連続して２以上存在しないもの、特異的塩基配列候補の５´末端側に不適合が少ないもの、不適合とみなされない塩基が所定の数以上連続して発生しないもの―を選択する。

（実施形態７：主に請求項８に対応する）
本発明の実施形態７に係る特異的塩基配列探索方法は、実施形態２から６のいずれか一の特異的塩基配列探索方法において、特異的塩基配列候補を、マイクロアレイのオリゴＤＮＡの塩基配列の候補とした方法である。

これにより、従来技術のように検索結果を精査する必要が無くなるので、マイクロアレイのオリゴＤＮＡの設計を効率よく行なうことができる。

（実施形態８：主に請求項９に対応する）
本発明の実施形態８に係る特異的塩基配列探索方法は、実施形態２から６のいずれか一の特異的塩基配列探索方法において、特異的塩基配列候補を、ｓｉＲＮＡの塩基配列の候補とした特異的塩基配列探索方法である。

これにより、従来技術のように検索結果を精査する必要が無くなるので、ｓｉＲＮＡの配列の決定を効率よく行なうことができる。

（実施形態９：主に請求項１０、１１、２１に対応する）
図１９は、本発明の実施形態９に係る特異的塩基配列探索装置の機能ブロック図を例示する。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態２に係る特異的塩基配列探索方法を使用するための装置である。

特異的塩基配列探索装置１９００は、塩基配列集合蓄積部１９０１と、特異的塩基配列候補取得部１９０２と、塩基配列検索部１９０３と、を有する。なお、本明細書において、機能ブロック図により表わされる構成は、ハードウェアとしては、任意の計算機のＣＰＵ、メモリ、その他のＬＳＩなどにより実現される。また、ソフトウェアとしては、メモリにロードされたプログラムなどにより実現される。また、ハードウェアとソフトウェアとの連携により実現することもできる。特にソフトウェアが用いられて実現される場合には、これらの部は、計算機にプログラムをインストールして実行することにより実現可能である。例えば、プログラムは、各種の記録媒体に記録され、必要に応じて特異的塩基配列探索装置１９００を実現するための計算機に機械的に読み取られる。ここで、「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、フラッシュディスク等の任意の「可搬用の物理媒体」や、各種計算機システムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいはＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように短期にプログラムを保持する「通信媒体」を含むものとする。なお、ここにいう計算機とは、メインフレーム計算機に限定されることはなく、ワークステーションやパーソナルコンピュータなどの情報処理装置であってもよい。また、そのような情報処理装置には、プリンタやスキャナなどの周辺装置がされに接続されていてもよい。

また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコート等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、オペレーティングシステムに代表される別個のプログラムと協同してその機能を達成するものをも含む。なお、特異的塩基配列探索装置１９００において記録媒体を読み取るための具体的な構成、読み取り手段、あるいは、読み取り後のインストール手順等は、周知の構成や手順を用いることができる。

ここでは図示を省略しているが、特異的塩基配列探索装置１９００は、遺伝子の塩基配列情報等に関する外部データベースやホモロジ検索等の外部プログラム等を提供する外部システムに、インターネット等の通信網を介して通信可能に接続された構成であってもよい。かかる構成により、外部プログラムを実行するウェブサイトが提供される。外部システムは、ＷＥＢサーバやＡＳＰサーバ等として構成されてもよい。例えば、塩基配列集合蓄積部１９０１及び／又は特異的塩基配列候補取得部１９０２が外部システムに通信可能に接続されてもよい。通信網の構成は特には限定されないが、例えば、ルータ等の通信装置や専用線等の有線又は無線の通信回線により構成される。

「塩基配列集合蓄積部」１９０１は、塩基配列集合を保持する。「塩基配列集合」とは、エクソンの塩基配列の和集合と、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する境界塩基配列の集合と、の和集合を含む集合である。例えば、実施形態１で説明した方法により生成された集合である。あるいは、実施形態２の方法などの塩基配列検索ステップにて検索がされる集合である。塩基配列集合蓄積部１９０１は、塩基配列集合を、例えば、ＲＡＭ、ＲＯＭなどのメモリ装置、ハードディスクなどの固定ディスク装置、フレキシブルディスクや光ディスクを用いる蓄積装置を用いて所定のフォーマット、形式としてのデータとして入出力可能に蓄積する。したがって、特異的塩基配列探索装置１９００が計算機を用いて実現される場合には、これら蓄積のための装置との入出力を行なうドライバ及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが、塩基配列集合蓄積部１９０１に相当する。

「特異的塩基配列候補取得部」１９０２は、発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する。例えば、インターネットなどの通信網によって通信を行なうことができる計算機で動作するウェブブラウザに表示されたウェブページのテキストエリアに入力され、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）を用いてそのブラウザからテキスト情報などとして送信された特異的塩基配列候補を受信することにより、特異的塩基配列候補の取得がされる。したがって、特異的塩基配列探索装置１９００が計算機を用いて実現される場合には、通信インターフェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための入出力インターフェースにおける入出力を行なうドライバ、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが、特異的塩基配列候補取得部１９０２に相当する。

「塩基配列検索部」１９０３は、塩基配列集合蓄積部１９０１に蓄積された塩基配列集合に含まれる塩基配列から、特異的塩基配列候補取得部１９０２で取得された特異的塩基配列候補と適合する塩基配列である適合塩基配列を検索する。この検索には、例えば、実施形態２から４のいずれかで説明したアルゴリズム（例えば、ＢＬＡＳＴ）を実行するプログラムを用いる。検索の結果は、特異的塩基配列候補を送信したブラウザに返信するようになっていてもよい。例えば、検索の結果の件数を返信したり、特異的塩基配列候補に適合する塩基配列を発現遺伝子に関する情報を取得して返信を行なったりしてもよい。また、検索の結果の件数に応じて、特異的塩基配列候補取得部１９０２が取得した特異的塩基配列候補が特異的塩基配列であるかどうかを判断した結果を返信するようになっていてもよい。また、ブラウザの内部でＪＡＶＡ（登録商標）などで記述されたプログラムが動作しており、そのプログラムにより、特異的塩基配列候補が特異的塩基配列であるかどうかを判断するようになっていてもよい。なお、特異的塩基配列探索装置１９００が計算機を用いて実現される場合には、計算機のＣＰＵによる制御の下で、特異的塩基配列候補取得部１９０２に相当するモジュールなどとデータの受け渡しを行ない、また、塩基配列集合蓄積部１９０１に相当するモジュールなどとデータの受け渡しを行ない、ハードディスクなどに蓄積された塩基配列集合の検索を行なうモジュールなどが、塩基配列検索部１９０３に相当する。

また、特異的塩基配列探索装置１９００には、塩基配列検索部１９０３による検索の結果を蓄積する部が備わっていてもよい。特異的塩基配列候補取得部１９０２で取得された特異的塩基配列候補と、塩基配列検索部１９０３による検索の結果と、を関連付けて蓄積する部が備わっていてもよい。このような部を備えることにより、同じ特異的塩基配列候補が特異的塩基配列候補取得部１９０２で複数回取得される場合には、二回目以降は、この部に蓄積された情報を検索することにより、応答スピードを速くすることができる。

（実施形態１０：主に請求項１２に対応する）
本発明の実施形態１０は、実施形態９の特異的塩基配列探索装置において、境界塩基配列集合を、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものとした特異的塩基配列探索装置である。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態３に係る特異的塩基配列探索方法を使用するための装置である。

すなわち、本実施形態に係る特異的塩基配列探索装置は、塩基配列集合蓄積部１９０１に蓄積される塩基配列集合を、境界塩基配列に第七節などで説明した処理による統合の処理を行なった集合とした特異的塩基配列探索装置である。

統合を行なうことにより、塩基配列集合の要素数を減少させることができるので、塩基配列集合蓄積部１９０１が使用するディスクスペースを節約することができる。また、要素数の減少による検索速度の向上も実現される。

（実施形態１１：主に請求項１３に対応する）
図２０は、本発明の実施形態１１に係る特異的塩基配列探索装置の機能ブロック図を例示する。特異的塩基配列探索装置２０００は、塩基配列集合蓄積部１９０１と、特異的塩基配列候補取得部１９０２と、塩基配列検索部１９０３と、適合許容数取得部２００１と、を有する。したがって、本実施形態に係る特異的塩基配列探索装置は、実施形態９または１０に係る特異的塩基配列探索装置が適合許容数取得部を有した構成となっている。なお、本明細書においては、同じ定義が適用できる部には、同じ符号を割り当てることとする。ただし、実際の製造においては、同じ符号が割り当てられているからといって、つくりなどが同じになるとは限らない。なお、本実施形態に係る特異的塩基配列探索装置は、例えば実施形態４に係る特異的塩基配列探索方法を使用するための装置である。

「適合許容数取得部」２００１は、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である適合許容数を取得する。例えば、特異的塩基配列候補がブラウザから送信されるときに、そのブラウザから適合許容数も送信されてもよい。適合許容数取得部２００１は、そのように送信される適合許容数を取得する。また、適合許容数を直接入力する構成であってもよい。

本実施形態においては、塩基配列検索部１９０３は、適合許容数取得部２００１にて取得された適合許容数に基づいて検索を行なう。この検索の方法については、実施形態４で述べたとおりである。

（実施形態１２：主に請求項１４に対応する）
図２１は、本発明の実施形態１２に係る特異的塩基配列探索装置の機能ブロック図を例示する。特異的塩基配列探索装置２１００は、塩基配列集合蓄積部１９０１と、特異的塩基配列候補取得部１９０２と、塩基配列検索部１９０３と、適合許容数取得部２００１と、不適合塩基対取得部２１０１と、を有する。したがって、本実施形態に係る特異的塩基配列探索装置は、実施形態１１に係る特異的塩基配列探索装置が、さらに、不適合塩基対取得部２１０１を有する構成となっている。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態５に係る特異的塩基配列探索方法を使用するための装置である。

「不適合塩基対取得部」２１０１は、塩基配列検索部による検索において、不適合と判断する塩基の対を取得する。例えば、不適合と判断するべき塩基の対を示すテキスト情報を取得する。あるいは、適合と判断するべき塩基の対（例えば、ＧとＵ）を取得することにより、間接的に不適合と判断するべき塩基の対を取得するようになっていてもよい。したがって、通信インターフェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための入出力インターフェースにおける入出力を行なうドライバ、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが不適合塩基対取得部２１０１に相当する。

本実施形態に係る特異的塩基配列探索装置の処理の流れは、実施形態１１に係る特異的塩基配列探索装置と同じである。ただし、適合塩基配列を検索する前に、不適合塩基対取得部２１０１により塩基配列検索部による検索において、不適合と判断する塩基の対を取得することが行なわれる。

（実施形態１３：主に請求項１５、１６に対応する）
図２２は、本発明の実施形態１３に係る特異的塩基配列探索装置の機能ブロック図を例示する。特異的塩基配列探索装置２２００は、塩基配列集合蓄積部１９０１と、特異的塩基配列候補取得部１９０２と、塩基配列検索部１９０３と、適合許容数取得部２００１と、不適合分布情報取得部２２０１と、を有する。また、特異的塩基配列探索装置２２００は、さらに、不適合塩基対取得部を有していてもよい。したがって、本実施形態に係る特異的塩基配列探索装置は、実施形態９から１２のいずれかに係る特異的塩基配列探索装置が、不適合分布情報取得部２２０１を有した構成となっている。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態６に係る特異的塩基配列探索方法を使用するための装置である。

「不適合分布情報取得部」２２０１は、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、塩基の不適合の発生の分布を示す情報である分布情報を取得する。分布情報の例としては、実施形態６で述べたとおりである。したがって、通信インターフェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための入出力インターフェースにおける入出力を行なうドライバ、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが不適合分布情報取得部２２０１に相当する。

本実施形態においては、塩基配列検索部１９０３は、不適合分布情報取得部２２０１で取得された分布情報に基づいて検索を行なう。例えば、実施形態１１または実施形態１２におけるように検索を行ない、その検索の結果である中間結果から、分布情報に基づいて検索を行なう。すなわち、中間結果から、分布情報に合致するものを選択して、最終的な検索の結果とする。

（実施形態１４：主に請求項１７、１８に対応する）
本発明の実施形態１４は、塩基配列集合保持装置である。すなわち、エクソンの塩基配列の和集合と、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、の和集合を含む集合である塩基配列集合を、検索可能に保持する装置である。

したがって、本実施形態に係る塩基配列集合保持装置の形態としては、例えば実施形態８に係る特異的塩基配列探索装置１９００の塩基配列集合蓄積部１９０１を実現するハードディスクが外付けハードディスク装置になっているものを挙げることができる。また、特異的塩基配列探索装置１９００の塩基配列集合蓄積部１９０１を実現するハードディスクを有するサーバ装置であってもよい。

本実施形態に係る塩基配列集合保持装置により、様々な検索アルゴリズムに基づく検索を実現することが可能となる。

（実施形態１５：主に請求項１９、２２に対応する）
本発明の実施形態１５は、実施形態１４の塩基配列集合保持装置において、保持される境界塩基配列の集合を、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、検索の入力となる塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものとした、塩基配列集合保持装置である。すなわち、実施形態１０に係る特異的塩基配列探索装置の塩基配列集合蓄積部を、別の装置とした形態である。例えば、実施形態１０に係る特異的塩基配列探索装置の塩基配列集合蓄積部に蓄積されるデータを、ＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）やＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）に蓄積させることにより得られる形態である。

本実施形態においては、境界塩基配列に対して統合の操作が行なわれるので、必要なディスクスペースを減少させることができる。

本発明においては、エクソンの塩基配列と、エクソンの境界に現れる塩基配列と、から塩基配列集合を生成して、検索を行なうので、発現遺伝子に特異的に現れる塩基配列かどうかを検索結果数に基づいて決定できるので、特異的塩基配列を決定する上で有用である。

ＲＮＡ干渉の過程の概略を示す図マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程の一例図ＤＮＡ配列とｍＲＮＡに転写される発現遺伝子配列との関係の一例図エクソンの和集合と発現遺伝子のエクソンの境界をまたぐ塩基配列の一例図Ｎ−１通りの境界塩基配列の一例図塩基配列の統合を説明するための図塩基配列の統合を説明するための図塩基配列の和集合を計算するために用いるテーブルの一例図塩基配列の和集合を計算するためのフローチャート境界塩基配列の統合の求め方の一例図長さがＮ−１ｍｅｒ未満のエクソンが存在する場合の一例図統合の操作を行なうために使用するテーブルの一例図統合の処理のフローチャート本発明の実施形態１に係る塩基配列集合生成方法の処理のフローチャート和集合生成ステップで得られた塩基配列を格納したテーブルの一例図本発明の実施形態２に係る特異的塩基配列探索方法のフローチャート本発明の実施形態４に係る特異的塩基配列探索方法のフローチャート候補塩基配列長が１９で適合許容数が３である場合にＢＬＡＳＴでは検索できないと考えられる塩基配列のミスマッチを示す図本発明の実施形態９に係る特異的塩基配列探索装置の機能ブロック図本発明の実施形態１１に係る特異的塩基配列探索装置の機能ブロック図本発明の実施形態１２に係る特異的塩基配列探索装置の機能ブロック図本発明の実施形態１３に係る特異的塩基配列探索装置の機能ブロック図

符号の説明

３０１エクソン
３０２エクソン
３０３エクソン
３０４エクソン
３０５エクソン
３０６エクソン
４０１エクソンの和集合の一要素
４０２エクソンの和集合の一要素
４０３エクソンの和集合の一要素
４０４境界塩基配列の一部
４０５境界塩基配列の一部
４０６境界塩基配列の一部
４０７境界塩基配列の一部

Claims

発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得ステップと、
エクソンの塩基配列の和集合と、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合の中から、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基配列である適合塩基配列を検索する塩基配列検索ステップと、
前記塩基配列検索ステップでの検索結果に適合塩基配列が複数あるかどうかに基づいて、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が特異的塩基配列であるか判断する判断ステップと、
を含む特異的塩基配列探索方法。
前記エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられている請求項１に記載の特異的塩基配列探索方法。
前記境界塩基配列の集合は、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものである請求項１または２に記載の特異的塩基配列探索方法。
前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である適合許容数を取得する適合許容数取得ステップを含み、
前記塩基配列検索ステップでは、前記適合許容数取得ステップにて取得された適合許容数に基づいて検索を行なう請求項１から３のいずれか一に記載の特異的塩基配列探索方法。
前記塩基配列検索ステップにおいて不適合と判断する塩基の対を取得する不適合塩基対取得ステップを含む請求項４に記載の特異的塩基配列探索方法。
前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、塩基の不適合の発生の分布を示す情報である分布情報を取得する不適合分布情報取得ステップを含み、
前記塩基配列検索ステップでは、前記不適合分布情報取得ステップで取得された分布情報に基づいて検索を行なう請求項１から５のいずれか一に記載の特異的塩基配列探索方法。
前記分布情報は、不適合とみなされない塩基が連続する長さを表わす請求項６に記載の特異的塩基配列探索方法。
前記特異的塩基配列候補は、マイクロアレイのオリゴＤＮＡの塩基配列の候補である請求項１から７のいずれか一に記載の特異的塩基配列探索方法。
前記特異的塩基配列候補は、ｓｉＲＮＡの塩基配列の候補を示す請求項１から７のいずれか一に記載の特異的塩基配列探索方法。
エクソンの塩基配列の和集合と、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合を保持する塩基配列集合蓄積部と、
発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得部と、
前記塩基配列集合蓄積部に蓄積された塩基配列集合に含まれる塩基配列から、前記特異的塩基配列候補取得部で取得された特異的塩基配列候補と適合する塩基配列である適合塩基配列を検索する塩基配列検索部と、
を有する特異的塩基配列探索装置。
前記エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられている請求項１０に記載の特異的塩基配列探索装置。
前記境界塩基配列の集合は、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものである請求項１０または１１に記載の特異的塩基配列探索装置。
前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である適合許容数を取得する適合許容数取得部を有し、
前記塩基配列検索部は、前記適合許容数取得部にて取得された適合許容数に基づいて検索を行なう請求項１０から１２のいずれか一に記載の特異的塩基配列探索装置。
前記塩基配列検索部による検索において不適合と判断する塩基の対を取得する不適合塩基対取得部を有する請求項１３に記載の特異的塩基配列探索装置。
前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、塩基の不適合の発生の分布を示す情報である分布情報を取得する不適合分布情報取得部を有し、
前記塩基配列検索部は、前記不適合分布情報取得部で取得された分布情報に基づいて検索を行なう請求項１０から１４のいずれか一に記載の特異的塩基配列探索装置。
前記分布情報は、不適合とみなされない塩基が連続する長さを表わす請求項１５に記載の特異的塩基配列探索装置。
エクソンの塩基配列の和集合と、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合を、検索可能に保持する塩基配列集合保持装置。
前記エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられている請求項１７に記載の塩基配列集合保持装置。
前記境界塩基配列の集合は、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、検索の入力となる塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものである請求項１７または１８に記載の塩基配列集合保持装置。
発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さを取得する候補塩基配列長取得ステップと、
エクソンの塩基配列の和集合を取得するエクソン塩基配列集合取得ステップと、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長ステップで取得された長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより塩基配列の集合を生成する境界塩基配列集合生成ステップと、
前記エクソン塩基配列集合取得ステップで取得された塩基配列の集合と、前記境界塩基配列集合生成ステップで生成された塩基配列の集合との和集合を生成する和集合生成ステップと、
を含む塩基配列集合生成方法。
発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得ステップと、
エクソンの塩基配列の和集合と、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、の和集合を含む集合である塩基配列集合に含まれる塩基配列から、前記特異的塩基配列候補取得ステップで取得された特異的塩基配列候補と適合する塩基配列である適合塩基配列を検索する塩基配列検索ステップと、
を計算機に実行させるための特異的塩基配列探索プログラム。
発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さを取得する候補塩基配列長取得ステップと、
エクソンの塩基配列の和集合を取得するエクソン塩基配列集合取得ステップと、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長ステップで取得された長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより塩基配列の集合を生成する境界塩基配列集合生成ステップと、
前記エクソン塩基配列集合取得ステップで取得された塩基配列の集合と、前記境界塩基配列集合生成ステップで生成された塩基配列の集合との和集合を生成する和集合生成ステップと、
を計算機に実行させるための塩基配列集合生成プログラム。
発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得ステップと、
エクソンの塩基配列の和集合と、
複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
の和集合を含む集合である塩基配列集合の中から、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基配列である適合塩基配列を検索する塩基配列検索ステップと、
前記塩基配列検索ステップでの検索結果に適合塩基配列が複数あるかどうかに基づいて、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が特異的塩基配列であるか判断する判断ステップと、
を計算機に実行させるための特異的塩基配列探索プログラム。