WO2005096208A1

WO2005096208A1 - 塩基配列検索装置及び塩基配列検索方法

Info

Publication number: WO2005096208A1
Application number: PCT/JP2005/006397
Authority: WO
Inventors: Shinichi Morishita; Tomoyuki Yamada
Original assignee: Bio-Think Tank Co., Ltd.
Priority date: 2004-03-31
Filing date: 2005-03-31
Publication date: 2005-10-13
Also published as: JPWO2005096208A1; EP1732022A4; US20080263002A1; EP1732022A1; JP4614949B2

Abstract

　ｓｉＲＮＡなどの塩基配列を設計する場合に、類似する塩基配列を含む遺伝子を漏れなく高速に検索する装置及び方法などを提供する。このために、入力された塩基配列から所定の長さの二つの部分配列とその余の部分とを特定して、対応する塩基が適合しない数であるハミング距離を、それらの部分配列とその余の部分とに分割して割り当てて、２つの部分配列のうち、割り当てられた数が大きくないほうを選択して、検索を行なうようにする。

Description

明細書

塩基配列検索装置及び塩基配列検索方法

技術分野

[0001] 本発明は、遺伝子情報を表わす遺伝子塩基配列を検索する装置及び方法に関する。

背景技術

[0002] ワトソンとクリックとによる DNA(Doexyribo Nucleic Acid)の構造の解明に基づき、塩基配列に基づく遺伝子情報の研究が発展している。 DNAは、アデニン (A)、シトシン（C)、グァニン (G)、チミン (T)の塩基の、ずれかを含むヌクレオチドが並んで、る構造を持ち、細胞の核の中では、通常、 Aと T、 Gと C、の結合により、二重らせんの構造となっている。遺伝子を表現する DNAのヌクレオチドの配列（以下、「遺伝子塩基配列」と呼ぶ）力 RNA (Ribonucleic Acid)に転写され、スプライシングを経て、 mR NA (messenger RNA)が生成され、たんぱく質の合成がされることが知られている。 R NAは、 D—リボースを糖成分として、アデニン (A)、シトシン（C)、グァニン（G)、ゥラシル (U)を塩基とする核酸である。

[0003] ところで、近年、 RNA干渉と呼ばれる現象が発生することが知られるようになった。

RNA干渉とは、細胞内に特定の 2本鎖 RNAが存在することにより、特定の配列の m RNAが破壊され、遺伝子の発現が抑制される現象である。この現象は、最初、線虫の細胞を用いた実験で発見された。その後、この現象は、哺乳動物細胞でも起きることが知られるようになり、注目を集めることとなった。人為的に RNA干渉を起こすことにより、特定の遺伝子の働きを抑制することができ、その特定の遺伝子の働きを調べることができるカゝらである。また、 RNA干渉を利用することにより、特定の遺伝子の働きを抑制する効果を発揮する薬を開発できる可能性も生まれてきた。

[0004] 図 1は、 RNA干渉の過程の概略を示す図である。 RNA干渉は、以下のようなプロセスを経て発生すると考えられている。およそ 21から 23塩基対の長さの siRNA( short interfering RNA) 101がマルチ.タンパク質複合体と結合し、 RISC (

RNA- induced silencing complex) 102を形成する。 RISC (102)は、その siRNAと相同性を持つ mRNA(103)と結合し、その mRNA(103)を断片 104、 105などへ分解することにより、その mRNA (103)が機能しなくなる。ここで、「ある塩基配列（S)と別の塩基配列 (T)との間に相同性がある」とは、 2つの塩基配列（S、 T)が相補性を有している力、または、不完全な相補性を有していることをいう。「相補性」とは、二つの塩基配列の全体において、 Aと T、 Gと C、 Aと Uとの対が完全に形成されていることをいう。したがって、相同性とは、二つの塩基配列の一部に、 Aと T、 Gと C、 Aと U以外の対が発生していることを意味する。なお、どのような場合に、二つの塩基配列の間に相補性を有する塩基対がどれだけの存在すれば、その二つの塩基配列が相同性を有すると判断されるかについて説明すると次のようになる。すなわち、 RNA干渉の場合には、 80%以上、好ましくは 90%以上、さらに好ましくは 95%以上の場合に、相同性を有すると判断される場合が多い。また、相補性を有する塩基対の割合のみならず、相補性を有する塩基列が塩基配列中にどれだけの個数連続して現れているかを考慮にいれて、二つの塩基配列の間の相同性の有無を判断することもある。また、 Aと T、 Gと C、 Aと Uとの 3種類の相補性を有する塩基対に、 Gと Uとの対が形成される可能性もあることが知られて、るので、 Gと Uとの塩基対の存在も考慮に入れて相同性の有無を判断することもある。

[0005] したがって、 RNA干渉を発生させ、目的とする遺伝子の働きを抑制するためには、 siRNAの配列を設計することが重要である。すなわち、目的とする遺伝子だけに現れ、他の遺伝子の塩基配列と相同性を持たない、 siRNAの配列を設計することが重要である。したがって、 siRNAの配列を設計する際には、 siRNAの配列に似た塩基配列を持つ遺伝子が目的とする遺伝子以外には存在しないことを確認することが必要となる。

[0006] また、近年、マイクロアレイを用いた遺伝子解析や遺伝子診断などが実施されて!ヽる。「マイクロアレイ」とは、長さが 15から 60塩基程度のオリゴ DNAをガラスなどの基板上に合成した DNAチップの一種である（例えば、非特許文献 1参照。 ) o

[0007] 図 2は、マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を例示する。

ガラスなどの基板上に合成したオリゴ DNAを持つマイクロアレイ 201上に、蛍光色素などの標識 203を付加された DNA (202)を流すと、その DNAと相補性あるいは相同性を持つマイクロアレイ上のオリゴ DNAとが結合 (ハイブリダィズ)する（符号 204) 。どの場所のオリゴ DNAとハイブリダィズしたかを、標識の蛍光色素による蛍光を検出することにより、 DNA (202)の種類などを判定する。図 2では、マイクロアレイ上に数本のオリゴ DNAし力示されていないが、実際のマイクロアレイは、縦横の長さが 0. 5インチ程度の領域に万のオーダーでオリゴ DNAが配置される。

[0008] したがって、どのような塩基配列を持つオリゴ DNAをマイクロアレイに配置するかを決めることは、マイクロアレイの設計において、極めて重要な工程である。

[0009] 従来においては、似た塩基配列が存在するかどうかの検出は、 BLAST (例えば非特許文献 2参照。）と呼ばれるソフトウェアや、 Smith— Watermanと呼ばれるァルゴリズム (例えば、非特許文献 3参照。）を用いた、遺伝子情報を表わす遺伝子塩基配列を格納したデータベースの検索により行なわれている場合が多い。

非特許文献 1 :杉本直己著、 "遺伝子化学"、 19ページ、株式会社化学同人発行、 2 002年

非特許文献 2 : S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J.

Lipman, "Basic local alignment search tool", J. Mol. Biol. , 215, 403 -410, 1990

非特許文献 3 : T. F. Smith, and M. S. Waterman, "Identification of com mon molecular subsequences", J. Mol. Biol. , 147, 195— 197, 1981 発明の開示

発明が解決しょうとする課題

[0010] し力しながら、 BLASTを使用する方法では、似た塩基配列の存在を見落としてしまうという課題がある。 BLASTは、通常、 7塩基が連続して同じになる部分を用いて検索が行なわれる。このため、 19塩基の塩基配列が与えられた場合、例えば、図 3の X の位置で塩基の不一致あるいは不適合がある塩基配列を見つけることができず、似た塩基配列の存在を見落としてしまう。

[0011] また、 Smith— Watermanアルゴリズムを用いれば、似た塩基配列の存在を正しく検出することが可能である力必要とされる計算量が大きぐ検出までに時間がかかるという課題がある。 [0012] そこで、本発明は、似た塩基配列の存在を少ない計算量で検出することができる装置及び方法などを提供することを目的とする。

課題を解決するための手段

[0013] かかる目的を達成するために、本発明では、入力された塩基配列力所定の長さの二つの部分配列とその余の部分とを特定して、対応する塩基が適合しな!、塩基への置換を行なう塩基の個数であるハミング距離を、それらの部分配列とその余の部分とに分割して割り当てて、 2つの部分配列のうち、それぞれの部分配列に対して、割り当てられたハミング距離の個数の塩基を適合しない塩基に置換する操作を加えて得られる塩基配列の総数が大きくないほうを選択して、検索を行なうようにする。

[0014] これにより、検索に用いる塩基配列であって塩基を置換して生成する塩基配列の数を少なくすることができ、検索のために必要となる計算量を小さくすることができ、課題が解決される。また、ノ、ミング距離が所定の値と同じまたは所定の値未満となる、似た塩基配列の存在を見落とすこともなくなるので、課題が解決される。

発明の効果

[0015] 本発明に係る塩基配列検索装置及び塩基配列検索方法によれば、検索のために必要となる計算量を小さくすることができ、また、ノ、ミング距離が所定の値と同じまたは所定の値未満となる、似た塩基配列の存在を見落とすことも無ヽ。

発明を実施するための最良の形態

[0016] 以下、本発明を実施するための最良の形態について、図を用いて実施形態として説明する。なお、本発明は、これら実施の形態に何ら限定されるものではなぐその要旨を逸脱しな、範囲にぉ、て、種々なる態様で実施し得る。

[0017] (実施形態 1 :主に請求項 1、 9について説明する）

[0018] 本発明の実施形態 1として、遺伝子情報を表わす遺伝子塩基配列を格納したデータベースにおける所定長の塩基配列の出現を検索するための索引を用いて、類似塩基配列を検索するための塩基配列検索装置として、入力された塩基配列から所定の長さの二つの部分配列とその余の部分とを特定し、対応する塩基が適合しな、塩基への置換を行なう塩基の個数であるハミング距離を、それらの部分配列とその余の部分とに分割して割り当てて、 2つの部分配列のうち、それぞれの部分配列に対して、割り当てられたハミング距離の個数の塩基を適合しない塩基に置換する操作を加えて得られる塩基配列の総数が大きくないほうを選択して検索を行なう塩基配列検索装置について説明する。

[0019] ここに「対応する塩基が適合する」とは、対応する二つの塩基が、所定の二項関係を満たすことをいう。ここでいう二項関係とは、多くの場合、対を構成する塩基が合い等しいことをいう。すなわち、数学の集合論の言葉で説明すれば、二項関係が反射律のみを満たす場合に該当する。また、塩基の Gと Uとが結合しやすいことを考慮に入れた二項関係を用いてもょ、。

[0020] なお、ここに、「所定長」とは所定の長さである。この所定の長さは、遺伝子塩基配列を格納したデータベースの検索を行なうための索引が受け付けることができる塩基配列の長さである。例えば、 BLASTの場合には、通常は、所定長は 7となる。また、「類似塩基配列」とは、入力された塩基配列と同じ長さで類似する塩基配列であって、前記遺伝子塩基配列に出現する塩基配列である。「類似する」とは、例えば、後で説明するように、入力された塩基配列とのノ、ミング距離が与えられた値になることである。また、「前記遺伝子塩基配列」とは、データベースに格納されている塩基配列である。なお、索引の構造によっては、所定長は複数存在する場合がある。

[0021] このような塩基配列検索装置は、例えば、 WEBブラウザに入力された塩基配列と類似の程度 (例えば、ハミング距離)を受け取り、遺伝子塩基配列を格納したデータ

ヽ合わせなどを発行して処理を行なヽ、結果を前記 WEBブラウザに返信するサーバ装置として実現が可能である。したがって、本発明に係る塩基配列検索装置の構成要素である各部、各手段は、ハードウェア、ソフトウェア、ハードウエアとソフトウェア（プログラム）の両者、の、ずれかによつて構成することが可能である。たとえば、これらを実現する一例として、計算機を利用する場合には、 CPU,メモリ、バス、インターフェース、周辺装置などから構成されるハードウエアと、これらのハ一ドウエア上にて実行可能なソフトウェアを挙げることができる。

[0022] (実施形態 1 :構成）

図 4は、本発明の実施形態 1に係る塩基配列検索装置の機能ブロック図を例示する。塩基配列検索装置 400は、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 4 07と、を有する。

[0023] 「塩基配列入力部」 401は、所定長を超える長さの塩基配列を入力する。例えば、 WEBブラウザ力入力された塩基配列を示す情報を受信する。

[0024] 「ハミング距離入力部」 402は、入力塩基配列に対して、ハミング距離を入力する。

例えば、 WEBブラウザ力も入力された数値を受信する。ここに、「入力塩基配列」とは、塩基配列入力部 401に入力された塩基配列である。また、ハミング距離とは、適合しない塩基への置換の操作を行なう塩基の個数を示す値である。ノ、ミング距離は、 2 つの同じ長さの塩基配列に対して定義され、対応する塩基が適合しない数であり、 1 つの塩基配列に対してハミング距離を指定することにより、その塩基配列のうち、ハミング距離の個数の塩基を適合しない塩基に置換して得られる塩基配列の集合が定義できる。

[0025] ハミング距離の例を挙げる。例えば、図 5には、 19の塩基力もなる塩基配列が上下に並んでいるが、「X」で示される 3箇所に対応する塩基が適合していないので、ハミング距離は 3となる。図 6は、ノ、ミング距離の定義を示す。 Sと Tが n個の塩基力もなる塩基配列として、 Sを i番目の塩基とするときの Sと Tのハミング距離 d (S, T)が定義

i H

されている。なお、 Uを集合とするとき、 I U Iにより集合の要素の数を表わすとし、 ≠は、両辺の塩基が適合しないことを意味する（例えば、同じでないことを意味する）。したがって、ノ、ミング距離は、負でない整数となる。

[0026] 「特定部」 403は、入力塩基配列の部分配列であって、所定長の長さを持ち、異なる 2つの部分配列と、その余の部分と、を特定する。 2つの部分配列は共通部分があつてもよい。また、場合によっては、その余の部分は無くてもよい。

[0027] 図 7は、特定部 403により特定される 2つの部分配列とその余の部分とを例示する。

図 7 (1)においては、第一の部分配列 711と第二の部分配列 712とが共通部分を持たないように入力塩基配列 710に存在し、入力塩基配列の両端と中央部分に、その余の部分 713、 714、 715がある。図 7 (2)においては、第一の部分配列 721と第二の部分配列 724が入力塩基配列 720の略中央に共通部分を有し、入力塩基配列 7 20の端の部分にその余の部分 723、 724力ある。図 7 (3)においては、第一の部分配列 731が入力塩基配列 730の左端から伸び、また、第二の部分配列 732が入力塩基配列 730の右端から伸び、第一の部分配列 731と第二の部分配列 732は、入力塩基配列 730の略中央部分で共通部分を有している。入力塩基配列がある所定長の 2倍を超える場合には、図 7 (4)に例示されるように、入力塩基配列 740の略中央がその余の部分 743となる。なお、第一の部分配列と第二の部分配列の長さは所定長であるが、索引の構造によっては上述のように所定長が複数存在する場合があり、そのような場合には、第一の部分配列の長さと第二の部分配列の長さは同じであつてもよいし、異なっていてもよい。

[0028] 「割当部」 404は、特定部 403で特定された部分配列とその余の部分とに、ハミング距離入力部 402で入力されたハミング距離を分割して割り当てる。ここ〖こ、「ハミング距離を分割して割り当てる」とは、ノ、ミング距離を負でない整数に分割して、分割で得られた整数を部分配列とその余の部分に割り振ることである。したがって、割り振られた値の総和は、ノ、ミング距離になる。このような処理は、プログラムにより容易に実現することができる。例えば、部分配列とその余の部分の個数分のループを入れ子にするプログラムにより実現することができ、全ての割り振りを得ることができる。

[0029] 図 17は、ノ、ミング距離を分割して割り当てるプログラムの例を C言語で記述した例を示す。この例では、部分配列が数字で特定されるとする。例えば、部分配列の個数力であれば、 P、 P— 1、 P— 2、 · · ·、 1でそれぞれの部分配列が特定されるとし、所定の配列の P番目、 P— 1番目、…、 1番目の要素が、部分配列に対応しているとする。このとき、 distributeHammingDistanceの第 1引数には、部分配列の個数 Pを渡し、第 2引数には、第 1引数に渡された個数の部分配列に割り当てるハミング距離 Hを渡すと、 P、 P—l、 P— 2、 · · ·、 1でそれぞれ特定される部分配列にハミング距離が割り当てられることになる。なお、 distributeHammingDistanceの第 3引数には部分配列の総数を、第 4引数には、所定の配列を渡す。 DistributeHammingDistanceの動作を具体的に説明すると次のようになる。すなわち、所定の配列が vecで指し示されるとすると、 distributeHammingDistanceがー回呼ばれるたびに、 vec [P]、 vec [P— 1]、 vec [P 2]、〜_VeC [l]のどれかに、部分配列に割り当てられたハミング距離が代入され、 distributeHammingDistanceの再帰呼び出しがされる。例えば、 distributeHammingDistanceの或る呼び出しにお、て vec [q]に、部分配列 qに割り当てられたハミング距離が代入されると、 qが 1でなければ、 distributeHammingDistance の第 1引数を q—1にして再帰呼び出しが行なわれる。最後に vec[l]に、ノ、ミング距離が代入されると、全ての部分配列に対するノ、ミング距離の割り当ての一つが完成するので、 vec [P]、 vec [P— 1]、 vec [P— 2]、 " 6。[1]の値カ¾1：^^とぃぅ関数を用いて出力される。もちろん、 printfによる出力を行なう代わりに、ノ、ミング距離の割り当てをメモリに構成されるデータ構造に格納して、選択部 405がそのデータ構造を参照し、後に説明されるように、部分配列の選択が行なえるようにするのは、当業者にとつて容易なことである。

[0030] なお、図 17のプログラムにおいて、 intは、整数のデータ型を表わし、例えば、 int h;は、 hという変数が整数のデータ型の値をとることを意味する。また、 for(Sl ; S2 ; S 3) {S4}は、まず S1を実行し、 S2の条件が成り立つ限り、 S4を実行した後に S3を実行することを繰り返すことを表わす。なお、 DistributeHammingDistanceは、図 17に例示されて!/、るが、念のために記載すると以下のようになる。

distnbuteHammingDistance(int P, int H, int nbize, int* vec) { int h; if (P==l) {vec[l] = h; /*全ての部分へのハミング距離の割り当ての一つが完成したので vecに格納されたハミング距離を出力する */ for (int i = 1; i <= nSize; i = i + 1) { printK"Part %d th: %d", i, vec[i]); /*セパレータ又はターミネータを出力する */ if (i != nSize) { /*セパレータとしてカンマを出力する */ printK", "ヽ' , } else { /*ターミネータとして改行を出力する */ printK"¥n"); } } else { for (h = 0; h <= H; h = h + 1) { vec[P] = h; distributeHammingDistance(P— 1, H— h, nSize, vec); } } }と定義される。このように、リカーシブコールを行なうことにより、部分配列とその余の部分の個数分のループを入れ子にすることができる。

[0031] 図 8は、図 7の（1)から (4)の場合に対応して、割当部 404によるハミング距離の割り振りを説明するための図である。図 8 (1)において、入力塩基配列の左端の部分から (すなわち、その余の部分、第一の部分配列、その余の部分、第二の部分配列、その余の部分）、 m 、 m 、 m 、 m 、 mという値が割り振られたとすると、 m 、 m 、 m 、 m

1 2 3 4 5 1 2 3

、 mの和が入カノ、ミング距離となる。ここに、「入力ハミング距離」とは、ノ、ミング距離入力部 402に入力されたハミング距離である。

[0032] 同様に、図 8 (2)においても、入力塩基配列の左端の部分から (すなわち、その余の部分、第一の部分配列の左部分、共通部分、第二の部分配列の右部分、その余の部分）、 m 、 m 、 m 、 m 、 mが割り振られたとすると、これらの値の和が入力ハミン

1 2 3 4 5

グ距離となる。

[0033] 図 8 (3)においては、入力塩基配列の左端の部分から (すなわち、第一の部分配列の左部分、共通部分、第二の部分配列の右部分)、 m 、 m 、 mが割り振られたとす

1 2 3

ると、これら 3つの値の和が入力ハミング距離となる。

[0034] 図 8 (4)においては、入力塩基配列の左端の部分から (すなわち、第一の部分配列、その余の部分、第二の部分配列）、 m 、 m 、 mが割り振られたとすると、これら 3つ

1 2 3

の値の和が入力ハミング距離となる。

[0035] 「選択部」 405は、特定部 403で特定された 2つの部分配列のうち、前記割当部で割り当てられたハミング距離で示される個数の塩基を適合しない塩基へ置換する操作を前記部分配列に対して行なって生成される塩基配列である置換塩基配列の総数が大きくない方を選択する。この総数は、式：（適合しない塩基の数）レ、:

(所

C により計算でき、この計算結果に基づいて選択を行なう。しかし、多くの場合には、割当部 404で割り当てられたハミング距離の大きくな、方の部分配列を選択することになる。すなわち、図 8 (1)の場合には、 mと mとを比較して、例えば、

2 4

mの方が大きくなければ、第一の部分配列を選択する。逆に、 mの方が小さければ

2 4

、第二の部分配列を選択する。ただし、例えば、所定長が 4である 2つの部分配列に対して、一方にはハミング距離として 3が、他方には 4が割り当てられたとすると、一方の部分配列の置換塩基配列の総数は次のように計算される。すなわち、適合しない塩基とは、異なる塩基であるとすると、塩基の種類は 4であるので、ある塩基と異なる塩基の種類の数は (4 1)となり、一方の部分配列の置換塩基配列の総数は、（4 I) ³ C = 108である。し力しながら、他方の部分配列の置換塩基配列の総数は、（4

4 3

- I)⁴ C =81となり、割り当てられたノ、ミング距離の大きな他方の置換塩基配列の

4 4

数が少なくなる場合がある。したがって置換塩基配列の総数の大小とハミング距離の大小とは一致しない場合があり、注意が必要である。なお、以下では、説明を簡単にするために、割当部 404で割り当てられたハミング距離が大きくない場合が、置換塩基配列の総数が大きくないと仮定して説明を行なう。

[0036] 同様に図 8 (2)の場合には、 m +mと m +mとを比較して、例えば、 m +mの方

2 3 3 4 2 3 が大きくなければ、第一の部分配列を選択する。逆に、 m +mの方が小さければ、

3 4

第二の部分配列を選択する。

[0037] また、図 8 (3)の場合には、 m +mと m +mとを比較して、例えば、 m +mの方

1 2 2 3 1 2 が大きくなければ第一の部分配列を選択する。逆に、 m +mの方が小さければ、第

2 3

二の部分配列を選択する。

[0038] また、図 8 (4)の場合には、 mと mとを比較して、例えば、 mの方が大きくなければ

1 3 1

、第一の部分配列を選択する。逆に、 mの方が小さければ、第二の部分配列を選択

3

する。

[0039] 図 9は、入力ハミング距離が 3であるとき、図 7 (4)のように部分配列とその余の部分が特定された場合の割当部 404での割り振りと、選択部 405による選択を示す。図 9 では、説明を簡略化するために、 m、 m、 mの和が入力ハミング距離 3と等しい場

1 2 3

合について説明している。 m、 m、 mの和が 3になる組合せは、 10通りあるが、選択

1 2 3

部 405で、例えば m≤mとなる選択が行なわれると、選択の結果として 6通りの組み

1 3

合わせが得られる。これからさらに、 mの値の組み合せについて重複を除くと、 0と 1 との組み合わせになる。同様のことが、第二の部分配列と mについても言える。結果

3

として、 mについても、 0と 1とになる。なお、 m =mの場合は除かれるので、 m >m

3 1 3 1 となる選択が行なわれる場合の数は、 m≤mとなる選択が行なわれる場合の数より

3 1 3

も少なくなる。このことは、後に説明する置換塩基配列生成部 406と検索部 407との動作により、 m力と 1との場合について、また、 mについても 0と 1との場合について

1 3

、置換塩基配列生成部 406で置換塩基配列を生成して検索部で索引を参照して検索を行なえば、 m、 m、 mの和が 3になる 10通りの場合についての検索がカバーさ

1 2 3

れることを意味する。

[0040] また、ノ、ミング距離入力部に入力されたノ、ミング距離が複数の部分に割り当てられ、 m≤m、 m >mのように大きくない方の選択が行なわれるので、上記のパラダラ

1 3 1 3

フの記述により得られる m、 mの値の組み合わせは、ノ、ミング距離入力部に入力されたハミング距離未満であっても得られるものである。したがって、ノ、ミング距離 Hの場合について選択を行なうと、 H未満のノ、ミング距離力 Sハミング距離入力部に入力された場合につ!、ての選択も行なわれる。

[0041] したがって、 m 、 m 、 mの和が入力ハミング距離 3未満である場合についても同様

1 2 3

に処理ができる。このように、本発明では、 m 、 m 、 mの和が入力ハミング距離が与

1 2 3

えられた値のみならず、その値未満の場合の処理を一回の処理で実行することができる。

[0042] 図 10は、同じく入力ハミング距離が 3であるとき、図 7 (3)のように部分配列とその余の部分が特定された場合の割当部 404での割り振りと、選択部 405による選択を示す。図 10でも、説明を簡略ィ匕するために、 m 、 m 、 mの和が入力ハミング距離 3と

1 2 3

等しい場合について説明している。 m 、 m 、 mの和が 3になる組み合せは、同じく 1

1 2 3

0通りである力選択部 405で m +m≤m +mとなる選択が行なわれると、選択の

1 2 2 3

結果として、 6通りの組み合せが得られる。これらの組み合わせ力第一の部分配列に割り振られた m +mの値について重複を除くと、 0、 1、 2、 3の 4通りが得られる。

1 2

同じことが第二の部分配列と m +mについても言える。ただし、 m +m =m +m

2 3 1 2 2 3 となる場合が除かれるので、 m +m >m +m

1 2 2 3となる選択が行なわれる場合の数は

、 m +m≤m +mとなる選択がされる場合の数よりも少なくなる。この結果、 m +m

1 2 2 3 2 については、 0と 1との 2通りが得られる。このことは、後に説明する置換塩基配列生

3

成咅 406と検索咅 407との動作により、 m +m力 0、 1、 2、 3の場合につ！/、て、また、

1 2

m +m〖こついても 0と 1との場合について、置換塩基配列生成部 406で置換塩基配

2 3

列を生成して検索部で索引を参照して検索を行なえば、 m 、 m 、 mの和が 3になる

1 2 3

10通りの場合についての検索がカバーされることを意味する。

[0043] また、上述したのと同じように、ノ、ミング距離入力部に入力されたハミング距離が複数の部分に割り当てられ、 m +m >m +m 、 m +m≤m +mのように大きくない

1 2 2 3 1 2 2 3

方の選択が行なわれるので、上記のパラグラフの記述により得られる m +m 、 m +

1 2 2 mの値の組み合わせは、ノ、ミング距離入力部に入力されたハミング距離未満であつ

3

ても得られるものである。したがって、ノ、ミング距離 Hの場合について選択を行なうと、 H未満のノ、ミング距離カ、ミング距離入力部に入力された場合についての選択も行なわれる。

[0044] 「置換塩基配列生成部」 406は、選択部 405により選択された部分配列に対して、割当部 404で割り当てられたノ、ミング距離をもつ置換塩基配列を生成する。すなわち、選択部 405により選択された部分配列の塩基のうち、割当部 404で割り当てられたハミング距離で示される個数の塩基を適合しな、塩基に置換することを行な、、置換塩基配列を生成する。例えば、図 9の場合には、第一の部分配列について、ノ、ミング距離が 0と 1となる部分配列が置換塩基配列として生成される。また、第二の部分配列についても、ハミング距離が 0と 1となる部分配列が置換塩基配列として生成される。ノ、ミング距離力 SOであれば、第一の部分配列そのものであり、ハミング距離が 1であれば、第一の部分配列の塩基のうちの任意の 1つを、適合しない塩基に置き換えて置換塩基配列が生成される。

[0045] 同様に図 10の場合には、第一の部分配列について、ハミング距離が 0、 1、 2、 3の置換塩基配列として生成される。また、第二の部分配列についても、ノ、ミング距離が 0と 1となる部分配列が置換塩基配列として生成される。この場合、入力ハミング距離力 S3であり、また、ノ、ミング距離が 3の置換塩基配列を生成しなければいけないのは、効率が悪いように見える。しかし、 3が割り振られたのは、 mであるので、第一の部分

2

配列と第二の部分配列との共通部分に対して、ノ、ミング距離が 3となる置換塩基配列を生成すればよい。もし、その共通部分の長さが短ければ、ハミング距離が 3となる置換塩基配列の総数は限られたものとなる。このように第一の部分配列と第二の部分配列とが共通部分を持つ場合には、共通部分とそうでない部分とに割り振られたハミング距離を考慮して、共通部分とそうでない部分に個別に置換塩基配列を生成することにより、置換塩基配列の生成の効率を上げることができる。

[0046] 置換塩基配列を生成するプログラムは容易に作成することができ、例えば、ループを入れ子にしたプログラムを作成し、外側のループにより、塩基を適合しない塩基に置換する部分配列の位置を特定し、外側のループにより特定された位置の塩基を適合しない塩基に置換することを内側のループにより行なうようにすればよい。所定長を Lとし、塩基が異なるときを適合しないと定義すれば、図 9の場合には、 1 + 3 C通

し 1 りの置換塩基配列が生成される。図 10の場合には、 1 + 3 C + 3² C + 3³ C通りの置換塩基配列が生成されるが、この生成に必要な計算量は、一般に Lは入力塩基配列の長さの値よりも小さ 1、ので、入力塩基配列とハミング距離が 3となる塩基配列の全てを求める計算量より小さ!/、。

[0047] 図 18は、配列 Sにより長さが Lの部分配列に 2というハミング距離が割り当てられた場合に、その部分配列の置換塩基配列を生成するプログラムを例示する。このプログラムでは、配列の添え字は 0から始まり、 S [0]、 S [l]、 · ··、 S [L— 1]に塩基を示す A 、 C、 G、 Tのいずれかのシンボルが格納されているとする。また、例えば、 foreach a 1 in {A, C, G, T} {S}は、変数 alの値を A, C, G, Tに次々に変化させながら、 Sを実行することを表わすとしている。図 18において、 for(ll = 0 ;ll <L ;ll =ll + l )と for(12 = 0 ;12<L ;12=12+ l)とが上記の「外側のループ」を表わし、 foreach a 1 in {A, C, G, T}と foreach a2 in {A, C, G, T}とが上記の「内側のループ」を表わしている。図 18にプログラムが示されている力念のために明細書にもそのプログラムを記しておく。 for (11 = 0; 11 < L; 11 = 11 + 1) { for (12 = 11 + 1; 12 < L; 12 = 12 + 1) { foreach al in {A, C, G, T} { if (S[ll] != al ) { foreach a2 in {A, C, G, T} { if (S[12] != a2) { Sの 11番目の塩基を alに置換し、 Sの 12番目の塩基を a2に置換して得られる置換塩基配列を生成； } } } } } }。

[0048] 「検索部」 407は、置換塩基配列生成部で生成された置換塩基配列をキーとして前記索引を用いて検索を行なう。多くの場合、索引はハッシュの手法を用いて実現されている。「前記索引」とは、所定長の塩基配列の、遺伝子配列を格納したデータべ一スにおける出現を検索するための索引である。このような索引による検索により、一般には、置換塩基配列が出現する位置情報 (例えば、置換塩基配列の端の塩基が、 D NAの^端から何番目の位置の塩基になるかを示す情報）が得られる。

[0049] もし、塩基配列検索装置が遺伝子塩基配列を格納したデータベースを備えていれば、検索部 407は、そのデータベースに対して問い合わせを行なう。また、他のサーバであって、そのようなデータベースを備えているサーバがあれば、検索部 407はそのサーバに問、合わせを送信して、結果を受信するようになって!/、てもよ!/、。

[0050] (実施形態 1：処理の流れ）

図 11は、本実施形態に係る図 4の塩基配列検索装置の処理の流れ図を例示する。ステップ S1101において、塩基配列入力部 401などにより、塩基配列を入力する（塩基配列入力ステップ)。ステップ S1102において、ノ、ミング距離入力部 402などにより、ハミング距離を入力する（ハミング距離入力ステップ)。ステップ S1103において、特定部 403などにより、 2つの部分配列とその余の部分とを特定する（特定ステップ ) oステップ SI 104において、割当部 404などにより、入力されたハミング距離を分割して割り当てる (割当ステップ)。ステップ S1105において、選択部 405などにより、割当ステップで割り当てられたハミング距離を有する置換塩基配列の総数の大きくない方の部分配列を重複が発生しな、ように選択する（選択ステップ)。ステップ S 1106 において、置換塩基配列生成部 406などにより、置換塩基配列を生成する（置換塩基配列生成ステップ)。ステップ S1107において、検索部 407などにより、検索を行なう（検索ステップ）。

[0051] したがって、塩基配列検索装置は、塩基配列入力ステップ、ハミング距離入力ステップ、特定ステップ、割当ステップ、選択ステップ、置換塩基配列生成ステップ、検索ステップを含む塩基配列検索方法を使用するための装置とみなすこともできる。

[0052] なお、図 11に例示された流れ図は一例であり、ステップ S1101で入力された塩基配列の一つについて、ステップ S1102で入力されるべきハミング距離を 0、 1、 2、 3、 4などと変化させながら、その他のステップを繰り返し実行してもよい。また、ステップ S 1101を行なった後でステップ S1103を行ない、ステップ S 1102を実行して、その他のステップを実行するようになっていてもよい。入力するハミング距離を 0、 1、 2、 3、 4 などと変化させながら、ステップ S1101からステップ S1104までを実行した後に、まとめてステップ S 1105以下を実行するようにしてもよい。このようにすることにより、同じ部分配列を用いた検索を再度繰り返すことなぐ効率よく計算を進めることができる。

[0053] (実施形態 1：主な効果）

本実施形態により、検索のために必要となる計算量を小さくすることができ、また、ノ、ミング距離が所定の値、もしくはそれ以下、もしくは任意の値の組み合わせとなる、似た塩基配列を漏れなく検索することができる。

[0054] なお、図 4の機能ブロック図により表わされる塩基配列検索装置の構成は、ハードウエアとしては、任意の計算機の CPU、メモリ、その他の LSIなどにより実現することができる。また、ソフトウェアとしては、メモリにロードされたプログラムなどにより実現することができる。また、ハードウェアとソフトウェアとの連携により実現することもできる。特にソフトウェアが用いられて実現される場合には、そのようなソフトウェアを構成するプログラムを、各種の媒体に記録しておき、必要に応じて塩基配列検索装置を実現するための計算機に機械的に読み取られるようにすることができる。ここで、「媒体」とは、フレキシブルディスク、光磁気ディスク、 ROM, EPROM、 EEPROM、 CD— RO M、 MO、 DVD,フラッシュディスク等の任意の「可搬用の物理媒体」や、各種計算機システムに内蔵される ROM、 RAM, HD等の任意の「固定用の物理媒体」、あるいは LAN、 WAN,インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように短期にプログラムを保持する「通信媒体」を含むものとする。なお、ここにいう計算機とは、メインフレーム計算機に限定されることはなぐワークステーションやパーソナルコンピュータなどの情報処理装置であってもよい。また、そのような情報処理装置には、プリンタやスキャナなどの周辺装置がさらに接続されていてもよい。

[0055] また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコート等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、オペレーティングシステムに代表される別個のプログラムと協同してその機能を達成するものをも含む。なお、塩基配列検索装置において媒体を読み取るための具体的な構成、読み取り手段、あるいは、読み取り後のインストール手順等は、周知の構成や手順を用いることができる。例えば、本実施形態に係る塩基配列検索装置の、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407とは、それぞれプログラムを構成するモジュールとして実現することができる。そのようなモジュールは、当然、計算機の CPUにより制御を受けることとなる。

[0056] 本明細書では図示を省略して、るが、塩基配列検索装置は、遺伝子の塩基配列情報等に関する外部データベースの検索などを行なうための外部プログラム等を提供する外部システムに、インターネット等の通信網を介して通信可能に接続された構成であってもよい。力かる構成により、外部プログラムを実行するウェブサイトが提供される。外部システムは、 WEBサーバや ASPサーバ等として構成されてもよい。例えば、塩基配列検索装置が外部システムに通信可能に接続されてもよい。通信網の構成は特には限定されないが、例えば、ルータ等の通信装置や専用線等の有線又は無線の通信回線により構成される。

[0057] (実施形態 2：主に請求項 2につ、て説明する）

[0058] 図 12は、本発明の実施形態 2に係る塩基配列検索装置の機能ブロック図を例示する。塩基配列検索装置 1200は、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、を有し、特定部 403は、第一特定手段 1201を有している。したがって、本実施形態に係る塩基配列検索装置は、実施形態 1に係る塩基配列検索装置の特定部が第一特定手段を有した構成となって、る。

[0059] 「第一特定手段」 1201は、塩基配列入力部で入力された塩基配列の塩基数が前記所定長の 2倍以下または 2倍未満であれば、前記 2つの部分配列のうち一方の部分配列の端を前記入力塩基配列の他方の端と一致させ、その余の部分が生じず特定されないことにする。その余の部分が生じず特定されないことにより、割当部では、その余の部分にノ、ミング距離を割り当てることはしないこととなる。

[0060] すなわち、第一特定手段は、図 7 (3)のように第一の部分配列と第二の部分配列とを特定する。したがって、このような場合は実施形態 1について既に説明されているので、以後の説明は省略する。

[0061] (実施形態 3：主に請求項 3につ、て説明する）

[0062] 図 13は、本発明の実施形態 3に係る塩基配列検索装置の機能ブロック図を例示する。塩基配列検索装置 1300は、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、を有し、特定部 403は、第二特定手段 1301を有している。また、特定部 403 は、実施形態 2で説明した第一特定手段を有していてもよい。したがって、本実施形態に係る塩基配列検索装置は、実施形態 1または 2に係る塩基配列検索装置の特定部が第二特定手段を有した構成となって、る。 [0063] 「第二特定手段」 1301は、塩基配列入力部で入力された塩基配列の塩基数が前記所定長の 2倍より大であれば、前記 2つの部分配列が重ならないことにして、前記 2 つの部分配列を特定する。この場合、その余の部分が一つになるようにしてもよいし、 2つになるようにしてもよい。例えば、 2つの部分配列が入力塩基配列の左右の端に配置されるように特定したり、 2つの部分配列が連接されるように入力塩基配列を特定したりする。

[0064] すなわち、第二特定手段は、図 7 (4)のように第一の部分配列と第二の部分配列とを特定する。したがって、このような場合は実施形態 1について既に説明されているので、以後の説明は省略する。

[0065] (実施形態 4：主に請求項 4につ、て説明する）

[0066] 本発明の実施形態 4として、検索部での検索結果に基づ!/、て、類似塩基配列の候補を取得して、入力塩基配列とのハミング距離を判定する塩基配列検索装置にっ、て説明する。

[0067] (実施形態 4 :構成）

図 14は、本発明の実施形態 4に係る塩基配列検索装置の機能ブロック図を例示する。塩基配列検索装置 1400は、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、類似候補塩基配列取得部 1401と、判定部 1402と、を有している。また、特定部 403は、実施形態 2で説明した第一特定手段と実施形態 3で説明した第二特定手段とのいずれか一方または両方を有していてもよい。したがって、本実施形態に係る塩基配列検索装置は、実施形態 1から 3のいずれか一の塩基配列検索装置が類似候補塩基配列取得部 1401と、判定部 1402と、を有している構成となっている。

[0068] 「類似候補塩基配列取得部」 1401は、検索部 407での検索結果に基づいて、類似候補塩基配列を取得する。「類似候補塩基配列」とは、置換塩基配列を含んで遺伝子塩基配列に現れる塩基配列である。より具体的に説明すると、例えば、第一の部分配列の置換塩基配列により検索が行なわれ、置換塩基配列の端の塩基の位置が判明したとすると、第一の部分配列が入力塩基配列に占める位置関係を勘案して得られる塩基配列で、入力塩基配列と同じ長さの遺伝子塩基配列を取得する。すなわち、検索で得られる位置が第一の部分配列の左端の塩基の位置であるとすると、第一の部分配列の左側のその余の部分の長さ (もし、そのようなその余の部分がなければ 0とする）だけ左の位置から、入力塩基配列と同じ長さの遺伝子塩基配列を取得する。第二の部分配列の置換塩基配列について検索が行なわれた場合も同様に、第二の部分配列の右側のその余の部分の長さだけ右の位置力も左に向力つて入力塩基配列と同じ長さの遺伝子塩基配列を取得する。この取得は、データベースを検索することにより行なわれる。もし、塩基配列検索装置が、そのようなデータベースを備えていれば、そのデータベースから取得を行ない、別のサーバにそのようなデータベースが備えられていればそのサーバに取得の要求を送信して、類似候補塩基配列を得る。

[0069] 「判定部」 1402は、類似候補塩基配列取得部で取得された類似候補塩基配列と、前記入力塩基配列と、のハミング距離が、ハミング距離入力部 402に入力されたハミング距離、もしくはそれ以下、または入力されたハミング距離の組に一致するかどうかを判定する。この判定は、入力塩基配列と類似候補塩基配列との端の塩基から順に比較を行なうことにより行なうことができる。

[0070] 本実施形態に係る塩基配列検索装置の処理の流れ図は、図 11に例示された流れ図のステップ S1107の後に、類似候補塩基配列を取得するステップと、類似候補塩基配列と入力塩基配列とのハミング距離が、入力ハミング距離に等 U、かどうかを判定するステップと、を実行する流れ図となる。

[0071] (実施形態 4：主な効果）

本実施形態によれば、入力塩基配列に類似する塩基配列を取得することができ、例えば、 siRNAにより不活性ィ匕する目的の遺伝子以外に不活性ィ匕される可能性のある遺伝子の情報を得ることが可能となる。

[0072] (実施形態 5：主に請求項 5につ、て説明する）

[0073] 本発明の実施形態 5として、不適合となる塩基の組合せを指定することができる塩基配列検索装置について説明する。

[0074] (実施形態 5 :構成）

図 15は、本発明の実施形態 5に係る塩基配列検索装置の機能ブロック図を例示する。塩基配列検索装置 1500は、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、類似候補塩基配列取得部 1401と、判定部 1402と、不適合塩基組入力部 1 501と、を有している。したがって、本実施形態に係る塩基配列検索装置は、実施形態 4に係る塩基配列検索装置が不適合塩基組入力部 1501を有している構成となつている。

[0075] 「不適合塩基組入力部」 1501は、適合しない塩基の組を指定する。例えば適合しないと判断するべき塩基のペアを示すテキスト情報を入力する。あるいは、適合と判断するべき塩基のペア (例えば、 Gと U)を入力することにより、間接的に適合しないと判断するべき塩基の組が指定されるようになって、てもよ、。

[0076] 本実施形態においては、不適合塩基組入力部 1501に入力された塩基の組に基づいて検索部で検索が行なわれ、また、ノ、ミング距離が求められる。例えば、不適合塩基組入力部 1501により入力された塩基の組に基づ、て、置換塩基配列が置換塩基配列生成部 406で生成され、検索部 407では検索のためのデータベースが選択され、判定部 1402でハミング距離が求められる。

[0077] (実施形態 5：主な効果）

本実施形態によれば、例えば、 Gと Uのように弱いながらも結合する可能性のある塩基の組合せを考慮することができ、より正確な塩基配列の設計を行なうことが可能となる。

[0078] (実施形態 6：主に請求項 6につ、て説明する）

[0079] 本発明の実施形態 6として、入力塩基配列と類似塩基配列との塩基の適合の分布を指定することができる塩基配列検索装置について説明する。

[0080] (実施形態 6 :構成）

図 16は、本発明の実施形態 6に係る塩基配列検索装置の機能ブロック図を例示する。塩基配列検索装置 1600は、塩基配列入力部 401と、ハミング距離入力部 402と、特定部 403と、割当部 404と、選択部 405と、置換塩基配列生成部 406と、検索部 407と、類似候補塩基配列取得部 1401と、判定部 1402と、適合分布入力部 1601 と、を有しており、判定部 1402は、判定手段 1602を有している。また、塩基配列検索装置 1600は、実施形態 5にて説明した不適合塩基組入力部を有していてもよい。したがって、本実施形態に係る塩基配列検索装置は、実施形態 4または 5に係る塩基配列検索装置が、適合分布入力部 1601を有し、判定部 1402は、判定手段 160 2を有して、る構成となって!/、る。

[0081] 「適合分布入力部」 1601は、塩基配列入力部 401に入力された塩基配列と類似塩基配列との対応する塩基の適合の分布を表わす分布情報を入力する。分布情報の例としては、 5'端側の方に塩基の不適合の発生が少ない、あるいは、多い、塩基の不適合がほぼ等間隔で発生していることを示す情報がある。分布情報は、例えば、塩基の適合の分布を判定するプログラムであってもよい。あるいは、あら力じめ塩基の適合の分布の類型をいくつか決めておき、それらを選択するための情報であってちょい。

[0082] 「分布判定手段」 1602は、適合分布入力部 1602で入力された分布情報が満たされて、るかどうかを判定する。

[0083] 判定部 1402は、例えば、類似塩基配列とともに、分布判定手段での判定の結果を表示するようになって、てもよ、。

[0084] (実施形態 6：主な効果）

本実施形態により、より正確な塩基配列の設計を行なうことが可能となる。

[0085] (実施形態 7：主に請求項 7につ、て説明する）

[0086] 本発明の実施形態 7に係る塩基配列検索装置は、実施形態 6に係る塩基配列検索装置において、適合分布入力部 1601で入力される分布情報を、塩基配列と類似塩基配列との対応する塩基が連続して適合する長さの下限としたものである。

[0087] 2つの塩基配列において、対応する塩基に不適合となるものがあっても、対応する塩基が連続して適合していると、結合 (ハイブリダィズ)してしまう場合がある。本実施形態においては、塩基が連続して適合する長さの下限を指定することにより、結合してしまう可能性のある類似塩基配列を検出するようにしたものである。

[0088] (実施形態 8：主に請求項 8につ、て説明する）

[0089] 本発明の実施形態 8は、実施形態 1から 7のいずれか一の実施形態において、塩基配列入力部に入力される塩基配列の長さを 15から 60まで、望ましくは 15から 25までとし、所定長を 11から 14とした実施形態である。

[0090] 塩基配列入力部に入力される塩基配列の長さを 15から 60まで、望ましくは 15から 25までとすることにより、本実施形態に係る塩基配列検索装置を siRNAの設計に適したものとすることができる。また、発明者がベンチマークテストに用いたデータべ一スでは、入力塩基配列の長さが 19または 20のときには、所定長を 11から 14とした場合が、最も高速に検索が行なえた。これは、所定長が小さいと、類似候補塩基配列の候補の数が多くなり、一方、所定長を大きくすると、置換塩基配列生成部での置換塩基配列の生成に計算量が必要となるとともに、索引を構成するノ、ッシュテーブルに対して問い合わせを行なった際のミスヒットが増加する、すなわち、もともとのデータべース中に存在しない配列を問い合わせすることになる場合が増え、計算量が増加するためためであり、その中間点が、所定長が 11から 14である場合と考えられる。また、塩基配列入力部に入力される塩基配列の長さは、 19または 20に限定されることなく、 15から 60までは実用的に検索を行なうことができることが確認できた。なお、 61 以上になると急激にパフォーマンスの低下などが発生し実用に堪えなくなるというわけではなぐ入力される塩基配列の長さが大きくなるにつれて徐々にパフォーマンスが低下することが確認された。したがって、 60程度の長さのオリゴ DNAの配列の決定にも本発明は使用することができることが確認できている。

[0091] (実施形態 9：主に請求項 10、 11につ、て説明する）

[0092] 以上、データベースに格納された遺伝子塩基配列に対する検索について述べたが、本発明の技術は、遺伝子塩基配列に限らず、一般の文字列検索などに応用することができる。すなわち、遺伝子塩基配列は、 4つの塩基が一次元に配列したものであるので、それぞれの塩基を、文字列を構成するアルファベットとみなすことにより、遺伝子塩基配列を文字列とみなすことができる。また、上記の説明から判明するように、塩基の数力である点は、本発明の技術を一般の文字列に対して適用する制限とはならない。

[0093] したがって、本発明の技術により、データベースに蓄積された文字列から、入力された文字列に類似する文字列を検索することが可能となる。ここに「類似する」とは、入力された文字列力所定のハミング距離となる文字列、または入力された文字列力所定のハミング距離未満となる文字列を意味する。

[0094] したがって、次の文字列検索装置が提供される。すなわち、アルファベットが一次元に配列した文字列を格納したデータベースを検索するための索引であり、所定の長さである所定長の文字列が前記データベースに格納された文字列の中に出現する位置を検索するための索引、を用いて、入力される文字列と同じ長さで類似する文字列であり前記前記データベースに格納された文字列に出現する文字列である類似文字列を検索するための文字列検索装置であって、前記所定長を超える長さの文字列を入力する文字列入力部と、前記文字列入力部に入力された文字列である入力文字列に対して、適合しな、アルファベットへの置換の操作を行なうアルファベットの個数を示すハミング距離を入力するハミング距離入力部と、前記入力文字列の部分文字列であって、前記所定長の長さを持ち異なる 2つの部分文字列と、その余の部分と、を特定する特定部と、前記特定部で特定された部分文字列とその余の部分とに、前記ノ、ミング距離入力部で入力されたハミング距離を分割して割り当てる割当部と、前記特定部で特定された 2つの部分文字列のうち、前記割当部で割り当てられたハミング距離で示される個数のアルファベットを適合しないアルファベットへ置換する操作を前記部分文字列に対して行なって生成される文字列である置換文字列の総数が大きくない方を選択する選択部と、前記選択部により選択された部分文字列に対して、前記割当部で割り当てられたハミング距離をもつ置換文字列を生成する置換文字列生成部と、前記置換文字列生成部で生成された置換文字列を検索キーとして前記索引を用いて検索を行なう検索部と、を有する文字列検索装置を提供することが可能となる。

[0095] また、文字列のアルファベットをペプチドとすることにより、本発明の技術をペプチド配列の類似検索、すなわち、入力されたペプチド配列に類似のペプチドを検索することにち使用することがでさる。

[0096] (実施形態 10 :主に請求項 12について説明する）

[0097] 本発明の実施形態 10として、実施形態 1から 8のいずれかの塩基配列検索装置について、リピート配列の検索について改良を行なった実施形態について説明する。

[0098] (実施形態 10 :構成）図 19は、本発明の実施形態 10に係る塩基配列検索装置の機能ブロック図を例示する。本実施形態に係る塩基配列検索装置は、実施形態 1から 8のいずれかの塩基配列検索装置が、リピート配列蓄積部 1901と、リピート配列情報蓄積部 1902と、を有し、検索部 407が、リピート配列判定手段 1903と、リピート配列検索手段 1904と、を有する構成となっている。図 19は、実施形態 1に係る塩基配列検索装置が、これらの部、手段を有する場合の機能ブロック図である。

[0099] 「リピート配列蓄積部」 1901は、遺伝子塩基配列中に繰り返して出現する前記所定長の塩基配列を蓄積する。「前記所定長」とは、塩基配列検索装置が用いる索引によって定まる値であり、塩基配列が遺伝子塩基配列のどの位置に現れるかをその索引により検索できるような塩基配列の長さである。

[0100] 遺伝子塩基配列の中に同じ塩基配列が複数回出現することが知られており、塩基配列によっては、その塩基配列の種類は少ないが、膨大な回数にのぼって遺伝子塩基配列に出現することが知られている。もし、置換塩基配列生成部 406で生成される置換塩基配列がこのような膨大な回数にのぼって遺伝子塩基配列に出現すると、実施形態 1から 8の塩基配列検索装置の行なう処理の効率を低下させる。そこで、本実施形態では、置換塩基配列生成部 406で生成される置換塩基配列が、遺伝子塩基配列中に繰り返して出現する場合を特別に扱うことにする。このために、まず、遺伝子塩基配列中に繰り返して出現する塩基配列をリピート配列蓄積部 1901に蓄積する。

[0101] 図 20は、遺伝子塩基配列中に繰り返して出現する塩基配列を表に格納した状態を例示する。遺伝子塩基配列中に繰り返して出現する塩基配列を一意に識別する識別子とその塩基配列を同じ行に格納することにより、識別子と塩基配列を関連づけて表に格納している。

[0102] 「リピート配列情報蓄積部」 1902は、リピート配列情報を蓄積する。リピート配列情報とは、リピート配列蓄積部 1901に蓄積された塩基配列に、その塩基配列の遺伝子配列中における出現位置を関連付けた情報である。

[0103] 図 21は、リピート配列情報を蓄積するための表を例示する。この表では、図 20の表で使用されている識別子と、塩基配列が遺伝子塩基配列の中に出現する位置と、を同じ行に格納することにより、関連づけを行なっている。「リピート配列識別子」という名前の列には、識別子が格納され、「出現位置」という名前の列には、塩基配列が遺伝子塩基配列の中に出現する位置が格納されて、る。

[0104] 「リピート配列判定手段」 1903は、置換塩基配列生成部 406で生成された置換塩基配列が、リピート配列蓄積部 1901に蓄積されているかどうかを判定する。例えば、図 20の表の「リピート配列」という名前の列に、置換塩基配列が格納されているかどうかを調べる。この処理は、キーとして「リピート配列」という名前の列に格納されている塩基配列を持ち、バリューとして「リピート配列識別子」という名前の列に格納されている識別子を持つ索引（例えば、 B+木により構成されるもの）を用いることにより、高速に行なうことができる。なお、リピート配列判定手段 1903により、リピート配列蓄積部 1901に蓄積されていると判定される塩基配列をリピート配列と呼ぶことにする。

[0105] 「リピート配列検索手段」 1904は、リピート配列判定手段 1903にて、置換塩基配列力 Sリピート配列蓄積部 1901に蓄積されていると判定された場合には、リピート配列情報蓄積部 1902に蓄積されたリピート配列情報に基づいて検索を行なう。例えば、図 20の表よりリピート配列識別子という列に格納されている識別子を得て、図 21の表より出現位置を求め、遺伝子塩基配列におけるその出現位置の前後の塩基配列を取得して、その塩基配列が入力塩基配列と所定のハミング距離以下であるかどうかの判断を行なうなどして検索を行なう。

[0106] (実施形態 10 :処理の流れ）

図 22は、本実施形態に係る図 19の塩基配列検索装置の検索部での処理の流れを説明するフローチャートを例示する。ステップ S2201において、リピート配列判定手段により、置換塩基配列がリピート配列であるかどうかを判定する。もし、リピート配列である場合 (すなわち、ステップ S2201において YESに分岐する場合)ならば、処理をステップ S2202へ進め、リピート配列検索手段 1904により、リピート配列情報に基づいて検索を行なう。もし、リピート配列でない場合 (すなわち、ステップ S2201において NOへ分岐する場合)ならば、ステップ S2203へ処理を進め、実施形態 1ないし 8による類似塩基配列の検索を行なう。また、リピート配列である場合ならば検索を行なわず、リピート配列でな、と判断された場合のみ検索することも可能である。 [0107] (実施形態 10：主な効果）

本実施形態では、置換塩基配列がリピート配列である場合には、リピート配列用の検索処理を行なうことにより、リピート配列による検索スピードの低下を防止することができる。

[0108] (実施形態 11 :主に請求項 13について説明する）

[0109] 本発明の実施形態 11として、類似塩基配列の検索結果を蓄積する塩基配列検索装置について説明する。

[0110] (実施形態 11 :構成）

図 23は、本発明の実施形態 11に係る塩基配列検索装置の機能ブロック図を例示する。本実施形態に係る塩基配列検索装置は、実施形態 4から 7のいずれかの塩基配列検索装置が、類似塩基配列蓄積部 2301を有する構成となっている。図 23は、実施形態 4に係る塩基配列検索装置が、類似塩基配列蓄積部 2301を有する場合の機能ブロック図である。

[0111] 「類似塩基配列蓄積部」 2301は、判定部 1402にて、入力塩基配列と、類似候補塩基配列取得部 1401により取得された類似塩基配列と、のハミング距離力 Sハミング距離入力部 402に入力されたハミング距離以下であると判定された場合、 (1)その入力塩基配列と、（2)その入力塩基配列とその類似塩基配列とのハミング距離と、 (3) その類似塩基配列と、を関連付けて蓄積する。

[0112] 図 24は、（1)入力塩基配列と、（2)その入力塩基配列とその類似塩基配列とのハミング距離と、（3)その類似塩基配列と、を関連付けて蓄積するための表の構造を例示する。「入力塩基配列」、「ハミング距離」、「類似塩基配列」という名前のそれぞれの列に、（1)入力塩基配列と、（2)その入力塩基配列とその類似塩基配列とのハミング距離と、（3)その類似塩基配列と、が格納される。

[0113] (実施形態 11 :処理の流れ）

図 25は、本実施形態に係る塩基配列検索装置の判定部と類似塩基配列蓄積部との処理の流れを説明するフローチャートを例示する。ステップ S2501において、判定部により、入力塩基配列と類似塩基配列とのハミング距離が入力されたハミング距離であるかどうかを判定する。もし、そうであれば、ステップ S2501の YESの枝へ分岐し、ステップ S2502において、類似塩基配列蓄積部 2301に、（1)入力塩基配列と、 (2 )ハミング距離と、（3)類似塩基配列と、を関連付けて蓄積する。ステップ S2501で N Oの枝へ分岐する場合には、ステップ S2502は実行しない。

[0114] (実施形態 11：主な効果）

本実施形態では、塩基配列検索装置の検索結果が類似塩基配列蓄積部 2301に蓄積されるので、もし、既に検索対象と同じ入力塩基配列と同じハミング距離とに対して検索が行なわれているかどうかを、類似塩基配列蓄積部 2301に蓄積された情報を検索して判断することにより、類似塩基配列の検索を効率よく行なうことができる。本実施形態に係る塩基配列検索装置は、例えば、インターネットなどにより検索のサ一ビスを多数の人に提供する場合に特に有用である。例えば、第一の人が検索を行ないその後、第二の人が同じ検索を行なった場合、第二の人には、第一の人に対して提供した検索の結果を流用することにより、応答時間の短縮や、塩基配列検索装置の負荷の低減を行なうことができる。

[0115] (実施形態 12 :主に請求項 14について説明する）

[0116] 本発明の実施形態 12として、会合率を計算する塩基配列検索装置について説明する。ここに「会合率」とは、 2種類の塩基配列を液体の中などの流動性のある環境下に置ヽた場合、どれだけの割合でその 2種類の塩基配列が結合するかを示す値である。このような値は、塩基配列より物理化学的な計算を行なうことにより計算することができる。例えば、上記の非特許文献 1として挙げた文献にその計算方法が開示されている。

[0117] (実施形態 12 :構成）

図 26は、本発明の実施形態 12に係る塩基配列検索装置の機能ブロック図を例示する。本実施形態に係る塩基配列検索装置は、実施形態 4から 7のいずれかの塩基配列検索装置が、会合率計算部 2601を有する構成となっている。図 26は、実施形態 4に係る塩基配列検索装置が、会合率計算部 2601を有する場合の機能ブロック図である。

[0118] 「会合率計算部」 2601は、類似候補塩基配列取得部 1401により取得された類似候補塩基配列と塩基配列入力部 401により入力された入力塩基配列とのハミング距離カ、ミング距離入力部 402に入力されたハミング距離以下であると判定された場合に、 (1)塩基配列入力部 401により入力された入力塩基配列と (2)類似候補塩基配列取得部 1401で取得された類似候補塩基配列との会合率を計算する。例えば、液体の温度、 pHなどの条件を設定しておき、その条件での会合率を物理化学的に計算する。なお、会合率を計算する場合には、入力塩基配列を構成する塩基または類似候補塩基配列を構成する塩基を相補的な塩基に置換する。

[0119] (実施形態 12 :主な効果）

本発明の塩基配列検索装置では、入力塩基配列とハミング距離が所定の値以下の塩基配列を効率よく検索することができ、しかも、実際にウエット実験を行なった場合にどれだけの会合率となるかを得ることができ、実験結果や RNA干渉を用いた薬の効果の予測などを行なうことができる。

[0120] (実施形態 13 :主に請求項 15について説明する）

[0121] 本発明の実施形態 13として、ウエット実験などでコントロールとして用いることができる塩基配列を検索する装置について説明する。

[0122] (実施形態 13 :構成）

図 27は、本発明の実施形態 13に係る無効果塩基配列生成装置の機能ブロック図を例示する。無効果塩基配列生成装置 2700は、塩基配列取得部 2701と、無効果候補置換塩基配列生成部 2702と、無効果候補置換塩基配列入力部 2703と、第二ノ、ミング距離入力部 2704と、選択部 2705と、を有する。

[0123] 「塩基配列取得部」 2701は、前記所定長を超える長さの塩基配列を取得する。「前記所定長」とは、実施形態 10で説明したように、実施形態 4から 7のいずれかに係る塩基配列検索装置が用いる索引によって定まる値であり、塩基配列が遺伝子塩基配列のどの位置に現れるかをその索引により検索できるような塩基配列の長さである。塩基配列取得部は、例えば、通信網を介してクライアント装置と接続され、そのクライアント装置で動作する WEBブラウザなどに入力された塩基配列を取得する。塩基配列取得部 2701が取得する塩基配列は、例えば、目的とする mRNAの機能をさせな V、ことが判明した塩基配列である。

[0124] 「無効果候補置換塩基配列生成部」 2702は、無効果候補置換塩基配列を生成する。「無効果候補置換塩基配列」とは、塩基配列取得部で取得された塩基配列の塩基のうち、所定の個数の塩基を置換して得られる塩基配列である。例えば、塩基配列の長さが 21であり、所定の個数が 3であれば、（4 I) ³ Cの個数の無効果候補置

21 3

換塩基配列を生成する（「4—1」の 4は、塩基の種類力であることを示す)。また、全ての無効果候補置換塩基配列するのではなぐ特別な知見に基づいて目的とする m RNAの塩基配列と会合率が低くなると予測される塩基配列を生成するようにしてもよい。また、出現回数の少ない配列を用いて無効化候補置換塩基配列を生成するようにしてもよい。

[0125] 「無効果候補置換塩基配列入力部」 2703は、無効果候補置換塩基配列生成部 2 702で生成された無効果候補置換塩基配列を実施形態 12に係る塩基配列検索装置 2706に入力する。例えば、無効果塩基配列生成装置と実施形態 12に係る塩基配列検索装置とが LANなどで接続されていれば、実施形態 12に係る塩基配列検索装置へ向けて無効果候補置換塩基配列を表わす情報を送信する。

[0126] 「第二ノヽミング距離入力部」 2704は、無効果候補置換塩基配列入力部 2703が無効果候補置換塩基配列を入力した塩基配列検索装置 2706に所定のハミング距離を入力する。例えば、無効果候補置換塩基配列入力部 2703が無効果候補置換塩基配列を入力するときに所定のハミング距離を入力する。

[0127] 「選択部」 2705は、無効果候補置換塩基配列入力部の入力と第二ハミング距離入力部 2704の入力とにより塩基配列検索装置 2706より得られた会合率の低い塩基配列を選択する。例えば、ある無効果候補置換塩基配列とそれに類似する類似塩基配列との会合率が 50%であり、別の無効果候補置換塩基配列とそれに類似する類似塩基配列との会合率が 10%であれば、後者の無効果候補置換塩基配列を選択し、効果の無、塩基配列として無効果塩基配列生成装置の利用者に表示などする。

[0128] (実施形態 13 :処理の流れ）

図 28は、本実施形態に係る無効果塩基配列生成装置の処理の流れを説明するフローチャートを例示する。ステップ S2801において、塩基配列を、塩基配列取得部 2 701により取得する。ステップ S2802において、無効果候補置換塩基配列を、無効果候補置換塩基配列生成部 2702により生成する。ステップ S2803において、塩基配列検索装置 2706に、無効果候補置換塩基配列と所定のハミング距離を入力する。ステップ S2803は、個々の無効果候補置換塩基配列に対して一回ずつ行なわれ、個々の無効果候補置換塩基配列に対して会合率が取得される。ステップ S2804においては、会合率の低い無効果候補置換塩基配列を、選択部 2705により選択する

[0129] (実施形態 13：主な効果）

本実施形態により、与えられた塩基配列に似た塩基配列であって、会合率の低いものを選択することができる。選択により得られた塩基配列は、効果のない塩基配列と推定されるので、ウエット実験におけるコントロールなどとして用いることができる。

[0130] (実施形態 14 :主に請求項 16について説明する）

[0131] 本発明の実施形態 14として、本発明の塩基配列検索装置を用いた塩基配列のァラインメントを行なう装置について説明する。

[0132] 図 29は、本発明の実施形態 14における装置による処理の概要を説明するための図である。遺伝子塩基配列 2901があるとして、この配列のどの部分に、塩基配列 29 02と似た塩基配列が存在するかを知りたいとする。この場合において、塩基配列 29 02の部分配列 2903を得る。部分配列 2903の長さは、本発明の塩基配列検索装置に適した長さであり、望ましくは 15から 25である。そして、本発明の塩基配列検索装置を用いて、部分配列 2903の類似塩基配列 2904を遺伝子塩基配列 2901の中に見つける。その後、部分配列 2903と類似塩基配列 2904との前後の塩基の配列を、ダイナミックプログラミングなどによる従来知られている手法を用いて、比較する。このような操作により、遺伝子塩基配列 2901のどの部分に塩基配列 2902と似た塩基配列が存在する力を効率良く知ることができる。

[0133] (実施形態 14 :構成）

図 30は、本発明の実施形態 14に係る塩基配列アラインメント装置の機能ブロック図を例示する。塩基配列アラインメント装置 3000は、第二塩基配列取得部 3001と、部分塩基配列選択部 3002と、部分塩基配列入力部 3003と、第三ハミング距離入力部 3004と、アラインメント部 3005と、を有する。

[0134] 「第二塩基配列取得部」 3001は、前記所定の長さを超える塩基配列を取得する。 [0135] 「部分塩基配列選択部」 3002は、第二塩基配列取得部 3001で取得された塩基配列の一部分である部分塩基配列を選択する。例えば、第二塩基配列取得部 3001で取得された塩基配列から長さが 15から 25の長さの塩基配列を選択する。取得される部分塩基配列は、実施形態 12で説明したリピート配列にならないのが望ましい。なぜなら、アラインメントの候補が多数発見されてしまい後に説明するステップ S3104 を多くの回数実行しなければいけなくなるからである。そのため、実施形態 12のように、リピート配列蓄積部が塩基配列アラインメント装置に備わっており、そのリピート配列蓄積部に蓄積された内容を参照して、部分塩基配列が取得されるようになっていてもよい。

[0136] 「部分塩基配列入力部」 3003は、部分塩基配列選択部で選択された部分塩基配列を実施形態 4から 8のいずれかに係る塩基配列検索装置 3006に入力する。

[0137] 「第三ノ、ミング距離入力部」 3004は、所定のハミング距離を部分塩基配列入力部が部分塩基配列を入力した塩基配列検索装置 3006に入力する。部分塩基配列入力部 3003と第三ハミング距離入力部 3004とによるそれぞれの入力により、部分塩基配列の類似塩基配列が求まり、遺伝子塩基配列中での位置が求まる。

[0138] 「アラインメント部」 3005は、部分塩基配列入力部 3003による入力と第三ハミング距離入力部 3004による入力とが行われることによって塩基配列検索装置 3006より得られた検索の結果に基づ、て、第二塩基配列取得部 3001により取得された塩基配列を遺伝子塩基配列にアラインメントする。例えば、部分塩基配列が符号 2903で示される部分であるとして、部分塩基配列の類似塩基配列が符号 2904で示される部分であることが、塩基配列検索装置 3006により判明したとすると、符号 2904で示される塩基配列の前後の塩基配列と、符号 2902で示される塩基配列がどの程度似て!、るかを示すスコア値などを、ダイナミックプログラミングの手法などを用いて計算する。

[0139] (実施形態 14 :処理の流れ）

図 31は、本実施形態に係る図 30の塩基配列アラインメント装置の処理の流れを説明するフローチャートを例示する。ステップ S3101において、第二塩基配列取得部 3 001により、塩基配列を取得する。ステップ S3102において、部分塩基配列選択部 3 002において、部分塩基配列を選択する。ステップ S3103において、部分塩基配列入力部 3003と第三ハミング距離入力部 3004とにより、部分塩基配列とハミング距離を塩基配列検索装置 3006へ入力する。ステップ S3104により、塩基配列検索装置 3006による検索の結果に基づいて塩基配列を遺伝子塩基配列にアラインメントする。ステップ S3104は、ステップ S3103で得られた検索の結果だけ繰り返して実行される。

[0140] (実施形態 14：主な効果）

従来のアラインメントの手法では、 BLASTなどが用いられていた力 BLASTなどを用いると、例えば連続する 7merがー致する塩基配列の検索を行なって類似する塩基配列が遺伝子塩基配列のどこに出現するかを求めることになるので、ァラインメントを正確に行なうことが困難な場合があった。本発明では、部分塩基配列の類似塩基配列を検索するので、より正確なアラインメントを行なうことができる。

産業上の利用可能性

[0141] 本発明に係る塩基配列検索装置及び塩基配列検索方法は、検索のために必要となる計算量を小さくすることができ、また、ノ、ミング距離が所定の値以下となり、すなわち、似た塩基配列の存在を見落とすことも無いので、塩基配列などの設計に有用である。例えば、本発明に係る塩基配列検索装置及び塩基配列検索方法を、 siRNA の塩基配列設計に適用した場合、特に、 RNA干渉 (RNAi)効果の高い siRNAを設計可能とする種々の所定ガイドライン (具体的には、 Ui-Teiらによるガイドライン Ui-Tei, ., Naito'Y., Takahasni. ., Haraguchi.T., Ohki— Hamazaki'H., Juni'A., Ueda'R. and Saigo.K., 'Guidelines for the selection of hignly effective siRNA sequences for mammalian and chick RNA interference', Nucleic Adas Research, 2004, Vol. 32, No.3, 936-948等）と組み合わせて適用した場合に、作業に要する時間の短縮及び適切な設計の点から、より有効である。

図面の簡単な説明

[0142] [図 1]RNA干渉の過程の概略を示す図

[図 2]マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を説明するための図 [図 3]BLASTで見落とされる可能性のある塩基配列を説明するための図

圆 4]本発明の実施形態 1に係る塩基配列検索装置の機能ブロック図

[図 5]ハミング距離が 3の塩基配列の一例図

圆 6]ハミング距離の定義を示す図

[図 7]特定される 2つの部分配列とその余の部分との一例図

圆 8]ノ、ミング距離の割り振りを説明するための図

圆 9]割当部によるハミング距離の割り振りと選択部による選択を説明するための図圆 10]割当部によるハミング距離の割り振りと選択部による選択を説明するための図圆 11]本発明の実施形態 1に係る塩基配列検索装置の処理の流れ図

圆 12]本発明の実施形態 2に係る塩基配列検索装置の機能ブロック図

圆 13]本発明の実施形態 3に係る塩基配列検索装置の機能ブロック図

圆 14]本発明の実施形態 4に係る塩基配列検索装置の機能ブロック図

圆 15]本発明の実施形態 5に係る塩基配列検索装置の機能ブロック図

圆 16]本発明の実施形態 6に係る塩基配列検索装置の機能ブロック図

[図 17]ノ、ミング距離を分割して割り当てるプログラムの一例図

圆 18]置換塩基配列を生成するプログラムの一例図

圆 19]本発明の実施形態 10に係る塩基配列検索装置の機能ブロック図

[図 20]リピート配列を格納する表の一例図

圆 21]リピート配列情報を蓄積するための表の一例図

[図 22]本発明の実施形態 10に係る塩基配列検索装置の検索部の処理のフローチヤート

圆 23]本発明の実施形態 11に係る塩基配列検索装置の機能ブロック図

圆 24]入力塩基配列とハミング距離と類似塩基配列とを関連付けて蓄積するための表の構造図

圆 25]本発明の実施形態 11に係る塩基配列検索装置の判定部と類似塩基配列蓄積部との処理のフローチャート

圆 26]本発明の実施形態 12に係る塩基配列検索装置の機能ブロック図

圆 27]本発明の実施形態 13に係る無効果塩基配列生成装置の機能ブロック図 [図 28]本発明の実施形態 13に係る無効果塩基配列生成装置の処理のフローチヤ一卜

[図 29]本発明の実施形態 14における装置による処理の概要図

[図 30]本発明の実施形態 14に係る塩基配列アラインメント装置の機能ブロック図

[図 31]本発明の実施形態 14に係る塩基配列アラインメント装置の処理のフローチヤート

符号の説明

400 塩基配列検索装置

401 塩基配列入力部

402 ハミング距離入力部

403 特定部

404 割当部

405 選択部

406 置換塩基配列生成部

407 検索部

Claims

請求の範囲

[1] 遺伝子情報を表わす遺伝子塩基配列を格納したデータベースを検索するための索引であり、所定の長さである所定長の塩基配列が前記遺伝子塩基配列の中に出現する位置を検索するための索引、を用いて、入力される塩基配列と同じ長さで類似する塩基配列であり前記遺伝子塩基配列に出現する塩基配列である類似塩基配列を検索するための塩基配列検索装置であって、

前記所定長を超える長さの塩基配列を入力する塩基配列入力部と、

前記塩基配列入力部に入力された塩基配列である入力塩基配列に対して、適合しない塩基への置換の操作を行なう塩基の個数を示すハミング距離を入力するハミング距離入力部と、

前記入力塩基配列の部分配列であって、前記所定長の長さを持ち異なる 2つの部分配列と、その余の部分と、を特定する特定部と、

前記特定部で特定された部分配列とその余の部分とに、前記ハミング距離入力部で入力されたハミング距離を分割して割り当てる割当部と、

前記特定部で特定された 2つの部分配列のうち、前記割当部で割り当てられたハミング距離で示される個数の塩基を適合しない塩基へ置換する操作を前記部分配列に対して行なって生成される塩基配列である置換塩基配列の総数が大きくない方を選択する選択部と、

前記選択部により選択された部分配列に対して、前記割当部で割り当てられたハミング距離をもつ置換塩基配列を生成する置換塩基配列生成部と、

前記置換塩基配列生成部で生成された置換塩基配列を検索キーとして前記索引を用いて検索を行なう検索部と、

を有する塩基配列検索装置。

[2] 前記特定部は、

前記塩基配列入力部で入力された塩基配列の塩基数が前記所定長の 2倍以下または 2倍未満であれば、前記 2つの部分配列のうちの一方の部分配列の端を前記入力塩基配列の一方の端と一致させ、前記 2つの部分配列のうちの他方の部分配列の端を前記入力塩基配列の他方の端と一致させ、その余の部分が生じず特定されないことにする第一特定手段を有する請求項 1に記載の塩基配列検索装置。

[3] 前記特定部は、

前記塩基配列入力部で入力された塩基配列の塩基数が前記所定長の 2倍より大であれば、前記 2つの部分配列が重ならな、ことにして前記 2つの部分配列を特定する第二特定手段を有する請求項 1または 2に記載の塩基配列検索装置。

[4] 前記検索部での検索結果に基づ!、て、前記置換塩基配列を含んで遺伝子塩基配列に現れる塩基配列である類似候補塩基配列を取得する類似候補塩基配列取得部と、

前記類似候補塩基配列取得部で取得された類似候補塩基配列と前記入力塩基配列とのハミング距離が前記ハミング距離入力部に入力されたハミング距離と同じ、又はそれ未満であるかどうかを判定する判定部と、

を有する請求項 1から 3のいずれか一に記載の塩基配列検索装置。

[5] 適合しな!ヽ塩基の組を指定する不適合塩基組入力部を有し、不適合塩基組入力部に入力された塩基の組に基づいて、検索部で検索が行なわれ、また、ノ、ミング距離が求められる請求項 4に記載の塩基配列検索装置。

[6] 前記塩基配列入力部に入力された塩基配列と類似塩基配列との対応する塩基の適合の分布を表わす分布情報を入力する適合分布入力部を有し、

前記判定部は、前記適合分布入力部で入力された分布情報が満たされて!/ヽるかどうかを判定する分布判定手段を有する請求項 4または 5のいずれか一に記載の塩基配列検索装置。

[7] 前記適合分布入力部で入力される分布情報は、塩基配列と類似塩基配列との対応する塩基が連続して適合する長さの下限である請求項 6に記載の塩基配列検索装置。

[8] 前記塩基配列入力部に入力される塩基配列の長さは 15から 60であり、前記所定長は、 11から 14である請求項 1から 7のいずれか一に記載の塩基配列検索装置。

[9] 遺伝子情報を表わす遺伝子塩基配列を格納したデータベースを検索するための索引であって、所定の長さである所定長の塩基配列が前記遺伝子塩基配列の中に出現する位置を検索するための索引、を用いて、入力される塩基配列と同じ長さで類似する塩基配列であり前記遺伝子塩基配列に出現する塩基配列である類似塩基配列を検索するための塩基配列検索方法であって、

前記所定長を超えるの長さの塩基配列を入力する塩基配列入力ステップと、前記塩基配列入力部に入力された塩基配列である入力塩基配列に対して、適合しない塩基への置換の操作を行なう塩基の個数を示すハミング距離を入力するハミング距離入力ステップと、

前記入力塩基配列の部分配列であって、前記所定長の長さを持ち異なる 2つの部分配列と、その余の部分と、を特定する特定ステップと、

前記特定ステップで特定された 2つの部分配列とその余の部分とに、前記ハミング距離入力ステップにて入力されたハミング距離を分割して割り当てる割当ステップと、前記特定ステップで特定された 2つの部分配列のうち、前記割当部で割り当てられたハミング距離で示される個数の塩基を適合しない塩基へ置換する操作を前記部分配列に対して行なって生成される塩基配列である置換塩基配列の総数が大きくない方を選択する選択ステップと、

前記選択ステップにより選択された部分配列に対して、前記割当ステップにて割り当てられたハミング距離をもつ置換塩基配列を生成する置換塩基配列生成ステップと、

前記置換塩基配列生成ステップで生成された部分配列を検索キーとして前記索引を用いて検索を行なう検索ステップと、

を含む塩基配列検索方法。

アルファベットが一次元に配列した文字列を格納したデータベースを検索するための索引であり、所定の長さである所定長の文字列が前記データベースに格納された文字列の中に出現する位置を検索するための索引、を用いて、入力される文字列と同じ長さで類似する文字列であり前記前記データベースに格納された文字列に出現する文字列である類似文字列を検索するための文字列検索装置であって、

前記所定長を超える長さの文字列を入力する文字列入力部と、

前記文字列入力部に入力された文字列である入力文字列に対して、適合しな、ァルファベットへの置換の操作を行なうアルファベットの個数を示すハミング距離を入力するハミング距離入力部と、

前記入力文字列の部分文字列であって、前記所定長の長さを持ち異なる 2つの部分文字列と、その余の部分と、を特定する特定部と、

前記特定部で特定された部分文字列とその余の部分とに、前記ハミング距離入力部で入力されたハミング距離を分割して割り当てる割当部と、

前記特定部で特定された 2つの部分文字列のうち、前記割当部で割り当てられたノ、ミング距離で示される個数のアルファベットを適合しないアルファベットへ置換する操作を前記部分文字列に対して行なって生成される文字列である置換文字列の総数が大きくない方を選択する選択部と、

前記選択部により選択された部分文字列に対して、前記割当部で割り当てられたノ、ミング距離をもつ置換文字列を生成する置換文字列生成部と、

前記置換文字列生成部で生成された置換文字列を検索キーとして前記索引を用いて検索を行なう検索部と、

を有する文字列検索装置。

[11] 前記文字列は、ペプチド配列である請求項 10に記載の文字列検索装置。

[12] 遺伝子塩基配列中に繰り返して出現する前記所定長の塩基配列を蓄積するリビート配列蓄積部と、

前記リピート配列蓄積部に蓄積された塩基配列に、その塩基配列の前記遺伝子塩基配列中における出現位置を関連付けた情報であるリピート配列情報を蓄積するリピート配列情報蓄積部と、

を有し、

前記検索部は、

前記置換塩基配列が前記リピート配列蓄積部に蓄積されているかどうかを判定するリピート配列判定手段と、

前記リピート配列判定手段にて前記置換塩基配列が前記リピート配列蓄積部に蓄積されていると判定された場合には、前記リピート配列情報蓄積部に蓄積されたリピート配列情報に基づいて検索を行なうリピート配列検索手段と、

を有する請求項 1から 8のいずれか一に記載の塩基配列検索装置。 [13] 前記判定部にて、前記入力塩基配列と、前記類似候補塩基配列取得部により取得された類似候補塩基配列と、のハミング距離が前記ハミング距離入力部に入力されたハミング距離以下であると判定された場合に、前記入力塩基配列と、前記入力塩基配列と前記類似塩基配列とのハミング距離と、前記類似候補塩基配列と、を関連付けて蓄積する類似塩基配列蓄積部を有する請求項 4から 7のいずれか一に記載の塩基配列検索装置。

[14] 前記判定部にて、前記類似候補塩基配列取得部により取得された類似候補塩基配列と前記入力塩基配列とのハミング距離が前記ハミング距離入力部に入力されたハミング距離以下であると判定された場合に、前記塩基配列入力部により入力された塩基配列と前記類似候補塩基配列取得部で取得された類似候補塩基配列の会合率を計算する会合率計算部

を有する請求項 4力 7のいずれか一に記載の塩基配列検索装置。

[15] 前記所定長を超える長さの塩基配列を取得する塩基配列取得部と、

前記塩基配列取得部で取得された塩基配列の塩基のうち、所定の個数の塩基を置換して得られる塩基配列である無効果候補置換塩基配列を生成する無効果候補置換塩基配列生成部と、

前記無効果候補置換塩基配列生成部で生成された無効果候補置換塩基配列を請求項 14に記載の塩基配列検索装置に入力する無効果候補置換塩基配列入力部と、

所定のハミング距離を前記無効果候補置換塩基配列入力部が無効果候補置換塩基配列を入力した塩基配列検索装置に入力する第二ハミング距離入力部と、前記無効果候補置換塩基配列生成部で生成された無効果候補置換塩基配列の中から、前記無効果候補置換塩基配列入力部による入力と前記第二ハミング距離入力部による入力とによって前記塩基配列検索装置より得られた会合率の低い塩基配列を選択する選択部と、

を備える無効果塩基配列生成装置。

[16] 前記所定長を超える長さの塩基配列を取得する第二塩基配列取得部と、

前記第二塩基配列取得部で取得された塩基配列の一部分である部分塩基配列を選択する部分塩基配列選択部と、

前記部分塩基配列選択部で選択された部分塩基配列を請求項 4から 8のいずれか一に記載の塩基配列検索装置に入力する部分塩基配列入力部と、

所定のハミング距離を前記部分塩基配列入力部が部分塩基配列を入力した塩基配列検索装置に入力する第三ハミング距離入力部と、

前記部分塩基配列入力部による入力と前記第三ハミング距離入力部によるの入力とによって前記塩基配列検索装置より得られた検索の結果に基づいて、前記第二塩基配列取得部により取得された塩基配列を前記遺伝子塩基配列にアラインメントするアラインメント部と、

を有する塩基配列アラインメント装置。