WO2014126213A1

WO2014126213A1 - 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途

Info

Publication number: WO2014126213A1
Application number: PCT/JP2014/053516
Authority: WO
Inventors: 穣秋冨; 克紀堀井
Original assignee: Ｎｅｃソリューションイノベータ株式会社
Priority date: 2013-02-15
Filing date: 2014-02-14
Publication date: 2014-08-21
Also published as: JPWO2014126213A1; EP2958038A1; JP6072890B2; US20150379197A1

Abstract

配列情報間の類似を、容易に判断するための装置を提供する。本発明の候補選択装置１０は、入力手段１１、配列記憶部１２１、類似度記憶部１２２、候補配列記憶部１２３、類似度計算手段１３１、候補配列選択手段１３２、出力手段１４を備える。入力手段１１は、配列群および仮想配列群の情報を入力し、類似度計算手段１３１は、前記配列群から比較元と比較先とを選択し、比較元配列と前記比較先配列との前記各仮想配列の頻度の相違を、前記比較元配列に対する前記比較先配列の類似度として計算する。候補配列選択手段１３２は、前記比較元配列に対する前記比較先配列の類似度が、前記仮想配列群に設定した類似度の許容条件を満たす場合、前記比較元配列および前記比較先配列を、配列間の類似を判断する候補配列群として選択する。前記候補配列群について、配列間の類似を判断することにより、ある配列とこれに類似する配列とを類似配列情報群として選択する。

Description

類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途

　本発明は、配列情報群における配列情報間の類似の判断に関する発明であり、具体的には、配列情報から類似判断の候補配列情報を選択する候補選択方法、候補配列情報から類似配列情報群を選択する類似選択方法、目的の類似配列情報群の濃縮を判定する判定方法、およびこれらの方法を実行する各装置、プログラムならびに記録媒体に関する。

　近年、抗体に代わるターゲットへの結合分子として、いわゆるアプタマーと呼ばれる核酸分子の開発が進められている。前記アプタマーは、一般に、ＳＥＬＥＸ（Systematic　Evolution　of　Ligands　by　EXponential　enrichiment）法により調製されている（特許文献１、非特許文献１）。ＳＥＬＥＸ法は、核酸ライブラリーと前記ターゲットとの接触、および、前記ターゲットに結合した核酸の増幅を、１セットの選択処理とし、複数ラウンドを繰り返し行う。これによって、初期のライブラリーから、ラウンド毎のライブラリーにおいて前記ターゲットに結合する核酸配列が濃縮される。そして、例えば、ライブラリー内で濃縮度合いが相対的に高い複数の核酸配列を、アプタマー候補群として選択し、さらに、前記ターゲットとの結合力等を評価することによって、最終的に前記ターゲットに結合するアプタマーを決定することができる。

　このように、アプタマー候補群は、ライブラリー内における濃縮度合いによって選択できるため、ＳＥＬＥＸ法においては、濃縮度合いの評価が必要である。濃縮度合いの評価は、通常、以下のように行われている。まず、各ラウンドのライブラリーに含まれる核酸配列をシーケンスで解読する。そして、ライブラリー内における同じ核酸配列の出現数（以下、重複度ともいう）をカウントする。このカウント数の増減により、各核酸配列の濃縮度合いを評価する。例えば、ｎ回目のラウンド（Ｒ_ｎ）における核酸配列Ｘの重複度ｍ_ｎと、次のラウンド、すなわちｎ＋１回目のラウンド（Ｒ_ｎ＋１）における核酸配列Ｘの重複度ｍ_ｎ＋１とを比較して、重複度ｍ_ｎ＜重複度ｍ_ｎ＋１であれば、核酸配列Ｘは、ラウンド（ｎ＋１）において、ラウンド（ｎ）よりも濃縮されていると判断できる。また、同じラウンドのライブラリー内において、核酸配列Ｘの重複度ｍ_Ｘと核酸配列Ｙの重複度ｍ_Ｙとを比較して、重複度の大きい方が、他方に比べて濃縮されていると判断できる。

特許第２７６３９５８号

Ｓｃｉｅｎｃｅ．（１９９０）２４９，５０５－５１０．

　しかしながら、濃縮度合いによってアプタマー候補群を選択しても、異なる全ての核酸配列について、前記ターゲットとの結合力を評価することは、非常に労力を有し、現実的ではない。

　一方、ライブラリー内には、ある核酸配列（以下、元配列ともいう）に対して完全に同じ塩基配列も含まれるが、前記元配列に対して数塩基程度のミスマッチを有する類似した核酸配列（以下、類似配列ともいう）が含まれる場合がある。そして、発明者らは、前記類似配列は、例えば、前記ターゲットとの結合の強さが前記元配列と異なることがあるが、前記ターゲットに対する特性等は、前記元配列と同一であることが多いとの知見を得ている。このため、核酸配列について、完全に同一か否かという分類ではなく、許容できる範囲で類似し合っている核酸配列を、同一の配列群とすることにより、アプタマーの評価を効率化できる。しかしながら、この場合、複数の核酸配列を一個ずつ照らし合わせて類似か否かを判断することも、労力、コストおよび時間がかかる。特に、次世代シーケンサー等を用いて大量の核酸配列の情報が得られた場合等、非常に計算コストがかかる。また、このような問題は、核酸配列に特化した問題ではなく、要素が並んだ配列情報について、共通する問題である。

　そこで、本発明は、容易に、配列情報間の類似を判断するための装置、方法、プログラムおよび記録媒体を提供することを目的とする。

　前記目的を達成するために、本発明の候補選択装置は、下記（ａ）、（ｂ）、（ｃ）および（ｄ）手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置である。
（ａ）配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
（ｂ）前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
（ｃ）前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
（ｄ）前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段

　本発明の類似選択装置は、下記（Ａ）および（Ｂ）手段を備え、前記（Ａ）手段が、前記本発明の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置である。
（Ａ）配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
（Ｂ）前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群（Ｇ３）として選択する工程を実行する手段

　本発明の判定装置は、下記（Ｘ）および（Ｙ）手段を備え、前記（Ｘ）手段が、前記本発明の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置である。
（Ｘ）配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
（Ｙ）前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段

　本発明の候補選択方法は、下記（ａ）、（ｂ）、（ｃ）および（ｄ）工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法である。
（ａ）配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
（ｂ）前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
（ｃ）前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
（ｄ）前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程

　本発明の類似選択方法は、下記（Ａ）および（Ｂ）工程を含み、
前記（Ａ）工程が、前記本発明の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法である。
（Ａ）配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
（Ｂ）前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群（Ｇ３）として選択する工程

　本発明の判定方法は、下記（Ｘ）および（Ｙ）工程を含み、前記（Ｘ）工程が、前記本発明の類似選択方法を含むことを特徴とする、目的の類似配列情報群の濃縮の判定方法である。
（Ｘ）配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程
（Ｙ）前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程

　本発明のプログラムは、前記本発明の候補選択方法、前記本発明の類似選択方法および前記本発明の判定方法からなる群から選択された少なくとも一つを、コンピュータ上で実行可能なことを特徴とするプログラムである。

　本発明の記録媒体は、前記本発明のプログラムを記録していることを特徴とする。

　本発明によれば、配列情報間の類似を判断するにあたって、まず、類似を判断するための候補配列群が選択される。このため、例えば、全ての配列情報間の類似を確認する従来の方法とは異なり、簡便に効率よく類似の判断を行うことができる。このため、例えば、アプタマーの濃縮の判定等についても、労力、時間およびコストの軽減が可能となる。

図１は、本発明の候補選択装置の実施形態を示すブロック図である。図２は、本発明の候補選択方法および候補選択プログラムの実施形態を示すフローチャートである。図３は、本発明の候補選択方法および候補選択プログラムの実施形態を示すフローチャートである。図４は、本発明の類似選択装置の実施形態を示すブロック図である。図５は、本発明の類似選択方法および類似選択プログラムの実施形態を説明するためのフローチャートである。図６は、本発明の類似選択方法および類似選択プログラムの実施形態を説明するためのフローチャートである。図７は、本発明の類似選択装置のその他の実施形態を示すブロック図である。図８は、本発明の類似選択方法および類似選択プログラムのその他の実施形態を説明するためのフローチャートである。図９は、本発明の類似選択方法および類似選択プログラムのその他の実施形態を説明するためのフローチャートである。

　本発明において、「配列情報群」は、複数の配列情報から構成される群を意味し、前記複数の配列情報は、例えば、全て、異なる配列情報でもよいし、同じ配列情報と異なる配列情報とを含んでもよい。本発明は、異なる配列情報間における類似を判断するにあたって、類似判断の候補となる候補配列情報の選択を目的とする。このため、前記複数の配列情報は、例えば、全て、異なる配列情報が好ましい。前記配列情報群に含まれる前記配列情報の個数は、特に制限されない。

　本発明において、「配列情報」は、特に制限されず、要素の並びに関する情報である。前記要素は、例えば、文字および記号の少なくとも一方があげられ、具体例として、核酸の種類を示す文字または記号、アミノ酸の種類を示す文字または記号等があげられる。核酸の種類を示す文字または記号としては、例えば、Ａ、Ｇ、Ｃ、ＴおよびＵ等の塩基の種類を示す文字または記号があげられる。アミノ酸の種類を示す文字または記号としては、例えば、Ｍｅｔ等の３文字表記、Ｍ等の１文字表記の文字または記号があげられる。前記配列情報は、具体例として、核酸配列の配列情報、アミノ酸配列の配列情報等があげられる。前記配列情報の長さは、前記配列情報を構成する要素の数ともいうことができる。前記配列情報の長さは、特に制限されず、要素が、例えば、５～２００個であり、好ましくは、１０～１５０個であり、さらに好ましくは２０～１２０個である。

　本発明において、「仮想配列情報群」は、複数の仮想配列情報から構成される群を意味する。前記仮想配列情報は、前記配列情報を構成する要素（構成単位ともいう）から構築された仮想の配列情報である。前記要素は、前記配列情報群の配列情報の種類に応じて決定でき、具体的には、前記配列情報群における配列情報と同じ要素である。前記仮想配列情報は、例えば、前記要素を任意に並べた情報ということができ、前記仮想配列情報群は、複数の、任意の異なる並びの情報から構成される群ということができる。前記仮想配列情報の長さは、前記仮想配列情報を構成する要素の数ともいうことができる。前記仮想配列情報の長さは、特に制限されず、要素が、例えば、１～１０個であり、好ましくは、１～７個であり、さらに好ましくは１～４個である。前記仮想配列情報群の各仮想配列情報は、例えば、全て同じ長さであることが好ましい。

　本発明において、前記配列情報群から選択した比較または対比し合う配列情報を、それぞれ、比較元配列情報および比較先配列情報という。ある配列情報に対して、他の配列情報を対比する場合、前者の配列情報を「比較元」ともいい、後者の他の配列情報を「比較先」ともいう。

　本発明において、「仮想配列情報の頻度」とは、対象となる配列情報において、前記仮想配列情報が出現する頻度を意味し、例えば、頻度ベクトルの要素、出現数ということもできる。また、「頻度の相違」とは、二つ以上の配列情報間の頻度の相違を意味し、例えば、比較先の配列情報の頻度と比較元の配列情報の頻度との相違である。

　本発明において、「類似度」は、比較元配列情報に対する比較先配列情報の類似の程度を示す。また、本発明において、「類似度の許容条件」は、前記比較元配列情報に対して、前記比較先配列情報が類似判断の候補となり得ることを示す、類似度の条件である。前記類似度の許容条件は、任意に設定でき、例えば、２つの配列情報を対比した場合に許容できる要素のミスマッチの個数に基づいて設定できる。２つの配列情報の対比とは、例えば、２つの配列情報の要素の並びの対比である。前記類似度の許容条件は、例えば、２つの配列情報を対比した場合に許容できるミスマッチの個数（Ｍ）に、前記仮想配列情報の長さ（要素の個数Ｎ）を乗じた値を設定できる。

　本発明において、「重複度」とは、複数の配列情報から構成される配列情報群において、完全に同一である配列情報の個数を意味し、例えば、出現数ということもできる。また、本発明において、「類似重複度」とは、複数の配列情報から構成される配列情報群において、完全に同一である配列情報の重複度と、前記配列情報に類似する他の配列情報の重複度との合計を意味する。前記配列情報に対して、類似する他の配列情報が２つ以上存在する場合、例えば、前記配列情報と、類似する各他の配列情報との間の重複度の合計を、それぞれの類似重複度とする。

＜本発明の候補選択装置および候補選択方法＞
　本発明の候補選択装置は、前述のように、下記（ａ）、（ｂ）、（ｃ）および（ｄ）手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置である。
（ａ）配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
（ｂ）前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
（ｃ）前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
（ｄ）前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段

　本発明の候補選択装置において、前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群であることが好ましい。

　本発明の候補選択装置において、前記（ｃ）手段が、下記（ｃ１）および（ｃ２）工程を実行する手段であることが好ましい。
（ｃ１）前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
（ｃ２）前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程

　本発明の候補選択装置において、前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件であることが好ましい。２つの配列情報の対比とは、２つの配列情報のアラインメントということもできる。

　本発明の候補選択装置において、例えば、前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、Ａ、Ｇ、Ｃ、ＴおよびＵの塩基であることが好ましい。

　本発明の候補選択装置において、前記仮想配列情報の塩基長が、例えば、１～１０塩基長であることが好ましい。

　本発明の候補選択装置において、前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長であることが好ましい。

　本発明の候補選択装置において、前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件であることが好ましい。

　本発明の候補選択装置において、前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数（Ｍ）に前記仮想配列情報の塩基長（Ｎ）を乗じた値であることが好ましい。

　本発明の候補選択装置は、さらに、下記（ｅ）手段を有することが好ましい。
（ｅ）前記（ｂ）、（ｃ）および（ｄ）手段による各工程の反復を実行する手段
この場合、前記（ｂ）手段は、例えば、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択することが好ましい。

　本発明の候補選択方法は、前述のように、下記（ａ）、（ｂ）、（ｃ）および（ｄ）工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法である。本発明の候補選択方法は、特に示さない限り、前記本発明の候補選択装置における説明を援用できる。
（ａ）配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
（ｂ）前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
（ｃ）前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
（ｄ）前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程

　本発明の候補選択方法は、前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群であることが好ましい。

　本発明の候補選択方法は、前記（ｃ）工程が、下記（ｃ１）および（ｃ２）工程を含むことが好ましい。
（ｃ１）前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
（ｃ２）前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程

　本発明の候補選択方法は、前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件であることが好ましい。

　本発明の候補選択方法は、前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、Ａ、Ｇ、Ｃ、ＴおよびＵの塩基であることが好ましい。

　本発明の候補選択方法は、前記仮想配列情報の塩基長が、１～１０塩基長であることが好ましい。

　本発明の候補選択方法は、前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長であることが好ましい。

　本発明の候補選択方法は、前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件であることが好ましい。

　本発明の候補選択方法は、前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数（Ｍ）に前記仮想配列情報の塩基長（Ｎ）を乗じた値であることが好ましい。

　本発明の候補選択方法は、さらに、下記（ｅ）工程を含むことが好ましい。この場合、前記（ｂ）工程において、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択することが好ましい。
（ｅ）前記（ｂ）、（ｃ）および（ｄ）工程を反復する工程

　本発明の候補選択方法は、前記各工程が、全て、コンピュータ上で実行されることが好ましい。本発明の候補選択方法は、例えば、前記各工程が、全て、前記本発明の候補選択装置により実行されてもよい。

　以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。以下、配列情報を配列、配列情報群を配列群と示す。

［実施形態１］
　実施形態１は、本発明の候補選択装置および候補選択方法に関する。本実施形態は、前記配列として、核酸の塩基配列を使用する一例である。

　本実施形態によれば、複数の塩基配列からなる塩基配列群から、塩基配列間の類似の判断候補となる候補配列群を選択できる。

　図１に、本実施形態の候補選択装置の一例の構成を示す。図１に示すように、候補選択装置１０は、入力手段１１、配列記憶部１２１、類似度記憶部１２２および候補配列記憶部１２３、類似度計算手段１３１および候補配列選択手段１３２、ならびに出力手段１４を備える。類似度計算手段１３１および候補配列選択手段１３２は、例えば、図１に示すように、ハードウェアであるデータ処理手段（データ処理装置）１３に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。各記憶部１２１、１２２、１２３は、例えば、図１に示すように、ハードウェアである記憶手段１２に組み込まれてもよい。データ処理手段１３は、ＣＰＵ等を備えてもよい。

　配列記憶部１２１は、入力手段１１および類似度計算手段１３１と、類似度記憶部１２２は、類似度計算手段１３１および候補配列選択手段１３２と、候補配列記憶部１２３は、候補配列選択手段１３２および出力手段１４と、それぞれ電気的に接続されている。また、入力手段１１は、類似度計算手段１３１と、類似度計算手段１３１は、候補配列選択手段１３２と、候補配列選択手段１３２は、出力手段１４と、それぞれ電気的に接続されてよい。候補選択装置１０は、例えば、情報を記憶手段１２に記憶させ、記憶させた情報をデータ処理手段１３に出力してデータ処理を行ってもよいし、前記情報をデータ処理手段１３に入力してデータ処理を行ってもよい。

　入力手段１１は、配列群および仮想配列群の情報を入力する手段（入力装置）である。入力手段１１は、特に制限されず、例えば、キーボード、マウス等のコンピュータに備わる通常の入力手段、入力ファイルおよび他のコンピュータ等を用いることができる。入力手段１１は、例えば、データベースに格納された、前記配列群および仮想配列群の情報を読み出す手段でもよい。この場合、例えば、予めサーバに格納された配列情報が、回線網を通じて、入力手段１１に呼び出される。また、入力手段１１は、例えば、通信インターフェースを含んでもよい。

　前記配列群における入力する配列の数は、特に制限されず、下限は、例えば、５個、好ましくは１０個であり、上限は、例えば、１０００万個、好ましくは１００万個である。入力する配列の情報項目は、例えば、配列を構成する要素の順序、すなわち塩基の並びである。前記配列の長さは、特に制限されず、例えば、５～２００塩基長であり、好ましくは、１０～１５０塩基長であり、さらに好ましくは２０～１２０塩基長である。

　前記仮想配列群の仮想配列の数は、特に制限されず、前記仮想配列の塩基長に応じて適宜決定できる。前記塩基長は、その下限が、例えば、１塩基長であり、好ましくは２塩基長であり、より好ましくは３塩基長であり、その上限が、例えば、１０塩基長であり、好ましくは９塩基長であり、より好ましくは８塩基長であり、さらに好ましくは７塩基長である。前記仮想配列群において、前記各仮想配列の長さは、全て同じ長さが好ましい。

　前記仮想配列を構成する要素が４つの塩基（Ａ、Ｃ、Ｇ、およびＴまたはＵ）であり、前記仮想配列の塩基長がｎ（正数）の場合、前記仮想配列群における前記仮想配列の数は、例えば、４のｎ乗個（４^ｎ個）である。具体例として、前記要素が４つの塩基Ａ、Ｃ、ＧおよびＴの場合、前記１塩基長の仮想配列の数は、４の１乗、つまり、Ａ、Ｃ、ＧおよびＴの４個であり、前記２塩基長の仮想配列の数は、４の２乗、つまり、ＡＡ、ＡＣ、ＡＧ、ＡＴ、ＣＣ、ＣＡ、ＣＧ、ＣＴ、ＧＧ、ＧＡ、ＧＣ、ＧＴ、ＴＴ、ＴＡ、ＴＣ、ＴＧの１６個である。

　類似度計算手段１３１は、前記（ａ）工程として、前記配列群の各配列について各仮想配列群の頻度のカウント、前記（ｂ）工程として、前記配列群からの比較元配列と比較先配列との選択、前記（ｃ）工程として、前記比較元配列に対する前記比較先配列の類似度の計算を行う。前記（ａ）、（ｂ）および（ｃ）工程の順序は、特に制限されず、順不同である。

　前記（ｃ）工程における前記類似度の計算は、前述のように、前記（ｃ１）として、前記仮想配列ごとに、前記比較元配列における頻度（Ｓ_ｎ）と前記比較先配列における頻度（Ｔ_ｎ）との差（Ｓ_ｎ－Ｔ_ｎ）を求め、前記（ｃ２）工程として、前記頻度の差（Ｓ_ｎ－Ｔ_ｎ）のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求めることで行える。すなわち、前記総和の絶対値を、前記類似度とする。

　候補配列選択手段１３２は、前記比較元配列に対する前記比較先配列の類似度と、前記仮想配列群に設定した類似度の許容条件とに基づいて、配列情報間の類似を判断する候補配列の選択を行う。ここで選択された複数の候補配列が、候補配列群となる。

　前記類似度の許容条件は、２つの配列を対比した場合に許容できるミスマッチの塩基数に基づき設定でき、具体例として、前記許容できるミスマッチの塩基数（Ｍ）に前記仮想配列の塩基長（Ｎ）を乗じた値（Ｎ×Ｍ）があげられる。例えば、塩基長Ｎ＝１の前記仮想配列（Ａ、Ｃ、ＧおよびＴ）であって、前記許容できるミスマッチの塩基数Ｍ＝２に設定した場合、許容条件（Ｎ×Ｍ）は、１×２＝２となる。そして、前記類似度が２以下の場合、許容条件の数値以下となり許容条件を満たすため、前記比較元配列および前記比較先配列は、配列情報間の類似を判断する候補配列として選択する。他方、前記類似度が２を超える場合、許容条件の数値を超え許容条件を満たさないため、前記比較先配列は、前記比較元配列との類似を判断する候補配列として選択しない。

　前記許容条件の一例として、前記許容できるミスマッチの塩基数（Ｍ）に前記仮想配列の塩基長（Ｎ）を乗じた値（Ｎ×Ｍ）を設定するのは、以下の理由による。例えば、以下の２つの配列をアラインメントした場合、大文字の１塩基がミスマッチである。これらの配列について、塩基長Ｎ＝２の仮想配列の頻度をカウントした場合、対象元配列Ｓｅｑ１において、下線部がｃｇおよびｇｇとカウントされるのに対し、対象先配列Ｓｅｑ２において、下線部がｃＡおよびＡｇとカウントされる。つまり、許容できるミスマッチの塩基数が１であっても、１つミスマッチの存在によって、カウントされる仮想配列は、最大２つが変動することになる。このため、前記許容できるミスマッチの塩基数（Ｍ）に、前記仮想配列の塩基長（Ｎ）を乗じることで、カウントへの影響を補正できる。
対象元配列Ｓｅｑ１：ａａｃｃｇｇｔｔ
対象先配列Ｓｅｑ２：ａａｃｃＡｇｔｔ

　出力手段（出力装置）１４は、候補配列選択手段１３２の結果を出力する手段であればよい。また、前記出力手段１４は、候補配列記憶部１２３に記憶された情報を出力する手段でもよい。前記出力手段１４は、特に制限されず、例えば、ディスプレイ装置、印刷装置等のコンピュータに備わる通常の出力装置、出力ファイル、および、他のコンピュータ等を使用できる。

　つぎに、図２および図３のフローチャートを参照し、本実施形態の候補選択方法を説明する。本実施形態の候補選択方法は、Ａ１ステップ（配列入力）、Ａ２ステップ（類似度計算）およびＡ３ステップ（候補配列選択）を含む。

（Ａ１）配列入力
　配列群の各配列および仮想配列群の各仮想配列を、それぞれ入力し、配列記憶部１２１に記憶させる。前記配列群および前記仮想配列群の情報項目は、例えば、配列における塩基の順序があげられる。

（Ａ２）類似度計算
　前記配列群から、新しい比較元配列のセット（Ａ２１）および新しい比較先配列のセット（Ａ２２）を行い、セットした前記比較元配列と前記比較先配列について、それぞれ、前記各仮想配列の頻度をカウントする。そして、各仮想配列について、前記比較元配列の頻度と前記比較先配列の頻度との差を求め、正数の差のみの総和または負数の差のみの総和を計算する。具体的には、ｎ個（ｎは正数）の仮想配列が存在する場合、前記比較元配列について、各仮想配列の頻度としてｎ個の頻度（Ｓ_１、・・・・、Ｓ_ｎ）、前記比較先配列について、ｎ個の頻度（Ｔ_１、・・・・、Ｔ_ｎ）が得られる。そして、各仮想配列の頻度について、前記比較元配列と前記比較先配列との差、すなわち、（Ｓ_１－Ｔ_１）、・・・・、（Ｓ_ｎ－Ｔ_ｎ）を求め、正数の差のみの総和または負数の差のみの総和を計算し、総和の絶対値を求める。前記総和の絶対値が、前記比較元配列に対する前記比較先配列の類似度である。

（Ａ３）候補配列選択
　そして、前記類似度が、類似度の許容値を満たすか否か、つまり、許容値よりも大きいか否かを判断する（Ａ３１）。ＮＯの場合、つまり、前記類似度が許容値よりも小さい場合、前記比較先配列は、前記比較元配列に対して許容できる数のミスマッチを有すると判断して、前記比較元配列と前記比較先配列が類似判断の候補配列であるとの結果を出力する（Ａ３２）。他方、ＹＥＳの場合、つまり、前記類似度が許容値よりも大きい場合、前記比較先配列は、前記比較元配列に対して許容できない数のミスマッチを有すると判断して、前記比較先配列が類似候補配列ではないとの結果を出力する（Ａ３３）。

　その後は、未比較の比較先配列の有無を確認する（Ａ３４）。ＹＥＳの場合、つまり、未比較の比較先配列がある場合、Ａ２２ステップから同様の処理を行う。そして、ＮＯの場合、つまり、未比較の比較先配列がない場合、さらに、未比較の比較元配列の有無を確認する（Ａ３５）。ＹＥＳの場合、つまり、未比較の比較元配列がある場合、Ａ２１ステップから同様の処理を行い、ＮＯの場合、つまり、未比較の比較元配列がない場合、終了する。なお、ある配列を比較元配列とし他の配列を比較先配列として比較済みである場合、前者を比較先配列とし後者を比較元配列とする比較は、省略し、比較済みの結果を使用してもよい。

　前記Ａ２ステップおよびＡ３ステップについて、さらなる具体例として、前記仮想配列が塩基長１の場合を例にあげて説明する。

　塩基長Ｎ＝１の仮想配列を下記４種類、比較元配列をＳｅｑ３、比較先配列をＳｅｑ４と仮定する。そして、２つの配列をアラインメントした場合に、類似の判断候補として許容できるミスマッチの塩基数をＭとし、許容値をＮ×Ｍ＝１×Ｍ＝Ｍとする。
仮想配列：Ａ、Ｃ、ＧおよびＴ
比較元配列Ｓｅｑ３：ＡＣＧＴＡＣＧＴ
比較先配列Ｓｅｑ４：ＡＡＧＡＡＣＡＴ

　比較元配列Ｓｅｑ３および比較先配列Ｓｅｑ４における各仮想配列（Ａ、Ｃ、Ｇ、Ｔ）の頻度｛ｆＡ、ｆＣ、ｆＧ、ｆＴ｝は、それぞれ、ＳＥＱ１が｛２、２、２、２｝およびＳｅｑ２が｛５、１、１、１｝となり、各頻度｛ｆＡ、ｆＣ、ｆＧ、ｆＴ｝の差は、Ａが（２－５＝－３）、Ｃが（２－１＝１）、Ｇが（２－１＝１）、Ｔが（２－１＝１）となる。負数の差の総数（―３＋０＋０＋０＝－３）の絶対値は３であり、正数の差の総数（０＋１＋１＋１＝３）の絶対値は３である。この絶対値３が、比較元配列Ｓｅｑ３に対する比較先配列Ｓｅｑ４の類似度であり、比較先配列Ｓｅｑ４が、比較元配列Ｓｅｑ３とアラインメントした際に、少なくとも３つのミスマッチを有することを示す。前記許容できるミスマッチの上限塩基数Ｍを、例えば、２とした場合、許容値はＮ×Ｍ＝１×２＝２である。このため、計算した類似度と許容値とを対比すると、類似度３＞許容値２であるため、比較先配列Ｓｅｑ４は、比較元配列Ｓｅｑ３の類似判断の候補配列からはずす。他方、前記許容できるミスマッチの上限塩基数Ｍを、例えば、３とした場合、許容値はＮ×Ｍ＝１×３＝３である。このため、計算した類似度と許容値とを対比すると、類似度３＝許容値３であるため、比較先配列Ｓｅｑ４は、比較元配列Ｓｅｑ３の類似判断の候補配列として選択する。

　このようにして、前記比較先配列が前記許容条件を満たす場合には、前記比較先配列は、前記比較元配列と共に、類似判断の候補配列として選択する。つまり、候補配列群として選択する。他方、前記比較先配列が前記許容条件を満たさない場合には、前記比較先配列は、類似判断の候補配列として選択しない。また、前記比較元配列に対して、前記許容条件を満たす比較先配列が存在しない場合は、前記比較元配列も、類似判断の候補配列として選択しない。

　本実施形態における候補選択装置１０において、入力手段１１と類似度計算手段１３１、類似度計算手段１３１と候補配列選択手段１３２が、それぞれ電気的に接続されてもよい。また、候補選択装置１０は、例えば、各種記憶部を備えてもよいし、備えていなくてもよい。この場合、例えば、入力手段１１により入力された各配列について、類似度計算手段１３１により類似度を計算し、計算された類似度について、候補配列選択手段１３２により候補配列の選択を行ってもよい。

＜本発明の類似選択装置および類似選択方法＞
　本発明の類似選択装置は、前述のように、下記（Ａ）および（Ｂ）手段を備え、
前記（Ａ）手段が、前記本発明の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置である。
（Ａ）配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
（Ｂ）前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群（Ｇ３）として選択する工程を実行する手段

　本発明の類似選択装置において、前記（Ａ）手段は、前記本発明の候補選択装置であればよく、前記本発明の候補選択装置の記載を援用できる。

　本発明の類似選択装置は、前記配列情報群が、同一の配列情報および異なる配列情報からなる配列情報群（Ｇ）から選択された前記異なる配列情報の群であることが好ましい。

　本発明の類似選択装置は、前記（Ｂ）手段が、下記（Ｂ１）、（Ｂ２）、（Ｂ３）、（Ｂ４）および（Ｂ５）工程を実行する手段であることが好ましい。
（Ｂ１）前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
（Ｂ２）前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
（Ｂ３）前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
（Ｂ４）前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記（Ｂ１）、（Ｂ２）および（Ｂ３）工程を反復する工程
（Ｂ５）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群（Ｇ３）として選択する工程

　前記（Ｂ２）工程において、前記比較元候補配列と前記比較先候補配列との類似の有無は、特に制限されず、公知の方法で決定できる。具体的には、配列と配列とをアラインメントして、許容できるミスマッチ（異なる要素）の数に基づき、類似と非類似とを判断できる。具体例として、例えば、前記両配列をアラインメントした際、ミスマッチの数が、前記許容できるミスマッチの数を超える場合は非類似、前記許容できるミスマッチの数以下の場合は類似と判断できる。前記許容できるミスマッチの個数は、特に制限されず、任意に決定できる。

　重複度は、後の工程が繰り返される間に、０に再設定される。そこで、前記（Ｂ３）工程における重複度は、各配列の初期の情報であることから、「初期重複度」ともいう。また、後の工程において再設定した重複度０は、「重複度０」または「再設定重複度」ともいう。

　本発明の類似選択装置は、前記（Ｂ）手段が、さらに、下記（Ｂ６）、（Ｂ７）および（Ｂ８）工程を実行する手段であることが好ましい。類似重複度の再算出とは、例えば、すでに得られた類似重複度をリセットし、新たに類似重複度を算出することを意味する。
（Ｂ６）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を０に再設定する工程
（Ｂ７）重複度が０以外である他の候補配列情報について、類似重複度を再算出する工程
（Ｂ８）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程

　本発明の類似選択装置は、前記（Ｂ）手段が、さらに、下記（Ｂ９）の工程を実行する手段であることが好ましい。
（Ｂ９）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を０に再設定し、前記（Ｂ７）および（Ｂ８）工程を反復する工程

　このように、最も大きな類似重複度に基づく類似候補群の選択と、類似重複度の再計算とを繰り返すことによって、複数の類似配列情報群が選択できる。前記類似配列情報群の再選択は、例えば、全ての候補配列について重複度が０に再設定されるまで行うことが好ましい。

　本発明の類似選択装置は、前記（Ｂ）手段が、前記（Ｂ１）工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せの除外を実行することが好ましい。

　本発明の類似選択装置において、配列情報の情報項目として、例えば、配列を構成する要素の順序の他に、前記各配列の重複度を含んでもよい。この場合、前記配列群に含まれる配列は、全て、異なる配列であることが好ましい。また、配列情報の情報項目として、前記重複度を含まない場合、例えば、前記重複度をカウントする工程を実行する、下記（Ｂ’）手段を含んでもよい。この場合、前記配列群に含まれる配列は、例えば、異なる配列の他に、完全に要素の順序が同じである配列を含んでもよい。
（Ｂ’）前記配列情報群について、完全に同一な配列情報の数を重複度としてカウントする工程を実施する手段

　本発明の類似選択方法は、前述のように、下記（Ａ）および（Ｂ）工程を含み、
前記（Ａ）工程が、前記本発明の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法である。
（Ａ）配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
（Ｂ）前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群（Ｇ３）として選択する工程

　本発明の類似選択方法は、前記（Ｂ）工程が、下記（Ｂ１）、（Ｂ２）、（Ｂ３）、（Ｂ４）および（Ｂ５）工程を含むことが好ましい。
（Ｂ１）前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
（Ｂ２）前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
（Ｂ３）前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
（Ｂ４）前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記（Ｂ１）、（Ｂ２）および（Ｂ３）工程を反復する工程
（Ｂ５）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群（Ｇ３）として選択する工程

　本発明の類似選択方法は、前記（Ｂ）工程が、さらに、下記（Ｂ６）、（Ｂ７）および（Ｂ８）工程を含むことが好ましい。
（Ｂ６）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を０に再設定する工程
（Ｂ７）重複度が０以外である他の候補配列情報について、類似重複度を再算出する工程
（Ｂ８）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程

　本発明の類似選択方法は、前記（Ｂ）工程が、さらに、下記（Ｂ９）工程を含むことが好ましい。
（Ｂ９）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を０に再設定し、前記（Ｂ７）および（Ｂ８）工程を反復する工程

　本発明の類似選択方法は、前記（Ｂ）工程において、前記（Ｂ１）工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せを除外することが好ましい。

　本発明の類似選択方法は、前記各工程が、全て、コンピュータ上で実行されることが好ましい。本発明の類似選択方法は、例えば、前記各工程が、全て、前記本発明の類似選択装置により実行されてもよい。

　以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。また、本実施形態において、前記候補配列群の選択は、前記実施形態１の記載を援用できる。以下、配列情報を配列、配列情報群を配列群と示す。

［実施形態２］
　実施形態２は、本発明の類似選択装置および類似選択方法に関する。本実施形態は、前記配列として、核酸の塩基配列を使用する一例である。本実施形態は、特に示さない限り、実施形態１の記載を援用できる。

　本実施形態によれば、複数の塩基配列からなる塩基配列群から、塩基配列間の類似の判断候補となる候補配列を選択し、複数の前記候補配列からなる候補配列群から、相互に類似する類似配列を類似配列群として選択できる。

　図４に、本実施形態の類似選択装置の一例を示す。図４において、図１の候補選択装置１０と同じ箇所には、同じ符号を付している。図４に示すように、類似選択装置２０は、入力手段１１、配列記憶部１２１、類似度記憶部１２２、候補配列記憶部１２３および類似配列記憶部１２４、類似度計算手段１３１、候補配列選択手段１３２および類似配列選択手段１３３、ならびに出力手段１４を備える。類似度計算手段１３１、候補配列選択手段１３２および類似配列選択手段１３３は、例えば、図４に示すように、ハードウェアであるデータ処理手段１３に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。各記憶部１２１、１２２、１２３、１２４は、例えば、図４に示すように、ハードウェアである記憶手段１２に組み込まれてもよい。データ処理手段１３は、ＣＰＵ等を備えてもよい。

　候補配列記憶部１２３は、さらに、類似配列選択手段１３３と電気的に接続されており、類似配列記憶部１２４は、類似配列選択手段１３３および出力手段１４と、それぞれ電気的に接続されている。また、候補配列選択手段１３２は、類似配列選択手段１３３と、類似配列選択手段１３３は、出力手段１４と、それぞれ電気的に接続されてよい。類似選択装置２０は、例えば、情報を記憶手段１２に記憶させ、記憶させた情報をデータ処理手段１３に出力してデータ処理を行ってもよいし、前記情報をデータ処理手段１３に入力してデータ処理を行ってもよい。

　本実施形態において、入力する配列の情報項目は、前述のような、配列を構成する要素の順序の他に、前記各配列の重複度を含むことが好ましい。前記情報項目として、前記重複度を含む場合、前記配列群を構成する配列は、全て、異なる配列であることが好ましい。

　また、前記情報項目として、前記重複度を含まない場合、例えば、前記（Ｂ’）手段を含んでもよい。前記（Ｂ’）手段により、前記配列群について、完全に同一な配列情報の数を重複度としてカウントできる。

　つぎに、図５および図６のフローチャートを参照し、本実施形態の類似選択方法を説明する。本実施形態の類似選択方法は、Ａ１ステップ（配列入力）、Ａ２ステップ（類似度計算）、Ａ３ステップ（候補配列選択）およびＡ４ステップ（類似配列選択）を含む。図５において、図２と同じステップには同じ符号を付している。

　前記Ａ１ステップ、前記Ａ２ステップおよび前記Ａ３ステップは、前記実施形態１と同様に行うことができ、具体的には、前述した図３のフローチャートに従って行うことができる。前記配列入力において、前記配列群の情報項目は、例えば、配列における塩基の順序および配列の重複度があげられ、前記仮想配列群の情報項目は、例えば、配列における塩基の順序があげられる。

（Ａ４）類似配列選択
　前記Ａ３ステップで選択された候補配列群から、新しい比較元候補配列のセット（Ａ４１）および新しい比較先候補配列のセット（Ａ４２）を行い、セットした前記比較先候補配列が、前記比較元候補配列に類似するか否かを判断する（Ａ４３）。そして、ＮＯの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似していない場合、前記比較先候補配列は、前記比較元候補配列との類似配列群ではないとの結果を出力する（Ａ４４）。他方、ＹＥＳの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似している場合、前記比較先候補配列は、前記比較元候補配列との類似配列群であるとの結果を出力する（Ａ４５）。

　その後は、前記比較元候補配列に対して、未比較の比較先候補配列の有無を確認する（Ａ４６）。ＹＥＳの場合、つまり、未比較の比較先配列がある場合、Ａ４２ステップから同様の処理を行う。そして、ＮＯの場合、つまり、未比較の比較先候補配列がない場合、さらに、未比較の比較元候補配列の有無を確認する（Ａ４７）。ＹＥＳの場合、つまり、未比較の比較元候補配列がある場合、Ａ４１ステップから同様の処理を行い、ＮＯの場合、つまり、未比較の比較元候補配列がない場合、終了する。なお、ある配列を比較元候補配列とし他の配列を比較先候補配列として比較済みである場合、前者を比較先候補配列とし後者を比較元候補配列とする比較は、省略し、比較済みの結果を使用してもよい。

　このようにして、前記候補配列群における各候補配列から、前記比較元候補配列および前記比較先候補配列を、それぞれ順次セットし、配列間の類似を判断することによって、前記比較元候補配列とそれに類似する比較先候補配列とからなる類似配列群を選択できる。

　本実施形態における類似選択装置２０において、入力手段１１と類似度計算手段１３１、類似度計算手段１３１と候補配列選択手段１３２、候補配列選択手段１３２と類似配列選択手段１３３とが、それぞれ電気的に接続されてもよい。また、類似選択装置２０は、例えば、各種記憶部を備えてもよいし、備えていなくてもよい。この場合、例えば、入力手段１１により入力された各配列について、類似度計算手段１３１により類似度を計算し、計算された類似度について、候補配列選択手段１３２により候補配列群の選択を行い、さらに、選択された候補配列群について、類似配列選択手段１３３により類似配列群の選択を行ってもよい。

［実施形態３］
　実施形態３は、実施形態２と同様に、本発明の類似選択装置および類似選択方法に関する。本実施形態は、前記実施形態２の前記類似配列群の選択において、重複度を用いる一例である。本実施形態は、特に示さない限り、実施形態１および２の記載を援用できる。

　本実施形態によれば、配列間の類似度を用いることによって、簡便に、類似配列群を選択できる。

　図７に、本実施形態の類似選択装置の一例を示す。図７において、図４の類似選択装置２０と同じ箇所には、同じ符号を付している。図７に示すように、類似選択装置３０は、類似重複度記憶部１２４ａおよび類似配列記憶部１２４ｂ、類似重複度計算手段１３３ａおよび類似配列選択手段１３３ｂを備える。類似重複度計算手段１３３ａおよび類似配列選択手段１３３ｂは、例えば、図７に示すように、ハードウェアであるデータ処理手段１３に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。類似重複度記憶部１２４ａおよび類似配列記憶部１２４ｂは、例えば、図７に示すように、ハードウェアである記憶手段１２に組み込まれてもよい。

　候補配列記憶部１２３は、類似重複度計算手段１３３ａと電気的に接続されており、類似重複度記憶部１２４ａは、類似重複度計算手段１３３ａおよび類似配列選択手段１３３ｂと電気的に接続されており、類似配列記憶部１２４ｂは、類似配列選択手段１３３ｂおよび出力手段１４と、それぞれ電気的に接続されている。また、候補配列選択手段１３２は、類似重複度計算手段１３３ａと、類似重複度計算手段１３３ａは、類似配列選択手段１３３ｂと、類似配列選択手段１３３ｂは、出力手段１４と、それぞれ電気的に接続されてもよい。

　つぎに、図８および図９のフローチャートを参照し、本実施形態の類似選択方法を説明する。本実施形態の類似選択方法は、Ａ１ステップ（配列入力）、Ａ２ステップ（類似度計算）、Ａ３ステップ（候補配列選択）およびＡ４ステップ（類似配列選択）を含む。本実施形態において、Ａ４ステップは、Ａ４ａステップ（類似重複度計算）と、Ａ４ｂステップ（類似重複度の計算結果に基づく類似配列選択）を含む。図８および図９において、図５および図６と同じステップには同じ符号を付している。

　前記Ａ１ステップ、前記Ａ２ステップおよび前記Ａ３ステップは、前記実施形態２と同様に行うことができる。本実施形態において、入力する配列の情報項目は、例えば、配列を構成する要素の順序の他に、前記各配列の重複度を含む。

（Ａ４）類似配列選択
　前記Ａ３ステップで選択された候補配列群から、新しい比較元候補配列をセット（Ａ４１’）し、その重複度が０か否かを判断する（Ａ４２’）。ＮＯの場合、つまり、重複度０の場合（初期重複度が０または再設定重複度０）、再度、新しい比較元候補配列をセットする（Ａ４１’）。他方、ＹＥＳの場合、つまり、重複度が０でない場合（初期重複度≧１）、前記比較元候補配列の重複度をセットする（Ａ４３’）。そして、新しい比較先候補配列をセット（Ａ４４’）し、前記比較先候補配列が、前記比較元候補配列に類似するか否かを判断する（Ａ４５’）。ＹＥＳの場合、つまり、前記比較先候補配列が前記比較元候補配列に類似する場合、前記比較元候補配列の類似度と前記比較先候補配列の類似度とを合計し、その合計値を類似重複度とする（Ａ４６’）。この類似重複度は、前記比較元候補配列の類似重複度という。他方、ＮＯの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似しない場合、未比較の比較先候補配列の有無を確認する（Ａ４７’）。そして、ＹＥＳの場合、つまり、未比較の比較先候補配列がある場合、Ａ４４’ステップから同様の処理を行う。そして、ＮＯの場合、つまり、未比較の比較先候補配列がない場合、さらに、未比較の比較元候補配列の有無を確認する（Ａ４８’）。ＹＥＳの場合、つまり、未比較の比較元候補配列がある場合、Ａ４１’ステップから同様の処理を行う。ＮＯの場合、つまり、未比較の比較元候補配列がない場合、最も大きい類似重複度の候補配列以外であって、類似重複度が０でない候補配列について、類似重複度をリセット、つまり０に再設定する（Ａ４９’）。さらに、最も大きい類似重複度の候補配列およびそれに類似する候補配列について、重複度を０に再設定する（Ａ４１０’）。つぎに、重複度が０でない候補配列の有無を確認する（Ａ４１１’）。ＹＥＳの場合、つまり、重合度が０でない候補配列（初期重複度≧１）がある場合、これを新しい比較元候補配列とし、Ａ４１’ステップから同様の処理を行う。ＮＯの場合、つまり、重複度が０でない候補配列が存在しない場合、類似重複度が０でない候補配列とそれに類似する候補配列とを類似配列群とし、類似配列群の一覧を出力する（Ａ４１２’）。出力する情報項目は例えば、前記類似配列群に含まれる各配列ならびに類似重複度等があげられる。

　前記Ａ４ステップについて、さらなる具体例として、候補配列群に含まれる異なる配列が５種類（Ｓｅｑ１、Ｓｅｑ２、Ｓｅｑ３、Ｓｅｑ４、Ｓｅｑ５）であり、それぞれの重複度（すなわち、出現数）が、｛５、４、３、２、１｝である場合を例にあげて説明する。

　まず、下記表１に、候補配列の種類とその重複度を示す。

　つぎに、それぞれの配列間における類似を判断する。下記表２において、類似の関係にあるものを、網掛けで示す。

　そして、それぞれの比較元候補配列について、前記比較元候補配列の初期重複度とそれに類似する前記比較先候補配列の初期重複度とを合計し、この合計値を比較元候補配列の類似重複度とする。下記表３に、類似重複度を示す。そして、前記比較元候補配列のうち、最も大きい類似重複度を示す比較元候補配列を選択し、前記比較元候補配列とそれに類似する比較先候補配列とを、類似配列群とする。下記表３において、最も大きい類似重複度１１を示すＳｅｑ４ならびにそれに類似するＳｅｑ１およびＳｅｑ２が、同じ類似配列群となる。

　続いて、最も大きい類似重複度を示す比較元候補配列以外であって、類似重複度が０ではない候補配列について、類似重複度をリセットし、最も大きい類似重複度を示す比較元候補配列の初期重複度とそれに類似する比較先候補配列の初期重複度とを、０に再設定する（再設定重複度０）。下記表４において、最も大きい類似重複数１１を示すＳｅｑ４以外の配列について、類似重複度をリセットし、且つ、Ｓｅｑ４と、それに類似するＳｅｑ１およびＳｅｑ２の初期重複度を、０に再設定する（再設定重複度０）。

　そして、重複度が０以外（初期重複度≧１）の比較元候補配列について、同様にして、類似重複度の計算、最も大きい類似重複度に基づく類似候補群の選択を行う。類似候補群の選択は、全ての候補配列の初期重複度が０に再設定されるまで、繰り返し行うことが好ましい。下記表５において、重複度が０ではない候補配列のうち、最も大きい類似重複度３を示すＳｅｑ３を、類似配列群とする。

　なお、配列間の類似について、一方の配列を比較元候補配列とし、他方の配列を比較先候補配列とするのと、前記一方の配列を比較先候補配列とし、前記他方の配列を比較元候補配列とするのは、実質的に同じといえる。そこで、前記類似配列群の選択をより促進できるため、例えば、比較元候補配列と比較先候補配列との組合せから、すでに実行した組合せを除外することが好ましい。この場合、例えば、下記表６のように、異なる配列間の組合せを半分にできる（セル数の半減）。

　これらの処理を繰り返すことによって、候補配列群を類似配列群に分類することができる。

＜目的の類似配列群の濃縮を判定する装置＞
　本発明の濃縮の判定装置は、前述のように、下記（Ｘ）および（Ｙ）手段を備え、前記（Ｘ）手段が、前記本発明の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置である。
（Ｘ）配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
（Ｙ）前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段

　本発明の判定装置において、前記（Ｘ）手段は、前記本発明の類似選択装置であればよく、前記本発明の類似選択装置の記載を援用できる。

　本発明の濃縮の判定装置は、前記（Ｘ）手段が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程を実行し、
前記（Ｙ）手段が、下記（Ｙ１）および（Ｙ２）工程を実行する手段であることが好ましい。
（Ｙ１）前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
（Ｙ２）前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程

　本発明において、濃縮の判定は、例えば、同じ配列情報群に含まれる異なる配列情報について、前記配列情報の間における濃縮度合いの違いを比較することにより行ってもよい。この場合、例えば、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である。これによって、例えば、同じ配列情報群から、相対的に濃縮度合いの高い配列情報およびその類似配列情報を選択することが可能となる。具体例としては、例えば、アプタマーの調製において、特定のラウンドのライブラリーに含まれる複数の類似配列情報群から、相対的に濃縮度の高い類似配列情報群の選択、つまり濃縮度が高いアプタマー類似配列群の選択を行うことができる。

　また、前記濃縮の判定は、例えば、異なる配列情報群に含まれる同じ配列情報について、前記配列情報群の間における濃縮度合いの違いを比較することにより行ってもよい。この場合、例えば、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である。これによって、例えば、特定の配列情報の類似配列情報群について、相対的に濃縮度合いの高い配列情報群を選択することができる。具体例としては、例えば、アプタマーの調製において、各ラウンドのライブラリーのうち、特定のアプタマー類似配列群の濃縮度が相対的に高いライブラリーを選択することができる。

　本発明の濃縮の判定方法は、下記（Ｘ）および（Ｙ）工程を含み、前記（Ｘ）工程が、前記本発明の類似選択方法を含むことを特徴とする、類似配列情報群の濃縮の判定方法である。本発明の濃縮の判定方法は、特に示さない限り、前記本発明の濃縮の判定装置における記載を援用できる。
（Ｘ）配列情報群から、目的の配列情報とそれに類似する配列情報とを判定対象の類似配列情報群として選択する工程
（Ｙ）前記類似配列情報群における前記目的の配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程

　本発明の濃縮の判定方法は、前記（Ｘ）工程が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程であり、
前記（Ｙ）工程が、下記（Ｙ１）および（Ｙ２）工程を含むことが好ましい。
（Ｙ１）前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
（Ｙ２）前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程

　本発明の濃縮の判定方法は、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報であってもよい。

　本発明の濃縮の判定方法は、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報であってもよい。

　本発明の用途は、特に制限されないが、例えば、アプタマーの調製における濃縮の判定に適用することが好ましい。本発明によれば、前述のように、例えば、同じライブラリー内における異なるアプタマー類似配列情報群の濃縮度合いの比較、または、異なるライブラリー内における同じアプタマー類似配列情報群の濃縮度合いの比較が可能である。

　つぎに、本発明の実施例について説明する。ただし、本発明は、下記の実施例により制限されない。

［実施例１］
　本実施例では、低分子化合物をターゲットとするライブラリーについて、本発明の類似選択方法により、類似配列群の分類を行った。

　配列群として、４０塩基長の８５，８００個の核酸配列群を使用した。仮想配列群の条件、許容できるミスマッチの塩基数および許容条件を下記表７に示す。

　実施例は、前記条件に従い、前記表６に示すセル数の半減を行って、候補配列群の選択、類似配列群の選択を行った。これらの計算にかかった時間を前記表７にあわせて示す。なお、比較例は、前記配列群の全ての核酸配列について、アラインメントによる類似の判断を行い、類似配列群を選択した。その結果、実施例によれば、比較例よりも格段に短い計算時間で類似配列群の選択を行うことができた。

　以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。

　この出願は、２０１３年２月１５日に出願された日本出願特願２０１３－０２７８５１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０　　　　候補選択装置
２０、３０　類似選択装置
１１　　　　入力手段
１２　　　　記憶手段
１２１　　　配列記憶部
１２２　　　類似度記憶部
１２３　　　候補配列記憶部
１２４　　　類似配列記憶部
１２４ａ　　類似重複度記憶部
１２４ｂ　　類似配列記憶部
１３　　　　データ処理手段
１３１　　　類似度計算手段
１３２　　　候補配列選択手段
１３３　　　類似配列選択手段
１３３ａ　　類似重複度計算手段
１３３ｂ　　類似配列選択手段
１４　　　　出力手段

Claims

下記（ａ）、（ｂ）、（ｃ）および（ｄ）手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置。
（ａ）配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
（ｂ）前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
（ｃ）前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
（ｄ）前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群である、請求項１記載の候補選択装置。
前記（ｃ）手段が、下記（ｃ１）および（ｃ２）工程を実行する手段である、請求項１または２記載の候補選択装置。
（ｃ１）前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
（ｃ２）前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件である、請求項１から３のいずれか一項に記載の候補選択装置。
前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、Ａ、Ｇ、Ｃ、ＴおよびＵの塩基である、請求項１から４のいずれか一項に記載の候補選択装置。
前記仮想配列情報の塩基長が、１～１０塩基長である、請求項５記載の候補選択装置。
前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長である、請求項５または６記載の候補選択装置。
前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件である、請求項３から７のいずれか一項に記載の候補選択装置。
前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数（Ｍ）に前記仮想配列情報の塩基長（Ｎ）を乗じた値である、請求項５から８のいずれか一項に記載の候補選択装置。
さらに、下記（ｅ）手段を有する、請求項１から９のいずれか一項に記載の候補選択装置。
（ｅ）前記（ｂ）、（ｃ）および（ｄ）手段による各工程の反復を実行する手段
前記（ｂ）手段は、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択する、請求項１０記載の候補選択装置。
下記（Ａ）および（Ｂ）手段を備え、
前記（Ａ）手段が、請求項１から１１のいずれか一項に記載の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置。
（Ａ）配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
（Ｂ）前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群（Ｇ３）として選択する工程を実行する手段
前記（Ｂ）手段が、下記（Ｂ１）、（Ｂ２）、（Ｂ３）、（Ｂ４）および（Ｂ５）工程を実行する手段である、請求項１２記載の類似選択装置
（Ｂ１）前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
（Ｂ２）前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
（Ｂ３）前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
（Ｂ４）前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記（Ｂ１）、（Ｂ２）および（Ｂ３）工程を反復する工程
（Ｂ５）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群（Ｇ３）として選択する工程
前記（Ｂ）手段が、さらに、下記（Ｂ６）、（Ｂ７）および（Ｂ８）工程を実行する手段である、請求項１３記載の類似選択装置。
（Ｂ６）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を０に再設定する工程
（Ｂ７）重複度が０以外である他の候補配列情報について、類似重複度を再算出する工程
（Ｂ８）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
前記（Ｂ）手段が、さらに、下記（Ｂ９）の工程を実行する手段である、請求項１４記載の類似選択装置。
（Ｂ９）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を０に再設定し、前記（Ｂ７）および（Ｂ８）工程を反復する工程
前記（Ｂ）手段が、前記（Ｂ１）工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せの除外を実行する、請求項１３から１５のいずれか一項に記載の類似選択装置。
下記（Ｘ）および（Ｙ）手段を備え、前記（Ｘ）手段が、請求項１２から１６のいずれか一項に記載の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置。
（Ｘ）配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
（Ｙ）前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
前記（Ｘ）手段が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程を実行し、
前記（Ｙ）手段が、下記（Ｙ１）および（Ｙ２）工程を実行する手段である、請求項１７記載の判定装置。
（Ｙ１）前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
（Ｙ２）前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である、請求項１８記載の判定装置。
前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である、請求項１８記載の判定装置。
下記（ａ）、（ｂ）、（ｃ）および（ｄ）工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法。
（ａ）配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
（ｂ）前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
（ｃ）前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
（ｄ）前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群である、請求項２１記載の候補選択方法。
前記（ｃ）工程が、下記（ｃ１）および（ｃ２）工程を含む、請求項２１または２２記載の候補選択方法。
（ｃ１）前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
（ｃ２）前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件である、請求項２１から２３のいずれか一項に記載の候補選択方法。
前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、Ａ、Ｇ、Ｃ、ＴおよびＵの塩基である、請求項２１から２４のいずれか一項に記載の候補選択方法。
前記仮想配列情報の塩基長が、１～１０塩基長である、請求項２５記載の候補選択方法。
前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長である、請求項２５または２６記載の候補選択方法。
前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件である、請求項２３から２７のいずれか一項に記載の候補選択方法。
前記類似度の許容条件が、２つの配列情報を対比した場合に許容できるミスマッチの塩基数（Ｍ）に前記仮想配列情報の塩基長（Ｎ）を乗じた値である、請求項２５から２８のいずれか一項に記載の候補選択方法。
さらに、下記（ｅ）工程を含む、請求項２１から２９のいずれか一項に記載の候補選択方法。
（ｅ）前記（ｂ）、（ｃ）および（ｄ）工程を反復する工程
前記（ｂ）工程において、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択する、請求項３０記載の候補選択方法。
下記（Ａ）および（Ｂ）工程を含み、
前記（Ａ）工程が、請求項２１から３１のいずれか一項に記載の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法。
（Ａ）配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
（Ｂ）前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群（Ｇ３）として選択する工程
前記（Ｂ）工程が、下記（Ｂ１）、（Ｂ２）、（Ｂ３）、（Ｂ４）および（Ｂ５）工程を含む、請求項３２記載の類似選択方法
（Ｂ１）前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
（Ｂ２）前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
（Ｂ３）前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
（Ｂ４）前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記（Ｂ１）、（Ｂ２）および（Ｂ３）工程を反復する工程
（Ｂ５）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群（Ｇ３）として選択する工程
前記（Ｂ）工程が、さらに、下記（Ｂ６）、（Ｂ７）および（Ｂ８）工程を含む、請求項３３記載の類似選択方法。
（Ｂ６）前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を０に再設定する工程
（Ｂ７）重複度が０以外である他の候補配列情報について、類似重複度を再算出する工程
（Ｂ８）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
前記（Ｂ）工程が、さらに、下記（Ｂ９）工程を含む、請求項３４記載の類似選択方法。
（Ｂ９）前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を０に再設定し、前記（Ｂ７）および（Ｂ８）工程を反復する工程
前記（Ｂ）工程において、前記（Ｂ１）工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せを除外する、請求項３３から３５のいずれか一項に記載の類似選択方法。
下記（Ｘ）および（Ｙ）工程を含み、前記（Ｘ）工程が、請求項３２から３６のいずれか一項に記載の類似選択方法を含むことを特徴とする、類似配列情報群の濃縮の判定方法。
（Ｘ）配列情報群から、目的の配列情報とそれに類似する配列情報とを判定対象の類似配列情報群として選択する工程
（Ｙ）前記類似配列情報群における前記目的の配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
前記（Ｘ）工程が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程であり、
前記（Ｙ）工程が、下記（Ｙ１）および（Ｙ２）工程を含む、請求項３７記載の判定方法。
（Ｙ１）前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
（Ｙ２）前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である、請求項３８記載の判定方法。
前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である、請求項３８記載の判定方法。
請求項２１から３１のいずれか一項に記載の候補選択方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
請求項３２から３６のいずれか一項に記載の類似選択方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
請求項３７から４０のいずれか一項に記載の判定方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
請求項４１から４３のいずれか一項に記載のプログラムを記録していることを特徴とする記録媒体。