WO2019187100A1

WO2019187100A1 - データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体

Info

Publication number: WO2019187100A1
Application number: PCT/JP2018/013863
Authority: WO
Inventors: 竜仲木; 仙太郎與島; 真輝人小林; 大騎村上
Original assignee: 株式会社Ｒｈｅｌｉｘａ
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2019-10-03
Also published as: JP7089804B2; JPWO2019187100A1

Abstract

データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置を提供する。【解決手段】　データ作成装置２００は、基準要素認識部２１３と、差分認識部２１４と、データ作成部２１５とを備える。　基準要素認識部２１３は、位置の配列に含まれる基準要素を認識する（ＳＴＥＰ０１２）。　差分認識部２１４は、位置の配列の隣り合う要素間の差分を認識する（ＳＴＥＰ０１４）。　データ作成部２１５は、基準要素と要素間の差分とを含むデータを作成する（ＳＴＥＰ０１６）。

Description

データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体

　本発明は、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体に関する。

　生体のゲノム情報は、多様な用途に活用されることが期待されている。

　例えば、人又は動物のゲノム情報に基づいて、人又は動物の遺伝的体質を解析したり、人又は動物の疾病の発症を予測したり、人又は動物の病気の進行度合いを把握したりすることが期待されている。また、植物又は微生物のゲノム情報に基づいて、土壌、水又は生産物の最適化などを行うことも期待されている。

　このようなゲノム情報の活用に当たっては、ゲノム情報を数多く収集することが必要となる。しかし、一般的に、ゲノム情報を示すデータは、非常に大きなデータ容量となることが多い。例えば、人のゲノム情報であるヒトゲノムを再現するための配列群データは数１００ギガバイトのデータ容量に至る。

　このため、すべてのゲノム情報をそのまま保存または送信すると、データベースの記憶容量が圧迫されたり、又は通信回線が逼迫したりする可能性がある。

　このため、ゲノム情報のデータ容量を削減することが重要な課題となる。

　特許文献１には、基準となるゲノムデータと各人のゲノムデータとを比較し、基準となるゲノムデータと各人のゲノムデータとで異なる塩基情報のみを保存し、伝送することで、通常のゲノムデータの約０．１％のデータ容量に圧縮する技術が提案されている。

国際公開第２０１５／１４６８５２号

　しかしながら、特許文献１の技術は、各人のゲノムデータの塩基記号の並び（ＡＣＧＴの並び）を再現するにとどまっている。すなわち、特許文献１の技術では、塩基記号以外の情報、例えば、ゲノムシーケンサーによる塩基情報の読み取り頻度等を再現することができなかった。

　一般的に、ゲノムシーケンサーは、対象のゲノム情報を読み取るにあたり、一回の読み取りでは、ゲノム情報の全部（人の場合、約３１億塩基対）ではなく、ゲノム情報の一部のデータ（以下、適宜「リード」という。）を読み取る。一回の読み取りで読み取られるリードに含まれる塩基配列は、例えば、５０塩基対程度である。

　ゲノムシーケンサーは、読み取ったリードに含まれる塩基配列でゲノム情報の全部を再構成できる程度になるまで、リードを繰り返し読み取るように構成されている。

　ここで、ゲノムシーケンサーは、ゲノム情報の全体にわたってリードを均一に読み取るとは限らず、ある個所においては高頻度で読み取ったり、別なある個所では低頻度で読み取ったりする。この結果、それぞれの塩基配列の読み取り頻度にはばらつきが生じうる。

　ゲノムの分子修飾や相互作用たんぱく質が結合する部位とその統計的有意性を判断する上で、ゲノムシーケンサーによる読み取り頻度は有用な指標となる。ゲノムシーケンサーによる読み取り頻度のばらつきを解析することで、塩基記号の並びの再現以外の情報が得られる可能性がある。

　しかし、上述したように、特許文献１の技術は、ゲノムシーケンサーによる読み取り頻度を再現することができなかった。

　そこで、本発明は、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体を提供することを目的とする。

　本発明のデータ作成装置は、長さが第１塩基数である第１塩基配列データを記憶する第１塩基配列記憶部と、第１塩基配列記憶部に記憶された前記第１塩基配列データに基づいて、個々の長さが前記第１塩基数よりも短い第２塩基数である各第２塩基配列データについて、当該第２塩基配列データに対応する第１塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識する差分認識部と、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とする。

　当該構成のデータ作成装置によれば、位置認識部により、第１塩基配列記憶部に記憶された前記第１塩基配列データに基づいて、個々の長さが前記第１塩基数よりも短い第２塩基数である各第２塩基配列データについて、当該第２塩基配列データに対応する第１塩基配列データ中の部分配列の位置を示す数値が認識される。

　そして、並替部により、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置の配列が作成される。ここで、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置の配列の隣り合う要素は、昇順または降順で並べられているので、その差分はかなり小さくなりやすい。特に、ゲノムシーケンサーによって高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置を示す数値は同一またはほとんど差がないものとなる。

　そして、基準要素認識部により、前記位置の配列に含まれる少なくとも一つの要素である基準要素が認識される。

　そして、差分認識部により、前記位置の配列に含まれ、かつ、隣り合う要素間の差分が認識される。

　そして、データ作成部により、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータが作成される。

　前述したようにゲノムシーケンサーによって高頻度で読み取られた塩基配列に関する要素間の差分はかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。

　一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値を逆算して求めることができる。このような各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。

　以上の通り、本発明のデータ作成装置によれば、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成しうる。

　本発明のデータ作成装置において、前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることが好ましい。

　当該構成のデータ作成装置によれば、前記基準要素認識部により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。

　本発明のデータ作成装置において、前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第１部分と１４ビット以下のデータを格納する第２部分とを一又は複数含む可変長データを作成することが好ましい。

　当該構成のデータ作成装置によれば、前記データ作成部により、前記要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第１部分と１４ビット以下のデータを格納する第２部分とを一又は複数含む可変長データが作成される。

　本願の出願人が検討したところによれば、位置の配列の連続する要素間の差分は、ほとんど１４ビット以下で表すことができる。これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。

　また、先行又は後続するデータが関連データであるか否かを示す第１部分により適当な数の第２部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第２部分のビット数以上となる差分についても、当該可変長データで表現することができる。

　当該構成のデータ作成装置において、前記第２部分は、６ビット以下であることが好ましい。

　本件出願人の検討によれば、要素間の差分は、約８割のデータが６ビット以下で表現できることが分かった。

　第２部分のデータを６ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第１部分により適当な数の第２部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第２部分のビット数以上となる差分についても、当該可変長データで表現することができる。

　当該構成のデータ作成装置において、前記第２部分は、３ビット以下であることが好ましい。

　本件出願人の検討によれば、約６割のデータが３ビット以下で表現できることが分かった。第２部分のデータを３ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第１部分により適当な数の第２部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第２部分のビット数以上となる差分についても、当該可変長データで表現することができる。

データ作成システムの全体構成図。第１塩基配列データの一例を示す図。ゲノムシーケンサーにより読み込まれた複数の第２塩基配列データの一例を示す図。データ作成処理のフローチャート。ＳＡＭ形式のファイルの一例を示す図。抽出後データの一例を示す図。並替後データの一例を示す図。差分認識後データの一例を示す図。データ作成処理によって作成されるデータに含まれる内容の一例を示す図。データ作成処理によって作成されるデータの具体例を示す図。データ作成処理によって作成されるデータの形式の一例を示す図。一のデータ形式に従ったデータの表現を示す図。差分を表すのに必要なビット数と、各ビット数の頻度及び含有割合との関係を示すグラフ。

　図１～図８を参照して、本発明の実施形態のデータ作成システムを説明する。

　（データ作成システムの構成）
　図１を参照して、データ作成システムの構成を説明する。

　データ作成システムは、１又は複数のゲノムシーケンサー１００と、１又は複数のデータ作成装置２００と、データベース３００と、を備える。

　１又は複数のデータ作成装置２００は、それぞれ、有線接続又は無線接続を介して、１又は複数のゲノムシーケンサー１００のそれぞれと接続されている。データベース３００は、インターネット等の広域ネットワークを介して、データ作成装置２００のそれぞれと接続されている。一又は複数のデータ作成装置２００は、それぞれ異なるユーザに使用されうる。

　（ゲノムシーケンサーの構成）
　ゲノムシーケンサー１００は、例えば、対象の生体Ｐからゲノム情報の一部を取得し、当該ゲノム情報に含まれる部分的な塩基配列を示すデータ（以下、「第２塩基配列データ」という。）を繰り返し出力するように構成されている。ゲノムシーケンサー１００は、例えばＨｉＳｅｑシステム（登録商標）で構成される。第２塩基配列データは、塩基記号（Ａ、Ｃ、Ｇ又はＴ）の繰り返しで表現される。ゲノムシーケンサー１００は、所定の設定またはユーザの指定にされた数だけ塩基記号が含まれるように、第２塩基配列データを読み取る。以下、第２塩基配列データに含まれる塩基記号の数を、適宜「第２塩基配列データの長さ」ともいう。第２塩基配列データは、塩基記号以外の符号、例えば、読取不能を示す記号としての「？」を含んでもよい。第２塩基配列データの長さが、本発明の「第２塩基数」の一例に該当する。

　（データ作成装置の構成）
　一又は複数のデータ作成装置２００は、細かくは個々の端末ごとに異なるけれども、概略的には以下のような構成を有する。

　データ作成装置２００は、演算処理部２１０と、記憶部２２０とを備える。

　データ作成装置２００は、ラップトップコンピュータ、タブレット型端末またはスマートフォンなど、ユーザによる携帯が可能なようにサイズ、形状および重量が設計されているコンピュータにより構成されていてもよく、デスクトップコンピュータなど、特定箇所に設置されるように、サイズ、形状および重量が設計されているコンピュータにより構成されていてもよい。

　演算処理部２１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の演算処理装置、メモリ等の記憶装置及びＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）デバイスなどにより構成されている。記憶部２２０には、外部よりダウンロードしたデータ作成プログラム２２３がインストールされている。記憶部２２０に記憶されたデータ作成プログラム２２３が起動されることにより、演算処理部２１０は、位置認識部２１１と、並替部２１２と、基準要素認識部２１３と、差分認識部２１４と、データ作成部２１５ととして機能するように構成されている。なお、データ作成プログラム２２３を記憶したデータ作成装置２００が、本発明の「記憶媒体」の一例に相当する。

　演算処理部２１０は、有線通信またはＷｉＦｉ（登録商標）等の遠距離での無線通信に適した通信規格にしたがった無線通信を介して、データベース３００などの外部機器と相互通信するよう構成されている。

　記憶部２２０は、例えばＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ），ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の記憶装置により構成されている。

　記憶部２２０は、演算処理部２１０による演算処理及び演算処理部２１０が受信したデータなどの演算処理部２１０が認識した情報を記憶するように構成されている。

　なお、一の装置が情報を「認識する」とは、一の装置が他の装置から当該情報を受信すること、一の装置が当該一の装置に接続された記憶媒体に記憶された情報を読み取ること、一の装置が当該一の装置に接続されたセンサから出力された信号に基づいて情報を取得すること、一の装置が、受信した情報又は記憶媒体に記憶された情報又はセンサから取得した情報に基づいて、所定の演算処理（計算処理又は検索処理など）を実行することにより当該情報を導出すること、一の装置が他の装置による演算処理結果としての当該情報を当該他の装置から受信すること、一の装置が当該受信信号にしたがって内部記憶装置又は外部記憶装置から当該情報を読み取ること等、当該情報を取得するためのあらゆる演算処理が実行されることを意味する。

　記憶部２２０は、第１塩基配列記憶部２２１とデータ記憶部２２２とを備える。

　第１塩基配列記憶部２２１は、図２Ａに示されるように、塩基配列を示すデータ（以下、「第１塩基配列データ」という。）を格納している。これらのデータは、一又は複数の生体（ただし、「人類」又は「日本人」等のようにある程度共通項を有する生体）から読み取られた各塩基配列を示すデータを基に作成されうる。複数の生体から塩基配列を示すデータを作成された場合、第１塩基配列データは、各生体から読み取られた各塩基配列で共通の塩基についてはそのままの塩基記号で表され、それらの生体で異なる塩基については＊等の塩基記号とは異なる記号で表される。一の第１塩基配列データは、ｃｈｒ１，ｃｈｒ２など、複数の塩基配列に分解され、それぞれの塩基配列ごとに記憶されていてもよい。これらのｃｈｒ１，ｃｈｒ２などに分解された各塩基配列を、以下、適宜「リファレンス配列」という。また、ｃｈｒ１、ｃｈｒ２の各塩基配列を識別する文字列を、以下、適宜「リファレンス配列の名称」という。本実施例において、リファレンス配列の名称は、ｃｈｒ等の所定の文字列と、番号とで構成される。これらのリファレンス配列の長さは、第２塩基配列データの長さよりも長く設定される。リファレンス配列の長さの合計値が、本発明の「第１塩基数」の一例に相当する。

　第１塩基配列記憶部２２１は、生体の種別ごとに第１塩基配列データを記憶していてもよい。

　なお、第１塩基配列データを作成するためのサンプルとなる生体は、後述するデータ作成処理の処理対象の生体Ｐと異なる生体である。ただし、生体の種別が共通していれば、個体が異なっても、そのほとんどの塩基配列は一致する。例えば、人類であれば、個体が異なっても、９９．９％程度の塩基配列が一致することとなる。

　（データベースの構成）
　データベース３００は、ＣＰＵ等の演算処理装置、ローカルメモリ、ＲＯＭ，ＲＡＭ、ＨＤＤ等の記憶装置及びＩ／Ｏデバイスなどにより構成されている。データベース３００は、データ作成装置２００から受信したデータを記憶するように構成されている。データベース３００は、一のプロセッサにより構成されてもよく、相互通信可能な複数のプロセッサにより構成されてもよい。

　なお、データベース３００を構成するコンピュータの一部または全部が、データ作成装置２００を構成するコンピュータにより構成されていてもよい。たとえば、移動局としての一または複数のデータ作成装置２００により、データベース３００の一部または全部が構成されていてもよい。

　また、データベース３００は、ＷｉＦｉ又は有線接続などを介してネットワークとしての公衆通信網（例えばインターネット）に接続され、外部の機器（例えばデータ作成装置２００）と通信するように構成されている。

　（データ作成処理）
　次に、図２～図８を参照して、データ作成装置２００により実行されるデータ作成処理の流れを説明する。

　位置認識部２１１は、ゲノムシーケンサー１００から出力されたデータに基づいて、対象の生体Ｐの各第２塩基配列データを認識する（図３／ＳＴＥＰ００２）。対象の生体Ｐは、ゲノムシーケンサー１００によってゲノム情報が読み取り可能な生体であればよく、例えば、人であっても良いし、動物であってもよいし、植物であってもよいし、微生物であってもよい。

　ゲノムシーケンサー１００から出力されたデータは、例えば、図２Ｂに示されるように、塩基記号の繰り返しを含むデータＤ１である。

　データＤ１は、所定の塩基数（例えば５０）だけの塩基記号の繰り返しで示される複数の第２塩基配列データＤ１１、Ｄ１２、Ｄ１３を含む。各第２塩基配列データＤ１１、Ｄ１２，Ｄ１３は、例えばカンマで区切られている。また、各第２塩基配列データＤ１１、Ｄ１２，Ｄ１３は、読取不能であった塩基を示す補助塩基記号Ｄ１１１，Ｄ１２１，Ｄ１３１を含む。

　位置認識部２１１は、図３／ＳＴＥＰ００２で認識した各第２塩基配列データと、第１塩基配列記憶部２２１に格納された第１塩基配列データとを対比することにより、各第２塩基配列データに対応する第１塩基配列データにおける第１塩基配列データの部分配列の位置を示す数値を認識する（図３／ＳＴＥＰ００４）。

　例えば、位置認識部２１１は、第２塩基配列データに含まれる各塩基記号の出現順が、一致している割合が最も高い第１塩基配列データの部分配列（当該第２塩基配列データに対応する第１塩基配列データの部分配列）を認識する。そして、位置認識部２１１は、第１塩基配列データにおける部分配列の開始位置を示す数値を認識する。部分配列の位置は、当該部分配列を特定するための位置であればよく、開始位置に限られず、例えば終了位置であってもよいし、その他の位置であってもよい。

　このような、部分配列の位置を示す数値の認識については、種々の公知の手法が採用されうる。

　位置認識部２１１は、ＳＡＭ（Ｓｅｑｕｅｎｃｅ　Ａｌｉｇｎｍｅｎｔ／Ｍａｐ）形式のファイルを作成する（図３／ＳＴＥＰ００６）。作成されたファイルは、記憶部２２０に記憶される。

　図４は、図３／ＳＴＥＰ００６で作成されるファイルの一例を示す図である。図４に示されるファイルは、ヘッダデータＤ２１とボディデータＤ２２とを含む。

　ボディデータＤ２２は、各第２塩基配列データのそれぞれについて、リファレンス配列の名称Ｄ２２１、第２塩基配列データに対応する第１塩基配列データのリファレンス配列における部分配列の開始位置Ｄ２２２と、第２塩基配列データに対応する第１塩基配列データにおけるペアエンドの場合の部分配列の開始位置Ｄ２２３と、第２塩基配列データの塩基配列Ｄ２２４とを含む。なお、リファレンス配列の名称と、リファレンス配列における部分配列の開始位置とが、本発明の「第１塩基配列データの部分配列の位置」の一例に相当する。

　並替部２１２は、リファレンス配列ごとに、各第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置を示す数値を抽出する（図３／ＳＴＥＰ００８）。

　並替部２１２は、図３／ＳＴＥＰ００８の処理により、例えば、図５Ａに示される位置抽出後データＤ３を作成する。位置抽出後データＤ３は、各第２塩基配列データの塩基配列の長さＤ３１と、各リファレンス配列の名称Ｄ３２と、各リファレンス配列に対応付けられた第２塩基配列データの数Ｄ３３と、各第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置Ｄ３４とを含む。各第２塩基配列データの塩基配列の長さＤ３１は、各第２塩基配列データの長さから認識されてもよい。また、第２塩基配列データの長さが予め決まっている場合には、各第２塩基配列データの塩基配列の長さＤ３１は、省略されてもよい。

　図５Ａに示される位置抽出後データＤ３においては、５行目以降が、各第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置となっている。

　図５Ａに示される位置抽出後データＤ３においては、３行目以降は、カンマ区切りで、２行目のリファレンス配列の名称Ｄ３２のそれぞれに対応するデータが格納されている。

　例えば、３行目の最初の「７１９７８６」は、リファレンス配列「ｃｈｒ１」に対応付けられた第２塩基配列データの数を示す。

　また、３行目の二番目の「３８０９１２」は、リファレンス配列「ｃｈｒ２」に対応付けられた第２塩基配列データの数を示す。

　また、４行目の最初の「１７７６４４８６０」は、リファレンス配列「ｃｈｒ１」に対応付けられた第２塩基配列データのうち、ある第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置を示す数値である。

　また、５行目の最初の「１７７６４４８９６」は、リファレンス配列「ｃｈｒ１」に対応付けられた第２塩基配列データのうち、別の第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置を示す数値である。

　対応する開始位置がない場合は、空欄となる。

　並替部２１２は、対応付けられたリファレンス配列ごとに、各第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置に代えて、第２塩基配列データに対応する第１塩基配列データにおけるペアエンドの場合の部分配列の開始位置を示す数値を抽出してもよい。

　並替部２１２は、リファレンス配列ごとに、開始位置を示す数値を昇順で並び替える（図３／ＳＴＥＰ０１０）。

　並替部２１２は、図３／ＳＴＥＰ０１０の処理の後、図５Ｂに示されるような並替後データＤ４を作成する。並替後データＤ４は、各第２塩基配列データの塩基配列の長さＤ４１と、各リファレンス配列の名称Ｄ４２と、各リファレンス配列に対応付けられた第２塩基配列データの数Ｄ４３と、各第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置Ｄ４４、Ｄ４５，Ｄ４６とを含む。各第２塩基配列データに対応する第１塩基配列データにおける部分配列の開始位置Ｄ４４、Ｄ４５，Ｄ４６は、昇順で並び替えられている。このため、これらのうちの一番上の行（並替後データＤ４における４行目）のデータＤ４４が、各リファレンス配列で最小の要素（開始位置）となっている。

　基準要素認識部２１３は、リファレンス配列ごとに、一又は複数の基準要素を認識する（図３／ＳＴＥＰ０１２）。基準要素は、例えば、各リファレンス配列で最小の要素である。最小の要素以外の任意の要素が基準要素として認識されてもよい。また、位置のリファレンス配列について、複数の要素が基準要素として認識されてもよい。

　差分認識部２１４は、基準要素以外の要素について、隣り合う要素との差分の配列を認識する（図３／ＳＴＥＰ０１４）。差分認識部２１４は、図３／ＳＴＥＰ０１４の処理後に、例えば図５Ｃに示される差分認識後データＤ５を作成する。

　差分認識後データＤ５には、各第２塩基配列データの塩基配列の長さＤ５１と、各リファレンス配列の名称Ｄ５２と、各リファレンス配列に対応付けられた第２塩基配列データの数Ｄ５３と、各リファレンス配列の基準要素Ｄ５４と、差分データＤ５５、Ｄ５６とが含まれている。

　例えば、図５Ｂに示される並替後データＤ４では、リファレンス配列ｃｈｒ１に含まれる部分配列の開始位置は、小さい順に、９９９７、９９９８、９９９８・・・である。

　図５Ｃに示される差分認識後データＤ５の第４行目（符号Ｄ５４で示される行）には、リファレンス配列ｃｈｒ１における図３／ＳＴＥＰ０１２で認識された基準要素９９９７が含まれている。

　また、図５Ｃに示される差分認識後データＤ５の第５行目（符号Ｄ５５で示される行）のリファレンス配列ｃｈｒ１に対応する要素に、図５Ｂの５行目（符号Ｄ４５で示される行）の要素９９９８と、その前（４行目（符号Ｄ４４で示される行））の要素９９９７との差分である１が含まれている。

　また、図５Ｃに示される差分認識後データＤ５の第６行目（符号Ｄ５５で示される行）のリファレンス配列ｃｈｒ１に対応する要素に、図５Ｂの６行目（符号Ｄ４６で示される行）の要素９９９８と、その前（５行目（符号Ｄ４５で示される行））の要素９９９８との差分である０が含まれている。

　また、例えば、図５Ｂに示される並替後データＤ４では、リファレンス配列ｃｈｒ２に含まれる部分配列の開始位置は、小さい順に、１０２３７、１０２８６、１０３３０・・・である。

　図５Ｃに示される差分認識後データＤ５の第４行目（符号Ｄ５４で示される行）には、リファレンス配列ｃｈｒ２における図３／ＳＴＥＰ０１２で認識された基準要素１０２３７が含まれている。

　また、図５Ｃに示される差分認識後データＤ５の第５行目（符号Ｄ５５で示される行）のリファレンス配列ｃｈｒ２に対応する要素に、図５Ｂの５行目（符号Ｄ４５で示される行）の要素１０２８６と、その前（４行目（符号Ｄ４４で示される行））の要素１０２３７との差分である４９が含まれている。

　また、図５Ｃに示される差分認識後データＤ５の第６行目（符号Ｄ５５で示される行）のリファレンス配列ｃｈｒ２に対応する要素に、図５Ｂの６行目（符号Ｄ４６で示される行）の要素１０３３０と、その前（５行目（符号Ｄ４５で示される行））の要素１０２８６との差分である４４が含まれている。

　データ作成部２１５は、図３／ＳＴＥＰ０１２で認識された基準要素と、図３／ＳＴＥＰ０１４で認識された隣り合う要素との差分とを含むデータを作成する（図３／ＳＴＥＰ０１６）。

　例えば、データ作成部２１５は、図５Ｃに示される差分認識後データＤ５に基づいて、図３／ＳＴＥＰ０１６で、リファレンス配列ごとに、図６Ａに示されるようなデータＤ６１を作成する。データＤ６１は、第２塩基配列データの塩基配列の長さＤ６１と、当該リファレンス配列の名称に含まれる番号Ｄ６２と、当該リファレンス配列に対応付けられた第２塩基配列データの数Ｄ６３と、基準要素Ｄ６４と、差分Ｄ６５、Ｄ６６の配列とを含むデータである。

　図３／ＳＴＥＰ０１６で作成されるデータは、少なくとも差分を示すデータ部分に関しては、図７Ａに示されるように、第１部分Ｄ１と、第２部分Ｄ２とを含む形式のデータとなっている。

　この第２部分Ｄ２は、何ビットでもよいが、１４ビット以下であることが好ましいが、６ビット以下であることがより好ましく、３ビット以下であることがさらに好ましい。

　第１部分Ｄ１は、先行又は後続するデータが関連するデータであるか否かを示す部分である。第２部分Ｄ２は、差分等の対象のデータの内容を示す部分である。第１部分Ｄ１は、例えば、１ビットで構成されていてもよい。

　第１部分Ｄ１が１ビットで構成される場合、例えば、第１部分が０の場合、後続する所定の長さのデータが関連しないことを意味し、第１部分が１の場合、後続する所定の長さのデータが関連することを意味してもよいが、第１部分により読み込む範囲が特定できれば、どのような規則であってもよい。

　例えば、図７Ｂに示されるデータは、第１部分が１ビットで、第２部分が３ビットで構成された場合の例を示している。図７Ｂに示されるデータは、第１部分が０の場合、後続する所定の長さのデータが関連しないことを意味し、第１部分が１の場合、後続する所定の長さのデータが関連することを意味する。

　第２部分が３ビットである場合、１０進数の１～７については、３ビットで十分に表現できるため後続するデータを使用する必要はない。このため、１０進数の１、３について、図７Ｂに示されるように、第１部分は０となる。また、１０進数の１、３については、図７Ｂに示されるように、第２部分は、それぞれ００１、０１１となる。

　一方、１０進数の８～３１については、３ビットでは十分に表現できない。このため、これらのデータについては、図７Ｂに示されるように、最初のデータの第１部分は１となる。しかし、６ビットであれば十分に１０進数の８～３１を表現できるため、これらのデータについては、図７Ｂに示されるように、次のデータの第１部分は０となる。これらについては、関連する第２部分全体により、差分等の対象のデータの内容が示される。例えば、８であれば、図７Ｂに示されるように、最初の第２部分の００１と、次の第２部分の０００とを合わせた、００１０００により、２進数の８が表現される。

　第２部分の大きさは、対象のデータのサイズ解析することで、最適化しうる。

　図６Ｂは、このような第１部分と第２部分とを含むデータ形式で図６Ａに示されるデータを作成した時の例を示す図である。

　図６Ｂにおいては、当該リファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第２塩基配列データの総数と、基準要素と、各差分とが上記したデータ形式で表現されている。図３／ＳＴＥＰ０１６で作成されるデータには、図６Ｂに示されるデータが、リファレンス配列の数だけ繰り返し含まれている。当該リファレンス配列に対応付けられた第２塩基配列データの総数は、このリファレンス配列ごとの区切りを示すために用いられる。

　データ作成部２１５は、作成したデータをバイナリ形式でデータ記憶部２２２に記憶するとともに、データベース３００に送信する。データベース３００は、データ作成装置２００又は対象の生体Ｐを特定できる情報（例えばユーザＩＤなど）とともに受信したデータを記憶する。データ作成部２１５は、データベース３００に、リファレンス配列と基準要素とを除外したデータを送信してもよい。このようにすることで、データベース３００に記憶されたデータからは、全てのデータが復元できなくなるので、個人情報の保護が図られうる。

　以上により、データ作成処理が終了する。

　（データの復元）
　図３／ＳＴＥＰ０１６で作成されるデータから、データの復元をする方法について説明する。以下の処理は、第１塩基配列データにアクセス可能な一般的なコンピュータにより実行されうる。

　まず、第１ステップにおいて、コンピュータは、図３／ＳＴＥＰ０１６で作成されるデータを先頭から読み込み、各第２塩基配列データの塩基配列の長さと、一のリファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第２塩基配列データの総数とを認識する。

　次に、第２ステップにおいて、コンピュータは、基準要素を認識する。

　第３ステップにおいて、コンピュータは、一のリファレンス配列の名称に含まれる番号と、基準要素とから、基準要素に対応する第１塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第２塩基配列データの塩基配列の長さとに基づいて、基準要素に対応する第１塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第２塩基配列データの総数から１を引く。

　第４ステップにおいて、コンピュータは、基準要素の次の差分を読み込む。コンピュータは、基準要素に当該差分を加えることで、２番目の要素の値を認識する。コンピュータは、この値に基づき、２番目の要素に対応する第１塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第２塩基配列データの塩基配列の長さとに基づいて、２番目の要素に対応する第１塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第２塩基配列データの総数から１を引く。

　第５ステップにおいて、コンピュータは、その次の差分を読み込む。コンピュータは、２番目の要素の値に当該差分を加えることで、３番目の要素の値を認識する。コンピュータは、この値に基づき、３番目の要素に対応する第１塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第２塩基配列データの塩基配列の長さとに基づいて、３番目の要素に対応する第１塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第２塩基配列データの総数から１を引く。

　当該リファレンス配列に対応付けられた第２塩基配列データの総数がゼロになるまで、コンピュータは、第５ステップを繰り返す。第２塩基配列データの総数がゼロとなった場合、データの読み込みが完了するまで、コンピュータは、第１ステップ～第５ステップを繰り返し実行する。

　このようにすることで、コンピュータは、各第２塩基配列データに対応する第１塩基配列データの部分配列の群を認識することができる。この各第２塩基配列データに対応する第１塩基配列データの部分配列の群は、各第２塩基配列データとは完全には一致しないが、生体Ｐのゲノムシーケンサーによる読取頻度の解析をする上では十分に有用である。

　（本実施形態の作用効果）
　当該構成のデータ作成装置２００によれば、位置認識部２１１により、第１塩基配列記憶部２２１に記憶された第１塩基配列データに基づいて、個々の長さが第１塩基数よりも短い第２塩基数である各第２塩基配列データについて、当該第２塩基配列データＤ２２４に対応する第１塩基配列データ中の部分配列の位置Ｄ２２１、Ｄ２２２が認識される（図３／ＳＴＥＰ００４、図３／ＳＴＥＰ００６）。

　そして、並替部２１２により、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を昇順または降順で並び替えることにより（図３／ＳＴＥＰ０１０）、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置の配列（図５Ｂの第４行目以降）が作成される（図５Ｂ参照）。ここで、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置の配列の隣り合う要素は、互いに近い位置となるので、その差分はかなり小さくなりやすい。特に、高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置は同一またはほとんど差がないものとなる。

　そして、基準要素認識部２１３により、前記位置の配列に含まれる少なくとも一つの位置である基準要素が認識される（図３／ＳＴＥＰ０１２）。

　そして、差分認識部２１４により、位置の配列の隣り合う要素間の差分の配列が認識される（図３／ＳＴＥＰ０１４）。

　そして、データ作成部２１５により、基準要素認識部２１３により認識された基準要素と差分認識部２１４により認識された要素間の差分とを含むデータＤ６が作成される（図３／ＳＴＥＰ０１６）。

　要素間の差分は、前述したように高頻度で読み取られた部分についてはかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。

　例えば、本発明者らが実験したところによると、図３／ＳＴＥＰ０１６で作成されたデータのサイズは、図３／ＳＴＥＰ００６で作成されたＳＡＭファイルのサイズの約０．３３％となった。また、図３／ＳＴＥＰ０１６で作成されたデータのサイズは、開始位置を示す数値を抜き出した図５Ａのファイルのサイズと比較しても、約４．９７％となった。

　一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を逆算して求めることができる。このような各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。

　以上の通り、本発明のデータ作成装置２００によれば、データ容量を抑えながら、ゲノムシーケンサー１００による読み取り頻度を再現できるデータを作成しうる。

　また、当該構成のデータ作成装置２００によれば、基準要素認識部２１３により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される（図３／ＳＴＥＰ０１２）。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。

　当該構成のデータ作成装置２００によれば、データ作成部２１５により、要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第１部分Ｄ６１と１４ビット以下のデータを格納する第２部分Ｄ６２とを一又は複数含む可変長データＤ６（図７Ａ参照）が作成される（図３／ＳＴＥＰ０１６）。

　本願の出願人が検討したところによれば、位置の配列の連続する要素間の各差分は、ほとんど１４ビット以下で表すことができる。

　例えば、図８は、ある生体（人間）から取得されたデータに基づいて作成されたグラフ理であり、差分が何ビットで表せるかを示したグラフである。図８のグラフの横軸は、差分が何ビットで表せるかを示す軸である。図８の左軸は、各ビットの出現頻度である。図８の右軸は、各ビットの出現頻度の割合を累計した割合である。図８に示されるように、各ビットの出現頻度の割合を累計した割合は、１４ビットでほぼ１００％となる。このため、第２部分は、１４ビット以下であることが好ましい。

　これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。

　また、先行又は後続するデータが関連データであるか否かを示す第１部分により適当な数の第２部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第２部分のビット数以上となる差分についても、図７Ｂに示されるように、当該可変長データで表現することができる。

　また、図８に示されるように、各ビットの出現頻度の割合を累計した割合は、６ビットでほぼ８０％となる。このため、第２部分は、６ビット以下であってもよい。

　また、図８に示されるように、各ビットの出現頻度の割合を累計した割合は、３ビットでほぼ６０％となる。このため、第２部分は、３ビット以下であってもよい。

　（変形態様）
　上述した実施形態では、第１塩基配列データは、複数のリファレンス配列に分解されたが、これに限られず、一の配列で表されてもよい。

　第１部分は、２ビットであってもよい。このデータ形式においては、例えば、第１部分が００である場合、第２部分が２ビットであることを示し、第１部分が０１である場合、第２部分が６ビットであることを示し、第１部分が１０である場合、第２部分が１０ビットであることを示し、第１部分が１１である場合、第２部分が１０ビットであるとともに、後続するデータが関連するデータであることを示してもよい。

　また、第２部分は、関連するデータの数に応じてその長さが可変であってもよい。例えば、関連するデータの数が１である場合、第２部分が１ビットであり、関連するデータの数が２以上である場合、第２部分がそれぞれ３ビットとなるようなデータ形式であってもよい。

　データ作成部２１５は、このようなデータ形式に応じて、図３／ＳＴＥＰ０１６におけるデータを作成してもよい。

　１００‥ゲノムシーケンサー、２００‥データ作成装置、２１０‥演算処理部、２１１‥位置認識部、２１２‥並替部、２１３‥基準要素認識部、２１４‥差分認識部、２１５‥データ作成部、２２０‥記憶部、２２１‥第１塩基配列記憶部、２２２‥データ記憶部、３００‥データベース。

Claims

　長さが第１塩基数である第１塩基配列データを記憶する第１塩基配列記憶部と、
　第１塩基配列記憶部に記憶された前記第１塩基配列データに基づいて、個々の長さが前記第１塩基数よりも短い第２塩基数である各第２塩基配列データについて、当該第２塩基配列データに対応する第１塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、
　各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、
　前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、
　前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識する差分認識部と、
　前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とするデータ作成装置。
　請求項１記載のデータ作成装置において、
　前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることを特徴とするデータ作成装置。
　請求項１又は２記載のデータ作成装置において、
　前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第１部分と１４ビット以下のデータを格納する第２部分とを一又は複数含む可変長データを作成することを特徴とするデータ作成装置。
　請求項３記載のデータ作成装置において、
　前記第２部分は、６ビット以下であることを特徴とするデータ作成装置。
　請求項４記載のデータ作成装置において、
　前記第２部分は、３ビット以下であることを特徴とするデータ作成装置。
　長さが第１塩基数である第１塩基配列データを記憶する第１塩基配列記憶部を備えるコンピュータが実行する方法であって、
　第１塩基配列記憶部に記憶された前記第１塩基配列データに基づいて、個々の長さが前記第１塩基数よりも短い第２塩基数である各第２塩基配列データについて、当該第２塩基配列データに対応する第１塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
　各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
　前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
　前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識するステップと、
　前記基準要素と前記要素間の差分とを含むデータを作成するステップとを含むことを特徴とするデータ作成方法。
　長さが第１塩基数である第１塩基配列データを記憶する第１塩基配列記憶部を備えるコンピュータに、
　第１塩基配列記憶部に記憶された前記第１塩基配列データに基づいて、個々の長さが前記第１塩基数よりも短い第２塩基数である各第２塩基配列データについて、当該第２塩基配列データに対応する第１塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
　各第２塩基配列データに対応する第１塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
　前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
　前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識するステップと、
　前記基準要素と前記要素間の差分とを含むデータを作成するステップとを実行させることを特徴とするデータ作成プログラムを格納した記憶媒体。