WO2016175330A1

WO2016175330A1 - ゲノム解析装置及びゲノム可視化方法

Info

Publication number: WO2016175330A1
Application number: PCT/JP2016/063509
Authority: WO
Inventors: 邦裕西村; 貴司青木; 理美坂田; 俊貴竹内; 祐樹伴; 淳雄山田; 近藤　聡
Original assignee: 株式会社テンクー
Priority date: 2015-04-30
Filing date: 2016-04-28
Publication date: 2016-11-03
Also published as: US20170372003A1; EP3291114A1; JP6593763B2; KR102140032B1; KR20170087508A; CN107004069A; US10573405B2; JPWO2016175330A1; EP3291114B1; WO2016175330A9; CN107004069B; EP3291114A4

Abstract

大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、ゲノムデータに関する出力データを送信するゲノム解析装置であって、ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶する記憶手段と、クライアント装置からの出力リクエストを受信するリクエスト受信手段と、出力リクエスト受信手段が出力リクエストを受信した場合に、記憶手段から出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成手段と、を備える。

Description

ゲノム解析装置及びゲノム可視化方法

参照による取り込み

　本出願は、２０１５年４月３０日に出願された日本特許出願特願２０１５－０９３７３９の優先権を主張し、その内容を参照することにより、本出願に取り込む。

　本発明は、ゲノム解析装置及びゲノム可視化方法に関する。

　１９９０年代、生物がもつＤＮＡやＲＮＡに含まれる全遺伝情報、すなわちゲノムの全塩基配列を解析することによって、生物の原理的理解、更には生物の疾患研究、起源や進化の研究を目的とするゲノムプロジェクトが開始された。

　解析対象であるゲノムの塩基配列は、１サンプル当たりのデータ量が極めて膨大なものである。近年では、ゲノムの塩基配列を超高速且つ低コストに解読することが可能な次世代シークエンサーと呼ばれる配列解読装置が開発され、利用されるようになってきた。

　次世代シークエンサーは、解析対象のＤＮＡやＲＮＡを非常に短い断片にし、それらを並列に読み込むことでＤＮＡやＲＮＡを高速に読み取るとともに、読み込まれた各断片を解析して各断片の塩基配列を決定する。その後、決定された各断片の塩基配列情報を、リード配列と呼ばれる配列データ、例えばＦＡＳＴＱ形式のデータとして出力する。又は、リード配列を既知のゲノムの塩基配列（以下、「参照配列」ともいう。）にアライメント（マッピング）させたデータ、例えばＳＡＭ形式やＢＡＭ形式のデータを出力する（例えば、特許文献１参照）。

　特許文献１には、複数のリード配列の中から複数の高品質リード配列を特定する工程と、複数の高品質リード配列から複数のユニークリード配列を抽出する工程と、複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程とによって、高品質なアライメントを可能にする技術が開示されている。

　この次世代シークエンサーから出力されたＦＡＳＴＱ形式、ＳＡＭ形式、ＢＡＭ形式等の染色体サンプルのデータ（以下、総称する場合、「ゲノムデータ」ともいう。）は、ＣｈＩＰ－Ｓｅｑ（Chromatin Immunoprecipitation-sequence）やＲＮＡ－Ｓｅｑ等の各種解析に利用される。

　一方、ＣｈＩＰ－ＳｅｑやＲＮＡ－Ｓｅｑ等の解析結果やゲノムの塩基配列の視覚的な把握を可能にする可視化技術も開発されている。例えばIntegrative Genomics Viewer（米Broad Institute）、Integrated Genome Browser（米Affymetrix社）、UCSC Genome Browser（米UCSC）、Gbrowse等のビューワである。

　これらの可視化技術によれば、多数のリード配列をアセンブルすることで再構築されるゲノムの塩基配列と参照配列との共通性・差異等を視覚的に比較することができる。

特表２０１４－５０５９３５号公報

　ところで、上記UCSC Genome Browser、GbrowseのＷｅｂブラウザ型のビューワでは、一旦所定の表示範囲でゲノムの塩基配列を表示させた後にその表示範囲を変更するような場合、表示範囲の更新に多くの時間を要し、Ｗｅｂブラウザ上でのシームレスな可視化を行うことができなかった。すなわち、Ｗｅｂブラウザ上でユーザによって表示範囲変更指示が入力されると、入力された表示範囲変更指示をＷｅｂブラウザから受信したＷｅｂサーバやＡＰＩサーバが、当該指示に応じて多数のリード配列を基に表示データを再計算し、再計算された表示データをＷｅｂブラウザに送信する工程を必要とするものであった。そのため、表示範囲の変更毎に多くの時間を要し、Ｗｅｂブラウザ上でのシームレスな可視化を行うことができなかった。

　一方、上記Integrative Genomics Viewer、Integrated Genome Browserのスタンドアロン型のビューワでは、一定程度シームレスな可視化を行うことはできるものの、このようなビューワがインストールされるコンピュータ装置自体に高いスペックが要求されたり、別途特別なソフトウェアをインストールしたりする必要があった。

　本発明は、上記のような事情に鑑みてなされたものであって、Ｗｅｂブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とするゲノム解析装置及びゲノム可視化方法を提供することを目的とする。

　上記の目的を達成するために、本発明に係るゲノム解析装置は、大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置であって、前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶する記憶手段と、前記クライアント装置からの出力リクエストを受信するリクエスト受信手段と、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成手段と、を備えたことを特徴とする。

　また上記の目的を達成するために、本発明に係るゲノム可視化方法は、大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、前記ゲノムデータに関するデータを記憶する記憶部を有し、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置におけるゲノム可視化方法であって、前記記憶部は、前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶し、前記ゲノム可視化方法は、前記クライアント装置からの出力リクエストを受信するリクエスト受信工程と、前記出力リクエスト受信工程で前記出力リクエストを受信した場合に、前記記憶部から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成工程と、を含むことを特徴とする。

　本発明によれば、Ｗｅｂブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とすることができる。

本実施形態に係るゲノム解析システムのシステム構成例を示す図である。本実施形態に係るゲノム解析装置のハードウェア構成例を示す図である。本実施形態に係るゲノム解析装置の機能構成例を示す図である。本実施形態に係るクライアント装置のハードウェア構成例を示す図である。本実施形態に係るクライアント装置の機能構成例を示す図である。本実施形態に係るクライアント装置に表示される画面の一例である。本実施形態に係るゲノム解析装置のタスク制御部、前処理部、解析部及び表示データ作成部を説明するための図である。本実施形態に係るゲノム解析装置の前処理に係る制御ロジックの一例を示すフローチャートである。図８のステップＳ１５の処理の一例を説明するための図である。本実施形態に係るゲノム解析装置のカバレッジＤＢの一例を示す図である。本実施形態に係るゲノム解析装置の各種情報ＤＢの一例を説明するための図である。本実施形態に係るゲノム解析装置の出力データ作成に係る制御ロジックの一例を示すフローチャートである。本実施形態に係るゲノム解析装置の提供する表示画面の第１具体例である。本実施形態に係るゲノム解析装置の提供する表示画面の第２具体例である。本実施形態に係るゲノム解析装置の提供する表示画面の第３具体例である。本実施形態に係るゲノム解析装置の提供する表示画面の第４具体例である。本実施形態に係るゲノム解析装置の提供する表示画面の第５具体例である。本実施形態に係るゲノム解析装置の出力するレポートデータの第１具体例である。本実施形態に係るゲノム解析装置の出力するレポートデータの第２具体例である。

　以下、本発明の実施形態について説明する。

　図１は、本実施形態に係るゲノム解析システムのシステム構成例を示す図である。図１に示すゲノム解析システム１は、インターネット等のネットワーク４を介して接続されるゲノム解析装置２、クライアント装置３を有する。

　ゲノムデータ１１は、次世代シークエンサーから出力される大量の断片化された塩基配列情報、例えばＦＡＳＴＱ形式のリード配列と呼ばれる配列データや、リード配列を参照配列にマッピングさせたデータ、例えばＳＡＭ形式、ＢＡＭ形式のデータである。このゲノムデータ１１はゲノム解析装置２に入力される。

　ゲノム解析装置２は、ゲノムデータ１１を入力し、入力されたゲノムデータ１１に対してＣｈＩＰ－Ｓｅｑ、ＲＮＡ－Ｓｅｑ、変異解析等の各種解析を行う装置である。このゲノム解析装置２は、ネットワーク４を介して接続されたクライアント装置３からの解析リクエストに応じて、当該解析リクエストに係る解析を行うアプリケーションサーバとして機能する。

　またゲノム解析装置２は、クライアント装置３からの出力リクエストに応じて、ゲノムデータ１１に関する出力データを作成し、クライアント装置３に送信する。ここでいう出力データとは、Ｗｅｂページデータ（以下、「表示データ」ともいう。）や、解析結果等を表形式やＰＤＦ形式で表したレポートデータである。特に出力データが表示データである場合、ゲノム解析装置２はＷｅｂサーバとして機能することとなる。

　クライアント装置３は、当該装置上でユーザによって入力された解析リクエストをゲノム解析装置２に対して送信する。またクライアント装置３は、ゲノム解析装置２に対して出力リクエストを送信する。ここでいう出力リクエストとは、上記の表示データの表示に係るリクエスト（以下、「表示リクエスト」ともいう。）や、上記のレポートデータの出力に係るリクエストである。特に出力リクエストが表示リクエストである場合、クライアント装置３はＷｅｂクライアントとして機能し、ゲノム解析装置２から受信した表示データを表示するＷｅｂブラウザ型のビューワを有する。

　以上に示す構成により、本実施形態に係るゲノム解析システム１では、ゲノム解析装置２がゲノムデータ１１を解析し、解析結果等を示す出力データをクライアント装置３に送信する。なお、ゲノム解析装置２は、クラウド上に構築されるサーバ群であってもよいし、オンプレミスのサーバであってもよい。

　図２は、本実施形態に係るゲノム解析装置２のハードウェア構成例を示す図である。なお、以下の説明において、前述と同様の構成要素については、同一の符号を付して重複する説明を適宜省略する。

　図２に示すゲノム解析装置２は、バス２５を介して接続されたＣＰＵ（Central Processing Unit）２１、メモリ２２、ＳＳＤ（Solid State Drive）２３、インターフェース装置２４を備える。ＣＰＵ２１は、メモリ２２に記憶された各種プログラムを実行する中央演算装置である。メモリ２２は、ＣＰＵ２１によって実行されるプログラム及びプログラムによって使用されるデータを記憶するＲＡＭ（Random Access Memory）等の記憶装置である。ＳＳＤ２３は、各種データ等を記憶する記憶装置である。ＨＤＤ（Hard Disk Drive）であってもよい。インターフェース装置２４は、ネットワーク４（図１参照）等に接続するためのインターフェース装置である。

　なお、ゲノム解析装置２は、物理的に１台のコンピュータである場合に限定されるものではない。複数台のコンピュータを組み合わせることにより構成されてもよいし、仮想化技術を用いることによりクラウド上に仮想的に設けられた仮想サーバであってもよい。

　図３は、本実施形態に係るゲノム解析装置２の機能構成例を示す図である。

　図３に示すゲノム解析装置２は、データ受信部２０１、リクエスト発行部２０２、リクエスト受信部２０３、タスク制御部２０４、前処理部２０５、解析部２０６、出力データ作成部２０７、データ送信部２０８、記憶部２０９を有する。

　データ受信部２０１は、大量の断片化されたゲノム塩基配列からなる、所定の染色体サンプルのゲノムデータ１１を受信する。受信の形態は、ネットワーク４を介して接続され、ゲノムデータ１１が格納されたコンピュータ装置（図１では不図示）からの手動又は自動アップロードによって行われてもよいし、クラウド上のゲノムデータ１１のインポートによって行われてもよい。

　リクエスト発行部２０２は、データ受信部２０１がゲノムデータ１１を受信した場合に、受信したゲノムデータ１１を記憶部２０９に記憶するためのリクエストを内部的に発行する。

　リクエスト受信部２０３は、クライアント装置３から送信された解析リクエスト１２、出力リクエスト１３を受信する。解析リクエスト１２とは、ＣｈＩＰ－Ｓｅｑ、ＲＮＡ－Ｓｅｑ、変異解析や、所定の疾患、例えば大腸がんや乳がんについての解析等の解析に係るリクエストである。出力リクエスト１３とは、表示リクエストや、レポートデータの出力に係るリクエストである。表示リクエストとは、表示対象の染色体及び塩基座標の指定、拡大又は縮小の指示、表示させる染色体サンプルの指定、検索の指示等が記述されたものである。一方、レポートデータの出力に係るリクエストとは、出力データ形式（表形式やＰＤＦ形式）並びに出力対象の遺伝子の指定等が記述されたものである。

　タスク制御部２０４は、リクエスト発行部２０２がリクエストを発行した場合やリクエスト受信部２０３が解析リクエスト１２、出力リクエスト１３を受信した場合に、タスクの生成・管理を行う。

　特にリクエスト発行部２０２がリクエストを発行した場合には、前処理部２０５が実行するタスクを生成する。また、リクエスト受信部２０３が解析リクエスト１２を受信した場合には、解析部２０６が実行するタスクを生成する。更に、リクエスト受信部２０３が出力リクエスト１３を受信した場合には、出力データ作成部２０７が実行するタスクを生成する。

　前処理部２０５は、ゲノムデータ１１に対する前処理を並列分散処理によって行う。ここでいう前処理とは、解析部２０６が行う解析の前処理である。前処理部２０５による前処理の結果生成される各種データは、記憶部２０９に記憶される。なお、ゲノムデータ１１がＦＡＳＴＱ形式の配列データである場合には、前処理部２０５は、記憶部２０９の配列ＤＢ２１２に記憶された参照配列の情報を読込んで、参照配列に対してＦＡＳＴＱ形式の配列データをマッピングする処理を前処理として行う。

　解析部２０６は、記憶部２０９に記憶されたデータに対して、解析リクエスト１２に係る解析を並列分散処理によって行う。解析部２０６による解析結果は、記憶部２０９に記憶される。

　出力データ作成部２０７は、記憶部２０９に記憶されたデータを基に、出力リクエスト１３に係る出力データの作成を並列分散処理によって行う。

　データ送信部２０８は、出力データ作成部２０７によって作成された出力データを、出力リクエスト１３に対するレスポンス１４としてクライアント装置３に対して送信する。

　記憶部２０９は、前処理部２０５による前処理の結果作成されるデータや解析部２０６による解析結果、予め公開データベースから取得したアノテーションや変異情報に関するデータ（以下、総称する場合「アノテーションデータ」ともいう。）等を記憶する。この記憶部２０９は、ファイルＤＢ２１１、配列ＤＢ２１２、カバレッジＤＢ２１３、各種情報ＤＢ２１４、キャッシュ２１５から構成される。

　ファイルＤＢ２１１は、入力された所定の染色体サンプルのゲノムデータ１１のファイル情報を記憶する記憶手段である。なお、ここでいうファイル情報とは、染色体サンプルの状態情報、染色体サンプルの染色体の情報、管理に用いられるタグの情報、ブックマーク情報（染色体と塩基座標）、レイアウト情報（染色体サンプルのデータセット）等である。

　タグの情報は、ゲノムデータ１１の検索を容易にするための情報である。ブックマーク情報は、染色体及び塩基座標の組合せからなる情報である。このブックマーク情報を保存することにより、染色体及び塩基座標の指定によって所望の染色体サンプルのゲノムデータ１１を高速に読み込むことが可能になる。レイアウト情報は、染色体サンプルのデータセットである。レイアウト情報を保存することにより、表示したい染色体サンプルのデータセットを一度に読み込むことが可能になる。

　配列ＤＢ２１２は、予め公開データベース等から取得した染色体毎の参照配列（既知のゲノムの配列）の情報を記憶する記憶手段である。具体的には染色体毎に、参照配列のＡＴＧＣの塩基配列情報を例えば１文字当り１バイトで連続したバイト列として記憶する。これにより、塩基座標のスタート位置及びエンド位置を指定することでの高速な検索や任意の座標へのランダムアクセスが可能となる。

　カバレッジＤＢ２１３は、入力されたゲノムデータ１１と、当該ゲノムデータ１１に対応する染色体の参照配列とのカバレッジの情報を記憶する記憶手段である。カバレッジはデータの量を俯瞰するためのものであり、前処理部２０５によって計算される。このカバレッジＤＢ２１３では、カバレッジは染色体及び塩基座標をキーにして記憶される。これにより、高速な検索や任意の座標へのランダムアクセスが可能となる。カバレッジＤＢ２１３については、図９、図１０を用いて詳細に後述する。

　各種情報ＤＢ２１４は、アノテーションデータや変異情報、個々のゲノムデータ１１のアライメント等の様々なゲノムの情報を記憶する記憶手段である。

　アノテーションデータとは、予め公開データベース等から取得した例えばRefSeq（Reference Sequence）等の公開の遺伝子情報から生成されるデータである。変異情報とは、予め公開データベース等から取得した例えばdbSNP（Single Nucleotide Polymorphism）等の公開の変異情報である。アライメントとは、入力されたゲノムデータ１１を構成する各断片化されたデータ（以下、「断片化データ」ともいう。）の塩基座標であり、この塩基座標は参照配列を参照することで決定される。

　この各種情報ＤＢ２１４では、カバレッジＤＢ２１３と同様に、各種情報は染色体及び塩基座標をキーにして記憶される。そのため、高速な検索や任意の座標へのランダムアクセスが可能となる。各種情報ＤＢ２１４については、図１１を用いて詳細に後述する。

　なお、この各種情報ＤＢ２１４には、解析部２０６がこの各種情報ＤＢ２１４に記憶されたアノテーションデータを利用して解析した結果生成される新たな（改良された）アノテーションデータ等も記憶される。また、前処理部２０５の前処理によって生成されるゲノムデータ１１に対するアノテーションデータも記憶される。

　キャッシュ２１５は、解析部２０６が解析を行ったり出力データ作成部２０７が出力データを作成したりする際に必要なデータをキャッシュするための記憶手段である。すなわち、キャッシュ２１５はデータに高速にアクセスするためのものである。

　なお、上記の各構成要素のうち、データ受信部２０１、リクエスト受信部２０３及びデータ送信部２０８は、図２のＣＰＵ２１及びインターフェース装置２４によって実現される。リクエスト発行部２０２、タスク制御部２０４、前処理部２０５、解析部２０６、出力データ作成部２０７は、図２のＣＰＵ２１によって実現される。記憶部２０９は、図２のＣＰＵ２１、メモリ２２及びＳＳＤ２３によって実現される。

　また、カバレッジＤＢ２１３や各種情報ＤＢ２１４には、前処理部２０５による前処理等によって生成される、ゲノムデータ１１についての複数の異なるレイヤーの可視化用データが記憶されている。そして、出力データ作成部２０７は、出力リクエスト１３に対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する。これにより、出力データの再計算等を必要とすることなく、Ｗｅｂブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とすることができる。

　なお、出力データ作成部２０７は表示データを作成する場合、表示領域６８（図６参照）に現に表示されるデータ範囲の表示データより、若干広いデータ範囲の表示データを作成するいわゆる先読み機能を備えるものとする。これにより、例えば表示領域６８上でのマウス（図４の入力装置３４）の上下左右へのドラッグにより表示範囲が変更された場合にも、表示範囲の変更に応じてシームレスな可視化が可能となる。

　図４は、本実施形態に係るクライアント装置のハードウェア構成例を示す図である。

　図４に示すクライアント装置３は、バス３７を介して接続されたＣＰＵ３１、メモリ３２、ＳＳＤ３３、入力装置３４、表示装置３５、インターフェース装置３６を備える。ＣＰＵ３１、メモリ３２、ＳＳＤ３３、インターフェース装置３６は、図２のＣＰＵ２１、メモリ２２、ＳＳＤ２３、インターフェース装置２４と同様であるため、ここでは説明を省略する。入力装置３４は、ユーザが各種情報を入力するための装置、例えばキーボード、マウスである。表示装置３５は、例えばディスプレイである。

　図５は、本実施形態に係るクライアント装置の機能構成例を示す図である。

　図５に示すクライアント装置３は、入力部３０１、リクエスト送信部３０２、データ受信部３０３、出力部３０４を有する。

　入力部３０１は、入力装置３４（図４参照）に対する入力情報を入力する。ここでいう入力情報とは、ＣｈＩＰ－Ｓｅｑ、ＲＮＡ－Ｓｅｑ、変異解析等の解析に係る指示情報、表示対象の染色体及び塩基座標の指定、拡大又は縮小の指示、表示させる染色体サンプルの指定、検索の指示等の表示に係る指示情報、若しくは、出力したいレポートデータの出力データ形式（表形式やＰＤＦ形式）並びに出力対象の遺伝子等の指定情報等である。リクエスト送信部３０２は、入力部３０１における入力情報に応じて解析リクエスト１２、出力リクエスト１３を発行し、ゲノム解析装置２に対して送信する。データ受信部３０３は、ゲノム解析装置２から送信されたレスポンス１４を受信する。出力部３０４は、データ受信部３０３が受信したレスポンス１４を解析し、表示装置３５（図４参照）に表示データを画面表示したり、レポートデータを出力したりする。

　なお、上記の構成要素のうち、入力部３０１及び出力部３０４は、図４のＣＰＵ３１によって実現される。リクエスト送信部３０２及びデータ受信部３０３は、図４のＣＰＵ３１及びインターフェース装置３６によって実現される。

　図６は、本実施形態に係るクライアント装置に表示される画面の一例である。

　図６に示す表示画面６０の一例では、表示させる染色体を指定するための染色体指定欄６１、表示させる塩基座標範囲のスタート位置を入力するための入力欄６２、エンド位置を入力するための入力欄６３、拡大指示を入力するための拡大ボタン６４、縮小指示を入力するための縮小ボタン６５、検索キーワードを入力するためのキーワード入力欄６６、表示させる染色体サンプルを指定するための染色体サンプル指定欄６７、表示データが表示される表示領域６８を含む。このような表示画面６０において、ユーザは表示に係る各種指示情報を入力することができる。また、表示領域６８上でマウス（入力装置３４）を上下左右にドラッグすると、ドラッグ方向に応じた表示データが表示されるものとする。また、マウス（入力装置３４）のスクロールボタンによって拡大・縮小も可能なものとする。

　図７は、本実施形態に係るゲノム解析装置２のタスク制御部、前処理部、解析部及び出力データ作成部を説明するための図である。ここでは、図３のタスク制御部２０４、前処理部２０５、解析部２０６及び出力データ作成部２０７が行う並列分散処理について説明する。

　図７に示すようにタスク制御部２０４は、リクエストキュー２４１、プロセスマネージャ２４２、タスクキュー２４３から構成される。

　リクエストキュー２４１には、リクエスト発行部２０２によって発行されたリクエスト、解析リクエスト１２、出力リクエスト１３（いずれも図３参照）等のリクエストが格納されるＦＩＦＯ型のキューである。

　プロセスマネージャ２４２は、リクエストキュー２４１に格納されたリクエストを取り出して、当該リクエストに基づいて一つ以上のタスクを生成する。生成されるタスクは、前のタスクの実行終了を待たずに実行されるパラレルなタスクと、前のタスクの実行終了後に実行されるシーケンシャルなタスクとを含む。生成されたタスクは、原則ＦＩＦＯ型のキューであるタスクキュー２４３に格納される。

　前処理部２０５は、一つ以上のワーカーインスタンス２５１から構成される。各ワーカーインスタンス２５１は、タスクキュー２４３に格納されたタスクのうち実行可能なタスクを順番に取り出して実際に実行するワーカープロセス２５２と、ワーカープロセス２５２の動作を監視するワーカーマネージャ２５３とを有する。

　ワーカーインスタンス２５１の数は、タスクキュー２４３に格納されたタスクの個数等に応じて動的に増減し、タスクキュー２４３に格納されたタスクを並列分散処理する。なお、解析部２０６のワーカーインスタンス２６１、ワーカープロセス２６２、ワーカーマネージャ２６３、並びに、出力データ作成部２０７のワーカーインスタンス２７１、ワーカープロセス２７２、ワーカーマネージャ２７３についても同様である。

　以上に示すように、タスク制御部２０４はリクエストに基づいてタスクの生成・管理を行い、前処理部２０５、解析部２０６及び出力データ作成部２０７は、生成されたタスクを並列分散処理する。これにより、高速な処理が可能となっている。

　なお、リクエストキュー２４１に格納される各リクエストはそれぞれ独立しており、複数のリクエストが並列に処理される。また、各ワーカーインスタンス２５１はそれぞれ独立しており、自インスタンスで処理できるものを処理するだけの単純な機構であるため、簡単にスケールアウトすることができる。また、リクエストキュー２４１並びにタスクキュー２４３は、ＦＩＦＯ型のキューに限定されるものではない。その他の型のキューであっても良い。

　図８は、本実施形態に係るゲノム解析装置２の前処理に係る制御ロジックの一例を示すフローチャートである。以下、ゲノム解析装置２がＳＡＭ形式又はＢＡＭ形式のゲノムデータ１１を受信した場合の前処理の一例を、適宜図３や図７を参照して説明する。

　まずステップＳ１１において、データ受信部２０１は、ＳＡＭ形式又はＢＡＭ形式のゲノムデータ１１を受信する（Ｓ１１）。そうすると、リクエスト発行部２０２が、受信したゲノムデータ１１を記憶部２０９に記憶するリクエストを内部的に発行する。

　次にステップＳ１２に進み、タスク制御部２０４（プロセスマネージャ２４２）は、当該リクエストに基づいて、ゲノムデータ１１のソートタスク、インデックス付与タスク、カバレッジ計算タスク、ＤＢ出力タスクの四つのタスクを生成する（Ｓ１２）。なお、生成されたタスクは、タスクキュー２４３に格納される。

　ここでソートタスクとは、入力されたゲノムデータ１１の各断片化データを、塩基配列の順番に並べ替えるタスクである。インデックス付与タスクとは、ソートタスクによって並べ替えられた各々の断片化データにインデックスを付与するタスクである。これらソートタスク及びインデックス付与タスクは処理を高速化するためのタスクである。カバレッジ計算タスクとは、参照配列（既知のゲノムの配列）とゲノムデータ１１とのカバレッジを計算するタスクである。ＤＢ出力タスクとは、計算されたカバレッジを記憶部２０９（カバレッジＤＢ２１３）に出力するタスクである。

　ステップＳ１３に進み、前処理部２０５（複数のワーカーインスタンス２５１）は、ゲノムデータ１１のソート処理を実行し（Ｓ１３）、続いてステップＳ１４に進み、インデックス付与処理を実行する（Ｓ１４）。

　その後ステップＳ１５に進み、前処理部２０５（複数のワーカーインスタンス２５１）は、ゲノムデータ１１のカバレッジ計算並びに記憶部２０９への出力を並列に実行する（Ｓ１５）。以上に示す処理により、ゲノム解析装置２は、入力されたＳＡＭ形式又はＢＡＭ形式のゲノムデータ１１のカバレッジを計算してカバレッジＤＢ２１３に出力する。

　図９は、図８のステップＳ１５の処理の一例を説明するための図である。図９の上部には、塩基座標と、所定の染色体の参照配列にマッピングされたゲノムデータ１１である染色体サンプルＸの各断片化データとを簡易的に図示している。なお、図９に示す例では、説明の便宜上、一番左側の塩基座標が１であるものとして以下説明する。

　まずステップＳ１５では、前処理部２０５は、ビンサイズが１である場合（bin_1）のカバレッジを計算する。ビンサイズとは、カバレッジの計算対象の塩基の単位数である。すなわち、ここでは各塩基のカバレッジを計算する。図９に示す例では、先頭塩基から順に0、0、0、0、1、2、3、4、4、・・・・という各塩基のカバレッジが計算される。

　次に、前処理部２０５は、ビンサイズを２倍にしてビンサイズが２である場合（bin_2）のカバレッジ、すなわち２つの塩基毎のカバレッジを計算する。なお、ビンサイズが２倍になった場合にはカバレッジを１／２にする、すなわちカバレッジ平均値を計算する等、ビンサイズが異なる場合のカバレッジの数値の隔りを回避する補正を行うことが好ましい。なお、以下では、カバレッジの平均値を計算する補正を行うものとする（以下、同様）。図９に示す例では、先頭塩基から順に、0、0、1.5、3.5、4、・・・という２つの塩基毎のカバレッジが計算される。

　続いて、前処理部２０５は、ビンサイズを更に２倍にしてビンサイズが４である場合（bin_4）のカバレッジ、すなわち４つの塩基毎のカバレッジを計算する。図９に示す例では、先頭塩基から順に、0、2.5、4、5、5.25、・・・という４つの塩基毎のカバレッジが計算される。その後、前処理部２０５は、繰り返しビンサイズを２倍にしてカバレッジを計算する。このようにして計算されたカバレッジが、カバレッジＤＢ２１３に出力される。

　図１０は、本実施形態に係るゲノム解析装置のカバレッジＤＢの一例を示す図である。図１０では、カバレッジＤＢ２１３の一例をテーブル１００（以下、「カバレッジテーブル１００」ともいう。）で示している。

　カバレッジテーブル１００の属性は、ビンサイズ１０１、塩基座標１０２Ａ、カバレッジ１０２Ｂ、塩基座標１０３Ａ、カバレッジ１０３Ｂ、塩基座標１０４Ａ、カバレッジ１０４Ｂ、・・・を含む。

　ビンサイズ１０１は、カバレッジの計算対象の塩基の単位数である。図１０では、説明の便宜上、ビンサイズ１０１の最小値は５１２としている。塩基座標１０２Ａは、カバレッジ１０２Ｂで示すカバレッジの計算対象の塩基座標を、スタート位置とエンド位置との組合せで示したものである。カバレッジ１０２Ｂは、計算されたカバレッジである。塩基座標１０３Ａ、カバレッジ１０３Ｂ、塩基座標１０４Ａ、カバレッジ１０４Ｂ、・・・についても同様である。

　図１０に示す例では、ビンサイズが５１２の場合の座標１～５１２の塩基のカバレッジは「××」であり、ビンサイズが２０４８の場合の座標４０９７～６１４４の塩基のカバレッジは「●●●●」であることを示す。

　このようにして、カバレッジテーブル１００には、異なるビンサイズ毎にカバレッジと塩基座標とが対応付けられて記憶される。このようなカバレッジテーブル１００は、染色体毎、染色体サンプル（入力されたゲノムデータ１１）毎に生成される。また、カバレッジテーブル１００に記憶される各行のビンサイズ毎のカバレッジが、前述の「ゲノムデータ１１についての複数の異なるレイヤーの可視化用データ」の一例である。

　これにより、前述の図６に示す表示画面６０上でユーザ入力により表示させたい染色体、染色体サンプル、塩基座標範囲が指定された場合、出力データ作成部２０７（図３参照）は、指定された染色体、染色体サンプル、塩基座標範囲に対応するビンサイズのカバレッジをカバレッジテーブル１００から選択して読み込む。出力データ作成部２０７は、選択したビンサイズのカバレッジに基づいて、例えばヒストグラム表示するための表示データを作成する。なお、前述のように、出力データ作成部２０７は表示データを作成する場合、表示領域６８（図６参照）に現に表示されるデータ範囲の表示データより、若干広いデータ範囲の表示データを作成する。これにより、例えば表示領域６８上でのマウス（図４の入力装置３４）の上下左右へのドラッグにより表示範囲が変更された場合にも、表示範囲の変更に応じてシームレスな可視化が可能となる。

　また、例えば図６に示す表示画面６０上で拡大指示（又は、縮小指示）が入力された場合、出力データ作成部２０７は、ビンサイズが次に小さい（又は、ビンサイズが次に大きい）カバレッジをカバレッジテーブル１００から読み込み、当該カバレッジに基づいてヒストグラム表示するための表示データを作成する。これにより、表示させる塩基座標範囲が変更された場合であっても、表示データを再計算することなく、表示されるカバレッジを容易に切り替えることができる。従って、簡易にシームレスな可視化が可能となる。

　なお、図９及び図１０に示す例では、ビンサイズを２倍にしてカバレッジを計算する処理を繰り返したが、この場合に限らない。例えば３倍以上でも良い。また、前処理部２０５は、ビンサイズ以外の指標により、複数の異なるレイヤーの可視化用データを生成してもよい。

　図１１は、本実施形態に係るゲノム解析装置の各種情報ＤＢの一例を説明するための図である。

　図１１を用いて、各種情報ＤＢ２１４に記憶されるデータの一つであるアノテーションデータを例に挙げて、そのデータ構造について説明する。なお、図１１に示す例では、説明の便宜上、参照配列の全塩基座標が1～99999であるものとして簡易的に図示している。

　予め公開データベース等から取得した例えばRefSeq等の公開の遺伝子情報であるアノテーションデータは、図１１に示すように、Ｎ分木（ここではＮ＝３）データ構造体１１０Ａを利用して記憶される。

　すなわち、Ｎ分木データ構造体１１０Ａを構成する各ノード（bin0、bin1、bin2、・・・）は、当該ノードの塩基座標（スタート位置・エンド位置）と、中間データ構造体１１０Ｂに対するポインタとを保持する。中間データ構造体１１０Ｂは、塩基座標位置と塩基長とデータ本体１１０Ｃに対するポインタとを保持する。データ本体１１０Ｃは、各アノテーションデータのデータ本体Ａ、Ｂ、Ｃを任意長、任意のフォーマットで保持する。

　このように、各種情報ＤＢ２１４では、ノード毎に塩基座標位置と塩基長とアノテーションデータとが対応付けて記憶される。すなわち、塩基座標位置と当該位置からの塩基長とで特定される塩基座標範囲毎に、塩基座標範囲とアノテーションデータとが対応付けて記憶される。

　塩基長が１である場合、すなわち塩基座標範囲が特定の塩基を指すものであるような場合には、この塩基に対応するアノテーションデータが対応付けて記憶される。一方、塩基長が２以上である場合、すなわち塩基座標範囲が特定の塩基群を指すものであるような場合には、この塩基群に対応するアノテーションデータが対応付けて記憶される。

　そして、このようなＮ分木データ構造体１１０Ａ、中間データ構造体１１０Ｂ及びデータ本体１１０Ｃは、染色体毎、染色体サンプル（ゲノムデータ１１）毎に生成される。また、このような各塩基座標範囲のアノテーションデータは、前述の「ゲノムデータ１１についての複数の異なるレイヤーの可視化用データ」の一例である。

　これにより、前述の図６に示す表示画面６０上でユーザ入力により表示させたい染色体、染色体サンプル、塩基座標範囲が指定された場合、出力データ作成部２０７（図３参照）は、指定された染色体、染色体サンプル、塩基座標範囲に対応するノードのアノテーションデータを各種情報ＤＢ２１４から選択して読み込む。出力データ作成部２０７は、選択したノードのアノテーションデータを表示するための表示データを作成する。なお、前述のように、表示データ作成部２０７は表示データを作成する場合、表示領域６８（図６参照）に現に表示されるデータ範囲の表示データより、若干広いデータ範囲の表示データを作成する。これにより、例えば表示領域６８上でのマウス（図４の入力装置３４）の上下左右へのドラッグにより表示範囲が変更された場合にも、表示範囲の変更に応じてシームレスな可視化が可能となる。

　また、例えば図６に示す表示画面６０上で拡大指示（又は、縮小指示）が入力された場合、出力データ作成部２０７は、自ノードの子ノード（又は、自ノードの親ノード）のアノテーションデータを読み込み、当該アノテーションデータを表示するための表示データを作成する。これにより、表示させる塩基座標範囲が変更された場合であっても、表示データを再計算することなく、表示されるアノテーションデータを容易に切り替えることができる。従って、シームレスな可視化が可能となる。

　なお、図１１に示す例では、Ｎ分木データ構造体１１０Ａが３分木構造である場合を例に説明を行ったが、この場合に限らない。例えば２分木でも良い。また、各種情報ＤＢ２１４には、Ｎ分木データ構造体以外のデータ構造により、複数の異なるレイヤーの可視化用データを記憶しても良い。

　また、データ本体１１０Ｃに保持されるアノテーションデータは、前述のように、予め公開データベース等から取得した例えばRefSeq等の公開の遺伝子情報である。従って、公開データベース等における遺伝子情報が更新された場合には、Ｎ分木データ構造１１０Ａ及び中間データ１１０Ｂの仕組みはそのままで、データ本体１１０Ｃのみを更新すればよい。また、解析部２０６がこの各種情報ＤＢ２１４に格納されたアノテーションデータを利用して解析した結果生成される新たな（改良された）アノテーションデータ等もデータ本体１１０Ｃに記憶される。また、前処理部２０５の前処理によって生成されるゲノムデータ１１に対するアノテーションデータも記憶される。

　また、各種情報ＤＢ２１４は、遺伝子毎に、遺伝子とアノテーションデータとを対応付けて記憶させてもよい。この場合、遺伝子毎のアノテーションデータが前述の「ゲノムデータ１１についての複数の異なるレイヤーの可視化用データ」の一例である。詳細には図１８、図１９を用いて後述する。

　図１２は、本実施形態に係るゲノム解析装置２の出力データ作成に係る制御ロジックの一例を示すフローチャートである。以下、ゲノム解析装置２が出力リクエスト１３を受信した場合の処理の一例を、適宜図３や図７を参照して説明する。

　まずステップＳ２１において、リクエスト受信部２０３は、出力リクエスト１３を受信する（Ｓ２１）。そうするとステップＳ２２に進み、タスク制御部２０４（プロセスマネージャ２４２）は、当該リクエストに基づいて、データ選択タスク、出力データ作成タスクの二つのタスクを生成する（Ｓ２２）。なお、生成されたタスクは、タスクキュー２４３に格納される。

　ここでデータ選択タスクとは、出力リクエスト１３の記述内容に応じて、記憶部２０９からデータを選択して読出すタスクである。出力リクエスト１３が表示リクエストである場合には、出力リクエスト１３の記述内容は、表示対象の染色体及び塩基座標、拡大又は縮小の指示、表示させる染色体サンプルの指定、検索の指示を含む。出力リクエスト１３がレポートデータの出力に係るリクエストである場合には、出力リクエスト１３の記述内容は、出力したいレポートデータの出力データ形式（表形式やＰＤＦ形式）並びに出力対象の遺伝子等の指定を含む。出力データ作成タスクとは、データ選択タスクによって選択して読み出されたデータを基に、出力データを作成するタスクである。

　ステップＳ２３に進み、出力データ作成部２０７（複数のワーカーインスタンス２７１）は、記憶部２０９からデータを選択して読み出す（Ｓ２３）。続いてステップＳ２４に進み、選択して読み出されたデータを基に出力データを作成する（Ｓ２４）。

　その後ステップＳ２５に進み、データ送信部２０８は、出力データ作成部２０７によって作成された出力データを、出力リクエスト１３に対するレスポンス１４としてクライアント装置３に対して送信する（Ｓ２５）。以上に示す処理により、ゲノム解析装置２は、クライアント装置３からの出力リクエスト１３に応じて、ゲノムデータ１１に関する出力データを送信することで、ゲノム情報の可視化を行う。

　以上に示すように、本実施形態に係るゲノム解析装置２によれば、クライアント装置３から出力リクエスト１３を受信した場合に、記憶部２０９から当該出力リクエスト１３に対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成している。そのため、特に出力データが表示データであって且つ一旦所定の表示範囲でゲノムデータ１１を表示させた後にその表示範囲を変更するような場合、表示データの再計算をすることなく、Ｗｅｂブラウザの仕組みを用いて簡易にシームレスな可視化が可能となる。

　図１３～図１７の各々は、本実施形態に係るゲノム解析装置の提供する表示画面の第１～第５具体例を示す図である。

　図１３に示す第１具体例では、染色体指定欄６１に染色体Ａ、表示させる塩基座標範囲のスタート位置入力欄６２に「27,135,000」、エンド位置入力欄６３に「27,160,000」、染色体サンプル指定欄６７に染色体サンプルＸ、Ｙ、Ｚが入力されている。

　そのため、表示領域６８には、塩基座標範囲が27,135,000～27,160,000の範囲（塩基数25,000）における染色体サンプルＸ、Ｙ、Ｚと染色体Ａとのカバレッジがヒストグラム表示される。このように、多数の染色体サンプルを１画面上で比較することができる。

　この表示画面６０上で縮小ボタン６５が押下された場合、図３の出力データ作成部２０７は、この画面表示で用いられているカバレッジよりもビンサイズが大きいカバレッジ（図１０参照）を選択し、選択されたビンサイズのカバレッジに基づいて表示データを作成する。その結果、図１４のような画面に移行する。

　図１４に示す第２具体例では、表示させる塩基座標範囲のスタート位置入力欄６２に「10,000,000」、エンド位置入力欄６３に「60,000,000」が入力されている。そのため、表示領域６８には、塩基座標範囲が10,000,000～60,000,000の範囲（塩基数50,000,000）が示されており、図１３の塩基座標範囲よりも表示範囲が大きい。

　なお、図１３に示す表示画面６０上で拡大ボタン６４が押下された場合、図３の出力データ作成部２０７は、この画面表示で用いられているカバレッジよりもビンサイズが小さいカバレッジ（図１０参照）を選択し、選択されたビンサイズのカバレッジに基づいて表示データを作成する。但し、図１５や図１６のような画面に移行しても良い。

　図１５に示す第３具体例及び図１６に示す第４具体例では、表示させる塩基座標範囲のスタート位置入力欄６２に「7,971,000」、エンド位置入力欄６３に「7,974,000」が入力されている。そのため、図１５及び図１６の表示領域６８には、塩基座標範囲が7,971,000～7,974,000の範囲（塩基数3,000）が示されており、図１３の塩基座標範囲よりも表示範囲が小さい。

　図１５の表示領域６８には、ヒストグラム表示ではなく染色体サンプルＸ、Ｙ、Ｚの各断片化データが参照配列（図１５では不図示）にマッピングされた態様が表示されている。このように一定以上拡大表示される場合には、図３の出力データ作成部２０７は、各断片化データのマッピング態様を示す表示データを作成しても良い。

　一方、図１６の表示領域６８には、染色体サンプルＸ、Ｙ、Ｚの各断片化データを構成する各塩基が区別可能な態様で表示されている。このように一定以上拡大表示される場合には、図３の出力データ作成部２０７は、各断片化データを構成する各塩基を区別可能な態様で示す表示データを作成しても良い。

　図１７に示す第５具体例では、表示させる塩基座標範囲のスタート位置入力欄６２に「75,262,745」、エンド位置入力欄６３に「75,262,810」が入力されている。そのため、表示領域６８には、塩基座標範囲が75,262,745～75,262,810の範囲（塩基数65）が示されており、図１５や図１６の塩基座標範囲よりも更に表示範囲が小さい。

　図１７の表示領域６８には、染色体Ａの参照配列（最下部）と、染色体サンプルＸ、Ｙ、Ｚの所定の断片化データの塩基配列とアノテーションデータとが区別可能な態様で表示されている。このように、詳細表示させる場合には、図３の出力データ作成部２０７は、参照配列と断片化データの塩基配列とアノテーションデータを区別可能な態様で示す表示データを作成してもよい。なお、図１３～図１５のように広域表示させる場合にも、図３の出力データ作成部２０７は、参照配列と断片化データの塩基配列とアノテーションデータを区別可能な態様で示す表示データを作成することができる。

　以上、図１３～図１７を用いて説明してきたように、本実施形態に係るゲノム解析装置２によれば、全体像のヒストグラム表示から詳細の塩基配列表示まで、Ｗｅｂブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とすることができる。

　図１８、図１９の各々は、本実施形態に係るゲノム解析装置の出力するレポートデータの第１、第２具体例を示す図である。

　図１８に示す第１具体例では、大腸がんに係るレポートデータ２００を示している。レポートデータ２００は、遺伝子名２０１、染色体位置２０２、エクソン２０３、変異２０４、ｄｂＳＮＰ２０５、対象遺伝子の変異頻度２０６、対象遺伝子内での変異頻度２０７、薬の応答性２０８、薬名２０９、出典２１０の各欄を含む。なお、各欄内の各情報は、各種情報ＤＢ２１４（図３参照）において、遺伝子“ＫＲＡＳ”と対応付けて記憶されるアノテーションデータである。

　レポートデータ２００の一行目には、遺伝子名２０１で示す遺伝子“ＫＲＡＳ”の染色体中の塩基位置が “１２ｐ１２．１”（染色体位置２０２）である点が記述されている。また、当該遺伝子“ＫＲＡＳ”の“エクソン２”（エクソン２０３）の部分において、変異２０４で示す変異が起こる頻度が“３６－４０％”（変異頻度２０６）である点並びに対象遺伝子 “ＫＲＡＳ”内での変異の頻度が“３３．５－３４．４％”（変異頻度２０７）である点が記述されている。また、ｄｂＳＮＰ２０５に記述される“rs１１２４４５４４１”は、ＳＮＰ（（Single Nucleotide Polymorphism）のデータベースであるｄｂＳＮＰにおける当該遺伝子の変異に係る情報の識別番号を示している。レポートデータ２００の二行目については、一行目と同様であるため説明を省略する。

　なお、レポートデータ２００において一行目並びに二行目に示す遺伝子“ＫＲＡＳ”の変異に関し、薬名２０９で示す２種類の薬“cetuximab”、“panitumumab”があり、これら２種類の薬の効果がないことが記述されている。また、薬の応答性２０８には、これら２種類の薬の応答性が記述されている。そして、このような薬の応答性等に関する情報の出典が、出典２１０で示される文献である点が記述されている。

　一方、図１９に示す第２具体例では、乳がんに係るレポートデータ３００を示している。レポートデータ３００は、遺伝子名３０１、染色体位置３０２、エクソン３０３、変異３０４、ｄｂＳＮＰ３０５、対象遺伝子の変異頻度３０６、対象遺伝子内での変異頻度３０７、薬の応答性３０８、薬名３０９、出典３１０の各欄を含む。なお、各欄内の各情報は、各種情報ＤＢ２１４（図３参照）において、遺伝子“ＰＩＫ３ＣＡ”と対応付けて記憶されるアノテーションデータである。

　レポートデータ３００の一行目には、遺伝子名３０１で示す遺伝子“ＰＩＫ３ＣＡ”の染色体中の塩基位置が“３ｑ２６．３”（染色体位置３０２）である点が記述されている。また、当該遺伝子“ＰＩＫ３ＣＡ”の“エクソン９”（エクソン３０３）の部分において、変異３０４で示す変異が起こる頻度が“２６％”（変異頻度３０６）である点並びに対象遺伝子“ＰＩＫ３ＣＡ”内での変異の頻度が“～１１％”（変異頻度３０７）である点が記述されている。また、ｄｂＳＮＰ３０５に記述される“rs１２１９１３２７３”は、ＳＮＰのデータベースであるｄｂＳＮＰにおける当該遺伝子の変異に係る情報の識別番号を示している。レポートデータ３００の二行目並びに三行目については、一行目と同様であるため説明を省略する。

　なお、レポートデータ３００において一行目～三行目に示す遺伝子“ＰＩＫ３ＣＡ”の変異に関し、薬名３０９で示す２種類の薬 “trastuzumab”と“lapatinib”との併用があり、この薬の効果がないことが記述されている。また、薬の応答性３０８には、この薬の応答性が記述されている。そして、このような薬の応答性等に関する情報の出典が、出典３１０で示されるインターネット上のウェブサイトである点が記述されている。

　以上、図１８並びに図１９を用いて説明してきたようなレポートデータ２００、３００は、図１２のステップＳ２１に係る処理において出力リクエスト１３がレポートデータの出力に係るリクエストである場合に、以降のステップＳ２２～Ｓ２４に係る処理により作成される。

　すなわち、ステップＳ２３において出力データ作成部２０７（複数のワーカーインスタンス２７１）は、記憶部２０９からデータを選択して読み出す（Ｓ２３）。ここでは、遺伝子（例えば上記“ＫＲＡＳ”や“ＰＩＫ３ＣＡ”）に対応付けられたアノテーションデータを選択して読み出す。続いてステップＳ２４に進み、選択して読み出されたデータを基に、レポートデータ２００、３００のようなレポートデータを作成する（Ｓ２４）。

　特に出力データ作成部２０７は、ゲノム解析装置２による解析の結果、所定の疾病に対応する遺伝子の変異を検出した場合に、図１８や図１９のようなレポートデータ２００、３００を作成してもよい。これにより、クライアント装置３の操作者例えば医師は、作成されたレポートデータを、所定の疾病（例えば上記“大腸がん”や“乳がん”）の医療診断に利用することができる。

　なお、各種情報ＤＢ２１４に記憶される遺伝子毎のアノテーションデータは、図１８や図１９に例示したデータに限定されるものではない。例えば当該遺伝子に関する過去の診断情報、基礎実験情報又は薬に関わりの深い特許文献情報等を示すデータであってもよい。

　以上、本発明の一実施形態について説明したが、上記実施形態は本発明の適用例の一つを示したものであり、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。

１        ゲノム解析システム
２        ゲノム解析装置
３        クライアント装置
４        ネットワーク
１１     ゲノムデータ
１２     解析リクエスト
１３     出力リクエスト
１４　  レスポンス
２０１  データ受信部
２０２  リクエスト発行部
２０３  リクエスト受信部
２０４  タスク制御部
２０５  前処理部
２０６  解析部
２０７  出力データ作成部
２０８  データ送信部
２０９  記憶部
２１１  ファイルＤＢ
２１２  配列ＤＢ
２１３  カバレッジＤＢ
２１４  各種情報ＤＢ
２１５  キャッシュ

Claims

　大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置であって、
　前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶する記憶手段と、
　前記クライアント装置からの出力リクエストを受信するリクエスト受信手段と、
　前記表示リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成手段と、
　を備えたことを特徴とするゲノム解析装置。
　前記複数の異なるレイヤーの可視化用データは、異なるビンサイズ毎に計算された、前記ゲノムデータの塩基配列と既知のゲノムの塩基配列とのカバレッジであることを特徴とする請求項１に記載のゲノム解析装置。
　前記出力データ作成手段は、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストに対応するビンサイズのカバレッジを選択し、選択されたカバレッジをヒストグラム表示するための表示データを作成することを特徴とする請求項２に記載のゲノム解析装置。
　前記複数の異なるレイヤーの可視化用データは、異なる塩基座標範囲毎に、塩基座標範囲とアノテーションデータとを対応付けたものであることを特徴とする請求項１に記載のゲノム解析装置。
　前記出力データ作成手段は、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストで指定された塩基座標範囲のアノテーションデータを選択し、選択されたアノテーションデータを表示するための表示データを作成することを特徴とする請求項４に記載のゲノム解析装置。
　前記複数の異なるレイヤーの可視化用データは、遺伝子毎に、遺伝子とアノテーションデータとを対応付けたものであることを特徴とする請求項１に記載のゲノム解析装置。
　前記出力データ作成手段は、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストで指定された遺伝子のアノテーションデータを選択し、選択されたアノテーションデータに係るレポートデータを作成することを特徴とする請求項６に記載のゲノム解析装置。
　大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、前記ゲノムデータに関するデータを記憶する記憶部を有し、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置におけるゲノム可視化方法であって、
　前記記憶部は、前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶し、
　前記ゲノム可視化方法は、
　前記クライアント装置からの出力リクエストを受信するリクエスト受信工程と、
　前記表示リクエスト受信工程で前記出力リクエストを受信した場合に、前記記憶部から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成工程と、
　を含むことを特徴とするゲノム可視化方法。