WO2020213736A1

WO2020213736A1 - 情報処理装置、情報処理方法、プログラム、及び記憶媒体

Info

Publication number: WO2020213736A1
Application number: PCT/JP2020/016972
Authority: WO
Inventors: 石川　仁; 智史酒井; 芳則木村; 林崎　良英; 研八木; 戎崎　俊一
Original assignee: 株式会社ＰＥＺＹＣｏｍｐｕｔｉｎｇ; 国立研究開発法人理化学研究所
Priority date: 2019-04-17
Filing date: 2020-04-17
Publication date: 2020-10-22

Abstract

シーケンサからクエリ配列が、ある時間間隔で、一塩基ずつ出力される情報処理装置において、アライメント処理に続くバリアントコール処理の入出力のデータ量を低減し、同時にバリアントコール処理時間も低減する。更に、適切な中断を自動的に行えるようにする。　アライメント変化結果出力部６、はアライメント処理の以前からの変化を含む、アライメント結果の変化を示すデータを出力する。バリアントコール部７は、以前のソートの結果はソート結果管理部８に保持しつつ、新規のアライメント結果のみのソートを行う。領域管理部９はリファレンス配列における、分割された領域毎に、各種処理やデータ転送が必要かどうかを判断するための情報を管理する。中断制御部１１は、領域管理部９の情報を参考にして、適切なタイミングで中断を行う。

Description

情報処理装置、情報処理方法、プログラム、及び記憶媒体

　本発明は、情報処理装置、情報処理方法、プログラム、及び記憶媒体に関する。

　近年、次世代シーケンサ（ＮＧＳ）がゲノム解析に用いられるようになっている。ＮＧＳは、ランダムに切断された大量のＤＮＡ断片の塩基配列を同時並行的に決定することができる装置であり、今後、ヒトゲノム等における様々な種類の遺伝子解析に応用されることが期待されている。

　ＮＧＳを用いた遺伝子解析の応用例としては、例えばヒトゲノムにおいて、シーケンサから読み出した多数のクエリ配列を、リファレンス配列の適切な位置に配置し（アライメント処理）、更にこの結果を用いて変異箇所や変異種類を解析する（バリアントコール処理）といった用途が知られている。

　シーケンサから出力されるクエリ配列データは、全てが同時に出力されるのではなく、ある時間間隔で、多数のクエリ配列が並列に１塩基ずつ出力される。上記時間間隔は１０分以上を費やすため、例えば２００塩基の長さのクエリ配列の場合であれば、シーケンス処理に２０００分以上を費やすこととなる。

　例えば、シーケンス処理、アライメント処理、バリアントコール処理を順番に処理するワークフローにおいて、シーケンス処理が全て完了してからアライメント処理を開始し、アライメント処理が全て完了してからバリアントコール処理を開始する場合、全体の処理時間はこれらの処理時間の総和で与えられる。

　これに対して、非特許文献１では、シーケンス処理が途中まで完了し、クエリ配列の一部分が作成された段階で、その途中段階までのアライメント処理を行い、更に、その途中段階までのアライメント処理の結果を用いて、途中段階までのバリアントコール処理を行う方法が提案されている。

特表２０１８－５０１５３９号公報特表２０１５－５３６６６１号公報

Tobias P. Loka et al.,"Reliable variant calling duaring runtime of illumina sequencing"(2018 BioRxiv DOI: 10.1101/387662)

　非特許文献１に記載の方法では、シーケンス処理を全て待つことなく、バリアントコール処理までを行えるが、バリアントコール処理への入力データは、常にアライメント処理の全ての結果となっているため、バリアントコール処理への無駄な入力データが発生し、また、バリアントコール処理への入力データの転送時間やバリアントコール処理の処理時間が多くかかる。

　更に、非特許文献１に記載の方法においては、バリアントコール処理からの出力データは、常に全領域に対して行われるため、バリアントコール処理からの出力データの転送時間が多くかかる。

　また、全処理を自動的に中断させる手段が提供されていないため、ユーザは自動的に中断することをあきらめるか、あるいは常に中断するタイミングを継続的にチェックする必要がある。前者はシステムの無駄な動作につながり、後者はユーザに多大な負担を強いることにつながる。

　そこで、本発明の第一の課題は、上記バリアントコール処理への入力データの転送時間を低減する、ことにある。本発明の第二の課題は、上記バリアントコールの処理時間を低減する、ことにある。本発明の第三の課題は、上記バリアントコール処理からの出力データの転送量を低減する、ことにある。本発明の第四の課題は、自動的に適切な中断処理を行う、ことにある。

　本発明の課題を解決するための手段は、以下の手段である。
［１］シーケンサから所定の時間間隔で出力される部分クエリ配列と、クエリ配列管理部に保持された累積クエリ配列とから、クエリ配列をリファレンス配列にアライメントしアライメント結果を出力するステップ、続いて、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するステップ、を行う第１ステップと、別の所定の時間間隔で、前記アライメント結果の変化を示すデータを用いて更なる解析処理を行う第２ステップと、を含む情報処理方法。
［２］第２ステップにおいて、前記アライメント結果の変化を示すデータを用いて更なる解析処理を行うステップに続いて、前記解析処理の結果の変化を示すデータを出力するステップを更に含む［１］に記載の情報処理方法。
［３］前記変化情報は、新規、更新、削除のいずれかを区別する情報を含むことを特徴とする［１］又は［２］に記載の情報処理方法。
［４］前記変化情報に基づき行う処理の実行において、変化情報が、新規、であるアライメント結果をソートの対象とする［３］に記載の情報処理方法。
［５］前記解析処理はバリアントコール処理であることを特徴とする［１］又は［２］に記載の情報処理方法。
［６］前記変化情報は、アライメント品質に係る情報を含み、前記解析処理では前記アライメント品質に係る情報をもとに、リファレンス配列を分割した各領域、あるいは領域全体のカバレージ値、を計算することを特徴とする［１］又は［２］に記載の情報処理方法。
［７］前記アライメント処理は、リファレンス配列を分割した各領域に対応する重み値を用い、当該領域に係る出力を行うか否か、あるいは出力を行う頻度、あるいは出力を行う優先度を決定する、ことを特徴とする［１］又は［２］に記載の情報処理方法。
［８］前記解析処理は、リファレンス配列の各領域に対応する重み値、カバレージ値、及び更新情報、の全てあるいはいずれかを用い、これらの値に従って、当該領域の処理を行うか否か、あるいは処理を行う頻度、あるいは処理を行う優先度を制御することを特徴とする［１］又は［２］に記載の情報処理方法。［９］前記解析処理は、リファレンス配列の各領域に対応する重み値、カバレージ値、及び更新情報、の全てあるいはいずれかを用い、これらの値に従って、当該領域の出力を行うか否か、あるいは出力を行う頻度、あるいは出力を行う優先度を制御する、ことを特徴とする［１］又は［２］に記載の情報処理方法。［１０］前記解析処理は、以前内部に保持した結果を自動的に更新することを特徴とする［１］又は［２］に記載の情報処理方法。
［１１］前記解析処理は、前記領域全体のカバレージ値が閾値を超えた際に自動的にシステム全体の処理の中断を要求する、ことを特徴とする［１］又は［２］に記載の情報処理方法。
本発明の課題を解決する手段は、以下の手段であってもよい。
［１２］上記の［１］～［１１］のいずれかに記載の情報処理方法を行う情報処理装置。
［１３］上記の［１］～［１１］のいずれかに記載の情報処理方法を実装するプログラム。
［１４］上記の［１］～［１１］のいずれかに記載の情報処理方法を記憶する記憶媒体。
　本発明の課題を解決する手段は、以下の手段であってもよい。
［１５］シーケンスを読み取り所定の時間間隔で部分クエリ配列を出力するシーケンサ部と、前記シーケンサ部から出力された部分クエリ配列を累積クエリ配列として保持するクエリ配列管理部と、リファレンス配列を保持するリファレンス配列管理部と、部分クエリ配列と累積クエリ配列とからクエリ配列をリファレンス配列にアライメントし、アライメント結果を出力するアライメント部と、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するアライメント変化結果出力部と、前記アライメント結果の変化を示すデータに基づき解析処理を行う解析処理部と、前記解析処理の結果の変化を示すデータを出力する解析処理変化結果出力部、を備えるシーケンサ。
［１６］領域管理情報を保持する領域管理部を更に備える、［１５］に記載のシーケンサ。
［１７］中断カバレージ閾値を管理し、リファレンス配列全体のカバレージ値が、前記中断カバレージ閾値を超えた場合に、全処理の中断を行う中断制御部を更に備える、［１５］に記載のシーケンサ。

本発明の情報処理装置の構成を示す図である。本発明の情報処理装置の構成を示す図である。本発明の情報処理装置におけるバリアントコール部内部の構成を示す図である。本発明の情報処理装置におけるバリアントコール部内部の構成を示す図である。従来の情報処理装置の構成を示す図である。従来の情報処理装置におけるバリアントコール部内部の構成を示す図である。シーケンサから出力されるクエリ配列の一例を示す図である。シーケンサから、ある時間間隔毎に１塩基ずつ部分クエリ配列が出力される様子を示す図である。アライメント処理の一例を示す図である。従来のバリアントコール処理の一例を示す図である。従来の情報処理方法における処理時間を示す図である。従来の情報処理方法において、ある時間間隔で出力されるシーケンサ処理に対応した場合の処理時間を示す図である。従来の情報処理方法において、ある時間間隔で出力されるシーケンサ処理に対応した場合の、データ転送時間、及びバリアントコール処理時間の割合が大きい場合の処理時間を示す図である。本発明の情報処理方法において、データ転送時間、及びバリアントコール処理時間が短くなった場合の処理時間を示す図である。本発明の情報処理方法において、アライメント結果の変化を示すデータ（アライメント変化結果）の一例を示す図である。本発明の情報処理方法において、ソート結果部が管理するソート済みアライメント結果の一例を示す図である。本発明の情報処理方法において、バリアントコール処理の一例を示す図である。本発明の情報処理方法において、領域カバレージの概要を示す図である。本発明の情報処理方法において、領域カバレージ情報の一例を示す図である。本発明の情報処理方法において、領域カバレージの値とバリアントコールの計算頻度の関係の一例を示す図である。本発明の情報処理方法において、中断管理情報の一例を示す図である。アライメント処理およびバリアントコール処理を、複数計算機によって実装する場合の構成の一例を示す図である。本発明の情報処理装置において、複数計算機を用いた構成の一例を示す図である。

　以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。図面においては、同一または同等の要素には同一の符号を付し、重複する説明は省略する。

　従来の情報処理方法、及び実装例を図３に示す。

　図３に示すような情報装置で実装される情報処理方法として、シーケンサからの塩基配列（シーケンスリード）を読み取り部分クエリ配列を出力するシーケンサ部１と、シーケンサ部１から出力された部分クエリ配列を累積して保持するクエリ配列管理部４と、クエリ配列の変異を検知するための基準として用いるリファレンス配列を保持するリファレンス配列管理部５と、各クエリ配列がリファレンス配列のどの部分に相当するかを求めるアライメント部２と、クエリ配列のアライメント結果を用いてどの部分が変異しているかを判定するバリアントコール部３、からなる情報処理装置を用いて、読み取った塩基配列の変異箇所と変異種類を検知する情報処理方法が知られている。

　従来の情報処理方法における、情報処理装置が備えるバリアントコール部３の内部構造を図４に示す。

　バリアントコール部３は、アライメントされた結果のソートを行うソート部３１、及びソートされたアライメント結果を用いて変異を検出する変異検出部３２から構成される。バリアントコール部３は、アライメント結果を受けて、ソート部３１において、アライメント結果に含まれるリファレンス配列上の位置情報によってソートを行った後、差分検出部３２において、特定のリファレンス位置において何等かの変異が見られるかを判定する（図８）。

　次に、本発明の情報処理方法及び情報処理装置について説明する。

　本発明の情報処理方法は、シーケンサから所定の時間間隔で出力される部分クエリ配列と、クエリ配列管理部に保持された累積クエリ配列とから、クエリ配列をリファレンス配列にアライメントしアライメント結果を出力するステップ、続いて、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するステップ、を行う第１ステップと、別の所定の時間間隔で、前記アライメント結果の変化を示すデータを用いて更なる解析処理を行う第２ステップと、を含む情報処理方法である。

　上記の方法では、第２ステップにおいて、前記アライメント結果の変化を示すデータを用いて更なる解析処理を行うステップに続いて、前記解析処理の結果の変化を示すデータを取得するステップを更に含んでいてよい。

　また、本発明の情報処理装置は、シーケンスを読み取り所定の時間間隔で部分クエリ配列を出力するシーケンサ部と、前記シーケンサ部から出力された部分クエリ配列を累積クエリ配列として保持するクエリ配列管理部と、リファレンス配列を保持するリファレンス配列管理部と、部分クエリ配列と累積クエリ配列とからクエリ配列をリファレンス配列にアライメントし、アライメント結果を出力するアライメント部と、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するアライメント変化結果出力部と、前記アライメント結果の変化を示すデータに基づき解析処理を行う解析処理部を備える情報処理装置である。

　本発明の情報処理装置の一例は、シーケンスを読み取り所定の時間間隔で部分クエリ配列を出力するシーケンサ部と、前記シーケンサ部から出力された部分クエリ配列を累積クエリ配列として保持するクエリ配列管理部と、リファレンス配列を保持するリファレンス配列管理部と、部分クエリ配列と累積クエリ配列とからクエリ配列をリファレンス配列にアライメントし、アライメント結果を出力するアライメント部と、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するアライメント変化結果出力部と、前記アライメント結果の変化を示すデータに基づき解析処理を行う解析処理部と、前記解析処理の結果の変化を示すデータを出力する解析処理変化結果出力部、を備えるシーケンサである。

　シーケンサは、高速シーケンサや次世代シーケンサであってよい。

　図１に、本発明の情報処理装置の構成の一例を示す。

　図１Ａは、シーケンサ部１、クエリ配列管理部４、リファレンス配列管理部５、アライメント部２、アライメント変化結果出力部６、バリアントコール部７、ソート結果管理部８、及びバリアントコール変化結果出力部１０を備える本発明の情報処理装置を示している。

　図１Ａの構成では、図３で示した従来方法の情報処理装置の構成に加えて、アライメント変化結果出力部６及びソート結果管理部８を備えているが、ソート結果管理部８はなくてもよい。また、解析処理部としてバリアントコール部７、解析処理変化結果出力部としてバリアントコール変化結果出力部１０を備えている。バリアントコール部は、図３で示した従来のバリアントコール部３とは異なるものであるため、符号を変え、バリアントコール部７として示している。

　図１Ｂは、シーケンサ部１、クエリ配列管理部４、リファレンス配列管理部５、アライメント部２、バリアントコール部７、アライメント変化結果出力部６、ソート結果管理部８、領域管理部９、バリアントコール変化結果出力部１０、及び中断制御部１１を備える本発明の情報処理装置である。

　図１Ｂの構成では、図３で示した従来方法の情報処理装置の構成に加えて、アライメント変化結果出力部６、ソート結果管理部８、領域管理部９、バリアントコール変化結果出力部１０、及び中断制御部１１を備えているが、ソート結果管理部８はなくてもよい。また、解析処理部としてバリアントコール部７、解析処理変化結果出力部としてバリアントコール変化結果出力部１０を備えている。バリアントコール部は、図３で示した従来のバリアントコール部３とは異なるものであるため、符号を変え、バリアントコール部７として示している。

　以下、図１Ａを例に、本発明の構成について説明する。

　リファレンス配列、及びクエリ配列は、一般的にはＡ、Ｃ、Ｇ、Ｔの文字によって区別される４種類の情報の配列として構成される。

　シーケンサ部１は、複数のクエリ配列の情報を同時に処理する（図５）。

　シーケンサ部１は、一般には、全ての配列情報を一度に出力するのではなく、ある時間間隔で、複数のクエリ配列から構成される全クエリの塩基情報を、並列に読み取り、１塩基ずつ出力していく（図６）。

　シーケンサ部１は、ある時間間隔で、複数のクエリ配列から構成される全クエリの塩基情報を、並列に読み取り、数塩基ずつ出力していくものでもよい。

　本発明においては、このように取得されたシーケンスリードを「部分クエリ配列」と呼ぶ。部分クエリ配列は、一般的には、Ａ、Ｃ、Ｇ、Ｔの文字によって構成される文字列のデータであり、核酸配列のシーケンスリードの場合は、１塩基又は数塩基のオリゴヌクレオチドである。

　クエリ配列管理部４は、シーケンサ部１から出力された部分クエリ配列を累積クエリ配列として保持し、アライメント部２にデータを出力する。

　リファレンス配列管理部５は、リファレンス配列を保持している。

　アライメント部２は、部分クエリ配列と累積クエリ配列とからクエリ配列をリファレンス配列にアライメントし、各クエリ配列がリファレンス配列のどの領域と一致するのかを判定する（図７）。この際、クエリ配列とリファレンス配列とは完全に一致する必要はなく、ある程度の変異があった場合でも適切に処理を行い、リファレンス配列と合致する確率の高い位置情報をアライメント結果に含めて出力する。

　アライメント変化結果出力部６は、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力する。

　アライメント結果の変化を示すデータ構造の一例を図１３に示す。

　アライメント変化結果出力部６は、特定のクエリのアライメント結果を最初に入力された際には、コマンド＝新規、とした上で図１３の左端に示した構造のデータを、バリアントコール部７に出力する。

　上記データにはアライメント結果についてユニークなＩＤを含めている。

　上記ＩＤは、後程、当該アライメント結果を更新したり、削除したりする際にバリアントコール部７に利用される。

　また、クエリＩＤ、リファレンス側のアライメント開始位置、クエリ側のアライメント開始位置および終了位置に加え、アライメントの品質情報を０～１の範囲で与える。

　本説明においては、０はアライメント品質が非常に低く、１はアライメント品質が高いことを示すものとする。

　なお、もしも各クエリに対して、必ず１つのアライメント結果である、という制限がある場合には、上記ＩＤとクエリＩＤを同じ値にすることによって、クエリＩＤを削除することが可能である。

　通常のバリアントコール処理においては、各クエリに対して、必ず１つのアライメント結果である場合が多いため、この制限は妥当であると考えられる。

　アライメント部２が、以前出力したアライメント結果を、シーケンサ１からの部分クエリ配列によって伸長した場合には、アライメント変化結果出力部６は、コマンド＝更新、とした上で図１３の中央に示した構造のデータを、アライメント結果の変化を示すデータとして、バリアントコール部７に出力する。

　この場合、リファレンス側開始位置およびクエリ側開始位置は変更されないため、これらの情報をデータに含む必要はない。

　アライメント部２が、以前出力したアライメント結果を、その後の段階で間違いと判定し、新たなアライメント結果を出力する場合には、アライメント変化結果出力部６は、コマンド＝削除、として、以前のアライメント結果の削除の指定をした後に、コマンド＝新規として、新たなアライメント結果をバリアントコール部７に出力する。

　なお、本明細書において、「以前」とは、現在時刻より前の時刻において、という意味であり、現在時刻よりも前に起こった同様の事象について総称する意味である。

　次に、アライメント結果の変化を示すデータをバリアントコール部７に与えた場合の、バリアントコール部７の処理について説明する。

　本実施例において、本発明の情報処理装置は、解析処理部としてバリアントコール部７を備えている。

　バリアントコール部７は、アライメント変化結果出力部６から与えられた、アライメント結果の変化を示すデータ（アライメント変化結果）を受け付け、ソート部７１において、アライメント結果の変化を示すデータ（アライメント変化結果）に基づき処理を行い、変異検出部７２において、何等かの変異が見られるかを判定する。

　図２に、本発明の情報処理装置が備えるバリアントコール部７の内部構造を示す。図２は、図１Ａ、図１Ｂに対応して、図２Ａ、及び図２Ｂにとして示されている。

　図２Ａでは、バリアントコール部７が、以前のソート結果を保持するソート結果管理部８と、情報のやり取りを行う。

　図２Ｂでは、図２Ａに加えて、バリアントコール部７が、領域管理部９と情報のやり取りを行う。これによれば、変異検出部７２は、一部の領域の変異のみを検出するため、アライメント結果が多くなり、カバレージが増加しても、変異検出に要する処理時間は増加しない。

　図１４に、ソート結果管理部８が管理するソート済みアライメント結果の一例を示す。

　アライメント結果が、リファレンス側開始位置によってソートされており、アライメントのＩＤとソート済みアライメント結果の対応も取れるようになっている。

　なお、このデータ構造では、ＩＤからソート済みアライメント結果中の位置を探す際に探索が必要になるが、ＩＤからソート済みアライメントのインデクスを引くためのテーブルを別途持つことにより、高速にアクセスすることが可能となる。

　ソート部７１は、アライメント変化結果出力部６から与えられた、アライメント結果の変化を示すデータ（アライメント変化結果）（図１３）に基づき処理を開始する。

　この際の、ソート部７１の処理の一例を図１５に示す。

　始めに、図１４に例示されるソート済みアライメント結果から、コマンド＝削除、と指定されたＩＤと同じ要素を削除する（ステップＳ７１－１）。

　続いて、ソート済みアライメント結果中で、コマンド＝更新、と指定されたＩＤと同じ要素の、クエリ側終了位置、及びアライメント品質、を更新する（ステップＳ７１－２）。

　続いて、コマンド＝新規、と指定されたアライメント結果全体を、リファレンス側開始位置によってソートする（ステップＳ７１－３）。

　この際のソートは、従来方式のように全てのアライメント結果をソートするわけでないので、計算量は小さくなる。

　最後に、上記ソートされた結果と、以前までのソート済みアライメント結果、とをマージする（ステップＳ７１－４）。

　一般にそれぞれがソートされた後のマージ処理は要素数に比例した処理時間で済むため、この処理は全アライメント結果をソートする場合に比較して効率的となる。

　上記のように、本発明によれば、アライメント結果の変化を示すデータ（アライメント変化結果）により、コマンド＝新規、と指定されたアライメント結果のみをソートの対象とすることによって、全アライメント結果をソートする従来の方法に比べて、処理の高速化を図ることができる。

　なお、更にアライメント結果の変化を示すデータ（アライメント変化結果）のデータ量を低減する方法として、例えば（ステップＳ７１－１）の前に、以下の処理を追加することは有効である。
（追加処理１）ソート済みアライメント結果の、クエリ側終了位置を、固定値分増加させる。

　アライメントのためのクエリ配列は、通常一定の塩基数ずつ増加する場合が多いという事実を考慮すると、上記のように自動的にソート済みアライメント結果の内容を更新することによって、アライメント部２からの変化情報を減らすことが可能となる。

　上記の自動的に更新を行わない場合であれば、多くの場合に、コマンド＝更新、なるアライメント結果の変化を示すデータ（アライメント変化結果）が出力される。

　一方で、上記の自動的な更新を行うことで、多くの場合に、アライメント結果の変化を示すデータ（アライメント変化結果）を何も出力しなくても良くなる。

　なおこの際には、逆に当該アライメント結果が変化しない、すなわち伸長しない場合には、アライメント部２は、コマンド＝更新、の変化情報を、負の効果を持って、バリアントコール部７に与えることによって、上記バリアントコール部７の自動的な更新の影響を無くす必要がある。

　なお、（追加処理１）において、更に、アライメント品質をある定まった方法にて、自動的に更新することも可能である。

　（比較例）
　ここで、比較のため、従来方式の情報処理方法について、図８～図１１を用いて説明する。

　従来方式においては、図８に例示するように、ソート部３１はアライメント結果を、リファレンス開始位置に基づいてソートを行い、その後、変異検出部３２はソートされたアライメント結果と、リファレンス配列、及びクエリ配列を用いて、変異箇所の検出を行っていた。従来方式におけるソート部は、全てのアライメント結果をソートしていたため、アライメント結果が多くなるにつれて、ソートに要する処理時間が増加するという問題があった。更に、従来方式における変異検出部は、全ての領域の差分を検出していたため、アライメント結果が多くなり、カバレージが増加するにつれて、変異検出に要する処理時間が増加するという問題があった。

　また、図９に示すように、シーケンサ部１が塩基配列全体のシーケンスを完了し、その後にアライメント部２が全てのクエリ配列をアライメント完了し、その後にバリアントコール部３が変異検出を行う。ユーザが変異検出の結果を視認するまでの処理時間には、シーケンス時間、アライメント時間、及びバリアントコール時間が含まれる。更に、通常は、上記処理間でデータの移動を伴うことが多いため、データ転送時間もまた、全処理時間に含まれる。ユーザに対して最終的なバリアントコールの結果を表示できるのは、全ての処理が完了した後となる。

　これを改善する目的で、非特許文献１では、全てのシーケンス処理が完了する前に、シーケンサからアライメント部へのデータ転送、アライメント処理、アライメント部からバリアントコール部へのデータ転送、バリアントコール処理、及びバリアントコール部からのデータ転送を並列で行い、シーケンス処理が完了する前に、途中段階でのバリアントコール結果を表示する方法を開示している（図１０）。

　しかしながら、非特許文献１に記載の方法では、クエリ配列アライメント部からバリアントコール部へのデータ転送、及びバリアントコール処理、は、得られたアライメント結果全てについて毎回処理する必要がある。

　このことは、上記記載の方法において用いられているｘＡｔｒａｓなるツールが、ＳＡＭあるいはＢＡＭファイルを用いていることからも明らかである。ＳＡＭあるいはＢＡＭファイルを用いた場合、アライメント結果の変化分をバリアントコール部３への入力とすることは不可能である。例えば以前のアライメント結果の一部が間違いであって、アライメント部２がこれを新たに修正したい場合であっても、バリアントコール部３に、どの部分がやり直しが必要な箇所で、どの部分がやり直しが必要ない箇所か、について指定することが不可能であるからである。

　以上が、比較例についての説明である。

　通常、アライメント結果は時間とともに増加していくため、上記の処理時間は次第に増加する傾向がある。また、バリアントコール部からのデータ転送は、表示領域全てについて毎回行うこととなり、常に一定程度のデータ転送時間を費やすこととなる。

　本発明では、バリアントコール部７への入力を、アライメント結果の変化を示すデータとすることにより、バリアントコール部へのデータ転送時間を時間とともに低減することができる。

　また、本発明では、バリアントコール部７は、アライメント結果の変化を示すデータ（アライメント変化結果）に基づき、アライメント結果が変化していない領域のバリアントコール処理を抑制し、アライメント結果が変化した領域のバリアントコール処理を優先して行う。

　アライメント結果が変化した領域のバリアントコール処理を優先して行う構成とすることにより、バリアントコール処理の処理時間自体についても、図９のように時間とともに増加することはなく、むしろ時間とともに低減できることが確認されている（図１２）。

　本発明の情報処理装置は、更に、解析処理変化結果出力部を備えたものであってよく、解析処理変化結果出力部は、一例として、バリアントコール変化結果出力部１０である。

　バリアントコール変化結果出力部１０は、上記バリアントコール処理を行った領域のみを、バリアントコール結果の変化を示すデータ（バリアントコール変化結果）として出力する。

　本発明では、バリアントコール変化結果出力部１０からの出力を、実際にバリアントコールを行った領域のみとすることによって、バリアントコール変化結果出力部から表示部へのデータ転送時間を低減できることが確かめられた（図１２）。

　次に、図１Ｂに示す本発明の情報処理装置について説明する。

　図１Ｂに示す本発明の情報処理装置は、図２Ｂに示したように、バリアントコール部７は、以前のソート結果を保持するソート結果管理部８と、領域管理情報を保持する領域管理部９と、情報のやり取りを行う。

　図１Ｂに示す本発明の情報処理装置は、中断制御部１１を備えており、自動的な中断処理を行うことが可能である。

　図１１に示す従来の情報処理方法において、バリアントコール処理、及びバリアントコール処理前後のデータ転送、の処理時間が大きい場合に、これらが全処理時間に大きく影響を与える様子が示されているが、図１Ｂに示す本発明の情報処理装置では、中断制御部１１による自動的な中断処理を行うことにより、ユーザが常にバリアントコール処理の結果表示を確認したり、ユーザが常に待機したりする必要がなく、ユーザの負担が軽減される。

　また、図１Ｂに示す本発明の情報処理装置は、領域管理部９を備えており、変異検出処理の高速化も行う。

　一般に、バリアントコール処理においては、変異を精度良く検出するのに必要なアライメント結果の数は、アライメント品質に依存する。

　十分な精度の変異検出を行うためには、各リファレンスの位置に対して、十分なカバレージ（重複度）のアライメント結果が必要とされており、通常、ヒトゲノムの場合には４０程度は必要とされる。

　なお、十分なカバレージはアライメントの品質にも大きく影響を受け、アライメントの品質が低い場合にはより大きなカバレージ値が要請される一方、アライメントの品質が高い場合には、４０よりも小さいカバレージであっても実用に耐える可能性がある。

　十分にアライメント品質が高いアライメント結果を用いるのであれば、バリアントコールに必要なアライメント結果は少なくても良い可能性が高い。

　逆に、とてもアライメント品質が低いアライメント結果を用いるのであれば、非常に多くのアライメント結果を集めない限りは、バリアントコール処理を行う意味がない可能性が高い。

　この事実は、変異検出処理において、処理量の低減を行うために用いられる。

　図２Ｂに示したように、変異検出部７２は、領域管理部９と情報のやり取りを行う。

　図１７に領域管理部９の管理する、領域管理情報の一例を示す。

　領域管理部９は、リファレンス配列全体を適当な領域で区切り、それぞれの領域の情報を管理する。

　上記情報には、各領域毎に、領域重み値、領域カバレージ、及び領域更新フラグが与えられる。

　ここで、領域重み値とは、リファレンス配列の各領域におけるユーザの注目度を反映した値である。本説明においては、リファレンス配列の各領域に対して、注目すべき領域を１、注目したくない領域を０とし、各領域をその０～１の値で重みづけを行ったものと定める。

　領域カバレージとは、リファレンス配列の各領域におけるカバレージ値を管理したものである。図１６に領域カバレージの概要を示す。本説明においては、領域カバレージは、領域に含まれるアライメントの、アライメント品質（図１３を参照）の総和を、領域の長さで平均化した値と定める。

　なお、アライメントが領域をまたがる場合に、アライメントの領域に含まれる割合に応じて、領域カバレージに加算する値を調整することができる。

　また、領域更新フラグは、当該処理ステージ内に、当該領域が更新されたかどうかを示す。本説明においては、当該領域が更新されたときに１、更新されないときに０とする。

　領域カバレージの値の変更は、例えば、図１５に例として示したソート部７１の処理と併せて実現が可能である。ソート済みアライメント結果を更新する際に、関連する領域に関する領域カバレージを変更する。

　また同様に、領域更新フラグの初期値を、ソート部７１の処理と併せて設定することが可能である。図１５に示したステップＳ７１－１の前に、全ての領域更新フラグの値を０にした後、ソート済みアライメント結果を更新する際に、関連する領域に関する領域更新フラグを１に初期化する。

　変異検出部７２は、上記の領域更新フラグ、領域カバレージ、及び領域重み値を用いて、以下のような方策で変異検出のための計算を行う。

　（方策１）領域更新フラグの値が０の領域は、変異検出を行わない。
　（方策２）領域カバレージの値に応じて、計算を行う頻度を調整する。
　（方策３）領域重み値の値に応じて、計算を行う頻度を調整する。

　上記（方策１）は、ソート済みアライメント結果の更新がない領域には、そもそも変異検出を行う必要はないというものである。

　上記（方策２）は、領域カバレージの値に応じて、どのように頻度を設定するかのポリシーに依存し、用途や状況に応じて調整できるのが好ましいが、典型的な例を図１８に示す。

　図１８は、非常に小さい領域カバレージであれば変異検出を行う意義があまりないので、計算頻度を低くする、あるいは、非常に高い領域カバレージであれば以前の結果で十分であり、計算をやり直す以外があまりないので、計算頻度を低くする、という、ポリシーを反映した一例である。

　上記（方策３）は、ユーザが注目をしない箇所については、計算の頻度を減らすといった制御を行うことに利用が可能である。

　例えば、上記（方策２）によって求められた頻度に対して、領域重み値を単純に乗じて、最終的な頻度とするような計算方法は有効である。

　しかしながら、（方策２）、（方策３）は必ずいずれも行わないといけないものではなく、例えば、（方策２）のみによって頻度を決定するような場合も当然考えられる。

　上記、計算を行う頻度とは、まさにシーケンサからの出力タイミングのうち、何回に一回計算を行うといった意味で用いることが可能である。

　一方で、計算を行う頻度を、他の領域との処理優先度の意味で用いることもあり得る。

　この場合であれば、各処理ステージ内の全計算回数をあらかじめ設定しておき、その中で優先度に応じて計算を行う領域を選択する、といった利用方法も可能である。

　変異検出部７２において、次のようにすることで、図１７の領域更新フラグの値を変更することができる。

　変異検出部７２は、上記頻度によって、その処理ステージ内に変異検出処理を行わないと決定した場合に、当該領域更新フラグを０に設定する。

　変異検出部７２の処理が終了した際に、上記領域更新フラグが０の領域は、バリアントコール結果は変化しない。

　このため、バリアントコール変化結果出力部１０が領域更新フラグを参照して、更新された領域のバリアントコール結果のみを出力することにより、出力データ量の低減を実現できる。

　中断制御部１１は、領域カバレージ情報、及び領域重み値を用いることによって、特定の領域に重みを置いた上で、全体の処理を自動的に中断することが可能である。

　図１９に示したように、中断制御部１１は、処理の中断を行うための閾値として、中断カバレージ閾値を管理する。

　リファレンス配列全体のカバレージ値は、例えば以下のように、領域カバレージの重みづけ平均として、計算することができる。
（数１）
　　リファレンス配列全体のカバレージ値＝Σ（領域カバレージ×領域重み値）

　なお、上記Σはリファレンス配列の全領域について加算を行うことを示す。

　上記、リファレンス配列全体のカバレージ値が、中断カバレージ閾値を超えた際に、全処理を中断する制御を行うことによって、リファレンス配列の特定領域に注目した上で、自動的に処理を中断させることが可能となる。

　例えば図１７において、領域０の領域重み値を１、それ以外を０とすることで、領域０のみに注目して中断制御を行うことも可能である。

　なお、後に述べるような複数計算機においてバリアントコール処理を実現する場合、中断処理には若干の注意が必要である。

　リファレンス配列全体のカバレージ値は、バリアントコール処理を実現している全計算機からの値を統合して求める必要がある。

　このため、複数計算機で実装する場合、中断処理には複数計算機間でのデータ転送が必要となる。

　しかしながら、このデータ量は各計算機あたり１つ程度のスカラー値を転送すれば良いことと、中断処理の処理タイミングはそれほど重要ではないため、ここでのデータ転送、及びそれに伴うオーバヘッドについては大きな問題とはならない。

　領域管理情報はまた、バリアントコール処理への入力データ数を低減することに利用することができる。

　図１Ｂにおいて、アライメント変化結果出力部６は、領域管理部９から領域重み値を入力されている。

　領域重み値が低い領域はユーザが注目をしていない領域であると言えるため、この値が低い領域に係るアライメント結果の出力を抑制することは有効である。

　アライメント変化結果出力部６は、アライメント結果の変化を示すデータ（アライメント変化結果）を出力する際に、当該アライメント結果における領域重み値が十分に小さい値である場合には、出力の頻度を低下するか、あるいは全く行わないという制御を行うことが可能である。

　上記出力の頻度は、上記変異検出部７２の処理の説明で用いた、計算の頻度と同様に、まさにシーケンサからの出力タイミングのうち、何回に一回出力を行うといった意味で用いることが可能であるし、一方で、出力を行う頻度を、他の領域との処理優先度の意味で用いることもあり得る。

　これにより、アライメント結果の変化を示すデータ（アライメント変化結果）のデータ転送量の低減を期待でき、同時にバリアントコール部における処理量を低減することができる。

　次に、本発明の情報処理方法を、複数計算機で実装する場合を考える。

　アライメント処理及びバリアントコール処理を含む情報処理方法は、図２０及び図２１に示すように、複数計算機によって実装することが可能である。

　図２０に、アライメント処理およびバリアントコール処理を、複数計算機によって実装した構成の一例を示す。図２０に示す構成では、アライメント処理及びバリアントコール処理を複数計算機によって実装することにより、アライメントの並列処理、及びバリアントコールの並列処理が可能となり、処理時間が大幅に短縮される。

　なお、非特許文献１における結果では、これらのデータ転送時間が大きな問題であるとは記述されていない。これは、上記論文が前提としている情報処理装置が、主に、ネットワーク的に閉じたシステムを想定しているためと考えられる。

　アライメント処理及びバリアントコール処理を、図２０に示すように、複数計算機によって実装すると、アライメントの並列処理、及びバリアントコールの並列処理が可能となり、処理時間が大幅に短縮される。

　しかし、図２０の構成では、アライメント処理とバリアントコール処理の間の複数計算機間のネットワークを介したデータ転送が発生する。更に、バリアントコール処理の結果についても、複数計算機で求めたバリアントコール結果を集める必要があり、ネットワークを介したギガ・テラサイズの膨大なデータ転送が発生する。例えば、ヒトゲノムの全ゲノム解析を行う場合、４０程度のカバレージを想定した場合には、アライメント結果だけでも、一人当たり１００ギガバイト以上のデータ転送量が必要となる。今後、バリアントコールの精度向上を目指した際には、更にカバレージを大きくする必要が出てくる。また、複数人のＤＮＡ情報を並列に解析する場合には、更にデータ転送量は増大する。

　通常、複数計算機間のネットワークを介したデータ転送は、閉じたシステム内でのデータ転送に比べ処理時間が多くかかるため、全処理時間に対するデータ転送時間の割合は大きくなる傾向にある。

　本発明では、複数計算機間のネットワークを介したデータ転送量を小さくすることにより、複数計算機によって実装した場合にも、全体の処理時間を低減することが可能な情報処理方法を提供する。

　図２１に、本発明の情報処理装置において、複数計算機を用いた構成の一例を示している。

　図２１に示す構成で、アライメント処理の並列処理およびバリアントコール処理の並列処理を行った場合、アライメント処理からバリアントコール処理の間はアライメント結果の変化を示すデータ（アライメント変化結果）のみがデータ転送され、バリアントコール処理の結果についても、バリアントコール結果の変化を示すデータ（バリアントコール変化結果）のみがデータ転送される。

　このため、図２１の構成では、図２０の構成と比べ、ネットワークを介したデータ転送量が大幅に削減され、全体の処理時間も大幅に短縮することができる。

　通常、バリアントコール処理において、処理時間の長さは、バリアントコールの精度とのトレードオフとなるが、本発明の情報処理方法においては、データ転送量の削減により処理時間の短縮化を図ることができるため、バリアントコールの処理時間を長くし、バリアントコール精度を向上させることができる。

　そのため、本発明の情報処理方法は、複数計算機によって実装した場合にも、複雑なアルゴリズムを用いて精度を向上させる、あるいは更にカバレージを増加させて精度を向上させる等のとりたてた工夫をせずとも、バリアントコールの処理時間と精度の最適化を図ることができる。

　なお、本発明は、上述の実施形態に限定されるものではない。

　上述の方法はＡ、Ｃ、Ｇ、Ｔにより区別される塩基配列のみではなく、任意の連続した複数の文字あるいは記号から構成される配列に、そのままの形で適用可能である。

　また、上記バリアントコール処理は、本発明で開示する解析処理の一例であり、本発明の解析処理は、シーケンスがアライメントされた結果を用いた、任意の別の種類の解析処理に置き換えが可能である。

　もしも上記解析処理が、アライメント結果のソートを必要としない場合であっても、領域管理情報を用いた処理はそのままの形で利用が可能である。

　例えば、メタゲノムの遺伝子解析における類似度検索処理の場合も、本発明の手法は適用可能である。

　メタゲノム解析とは、単独では培養困難な環境中の細菌群集からＤＮＡを抽出して塩基配列を決定する解析のことである。メタゲノム解析においては、多数の生物種のゲノム配列を含むリファレンス配列に対して、シーケンサから出力された複数のクエリ配列に対し、本発明の情報処理方法によってアライメント処理を行った後、第２ステップの解析処理として、リファレンス配列内の各生物種のゲノム配列と、クエリ配列の類似度の解析を行うといった用途が存在する。このリファレンス配列中の特定の範囲、すなわち特定の生物種の範囲、での類似度解析にのみ興味がある、という要求は当然存在し、そのような場合には、前述の領域重み値を用いた制御は、そのままの形で利用できる。

　その他、本発明の解析処理は、シーケンスの塩基配列を決定した後、リファレンス配列に対してクエリ配列の類似度の解析を行う、いずれの解析にも適用可能である。

　また、図１３に示したアライメント結果の変化を示すデータの与え方についても、複数のコマンドをまとめてデータ量を圧縮する方法は当然考えられる。

　また、コマンド＝新規、の際に、すでに以前、同一クエリＩＤのアライメント結果が、ソート済アライメント結果として登録されていた場合には、登録されていたアライメント結果を自動的に削除した後に、新規のアライメント結果を登録する、という規則を適用することにより、コマンド＝削除、のデータ構造が不要である場合も想定可能である。

　さらにまた、コマンド＝更新、の代わりに、コマンド＝新規、を用いることにより、データ構造の種類を減らすことが有効である場合も想定可能である。

　この場合は、データサイズの面で不利になる可能性があるが、上記（追加処理１）によって、ソート済アライメント結果の自動的な更新が成されるとするならば、コマンド＝新規、として出力されるアライメント結果の変化を示すデータ（アライメント変化結果）の数自体を少なくすることが可能である。

　また、データ構造中の、クエリ側終了位置の代わりに、クエリ長を与えることも考えられる。

　また、図１６に示す領域カバレージは、各領域のサイズが同じである必要はない。

　重要な箇所については、領域のサイズを狭く取り、細かい制御を行うことも可能である。

　更には、各領域が一つの閉区間を表す場合のみではなく、各領域がインタリーブされて複数の領域を表すことも容易に実現できる。

　本発明においては、リファレンス配列の特定の領域毎に、領域カバレージを指定できるということが本質である。

　また、図１８に示したような単純な、領域カバレージと頻度の対応関係ではなく、領域カバレージの増加分と頻度の関係、を用いて制御を行っても良い。

　例えば、領域カバレージ値の変化が大きい際に、この領域のバリアントコールを優先して、再度計算し直すことができる。

　本発明においては、バリアントコール処理に変化情報を与え、バリアントコール処理はこの情報をもとに、変化した箇所に係る処理を優先して行うということが本質的である。

　また、数１に示した数式もまた実施例であって、重み付け加算のみに限定されるものではない。

　リファレンス配列全体のカバレージ値が、領域カバレージ及び領域重み値、を用いた計算により求められる、ということが本質である。

　１　シーケンサ部、２　アライメント部、３　バリアントコール部（従来）、３１　ソート部（従来）、　３２　変異検出部（従来）、　４　クエリ配列管理部、　５　リファレンス配列管理部、　６　アライメント変化結果出力部、７　バリアントコール部、７１　ソート部、　７２　変異検出部、８　ソート結果管理部、９　領域管理部、１０　バリアントコール変化結果出力部、１１　中断制御部

Claims

　シーケンサから所定の時間間隔で出力される部分クエリ配列と、
　クエリ配列管理部に保持された累積クエリ配列とから、
　クエリ配列をリファレンス配列にアライメントしアライメント結果を出力するステップ、
　続いて、以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するステップ、を行う第１ステップと、
　別の所定の時間間隔で、前記アライメント結果の変化を示すデータを用いて更なる解析処理を行う第２ステップと、を含む情報処理方法。
　第２ステップにおいて、前記アライメント結果の変化を示すデータを用いて更なる解析処理を行うステップに続いて、前記解析処理の結果の変化を示すデータを出力するステップを更に含む、請求項１に記載の情報処理方法。
　前記変化情報は、新規、更新、削除のいずれかを区別する情報、を含むことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記変化情報に基づき行う処理の実行において、変化情報が、新規、であるアライメント結果をソートの対象とする、請求項３に記載の情報処理方法。
　前記解析処理は、バリアントコール処理である、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記変化情報は、アライメント品質に係る情報を含み、前記解析処理では前記アライメント品質に係る情報をもとに、リファレンス配列を分割した各領域、あるいは領域全体のカバレージ値、を計算する、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記アライメント処理は、リファレンス配列を分割した各領域に対応する重み値を用い、当該領域に係る出力を行うか否か、あるいは出力を行う頻度、あるいは出力を行う優先度を決定する、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記解析処理は、リファレンス配列の各領域に対応する重み値、カバレージ値、及び更新情報、の全てあるいはいずれかを用い、これらの値に従って、当該領域の処理を行うか否か、あるいは処理を行う頻度、あるいは処理を行う優先度を制御する、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記解析処理は、リファレンス配列の各領域に対応する重み値、カバレージ値、及び更新情報、の全てあるいはいずれかを用い、これらの値に従って、当該領域の出力を行うか否か、あるいは出力を行う頻度、あるいは出力を行う優先度を制御する、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記解析処理は、以前内部に保持した結果を自動的に更新する、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　前記解析処理は、前記領域全体のカバレージ値が閾値を超えた際に自動的にシステム全体の処理の中断を要求する、ことを特徴とする、請求項１又は２に記載の情報処理方法。
　請求項１～１１のいずれかに記載の情報処理方法を行う、ことを特徴とする情報処理装置。
　請求項１～１１のいずれかに記載の情報処理方法を実装する、ことを特徴とするプログラム。
　請求項１～１１のいずれかに記載の情報処理方法を記憶する、ことを特徴とする記憶媒体。
　シーケンスを読み取り所定の時間間隔で部分クエリ配列を出力するシーケンサ部と、
　前記シーケンサ部から出力された部分クエリ配列を累積クエリ配列として保持するクエリ配列管理部と、
　リファレンス配列を保持するリファレンス配列管理部と、
　部分クエリ配列と累積クエリ配列とからクエリ配列をリファレンス配列にアライメントし、アライメント結果を出力するアライメント部と、
　以前に出力したアライメント結果からの変化情報を前記アライメント結果に付与し、アライメント結果の変化を示すデータを出力するアライメント変化結果出力部と、
　前記アライメント結果の変化を示すデータに基づき解析処理を行う解析処理部と、
　前記解析処理の結果の変化を示すデータを出力する解析処理変化結果出力部、を備えるシーケンサ。
　領域管理情報を保持する領域管理部を更に備える、請求子１５に記載のシーケンサ。
　中断カバレージ閾値を管理し、リファレンス配列全体のカバレージ値が、前記中断カバレージ閾値を超えた場合に、全処理の中断を行う中断制御部を更に備える、請求項１５に記載のシーケンサ。