WO2022054178A1

WO2022054178A1 - 個体ゲノムの構造変異検出方法及び装置

Info

Publication number: WO2022054178A1
Application number: PCT/JP2020/034166
Authority: WO
Inventors: 宏一木村
Original assignee: 株式会社日立ハイテク
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-03-17

Abstract

コンピュータのプロセッサにより実行される個体ゲノムの構造変異検出方法であって、標準ゲノム配列データを受信することと、標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算することと、個体ゲノムのリード配列データを受信することと、リード配列データのそれぞれの末端を標準ゲノム配列データ上にマッピングすることと、標準ゲノム配列データの各位置でリード配列データの末端のマッピングに失敗した頻度を計算することと、標準ゲノム配列データの各位置において、マッピングに失敗した頻度がマッピングに失敗する確率と比較して有意に大きいか否かを判定することと、標準ゲノム配列データ上で、マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、変異領域候補を構造変異の検出結果として出力することと、を含む。

Description

個体ゲノムの構造変異検出方法及び装置

　本開示は、個体ゲノムの構造変異検出方法及び装置に関する。

　ショートリード型の次世代型ＤＮＡシーケンシング技術の進歩により、ＤＮＡシーケンサで読み取った個人のゲノム配列を癌や生活習慣病などの予防及び治療に役立てることが可能になってきている。その際、個人のゲノム配列を標準ゲノム配列と比較して、標準ゲノム内のどの位置に、個人ゲノム側でどのような変異が生じているかを調べることが必要になる。変異には、１塩基～数塩基のスケールで生じるものから数キロ～数十キロの大きなスケールで生じるものまで様々ある。通常、ショートリード型の次世代型ＤＮＡシーケンサで直接読み取れる塩基長は１００～１５０塩基程度に限られるため、それを超える大きなスケールで生じる変異（構造変異とよぶ）は間接的な方法を用いて検出される。

　構造変異を検出するための最も代表的な方法が、ペアエンド・シーケンシングによる方法である。この方法では、通常、個人ゲノムを数百塩基程度の長さの多数の配列（インサートとよぶ）に断片化して、各インサートの両端の配列をシーケンサで読み取って、長さ１００塩基程度のリード配列のペアを多数得る。大多数の場合、リード配列に対応する標準ゲノム内の位置（マッピング位置）は一意に特定することができる（非特許文献２）。個人ゲノムに構造変異が生じていない場合、ペアをなすリード配列のマッピング位置は、標準ゲノム配列座標上でインサート長の平均値にほぼ等しい距離だけ互いに離れている。このようなペアは整合ペア（accordant pair）とよばれる。それに対して、ペアをなすリード配列のマッピング位置間の間隔がインサート長の平均値から外れている場合は、何らかの構造変異が生じていると推定される。このようなペアは非整合ペア（discordant pair）とよばれる。

米国特許第８７９８９３６号

Chen, K., Wallis, J., McLellan, M. et al. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Nat Methods 6, 677-681 (2009). Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler Transform. Bioinformatics, 25:1754-60. Ferragina P, Manzini G. Proceedings of the 41st Symposium on Foundations of Computer Science (FOCS 2000). Los Alamitos, CA, USA: IEEE Computer Society; 2000. Opportunistic data structures with applications; p. 390-398. Karkkainen J., Manzini G., Puglisi S.J. (2009) Permuted Longest-Common-Prefix Array. In: Kucherov G., Ukkonen E. (eds) Combinatorial Pattern Matching. CPM 2009. Lecture Notes in Computer Science, vol 5577. Springer, Berlin, Heidelberg G. Nong, S. Zhang and W. H. Chan, "Linear Suffix Array Construction by Almost Pure Induced-Sorting," 2009 Data Compression Conference, Snowbird, UT, 2009, pp. 193-202, doi: 10.1109/DCC.2009.42. Heng Li, Fast construction of FM-index for long sequence reads, Bioinformatics, Volume 30, Issue 22, 15 November 2014, Pages 3274-3275

　ペアをなすリード配列のマッピング位置間の間隔がインサート長の平均値よりも小さい場合は、その減少分は個人ゲノムに生じた挿入変異の長さを反映していると推定される。そのため、インサート長を超える長さの挿入変異は検出することができない。また、ペアをなすリード配列の一方又は両方のマッピングに失敗した場合は、そのペアのデータは利用されない。

　そこで、本開示は、ペアエンド・シーケンシングによるショートリード型の次世代型ＤＮＡシーケンサの配列データを用いて、インサート長を超える長さの挿入変異を検出する技術を提供する。

　上記課題を解決するために、本開示の個体ゲノムの構造変異検出方法は、コンピュータのプロセッサにより実行される個体ゲノムの構造変異検出方法であって、前記プロセッサにより、標準ゲノム配列データを受信することと、前記プロセッサにより、前記標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算することと、前記プロセッサにより、個体ゲノムのリード配列データを受信することと、前記プロセッサにより、前記リード配列データのそれぞれの末端を前記標準ゲノム配列データ上にマッピングすることと、前記プロセッサにより、前記標準ゲノム配列データの各位置で前記リード配列データの末端のマッピングに失敗した頻度を計算することと、前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいか否かを判定することと、前記プロセッサにより、前記標準ゲノム配列データ上で、前記マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、前記プロセッサにより、前記変異領域候補を構造変異の検出結果として出力することと、を含む。

　本開示に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本開示の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
　本明細書の記述は典型的な例示に過ぎず、本開示の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではない。

　本開示の技術によれば、インサート長を超える長さの挿入変異を検出することができる。
　上記以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。

第１の実施形態に係る構造変異検出システムのハードウェア構成図。第１の実施形態に係る構造変異検出システムの機能ブロック図。第１の実施形態に係る構造変異検出システムの処理全体を示すフローチャート。標準ゲノム配列データから標準ゲノムＭＬＲＵデータを計算する方法を示すフローチャート。ペア末端を標準ゲノム配列上にマッピングする方法を示すフローチャート。ペアを分類する方法を示す図。ペアを分類する方法を示す図。ペアを分類する方法を示す図。ペアを分類する方法を示す図。ペアを分類する方法を示す図。ペアを分類する方法を示す図。標準ゲノム配列の各塩基座標でリード頻度を計算する方法を説明する図。標準ゲノム配列の各塩基座標でリード頻度を計算する方法を説明する図。標準ゲノム配列上で変異領域の候補を抽出する方法を説明する図。標準ゲノム配列上で変異領域の候補を抽出する方法を説明する図。標準ゲノム配列上でブレークポイントを検出する方法を説明する図。第２の実施形態に係る構造変異検出システムの機能ブロック図。第２の実施形態に係る構造変異検出システムの処理全体を示すフローチャート。

　以下、図面を参照して本開示の実施形態を説明する。各実施形態において、ヒトのゲノム（個人ゲノム）を構造変異の検出対象として説明するが、本開示の技術は、他の生物のゲノム（個体ゲノム）の解析にも適用することができる。

［第１の実施形態］
＜構造変異検出システムの構成例＞
　図１は、第１の実施形態に係る個人ゲノム（個体ゲノム）の構造変異検出システム１のハードウェア構成図である。構造変異検出システム１は、コンピュータ１００、ヒトの標準ゲノム配列データ１１１を格納するデータベース及び個人ゲノムリード配列データ１１２を格納するデータベースを備える。

　コンピュータ１００（構造変異検出装置）は、通常の計算機の構成を有するサーバ等の装置である。コンピュータ１００は、ＣＰＵ１０１（プロセッサ）、メモリ１０２、記憶装置１０３、ネットワークインタフェース（ＮＩＦ）１０４、入力装置１０５、表示／出力装置１０６及びバス１０７を備える。コンピュータ１００の各構成要素は、バス１０７により互いに接続される。

　ＣＰＵ（Central Processing Unit）１０１は、メモリ１０２に一時的に記憶されたプログラム及び種々のデータを読み出して、個人ゲノムの構造変異検出に必要な処理を実行する。なお、ＣＰＵの代わりに、ＭＰＵ（Micro Processing Unit）など他の処理装置（プロセッサ）を用いてもよい。

　記憶装置１０３は、ＣＰＵ１０１の処理により生成された標準ゲノム配列辞書データ１２１、標準ゲノムＭＬＲＵ（Minimum Length for Robust Uniqueness）データ１２２及び個人ゲノムリード配列辞書データ１２３を格納する。記憶装置１０３としては、例えばハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、磁気ディスク又は光学ディスクなどを用いることができる。なお、標準ゲノム配列辞書データ１２１、標準ゲノムＭＬＲＵデータ１２２及び個人ゲノムリード配列辞書データ１２３は、コンピュータ１００に外部接続された記憶装置に記憶されてもよいし、ネットワークを介してコンピュータ１００に接続されたデータセンタなどに記憶されていてもよい。

　ネットワークインタフェース１０４は、ＬＡＮ（Local Area Network）及びインターネットなどのネットワークを介してコンピュータ１００の外部装置と通信する。ＣＰＵ１０１は、ネットワークインタフェース１０４を介して外部のデータベースに格納される標準ゲノム配列データ１１１及び個人ゲノムリード配列データ１１２にアクセスし、これらをダウンロードすることができる。外部から取得された各データは、記憶装置１０３に格納される。標準ゲノム配列データ１１１は、例えば、国際基準ゲノム又は日本人基準ゲノム配列など、基準と定められたヒトのゲノム配列のデータである。個人ゲノムリード配列データ１１２は、例えば、ペアエンド・シーケンシングによるショートリード型の次世代型ＤＮＡシーケンサにより読み取られた個人ゲノムの断片の配列データの集合である。

　入力装置１０５は、例えばマウス、キーボード、タッチパネル、カメラ、マイクなどである。表示／出力装置１０６は、例えばディスプレイ、タッチパネル、プリンタ、スピーカなどである。表示／出力装置１０６は、ユーザによる操作のためのＧＵＩ（Graphical User Interface）１０８や解析結果などをディスプレイに表示する。コンピュータ１００のユーザは、入力装置１０５を操作することにより、ＧＵＩ１０８を介してコマンドやパラメータなどの情報を入力することができる。入力されたコマンドやパラメータは、メモリ１０２又は記憶装置１０３に格納される。

　図２は、構造変異検出システムの機能ブロック図である。図２に示すように、構造変異検出システムは、標準ゲノム配列辞書作成部２０１、ＭＬＲＵ計算部２０２、個人ゲノムリード配列辞書作成部２０３、入力部２０５、表示／出力部２０６、ペア末端マッピング部２１１、ペア分類部２１２、変異領域候補抽出部２１３、リード配列抽出部２１４、アラインメント部２１５、ブレークポイント（ＢＰ）抽出部２１６、マッピング失敗頻度評価部２２１及びマッピング失敗確率評価部２２２を有する。以上の各部の処理は、ＣＰＵ１０１がメモリ１０２に記憶されたプログラムを実行することにより実現される。

　入力部２０５は、ユーザによりＧＵＩ１０８を介して指定（入力）された、ＣＰＵ１０１の各部で用いられる処理パラメータ２１８の格納先、及び、後述する各種の入出力データ（標準ゲノム配列データ１１１、個人ゲノムリード配列データ１１２、標準ゲノム配列辞書データ１２１、標準ゲノムＭＬＲＵデータ１２２、個人ゲノムリード配列辞書データ１２３及び構造変異検出結果１１３）の格納先を読み込み、メモリ１０２に記憶させる。また、入力部２０５は、ネットワークインタフェース１０４を介して外部のデータベースから標準ゲノム配列データ１１１及び個人ゲノムリード配列データ１１２を取得し、指定された格納先に従って記憶装置１０３に格納する。

　標準ゲノム配列辞書作成部２０１は、記憶装置１０３から標準ゲノム配列データ１１１の入力を受け付け、標準ゲノム配列辞書データ１２１を生成する。ＭＬＲＵ計算部２０２は、記憶装置１０３から標準ゲノム配列データ１１１の入力を受け付け、標準ゲノムＭＬＲＵデータ１２２を生成する。個人ゲノムリード配列辞書作成部２０３は、記憶装置１０３から個人ゲノムリード配列データ１１２の入力を受け付け、個人ゲノムリード配列辞書データ１２３を生成する。これらの生成されたデータは、指定された格納先に従って記憶装置１０３に格納される。

　ペア末端マッピング部２１１は、個人ゲノムリード配列データ１１２、標準ゲノム配列辞書データ１２１及び標準ゲノムＭＬＲＵデータ１２２の入力を受け付けてペア末端マッピング処理を行い、その結果をペア分類部２１２に出力する。ペア分類部２１２は、ユーザがＧＵＩ１０８及び入力装置１０５を用いて入力した処理パラメータ２１８の入力を受け付けて分類基準を設定し、ペア末端マッピング部２１１の結果に基づいてペアの分類を行う。ペア分類部２１２は、ペアの分類結果をマッピング失敗頻度評価部２２１に出力する。

　マッピング失敗頻度評価部２２１は、ペアの分類結果に基づいて、実際にマッピングに失敗した頻度を計算する（評価する）。マッピング失敗頻度評価部２２１は、計算結果を変異領域候補抽出部２１３に出力する。

　マッピング失敗確率評価部２２２は、処理パラメータ２１８の一つである塩基読み取りエラー率と標準ゲノムＭＬＲＵデータ１２２とを用いた確率モデルとに基づいて、マッピングに失敗する確率を計算する（評価する）。マッピング失敗確率評価部２２２は、計算結果を変異領域候補抽出部２１３に出力する。

　変異領域候補抽出部２１３は、マッピング失敗頻度評価部２２１の計算結果（マッピングに失敗した頻度）を受け取るとともに、マッピング失敗確率評価部２２２の計算結果（マッピングに失敗する確率）も受け取る。変異領域候補抽出部２１３は、処理パラメータ２１８の一つである誤り率の条件の下で、マッピングに失敗した頻度がマッピングに失敗する確率よりも有意に大きい領域を変異領域の候補として抽出し、その結果をリード配列抽出部２１４に出力する。

　リード配列抽出部２１４は、記憶装置１０３から標準ゲノムＭＬＲＵデータ１２２の入力を受け付け、リード配列を抽出するために用いる部分配列であるシード配列の長さを決める。次に、リード配列抽出部２１４は、標準ゲノム配列データ１１１の入力を受け付け、その中からシード配列（部分配列）を取り出す。次に、リード配列抽出部２１４は、記憶装置１０３から個人ゲノムリード配列辞書データ１２３の入力を受け付け、シード配列を含む全てのリード配列を抽出し、その結果をアラインメント部２１５に出力する。

　アラインメント部２１５は、記憶装置１０３から標準ゲノム配列データ１１１の入力を受け付け、リード配列抽出部２１４で抽出されたリード配列と標準ゲノム配列に共通に含まれるシード配列を揃えてアラインメントを行う。次に、アラインメント部２１５は、アラインメントをシード配列に隣接する領域まで延長して、その結果をブレークポイント抽出部２１６に出力する。

　ブレークポイント抽出部２１６は、処理パラメータ２１８の入力を受け付けてアラインメントの一致基準を設定する。次に、ブレークポイント抽出部２１６は、アラインメント部２１５で得られたシード配列の隣接領域のアラインメントが一致基準を満たさない場合、シード配列と隣接領域の境界をブレークポイントとして抽出し、その結果を表示／出力装置１０６に出力する。

　表示／出力部２０６は、ブレークポイント抽出部２１６で得られたブレークポイントの抽出結果（構造変異検出結果１１３）をＧＵＩ１０８として表示／出力装置１０６に表示する。また、表示／出力部２０６は、ネットワークインタフェース１０４（図２には不図示）を介して構造変異検出結果１１３を外部装置に出力する。

＜構造変異検出方法＞
　図３は、構造変異検出システムの処理全体を示すフローチャートである。図３に示されるいくつかのステップの詳細については図４～図９を用いて後述する。

（ステップ３０１）
　入力部２０５は、ユーザによりＧＵＩ１０８を介して指定（入力）された、ＣＰＵ１０１の各部で用いられる処理パラメータ２１８の格納先、及び、各種の入出力データ（標準ゲノム配列データ１１１、個人ゲノムリード配列データ１１２、標準ゲノム配列辞書データ１２１、標準ゲノムＭＬＲＵデータ１２２、個人ゲノムリード配列辞書データ１２３及び構造変異検出結果１１３）の格納先の入力を受け付け、メモリ１０２に記憶させる。

（ステップ３０２）
　入力部２０５は、ネットワークインタフェース１０４を介して、外部データベースから標準ゲノム配列データ１１１及び個人ゲノムリード配列データ１１２をそれぞれ取得（受信）し、ステップ３０１で指定された格納先に従って、記憶装置１０３に格納する。

（ステップ３０３）
　ヒトゲノムＤＮＡは複数の染色体に分かれ、その各々はプラス鎖とマイナス鎖からなる２重らせん構造をもつ。標準ゲノム配列データ１１１は、各染色体のプラス鎖の塩基配列（塩基を表すＡ，Ｃ，Ｇ，Ｔの文字からなる文字列）からなる。標準ゲノム配列辞書作成部２０１は、記憶装置１０３から標準ゲノム配列データ１１１を読み出し、これらの配列とその相補鎖配列（reverse complementary sequences）を区切り文字＄で連結して一本の標準ゲノム配列Ｇとする。標準ゲノム配列Ｇ内の各文字の位置は、標準ゲノム配列Ｇの左端を１として整数の座標Ｘで指定される。また、説明上の必要に応じて、座標Ｘがプラス鎖内の文字を指定する場合、正符号付の座標＋Ｘを用い、また、Ｘに対応する相補鎖配列（マイナス鎖）内の塩基位置を指定するために負符号付の座標－Ｘを用いる。

　標準ゲノム配列辞書作成部２０１は、公知の方法（非特許文献５）を利用して標準ゲノム配列ＧのＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換（ＦＭインデクス）を計算し、その結果を標準ゲノム配列辞書データ１２１として出力する。標準ゲノム配列辞書作成部２０１は、生成した標準ゲノム配列辞書データ１２１を記憶装置１０３に格納する。

　個人ゲノムリード配列辞書作成部２０３は、記憶装置１０３から個人ゲノムリード配列データ１１２を読み出し、公知の方法（特許文献１、非特許文献６）を利用して個人ゲノムリード配列データ１１２のＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換（ＦＭインデクス）を計算し、その結果を個人ゲノムリード配列辞書データ１２３として出力する。個人ゲノムリード配列辞書作成部２０３は、生成した個人ゲノムリード配列辞書データ１２３を記憶装置１０３に格納する。

（ステップ３０４）
　ＭＬＲＵ計算部２０２は、記憶装置１０３から標準ゲノム配列データ１１１を読み出し、標準ゲノムＭＬＲＵデータ１２２を計算する。ＭＬＲＵ計算部２０２は、生成した標準ゲノムＭＬＲＵデータ１２２を記憶装置１０３に格納する。

（ステップ３０５）
　ペア末端マッピング部２１１は、記憶装置１０３から個人ゲノムリード配列データ１１２、標準ゲノム配列辞書データ１２１及び標準ゲノムＭＬＲＵデータ１２２を読み出し、ペア末端マッピング処理を行い、各ペアの両端のマッピング位置を求める。ペア末端マッピング部２１１は、求めた各ペアの両端のマッピング位置をペア分類部２１２に出力する。

（ステップ３０６）
　ペア分類部２１２は、ペア末端マッピング部２１１が求めたマッピング位置に基づいて、各ペアを整合ペアＡＰ（acccordant pair）、非整合ペアＤＰ（discordant pair）、不完全マップペアＩＰ（incompletely mapped pair）及びマッピング不能ペアＵＰ（unmappable pair）のいずれかに分類する。ペア分類部２１２は、ペアの分類結果をマッピング失敗頻度評価部２２１に出力する。

（ステップ３０７）
　マッピング失敗頻度評価部２２１は、ペアの分類結果に基づいて、標準ゲノム配列Ｇの各塩基位置で整合ペアＡＰの頻度と不完全マップペアＩＰの頻度を求める。

（ステップ３０８）
　マッピング失敗頻度評価部２２１は、実際にマッピングに失敗した頻度を、整合ペアＡＰと不完全マップペアＩＰの頻度の合計に対する不完全マップペアＩＰの相対頻度として計算する。また、マッピング失敗確率評価部２２２は、マッピングに失敗する確率を、処理パラメータ２１８の一つである塩基読み取りエラー率と標準ゲノムＭＬＲＵデータ１２２とを用いて、二項分布の確率モデルに基づいて計算する。

　変異領域候補抽出部２１３は、マッピング失敗頻度評価部２２１から実際にマッピングに失敗した頻度の入力を受け付け、マッピング失敗確率評価部２２２からマッピングに失敗する確率の入力を受け付ける。そして、変異領域候補抽出部２１３は、標準ゲノム配列Ｇ上を走査（スキャン）して、実際にマッピングに失敗した頻度がマッピングに失敗する確率よりも有意に高い領域を変異領域の候補として一つずつ抽出する。

（ステップ３０９）
　変異領域候補抽出部２１３は、変異領域候補が抽出されたか否かを判定する。変異領域候補がなかった場合（Ｎｏ）は、全処理を終了する。このとき、変異領域候補抽出部２１３は、変異領域候補がなかったことを示す結果を表示／出力部２０６に出力してもよく、表示／出力部２０６は、変異領域候補がなかったことを示す結果をＧＵＩ１０８として表示／出力装置１０６（ディスプレイ）に表示させてもよい。変異領域候補が得られた場合（Ｙｅｓ）は、処理はステップ３１０に移行する。

（ステップ３１０）
　変異領域候補抽出部２１３は、座標Ｘを抽出された変異領域候補の右端のＸ座標として、以下の処理を繰り返す。

（ステップ３１１）
　変異領域候補抽出部２１３は、座標Ｘがその変異領域候補内にあるか否かを判定する。Ｘがその変異領域候補内にない場合（Ｎｏ）は、ステップ３０８（変異領域候補の抽出処理）に戻って次の候補を探す。座標Ｘがその変異領域候補内にある場合（Ｙｅｓ）は、処理はステップ３１２に移行する。

（ステップ３１２）
　リード配列抽出部２１４は、座標Ｘを左端とするシード配列Ｓを求め、個人ゲノムリード配列辞書データ１２３から、シード配列Ｓを含むリード配列を全て抽出する。ここで、座標Ｘを左端とするシード配列Ｓとは、標準ゲノム配列データ１１１から、座標Ｘの位置にある要素を始点として長さＭＬＲＵ（＋Ｘ）の部分配列を取り出したものである。シード配列Ｓを含む全てのリード配列を抽出するためには、個人ゲノムリード配列辞書データ１２３に対して公知の方法（ＬＦマッピング、last-to-first column mapping）を適用すればよい。

（ステップ３１３）
　リード配列抽出部２１４は、ステップ３１２において抽出されたリード配列が存在するか否かを判定する。リード配列がない場合（Ｎｏ）は、処理はステップ３１８に移行する。リード配列がある場合（Ｙｅｓ）は、リード配列抽出部２１４は、抽出されたリード配列をアラインメント部２１５に出力し、処理はステップ３１４に移行する。

（ステップ３１８）
　変異領域候補抽出部２１３は、座標Ｘから１を引いて、ステップ３１１に戻る。

（ステップ３１４）
　アラインメント部２１５は、抽出されたリード配列と標準ゲノム配列Ｇとを、それらに共通に含まれるシード配列Ｓの左端Ｘで揃えてアラインメントし、そのアラインメントをＸの左方にまで延長する。アラインメント部２１５は、アラインメントの延長した結果をブレークポイント抽出部２１６に出力する。

（ステップ３１５）
　ブレークポイント抽出部２１６は、座標Ｘの左方に延長されたアラインメントにおいて塩基の不一致が頻出するか否かを判定する。不一致が頻出しない場合（Ｎｏ）には、処理はステップ３１８に移行し、変異領域候補抽出部２１３は、座標Ｘから１を引いて、ステップ３１１に戻る。不一致が頻出する場合（Ｙｅｓ）には、処理はステップ３１６に移行する。

（ステップ３１６）
　ブレークポイント抽出部２１６は、座標Ｘにブレークポイントがあると判定し、判定結果を表示／出力部２０６に出力する。

（ステップ３１７）
　表示／出力部２０６は、ブレークポイントの座標Ｘを表示／出力装置１０６に出力する。表示／出力部２０６は、例えば、ブレークポイントの座標Ｘ及びその周辺のアラインメント結果や、後述するようなブレークポイント周辺における整合ペアＡＰの頻度と不完全マップペアＩＰの頻度の変動をＧＵＩ１０８として、表示／出力装置１０６（ディスプレイ）に表示若しくはファイル出力することができる。

　その後、処理はステップ３０８に戻り、同様の処理が繰り返される。ステップ３０９において新たな変異領域候補がないと判定されたときに、全処理が終了する。

＜ＭＬＲＵの計算方法＞
　図４は、ステップ３０４においてＭＬＲＵ計算部２０２が標準ゲノム配列データ１１１から標準ゲノムＭＬＲＵデータ１２２を計算する方法を示すフローチャートである。

（ステップ４０１）
　ＭＬＲＵ計算部２０２は、記憶装置１０３から標準ゲノム配列データ１１１を読み出す。

（ステップ４０２）
　ＭＬＲＵ計算部２０２は、記憶装置１０３から標準ゲノム配列データ１１１を読み出し、それらの配列とその相補鎖配列（reverse complementary sequences）を区切り文字＄で連結して一本の標準ゲノム配列Ｇとする。

（ステップ４０３）
　ＭＬＲＵ計算部２０２は、公知の方法（非特許文献４）により、標準ゲノム配列ＧのＰＬＣＰ（Permutated Longest Common Prefix Array）を計算する。

（ステップ４０４）
　ＭＬＲＵ計算部２０２は、標準ゲノム配列Ｇ上の各座標Ｘについて、ＭＬＵ（Ｘ）＝ＰＣＬＰ（Ｘ）＋１と定める。ＰＬＣＰの性質により、ＭＬＵ（minimum length for uniqueness）は、座標Ｘを起点とする標準ゲノム配列Ｇの部分配列が標準ゲノム配列Ｇ内で完全一致の条件の下で一意的となる（即ち、その部分配列がＸ以外の箇所を起点とする標準ゲノム配列Ｇの他の部分配列と完全一致することはない）ために必要な最小の長さを与える。

　それに対して、minimum length for robust uniquenessを表すＭＬＲＵ（Ｘ）は、座標Ｘを起点とする標準ゲノム配列Ｇの部分配列が標準ゲノム配列Ｇ内で１塩基以下の違いを許容するロバストな比較条件の下で一意的となる（即ち、その部分配列がＸ以外の箇所を起点とする標準ゲノム配列Ｇの他の部分配列と高々１塩基の違いを除いて一致することはない）ために必要な最小の長さを表すものと定める。ＭＬＲＵとＭＬＵとを比較すると、部分配列を比較する条件を緩和したため、ＭＬＲＵ（Ｘ）の値はＭＬＵ（Ｘ）の値よりも常に大きい。そこで、ＭＬＲＵ計算部２０２は、以下に示す手順で標準ゲノム配列Ｇの各座標ＸでのＭＬＲＵ（Ｘ）の値Ｌを計算する際には、Ｌの初期値としてＬ＝ＭＬＵ（Ｘ）＋１を用いる（ステップ４０８で後述）。

　部分配列の比較により標準ゲノム配列Ｇ内の座標Ｘを定める際、ＭＬＵの長さの部分配列を用いると、個人ゲノムの中に多数含まれているＳＮＰ（Single Nucleotide Polymorphism）の影響を受けて、座標Ｘの位置を誤ることが起きる。それに対して、ＭＬＲＵの長さの部分配列を用いた場合には、配列比較の条件が１塩基以下の違いを許容するように緩和されているため、ＳＮＰの影響を受けずにロバストに座標Ｘを正しく定めることができる。

（ステップ４０５）
　ＭＬＲＵ計算部２０２は、記憶装置１０３から標準ゲノム配列辞書データ１２１を読み出す。

（ステップ４０６）
　ＭＬＲＵ計算部２０２は、座標Ｘに標準ゲノム配列Ｇの左端の座標である１を代入する。

（ステップ４０７）
　ＭＬＲＵ計算部２０２は、座標Ｘを標準ゲノム配列Ｇの右端の座標Ｘｍａｘ（Ｘｍａｘ＝標準ゲノム配列Ｇの長さ）と比較する。Ｘ＞Ｘｍａｘであるならば（Ｙｅｓ）、標準ゲノムＭＬＲＵデータの計算処理を終了する。Ｘ＞Ｘｍａｘでない場合（Ｎｏ）は、ステップ４０８に移行する。

（ステップ４０８）
　ＭＬＲＵ計算部２０２は、標準ゲノム配列Ｇの座標ＸでのＭＬＲＵ（Ｘ）の値Ｌの初期値として、ＭＬＵ（Ｘ）＋１をセットする。

（ステップ４０９）
　ＭＬＲＵ計算部２０２は、標準ゲノム配列Ｇ内で座標Ｘを起点（左端）とする長さＬの部分配列をＳとする。

（ステップ４１０）
　ＭＬＲＵ計算部２０２は、部分配列Ｓに１塩基の置換、挿入又は欠失を入れた配列をＱとする。長さＬの部分配列Ｓに１塩基置換を入れた配列Ｑは３Ｌ通りある。何故ならば、Ｌ箇所ある部分配列Ｓの塩基位置のそれぞれにおいて、元の塩基（Ａ，Ｃ，Ｇ，Ｔのいずれか）をそれ以外の塩基に置き換える方法が３通りあるからである。同様に、長さＬの部分配列Ｓに１塩基挿入を入れた配列Ｑは４Ｌ通りある。また、長さＬの部分配列Ｓに１塩基欠失を入れた配列ＱはＬ通りある。したがって、長さＬの部分配列Ｓに１塩基の置換、挿入又は欠失を入れた配列Ｑは全部で８Ｌ通りある（ただし、部分配列Ｓの中に同じ塩基が連続して並ぶ場合には、８Ｌ通り数え方に重複が含まれる）。

（ステップ４１１）
　ＭＬＲＵ計算部２０２は、一つ一つの配列Ｑに対して、公知の方法（非特許文献２）により、標準ゲノム配列辞書データ１２１を利用して、標準ゲノム配列Ｇ内に配列Ｑが出現する回数Ｏｃｃ（Ｇ，Ｑ）を求める。そして、ＭＬＲＵ計算部２０２は、Ｏｃｃ（Ｇ，Ｑ）＞０であるか否かを判定する。Ｏｃｃ（Ｇ，Ｑ）の値が正である（Ｙｅｓ）ならば、ステップ４１２に移行する。一方、Ｏｃｃ（Ｇ，Ｑ）の値が０である（Ｎｏ）ならば、ステップ４１３に移行する。

（ステップ４１２）
　ＭＬＲＵ計算部２０２は、Ｌの値を１だけ増やして、部分配列Ｓを定めるステップ４０９に戻る。

（ステップ４１３）
　ＭＬＲＵ計算部２０２は、前述した８Ｌ通りの全ての配列Ｑのテストが完了したか否かを判定する。全ての配列Ｑのテストが完了した場合（Ｙｅｓ）には、ステップ４１４に移行する。全ての配列Ｑのテストが完了していなかった場合（Ｎｏ）には、配列Ｑを定めるステップ４１０に戻って、他の配列Ｑに対して、ステップ４１１のテスト処理を行う。

（ステップ４１４）
　ＭＬＲＵ計算部２０２は、座標ＸにおけるＭＬＲＵの値であるＭＬＲＵ（Ｘ）をＬと定めて、標準ゲノムＭＬＲＵデータ１２２として出力し、記憶装置１０３に格納する。

（ステップ４１５）
　ＭＬＲＵ計算部２０２は、Ｘを１だけ増やして、標準ゲノム配列Ｇの右端の座標Ｘｍａｘとの比較処理（ステップ４０７）に戻る。ステップ４０７においてＸ＞Ｘｍａｘとなったとき、処理を終了する。

＜マッピング位置を求める方法＞
　図５は、ステップ３０５においてペア末端マッピング部２１１が各ペアの両端のマッピング位置を求める方法を示すフローチャートである。

（ステップ５０１）
　ペア末端マッピング部２１１は、記憶装置１０３から標準ゲノム配列辞書データ１２１及び標準ゲノムＭＬＲＵデータ１２２を読み出す。

（ステップ５０２）
　ペア末端マッピング部２１１は、記憶装置１０３から個人ゲノムリード配列データ１１２を読み出す。

（ステップ５０３）
　個人ゲノムリード配列データ１１２はペアをなすリード配列の集合であり、各ペアは２本のリード配列からなる。ペアの両端とは、ペアをなすリード配列それぞれの５’末端を意味する。ペア末端マッピング部２１１は、未処理のリード配列があるか否かを判定する。全てのリード配列に対する処理を行い、未処理のリード配列がなくなったとき（Ｎｏ）、処理は終了する。未処理のリード配列がある場合（Ｙｅｓ）、ステップ５０４に移行する。

（ステップ５０４）
　ペア末端マッピング部２１１は、未処理のリード配列をＲとし、次の処理対象とする。

（ステップ５０５）
　ペア末端マッピング部２１１は、クエリー長Ｌを１に初期化する。

（ステップ５０６）
　ペア末端マッピング部２１１は、リード配列Ｒの５’末端から長さＬの部分配列をとり、それをクエリー配列Ｑとする。

（ステップ５０７）
　ペア末端マッピング部２１１は、公知の方法（非特許文献２、非特許文献３）により、標準ゲノム配列辞書データ１２１を利用して、標準ゲノム配列Ｇ内にクエリー配列Ｑが出現する回数Ｏｃｃ（Ｇ，Ｑ）を求め、その値をＦとする。

（ステップ５０８）
　ペア末端マッピング部２１１は、Ｆ＞１であるか否かを判定する。Ｆ＞１ならば（Ｙｅｓ）、ステップ５０９に移行する。Ｆ＞１でないならば（Ｎｏ）、ステップ５１０に移行する。

（ステップ５０９）
　ペア末端マッピング部２１１は、Ｌを１だけ増やして、クエリー配列Ｑを定めるステップ５０６に戻る。

（ステップ５１０）
　ペア末端マッピング部２１１は、Ｆ＝０であるか否かを判定する。Ｆ＝０ならば（Ｙｅｓ）、ステップ５１１に移行する。Ｆ＝０でない場合（Ｎｏ）、即ち、Ｆ＝１の場合は、ステップ５１２に移行する。

（ステップ５１１）
　ペア末端マッピング部２１１は、リード配列Ｒのマッピングは失敗したと判定してその判定結果を変異領域候補抽出部２１３に出力する。その後、処理はステップ５０３に戻る。

（ステップ５１２）
　ペア末端マッピング部２１１は、クエリー配列Ｑの唯一の出現位置の座標Ｘを公知の方法（非特許文献２）により求めて、Ｌの値をＭＬＲＵ（Ｘ）に更新する。

（ステップ５１３）
　ペア末端マッピング部２１１は、リード配列Ｒの５’末端から長さＬの部分配列をとり、それをクエリー配列Ｑとする。

（ステップ５１４）
　ペア末端マッピング部２１１は、公知の方法（非特許文献２、非特許文献３）により、標準ゲノム配列辞書データ１２１を利用して、標準ゲノム配列Ｇ内にクエリー配列Ｑが出現する回数Ｏｃｃ（Ｇ，Ｑ）を求め、その値をＦとする。

（ステップ５１５）
　ペア末端マッピング部２１１は、Ｆを１と比較し、Ｆ＝１であるか否かを判定する。Ｆ＝１の場合（Ｙｅｓ）は、ステップ５１６に移行する。Ｆ＝１でない場合（Ｎｏ）は、Ｆ＝０であり、ステップ５１１に移行する。その後、ステップ５０３に戻り、未処理のリード配列がないと判定されたとき、処理は終了する。

（ステップ５１６）
　ペア末端マッピング部２１１は、リード配列Ｒのマッピングが成功したと判定して、その判定結果とリード配列Ｒのマッピング座標Ｘ（Ｒ）がＸであることを変異領域候補抽出部２１３に出力する。その後、ステップ５０３に戻り、未処理のリード配列がないと判定されたとき、処理は終了する。

＜ペアの分類方法＞
　図６Ａ～６Ｆは、ステップ３０６においてペア分類部２１２が各ペアを整合ペアＡＰ、非整合ペアＤＰ、不完全マップペアＩＰ又はマッピング不能ペアＵＰのいずれかに分類する方法を説明するための図である。この分類は、ペアごとに、それぞれ独立に行う。図６Ａ～Ｆの各々は、ペアがＡＰ、ＤＰ、ＩＰ又はＵＰのいずれかに分類される代表的な場合を示している。

　図６Ａ～Ｆの各々において、横軸６０１は、標準ゲノム配列Ｇ上の位置（座標）を示す座標軸である。ペアをなす２本のリード配列をそれぞれＲ１及びＲ２として、ペア末端マッピング部２１１によりリード配列Ｒ１の末端のマッピングが成功した場合、そのマッピング座標Ｘ（Ｒ１）を略してＸ１と表す。同様に、リード配列Ｒ２の末端のマッピングが成功した場合、そのマッピング座標Ｘ（Ｒ２）を略してＸ２と表す。

　右向きの矢印で示されたリード配列Ｒ１は、リード配列の末端が標準ゲノム配列Ｇのプラス鎖にマッピングされることを意味し、左向きの矢印で示されたリード配列Ｒ１は、リード配列の末端が標準ゲノム配列Ｇのマイナス鎖にマッピングされることを意味する。右向き又は左向きの矢印で示されたリード配列Ｒ２についても同様である。

　×印６０６（図６Ｅ、図６Ｆ）は、ペア末端マッピング部２１１においてリード配列Ｒ２の末端のマッピングが失敗してマッピング位置が定まらなかった場合を表す。同様に、×印６０７（図６Ｆ）は、リード配列Ｒ１の末端のマッピングが失敗してマッピング位置が定まらなかった場合を表す。

　また、インサート長の平均値（又は代表値）をＭとし、インサート長の平均値からのずれの大きさが正常の範囲にあると許容できる閾値をＶとする。インサート長の平均値Ｍ及び閾値Ｖは、処理パラメータ２１８の一部であり、入力部２０５がＧＵＩ１０８を通じて取得し、メモリ１０２又は記憶装置１０３に記憶するものである。

　図６Ａは、整合ペアＡＰに分類される場合を示している。図６Ａに示すように、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも成功し、リード配列Ｒ１及びＲ２の末端のマッピング先は同じ染色体にあり、リード配列Ｒ１はプラス鎖にマッピングされ、リード配列Ｒ２はマイナス鎖にマッピングされ、座標Ｘ１は座標Ｘ２の左方に位置し、座標Ｘ１とＸ２の間の距離Ｄ＝Ｘ２－Ｘ１＋１とインサート長の平均値Ｍとの差が閾値Ｖの範囲内に収まっている（｜Ｄ－Ｍ｜≦Ｖを満たす）場合、このペアは整合ペアＡＰに分類される。

　また、図６Ａにおけるリード配列Ｒ１及びＲ２の役割を交換した場合も整合ペアＡＰに分類することができる。即ち、リード配列Ｒ２及びＲ１の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、リード配列Ｒ２はプラス鎖にマッピングされ、リード配列Ｒ１はマイナス鎖にマッピングされ、座標Ｘ２は座標Ｘ１の左方に位置し、座標Ｘ２とＸ１との間の距離Ｄ＝Ｘ１－Ｘ２＋１とインサート長の平均値Ｍとの差が閾値Ｖの範囲内に収まっている場合、このペアは整合ペアＡＰに分類される。

　一方、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも成功しても、整合ペアＡＰに分類できなかった場合は全て、非整合ペアＤＰに分類する。例えば、リード配列Ｒ１とＲ２の末端のマッピングが両者とも成功し、両者のマッピング先が別の染色体にある場合、このペアは非整合ペアＤＰに分類される。

　図６Ｂは、非整合ペアＤＰに分類される場合を示している。図６Ｂに示すように、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、両者ともプラス鎖にマッピングされる場合、このペアを非整合ペアＤＰに分類する。同様に、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、両者ともマイナス鎖にマッピングされる場合も、このペアは非整合ペアＤＰに分類される。

　図６Ｃは、非整合ペアＤＰに分類される場合を示している。図６Ｃに示すように、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、リード配列Ｒ１はプラス鎖にマッピングされ、リード配列Ｒ２はマイナス鎖にマッピングされ、座標Ｘ１が座標Ｘ２の右方に位置する場合、このペアは非整合ペアＤＰに分類される。また、図６Ｃでリード配列Ｒ１及びＲ２の役割を交換した場合も同様に、非整合ペアＤＰに分類される。

　図６Ｄは、非整合ペアＤＰに分類される場合を示している。図６Ｄに示すように、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、リード配列Ｒ１はプラス鎖にマッピングされ、リード配列Ｒ２はマイナス鎖にマッピングされ、座標Ｘ１が座標Ｘ２の左方に位置し、座標Ｘ１とＸ２との間の距離Ｄ＝Ｘ２－Ｘ１＋１とインサート長の平均値Ｍとの差が閾値Ｖを超えた（｜Ｄ－Ｍ｜＞Ｖを満たす）場合、このペアは非整合ペアＤＰに分類される。また、図６Ｄでリード配列Ｒ１及びＲ２の役割を交換した場合も同様に、非整合ペアＤＰに分類される。

　図６Ｅは、不完全マップペアＩＰに分類される場合を示している。図６Ｅに示すように、リード配列Ｒ１の末端のマッピングに成功し、リード配列Ｒ２の末端のマッピングに失敗した場合、このペアは不完全マップペアＩＰに分類される。座標Ｘ１を不完全マップペアＩＰのマッピング位置と呼ぶ。また、図６Ｅでリード配列Ｒ１及びＲ２の役割を交換した場合も同様である。

　図６Ｆは、マッピング不能ペアＵＰに分類される場合を示している。図６Ｆに示すように、リード配列Ｒ１及びＲ２の末端のマッピングが両者とも失敗した場合、このペアはマッピング不能ペアＵＰに分類される。

＜リード配列の頻度の計算方法＞
　図７Ａ及び７Ｂは、標準ゲノム配列Ｇの各座標Ｘでリード配列の頻度（リード頻度）を計算する方法を説明する図である。

　図７Ａは、標準ゲノム配列Ｇのプラス鎖上でリード配列の頻度を求める場合を示している。プラス鎖上では、リード配列Ｒの５’末端が座標ＸＲの位置にマッピングされるとき、３’末端はＸＲ＋Ｌ－１にマッピングされる。ここで、Ｌはリード配列の長さを表す。標準ゲノム配列Ｇの座標Ｘでリード頻度は、ＸＲ≦Ｘ≦ＸＲ＋Ｌ－１を満たすリード配列の本数Ｐ（Ｘ）によって与えられる。Ｐ（Ｘ）を効率的に計算するためには、通常よく行われるように、全リード配列Ｒを５’末端のマッピング位置の座標ＸＲの昇順にソートして、全ての座標Ｘについて昇順にＸＲ≦Ｘ≦ＸＲ＋Ｌ－１を満たすリード配列の本数を数えればよい。

　図７Ｂは、標準ゲノム配列Ｇのマイナス鎖上でリード配列の頻度を求める場合を示している。マイナス鎖上では、リード配列Ｒの５’末端が座標ＸＲの位置にマッピングされるとき、３’末端はＸＲ－Ｌ＋１にマッピングされる。ここで、Ｌはリード配列の長さを表す。標準ゲノム配列Ｇの座標Ｘでリード頻度は、ＸＲ－Ｌ＋１≦Ｘ≦ＸＲを満たすリード配列の本数Ｍ（Ｘ）によって与えられる。Ｍ（Ｘ）を効率的に計算するためには、通常よく行われるように、全リード配列Ｒを５’末端のマッピング位置の座標ＸＲの降順にソートして、全ての座標Ｘについて降順にＸＲ－Ｌ＋１≦Ｘ≦ＸＲを満たすリード配列の本数を数えればよい。

　標準ゲノム配列Ｇの各塩基位置での整合ペアＡＰの頻度とは、整合ペアＡＰに分類されたペアに属するリード配列Ｒに限定したリード頻度である。同様に、標準ゲノム配列Ｇの各塩基位置での不完全マップペアＩＰの頻度とは、不完全マップペアＩＰに分類されたペアに属するリード配列Ｒに限定したリード頻度である。変異領域候補抽出部２１３は、ペア分類部２１２の分類結果に基づいて、整合ペアＡＰに分類されたペアに属するリード配列と不完全マップペアＩＰに分類されたペアに属するリード配列を求め、図７Ａ及び７Ｂを用いて説明したリード頻度の計算方法を用いて、標準ゲノム配列Ｇの各塩基位置での整合ペアＡＰの頻度と不完全マップペアＩＰの頻度を求める。

＜変異領域候補の抽出方法＞
　図８Ａ及び８Ｂは、ステップ３０８において変異領域候補抽出部２１３により変異が含まれる領域の候補を抽出する方法を説明する図である。

　図８Ａは、ホモ型（homozygous）の変異が含まれる可能性がある領域の候補が選び出される状況を示している。変異領域候補抽出部２１３は、横軸に標準ゲノム配列Ｇの座標Ｘをとり、縦軸にリード頻度をとり、不完全マップペアＩＰの頻度８０３、整合ペアＡＰの頻度８０４及び非整合ペアＤＰの頻度８０５をプロットする。

　座標Ｘにおける不完全マップペアＩＰの頻度、整合ペアＡＰの頻度及び非整合ペアＤＰの頻度をそれぞれＩＰ（Ｘ）、ＡＰ（Ｘ）及びＤＰ（Ｘ）と表す。不完全マップペアＩＰの相対頻度を
　ＲＩＰ（Ｘ）＝ＩＰ（Ｘ）／（ＡＰ（Ｘ）＋ＩＰ（Ｘ））
と定めて、これを「マッピングに失敗した頻度」ともよぶ。また、非整合ペアＤＰの相対頻度を
　ＲＤＰ（Ｘ）＝ＤＰ（Ｘ）／（ＡＰ（Ｘ）＋ＤＰ（Ｘ））
と定める。

　変異領域候補抽出部２１３は、Ｘ軸上を走査して、不完全マップペアＩＰの相対頻度及び非整合ペアＤＰの相対頻度のいずれかが、後述の確率モデルに基づいて有意に大きいと判定される位置が指定された長さ（リード配列長Ｌ程度）以上続く領域を抽出し、抽出した領域を変異が含まれる領域の候補とする。図８Ａ中の領域８１３は、不完全マップペアＩＰの相対頻度が閾値（例えば０．２５程度）を超えて抽出された変異領域の候補である。ホモ型の変異の場合、ＲＩＰ（Ｘ）は最大で１に近い値をとる。一方、領域８１４及び８１５では、不完全マップペアＩＰの相対頻度は閾値以下であり、領域８１４及び８１５の不完全マップペアＩＰは偶発的原因で生じたノイズであると考えられる。また、図８Ａには、非整合ペアＤＰの相対頻度が閾値を超えて抽出された変異領域の候補の例は示していないが、そのような領域では公知の方法（非特許文献１）により非整合ペアを利用して変異を検出できる。

　図８Ｂは、ヘテロ型（heterozygous）の変異が含まれる可能性がある領域の候補が選び出される状況を示している。横軸に標準ゲノム配列Ｇの座標Ｘをとり、縦軸にリード頻度をとり、不完全マップペアＩＰの頻度８２３、整合ペアＡＰの頻度８２４及び非整合ペアＤＰの頻度８２５をプロットする。

　変異領域候補抽出部２１３は、Ｘ軸上を走査して、不完全マップペアＩＰの相対頻度及び非整合ペアＤＰの相対頻度のいずれかが、後述の確率モデルに基づいて有意に大きいと判定される位置が指定された長さ（リード配列長Ｌ程度）以上続く領域を抽出し、抽出した領域を変異が含まれる領域の候補とする。図８Ｂ中の領域８３３は、不完全マップペアＩＰの相対頻度が閾値（例えば０．２５程度）を超えて抽出された変異領域の候補である。ヘテロ型の変異の場合、ＲＩＰ（Ｘ）は最大で０．５に近い値をとる。一方、領域８３４及び８３５では、不完全マップペアＩＰの相対頻度は閾値以下であり、領域８３４及び８３５の不完全マップペアＩＰは偶発的原因で生じたノイズであると考えられる。また、図８Ｂには、非整合ペアＤＰの相対頻度が閾値を超えて抽出された変異領域の候補の例は示していないが、そのような領域では公知の方法（非特許文献１）により非整合ペアを利用して変異を検出できる。

　以上のようなホモ型又はヘテロ型の変異が含まれ得る領域の候補を抽出する方法は、雌雄の区別のある生物の個体ゲノムの解析に適用することができる。

　なお、ペアの頻度のプロットは２つの目的で行う。第一の目的では、上述のように、コンピュータ１００の内部（変異領域候補抽出部２１３）において、標準ゲノム配列Ｇの全体にわたるプロットを行い、Ｘ軸上を走査して不完全マップペアＩＰの相対頻度及び非整合ペアＤＰの相対頻度を閾値と比較して変異が含まれる領域の候補を抽出するために利用する。第２の目的では、抽出された変異領域の候補の周辺のプロットをＧＵＩ１０８として表示／出力装置１０６に表示して、候補が抽出された状況をユーザに示すために利用する。

＜ブレークポイントの抽出方法＞
　図９は、ステップ３１４、３１５及び３１６においてアラインメント部２１５及びブレークポイント抽出部２１６により変異領域候補の内部から構造変異に伴うブレークポイント（ＢＰ）を抽出する方法を説明する図である。図９では、プラス鎖について調べる方法を説明する。マイナス鎖について調べる場合は、左右を反転して同様の方法を用いる。プラス鎖上では、変異領域候補の内部を左から右に順に１塩基ずつ走査して以下の処理を繰り返す。

（ステップ９０１）
　アラインメント部２１５は、走査中の座標をＸとする。

（ステップ９０２）
　アラインメント部２１５は、標準ゲノムＭＬＲＵデータ１２２から、プラス鎖上の座標ＸにおけるＭＬＲＵの値ＭＬＲＵ（＋Ｘ）を取得する。

（ステップ９０３）
　アラインメント部２１５は、標準ゲノム配列データ１１１から、プラス鎖上で左端座標がＸであり長さがＭＬＲＵ（Ｘ）の部分配列を取り出し、それをシード配列Ｓとする。

（ステップ９０４）
　アラインメント部２１５は、走査中の座標Ｘの左に隣接する座標をＸ－１とする。

（ステップ９０５）
　アラインメント部２１５は、標準ゲノムＭＬＲＵデータ１２２から、マイナス鎖上のＸ－１におけるＭＬＲＵの値ＭＬＲＵ（－（Ｘ－１））を取得する。

（ステップ９０６）
　アラインメント部２１５は、標準ゲノム配列データ１１１から、マイナス鎖上で右端座標がＸ－１であり長さがＭＬＲＵ（－（Ｘ－１））の部分配列を取り出し、それを標準延長配列Ｆ０とする。

（ステップ９０７）
　アラインメント部２１５は、公知の方法（非特許文献２、非特許文献３）により、個人ゲノムリード配列辞書データ１２３の中からシード配列Ｓを含む全てのリード配列を求める。

（ステップ９０８）
　アラインメント部２１５は、求めたリード配列内で、シード配列Ｓの左方に隣接する長さＭＬＲＵ（－（Ｘ－１））以上の部分配列を全て求め、これらを個人延長配列とする（図９の例ではＦ１、Ｆ２、Ｆ３、Ｆ４及びＦ５）。アラインメント部２１５は、動的計画法などの公知の方法により、標準延長配列Ｆ０と個人延長配列Ｆ１～Ｆ５のアラインメントを行い、アラインメントの結果をブレークポイント抽出部２１６に出力する。

　ブレークポイント抽出部２１６は、個人延長配列Ｆ１～Ｆ５のそれぞれと標準延長配列Ｆ０との編集距離（edit distance）を求める。ブレークポイント抽出部２１６は、編集距離と標準延長配列Ｆ０の長さＭＬＲＵ（－（Ｘ－１））との比が一定値（例えば０．５程度）以上であるリード配列は構造変異に由来すると判定する。

　また、ブレークポイント抽出部２１６は、個人延長配列Ｆ１～Ｆ５の中で構造変異に由来すると判定された割合を求め、これを変異率とする。図９の例では、Ｆ１～Ｆ５のうち、Ｆ１、Ｆ２及びＦ３を含むリード配列９２１は構造変異に由来すると判定され、Ｆ４及びＦ５を含むリード配列９２２は構造変異に由来しないと判定され、変異率は０．６である。

　ブレークポイント抽出部２１６は、変異率を１（ホモ型の変異の場合）又は０．５（ヘテロ型の変異の場合）と比較して、ホモ型又はヘテロ型の変異の有無を判定する。ホモ型又はヘテロ型の変異ありと判定された場合には、ブレークポイント抽出部２１６は、構造変異に由来すると判定されたリード配列に含まれる個人延長配列（Ｆ１、Ｆ２及びＦ３）が個人ゲノムの構造変異で生じた挿入配列の一部であると判定する。また、ブレークポイント抽出部２１６は、その構造変異のブレークポイントが標準ゲノム配列Ｇ上のシード配列Ｓと標準延長配列Ｆ０の境界の位置にあると判定する。

　ブレークポイント抽出部２１６は、これらの判定結果を構造変異検出結果１１３として出力し、記憶装置１０３に格納するとともに、表示／出力部２０６に出力する。表示／出力部２０６は、構造変異検出結果１１３と、判定に利用したシード配列Ｓ及び延長配列のアラインメント結果をＧＵＩ１０８として表示／出力装置１０６に表示させることで、ユーザに提示する。

＜マッピングに失敗する確率と実際に失敗した頻度について＞
　マッピング失敗確率評価部２２２が確率モデルに基づいてマッピングに失敗する確率を計算する方法、及び、変異領域候補抽出部２１３がマッピングに失敗する確率と実際にマッピングに失敗した頻度とを比較して、実際にマッピングに失敗した頻度が有意に大きいか否かを判定する方法について説明する。

　上述のように、ペア末端マッピング部２１１においても、リード配列抽出部２１４においても、リード配列内のＭＬＲＵに等しい長さの部分配列が用いられる。ヒトゲノムのＭＬＲＵの典型的な長さは２０～３０程度である。ペア末端マッピング部２１１においては、マッピングが成功するための条件は、図５を用いて説明したように、部分配列全体が標準ゲノム配列内の部分配列と完全一致することである。したがって、リード配列内にＤＮＡシーケンシングの際の塩基読み取りエラーが含まれていれば、マッピングに失敗する。部分配列内に生じる塩基読み取りエラーの数は二項分布で近似でき、通常、１塩基当たりのエラー率は０．０１（１％）程度である。したがって、ＭＬＲＵをｍとし、１塩基当たりのエラー率をｅとすれば、変異が存在しない場合に１本のリード配列がマッピングに失敗する確率ｐは、以下の［式１］で与えられる。

　したがって、変異が存在しない場合に、ｎ本のリード配列中ｒ本以上がマッピングに失敗する確率Ｅ（ｒ／ｎ）は、以下の［式２］で与えられる。

　マッピング失敗頻度評価部２２１により、標準ゲノム配列の座標Ｘの位置で整合ペアＡＰの頻度ＡＰ（Ｘ）と不完全マップペアＩＰの頻度ＩＰ（Ｘ）が得られたとき、ｎ＝ＡＰ（Ｘ）＋ＩＰ（Ｘ）とし、ｒ＝ＩＰ（Ｘ）とすると、実際にマッピングに失敗した頻度ＲＩＰ（Ｘ）はｒ／ｎに等しい。このとき、［式２］で計算されたマッピングに失敗する確率Ｅ（ｒ／ｎ）は、実際には変異がないにもかかわらず、ｎ本中ｒ本以上のリード配列のマッピングが失敗する確率を表す。そこで、変異領域候補抽出部２１３は、αを誤り率（ＧＵＩ１０８を通じてユーザにより指定される処理パラメータ２１８の一つであり、通常１～５％程度）として、マッピングに失敗する確率Ｅ（ｒ／ｎ）が誤り率α未満になるとき、マッピングに失敗した頻度がマッピングに失敗する確率（確率モデルに基づき計算される）と比較して有意に大きいと判定する。これにより、実際には変異が存在しない場合に、マッピングに失敗した頻度がマッピングに失敗する確率と比較して有意に大きいと判定されることにより誤った変異領域の候補が抽出される確率は、α以下となる。

＜第１の実施形態のまとめ＞
　以上のように、第１の実施形態における個人ゲノム（個体ゲノム）の構造変異検出方法は、コンピュータ１００のＣＰＵ１０１（プロセッサ）により実行され、入力部２０５により、標準ゲノム配列データ１１１を受信することと、マッピング失敗確率評価部２２２により、標準ゲノム配列データ１１１（標準ゲノム配列Ｇ）の各位置（座標Ｘ）において、変異がないと仮定した場合にマッピングに失敗する確率を評価することと、入力部２０５により、個人ゲノムのリード配列データ１１２を受信することと、ペア末端マッピング部２１１により、リード配列データ１１２のそれぞれの末端を標準ゲノム配列データ１１１上にマッピングすることと、マッピング失敗頻度評価部２２１により、標準ゲノム配列データ１１１の各位置でリード配列データ１１２の末端のマッピングに失敗した頻度を評価することと、変異領域候補抽出部２１３により、標準ゲノム配列データ１１１の各位置において、マッピングに失敗した頻度がマッピングに失敗する確率と比較して有意に大きいか否かを判定することと、変異領域候補抽出部２１３により、標準ゲノム配列データ１１１上で、マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、表示／出力部２０６により、変異領域候補を構造変異の検出結果として出力することと、を含む。

　このように、変異がないと仮定してマッピングに失敗する確率を評価し、従来は用いられていない情報であるマッピングに失敗した頻度を調べ、上記確率に合わないほど多数の失敗があった場合に、何らかの異常が生じたことを示す証拠だと考えて、その領域に構造変異が生じていると判定する。これにより、インサート長を超える長さの挿入変異がある可能性がある領域を抽出することができる。

　また、第１の実施形態に係る個人ゲノムの構造変異検出方法は、リード配列抽出部２１４により、変異領域候補から標準ゲノム配列データの部分配列であるシード配列Ｓを取り出し、シード配列Ｓを含むリード配列データを抽出することと、アラインメント部２１５により、標準ゲノム配列データとリード配列データとを共通のシード配列Ｓを揃えて隣接する延長配列までアラインメントすることと、ブレークポイント抽出部２１６により、延長配列において、リード配列データ及び標準ゲノム配列データの編集距離と延長配列の長さとの比が所定の値以上である場合、そのリード配列データは構造変異に由来すると判定することと、ブレークポイント抽出部２１６により、構造変異に由来すると判定されたリード配列データの割合（変異率）を、ホモ型の変異の場合は１と比較し、ヘテロ型の変異の場合は０．５と比較してホモ型又はヘテロ型の変異の有無を判定することと、含む。

　これにより、挿入配列長がインサート長より小さいか否かに関わらず、挿入変異に伴うブレークポイントを検出でき、また、挿入配列の一部を取得することができる。構造変異などの異常が生じていなければ、個人ゲノムの配列データを用いて計算したペアの片方でマッピングに失敗した相対頻度は、標準ゲノム配列のみから計算したマッピングに失敗する確率にほぼ等しいはずであるが、これらの不一致を検出することにより、変異候補領域を絞り込める。それにより、アラインメントを用いてブレークポイント検出処理を行うゲノム領域を限定でき、計算コストを抑える効果が得られる。

［第２の実施形態］
　第１の実施形態では、ショートリード型のＤＮＡシーケンサで得られた個人ゲノムの配列データを用いて個人ゲノムの構造変異検出を行い、ブレークポイントの位置を塩基単位で詳細に決定する方法を示した。本開示の第２の実施形態では、ショートリード型のＤＮＡシーケンサで得られた配列データを用いて変異領域候補を求め、その結果を出力するにとどめる方法を提案する。

＜構造変異検出システム＞
　図１０は、第２の実施形態に係る構造変異検出システム２の機能ブロック図である。本実施形態の構造変異検出システム２は、第１の実施形態の構造変異検出システム１の構成（図２）から必要なものを抜き出したものであり、第１の実施形態と同じ構成には同様の符号を付しており、その説明を省略する。標準ゲノム配列辞書作成部２０１、ＭＬＲＵ計算部２０２、入力部２０５、表示／出力部２０６、ペア末端マッピング部２１１、ペア分類部２１２、変異領域候補抽出部１０１３、マッピング失敗頻度評価部２２１及びマッピング失敗確率評価部２２２を有する。変異領域候補抽出部１０１３は、変異領域の候補を一度に全て抽出する点で、第１の実施形態の変異領域候補抽出部２１３（変異領域の候補を一つずつ抽出する）と異なっている。

＜構造変異検出方法＞
　図１１は、第２の実施形態に係る構造変異検出システム２の処理全体を示すフローチャートである。第１の実施形態と同様の処理には同様の符号を付しており、その説明を省略する。

（ステップ３０１及び３０２）
　入力部２０５は、第１の実施形態と同様にステップ３０１及び３０２を実行する。

（ステップ１１０３）
　標準ゲノム配列辞書作成部２０１は、公知の方法（非特許文献５）を利用して標準ゲノム配列ＧのＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換（ＦＭインデクス）を計算し、その結果を標準ゲノム配列辞書データ１２１とする。標準ゲノム配列辞書作成部２０１は、生成した標準ゲノム配列辞書データ１２１を記憶装置１０３に格納する。

（ステップ３０４～３０７）
　第１の実施形態と同様にステップ３０４～３０７が実行される。

（ステップ１１０８）
　マッピング失敗頻度評価部２２１は、実際にマッピングに失敗した頻度を、整合ペアＡＰと不完全マップペアＩＰの頻度の合計に対する不完全マップペアＩＰの相対頻度として計算する。また、マッピング失敗確率評価部２２２は、マッピングに失敗する確率を、処理パラメータ２１８の一つである塩基読み取りエラー率と標準ゲノムＭＬＲＵデータ１２２とを用いて、二項分布の確率モデルに基づいて計算する。

　変異領域候補抽出部１０１３は、マッピング失敗頻度評価部２２１から実際にマッピングに失敗した頻度の入力を受け付け、マッピング失敗確率評価部２２２からマッピングに失敗する確率の入力を受け付ける。そして、変異領域候補抽出部１０１３は、標準ゲノム配列Ｇ上を走査（スキャン）して、実際にマッピングに失敗した頻度がマッピングに失敗する確率よりも有意に高い領域を変異領域の候補として全て抽出する。

　変異領域候補抽出部１０１３は、抽出した変異領域の候補を構造変異検出結果１１３として出力し、処理を終了する。変異領域候補抽出部１０１３は、構造変異検出結果１１３を表示／出力部２０６に出力して、ＧＵＩ１０８として表示してもよい。

　本実施形態では、変異領域候補の出力結果は次のように利用することができる。公知の方法（ＰＣＲ法やハイブリダイゼーション法）を利用して、個人ゲノムのＤＮＡサンプルの中から変異領域候補を含むＤＮＡ断片を増幅又は濃縮したサンプルを調整し、ロングリード型のＤＮＡシーケンサ（スループットは低いが数キロ塩基から数十キロ塩基程度の長い配列の塩基を直接読み取ることができるシーケンサ）を用いて、構造変異配列を直接読み取ることにより、構造変異解析を行う。

［変形例］
　本開示は、上述した実施形態に限定されるものでなく、様々な変形例を含んでいる。例えば、上述した実施形態は、本開示を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備える必要はない。また、ある実施形態の一部を他の実施形態の構成に置き換えることができる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の実施形態の構成の一部を追加、削除又は置換することもできる。

１００…コンピュータ
１０１…ＣＰＵ
１０２…メモリ
１０３…記憶装置
１０４…ネットワークインタフェース
１０５…入力装置
１０６…表示／出力装置

Claims

　コンピュータのプロセッサにより実行される個体ゲノムの構造変異検出方法であって、
　前記プロセッサにより、標準ゲノム配列データを受信することと、
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算することと、
　前記プロセッサにより、個体ゲノムのリード配列データを受信することと、
　前記プロセッサにより、前記リード配列データのそれぞれの末端を前記標準ゲノム配列データ上にマッピングすることと、
　前記プロセッサにより、前記標準ゲノム配列データの各位置で前記リード配列データの末端のマッピングに失敗した頻度を計算することと、
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいか否かを判定することと、
　前記プロセッサにより、前記標準ゲノム配列データ上で、前記マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、
　前記プロセッサにより、前記変異領域候補を構造変異の検出結果として出力することと、を含む個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記変異領域候補から前記標準ゲノム配列データの部分配列であるシード配列を取り出し、前記シード配列を含む前記リード配列データを抽出することと、
　前記プロセッサにより、前記標準ゲノム配列データと前記リード配列データとを共通の前記シード配列を揃えて隣接する延長配列までアラインメントすることと、
　前記プロセッサにより、前記延長配列において、前記リード配列データ及び前記標準ゲノム配列データの編集距離と前記延長配列の長さとの比が所定の値以上である場合、そのリード配列データは構造変異に由来すると判定することと、
　前記プロセッサにより、前記構造変異に由来すると判定された前記リード配列データの割合を、ホモ型の変異の場合は１と比較し、ヘテロ型の変異の場合は０．５と比較してホモ型又はヘテロ型の変異の有無を判定することと、をさらに含む請求項１に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサは、前記リード配列データのＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒ変換を利用して、前記シード配列を含む前記リード配列データを抽出する請求項２に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で一意的になる最小の長さを求めることをさらに含み、
　前記プロセッサは、前記マッピングに失敗する確率を、前記最小の長さの中に塩基読み取りエラーが１個以上生じる確率として計算する請求項１に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で１個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
　前記プロセッサは、前記マッピングに失敗する確率を、前記最小の長さの中に塩基読み取りエラーが１個以上生じる確率として計算する請求項１に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で一意的になる最小の長さ、又は、１個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
　前記プロセッサは、前記リード配列データの末端が前記マッピングに成功するための条件を、
　前記リード配列データの末端から切り出した部分配列が、前記最小の長さの前記標準ゲノム配列データの部分配列と完全一致することとする請求項２に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で一意的になる最小の長さ、又は、１個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
　前記プロセッサは、前記シード配列と前記延長配列の長さを前記最小の長さとする請求項２に記載の個体ゲノムの構造変異検出方法。
　前記ホモ型又はヘテロ型の変異があると判定された場合に、
　前記プロセッサにより、前記構造変異に由来すると判定された前記リード配列データに含まれる前記延長配列が前記個体ゲノムの前記構造変異で生じた挿入配列の一部であると判定することと、
　前記プロセッサにより、前記構造変異のブレークポイントが前記標準ゲノム配列データ上で前記シード配列と前記延長配列との境界の位置にあると判定することと、
　前記プロセッサにより、前記挿入配列の一部であるとの判定結果及び前記ブレークポイントの位置を出力することと、をさらに含む請求項２に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、表示画面として、前記変異領域候補の周辺で、前記標準ゲノム配列データの座標軸上に沿って、前記リード配列データの末端の前記マッピングに成功した頻度と失敗した頻度とをプロット表示することをさらに含む請求項１に記載の個体ゲノムの構造変異検出方法。
　前記マッピングに失敗した頻度を計算することは、
　前記プロセッサにより、前記リード配列データの末端のペアを整合ペア、非整合ペア、不完全マップペア及びマッピング不能ペアのうちいずれかに分類することを含み、
　前記不完全マップペアは、前記ペアの一方のみで前記マッピングに成功したペアであり、
　前記プロセッサは、前記マッピングに失敗した頻度を、前記整合ペアの頻度と前記不完全マップペアの頻度の合計に対する前記不完全マップペアの相対頻度として計算する請求項１に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、塩基読み取りエラー率の入力を受け付けることをさらに含み、
　前記プロセッサは、前記塩基読み取りエラー率の条件下で前記マッピングに失敗する確率を計算する請求項１に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で１個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
　前記プロセッサは、前記塩基読み取りエラー率と前記最小の長さとを用いた確率モデルに基づいて、前記マッピングに失敗する確率を計算する請求項１１に記載の個体ゲノムの構造変異検出方法。
　前記プロセッサにより、前記マッピングに失敗する確率についての所定の誤り率の入力を受け付けることをさらに含み、
　前記プロセッサは、前記マッピングに失敗する確率が前記誤り率未満になるとき、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいと判定する請求項１に記載の個体ゲノムの構造変異検出方法。
　プロセッサと、前記プロセッサにより実行されるプログラムを格納するメモリと、を備える個体ゲノムの構造変異検出装置であって、
　前記プロセッサは、
　標準ゲノム配列データを受信する処理と、
　前記標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算する処理と、
　個体ゲノムのリード配列データを受信する処理と、
　前記リード配列データのそれぞれの末端を前記標準ゲノム配列データ上にマッピングする処理と、
　前記標準ゲノム配列データの各位置で前記リード配列データの末端のマッピングに失敗した頻度を計算する処理と、
　前記標準ゲノム配列データの各位置において、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいか否かを判定する処理と、
　前記標準ゲノム配列データ上で、前記マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出する処理と、
　前記変異領域候補を構造変異の検出結果として出力する処理と、を実行する、個体ゲノムの構造変異検出装置。