WO2019054326A1

WO2019054326A1 - コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル

Info

Publication number: WO2019054326A1
Application number: PCT/JP2018/033424
Authority: WO
Inventors: 成樹谷嶋; 涼毛利; 圭佑酒寄; 広史西原; 明夏湯澤
Original assignee: 三菱スペース・ソフトウエア株式会社; 国立大学法人北海道大学
Priority date: 2017-09-13
Filing date: 2018-09-10
Publication date: 2019-03-21
Also published as: SG11202001768WA; JP7072825B2; US20200286583A1; TWI694464B; JP2019053395A; TW201921276A

Abstract

位置特定部（１１０）は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する。頻度算出部（１２０）は、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する。距離算出部（１３０）は、対象遺伝子毎に、マッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する。係数算出部（１４０）は、対象遺伝子毎の特徴距離を用いて補正係数を算出する。コピー数算出部（１５０）は、腫瘍サンプルにおける対象遺伝子毎のコピー数と補正係数とを用いて、がん細胞における対象遺伝子毎のコピー数を算出する。

Description

コピー数計測装置、コピー数計測プログラム、コピー数計測方法および遺伝子パネル

　本発明は、ターゲットシークエンスにおいて正確なコピー数を計測するための技術に関するものである。

　がん患者の遺伝子の変異を調べて最適な治療を行うクリニカルシークエンスというサービスが存在する。
　シークエンスとは、遺伝物質の塩基を読み取り、遺伝物質の遺伝情報を示す配列を知ることである。
　シークエンスの種類には、全ゲノムシークエンス、全エクソームシークエンスおよびターゲットシークエンスが存在する。
　全ゲノムシークエンスは、遺伝子が無い領域も含めてゲノム全体に対して行うシークエンスである。
　全エクソームシークエンスは、遺伝子領域に対して行うシークエンスである。
　ターゲットシークエンスは、一部の遺伝子に対して行うシークエンスである。具体的には、ターゲットシークエンスは、がんに関連する遺伝子に対して行われる。

　がん患者の状態は悪化するので、検査結果が短期間に得られることが望ましい。また、クリニカルシークエンスは保険収載されていないので、費用の全額が患者の自費負担となる。
　そのため、クリニカルシークエンスでは、日常的に行えるシークエンスであるターゲットシークエンスによる比較解析が行われる。これにより、時間の短縮および費用の削減を図ることができる。

　比較解析では、がんでない正常サンプルと腫瘍サンプルが用いられる。具体的には、がんでない正常サンプルとして血液が用いられ、腫瘍サンプルとして手術検体が用いられる。そして、正常サンプルの遺伝子配列と腫瘍サンプルの遺伝子配列との差異に基づいて、がん由来のＳＮＶ（Ｓｉｎｇｌｅ　Ｎｕｃｌｅｏｔｉｄｅ　Ｖａｒｉａｎｔ）およびＣＮＶ（Ｃｏｐｙ　Ｎｕｍｂｅｒ　Ｖａｒｉａｔｉｏｎ）が検出される。腫瘍サンプルの遺伝子配列を正常サンプルの遺伝子配列と比較することで、個人差に伴う変異を除外してがん由来の変異だけを知ることができる。比較解析は差分解析とも呼ばれる。

　ＣＮＶの検出が行われる前に、各サンプルから多数のリードが得られ、それぞれのリードがヒトゲノム配列にマッピングされる。
　ヒトゲノム配列において対象遺伝子の領域にマッピングされたリードの数は、実際の細胞において対象遺伝子を含んだ染色体の数と近似する。そのため、マッピングされたリードの数に基づいて、細胞内での染色体のコピー数を推定することができる。
　ＣＮＶの検出では、がん細胞における遺伝子の正規化されたリード数が正常細胞における遺伝子の正規化されたリード数よりも多い場合、その遺伝子ががん細胞内で増幅していると判断される。また、がん細胞における遺伝子のリード数が正常細胞における遺伝子のリード数よりも少ない場合、その遺伝子ががん細胞において減少していると判断される。
　通常、人の遺伝子のコピー数は２コピーである。そのため、基準の１．５倍の比率のリードが遺伝子の領域にマッピングされた場合、その遺伝子のコピー数が３コピーであると判断される。

　非特許文献１および非特許文献２は、マイクロアレイ解析に関する文献であり、ＬＲＲ（Ｌｏｇ　Ｒ　Ｒａｔｉｏ）とＢＡＦ（Ｂ　Ａｌｌｅｌｅ　Ｆｒｅｑｕｅｎｃｙ）との相関を開示している。
　非特許文献３は、１番染色体の短腕と１９番染色体の長腕とのそれぞれのコピー数が共に減少しているという現象が脳腫瘍の予後を左右する重要なファクターであることを開示している。

Ｃａｔｈｙ　Ｃ．Ｌ、ｅｔ　ａｌ．　Ｄｅｔｅｃｔａｂｌｅ　ｃｌｏｎａｌ　ｍｏｓａｉｃｉｓｍ　ｆｒｏｍ　ｂｉｒｔｈ　ｔｏ　ｏｌｄ　ａｇｅ　ａｎｄ　ｉｔｓ　ｒｅｌａｔｉｏｎｓｈｉｐ　ｔｏ　ｃａｎｃｅｒ、Ｎａｔｕｒｅ　Ｇｅｎｅｔｉｃｓ　Ｖｏｌｕｍｅ　４４、Ｊｕｎｅ　２０１２、ｐｐ．６４２－６５０Ｃ　Ａｌｋａｎ、ｅｔ　ａｌ．　Ｇｅｎｏｍｅ　Ｓｔｒｕｃｔｕｒａｌ　ｖａｒｉａｔｉｏｎ　ｄｉｓｃｏｖｅｒｙ　ａｎｄ　ｇｅｎｏｔｙｐｉｎｇ、Ｎａｔｕｒｅ　Ｒｅｖｉｅｗｓ　Ｇｅｎｅｔｉｃｓ　１２、Ｍａｙ　２０１１、ｐｐ．３６３－３７６Ｌｏｕｉｓ　ＤＮ、ｅｔ　ａｌ．　Ａｃｔａ　Ｎｅｕｒｏｐａｔｈｏｌ．　Ｊｕｎｅ　２０１６、１３１（６）：８０３－２０．ｄｏｉ：１０．１００７／ｓ００４０１－０１６－１５４５－１．

　ターゲットシークエンスにおけるＣＮＶの検出には以下のような課題がある。
　通常、ＣＮＶの検出では、それぞれの領域の正常細胞における遺伝子のリード数に対するがん細胞における遺伝子のリード数の比（以下「リード数比」という）のうち最も頻度が高いリード数比が２コピーの領域にマッピングされるリード数比として扱われる。
　ゲノム全体では、一部のコピー数が増減していても、その他の遺伝子のコピー数が２コピーであるため、コピー数の平均は２コピーである。つまり、ゲノム全体に対して行われる全ゲノムシークエンスの場合、２コピーの領域にマッピングされるリード数比の頻度が最も高い。したがって、通常のＣＮＶの検出によって、正確なコピー数を得ることができる。
　一方、がんに関連する遺伝子は増幅または減少しやすい。そのため、がんに関連する遺伝子に対して行われるターゲットシークエンスにおいては、コピー数の平均が２コピーでない可能性がある。つまり、ターゲットシークエンスの場合、２コピーの領域にマッピングされるリード数比の頻度が最も高いとは限らない。したがって、通常のＣＮＶの検出によって、正確なコピー数を得ることができない可能性がある。

　本発明は、ターゲットシークエンスにおいて正確なコピー数を得ることができるようにすることを目的とする。

　本発明のコピー数計測装置は、
　がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
　それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
　対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
　対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
　前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部とを備える。

　前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する。

　前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す。

　前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する。

　前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える。

　前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する。

　前記腫瘍サンプルが脳腫瘍のサンプルであり、
　前記対象遺伝子が、ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとの少なくともいずれかである。

　本発明のコピー数計測プログラムは、
　がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
　それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
　対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
　対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
　前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部としてコンピュータを機能させる。

　本発明のコピー数計測方法において、
　位置特定部が、がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定し、
　頻度算出部が、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出し、
　距離算出部が、対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出し、
　係数算出部が、対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出し、
　コピー数算出部が、前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出する。

　本発明の遺伝子パネルは、
　ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとを全て含む遺伝子セットを含む。

　本発明の遺伝子パネルは、
　ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとから成る遺伝子セットを含む。

　本発明の遺伝子パネルは、
　ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとの少なくともいずれかを含む遺伝子セットを含む。

　本発明によれば、ターゲットシークエンスにおいて正確なコピー数を得ることができる。

実施の形態１におけるコピー数計測装置１００の構成図。実施の形態１におけるコピー数計測方法のフローチャート。実施の形態１における位置特定処理（Ｓ１１０）のフローチャート。実施の形態１における変異位置の例を示す図。実施の形態１における頻度算出処理（Ｓ１２０）のフローチャート。実施の形態１における距離算出処理（Ｓ１３０）のフローチャート。実施の形態１におけるモデル生成処理（Ｓ１３２）のフローチャート。実施の形態１における散布グラフ２０１を示す図。実施の形態１における密度分布グラフ２０２を示す図。実施の形態１における相関グラフ２０３を示す図。実施の形態１における相関グラフ２０３の特徴距離を示す図。実施の形態１における関係モデル２１０を示す図。実施の形態１における関係モデル２１０に合致する計測点群を示す図。実施の形態１における関係モデル２１０に合致しない計測点群を示す図。実施の形態１における係数算出処理（Ｓ１４０）のフローチャート。実施の形態１における係数算出処理（Ｓ１４０）のフローチャート。実施の形態１におけるスコア算出処理（Ｓ１４４）のフローチャート。実施の形態１におけるコピー数算出処理（Ｓ１５０）のフローチャート。ゲノム全体のコピー数の例を示す図。１番染色体、１０番染色体および１９番染色体のコピー数の例を示す図。実施の形態２におけるコピー数計測装置１００の構成図。実施の形態２におけるコピー数計測方法のフローチャート。実施の形態２における含有率算出処理（Ｓ１６０）のフローチャート。

　実施の形態および図面において、同じ要素および対応する要素には同じ符号を付している。同じ符号が付された要素の説明は適宜に省略または簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。

　実施の形態１．
　ターゲットシークエンスにおいて正確なコピー数を得るための形態について、図１から図１８に基づいて説明する。

＊＊＊構成の説明＊＊＊
　図１に基づいて、コピー数計測装置１００の構成を説明する。
　コピー数計測装置１００は、プロセッサ９０１とメモリ９０２と補助記憶装置９０３といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。

　プロセッサ９０１は、演算処理を行うＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）であり、他のハードウェアを制御する。例えば、プロセッサ９０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、またはＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。
　メモリ９０２は揮発性の記憶装置である。メモリ９０２は、主記憶装置またはメインメモリとも呼ばれる。例えば、メモリ９０２はＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。メモリ９０２に記憶されたデータは必要に応じて補助記憶装置９０３に保存される。
　補助記憶装置９０３は不揮発性の記憶装置である。例えば、補助記憶装置９０３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、またはフラッシュメモリである。補助記憶装置９０３に記憶されたデータは必要に応じてメモリ９０２にロードされる。

　コピー数計測装置１００は、位置特定部１１０と頻度算出部１２０と距離算出部１３０と係数算出部１４０とコピー数算出部１５０と含有率算出部１６０といったソフトウェア要素を備える。ソフトウェア要素はソフトウェアで実現される要素である。

　補助記憶装置９０３には、位置特定部１１０と頻度算出部１２０と距離算出部１３０と係数算出部１４０とコピー数算出部１５０と含有率算出部１６０としてコンピュータを機能させるためのコピー数計測プログラムが記憶されている。コピー数計測プログラムは、メモリ９０２にロードされて、プロセッサ９０１によって実行される。
　さらに、補助記憶装置９０３にはＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）が記憶されている。ＯＳの少なくとも一部は、メモリ９０２にロードされて、プロセッサ９０１によって実行される。
　つまり、プロセッサ９０１は、ＯＳを実行しながら、コピー数計測プログラムを実行する。
　コピー数計測プログラムを実行して得られるデータは、メモリ９０２、補助記憶装置９０３、プロセッサ９０１内のレジスタまたはプロセッサ９０１内のキャッシュメモリといった記憶装置に記憶される。

　メモリ９０２はデータを記憶する記憶部１９１として機能する。但し、他の記憶装置が、メモリ９０２の代わりに、又は、メモリ９０２と共に、記憶部１９１として機能してもよい。

　コピー数計測装置１００は、プロセッサ９０１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ９０１の役割を分担する。

　コピー数計測プログラムは、磁気ディスク、光ディスクまたはフラッシュメモリ等の不揮発性の記憶媒体にコンピュータ読み取り可能に記憶することができる。不揮発性の記憶媒体は、一時的でない有形の媒体である。

＊＊＊動作の説明＊＊＊
　コピー数計測装置１００の動作はコピー数計測方法に相当する。また、コピー数計測方法の手順はコピー数計測プログラムの手順に相当する。

　コピー数計測方法は、がん細胞における対象遺伝子のコピー数を計測する方法である。
　対象遺伝子は、脳腫瘍の予後の予測に特化した遺伝子である。脳腫瘍の予後の予測に特化した遺伝子とは、１番染色体の短腕と１９番染色体の長腕とのそれぞれのコピー数が共に減少しているか判定できる領域に存在する遺伝子のうち、脳腫瘍との関連が知られている遺伝子である。
　具体的には、対象遺伝子は、ＡＴＲＸ、ＩＤＨ１、ＩＤＨ２、ＴＰ５３、ＴＥＲＴ、ＢＲＡＦ、ＰＤＧＦＲＡ、ＭＥＴ、ＥＧＦＲ、ＢＲＳＫ１、ＥＨＤ２、ＡＫＴ２、ＴＰ７３、ＮＭＮＡＴ１、ＴＧＦＢＲ３およびＰＴＥＮである。または、対象遺伝子はこれらの遺伝子のうちの一部である。

　実施の形態１における遺伝子パネルは、上記の対象遺伝子の少なくともいずれかを含む遺伝子セットを含む。
　具体的には、遺伝子セットは上記の対象遺伝子の全てを含む。特に、遺伝子セットは上記の対象遺伝子から成る。
　遺伝子パネルは、遺伝子の変異を解析するためのツールである。遺伝子パネルは、シーケンスパネルともいう。

　図２に基づいて、コピー数計測方法の手順を説明する。
　ステップＳ１１０において、位置特定部１１０は、対象遺伝子毎に対象位置を特定する。
　対象位置は、ヒトゲノム配列に対して変化している塩基のゲノム位置である。特に、有意に変化しているゲノム位置が対象位置となる。
　ゲノム位置は、ヒトゲノム配列における塩基の位置である。

　具体的には、位置特定部１１０は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングする。そして、位置特定部１１０は、対象遺伝子毎に、ヒトゲノム配列の中の対象遺伝子の領域にマッピングされた腫瘍サンプルリードをヒトゲノム配列の中の対象遺伝子の領域と比較して対象位置を特定する。
　複数の腫瘍サンプルリードは、腫瘍サンプルから得られた複数のリードである。
　腫瘍サンプルは腫瘍の一部である。具体的な腫瘍は脳腫瘍である。腫瘍サンプルには、がん細胞と正常な細胞とが含まれる。
　リードは、断片化された遺伝子配列であり、塩基の並びを示す文字列（塩基配列）で表される。

　図３に基づいて、位置特定処理（Ｓ１１０）の手順を説明する。
　ステップＳ１１１において、位置特定部１１０は、複数の腫瘍サンプルリードをヒトゲノム配列にマッピングする。
　複数の腫瘍サンプルリードは、ＤＮＡシークエンサーによって腫瘍サンプルから得られ、記憶部１９１に記憶されている。
　ＤＮＡシークエンサーによって得られるリードの数は数十万本である。リードの長さは１００塩基程度である。

　ステップＳ１１２において、位置特定部１１０は、複数の正常サンプルリードをヒトゲノム配列にマッピングする。
　正常サンプルは腫瘍以外の部分である。
　複数の正常サンプルリードは、ＤＮＡシークエンサーによって正常サンプルから得られ、記憶部１９１に記憶されている。

　ステップＳ１１３において、位置特定部１１０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１１４からステップＳ１１６までの処理は、ステップＳ１１３で選択された対象遺伝子に対して行われる。ヒトゲノム配列において対象遺伝子が存在する領域を対象領域という。

　ステップＳ１１４において、位置特定部１１０は、対象領域にマッピングされた腫瘍サンプルリードの塩基をヒトゲノム配列の中の対象領域の塩基と比較する。
　そして、位置特定部１１０は、比較結果に基づいて、腫瘍サンプルにおける複数の変異位置を特定する。
　変異位置は、ヒトゲノム配列に対して変化している塩基のゲノム位置である。つまり、変異位置は、ＳＮＶ（Ｓｉｎｇｌｅ　Ｎｕｃｌｅｏｔｉｄｅ　Ｖａｒｉａｎｔ）の塩基のゲノム位置である。
　変異位置を特定する方法は、ＳＮＶの塩基の位置を特定する従来の方法と同じである。

　図４に、ヒトゲノム配列に対して４つのリードがマッピングされた様子を示す。
　マッピングされたリードの中の塩基「Ａ」は、ヒトゲノム配列における塩基「Ｔ」と異なる。つまり、ヒトゲノム配列における塩基「Ｔ」に対して、マッピングされたリードの塩基は「Ａ」に変化している。
　したがって、ヒトゲノム配列における塩基「Ｔ」のゲノム位置は変異位置である。

　図３に戻り、ステップＳ１１５から説明を続ける。
　ステップＳ１１５において、位置特定部１１０は、対象領域にマッピングされた正常サンプルリードの塩基をヒトゲノム配列の中の対象領域の塩基と比較する。
　そして、位置特定部１１０は、比較結果に基づいて、正常サンプルにおける複数の変異位置を特定する。
　変異位置を特定する方法は、ＳＮＶの塩基の位置を特定する従来の方法と同じである。

　ステップＳ１１６において、位置特定部１１０は、腫瘍サンプルにおける複数の変異位置を正常サンプルにおける複数の変異位置と比較する。
　そして、位置特定部１１０は、比較結果に基づいて、腫瘍サンプルにおける複数の変異位置から有意な変異位置を選択する。有意な変異位置は、有意に変化している塩基の位置であり、対象位置として扱われる。
　具体的には、位置特定部１１０は、フィッシャー検定または他の検定を行う。

　ステップＳ１１７において、位置特定部１１０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１１１に進む。
　未選択の対象遺伝子が無い場合、位置特定処理（Ｓ１１０）は終了する。

　図２に戻り、ステップＳ１２０を説明する。
　ステップＳ１２０において、頻度算出部１２０は、それぞれの対象遺伝子の対象位置毎にＶＡＦ（変異アリル頻度）を算出する。

　図５に基づいて、頻度算出処理（Ｓ１２０）の手順を説明する。
　ステップＳ１２１において、頻度算出部１２０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１２２からステップＳ１２６までの処理は、ステップＳ１２１で選択された対象遺伝子に対して行われる。

　ステップＳ１２２において、頻度算出部１２０は、未選択の対象位置を１つ選択する。

　ステップＳ１２３からステップＳ１２５において、対象遺伝子はステップＳ１２１で選択された対象遺伝子を意味し、対象位置はステップＳ１２２で選択された対象位置を意味する。

　ステップＳ１２３において、頻度算出部１２０は、マッピングリード数を数える。
　マッピングリード数は、複数の腫瘍サンプルリードのうち、対象位置を含む領域にマッピングされたリードの数である。
　マッピングリード数は、シークエンスｄｅｐｔｈと呼ばれる。

　ステップＳ１２４において、頻度算出部１２０は、変異リード数を数える。
　変異リード数は、対象位置にマッピングされたリードのうち、対象位置の塩基がヒトゲノム配列における塩基と異なるリードの数である。

　ステップＳ１２５において、頻度算出部１２０は、マッピングリード数に対する変異リード数の割合を算出する。算出される割合がＶＡＦである。

　ステップＳ１２６において、頻度算出部１２０は、未選択の対象位置が有るか判定する。
　未選択の対象位置が有る場合、処理はステップＳ１２２に進む。
　未選択の対象位置が無い場合、処理はステップＳ１２７に進む。

　ステップＳ１２７において、頻度算出部１２０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１２１に進む。
　未選択の対象遺伝子が無い場合、頻度算出処理（Ｓ１２０）は終了する。

　図２に戻り、ステップＳ１３０を説明する。
　ステップＳ１３０において、距離算出部１３０は、対象遺伝子毎に特徴距離を算出する。
　特徴距離は、ＶＡＦ（変異アリル頻度）に対するマッピングリード数の密度を示す密度分布においてピーク密度に対応するＶＡＦと基準のＶＡＦ（＝０．５）との差に相当する値である。また、特徴距離は、非特許文献１に記載されている｜ＢＡＦ　ｄｅｖｉａｔｉｏｎ　ｆｒｏｍ　０．５｜に相当する。
　マッピングリード数は、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数を意味する。

　図６に基づいて、距離算出処理（Ｓ１３０）の手順を説明する。
　ステップＳ１３１において、距離算出部１３０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１３２およびステップＳ１３３において、対象遺伝子はステップＳ１３１で選択された対象遺伝子を意味する。

　ステップＳ１３２において、距離算出部１３０は、ＶＡＦモデルを生成する。
　ＶＡＦモデルは、ピーク密度に対応するＶＡＦを特定するためのグラフである。

　図７に基づいて、モデル生成処理（Ｓ１３２）の手順を説明する。
　ステップＳ１３２１において、距離算出部１３０は、対象位置毎のＶＡＦと対象位置毎のマッピングリード数との関係を示す散布グラフを生成する。

　図８に、散布グラフ２０１を示す。散布グラフ２０１は散布グラフの一例である。
　散布グラフ２０１において、横軸はＶＡＦを示し、縦軸はマッピングリード数を示す。
　散布グラフ２０１は、０．４に近いＶＡＦに対応する対象位置に多くの腫瘍サンプルリードがマッピングされたことを示している。また、散布グラフ２０１は、０．６に近いＶＡＦに対応する対象位置にも、ある程度の数の腫瘍サンプルリードがマッピングされたことを示している。

　ステップＳ１３２２において、距離算出部１３０は、散布グラフを密度分布グラフに変換する。密度分布グラフは、ＶＡＦとマッピング密度との関係を示す。
　マッピング密度は、ＶＡＦに対するマッピングリード数の密度である。

　図９に、密度分布グラフ２０２を示す。密度分布グラフ２０２は、図８の散布グラフ２０１を変換することによって得られる密度分布グラフである。
　密度分布グラフ２０２において、横軸はＶＡＦを示し、縦軸はマッピング密度を示す。
　密度分布グラフ２０２は、０．４に近いＶＡＦに対応するマッピング密度が高いことを示している。また、密度分布グラフ２０２は、０．６に近いＶＡＦに対応するマッピング密度も、ある程度高いことを示している。

　ステップＳ１３２３において、距離算出部１３０は、密度分布グラフを用いて、相関グラフを生成する。生成される相関グラフがＶＡＦモデルである。
　相関グラフは、密度分布グラフの下位領域と密度分布グラフの上位領域との相関を示す。下位領域は基準のＶＡＦ（＝０．５）以下の領域であり、上位領域は基準のＶＡＦ以上の領域である。
　具体的には、相関グラフは、下位領域と上位領域とにおいて基準のＶＡＦとの差の絶対値が等しいＶＡＦ同士の密度の相関を示す。

　距離算出部１３０は、以下のように相関グラフを生成する。
　まず、距離算出部１３０は、密度分布グラフにおいて基準のＶＡＦ（＝０．５）を対象軸にして上位領域（ＶＡＦ＞０．５）のグラフを下位領域（ＶＡＦ＜０．５）のグラフに線対称に写像する。
　次に、距離算出部１３０は、下位領域において、元のグラフと写像されたグラフとの相関を示す相関値を求める。
　次に、距離算出部１３０は、下位領域において、ＶＡＦと相関値との関係を示す相関グラフを生成する。
　そして、距離算出部１３０は、基準のＶＡＦを対象軸にして、下位領域を上位領域に線対称に写像する。

　図１０に、相関グラフ２０３を示す。相関グラフ２０３は、図９の密度分布グラフ２０２を用いて生成される相関グラフ（ＶＡＦモデル）である。
　相関グラフ２０３において、横軸はＶＡＦを示し、縦軸は相関値を示す。
　相関グラフ２０３は、０．４に近いＶＡＦに対応する相関値および０．６に近いＶＡＦに対応する相関値が相関値のピークであることを示している。

　図６に戻り、ステップＳ１３３から説明を続ける。
　ステップＳ１３３において、距離算出部１３０は、ＶＡＦモデルを用いて特徴距離を算出する。
　具体的には、距離算出部１３０は、ＶＡＦモデル（相関グラフ）においてピーク相関値に対応するＶＡＦ（変異アリル頻度）と基準のＶＡＦ（＝０．５）との差の絶対値を算出する。算出される絶対値が特徴距離である。
　ピーク相関値は、ＶＡＦモデルにおける相関値のピークである。
　ピーク相関値が複数有る場合、距離算出部１３０は、最大のピーク相関値に対応するＶＡＦを用いて特徴距離を求める。

　例えば、距離算出部１３０は、ピーク相関値に対応するＶＡＦを以下のように特定する。
　距離算出部１３０は、対象ＶＡＦを変化させながら、対象ＶＡＦと低ＶＡＦと高ＶＡＦとの組毎に以下の処理を行う。低ＶＡＦは対象ＶＡＦより一定値だけ小さいＶＡＦであり、高ＶＡＦは対象ＶＡＦより一定値だけ大きいＶＡＦである。
　まず、距離算出部１３０は、低ＶＡＦの相関値と対象ＶＡＦの相関値とを結ぶ第１直線を求める。さらに、距離算出部１３０は、対象ＶＡＦの相関値と高ＶＡＦの相関値とを結ぶ第２直線を求める。
　次に、距離算出部１３０は、第１直線の傾きと第２直線の傾きとを求める。
　次に、距離算出部１３０は、第１直線の傾きの符号を第２直線の傾きの符号と比較する。
　そして、第１直線の傾きの符号が第２直線の傾きの符号と異なる場合、距離算出部１３０は、対象ＶＡＦを選択する。選択される対象ＶＡＦがピーク相関値に対応するＶＡＦである。

　図１１に、相関グラフ２０３における特徴距離を示す。｜０．５－ＶＡＦ｜が特徴距離を示している。
　相関グラフ２０３において、ピーク相関値に対応するＶＡＦは約０．４および約０．６である。したがって、特徴距離は約０．１である。

　ステップＳ１３４において、距離算出部１３０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１３１に進む。
　未選択の対象遺伝子が無い場合、処理はステップＳ１３５に進む。

　ステップＳ１３５において、距離算出部１３０は、対象染色体毎に特徴距離を算出する。
　対象染色体は、１番染色体、１０番染色体および１９番染色体である。
　対象染色体の特徴距離を算出する方法は、対象遺伝子の特徴距離を算出する方法と同様である。

　図２に戻り、ステップＳ１４０を説明する。
　ステップＳ１４０において、係数算出部１４０は、対象遺伝子毎の特徴距離を用いて、補正係数を算出する。
　補正係数は、腫瘍サンプルにおける対象遺伝子（および対象染色体）のコピー数を補正するための係数である。
　腫瘍サンプルにおける対象遺伝子（および対象染色体）のコピー数を補正係数を用いて補正することにより、がん細胞における対象遺伝子（および対象染色体）のコピー数を得ることができる。

　図１２に、関係モデル２１０を示す。
　関係モデル２１０は、特徴距離とコピー数のＬＲＲ（Ｌｏｇ　Ｒ　Ｒａｔｉｏ）との関係を示す。｜０．５－ＶＡＦ｜が特徴距離を示している。
　ＬＲＲは、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合を対数で表した値である。

　ＬＲＲは、以下の式で表すことができる。
　ＬＲＲ＝ｌｏｇ_２（ｔｕｍｏｒ／ｎｏｒｍａｌ）
　ｔｕｍｏｒはがん細胞における遺伝子のコピー数であり、ｎｏｒｍａｌは正常細胞における遺伝子のコピー数である。ｎｏｒｍａｌの値は２である。
　ｔｕｍｏｒが２である場合、ＬＲＲは０であり、遺伝子の状態はＵＰＤ（Ｕｎｉｐａｒｅｎｔａｌ　ｄｉｓｏｍｙ）である可能性がある。ＵＰＤは、母親由来または父親由来の遺伝子のみが２コピーとなり、ヘテロ性が失われている状態である。
　ｔｕｍｏｒが２未満である場合、ＬＲＲは負の値であり、遺伝子の状態はＬＯＳＳである。ＬＯＳＳは遺伝子が減少している状態である。
　ｔｕｍｏｒが２より大きい場合、ＬＲＲは正の値であり、遺伝子の状態はＡＭＰである。ＡＭＰは遺伝子が増幅している状態である。

　非特許文献１に記載のように、特徴距離とコピー数のＬＲＲとが関係モデル２１０に合致することが知られている。
　がん細胞における遺伝子の特徴距離とがん細胞における遺伝子のＬＲＲとを計測すると、図１３に示すようなグラフが得られる。各バツ印は計測点を示している。

　例えば、腫瘍サンプルにおける対象遺伝子の特徴距離と腫瘍サンプルにおける対象遺伝子のＬＲＲとを計測した結果、図１４に示すようなグラフが得られたものと仮定する。腫瘍サンプルにおける対象遺伝子のＬＲＲは、正常サンプルにおける対象遺伝子のコピー数に対する腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値である。
　補正係数は、関係モデル２１０に対する計測点群のずれ量に相当する。つまり、補正係数を用いて計測点群を補正すると、図１３に示すように計測点群が関係モデル２１０に合致する。

　図１５および図１６に基づいて、係数算出処理（Ｓ１４０）の手順を説明する。
　ステップＳ１４１－１（図１５参照）において、係数算出部１４０は、対象遺伝子毎にＬＲＲを算出する。さらに、係数算出部１４０は、対象染色体毎にＬＲＲを算出する。
　算出されるＬＲＲは、正常サンプルにおける対象遺伝子（または対象染色体）のコピー数に対する腫瘍サンプルにおける対象遺伝子（または対象染色体）のコピー数の割合の対数値である。

　対象遺伝子（または対象染色体）のＬＲＲは、ヒトゲノム配列の中の対象遺伝子（または対象染色体）の領域にマッピングされた腫瘍サンプルリードと正常サンプルリードとの数の割合に基づいて算出される。ＬＲＲを算出する方法は従来技術である。

　ステップＳ１４１－２において、係数算出部１４０は、対象遺伝子毎に仮コピー数を算出する。さらに、係数算出部１４０は、対象染色体毎に仮コピー数を算出する。
　仮コピー数は、腫瘍サンプルにおける対象遺伝子（または対象染色体）のコピー数に相当する。

　具体的には、係数算出部１４０は、対象遺伝子（または対象染色体）のＬＲＲに基づいて仮コピー数式を選択し、選択された仮コピー数式を対象遺伝子（または対象染色体）の特徴距離を用いて計算する。これにより、対象遺伝子（または対象染色体）の仮コピー数が算出される。仮コピー数式は仮コピー数を求めるための式である。
　以下に示す各仮コピー数式において、ＣＮ_ｔは対象遺伝子（または対象染色体）の仮コピー数であり、｜０．５－ＶＡＦ｜は対象遺伝子（または対象染色体）の特徴距離である。

　ＬＲＲが正の値である場合の仮コピー数式は以下の通りである。
　ＣＮ_ｔ＝１／（０．５－｜０．５－ＶＡＦ｜）

　ＬＲＲがゼロである場合の仮コピー数式は以下の通りである。
　ＣＮ_ｔ＝２．０

　ＬＲＲが負の値である場合の仮コピー数式は以下の通りである。
　ＣＮ_ｔ＝１／（０．５＋｜０．５－ＶＡＦ｜）

　ステップＳ１４２において、係数算出部１４０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１４３からステップＳ１４５－２までの処理は、ステップＳ１４２で選択された対象遺伝子に対して行われる。

　ステップＳ１４３において、係数算出部１４０は、対象遺伝子の仮コピー数を用いて、仮係数を算出する。
　具体的には、係数算出部１４０は、以下の式を計算することによって、対象遺伝子の仮係数Ｃ_ｔを算出する。ＣＮ_ｔは対象遺伝子の仮コピー数である。
　Ｃ_ｔ　＝　２．０　／　ＣＮ_ｔ

　ステップＳ１４４において、係数算出部１４０は距離スコアを算出する。

　図１７に基づいて、スコア算出処理（Ｓ１４４）の手順を説明する。
　ステップＳ１４４－１において、係数算出部１４０は、１番染色体と１０番染色体と１９番染色体との３つの対象染色体から、未選択の対象染色体を１つ選択する。

　ステップＳ１４４－２からステップＳ１４４－５までの処理は、ステップＳ１４４－１で選択された対象染色体に対して行われる。

　ステップＳ１４４－２において、係数算出部１４０は、対象染色体のＬＲＲに基づいて座標式を選択する。座標式は座標値を求めるための式である。
　ＡＭＰ用の式とＵＰＤ用の式とＬＯＳＳ用の式との３種類の座標式が有る。
　ＡＭＰは遺伝子の増幅を意味する。
　ＵＰＤは遺伝子の片親性ダイソミーを意味する。
　ＬＯＳＳは遺伝子の欠損を意味する。

　具体的には、係数算出部１４０は座標式を以下のように選択する。
　対象染色体のＬＲＲが正の値である場合、係数算出部１４０はＡＭＰ用の式を選択する。
　対象染色体のＬＲＲがゼロである場合、係数算出部１４０はＵＰＤ用の式を選択する。
　対象染色体のＬＲＲが負の値である場合、係数算出部１４０はＬＯＳＳ用の式を選択する。

　ステップＳ１４４－３において、係数算出部１４０は、選択された座標式を計算することによって、座標値を算出する。
　具体的には、係数算出部１４０は、仮係数と対象染色体の仮コピー数とを用いて座標式を計算する。
　以下に示す各座標式において、ＣＮ_ｔは対象染色体の仮コピー数であり、Ｃ_ｔは仮係数であり、｜０．５－ＶＡＦ｜は対象染色体の特徴距離である。そして、（ｘ，ｙ）が座標値である。

　ＡＭＰ用の式は以下の通りである。
　ｘ＝０．５－１／（ＣＮ_ｔ×Ｃ_ｔ）
　ｙ＝１／（０．５－｜０．５－ＶＡＦ｜）

　ＵＰＤ用の式は以下の通りである。
　ｘ＝｜０．５－ＶＡＦ｜
　ｙ＝ＣＮ_ｔ×Ｃ_ｔ

　ＬＯＳＳ用の式は以下の通りである。
　ｘ＝１／（ＣＮ_ｔ×Ｃ_ｔ）－０．５
　ｙ＝１／（０．５＋｜０．５－ＶＡＦ｜）

　ステップＳ１４４－４において、係数算出部１４０は、算出された座標値を用いて、Ｘ方向における距離値とＹ方向における距離値とを算出する。

　具体的には、係数算出部１４０は、以下の式を計算することによって、Ｘ方向における距離値Ｘ％とＹ方向における距離値Ｙ％とを算出する。
　Ｘ％＝｜｜０．５－ＶＡＦ｜－ｘ｜／ｘ
　Ｙ％＝｜ＣＮｔ×Ｃｔ－ｙ｜／｜２－ｙ｜

　ステップＳ１４４－５において、係数算出部１４０は、Ｘ方向における距離値とＹ方向における距離値とを用いて、個別スコアを算出する。

　具体的には、係数算出部１４０は、以下の式を計算することによって、個別スコアＳｃｏｒｅ_ｎを算出する。ｍ＾２はｍの二乗を意味する。
　Ｓｃｏｒｅ_ｎ＝Ｘ％＾２＋Ｙ％＾２

　ステップＳ１４４－６において、係数算出部１４０は、未選択の対象染色体が有るか判定する。
　未選択の対象染色体が有る場合、処理はステップＳ１４４－１に進む。
　未選択の対象染色体が無い場合、処理はステップＳ１４４－７に進む。

　ステップＳ１４４－７において、係数算出部１４０は、個別スコアの合計を算出する。個別スコアの合計が距離スコアである。

　具体的には、係数算出部１４０は、以下の式を計算することによって、距離スコアＳｃｏｒｅを算出する。Ｓｃｏｒｅ_ｎはｎ番染色体の個別スコアである。
　Ｓｃｏｒｅ＝Ｓｃｏｒｅ_１＋Ｓｃｏｒｅ_１０＋Ｓｃｏｒｅ_１９

　図１５に戻り、ステップＳ１４５－１から説明を続ける。
　ステップＳ１４５－１において、係数算出部１４０は、距離スコアを最小スコアと比較する。なお、最小スコアの初期値は最小スコア用の変数における最大値である。
　距離スコアが最小スコアより小さい場合、処理はステップＳ１４５－２に進む。
　距離スコアが最小スコア以上である場合、処理はステップＳ１４６に進む。

　ステップＳ１４５－２において、係数算出部１４０は、基準係数の値を仮係数の値に更新する。基準係数の初期値は１である。
　さらに、係数算出部１４０は、最小スコアの値を距離スコアの値に更新する。

　ステップＳ１４６において、係数算出部１４０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１４２に進む。
　未選択の対象遺伝子が無い場合、処理はステップＳ１４７（図１６参照）に進む。

　ステップＳ１４７（図１６参照）において、係数算出部１４０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１４８－１からステップＳ１４８－５までの処理は、ステップＳ１４７で選択された対象遺伝子に対して行われる。

　ステップＳ１４８－１において、係数算出部１４０は基準係数を調整する。
　具体的には、係数算出部１４０は、調整範囲から未選択の調整係数を１つ選択し、選択された調整係数を基準係数にかける。
　調整範囲は、予め決められた範囲であり、複数の調整係数を含む。例えば、調整範囲は、０．８０から１．２０までの範囲であり、０．０１刻みで４１個の調整係数を含む。
　基準係数を調整することによって得られる係数を調整後の基準係数という。

　ステップＳ１４８－２において、係数算出部１４０は、調整後の基準係数を用いて、距離スコアを算出する。距離スコアを算出する方法はステップＳ１４４（図１７参照）における方法と同様である。但し、仮係数の代わりに、調整後の基準係数が用いられる。

　ステップＳ１４８－３において、係数算出部１４０は、距離スコアを最小スコアと比較する。
　距離スコアが最小スコアより小さい場合、処理はステップＳ１４８－４に進む。
　距離スコアが最小スコア以上である場合、処理はステップＳ１４８－５に進む。

　ステップＳ１４８－４において、係数算出部１４０は、補正係数の値を調整後の基準係数の値に更新する。補正係数の初期値は１である。
　さらに、係数算出部１４０は、最小スコアの値を距離スコアの値に更新する。

　ステップＳ１４８－５において、係数算出部１４０は、基準係数の調整を終了するか判定する。
　具体的には、係数算出部１４０は、調整範囲の中に未選択の調整係数が有るか判定する。未選択の調整係数が無い場合、係数算出部１４０は基準係数の調整を終了する。
　基準係数の調整を終了する場合、処理はステップＳ１４９に進む。
　基準係数の調整を終了しない場合、処理ステップＳ１４８－１に進む。

　ステップＳ１４９において、係数算出部１４０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１４７に進む。
　未選択の対象遺伝子が無い場合、係数算出処理（Ｓ１４０）は終了する。

　図２に戻り、ステップＳ１５０を説明する。
　ステップＳ１５０において、コピー数算出部１５０は、腫瘍サンプルにおける対象遺伝子毎のコピー数と、補正係数とを用いて、がん細胞における対象遺伝子毎のコピー数を算出する。

　図１８に基づいて、コピー数算出処理（Ｓ１５０）の手順を説明する。
　ステップＳ１５１において、コピー数算出部１５０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１５２において、コピー数算出部１５０は、対象遺伝子の仮コピー数に補正係数をかける。対象遺伝子の仮コピー数は、ステップＳ１４１－２（図１５参照）で算出される。
　対象遺伝子の仮コピー数に補正係数をかけることによって得られるコピー数が、がん細胞における対象遺伝子のコピー数、すなわち、対象遺伝子の正確なコピー数である。

　具体的には、コピー数算出部１５０は、以下の式を計算することによって、コピー数ＣＮを算出する。Ｃ_ｂｅｓｔは補正係数である。ＣＮｔは仮コピー数である。
　ＣＮ＝Ｃ_ｂｅｓｔ×ＣＮ_ｔ

　ステップＳ１５３において、コピー数算出部１５０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１５１に進む。
　未選択の対象遺伝子が無い場合、処理はステップＳ１５４に進む。

　ステップＳ１５４において、コピー数算出部１５０は、対象染色体毎に正確なコピー数を算出する。
　対象染色体の正確なコピー数を算出する方法は、対象遺伝子の正確なコピー数を算出する方法と同様である。

＊＊＊実施の形態１の効果＊＊＊
　図１９は、ゲノム全体のコピー数を示している。
　図２０は、１番染色体、１０番染色体および１９番染色体のコピー数を示している。
　ゲノム全体（図１９参照）ではコピー数の平均が２コピーである。しかし、がんに関連する遺伝子が含まれる１番染色体、１０番染色体および１９番染色体（図２０参照）においてはコピー数の平均が２コピーでない。
　通常のＣＮＶ検出はコピー数の平均が２コピーであると仮定して行われるため、通常のＣＮＶ検出では、ターゲットシークエンスにおいて正確なコピー数を得ることはできない。
　一方、実施の形態１では、コピー数を補正することにより、ターゲットシークエンスにおいて正確なコピー数を得ることができる。

　非特許文献２に記載のように、ＢＡＦの散布図は基準のＢＡＦ（＝０．５）に対して線対称に分布するという性質が知られている。これはＶＡＦにおいてもあてはまる。
　実施の形態１では、この性質を利用し、散布グラフ２０１から得られる密度分布グラフ２０２において下位領域と上位領域との相関を取る。これにより、本グラフが得られた領域におけるＶＡＦが正確に求まる。そのため、正確な特徴距離が求まる。その結果、正確なコピー数を算出することができる。

　実施の形態１では、正確なコピー数、すなわち、がん細胞における対象遺伝子毎のコピー数が算出される。
　これにより、腫瘍サンプルにおけるがん細胞の含有率を求めることが可能となる。

　実施の形態２．
　腫瘍サンプルにおけるがん細胞の含有率を求める形態について、主に実施の形態１と異なる点を図２１から図２３に基づいて説明する。

＊＊＊構成の説明＊＊＊
　図２１に基づいて、コピー数計測装置１００の構成を説明する。
　コピー数計測装置１００は、さらに、含有率算出部１６０をソフトウェア要素として備える。
　コピー数計測プログラムは、さらに、含有率算出部１６０としてコンピュータを機能させる。

＊＊＊動作の説明＊＊＊
　図２２に基づいて、コピー数計測方法を説明する。
　ステップＳ１１０からステップＳ１５０までの処理は、実施の形態１（図２参照）で説明した通りである。

　ステップＳ１６０において、含有率算出部１６０は、がん細胞における対象遺伝子毎のコピー数に基づいて、がん含有率を算出する。
　がん含有率は、腫瘍サンプルにおけるがん細胞の含有率である。

　図２３に基づいて、含有率算出処理（Ｓ１６０）の手順を説明する。
　ステップＳ１６１において、含有率算出部１６０は、未選択の対象遺伝子を１つ選択する。

　ステップＳ１６２およびステップＳ１６３において、対象遺伝子はステップＳ１６１で選択された対象遺伝子を意味する。

　ステップＳ１６２において、含有率算出部１６０は、対象遺伝子のコピー数に基づいて、含有率式を選択する。
　対象遺伝子のコピー数は、ステップＳ１５０で算出された対象遺伝子のコピー数、すなわち、がん細胞における対象遺伝子のコピー数である。
　含有率式はがん含有率を求めるための式である。ＬＯＳＳ用の式とＡＭＰ用の式との２種類の含有率式が有る。ＬＯＳＳは遺伝子の欠失を意味する。ＡＭＰは遺伝子の増幅を意味する。

　具体的には、含有率算出部１６０は含有率式を以下のように選択する。
　対象遺伝子のコピー数が２未満である場合、含有率算出部１６０はＬＯＳＳ用の式を選択する。
　対象遺伝子のコピー数が２より大きい場合、含有率算出部１６０はＡＭＰ用の式を選択する。

　ステップＳ１６３において、含有率算出部１６０は、選択された含有率式を計算することによって、がん含有率を算出する。算出されたがん含有率が含有率候補となる。
　具体的には、含有率算出部１６０は、対象遺伝子のコピー数を用いて、含有率式を計算する。
　以下に示す各含有率式において、ＣＲはがん含有率であり、ＣＮはコピー数である。

　ＬＯＳＳ用の式は以下の通りである。
　ＣＲ＝２－ＣＮ

　ＬＯＳＳ用の式は、ＣＮとＣＲとの関係を示す以下の式に基づいている。
　ＣＮ＝２（１－ＣＲ）＋１×ＣＲ＝２－ＣＲ

　ＡＭＰ用の式は以下の通りである。ｎは、がん細胞におけるコピー数として推定される値である。ｎを推定することができない場合、ＡＭＰ用の式を用いてがん含有率を算出することはできない。
　ＣＲ＝（ＣＮ－２）／（ｎ－２）

　ＡＭＰ用の式は、ＣＮとＣＲとｎとの関係を示す以下の式に基づいている。
　ＣＮ＝２（１－ＣＲ）＋ｎ×ＣＲ＝２＋（ｎ－２）×ＣＲ

　ステップＳ１６４において、含有率算出部１６０は、未選択の対象遺伝子が有るか判定する。
　未選択の対象遺伝子が有る場合、処理はステップＳ１６１に進む。
　未選択の対象遺伝子が無い場合、処理はステップＳ１６５に進む。

　ステップＳ１６５において、含有率算出部１６０は、対象染色体毎に含有率候補を算出する。
　対象染色体の含有率候補を算出する方法は、対象遺伝子の含有率候補を算出する方法と同様である。

　ステップＳ１６６において、含有率算出部１６０は、対象遺伝子毎の含有率候補と対象染色体毎の含有率候補とに基づいて、がん含有率を決定する。
　例えば、含有率算出部１６０は、対象遺伝子毎の含有率候補と対象染色体毎の含有率候補との平均を算出する。算出された平均ががん含有率である。

＊＊＊実施の形態２の効果＊＊＊
　実施の形態２により、腫瘍サンプルにおけるがん細胞の含有率を求めることができる。
　その結果、腫瘍サンプルにおけるがん細胞の含有率に応じて患者に適した治療を選択することが可能となる。

＊＊＊実施の形態の補足＊＊＊
　コピー数計測装置１００は、プロセッサ９０１のような汎用のハードウェアの代わりに専用のハードウェアを備えてもよい。それらのハードウェアを総称して処理回路という。
　処理回路は、位置特定部１１０と頻度算出部１２０と距離算出部１３０と係数算出部１４０とコピー数算出部１５０と含有率算出部１６０とを実現する。
　処理回路において、一部の機能がハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。処理回路の数は、１つであってもよいし、複数であってもよい。

　実施の形態は、好ましい形態の例示であり、本発明の技術的範囲を制限することを意図するものではない。実施の形態は、部分的に実施してもよいし、他の形態と組み合わせて実施してもよい。フローチャート等を用いて説明した手順は、適宜に変更してもよい。

　１００　コピー数計測装置、１１０　位置特定部、１２０　頻度算出部、１３０　距離算出部、１４０　係数算出部、１５０　コピー数算出部、１６０　含有率算出部、１９１
　記憶部、２０１　散布グラフ、２０２　密度分布グラフ、２０３　相関グラフ、２１０
　関係モデル、９０１　プロセッサ、９０２　メモリ、９０３　補助記憶装置。

Claims

　がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
　それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
　対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
　対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
　前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部と
を備えるコピー数計測装置。
　前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する
請求項１に記載のコピー数計測装置。
　前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す
請求項２に記載のコピー数計測装置。
　前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する
請求項１から請求項３のいずれか１項に記載のコピー数計測装置。
　前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える
請求項１から請求項４のいずれか１項に記載のコピー数計測装置。
　前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する
請求項５に記載のコピー数計測装置。
　前記腫瘍サンプルが脳腫瘍のサンプルであり、
　前記対象遺伝子が、ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとの少なくともいずれかである
請求項１から請求項６のいずれか１項に記載のコピー数計測装置。
　がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定する位置特定部と、
　それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出する頻度算出部と、
　対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出する距離算出部と、
　対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出する係数算出部と、
　前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数算出部
としてコンピュータを機能させるためのコピー数計測プログラム。
　前記距離算出部は、対象位置毎の変異アリル頻度と対象位置毎のマッピングリード数との関係を示す散布グラフを生成し、前記散布グラフを密度分布グラフに変換し、前記密度分布グラフのうちの前記基準の変異アリル頻度以下の領域である下位領域と前記密度分布グラフのうちの前記基準の変異アリル頻度以上の領域である上位領域との相関を示す相関グラフを生成し、前記相関グラフにおいてピーク相関値に対応する変異アリル頻度と前記基準の変異アリル頻度との差の絶対値を前記特徴距離として算出する
請求項８に記載のコピー数計測プログラム。
　前記相関グラフは、前記下位領域と前記上位領域とにおいて前記基準の変異アリル頻度との差の絶対値が等しい変異アリル頻度同士の密度の相関を示す
請求項９に記載のコピー数計測プログラム。
　前記係数算出部は、正常細胞における遺伝子のコピー数に対するがん細胞における遺伝子のコピー数の割合の対数値と特徴距離との関係を示す関係グラフと、正常サンプルにおける対象遺伝子のコピー数に対する前記腫瘍サンプルにおける対象遺伝子のコピー数の割合の対数値と対象遺伝子の特徴距離とを示す計測点とのずれ量に相当する値を、前記補正係数として算出する
請求項８から請求項１０のいずれか１項に記載のコピー数計測プログラム。
　前記がん細胞における対象遺伝子毎のコピー数に基づいて、前記腫瘍サンプルにおける前記がん細胞の含有率を算出する含有率算出部を備える
請求項８から請求項１１のいずれか１項に記載のコピー数計測プログラム。
　前記含有率算出部は、対象遺伝子毎に前記がん細胞におけるコピー数を用いて含有率候補を算出し、対象遺伝子毎の含有率候補に基づいて前記腫瘍サンプルにおける前記がん細胞の前記含有率を決定する
請求項１２に記載のコピー数計測プログラム。
　前記腫瘍サンプルが脳腫瘍のサンプルであり、
　前記対象遺伝子が、ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとの少なくともいずれかである
請求項８から請求項１３のいずれか１項に記載のコピー数計測プログラム。
　位置特定部が、がん細胞を含んだ腫瘍サンプルから得られた複数のリードである複数の腫瘍サンプルリードをヒトゲノム配列にマッピングし、対象遺伝子毎にヒトゲノム配列に対して変化している塩基のゲノム位置である対象位置を特定し、
　頻度算出部が、それぞれの対象遺伝子の対象位置毎に変異アリル頻度を算出し、
　距離算出部が、対象遺伝子毎に、対象遺伝子の中のそれぞれの対象位置にマッピングされた腫瘍サンプルリードの数であるマッピングリード数の変異アリル頻度に対する密度を示す密度分布においてピーク密度に対応する変異アリル頻度と基準の変異アリル頻度との差に相当する特徴距離を算出し、
　係数算出部が、対象遺伝子毎の特徴距離を用いて、前記腫瘍サンプルにおける対象遺伝子毎のコピー数を補正するための補正係数を算出し、
　コピー数算出部が、前記腫瘍サンプルにおける対象遺伝子毎のコピー数と前記補正係数とを用いて、前記がん細胞における対象遺伝子毎のコピー数を算出するコピー数計測方法。
　ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとを全て含む遺伝子セットを含んだ遺伝子パネル。
　ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとから成る遺伝子セットを含んだ遺伝子パネル。
　ＡＴＲＸとＩＤＨ１とＩＤＨ２とＴＰ５３とＴＥＲＴとＢＲＡＦとＰＤＧＦＲＡとＭＥＴとＥＧＦＲとＢＲＳＫ１とＥＨＤ２とＡＫＴ２とＴＰ７３とＮＭＮＡＴ１とＴＧＦＢＲ３とＰＴＥＮとの少なくともいずれかを含む遺伝子セットを含んだ遺伝子パネル。