以下、本発明の実施形態について図面を参照して説明する。
(第1実施形態)
第1実施形態について、図1〜図33を参照して説明する。まず、本実施形態に係る遺伝子型推定装置(以下、「推定装置」という)の機能構成について、図1〜図9を参照して説明する。図1は、本実施形態に係る推定装置の機能構成を示すブロック図である。図1に示すように、この推定装置は、検体データ記憶部1と、参照データ記憶部2と、クラスタリング強度取得部3と、クラスタリング強度判定部4と、遺伝子型推定部5と、推定結果表示部6と、を備える。
検体データ記憶部1は、DNAマイクロアレイ技術によって遺伝子型を判定された検体に関するデータ(検体データ)を記憶する。検体データは、例えば、遺伝子型データ、信号強度データ、及びクラスタリングデータを含むが、これに限られない。
遺伝子型データは、DNAマイクロアレイ技術による遺伝子型の判定結果を示すデータである。遺伝子型データには、検体毎かつSNP毎に判定された遺伝子型が含まれる。
図2は、遺伝子型データの一例を示す図である。図2の遺伝子型データには、検体01〜NのSNPrs000001〜rs9999999の遺伝子型の判定結果が含まれる。例えば、図2において、検体01のSNPrs000001の遺伝子型は「CG」である。
図2において、「−」は、DNAマイクロアレイ技術によって遺伝子型を判定できなかったことを示している。推定装置は、このような、DNAマイクロアレイ技術によって判定できなかった遺伝子型を推定する。
以下では、あるSNPにおいて、遺伝子型が既知の検体、すなわち、DNAマイクロアレイ技術によって遺伝子型が判定された検体を、既知検体という。また、あるSNPにおいて、遺伝子型が未知の検体、すなわち、DNAマイクロアレイ技術によって遺伝子型が判定できなかった検体を、未知検体という。例えば、図2のSNPrs000002において、検体01は既知検体であり、検体02は未知検体である。
信号強度データは、DNAマイクロアレイ技術による信号強度の測定結果を示すデータである。信号強度は、例えば、蛍光強度、電流、及び電圧などの測定値であるが、これに限られない。また、信号強度は、上記の測定値から算出される任意のパラメータであってもよい。信号強度データには、各検体の各SNPにおける各信号強度の値が含まれる。
図3は、信号強度データの一例を示す図である。図3の信号強度データには、検体01〜NのSNPrs000001〜rs9999999の信号強度x1〜xnの値が含まれる。例えば、図3において、検体01のSNPrs000001の信号強度x1の値は0.8である。
図3の信号強度データには、n種類の信号強度の値が含まれている。nは、任意に設定可能であるが、ほとんどの場合2である。n=2の場合、信号強度x1,x2として、2種類の蛍光強度の測定値A,Bを用いることができる。また、測定値A,Bから以下の式により算出されるパラメータを、信号強度x1,x2として用いてもよい。
蛍光強度の測定値A,Bをこのように変換することにより、信号強度をクラスタ空間に写像しやすくすることができる。
クラスタリングデータは、DNAマイクロアレイ技術により遺伝子型を判定する際に、SNP毎に行われたクラスタリングの結果を示すデータである。DNAマイクロアレイ技術によるクラスタリングは、階層的クラスタリングであってもよいし、非階層的クラスタリングであってもよい。以下では、DNAマイクロアレイ技術によるクラスタリングは、非階層的クラスタリングであるものとする。クラスタリングデータは、例えば、クラスタ座標データ、及びクラスタリング強度データを含むが、これに限られない。
各クラスタは、SNPにおける各遺伝子型と対応するため、遺伝子型の数だけ生成される。例えば、あるSNPの遺伝子型が、CC,CT,TTの3つである場合、クラスタ空間上には3個のクラスタが生成される。クラスタの座標は、例えば、クラスタの重心の座標である。
図4は、クラスタ座標データの一例を示す図である。図4のクラスタ座標データには、SNPrs000001〜rs999999のクラスタ1〜mの座標が含まれる。各クラスタの座標は、クラスタ空間における2つの軸v1,v2により示されている。例えば、SNPrs000001におけるクラスタ1の座標は、(v1,v2)=(12,32)である。なお、クラスタ座標データには、各クラスタの座標だけでなく、クラスタ空間上における各検体の座標が含まれてもよい。また、vn=xnであってもよい。この場合、クラスタ空間は、信号強度x1〜xnのn次元空間となる。
クラスタリング強度データは、SNP毎のクラスタリング強度を示すデータである。クラスタリング強度とは、クラスタリングの信頼度を示す指標である。クラスタリング強度が大きいほど、クラスタリングの信頼度は高い。
図5は、クラスタリング強度データの一例を示す図である。図5のクラスタリング強度データには、SNPrs000001〜rs9999999のクラスタリング強度が含まれる。例えば、図5において、SNPrs000001のクラスタリング強度は0.95である。
クラスタリング強度として、例えば、各クラスタ間の距離の平均値を用いることができる。この場合、クラスタリング強度は、クラスタ座標データから、以下の式により求めることができる。
式(3)において、クラスタ間距離ijは任意の2つのクラスタi,j間のユークリッド距離、(vi1,vi2)はクラスタiの重心の座標、(vj1,vj2)はクラスタjの重心の座標である。また、式(4)において、mはクラスタの数である。
ここで、図6は、図4のクラスタ座標データから生成したクラスタリング強度データを示す図である。図6において、クラスタ間距離i,j及びクラスタリング強度は、クラスタリング強度が0以上1以下の値となるように規格化されている。
参照データ記憶部2は、遺伝子に関する既知のデータ(参照データ)を記憶する。参照データは、例えば、連鎖不平衡統計データ、参照ハプロタイプデータ、及び参照遺伝子型頻度データを含むが、これに限られない。参照データのソースとして、国際HapMapプロジェクトや1000人ゲノムプロジェクトなどの、大規模なプロジェクトデータを用いることができる。
連鎖不平衡統計データ(以下、「LDデータ」という)は、SNP同士の相関を示すデータである。図7は、LDデータの一例を示す図である。図7のLDデータには、SNPrs125678及びSNPrs129688のスコアと、SNPrs125678及びSNPrs986754のスコアと、SNPrs129688及びSNPrs986754のスコアと、が含まれる。スコアは、SNP同士の相関の強さを示す指標である。図7のLDデータには、スコアとして、連鎖不平衡スコア(D′)と、相関係数(r2)と、オッズ比の対数(LOD)とが含まれる。例えば、図7において、SNPrs125678とSNPrs129688の連鎖不平衡スコアは0.98、相関係数は0.96、オッズ比の対数は18.69である。
参照ハプロタイプデータは、同一染色体上で統計学的に関連のあるSNPの、対立遺伝子(塩基)のいずれか一方の組合せを示すデータである。すなわち、各参照ハプロタイプデータは、一部のSNPにおける、蓋然性の高い塩基の組合せを示す。参照ハプロタイプデータに含まれるSNPは、例えば、LDデータに基づいて選択される。
図8は、参照ハプロタイプデータの一例を示す図である。図8の参照ハプロタイプデータには、参照ハプロタイプデータrefHTD1〜refHTD6が含まれる。各参照ハプロタイプデータには、SNPrs123456,rs623456,rs987456,rs987123,rs598456,rs387456,rs912346,rs778456,rs873456,rs987009の対立遺伝子が含まれる。例えば、図8において、参照ハプロタイプデータrefHTD1のSNPrs123456の対立遺伝子は、Aである。
参照遺伝子型頻度データは、ある母集団における各SNPの遺伝子型の頻度(参照遺伝子型頻度)を示すデータである。図9は、参照遺伝子型頻度データの一例を示す図である。図9の参照遺伝子型頻度データには、SNPrs125678の遺伝子型CC,CT,TTの頻度が含まれている。図9において、SNPrs125678の対立遺伝子はC又はTである。また、各遺伝子型の頻度の合計は1となる。例えば、図9において、SNPrs125678の遺伝子型CCの頻度は、0.42である。
クラスタリング強度取得部3(以下、「取得部3」という)は、SNP毎のクラスタリング強度を取得する。検体データに図5のようなクラスタリング強度データが含まれる場合、取得部3は、検体データ記憶部1からクラスタリング強度データを取得する。
また、検体データに図4のようなクラスタ座標データが含まれる場合、取得部3は、検体データ記憶部1からクラスタ座標データを取得し、クラスタ座標データに基づいて各SNPのクラスタリング強度を算出してもよい。クラスタリング強度の算出方法は上述の通りである。
さらに、検体データに図2のような遺伝子型データが含まれ、参照データに図9のような参照遺伝子型頻度データが含まれる場合、取得部3は、検体データ記憶部1から遺伝子型データを取得し、参照データ記憶部2から参照遺伝子型頻度データを取得し、遺伝子型データ及び参照遺伝子型頻度データに基づいて、各SNPのクラスタリング強度を算出してもよい。クラスタリング強度の算出方法は以下の通りである。
まず、取得部3は、遺伝子型データに基づいて、各SNPの各遺伝子型の頻度(DNAマイクロアレイ遺伝子型頻度)を算出する。DNAマイクロアレイ遺伝子型頻度は、DNAマイクロアレイ技術により判定された遺伝子型の頻度である。
次に、取得部3は、DNAマイクロアレイ遺伝子型頻度と、参照遺伝子型頻度と、に基づいて、以下の式により各SNPのクラスタリング強度を算出する。
式(5)において、mは遺伝子型の数、fi,rは遺伝子型iの参照遺伝子型頻度、fi,Dは遺伝子型iのDNAマイクロアレイ遺伝子型頻度である。遺伝子型頻度は、遺伝子型毎の確率を示すため、fi,rの合計及びfi,rの合計はいずれも1である。
例えば、あるSNPの遺伝子型がCC,CT,TTであり、参照遺伝子型頻度がそれぞれ0.5,0.3,0.2であり、DNAマイクロアレイ遺伝子型頻度がそれぞれ0.4,0.4,0.2である場合、このSNPのクラスタリング強度は、式(5)により、0.92(=1−sqrt(((0.5−0.4)2+(0.3−0.4)2+(0.2−0.2)2)/3))と算出される。
クラスタリング強度判定部4(以下、「判定部4」という)は、取得部3が取得したSNP毎のクラスタリング強度と、閾値θ1(第1の閾値)及び閾値θ2(第2の閾値)と、を比較する。閾値θ1,θ2(θ1≧θ2)は、DNAマイクロアレイ技術によるクラスタリングの信頼度を判定するために予め設定された値である。判定部4は、クラスタリング強度が閾値θ1より大きい場合、クラスタリングの信頼度は高いと判定し、閾値θ2より小さい場合、信頼度は低いと判定し、クラスタリング強度が閾値θ2以上閾値θ1以下の場合、クラスタリングの信頼度は中程度と判定する。閾値θ1,θ2は、クラスタリング強度に依存し、クラスタリング強度が0以上1以下の範囲内の値である場合、0以上1以下の範囲内の値とされる。例えば、クラスタリング強度が0以上1以下である場合、閾値θ1,θ2は、それぞれ0.8,0.4に設定される。
なお、以下では、θ1>θ2の場合について説明するが、θ1=θ2であってもよい。この場合、判定部4は、クラスタリング強度が閾値θ1より大きい場合、信頼度が高いと判定し、閾値θ1以下の場合、信頼度が低いと判定する。
遺伝子型推定部5(以下、「推定部5」という)は、遺伝子型データの各SNPにおける未知検体の遺伝子型を推定する。例えば、推定部5は、図2の遺伝子型データにおける、検体01のSNPrs000003の遺伝子型や、検体02のSNPrs000002の遺伝子型を推定する。
推定部5は、判定部4によるクラスタリングの信頼度の判定結果に基づいて、推定方法を選択する。例えば、推定部5は、クラスタリング強度が閾値θ1より大きい、すなわち、DNAマイクロアレイ技術によるクラスタリングの信頼度が高い場合、遺伝子型データに基づいてk近傍法により遺伝子型を推定する。また、推定部5は、クラスタリング強度が閾値θ2より小さい、すなわち、DNAマイクロアレイ技術によるクラスタリングの信頼度が低い場合、遺伝子型データ及び参照データに基づいてインピュテーション法により遺伝子型を推定する。さらに、推定部5は、クラスタリング強度が閾値θ2以上閾値θ1以下、すなわち、DNAマイクロアレイ技術によるクラスタリングの信頼度が中程度の場合、k近傍法及びインピュテーション法を併用して遺伝子型を推定する。そして、推定部5は推定結果を出力する。遺伝子型の推定方法の具体例について、詳しくは後述する。
推定結果表示部6(以下、「表示部6」という)は、推定部5による推定結果を表示する。表示部6は、推定結果とともに、遺伝子型データや、推定の際に用いられた各種の情報を表示してもよい。
次に、本実施形態に係る推定装置のハードウェア構成について、図10を参照して説明する。本実施形態に係る推定装置は、図10に示すように、コンピュータ100により構成される。コンピュータ100は、CPU(中央演算装置)101と、入力装置102と、表示装置103と、通信装置104と、記憶装置105と、とを備え、これらはバス106により相互に接続されている。
CPU101は、コンピュータ100の制御装置及び演算装置である。CPU101は、バス106を介して接続された各装置(例えば、入力装置102、通信装置104、記憶装置105)から入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を、バス106を介して接続された各装置(例えば、表示装置103、通信装置104、記憶装置105)に出力する。CPU101は、コンピュータ100のOS(オペレーティングシステム)や、遺伝子型推定プログラム(以下、「推定プログラム」という)などを実行し、コンピュータ100を構成する各装置を制御する。推定プログラムとは、コンピュータ100に、推定装置の上述の各機能構成を実現させるプログラムである。CPU101が推定プログラムを実行することにより、コンピュータ100が推定装置として機能する。
入力装置102は、コンピュータ100に情報を入力するための装置である。入力装置102は、例えば、キーボード、マウス、及びタッチパネルであるが、これに限られない。ユーザは、入力装置102を用いることにより、閾値θ1,θ2などの情報を入力することができる。
表示装置103は、CPU101から出力されたデータ等に基づき、画像や映像等を表示するための装置である。表示装置103は、例えば、LCD(液晶ディスプレイ)、CRT(ブラウン管)、及びPDP(プラズマディスプレイ)であるが、これに限られない。表示部6は、表示装置103を用いて構成することができる。
通信装置104は、コンピュータ100が外部装置と無線又は有線で通信するための装置である。通信装置104は、例えば、モデム、ハブ、及びルータであるが、これに限られない。検体データや参照データなどの情報は、通信装置104を介して外部装置から受信することにより入力することができる。また、CPU101から出力された演算結果等のデータを、外部装置へ送信することもできる。
記憶装置105は、コンピュータ100のOSや、推定プログラム、推定プログラムの実行に必要なデータ、及びCPU101による推定プログラムの実行により生成し出力されたデータなどを記憶する記憶媒体である。記憶装置105には、主記憶装置と外部記憶装置とが含まれる。主記憶装置は、例えば、RAM、DRAM、SRAMであるが、これに限られない。また、外部記憶装置は、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。検体データ記憶部1や参照データ記憶部2は、記憶装置105を用いて構成することができる。
なお、コンピュータ100は、CPU101、入力装置102、表示装置103、通信装置104、及び記憶装置105を、1つ又は複数備えてもよいし、プリンタやスキャナなどの周辺機器を接続されていてもよい。
また、推定装置は、単一のコンピュータ100により構成されてもよいし、相互に接続された複数のコンピュータ100からなるシステムとして構成されてもよい。
さらに、推定プログラムは、コンピュータ100の記憶装置105に予め記憶されていてもよいし、CD−ROMなどの記憶媒体に記憶されていてもよいし、インターネット上にアップロードされていてもよい。いずれの場合も、推定プログラムをコンピュータ100にインストールして実行することにより、推定装置を構成することができる。
次に、本実施形態に係る推定装置の動作について、図11〜図30を参照して説明する。図11は、本実施形態に係る推定装置の動作の概要を示すフローチャートである。
ステップS1において、取得部3は、検体データ記憶部1から遺伝子型データを取得する。
ステップS2において、取得部3は、遺伝子型データから対象SNPの遺伝子型データを抽出する。対象SNPとは、未知検体を含むSNPである。例えば、図2の遺伝子型データの場合、取得部3は、SNPrs000002,rs000003の遺伝子型データを抽出する。
ステップS3において、取得部3は、各対象SNPのクラスタリング強度CSを取得する。上述の通り、取得部3は、遺伝子型データ、クラスタリングデータ、及び参照遺伝子型頻度データなどに基づいて、クラスタリング強度CSを取得することができる。
ステップS4において、判定部4は、取得部3から各対象SNPのクラスタリング強度CSを取得し、閾値θ1と比較する。閾値θ1は、対象SNP毎に同一であってもよいし、異なってもよい。
CS>θ1の場合、判定部4は、クラスタリングの信頼度は高いと判定し(ステップS4のYES)、処理はステップS5に進む。
ステップS5において、推定部5は、遺伝子型データに基づいて、k近傍法により未知検体の遺伝子型を推定する。k近傍法による遺伝子型の推定方法については後述する。
CS≦θ1の場合(ステップS4のNO)、処理はステップS6に進む。
ステップS6において、判定部4は、取得部3から取得した各対象SNPのクラスタリング強度CSと、閾値θ2と、を比較する。閾値θ2は、対象SNP毎に同一であってもよいし、異なってもよい。
CS<θ2の場合、判定部4は、クラスタリングの信頼度は低いと判定し(ステップS6のYES)、処理はステップS7に進む。
ステップS7において、推定部5は、遺伝子型データ及び参照データに基づいて、インピュテーション法により未知検体の遺伝子型を推定する。インピュテーション法による遺伝子型の推定方法については後述する。
CS≧θ2の場合(ステップS6のNO)、判定部4は、クラスタリングの信頼度は中程度と判定し、処理はステップS8に進む。
ステップS8において、推定部5は、k近傍法とインピュテーション法とを併用して、未知検体の遺伝子型を推定する。k近傍法とインピュテーション法とを併用した遺伝子型の推定方法については後述する。
ステップS5,S7,S8において未知検体の遺伝子型が推定された後、ステップS9において、表示部6は、推定部5による推定結果を表示する。
以下、k近傍法、インピュテーション法、及びこれらを併用した方法による、遺伝子型の推定方法について詳細に説明する。
まず、ステップS5におけるk近傍法による遺伝子型の推定方法について、図12〜図23を参照して説明する。ここでいうk近傍法とは、k個の最近傍のサンプルの遺伝子型に基づいて、未知検体の遺伝子型を推定する方法のことである。以下では、サンプルとして、既知検体及びクラスタ線を用いる方法について、それぞれ説明する。
図12は、k近傍法による遺伝子型の推定方法の一例を示すフローチャートである。図12の推定方法では、サンプルとして既知検体を用いる。
ステップS511において、推定部5は、検体データ記憶部1から、対象SNPの未知検体Sの遺伝子型データ及び信号強度データを取得する。以下では、未知検体Sは1つであるものとするが、未知検体Sが複数ある場合には、各未知検体Sについて、以降の処理が行われる。
ステップS512において、推定部5は、検体データ記憶部1から、対象SNPの既知検体群STの遺伝子型データ及び信号強度データを取得する。既知検体群STは、対象SNPに含まれる既知検体Siの集合のことである。
ステップS513において、推定部5は、既知検体群STに含まれる各既知検体Siについて、距離diを算出する。距離diは、未知検体Sと、既知検体Siと、の距離である。距離diは、例えば、未知検体Sの信号強度データが(x1,x2,・・・,xn)、既知検体Siの信号強度データが(xi1,xi2,・・・,xin)の場合、以下の式により算出される。
ステップS514において、推定部5は、既知検体群STの中から、最近傍のk個の既知検体Si、すなわち、距離diが小さい順にk個の既知検体Siを選択する。パラメータkは、予め設定される任意の自然数である。パラメータkの設定方法については、後述する。
図13は、既知検体Siの選択方法を説明する図である。図13は、対象SNPのクラスタリングマップの一例を示している。図13において、信号強度はx1,x2の2種類(n=2)、パラメータkは5(k=5)、星印は未知検体S、丸は遺伝子型がCCの既知検体、三角は遺伝子型がCGの既知検体、四角は遺伝子型がGGの既知検体である。図13の場合、ステップS514において、距離diが小さい順に、遺伝子型がCCの既知検体3個と、遺伝子型がCGの既知検体が2個選択される。
ステップS515において、推定部5は、選択したk個の既知検体Siの遺伝子型に基づいて、未知検体Sの遺伝子型を推定する。
推定部5は、例えば、多数決アルゴリズムを用いて未知検体Sの遺伝子型を推定する。すなわち、推定部5は、選択したk個の既知検体Siの遺伝子型のうち、最も検体数(投票数)が多い遺伝子型を、未知検体Sの遺伝子型として推定する。
図14は、多数決アルゴリズムを用いた遺伝子型の推定方法を説明する図である。図14では、5個の既知検体Si(i=1〜5)が選択されており、それぞれの遺伝子型は、AG,GG,AG,AG,AAである。この場合、各遺伝子型AG,GG,AAの投票数は、それぞれ3,1,1となるため、未知検体Sの遺伝子型は、投票数が最大であるAGと推定される。
また、推定部5は、重み付き多数決アルゴリズムを用いて未知検体Sの遺伝子型を推定してもよい。この場合、推定部5は、まず、選択した各既知検体Siの重みを算出する。既知検体Siの重みとして、既知検体Siにおける遺伝子型を判定されたSNPの割合を用いることができる。例えば、DNAマイクロアレイ技術により、20万個のSNPのうち15万個の遺伝子型が判定された既知検体Siの重みは、0.75となる。
推定部5は、各既知検体Siの重みを投票数として利用して、投票数が最も多い遺伝子型を未知検体Sの遺伝子型として推定する。図15は、重み付き多数決アルゴリズムを用いた遺伝子型の推定方法を説明する図である。図15では、5個の既知検体Si(i=1〜5)が選択されており、それぞれの遺伝子型は、AG,GG,AG,AG,AAであり、それぞれの重みは、0.6,0.4,0.9,0.7,0.5である。この場合、各遺伝子型AG,GG,AAの投票数は、それぞれ2.2,0.4,0.5となるため、未知検体Sの遺伝子型は、投票数が最大であるAGと推定される。
図16は、k近傍法による遺伝子型の推定方法の他の例を示すフローチャートである。図16の推定方法では、サンプルとしてクラスタ線を用いる。
ステップS521において、推定部5は、検体データ記憶部1から、対象SNPの未知検体Sの遺伝子型データ及び信号強度データを取得する。ステップS521は、上述のステップS511と同様である。
ステップS522において、推定部5は、検体データ記憶部1から、対象SNPの既知検体群STの遺伝子型データ及び信号強度データを取得する。ステップS522は、上述のステップS512と同様である。
ステップS523において、推定部5は、既知検体群STの信号強度データに基づいて、クラスタ線Ciを作成する。クラスタ線Ciとは、クラスタ空間上の各クラスタ(各遺伝子型)に含まれる既知検体を、直線や曲線により近似したものである。クラスタ線Ciは、クラスタ空間上における既知検体の座標を回帰分析することにより作成することができる。回帰分析は、線形回帰であってもよいし、非線形回帰であってもよい。
図17は、クラスタ線Ciの作成方法を説明する図である。図17は、対象SNPのクラスタリングマップの一例を示している。図17において、信号強度はx1,x2の2種類(n=2)、パラメータkは5(k=5)、星印は未知検体S、丸は遺伝子型がCCの既知検体、三角は遺伝子型がCGの既知検体、四角は遺伝子型がGGの既知検体である。また、クラスタ線Ciは、直線であり、クラスタ毎に1本ずつ作成されている。図17の場合、クラスタ線Ciは、以下の式により表される。
式(7)において、mi,ciは、定数であり、回帰分析により求められる。推定部5は、クラスタ毎に線形回帰分析を行うことにより、上記のようなクラスタ線Ciを作成することができる。
また、図18に示すように、クラスタ線Ciは、クラスタ毎にそれぞれ複数本ずつ作成されてもよい。この場合、推定部5は、各クラスタを複数のサブクラスタに分割し、それぞれのサブクラスタについて、式(7)のようにクラスタ線Ciを作成すればよい。
なお、クラスタ線Ciは、直線に限られず、曲線であってもよい。また、クラスタ線Ciの本数は任意に選択可能である。
ステップS524において、推定部5は、各クラスタ線Ciについて、距離Diを算出する。距離Diは、未知検体Sと、クラスタ線Ciと、の距離である。距離Diは、例えば、未知検体Sの信号強度データが(xs1,xs2)、クラスタ線Ciがx2=mix1+ciの場合、以下の式により算出される。
ステップS525において、推定部5は、作成した複数のクラスタ線Ciの中から、最近傍のk本のクラスタ線Ci、すなわち、距離Diが小さい順にk本のクラスタ線Ciを選択する。
例えば、図17において、k=1の場合、距離Diが最も小さい遺伝子型CCのクラスタ線Ciが選択される。また、図18において、k=3の場合、距離Diが小さい順に、遺伝子型がCCのクラスタ線2本と、遺伝子型がCGのクラスタ線1本が選択される。
ステップS526において、推定部5は、選択したk本のクラスタ線Ciの遺伝子型に基づいて、未知検体Sの遺伝子型を推定する。
推定部5は、例えば、多数決アルゴリズムを用いて未知検体Sの遺伝子型を推定する。すなわち、推定部5は、選択したk本のクラスタ線Ciの遺伝子型のうち、最もクラスタ線数(投票数)が多い遺伝子型を、未知検体Sの遺伝子型として推定する。
図19は、多数決アルゴリズムを用いた遺伝子型の推定方法を説明する図である。図19では、5本のクラスタ線Ci(i=1〜5)が選択されており、それぞれの遺伝子型は、AG,GG,AG,AG,AAである。この場合、各遺伝子型AG,GG,AAの投票数は、それぞれ3,1,1となるため、未知検体Sの遺伝子型は、投票数が最大であるAGと推定される。
また、推定部5は、重み付き多数決アルゴリズムを用いて未知検体Sの遺伝子型を推定してもよい。この場合、推定部5は、まず、選択した各クラスタ線Ciの重みを算出する。クラスタ線Ciの重みとして、既知検体Siにおける遺伝子型を判定されたSNPの割合の、クラスタごとの平均値を用いることができる。推定部5は、各クラスタ線Ciの重みを投票数として利用して、投票数が最も多い遺伝子型を未知検体Sの遺伝子型として推定する。
ここで、k近傍法で用いるパラメータkの設定方法について、図20〜図23を参照して説明する。図20は、パラメータkの設定方法を示すフローチャートである。本実施形態において、推定部5は、クロス検証によりパラメータkを設定する。
ステップS531において、推定部5は、検体データ記憶部1から、1つ又は複数の検証用SNPの遺伝子型データ及び信号強度データを取得する。検証用SNPとは、クラスタリング強度CSが大きく、かつ、全ての検体が既知検体であるSNPのことである。検証用SNPは、例えば、クラスタリング強度CSが閾値θ1より大きいSNPである。
図21は、検証用SNPを説明する図である。図21の遺伝子型データにおいて、SNPrs00001,rs000003の検体は、全て既知検体である。これらのSNPのクラスタリング強度CSが大きい場合、推定部5は、SNPrs00001,rs000003を検証用SNPとして抽出し、これらの遺伝子型データ及び信号強度データを取得する。
ステップS532において、推定部5は、評価用検体及び学習用検体を選択する。評価用検体とは、未知検体として扱う検体である。学習用検体とは、既知検体として扱う検体である。評価用検体として選択した検体の遺伝子型は、クロス検証のための正解データとして利用される。
図22は、評価用検体及び学習用検体の一例を示す図である。図22において、評価用検体として検体01〜10が選択され、検体11〜Nが学習用検体として選択されている。なお、評価用検体及び学習用検体は、任意に選択可能である。
ステップS533において、推定部5は、パラメータkの候補k′を複数設定する。推定部5は、パラメータkの候補k′として、任意の自然数を設定することができる。
ステップS534において、推定部5は、学習用検体の遺伝子型データ及び信号強度データに基づいて、各評価用検体の遺伝子型を推定する。この際、推定部5は、パラメータkとして各候補k′を用いたk近傍法により、評価用検体の遺伝子型を推定する。
ステップS535において、推定部5は、クロス検証により、各候補k′の推定精度を算出する。すなわち、推定部5は、評価用検体の遺伝子型の推定結果と、評価用検体の既知の遺伝子型と、を比較し、遺伝子型を正しく推定された評価用検体の割合を算出する。
図23は、推定精度の算出結果の一例を示す図である。図23に示すように、推定精度は、各検証用SNPの各候補k′について算出される。例えば、図23において、SNPrs000001のk′=1における推定精度は0.8である。また、図23に示すように、検証用SNPが複数ある場合、推定部5は、各候補k′の推定精度の平均値(平均推定精度)を算出してもよい。
ステップS536において、推定部5は、推定精度が最大の候補k′を、パラメータkとして設定する。また、推定部5は、複数の検証用SNPについてクロス検証を行った場合、平均推定精度が最大の候補k′を、パラメータkとして設定してもよい。例えば、図23の場合、パラメータkは、平均推定精度が最大となる5に設定される。
次に、ステップS7におけるインピュテーション法による遺伝子型の推定方法について、図24〜図29を参照して説明する。図24は、インピュテーション法による遺伝子型の推定方法を示すフローチャートである。
ステップS71において、推定部5は、参照データ記憶部2を参照して、参照データ記憶部2に対象SNPのLDデータがあるか否か確認する。インピュテーション法では、対象SNPのLDデータを利用するため、対象SNPのLDデータが無い場合(ステップS71のNO)、処理はステップS5へ進み、k近傍法により未知検体Sの遺伝子型を推定する。k近傍法による推定方法は上述の通りである。
一方、対象SNPのLDデータがある場合(ステップS71のYES)、処理はステップS72に進む。
ステップS72において、推定部5は、参照データ記憶部2から、対象SNPのLDデータを取得する。
ステップS73において、推定部5は、対象SNPのLDデータを参照して、スコアが高いL個以上のSNPを抽出する。図25は、ステップS73におけるSNPの抽出方法を示すフローチャートである。
ステップS731において、推定部5は、対象SNPのLDデータから、推定用SNPのLDデータを抽出する。推定用SNPとは、クラスタリング強度CSが大きく、かつ、全ての検体が既知検体であるSNPのことである。推定用SNPは、例えば、クラスタリング強度CSが閾値θ1より大きいSNPである。
対象SNPのLDデータには、対象SNPに対する他の複数のSNPのスコアが含まれる。推定部5は、対象SNPのLDデータにスコアが含まれる各SNPの遺伝子型データ及びクラスタリングデータを参照して、推定用SNPのLDデータを抽出する。
ステップS732において、推定部5は、スコアの閾値LDθを、推定用SNPのLDデータに含まれるスコアの最高値に設定する。スコアは、LDデータに含まれる連鎖不平衡スコア、相関係数、及びオッズ比の対数などの中から任意に選択可能である。
ステップS733において、推定部5は、推定用SNPのLDデータを参照して、推定用SNPの中からスコアが閾値LDθ以上のSNPを抽出する。
ステップS734において、推定部5は、抽出したSNPの数が、所定値L以上であるか判定する。Lは任意に設定可能である。抽出したSNPの数がLより小さい場合(ステップS734のNO)、処理はステップS735に進む。
ステップS735において、推定部5は、閾値LDθを低くする(LDθ=LDθ−Δ)。閾値LDθの減少量Δは、例えば、0.01である。閾値LDθを低くした後、処理は、ステップS733に進む。そして、推定部5は、抽出したSNPの数がL以上になるまで、ステップS733〜S735の処理を繰り返す。
抽出したSNPの数がL以上の場合(ステップS734のYES)、SNPの抽出処理は終了し、処理はステップS74に進む。以上の処理により、推定部5は、スコアが閾値LDθ以上のL個以上の推定用SNPを抽出することができる。
ステップS74において、推定部5は、参照データ記憶部2から、ステップS73で抽出したSNPの参照ハプロタイプデータを取得する。
ステップS75において、推定部5は、検体データ記憶部1から、未知検体Sの遺伝子型データを取得する。
ステップS76において、推定部5は、未知検体Sの遺伝子型データから、未知検体Sのハプロタイプデータを作成する。未知検体Sのハプロタイプデータは、遺伝子型データからフェージング(相化)アルゴリズムを用いてSNPの遺伝子型を抽出し、各染色体に存在する対立遺伝子の配列を決定することにより作成することができる。フェージングアルゴリズムとして、例えば、BEAGLE,fastPHASE,IMPUTEv2,MACH,ShapeITを用いることができる。
図26は、未知検体Sのハプロタイプデータの一例を示す図である。図26に示すように、フェージングアルゴリズムにより、未知検体Sの遺伝子型データから、2つのハプロタイプデータHTD1,HTD2が作成される。未知検体Sのハプロタイプデータにおいて、遺伝子型が未知のSNPの対立遺伝子対は不明であるため、「−」で示されている。
ステップS77において、推定部5は、ステップS74で取得した参照ハプロタイプデータの中から、未知検体Sの2つのハプロタイプデータHTD1,HTD2に最も類似した参照ハプロタイプデータをそれぞれ選択する。ハプロタイプデータHTD1,HTD2と参照ハプロタイプデータとが類似するとは、遺伝子型が未知のSNP以外のSNPにおける対立遺伝子の配列が類似することをいう。
図27は、参照ハプロタイプデータの選択方法を説明する図である。例えば、ステップS74において、図27の参照ハプロタイプデータが抽出された場合、推定部5は、ハプロタイプデータHTD1に最も類似する参照ハプロタイプデータとして、参照ハプロタイプデータrefHTD5を選択し、ハプロタイプデータHTD2に最も類似する参照ハプロタイプデータとして、参照ハプロタイプデータrefHTD3を選択する。参照ハプロタイプデータの選択方法の詳細は後述する。
ステップS78において、推定部5は、選択した2つの参照ハプロタイプデータにおける対象SNPの対立遺伝子に基づいて、未知検体Sの遺伝子型を推定する。例えば、図27のように参照ハプロタイプデータを選択した場合、推定部5は、SNPrs987009の一方の対立遺伝子をGと推定し、他方の対立遺伝子をAと推定する。そして、推定部5は、これらの対立遺伝子に基づいて、未知検体SのSNPrs987009の遺伝子型をAGと推定する。
図28は、ステップS77における、参照ハプロタイプデータの選択方法を示すフローチャートである。
ステップS771において、推定部5は、抽出した参照ハプロタイプデータ及び未知検体Sのハプロタイプデータの対立遺伝子を数値に置換する。図29は、対立遺伝子を数値に置換された参照ハプロタイプデータ及び未知検体Sのハプロタイプデータの一例を示す図である。図29において、対立遺伝子A,C,G,Tが、数値1,2,3,4にそれぞれ置換されている。
ステップS772において、推定部5は、距離dhiを算出する。距離dhiは、未知検体Sの各ハプロタイプデータと、各参照ハプロタイプデータと、の間の距離である。距離dhiは、例えば、以下の式により算出される。
式(9)において、pは未知検体Sのハプロタイプデータに含まれるSNPのうち、遺伝子型が未知のSNPを除くSNPの数、sij(j=1〜p)は参照ハプロタイプデータiのj番目のSNPの数値、sj(j=1〜p)は未知検体Sのハプロタイプデータのj番目のSNPの数値である。
例えば、図29の場合、ハプロタイプデータHTD1と参照ハプロタイプデータrefHTD1との距離dhiは、0.35(=sqrt(((1−1)2+(4−4)2+(3−3)2+(4−1)2+(2−2)2+(4−4)2+(2−3)2+(1−1)2+(2−2)2))/9)と算出される。
ステップS773において、推定部5は、未知検体Sの各ハプロタイプデータについて、距離dhiが最小の参照ハプロタイプデータを、最も類似した参照ハプロタイプデータとして選択する。
次に、ステップS8におけるk近傍法とインピュテーション法とを併用した遺伝子型の推定方法について、図30を参照して説明する。図30は、k近傍法とインピュテーション法を併用した遺伝子型の推定方法を示すフローチャートである。
ステップS81において、推定部5は、k近傍法により未知検体Sの遺伝子型を推定し、1つ又は複数の遺伝子型の候補からなる遺伝子型群GT1を取得する。遺伝子型群GT1に含まれる遺伝子型の候補の数をα個とすると、遺伝子型群GT1は、例えば、遺伝子型の候補として、投票数が大きい順にα個の遺伝子型を選択したり、α個のパラメータkにより遺伝子型を推定したりすることにより取得できる。
ステップS82において、推定部5は、インピュテーション法により未知検体Sの遺伝子型を推定し、1つ又は複数の遺伝子型の候補からなる遺伝子型群GT2を取得する。遺伝子型群GT2に含まれる遺伝子型の候補の数をβ個とすると、遺伝子型群GT2は、例えば、未知検体Sのハプロタイプデータ毎に類似している参照ハプロタイプデータをβ個選択して遺伝子型を推定することにより取得できる。
ステップS83において、推定部5は、遺伝子型群GT1,GT2に含まれる遺伝子型の候補の中から、多数決アルゴリズムを用いて、未知検体Sの遺伝子型を推定する。多数決アルゴリズムの投票数として、遺伝子型群GT1,GT2に含まれる遺伝子型の数を用いることができる。
以上説明した通り、本実施形態に係る推定装置及び方法は、DNAマイクロアレイ技術により判定できなかった遺伝子型を、DNAマイクロアレイ技術によるクラスタリングの信頼度に応じた方法により推定する。すなわち、信頼度が低い場合には、参照データを利用したインピュテーション法により推定し、信頼度が高い場合には、DNAマイクロアレイ技術により判定された遺伝子型データを利用したk近傍法により推定する。これにより、本実施形態に係る推定装置及び方法は、遺伝子型を精度よく推定することができる。
なお、以上説明した本実施形態に係る推定装置は、GUI(Graphical User Interface)により操作可能であるのが好ましい。図31は、表示部6により表示されるGUIの操作画面の一例を示す図である。図31は、既知検体をサンプルとして用いたk近傍法により遺伝子型を推定する場合のGUIである。図31に示すように、このGUIは、SNP選択部G1と、検体選択部G2と、k値選択部G3と、検体一覧表示部G4と、選択結果表示部G5と、遺伝子型表示部G6と、を備える。
SNP選択部G1は、ユーザが対象SNPを選択するためのドロップダウンリストである。SNP選択部G1のドロップダウンリストには、未知検体を含む全てのSNPのIDが含まれる。SNP選択部G1には、ユーザにより選択された対象SNPのIDが表示される。
検体選択部G2は、ユーザが、遺伝子型を推定する未知検体Sを選択するためのドロップダウンリストである。検体選択部G2のドロップダウンリストには、対象SNPの遺伝子型データに含まれる全ての未知検体SのIDが含まれる。検体選択部G2のドロップダウンリストの内容は、ユーザにより選択された対象SNPに応じて変化する。検体選択部G2には、ユーザにより選択された未知検体SのIDが表示される。
k値選択部G3は、ユーザがパラメータkを設定するためのドロップダウンリストである。k値選択部G3のドロップダウンリストには、パラメータkの値の候補が複数含まれる。k値選択部G3には、ユーザにより設定されたパラメータkの値が表示される。図31では、パラメータkは5に設定されている。なお、k値選択部G3には、推定精度が最も高いパラメータkの値がデフォルト値として設定されているのが好ましい。
検体一覧表示部G4は、ユーザにより選択された対象SNPの遺伝子型データに含まれる既知検体(既知検体群STに含まれる既知検体Si)のIDの一覧と、各既知検体Siとユーザにより選択された未知検体Sとの間の距離diと、を表示する。図31で表示された距離diは、上述の式(6)により算出された距離である。
選択結果表示部G5は、検体一覧表示部G4に表示された既知検体Siの中から選択された、距離diが小さいk個の既知検体Siの、ID、距離di、遺伝子型、及び重みを表示する。図31において、パラメータkは5のため、5つの既知検体Siが表示されている。重みは、多数決アルゴリズムに用いられる重みであり、デフォルト値として1.0が設定されている。重みが1.0の場合、重み無しの多数決アルゴリズムとなる。重み付きアルゴリズムを用いる場合には、重みとして、上述の方法で算出された各既知検体Siの重みが表示される。
遺伝子型表示部G6は、k近傍法による遺伝子型の推定結果を表示する。図31において、推定された遺伝子型はAGである。
図32は、推定装置のGUIの操作画面の他の例を示す図である。図32のGUIを備える推定装置は、参照データ記憶部2に、SNPと疾患との関連を示す情報を記憶している。図32に示すように、このGUIは、患者選択部G7と、疾患選択部G8と、SNP情報表示部G9と、遺伝子型情報表示部G10と、を備える。
患者選択部G7は、ユーザが患者を選択するためのドロップダウンリストである。ここでいう患者は、DNAマイクロアレイ技術により遺伝子型を判定された検体に対応する。患者選択部G7のドロップダウンリストには、複数の患者(検体)のIDが含まれる。患者選択部G7には、ユーザにより選択された患者のIDが表示される。
疾患選択部G8は、ユーザが疾患を選択するためのドロップダウンリストである。疾患選択部G8のドロップダウンリストには、参照データ記憶部2に記憶された複数の疾患の名称が含まれる。疾患選択部G8には、ユーザにより選択された疾患の名称が表示される。
SNP情報表示部G9は、ユーザにより選択された患者及び疾患に関連するSNP情報を表示する。SNP情報には、染色体の種類、SNPのID、遺伝子座、疾患関連SNP、オッズ比(OR)、Addr情報、及び塩基配列情報などが含まれる。ここでいうオッズ比は、医学的な臨床試験の結果を示す方法として用いられる尺度であり、疾患へのかかりやすさを2つの群で比較して示す統計的な尺度である。また、Addr情報及び塩基配列情報については後述する。SNP情報は、参照データ記憶部2に記憶されている。
図32において、SNP情報表示部G9は、1番〜5番、10番〜12番、及びXY染色体を表示している。各染色体上の斜線部分は、疾患関連SNPのうち遺伝子型が既知のSNPを示し、ドット部分は疾患関連SNPのうち遺伝子型が未知のSNPを示している。図32において、各染色体上のSNPは、コマンドボタンとなっており、ユーザが選択(クリック)すると、そのSNPに関するAddr情報や、SNPの周辺の塩基配列が表示される。
Addr情報には、SNPが所属する染色体(Chromosome)の番号、染色体上での遺伝子座(Position)、SNPが所属する遺伝子の名称(Gene)、及びSNPのIDが含まれる。コマンドボタンによりユーザが選択したSNPのAddr情報は、SNP情報表示部G9のAddr欄に表示される。
塩基配列情報は、SNPを除く遺伝子座の塩基配列データである。コマンドボタンによりユーザがSNPを選択すると、選択されたSNPの周辺の塩基配列が塩基配列情報から抽出され、抽出された塩基配列の範囲に含まれるSNPの遺伝子型データが検体データ記憶部1から抽出され、SNP情報表示部G9の塩基配列欄に表示される。図32の塩基配列において、SNPの対立遺伝子A,Bは、[A/B]という形式で表示されている。例えば、図32において、SNPrs547984の対立遺伝子は、GとTである。
遺伝子型情報表示部G10は、ユーザにより選択されたSNPに関する遺伝子型情報を表示する。遺伝子型情報は、検体データ記憶部1に記憶された各種のデータから生成される。
ユーザにより選択されたSNPの遺伝子型が既知である場合、遺伝子型情報表示部G10は、図32に示すように、選択されたSNPのクラスタリングマップ(Genotype Clustering)や、HapMapによる遺伝子型の比率などを表示する。
クラスタリングマップは、検体データ記憶部1に予め記憶されていてもよいし、検体データ記憶部1に記憶された信号強度データなどから生成されてもよい。また、HapMapによる遺伝子型の比率とは、患者が所属する民族団体における、選択されたSNPの遺伝子型の比率のことである。HapMapによる遺伝子型の比率は、参照遺伝子型頻度データから抽出することができる。
これに対して、ユーザにより選択されたSNPの遺伝子型が未知である場合、遺伝子型情報表示部G10は、図33に示すように、推定部5による遺伝子型の推定結果や、遺伝子型を推定する過程を示すデータを表示する。
図33において、遺伝子型情報表示部G10に表示されたImputationは、表示ラベルであり、推定部5による遺伝子型の推定方法を示している。インピュテーション法により遺伝子型が推定された場合、図33に示すように、遺伝子型表示部G10は、参照ハプロタイプデータ、患者(検体)のハプロタイプデータ、フェージング後のハプロタイプデータ、インピュテーション後のハプロタイプデータなどを表示する。インピュテーション後のハプロタイプデータには、推定された遺伝子型が含まれる。SNP情報表示部G9の塩基配列欄には、推定された遺伝子型(対立遺伝子)が表示される。また、遺伝子型情報表示部G10は、図32と同様に、HapMapによる遺伝子型の比率を表示してもよい。
なお、推定部5がk近傍法により遺伝子型を推定した場合には、遺伝子型情報表示部G10は、図31における検体一覧表示部G4、選択結果表示部G5、及び遺伝子型表示部G6などに表示された情報を表示してもよい。
(第2実施形態)
第2実施形態について、図34〜図58を参照して説明する。本実施形態では、閾値法を用いた遺伝子型の推定方法について説明する。ここでいう閾値法とは、信号強度の区間と遺伝子型との対応関係を学習し、学習した対応関係に基づいて、各検体の遺伝子型を推定する、遺伝子型の推定方法のことである。信号強度の各区間は、信号強度の閾値により規定される。閾値法について、詳しくは後述する。
まず、本実施形態に係る推定装置の機能構成について、図34及び図35を参照して説明する。図34は、本実施形態に係る推定装置の機能構成を示すブロック図である。図34に示すように、この推定装置は、検体データ記憶部1と、推定部5と、表示部6と、を備える。以下、第1実施形態との相違点について説明する。
本実施形態において、検体データ記憶部1は、検体データとして、遺伝子型データと、信号強度データと、を記憶しており、クラスタリングデータを記憶していない。また、推定装置は、参照データ記憶部2と、取得部3と、判定部4と、を備えない。
これは、閾値法では、クラスタリングデータ、参照データ、及びクラスタリング強度を使用しないためである。後述するように、本実施形態に係る推定方法と、第1実施形態に係る推定方法と、を併用する場合には、検体データ記憶部1にクラスタリングデータを記憶させるとともに、推定装置に参照データ記憶部2と、取得部3と、判定部4と、を設ければよい。
また、推定部5は、閾値学習部51と、閾値法推定部52と、を備える。
閾値学習部51(以下、「学習部51」という)は、フルコール(Fullcall)SNPの信号強度に基づいて、閾値法で用いる信号強度の区間と、遺伝子型と、の対応関係を学習する。具体的には、学習部51は、信号強度の区間を規定する閾値と、遺伝子型と、の対応関係を学習する。
フルコールSNPとは、DNAマイクロアレイ技術によって全ての検体の遺伝子型が判定されたSNP、すなわち、全ての検体が既知検体であるSNPのことである。これに対して、DNAマイクロアレイ技術によって少なくとも1つの検体の遺伝子型が判定されなかったSNP、すなわち、少なくとも1つの未知検体を含むSNPを、ノーコール(Nocall)SNPと称する。
ここで、フルコールSNP及びノーコールSNPについて、図35を参照して具体的に説明する。図35は、検体データ記憶部1に記憶された遺伝子型データの一例を示す図である。図35の例では、SNPrs00001,rs999999は、全ての検体の遺伝子型が判定されている。したがって、SNPrs00001,rs999999は、フルコールSNPである。これに対して、SNPrs000002,rs000003は、それぞれ検体02,01が未知検体である。したがって、SNPrs000002,rs000003は、ノーコールSNPである。このように、学習部51は、遺伝子型データを参照することにより、フルコールSNP及びノーコールSNPを把握することができる。
学習部51は、閾値を学習するために、遺伝子型データからフルコールSNPを抽出し、信号強度データからフルコールSNPの各検体の信号強度を抽出する。信号強度データにn種類の信号強度の値が含まれている場合、学習部51は、学習する対象となるいずれか1種類の信号強度を抽出すればよい。学習部51が閾値を学習する信号強度の種類は、推定装置のユーザが任意に設定可能である。以下では、学習部51が信号強度x1を抽出し、信号強度x1の閾値を学習する場合を例に説明する。
また、学習部51が学習する閾値の数は、推定装置のユーザが任意に設定可能であり、1つでもよいし、複数でもよい。閾値の数は、各SNPに含まれる遺伝子型の種類に応じて設定されるのが好ましい。
信号強度の区間は、閾値の数より1つ多く規定される。したがって、各SNPに含まれる遺伝子型の種類の最大値がX個の場合、学習部51は、例えば、X−1個の閾値を学習することが考えられる。
以下では、学習部51が閾値xl(第1の閾値)と、xlより大きい閾値xr(第2の閾値)と、の2つの閾値を学習する場合を例に説明する。これは、第1実施形態と同様に、各SNPに最大3種類の遺伝子型が含まれる場合を想定している。
信号強度の閾値及びその学習方法について、詳しくは後述する。
閾値法推定部52(以下、「推定部52」という)は、学習部51が学習した信号強度の区間(閾値)と遺伝子型との対応関係に基づいて、ノーコールSNPの各検体の遺伝子型を推定する。上述の通り、ノーコールSNPには、未知検体及び既知検体が含まれる。したがって、本実施形態では、未知検体の遺伝子型の推定だけでなく、既知検体の遺伝子型の推定(再判定)も行われる。
例えば、第1実施形態では、図35のSNPrs000002は、未知検体である検体02の遺伝子型のみが推定される。これに対して、本実施形態では、SNPrs000002は、未知検体である検体02の遺伝子型を推定されるとともに、既知検体である検体01,Nの遺伝子型も推定される。閾値法を用いた遺伝子型の推定方法について、詳しくは後述する。
なお、本実施形態に係る推定装置のハードウェア構成は、第1実施形態と同様である。すなわち、コンピュータ100が推定プログラムを実行することにより、推定装置の上述の各機能構成が実現される。
次に、本実施形態に係る推定装置の動作について、図36〜図58を参照して具体的に説明する。以下では、学習部51の動作と、推定部52の動作と、について順に説明する。
まず、学習部51の動作について、図36〜図50を参照して説明する。以下では、学習部51が信号強度x1の2つの閾値xl,xr(3つの区間)を学習する場合を例に説明する。図36は、閾値の学習方法の概要を示すフローチャートである。各ステップについて、詳しくは後述する。
まず、ステップS10において、学習部51は、閾値組合せリストを生成する。閾値組合せリストとは、複数の閾値組合せを含むリストである。閾値組合せとは、閾値候補の組合せのことである。2つの閾値xl,xr(xl<xr)を学習する場合、閾値組合せは、閾値xlの候補と、閾値xrの候補と、の組合せとなる。
次に、ステップS11において、学習部51は、閾値組合せリストに含まれる各閾値組合せを評価するための遺伝子型頻度を算出する。
続いて、ステップS12において、学習部51は、各閾値組合せに含まれる閾値候補と、遺伝子型頻度と、に基づいて、各閾値組合せの評価値を算出する。
そして、ステップS13において、学習部51は、閾値組合せリストに含まれる閾値組合せの中から、評価値が最大の閾値組合せを選択する。選択された閾値組合せに含まれる各閾値候補が、閾値法で遺伝子型を推定するための閾値として採用される。
以下、ステップS10〜S13について、詳細に説明する。図37は、ステップS10における閾値組合せリストの生成方法の一例を示すフローチャートである。
ステップS101において、学習部51は、検体データ記憶部1から、全てのSNPの遺伝子型データと、全てのSNPの信号強度x1の信号強度データと、を取得する。
図38は、取得された遺伝子型データ及び信号強度データの一例を示す図である。図38の例では、SNPrs000001〜rs9999999の遺伝子型データ及び信号強度データが取得されている。
ステップS102において、学習部51は、ステップS101で取得した遺伝子型データに含まれる各遺伝子型を、クラスタ番号に置換する。クラスタ番号とは、クラスタリングマップ上の各クラスタの相対位置に応じて割当てられた値である。学習部51は、まず、各SNPの各クラスタに、クラスタ番号を割当てる。
図39は、クラスタ番号の割当て方法の一例を示す図である。図39の例では、クラスタリングマップ上の右に位置するクラスタから順に、クラスタ番号0,1,2が割当てられている。これは、重心の信号強度x1が大きいクラスタから順に、クラスタ番号0,1,2を割当てることに相当する。
学習部51は、ステップS101で取得した遺伝子型データ及び信号強度データから、各クラスタの重心の信号強度x1を算出して、クラスタ番号を割当てることができる。また、検体データ記憶部1にクラスタ座標データが記憶されている場合には、学習部51は、検体データ記憶部1からクラスタ座標データを取得し、取得したクラスタ座標データを参照して、クラスタ番号を割当ててもよい。
クラスタ番号は、SNP毎に、共通の方法で割当てられる。したがって、あるSNPでは、遺伝子型AAのクラスタにクラスタ番号0が割当てられ、他のSNPでは、遺伝子型CCのクラスタにクラスタ番号0が割当てられる、ということが起こりえる。
学習部51は、各クラスタにクラスタ番号を割当てた後、各検体の遺伝子型を、その検体が含まれるクラスタに割当てられたクラスタ番号に置換する。例えば、学習部51は、あるクラスタに、クラスタ番号0が割当てられた場合、そのクラスタに含まれる各検体の遺伝子型を、0に置換する。
図40は、遺伝子型をクラスタ番号に置換後の遺伝子型データの一例を示す図である。図40の遺伝子型データは、図38の遺伝子型データに対応している。図40において、0,1,2は、それぞれ遺伝子型に対応するクラスタ番号であり、−1は、遺伝子型が判定されていないことに対応するクラスタ番号である。
例えば、SNPrs000001において、遺伝子型CGは、クラスタ番号1に置換され、遺伝子型CCは、クラスタ番号2に置換されている。また、SNPrs000002において、遺伝子型ATは、クラスタ番号1に置換され、遺伝子型TTはクラスタ番号2に置換されている。これは、SNPrs000001における遺伝子型CGのクラスタの相対位置と、SNPrs000002における遺伝子型ATの相対位置と、が等しいことを示している。
なお、図39の例では、クラスタ番号は、各クラスタに、信号強度x1の降順で割当てられたが、信号強度x1の昇順で割当てられてもよいし、信号強度x2の降順又は昇順で割当てられてもよい。
以下、各検体の遺伝子型を、クラスタ番号を用いて表す。例えば、図40のSNPrs000001の検体01の遺伝子型は、遺伝子型1となる。
ステップS103において、学習部51は、置換後の遺伝子型データを参照して、フルコールSNPを抽出する。例えば、図40の遺伝子型データを参照すると、フルコールSNPとして、SNPrs000001,rs999998,rs999999が抽出される。
ステップS104において、学習部51は、ステップS101で取得した信号強度データから、ステップS103で抽出したフルコールSNPの、信号強度データを抽出する。
図41は、抽出されたフルコールSNPの信号強度データの一例を示す図である。図41の信号強度データは、図38の信号強度データからフルコールSNPの信号強度データを抽出したものである。
ステップS105において、学習部51は、ステップS104で抽出したフルコールSNPの信号強度データを、1クラスタSNPの信号強度データと、複数クラスタSNPの信号強度データと、に分割する。
1クラスタSNPとは、判定結果として1種類の遺伝子型をしか含まないSNPのことである。すなわち、1クラスタSNPとは、全ての検体が同一の遺伝子型と判定されたSNPのことである。これに対して、複数クラスタSNPとは、判定結果として複数種類の遺伝子型を含むSNPのことである。判定結果として、2種類以上の遺伝子型を含むSNPは、全て複数クラスタSNPに含まれる。ただし、ここでいう2種類以上の遺伝子型には、上述の遺伝子型−1は含まれない。
学習部51は、信号強度データを分割するために、各SNPの遺伝子型データに含まれる遺伝子型の種類を数える。学習部51は、あるSNPの遺伝子型データに含まれる遺伝子型の種類が1種類(例えば、遺伝子型1)である場合、そのSNPを1クラスタSNPと判定する。また、学習部51は、あるSNPの遺伝子型データに含まれる遺伝子型の種類が2種類以上である場合、そのSNPを複数クラスタSNPと判定する。学習部51は、こうして得られたSNPの判定結果に基づいて、フルコールSNPの信号強度データを分割する。
図42は、1クラスSNPの信号強度データ及び複数クラスタSNPの信号強度データの一例を示す図である。図42の信号強度データは、図41の信号強度データを分割したものである。図40からわかるように、SNPrs999998は、1種類の遺伝子型0のみを含む1クラスタSNPであり、SNPrs000001,rs999999は、3種類の遺伝子型0,1,2を含む複数クラスタSNPである。このため、図42に示すように、1クラスタSNPの信号強度データには、SNPrs999998の信号強度データが含まれ、複数クラスタSNPの信号強度データには、SNPrs000001,999999の信号強度データが含まれている。
このように、1クラスタSNP及び複数クラスタSNPの信号強度データを分割するのは、1クラスタSNPにおけるクラスタの分布と、複数クラスタSNPにおけるクラスタの分布と、の間の相違が大きいためである。信号強度の閾値の学習と、学習した閾値を用いた遺伝子型の推定と、を1クラスタSNP及び複数クラスタSNPのそれぞれについて行うことにより、遺伝子型の推定精度を向上させることができる。
なお、本実施形態において、推定装置は、1クラスタSNP及び複数クラスタSNPをまとめて処理することも可能である。この場合、学習部51は、ステップS105における信号強度データの分割を行なわず、以降の処理についても、1クラスタSNP及び複数クラスタSNPをまとめて処理すればよい。
ステップS106において、学習部51は、ステップS105で分割した1クラスタSNPの信号強度データを参照して、信号強度の統計値を遺伝子型毎に算出する。また、学習部51は、ステップS105で分割した複数クラスタSNPの信号強度データを参照して、信号強度の統計値を遺伝子型毎に算出する。
信号強度の統計値には、最小値、平均値、最大値、及び標準偏差値が含まれる。学習部51は、置換後の遺伝子型データを参照して、分割後の1クラスタSNP(又は複数クラスタSNP)の信号強度データから遺伝子型0の信号強度を抽出し、抽出した信号強度の統計値を算出することにより、1クラスタSNP(又は複数クラスタSNP)の遺伝子型0の信号強度の統計値を算出することができる。他の遺伝子型も同様の方法で算出される。
図43は、1クラスタSNPの信号強度の統計値と、複数クラスタSNPの信号強度の統計値と、の一例を示す図である。図43の例では、1クラスタSNPの遺伝子型2の信号強度の最小値は、−6.29である。
ステップS107において、学習部51は、1クラスタSNPの各遺伝子型の信号強度の平均値に基づいて、1クラスタのSNPの信号強度の区間と、遺伝子型と、を対応させる。また、学習部51は、複数クラスタSNPの各遺伝子型の信号強度の平均値に基づいて、複数クラスタSPNの信号強度の区間と、遺伝子型と、を対応させる。
学習部51が、2つの信号強度xl、xrを学習すると、信号強度の区間が3つ形成される。学習部51は、信号強度が小さい区間から順に、信号強度の平均値が小さい遺伝子型を対応させる。
図44は、信号強度の区間と、遺伝子型と、の対応関係の一例を示す図である。図44の対応関係は、図43の信号強度の平均値に基づいている。図43の例では、信号強度の平均値は、遺伝子型2,1,0の順に小さい。このため、図44の例では、信号強度が小さい区間から順に、遺伝子型2,1,0が対応付けられている。具体的には、信号強度がxl未満の区間に遺伝子型2が対応付けられ、信号強度がxl以上xr以下の区間に遺伝子型1が対応付けられ、信号強度がxrより大きい区間に遺伝子型0が対応付けられている。
ステップS108において、学習部51は、ステップS106で算出した1クラスタSNPの統計値に基づいて、1クラスタSNPの閾値候補リストを生成する。また、学習部51は、ステップS106で算出した複数クラスタSNPの統計値に基づいて、複数クラスタSNPの閾値候補リストを生成する。閾値候補リストとは、複数の閾値候補を含むリストのことである。閾値候補とは、信号強度の閾値xl、xrの候補のことである。
1クラスタSNP(又は複数クラスタSNP)の閾値候補は、例えば、1クラスタSNP(又は複数クラスタSNP)の各遺伝子型の信号強度の、最小値、平均値、最大値、平均値+N×標準偏差(Nは整数)であるが、これに限られない。
図45は、1クラスタSNPの閾値候補リストと、複数クラスタSNPの閾値候補リストと、の一例を示す図である。図45の閾値候補リストは、図43の統計値に対応しており、9個の閾値候補(各遺伝子型の最小値、平均値、最大値)を含んでいる。例えば、1クラスタSNPの閾値候補リストに含まれる閾値候補−6.29は、1クラスタSNPの遺伝子型2の信号強度の最小値である。
また、1クラスタSNP(又は複数クラスタSNP)の閾値候補は、例えば、1クラスタSNP(又は複数クラスタSNP)の統計値の最大値と最小値との間を、等間隔に分割する値であってもよい。この場合、各閾値候補xiは、以下の式で算出される。
式(10),(11)において、nは閾値候補リストに含まれる閾値候補の数、xminは統計値の最小値、xmaxは統計値の最大値、dは閾値候補の間隔である。図43の例では、1クラスタSNPの統計値の最小値xminは、遺伝子型2の信号強度の最小値である−6.29に相当し、最大値xmaxは、遺伝子型0の信号強度の最大値である7.46に相当する。
なお、閾値候補リストに含まれる閾値候補は、上記のものに限られず、信号強度の統計値から任意の方法で生成可能である。また、閾値候補リストには、閾値候補として、予め設定された任意の値が含まれてもよい。
ステップS109において、学習部51は、ステップS108で生成した1クラスタSNPの閾値候補リストを参照して、1クラスタSNPの閾値組合せリストを生成する。また、学習部51は、ステップS108で生成した複数クラスタSNPの閾値候補リストを参照して、複数クラスタSNPの閾値組合せリストを生成する。
閾値組合せリストとは、上述の通り、複数の閾値組合せを含むリストである。学習部51は、閾値候補リストに含まれる閾値候補を組み合わせて閾値組合せを生成し、複数の閾値組合せを含む閾値組合せリストを生成する。
閾値候補リストに閾値候補がn個含まれ、閾値組合せに閾値候補がr個含まれる場合、最大でn!/(n−r)!r!個の閾値組合せが生成される。したがって、1クラスタSNPの閾値候補リストに9個の閾値候補が含まれ、閾値組合せに2つの閾値候補xl、xrが含まれる場合、最大で36個の閾値組合せが生成される。
図46は、1クラスタSNPの閾値組合せリストの一例を示す図である。図46の閾値組合せリストは、図45の閾値候補リストに対応している。図46の閾値組合せリストには、36個の閾値組合せが含まれている。図46の例では、例えば、閾値組合せ1は、(xl、xr)=(−6.29,7.46)である。図46のような閾値組合せリストが、複数クラスタSNPについても生成される。
次に、ステップS11における遺伝子型頻度の算出方法について、詳細に説明する。閾値組合せリストを生成した後、学習部51は、1クラスタSNPの遺伝子型頻度と、複数クラスタSNPの遺伝子型頻度と、をそれぞれ算出する。遺伝子型頻度とは、隣接する2つの閾値候補により規定される信号強度の区間に含まれる信号強度、を有する検体の数のことである。遺伝子型頻度は、遺伝子型毎に算出される。
学習部51は、ステップS105で分割した信号強度データと、置換後の遺伝子型データと、ステップS108で生成した閾値候補リストと、を参照することにより、1クラスタSNP及び複数クラスタSNPの各区間の各遺伝子型の遺伝子型頻度を算出することができる。
例えば、図42の1クラスタSNPの信号強度データを参照すると、SNPrs999998の検体01の信号強度は0.3である。この信号強度は、図45の1クラスタSNPの閾値候補リストを参照すると、閾値候補0.69と閾値候補2.11との間の区間に含まれることがわかる。そして、図40の遺伝子型データを参照すると、SNPrs999998の検体01の遺伝子型は2である。結果として、1クラスタSNPの0.69と2.11との間の区間の遺伝子型2の遺伝子型頻度が、1加算される。
学習部51は、1クラスタSNPの信号強度データに含まれる各信号強度を参照して、上記のように各区間の各遺伝子型の遺伝子型頻度を加算していき、1クラスタSNPの遺伝子型頻度を算出する。複数クラスタSNPについても同様の方法で遺伝子型頻度が算出される。
図47は、1クラスタSNPの遺伝子型頻度の一例を示す図である。図47の遺伝子型頻度は、図45の閾値候補リストに対応している。図47の例では、閾値候補−2.11と閾値候補−1.79との間の区間において、遺伝子型2の遺伝子型頻度が大きく、遺伝子型1の遺伝子型頻度が小さく、遺伝子型0の遺伝子型頻度が0である。
次に、ステップS12における評価値の算出方法及びステップS13における閾値組合せの選択方法について、詳細に説明する。遺伝子型頻度を算出した後、学習部51は、1クラスタSNPの各閾値組合せの評価値を算出し、算出した評価値に基づいて、1クラスタSNPの閾値組合せを選択する。また、学習部51は、複数クラスタSNPの各閾値組合せの評価値を算出し、算出した評価値に基づいて、複数クラスタSNPの閾値組合せを選択する。
まず、学習部51は、フルコールSNPにおける1クラスタSNPの遺伝子型を、各閾値組合せに基づいてそれぞれ再判定する。以下、2つの再判定方法について説明する。
第1の再判定方法では、学習部51は、1クラスタSNPの閾値組合せリストから1つの閾値組合せを選択し、1クラスタSNPの検体の信号強度及び遺伝子型を抽出する。そして、学習部51は、信号強度がxlより小さい検体の遺伝子型を遺伝子型2と再判定し、信号強度がxl以上xr以下の検体の遺伝子型を遺伝子型1と再判定し、信号強度がxrより大きい検体の遺伝子型を遺伝子型0と再判定する。
図48は、第1の再判定方法による再判定の前後のクラスタリングマップの一例を示す図である。図48において、丸は各検体を示し、丸中の値は遺伝子型の値を示している。図48の上図は、再判定前の遺伝子型を示し、下図は再判定後の遺伝子型を示している。図48からわかるように、第1の再判定方法では、閾値候補xlと閾値候補xrとの間の区間に信号強度が含まれる検体の遺伝子型は、全ての遺伝子型1と再判定される。
このように、第1の再判定方法では、閾値組合せのみが用いられ、遺伝子型頻度が用いられない。したがって、第1の再判定方法を採用する場合には、ステップS11を省略することができる。
これに対して、第2の再判定方法では、遺伝子型頻度が用いられる。具体的には、第2の再判定方法では、信号強度がxl以上xr以下の検体の遺伝子型が、遺伝子型頻度を用いた多数決アルゴリズムにより再判定される。すなわち、信号強度がxl以上xr以下の検体は、その検体の信号強度が含まれる区間における遺伝子型頻度が最大の遺伝子型に再判定される。
例えば、(xl,xr)=(−2.11,2.33)であり、ある検体の信号強度が−2.00であり、図47に示す遺伝子型頻度が得られた場合、この検体の遺伝子型は、−2.11と−1.79との間の区間において遺伝子型頻度が最大である、遺伝子型2に再判定される。
図49は、第2の再判定方法による再判定の前後のクラスタリングマップの一例を示す図である。図49に示すように、第2の再判定方法では、閾値候補xlと閾値候補xrとの間の区間に信号強度が含まれる検体が、必ずしも遺伝子型1と再判定されるわけではない。
学習部51は、上記のような再判定方法により、1クラスタSNPの遺伝子型を再判定した後、再判定前の遺伝子型と、再判定後の遺伝子型と、の一致率を算出する。例えば、図48の例では、再判定の前後で、16個の検体のうち、12個の検体の遺伝子型が一致するため、一致率は0.75である。また、図49の例では、再判定の前後で、16個の検体のうち、13個の検体の遺伝子型が一致するため、一致率は0.81である。
こうして算出された一致率が、再判定に使用された閾値組合せの評価値として用いられる。学習部51は、以上の方法により、1クラスタSNPの閾値組合せリストに含まれる各閾値組合せの評価値を算出する。また、学習部51は、複数クラスタSNPの閾値組合せリストに含まれる各閾値組合せの評価値も、同様の方法で算出する。
図50は、評価値を含む閾値組合せリストの一例を示す図である。図50の例では、閾値組合せ1の評価値は0.80、閾値組合せ24の評価値は0.97である。
学習部51は、1クラスタSNPの閾値組合せリストに含まれる閾値組合せの中から、評価値が最大の閾値組合せを選択する。選択された閾値組合せに含まれる各閾値候補が、閾値法で1クラスタSNPの遺伝子型を推定するための閾値として学習される。
また、学習部51は、複数クラスタSNPの閾値組合せリストに含まれる閾値組合せの中から、評価値が最大の閾値組合せを選択する。選択された閾値組合せに含まれる各閾値候補が、閾値法で複数クラスタSNPの遺伝子型を推定するための閾値として学習される。
例えば、図50の例では、閾値組合せリストの中で評価値が最大の閾値組合せは、閾値組合せ24であるため、閾値組合せ24に含まれる閾値候補が、遺伝子型を推定するための閾値として学習される。すなわち、閾値法により遺伝子型を推定する際、閾値xlとして−0.80が使用され、閾値xrとして2.11が使用される。
以上のように閾値を学習することにより、閾値法による遺伝子型の推定精度を向上させることができる。これは、閾値組合せの評価値(一致率)が高いほど、その閾値組合せによる遺伝子型の推定結果と、フルコールSNPにおける遺伝子型の推定結果と、が近くなるためである。一般に、フルコールSNPにおける遺伝子型の推定精度は高いため、フルコールSNPにおける推定結果と近い推定結果を得られる閾値組合せほど、推定精度が高くなる。
次に、推定部52による閾値を用いた遺伝子型の推定方法について、図51〜図58を参照して説明する。以下では、信号強度の閾値xl、xrは、学習済みであるものとする。図51は、閾値法による遺伝子型の推定方法の概要を示すフローチャートである。
まず、ステップS14において、推定部52は、検体データ記憶部1から、全てのSNPの遺伝子型データと、全てのSNPの信号強度x1の信号強度データと、を取得する。
次に、ステップS15において、推定部52は、ステップS14で取得した遺伝子型データに含まれる各遺伝子型を、クラスタ番号に置換する。遺伝子型の置換方法は、ステップS102で説明した通りである。
続いて、ステップS16において、推定部52は、置換後の遺伝子型データを参照して、ノーコールSNPを抽出する。例えば、図40の遺伝子型データを参照すると、ノーコールSNPとして、SNPrs000002,rs000003が抽出される。
そして、ステップS17において、推定部52は、ステップS16で抽出したノーコールSNPの中から、対象SNPを選択する。対象SNPとは、閾値法により遺伝子型を推定する対象となるSNPのことである。本実施形態では、上述の通り、閾値の学習は、全てのフルコールSNPを用いて行われるが、遺伝子型の推定は、個々のノーコールSNPごとに行われる。対象SNPの選択方法は任意である。
その後、ステップS18において、推定部52は、ステップSS17で選択した対象SNPの各検体の遺伝子型を、閾値法により推定する。ステップS18について、詳しくは後述する。
対象SNPとして未選択のノーコールSNPがある場合(ステップS19のYES)、推定部52は、未選択のノーコールSNPの中から、次の対象SNPを選択する(ステップS17)。以降、未選択のノーコールSNPがなくなるまで、ステップS17〜S19が繰り返される。
そして、対象SNPとして未選択のノーコールSNPがなくなると(ステップS19のNO)、推定部52は、遺伝子型の推定処理を終了する。
ここで、ステップS18における、遺伝子型の推定方法について、詳細に説明する。以下、2つの推定方法についてそれぞれ説明する。
まず、第1の推定方法について説明する。第1の推定方法では、推定部52は、信号強度の閾値xl,xrのみを用いて、対象SNPの全検体の遺伝子型を推定する。図52は、第1の推定方法を示すフローチャートである。
ステップS1801において、推定部52は、置換後の遺伝子型データ及び信号強度データの中から、対象SNPの遺伝子型データ及び信号強度データを抽出する。
ステップS1802において、推定部52は、対象SNPの遺伝子型データを参照して、対象SNPのクラスタ数を取得する。クラスタ数の取得方法は、上述の通りである。すなわち、推定部52は、対象SNPの遺伝子型データに含まれる遺伝子型の種類を数えることにより、対象SNPのクラスタ数を取得する。
なお、信号強度の閾値xl,xrが、1クラスタSNP及び複数クラスタSNPのそれぞれについて個別に学習されていない場合、ステップS1802は省略されてもよい。この場合、推定部52は、1クラスタSNP及び複数クラスタSNPをまとめて、以降の処理を実行すればよい。
ステップS1803において、推定部52は、学習部51から、対象SNPのクラスタ数に応じた信号強度の閾値xl,xrを取得する。推定部52は、対象SNPのクラスタ数が1の場合、1クラスタSNPの閾値xl,xrを取得し、対象SNPのクラスタ数が2以上の場合、複数クラスタSNPの閾値xl,xrを取得する。
ステップS1804において、推定部52は、ステップS1803で取得した閾値xl,xrに基づいて、対象SNPの各検体の遺伝子型を推定する。具体的には、推定部52は、信号強度xiがxlより小さい(xi<xl)検体の遺伝子型を遺伝子型2と推定し、信号強度がxl以上xr以下(xl≦xi≦xr)の検体の遺伝子型を遺伝子型1と推定し、信号強度がxrより大きい(xr<xi)検体の遺伝子型を遺伝子型0と推定する。
図53は、第1の推定方法による推定の前後のクラスタリングマップの一例を示す図である。図53の上図は、第1の推定方法による推定前の遺伝子型を示し、下図は第1の推定方法による推定後の遺伝子型を示している。図53からわかるように、第1の推定方法では、未知検体及び既知検体を含む全ての検体の遺伝子型が、閾値xl,xrに基づいて推定される。
その後、推定部52は、対象SNPの遺伝子型の推定処理を終了する。未選択のノーコールSNPがある場合(ステップS19のYES)、推定部52は、次の対象SNPを選択する(ステップS17)。
次に、第2の推定方法について説明する。第2の推定方法では、推定部52は、信号強度の閾値xl,xrを用いて、対象SNPの既知検体の遺伝子型を推定した後、k近傍法を用いて未知検体の遺伝子型を推定する。図54は、第2の推定方法を示すフローチャートである。図54のステップS1801〜S1803は、第1の推定方法と同様であるため、説明を省略する。
ステップS1805において、推定部52は、ステップS1803で取得した閾値xl,xrに基づいて、対象SNPの検体のうち、信号強度が最大の検体と、信号強度が最小の検体と、の遺伝子型を推定する。具体的には、推定部52は、信号強度がxlより小さい検体の遺伝子型を遺伝子型2と推定し、信号強度がxl以上xr以下の検体の遺伝子型を元の遺伝子型と推定し、信号強度がxrより大きい検体の遺伝子型を遺伝子型0と推定する。
図55は、ステップS1805における推定の前後のクラスタリングマップの一例を示す図である。図55の上図は、推定前の遺伝子型を示し、下図は推定後の遺伝子型を示している。図55の例では、上図に示すように、信号強度が最小の検体(左端の検体)の遺伝子型は遺伝子型2であり、信号強度が最大の検体(右端の検体)の遺伝子型は遺伝子型1である。また、これら2つの検体の信号強度は、いずれも閾値xlより小さい。この場合、下図に示すように、ステップS1805において、2つの検体の遺伝子型はいずれも遺伝子型2と推定される。これに対して、図55の右端の検体の信号強度がxl以上xr以下の場合には、ステップS1805において、右端の検体の遺伝子型は、遺伝子型1(元の遺伝子型)と推定される。
ステップS1806において、推定部52は、ステップS1805で推定した2つの検体の遺伝子型が同じか判定する。2つの検体の遺伝子型が同じ場合(ステップS1806のYES)、処理はステップS1807に進む。
ステップS1807において、推定部52は、全検体の遺伝子型を、ステップS1805で推定された2つの検体の遺伝子型と同じ遺伝子型と推定する。これは、信号強度が最大及び最小の検体の遺伝子型がいずれも同じ遺伝子型Xと推定された場合、以降の処理で、全ての検体の遺伝子型が同じ遺伝子型Xと推定されるためである。
ステップS1805〜S1807において、2つの検体の遺伝子型だけ先に推定し、その推定結果に基づいて全ての検体の遺伝子型を推定することにより、推定装置の計算量を削減することができる。
図56は、ステップS1807における推定の前後のクラスタリングマップの一例を示す図である。図56の上図は、推定前の遺伝子型を示し、下図は推定後の遺伝子型を示している。図56の上図は、図55の下図に相当する。図56の例では、左端及び右端の検体の遺伝子型が、いずれも遺伝子型2と推定されているため、ステップS1807において、全ての検体の遺伝子型が遺伝子型2と推定されている。図56からわかるように、ステップS1807では、既知検体だけでなく、未知検体の遺伝子型も推定されるため、k近傍法は使用されない。
その後、推定部52は、対象SNPの遺伝子型の推定処理を終了する。未選択のノーコールSNPがある場合(ステップS19のYES)、推定部52は、次の対象SNPを選択する(ステップS17)。
一方、ステップS1805で推定した2つの検体の遺伝子型が異なる場合(ステップS1806のNO)、処理はステップS1808に進む。
ステップS1808において、推定部52は、ステップS1803で取得した閾値xl,xrに基づいて、対象SNPの全検体の遺伝子型を推定する。推定方法は、ステップS1805と同様である。すなわち、推定部52は、信号強度がxlより小さい検体の遺伝子型を遺伝子型2と推定し、信号強度がxl以上xr以下の検体の遺伝子型を元の遺伝子型と推定し、信号強度がxrより大きい検体の遺伝子型を遺伝子型0と推定する。
図57は、ステップS1808における推定の前後のクラスタリングマップの一例を示す図である。図57の上図は、推定前の遺伝子型を示し、下図は推定後の遺伝子型を示している。図57の例では、ステップS1808における推定の結果、信号強度がxrより大きい4つの検体の遺伝子型が、遺伝子型0と推定されている。
ステップS1809において、推定部52は、ステップS1808における推定前の遺伝子型と推定後の遺伝子型との一致率を算出し、算出した一致率が一致率閾値より大きいか判定する。一致率閾値は、任意に設定可能である。図57の例では、16個の検体のうち、推定の前後で12個の検体の遺伝子型が一致しているため、一致率は0.75となる。
一致率が一致率閾値より大きい場合(ステップS1809のYES)、処理はステップS1810に進む。
ステップS1810において、推定部52は、対象SNPの検体の中に、未知検体があるか判定する。上述の通り、未知検体は、遺伝子型が−1の検体に相当する。このため、推定部52は、ステップS1808における推定結果を参照して、遺伝子型−1の検体があるか確認することにより、未知検体があるか判定することができる。
対象SNPの検体に未知検体がなかった場合(ステップS1810のNO)、推定部52は、対象SNPの遺伝子型の推定処理を終了する。未選択のノーコールSNPがある場合(ステップS19のYES)、推定部52は、次の対象SNPを選択する(ステップS17)。
一方、図57の例のように、対象SNPの検体に未知検体があった場合(ステップS1810のYES)、処理はステップS1811に進む。
ステップS1811において、推定部52は、対象SNPの検体から未知検体を抽出し、k近傍法により、各未知検体の遺伝子型を推定する。このとき、既知検体の遺伝子型として、ステップS1808における推定結果が用いられる。k近傍法による遺伝子型の推定方法は、第1実施形態で説明した通りである。推定部52は、例えば、未知検体に最近傍の(クラスタリングマップ上におけるユークリッド距離が最も近い)k個の検体(又はクラスタ線)を抽出し、抽出した検体(又はクラスタ線)の遺伝子型のうち、最も多い遺伝子型を、未知検体の遺伝子型として推定すればよい。
その後、推定部52は、対象SNPの遺伝子型の推定処理を終了する。未選択のノーコールSNPがある場合(ステップS19のYES)、推定部52は、次の対象SNPを選択する(ステップS17)。
これに対して、一致率が一致率閾値以下の場合(ステップS1809のNO)、処理はステップS1812に進む。
ステップS1812において、推定部52は、クラスタ毎に多数決法により遺伝子型を推定する。まず、推定部52は、対象SNPの既知検体を、ステップS1811における推定前の遺伝子型毎に分類し、各遺伝子型に対応するクラスタを生成する。各クラスタには、そのクラスタに対応する遺伝子型を有する検体が含まれる。
次に、推定部52は、ステップS1808における推定結果を参照し、各クラスタに含まれる検体の推定後の遺伝子型のうち、最も多い遺伝子型を、そのクラスタの遺伝子型と推定する。そして、推定部52は、各クラスタに含まれる全ての検体の遺伝子型を、その検体が含まれるクラスタの遺伝子型と推定する。
図58は、ステップS1808,S1812における推定の前後のクラスタリングマップの一例を示す図である。図58の上図は、ステップS1808における推定前の遺伝子型を示し、中図は、ステップS1808における推定後の遺伝子型を示し、下図は、ステップS1812における推定後の遺伝子型を示している。図58の上図及び中図は、図57と対応している。
図58の例では、推定部52は、まず、遺伝子型1の検体を4個含むクラスタ1と、遺伝子型2の検体を11個含むクラスタ2と、を生成する(上図参照)。
次に、推定部52は、ステップS1808における推定結果を参照し、クラスタ1に含まれる検体の推定後の遺伝子型のうち、最も多い遺伝子型を、クラスタ1の遺伝子型と推定する(中図参照)。図58の例では、クラスタ1には、遺伝子型0の検体が3個含まれ、遺伝子型1の検体が1個含まれる。したがって、推定部52は、クラスタ1の遺伝子型を遺伝子型1と推定する。
そして、推定部52は、クラスタ1に含まれる全ての検体の遺伝子型を、クラスタ1の遺伝子型である遺伝子型0と推定する(下図参照)。推定部52は、同様の方法で、クラスタ2に含まれる各検体の遺伝子型も推定する。結果として、クラスタ2に含まれる全ての検体の遺伝子型は、遺伝子型2と推定される。
その後、処理はステップS1810に進む。ステップS1810以降の処理は、上述の通りであり、ステップS1811において、未知検体の遺伝子型がk近傍法により推定される。
以上説明した通り、本実施形態に係る推定装置は、信号強度の閾値を用いた閾値法により、ノーコールSNPの遺伝子型を推定する。閾値は、遺伝子型を精度よく判定されたフルコールSNPの信号強度データを用いて学習されるため、推定装置は、ノーコールSNPの遺伝子型を精度よく推定することができる。
また、本実施形態に係る推定方法は、参照データを用いることなく遺伝子型を推定できるため、参照データが十分に得られない場合であっても、利用することができる。
なお、本実施形態において、k近傍法で使用するパラメータkの値は、クロス検証により最適に設定されてもよい。クロス検証によるパラメータkの設定方法は、第1実施形態で説明したとおりである。
また、本実施形態に係る推定装置は、第1実施形態に係る推定方法を実行可能であってもよい。この場合、推定方法は、GUIによりユーザが選択可能であるのが好ましい。推定装置は、ユーザにより選択された推定方法を実行すればよい。
(第3実施形態)
第3実施形態について、図59〜図61を参照して説明する。本実施形態では、第1実施形態及び第2実施形態に係る推定方法で用いた、k近傍法による遺伝子型の推定方法の変形例について説明する。
上記の各実施形態では、k近傍法により、未知検体の遺伝子型を推定可能であることが前提であった。しかしながら、複数の未知検体が、クラスタリングマップ上において、相対的に近い位置に集まっている場合、上記のk近傍法では、各未知検体の遺伝子型を推定できないことがあり得る。
図59は、複数の未知検体が相対的に近い位置に集まったクラスタリングマップの一例を示す図である。図59において、検体s1〜s3は、未知検体であり、互いに近い位置に集まっている。
図59の例では、k近傍法のパラメータkが3である場合、検体s1の最近傍の3個の検体として、遺伝子型が−1の検体s2,s3検体と、遺伝子型が0の検体1つと、が選択される。結果として、多数決アルゴリズムにより、検体s1の遺伝子型は、−1と推定される。すなわち、検体s1の遺伝子型は推定できない。同様の理由で、検体s2,s3の遺伝子型も推定できない。
本実施形態では、このような場合にも、未知検体の遺伝子型を推定可能なk近傍法について説明する。図60は、本実施形態に係るk近傍法を示すフローチャートである。
ステップS20において、推定部5は、未知検体リストを生成する。未知検体リストとは、対象SNPの全ての未知検体を含むリストである。
ステップS21において、推定部5は、ステップS20で生成した未知検体リストが空か判定する。未知検体リストが空の場合(ステップS21のYES)、すなわち、対象SNPに未知検体がない場合、推定部5は、k近傍法による未知検体の遺伝子型の推定処理を終了する。
一方、未知検体リストが空ではない場合(ステップS21のNO)、すなわち、対象SNPに未知検体がある場合、処理はステップS22に進む。
ステップS22において、推定部5は、全ての検体を用いたk近傍法により、未知検体リストに含まれる各未知検体の遺伝子型を推定する。ステップS22で実行されるk近傍法による遺伝子型の推定は、第1実施形態で説明した通りである。
ステップS23において、推定部5は、ステップS22で遺伝子型が推定された未知検体を、未知検体リストから削除する。ここで削除された未知検体は、以降の処理では既知検体として扱われる。
ステップS23で1つ以上の未知検体が未知検体リストから削除された場合(ステップS24のYES)、処理はステップS21に戻る。これは、1つ以上の未知検体が新たな既知検体となることにより、ステップS22で遺伝子型を推定できなかった未知検体の遺伝子型が、推定できるようになる可能性があるためである。
以降、1つ以上の未知検体が未知検体リストから削除されなくなるまで(ステップS22で1つ以上の未知検体の遺伝子型が推定されなくなるまで)、ステップS21〜S24の処理が繰り返される。
一方、ステップS23で1つ以上の未知検体が未知検体リストから削除されなかった場合(ステップS24のNO)、処理はステップS25に進む。これは、全検体を用いたk近傍法では、未知検体の遺伝子型を推定できなくなった場合に相当する。すなわち、上述の通り、複数の未知検体が相対的に近い位置に集まっていることを意味する。
ステップS25において、推定部5は、未知検体リストに含まれる未知検体の中から、対象検体を選択する。ここでいう対象検体は、遺伝子型の推定対象となる未知検体のことである。推定部5は、対象検体をランダムに選択してもよいし、以下の方法により選択してもよい。
まず、推定部5は、未知検体リストに含まれる各未知検体について、最近傍のk個の既知検体との間の平均距離を算出する。そして、推定部5は、k個の既知検体との間の平均距離が最小の未知検体を、対象検体として選択する。
ステップS26において、推定部5は、ステップS25で選択した対象検体の遺伝子型を、既知検体のみを用いたk近傍法により推定する。これにより、対象検体の最近傍のk個の検体として、k個の既知検体が選択される。したがって、選択された既知検体の遺伝子型に基づいて、対象検体の遺伝子型を推定することができる。
ステップS27において、推定部5は、対象検体を未知検体リストから削除する。その後、処理はステップS21に戻る。以降、未知検体リストが空になるまで、ステップS21〜S27の処理が繰り返される。
図61は、本実施形態に係るk近傍法により、未知検体の遺伝子型が推定される過程に対応する、クラスタリングマップを示す図である。図61の左上図は、図59と同様である。説明を簡単にするために、検体s1〜s3は、全検体を用いたk近傍法では遺伝子型を推定できないものとする。また、検体s1〜s3は、この順番で対象検体として選択されるものとする。さらに、パラメータkは3であるものとする。
まず、1回目の反復処理において、推定部5は、検体s1を対象検体として選択する(ステップS25)。そして、推定部5は、既知検体を用いたk近傍法により、検体s1の遺伝子型を推定する。図61の例では、検体s1の最近傍の3個の既知検体として、遺伝子型0の3個の既知検体が選択される。したがって、推定部5は、左下図に示すように、検体s1の遺伝子型を遺伝子型0と推定する(ステップS26)。その後、推定部5は、検体s1を未知検体リストから削除する(ステップS27)。以降、検体s1は、遺伝子型0の既知検体となる。
次に、2回目の反復処理において、推定部5は、検体s2を対象検体として選択する(ステップS25)。そして、推定部5は、既知検体を用いたk近傍法により、検体s2の遺伝子型を推定する。図61の例では、検体s2の最近傍の3個の既知検体として、遺伝子型1の2個の既知検体と、遺伝子型0の1個の既知検体(検体s1)と、が選択される。したがって、推定部5は、右上図に示すように、検体s2の遺伝子型を遺伝子型1と推定する(ステップS26)。その後、推定部5は、検体s2を未知検体リストから削除する(ステップS27)。以降、検体s2は、遺伝子型1の既知検体となる。
さらに、3回目の反復処理において、推定部5は、検体s3を対象検体として選択する(ステップS25)。そして、推定部5は、既知検体を用いたk近傍法により、検体s3の遺伝子型を推定する。図61の例では、検体s3の最近傍の3個の既知検体として、遺伝子型1の2個の既知検体(検体s2を含む)と、遺伝子型0の1個の既知検体(検体s1)と、が選択される。したがって、推定部5は、右下図に示すように、検体s3の遺伝子型を遺伝子型1と推定する(ステップS26)。その後、推定部5は、検体s3を未知検体リストから削除する(ステップS27)。これにより、検体s3は、遺伝子型1の既知検体となる。
以上説明した通り、本実施形態に係るk近傍法によれば、複数の未知検体が相対的に近い位置に集まっている場合であっても、未知検体の遺伝子型を推定することができる。本実施形態に係るk近傍法は、第1実施形態及び第2実施形態のいずれにも適用可能である。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。