JPWO2016157473A1

JPWO2016157473A1 - 遺伝子型判定装置及び方法

Info

Publication number: JPWO2016157473A1
Application number: JP2017509089A
Authority: JP
Inventors: 亜梨花福島; 真也梅野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-04-01
Filing date: 2015-04-01
Publication date: 2017-12-21
Anticipated expiration: 2035-04-01
Also published as: JP6367473B2; WO2016157473A1; CN107533591A; US20170364632A1; GB201713894D0; GB2551091A

Abstract

ＤＮＡマイクロアレイを用いた遺伝子型判定技術における、遺伝子型の判定精度を向上させる遺伝子型判定装置及び方法を提供する。一実施形態に係る遺伝子型判定装置は、代表値算出部と、第１ラベリング部と、モデル構築部と、第２ラベリング部と、を備える。代表値算出部は、複数のＳＮＰにおける複数の検体の信号強度に基づいて分類されたＳＮＰ毎の検体のクラスタについて、信号強度に基づいて各クラスタの代表値を算出する。第１ラベリング部は、３つのクラスタに分類されたＳＮＰの各クラスタに、各クラスタの代表値に基づいて遺伝子型を割当てる。モデル構築部は、３つのクラスタに分類されたＳＮＰの各クラスタの遺伝子型と代表値と、の関係を示すモデルを構築する。第２ラベリング部は、１つ又は２つのクラスタに分類されたＳＮＰの各クラスタに、各クラスタの代表値及びモデルに基づいて遺伝子型を割当てる。

Description

本発明の実施形態は、遺伝子型判定装置及び方法に関する。

生物は、遺伝情報をゲノム塩基配列（ＤＮＡ）として保持しており、同生物種では、塩基配列の大部分は一致する。しかし、塩基配列の一部は個体間で異なり、特に、同一生物種の集団において１％以上の頻度で塩基が異なる遺伝子座を一塩基多型（ＳＮＰ）と呼ぶ。ヒトのように染色体を２本持つ生物（二倍体の生物）においては、ＳＮＰにおける塩基の違いによって、３種類の組合せパターンが生じる。このような組み合わせパターンを遺伝子型と呼ぶ。

ＳＮＰの遺伝子型によって、同生物種間においても体質などの個体差が生じるため、遺伝子型は、遺伝病や薬効・薬副作用に関連する。このため、ある個体の特定のＳＮＰの遺伝子型を調べることにより、投薬前に薬効・副作用を予測できる。

遺伝病や薬効・薬副作用と関連する遺伝子型を発見するために、ヒトの場合、数十万個から数百万個のＳＮＰの遺伝子型を一度に判定する必要がある。これを実現可能とする遺伝子型判定方法として、ＤＮＡマイクロアレイを利用する方法が挙げられる。

この方法では、まず、ＤＮＡマイクロアレイにより、アレイ側のＳＮＰの既知塩基配列と、遺伝子型を判定したいある生物（検体）の未知塩基配列と、をハイブリダイゼーションさせ、信号強度を測定する。次に、同一ＳＮＰで測定された複数の検体の信号強度を平面上に射影し、個々のＳＮＰにおいて、同一遺伝子型のクラスタに分類する。そして、生物学的知見を用いて、各クラスタの遺伝子型を割当てる（ラベリングする）。これにより、同一ＳＮＰの遺伝子型を、複数の検体に対して一度に判定することができる。

しかしながら、上記従来の方法では、温度や湿度などの実験環境により生じる信号強度の揺らぎが考慮されていなかったため、クラスタに誤った遺伝子型が割当てられることがあった。これにより、誤った遺伝子型に判定されたＳＮＰが増加し、遺伝子型の判定精度が低下するという問題があった。

米国特許出願公開第２００８／０２８７３０８号明細書

ＤＮＡマイクロアレイを用いた遺伝子型判定技術における、遺伝子型の判定精度を向上させる遺伝子型判定装置及び方法を提供する。

一実施形態に係る遺伝子型判定装置は、代表値算出部と、第１ラベリング部と、モデル構築部と、第２ラベリング部と、を備える。代表値算出部は、ＤＮＡマイクロアレイにより計測された複数のＳＮＰにおける複数の検体の信号強度に基づいて分類されたＳＮＰ毎の検体のクラスタについて、各クラスタに含まれる検体の信号強度に基づいて各クラスタの代表値を算出する。第１ラベリング部は、ＳＮＰのうち３つのクラスタに分類されたＳＮＰの各クラスタに、各クラスタの代表値に基づいて遺伝子型を割当てる。モデル構築部は、ＳＮＰのうち３つのクラスタに分類されたＳＮＰの各クラスタの遺伝子型と、各クラスタの代表値と、の関係を示すモデルを構築する。第２ラベリング部は、ＳＮＰのうち１つ又は２つのクラスタに分類されたＳＮＰの各クラスタに、各クラスタの代表値及びモデルに基づいて遺伝子型を割当てる。

ＤＮＡマイクロアレイを示す概略図。ＤＮＡマイクロアレイの動作を説明する図。信号強度平面上にプロットされた検体の一例を示す図。各遺伝子型のクラスタの位置関係を説明する図。検体の分布の揺らぎを説明する図。検体の分布の揺らぎによる影響を説明する図。第１実施形態に係る遺伝子型判定装置による遺伝子型の判定方法の概要を説明する図。第１実施形態に係る遺伝子型判定装置による遺伝子型の判定方法の概要を説明する図。第１実施形態に係る遺伝子型判定装置を示す機能ブロック図。信号強度データの一例を示す図。信号強度データの一例を示す図。クラスタデータの一例を示す図。変換信号強度平面上にプロットされた検体の一例を示す図。変換信号強度データの一例を示す図。変換信号強度データの一例を示す図。代表値データの一例を示す図。確率分布モデルの一例を示す図。確率分布モデルを利用した遺伝子型の割当方法を説明する図。遺伝子型の判定結果の一例を示す図。第１実施形態に係る遺伝子型判定装置のハードウェア構成を示す図。第１実施形態に係る遺伝子型判定装置による遺伝子型の判定処理を概略的に示すフローチャート。代表値の算出処理を示すフローチャート。信号強度データの抽出方法を説明する図。代表値の算出方法を説明する図。３クラスタのＳＮＰの代表値データの一例を示す図。２クラスタのＳＮＰの代表値データの一例を示す図。１クラスタのＳＮＰの代表値データの一例を示す図。３クラスタのＳＮＰに対する遺伝子型の割当処理を示すフローチャート。３クラスタのＳＮＰに対する遺伝子型の割当方法を説明する図。３クラスタのＳＮＰに対する遺伝子型の割当結果の一例を示す図。クラスタデータへの割当結果の適用方法を説明する図。代表値データへの割当結果の適用方法を説明する図。更新された代表値データの一例を示す図。確率分布モデルの構築処理を示すフローチャート。代表値の抽出方法を説明する図。確率分布モデルの一例を示す図。１，２クラスタのＳＮＰに対する遺伝子型の割当処理を示すフローチャート。１，２クラスタのＳＮＰに対する遺伝子型の割当方法を説明する図。１，２クラスタのＳＮＰに対する遺伝子型の割当結果の一例を示す図。第２実施形態に係る遺伝子型判定装置を示す機能ブロック図。第２実施形態に係る遺伝子型判定装置による再割当処理を示すフローチャート。第２実施形態に係る遺伝子型判定装置による割当方法Ａを説明する図。第２実施形態に係る遺伝子型判定装置による割当方法Ｂを説明する図。第２実施形態に係る遺伝子型判定装置による割当方法Ｃを説明する図。第２実施形態に係る遺伝子型判定装置による割当方法Ｄを説明する図。第３実施形態に係る遺伝子型判定装置による割当方法Ａを説明する図。第３実施形態に係る遺伝子型判定装置による割当方法Ｂを説明する図。第３実施形態に係る遺伝子型判定装置による割当方法Ｃを説明する図。表示装置に表示される画面の一例を示す図。表示装置に表示される画面の一例を示す図。表示装置に表示される画面の一例を示す図。表示装置に表示される画面の一例を示す図。

以下、本発明の実施形態について図面を参照して説明する。

まず、ＤＮＡマイクロアレイを用いた遺伝子型の判定技術の概要について、図１〜図６を参照して説明する。図１は、ＤＮＡマイクロアレイを示す概略図である。図１に示すように、ＤＮＡマイクロアレイは、複数の検体区画を備える。各検体区画は、各検体と対応する。各検体区画は、数十万から数百万のＳＮＰ区画を備える。各ＳＮＰ区画は、各ＳＮＰと対応する。

各ＳＮＰ区画は、既知の塩基配列からなる２種類のプローブＡ，Ｂを備える。プローブとは、各ＳＮＰにおいて２種類の異なる塩基を捉えるための仕組みのことで、各プローブは、そのＳＮＰ区画が対応するＳＮＰの塩基が異なる。図１の例では、ＳＮＰの塩基がＡのプローブと及びＣのプローブが示されている。このＳＮＰ区画に検体のＤＮＡが適用されると、対応するＳＮＰの塩基がＴの検体のＤＮＡは、塩基がＡのプローブにハイブリダイゼーションし、塩基がＧの検体のＤＮＡは、塩基がＣのプローブにハイブリダイゼーションする。

各プローブに検体のＤＮＡがハイブリダイゼーションすると蛍光強度や電流強度などの信号強度が変化する。ＤＮＡマイクロアレイは、この信号強度を、プローブの種類毎に計測する。以下では、一方のプローブをプローブＡ、他方のプローブをプローブＢという。また、プローブＡのハイブリダイゼーションに応じて強度が変化する信号を信号Ａ、信号Ａの強度を信号強度Ａという。また、プローブＢのハイブリダイゼーションに応じて強度が変化する信号を信号Ｂ、信号Ｂの強度を信号強度Ｂという。

ここで、ＳＮＰｉの塩基がＡのプローブをプローブＡ、塩基がＣのプローブをプローブＢとすると、図２に示すように、検体１のＳＮＰｉの遺伝子型がＴＴの場合、ＳＮＰｉに対応するＳＮＰ区画では、プローブＡに多くの検体がハイブリダイゼーションし、信号強度Ａが大きくなる。このように、信号強度Ａが大きくなる遺伝子型を、以下では遺伝子型ＡＡと称する。遺伝子型ＡＡは、ホモ接合体の遺伝子型である。

また、検体２のＳＮＰｉの遺伝子型がＴＧの場合、ＳＮＰｉに対応するＳＮＰ区画では、プローブＡ，Ｂに同程度の検体がハイブリダイゼーションし、信号強度Ａ，Ｂが同程度になる。このように、信号強度Ａ，Ｂが同程度になる遺伝子型を、以下では遺伝子型ＡＢと称する。遺伝子型ＡＢは、ヘテロ接合体の遺伝子型である。

さらに、検体３のＳＮＰｉの遺伝子型がＧＧの場合、ＳＮＰｉに対応するＳＮＰ区画では、プローブＢに多くの検体がハイブリダイゼーションし、信号強度Ｂが大きくなる。このように、信号強度Ｂが大きくなる遺伝子型を、以下では遺伝子型ＢＢと称する。遺伝子型ＢＢは、ホモ接合体の遺伝子型である。

ＤＮＡマイクロアレイは、複数のＳＮＰにおける複数の検体について、同時に信号強度Ａ，Ｂを計測する。次に、ＤＮＡマイクロアレイが計測した信号強度Ａ，Ｂに基づいて、ＳＮＰ毎の検体のクラスタリングが行われる。

図３は、あるＳＮＰｉに対して、複数の検体を信号強度平面上にプロットした図である。図３において、横軸は信号強度Ａ、縦軸は信号強度Ｂ、破線は各クラスタを示している。各クラスタは、ＳＮＰｉの遺伝子型が同一の検体の集合である。検体のクラスタリングは、既存のクラスタリング方法を利用して行われる。これにより、各ＳＮＰに対して、３つ以下のクラスタがそれぞれ生成される。

そして、クラスタリングの後、生成された各クラスタに遺伝子型が割当てられる。上記の通り、遺伝子型ＡＢの検体は、信号強度Ａ，Ｂが同程度になることから、遺伝子型ＡＢのクラスタは、信号強度平面上における４５°の直線上に分布すると考えられる。また、遺伝子型ＡＡのクラスタは、信号強度Ａが大きく、信号強度Ｂが小さいことから、４５°の直線より、信号強度Ａ軸側に分布し、遺伝子型ＢＢのクラスタは、信号強度Ｂが大きく、信号強度Ａが小さいことから、４５°の直線より、信号強度Ｂ軸側に分布すると考えられる。

従来の遺伝子型判定技術では、このような遺伝子型毎の信号強度の大小関係を利用して、各クラスタへの遺伝子型の割当が行われた。図４は、このような方法により遺伝子型を割当てられた図３の各クラスタを示す図である。図４において、信号強度Ａ軸近傍のクラスタには遺伝子型ＡＡが割当てられ、信号強度Ｂ軸近傍のクラスタには遺伝子型ＢＢが割当てられ、４５°の直線上のクラスタには遺伝子型ＡＢが割当てられている。

各ＳＮＰに対して以上の処理を行うことにより、従来の遺伝子型判定技術では、複数のＳＮＰにおける複数の検体の遺伝子型を同時に判定することができる。例えば、図４の例では、検体１のＳＮＰｉは遺伝子型ＡＡ、検体２のＳＮＰｉは遺伝子型ＡＢ、検体３のＳＮＰｉは遺伝子型ＢＢと判定される。

信号強度の大小関係を利用した遺伝子型の割当方法では、信号強度Ａ，Ｂが正確に計測されている場合、高い精度で遺伝子型を割当てることができる。しかしながら、実際には、ＤＮＡマイクロアレイによって信号強度Ａ，Ｂを計測する際の実験環境（ＤＮＡマイクロアレイの試薬など）の影響で、信号強度Ａ，Ｂに計測誤差が生じ、検体の分布に揺らぎが生じることがある。

例えば、図５に示すように、信号強度Ａが信号強度Ｂより相対的に大きく計測され、検体の分布が非対称になったり（揺らぎ１）、検体の分布が全体的に平行移動したりする（揺らぎ２）ことが考えられる。

このように、検体の分布に揺らぎが生じると、図５に示すように、４５°の直線上に、遺伝子型ＡＢ以外のクラスタが位置するおそれがある。このような場合であっても、１つのＳＮＰに対してクラスタが３つ生成されていれば、クラスタの信号強度順に遺伝子型を割当てることにより、遺伝子型を正しく割当てること可能であるが、図６に示すように、１つのＳＮＰに対してクラスタが１つ又は２つしか生成されない場合、遺伝子型の割当は困難となる。

これは、図６のように、クラスタが１つ又は２つしか生成されていない場合、検体の分布にどのように揺らぎが生じているのか不明なためである。そこで、以下の各実施形態に係る遺伝子型判定装置は、検体の分布に生じた揺らぎを考慮して、各ＳＮＰの各クラスタに対して遺伝子型を割当てる。

（第１実施形態）
以下、第１実施形態について、図７〜図３９を参照して説明する。

まず、第１実施形態に係る遺伝子型判定装置による遺伝子型の判定方法の概要について説明する。図７及び図８は、本実施形態に係る遺伝子型判定装置による判定方法の概要を説明する図である。

図７の例では、１００万ＳＮＰの９０検体の信号強度及びクラスタＩＤが用意されている。１００万ＳＮＰのうち、５０万ＳＮＰは３クラスタ、２０万ＳＮＰは２クラスタ、３０万ＳＮＰは１クラスタに分類されている。

遺伝子型判定装置は、上記の通り、遺伝子型を、検体毎にではなく、クラスタ毎に割当てる。このために、まず、遺伝子型判定装置は、各クラスタに含まれる検体の信号強度から、各クラスタの代表値を計算する。代表値は、各ＳＮＰに対して計算される。

次に、遺伝子型判定装置は、３クラスタに分類されたＳＮＰの各クラスタに対して、代表値の大小関係を利用して遺伝子型を割当てる。図７の例では、ＳＮＰ１の各クラスタの代表値は、それぞれ１０°，４０°，８０°である。このとき、遺伝子型判定装置は、代表値が小さい順に、３つのクラスタに遺伝子型ＡＡ，ＡＢ，ＢＢを割当てる。遺伝子型判定装置は、この方法で、３クラスタに分類された５０万個のＳＮＰの全てのクラスタに、遺伝子型を割当てる。

これにより、図７に示すように、５０万ＳＮＰの各遺伝子型の代表値が得られる。図７の例では、ＳＮＰ１の遺伝子型ＡＡ，ＡＢ，ＢＢの代表値は、それぞれ１０°，４０°，８０°である。

遺伝子型判定装置は、こうして得られた５０万ＳＮＰの遺伝子型と代表値とを用いて、確率分布モデルを構築する。例えば、遺伝子型ＡＡの確率分布モデルは、遺伝子型ＡＡの５０万個の代表値の確率密度関数として表される。

続いて、遺伝子型判定装置は、１又は２クラスタに分類されたＳＮＰの各クラスタに対して、確率分布モデルを利用して遺伝子型を割当てる。具体的には、遺伝子型判定装置は、各クラスタの代表値を、上記の確率分布モデルに適用し、確率密度が最大となる遺伝子型を、各クラスタに割当てる。

図８の例では、２クラスタに分類されたＳＮＰ３のクラスタ１の代表値は４２°、クラスタ２の代表値は７８°である。４２°を確率分布モデルに適用すると、遺伝子型ＡＢの確率密度が最大となる。また、７８°を確率分布モデルに適用すると、遺伝子型ＢＢの確率密度が最大となる。このため、ＳＮＰ３のクラスタ１には遺伝子型ＡＢ、クラスタ２には遺伝子型ＢＢが割当てられる。遺伝子型判定装置は、この方法で、２クラスタに分類された２０万個のＳＮＰの全てのクラスタに、遺伝子型を割当てる。１クラスタに分類された３０万個のＳＮＰについても同様である。

次に、本実施形態に係る遺伝子型判定装置（以下、「判定装置」という）の機能構成について、図９〜図１９を参照して説明する。図９は、本実施形態に係る判定装置を示す機能ブロック図である。

図９に示すように、この判定装置は、信号強度ＤＢ１と、クラスタリング部２と、クラスタＤＢ３と、代表値算出部４と、代表値ＤＢ５と、第１ラベリング部６と、モデル構築部７と、モデルＤＢ８と、第２ラベリング部９と、判定結果ＤＢ１０と、表示部１１と、を備える。

信号強度ＤＢ１は、ＤＮＡマイクロアレイが計測した信号強度Ａ，Ｂ（信号強度データ）を格納する。上述の通り、信号強度Ａ，Ｂは、蛍光強度であってもよいし、電流強度であってもよい。以下では、信号強度ＤＢ１には、検体１〜ＭのＳＮＰ１〜ｎの信号強度がそれぞれ格納されているものとする。このとき、信号強度ＤＢ１には、Ｍ×ｎ個の信号強度Ａ，Ｂがそれぞれ格納される。

図１０は、信号強度ＤＢ１に格納された信号強度Ａの一例を示す図である。図１０において、信号強度Ａは蛍光強度であり、ＦＵは蛍光単位である。図１０に示すように、信号強度ＤＢ１には、検体１〜ＭのＳＮＰ１〜ｎの信号強度Ａが格納される。例えば、図１０の例では、検体１のＳＮＰ１の信号強度Ａは、４９４．２０ＦＵである。

図１１は、信号強度ＤＢ１に格納された信号強度Ｂの一例を示す図である。図１１において、信号強度Ｂは蛍光強度であり、ＦＵは蛍光単位である。図１１に示すように、信号強度ＤＢ１には、検体１〜ＭのＳＮＰ１〜ｎの信号強度Ｂが格納される。例えば、図１１の例では、検体１のＳＮＰ１の信号強度Ｂは、１４４８．１７ＦＵである。

クラスタリング部２は、信号強度ＤＢ１に格納された信号強度Ａ，Ｂに基づいて、ＳＮＰ毎にクラスタを生成する。クラスタとは、検体の集合のことである。各検体は、クラスタリング部２が生成したいずれかのクラスタに分類される。検体がヒトである場合、遺伝子型はＡＡ，ＡＢ，ＢＢの３つしか存在しないため、各ＳＮＰに対して３つ以下のクラスタが生成される。クラスタリング部２は、ｋ−ｍｅａｎｓ法などの周知のクラスタリング方法を用いて検体のクラスタリングを行なえばよい。

クラスタＤＢ３は、クラスタリング部２によるクラスタリング結果（クラスタデータ）を格納する。すなわち、クラスタＤＢ３は、各ＳＮＰの各検体のクラスタ情報を格納する。図１２は、クラスタＤＢ３に格納されたクラスタリング結果の一例を示す図である。図１２の例では、ＳＮＰ１の検体１のクラスタは、クラスタ１である。また、ＳＮＰ１は１つのクラスタに分類され、ＳＮＰ２は２つのクラスタに分類され、ＳＮＰ３は３つのクラスタに分類されている。

なお、判定装置は、図１２のようなクラスタリング結果を、外部装置から取得することも可能である。この場合、判定装置は、クラスタリング部２を備えなくてもよい。

また、クラスタリング部２は、信号強度Ａ，Ｂから、変換信号強度ｘ，ｙを計算し、変換信号強度ｘ，ｙに基づいてクラスタリングを行なってもよい。変換信号強度ｘ，ｙは、例えば、以下の式により計算される。

式（１），（２）により計算された変換信号強度ｘ，ｙを利用してクラスタリングを行うと、図１３に示すように、変換信号強度ｘ軸及び変換信号強度ｙ軸とからなる変換信号強度平面上に検体がプロットされ、変換信号強度平面上にクラスタが生成される。変換信号強度上に生成されるクラスタは、図１３に示すように、変換信号強度ｘの大きさに応じたクラスタとなり、変換信号強度ｘが小さい順に、遺伝子型ＡＡ，ＡＢ，ＢＢのクラスタに対応する。

クラスタリング部２により計算された変換信号強度ｘ，ｙは、信号強度ＤＢ１に格納してもよい。図１４は、信号強度ＤＢ１に格納された変換信号強度ｘの一例を示す図であり、図１５は、信号強度ＤＢ１に格納された変換信号強度ｙの一例を示す図である。図１４及び図１５において、変換信号強度ｘ，ｙは無次元である。判定装置は、信号強度ＤＢ１に格納された変換信号強度ｘ，ｙを、信号強度Ａ，Ｂの代わりに利用してもよい。

代表値算出部４は、クラスタリング部２が生成した各クラスタの代表値を算出する。代表値は、各ＳＮＰの各クラスタに固有の値である。本実施形態において、代表値は、各ＳＮＰの各クラスタに含まれる検体の信号強度Ａ，Ｂや変換信号強度ｘ，ｙに基づいて計算される。以下では、代表値は、信号強度Ａ，Ｂに基づいて算出されるものとする。

代表値は、例えば、各クラスタの回帰直線の回帰係数、回帰係数の逆正接、又は原点を通る近似直線の傾きであるが、これに限られない。代表値は、各クラスタの相関係数、クラスタ中心値、クラスタ中央値、クラスタ分散、比の平均値、又は差の平均値であってもよい。

代表値ＤＢ５は、代表値算出部４が算出した各ＳＮＰの各クラスタの代表値（代表値データ）を格納する。図１６は、代表値ＤＢ５に格納された代表値の一例を示す図である。図１６の例では、各クラスタの代表値として、１つの値が格納されている。図１６において、例えば、ＳＮＰ１のクラスタ１の代表値は３．３１であり、クラスタ２，３の代表値は、ＮＡ（Not Available）である。ＮＡは、代表値が格納されていないことを示す。これは、ＳＮＰ１にはクラスタが１つしか生成されていないことに対応する。

第１ラベリング部６は、代表値ＤＢ５を参照して、クラスタが３つ生成されたＳＮＰを抽出する。クラスタが３つ生成されたＳＮＰは、３つのクラスタに代表値が格納されたＳＮＰに対応する。例えば、図１６の例では、ＳＮＰ３が抽出される。

次に、第１ラベリング部６は、抽出した各ＳＮＰの各クラスタに遺伝子型を割当てる。遺伝子型の割当は、代表値の大小関係を利用して行われる。より詳細には、代表値として、クラスタに含まれる検体の信号強度Ａが大きいほど大きくなる値が算出されている場合、第１ラベリング部６は、代表値が大きい順に、３つのクラスタに遺伝子型ＡＡ，ＡＢ，ＢＢを割当てる。同様に、代表値として、クラスタに含まれる検体の信号強度Ｂが大きいほど大きくなる値が算出されている場合、第１ラベリング部６は、代表値が大きい順に、３つのクラスタに遺伝子型ＢＢ，ＡＢ，ＡＡを割当てる。これは、代表値が変換信号強度ｘ，ｙに基づいて算出されている場合も同様である。

例えば、代表値が図３の信号強度平面上における各クラスタの回帰係数である場合、信号強度Ｂが大きいほど代表値は大きくなる。したがって、第１ラベリング部６は、代表値が大きい順に、３つのクラスタに遺伝子型ＢＢ，ＡＢ，ＡＡを割当てる。したがって、図１６の例では、クラスタ１に遺伝子型ＡＡが割当てられ、クラスタ２に遺伝子型ＡＢが割当てられ、クラスタ３に遺伝子型ＢＢが割当てられる。

第１ラベリング部６が、割当結果をクラスタＤＢ３に格納されたクラスタデータに適用することにより、３つクラスタに分類されたＳＮＰの遺伝子型の判定結果が生成される。判定結果は、判定結果ＤＢ１０に格納される。

モデル構築部７は、第１ラベリング部６が割当てた各クラスタの遺伝子型と、遺伝子型を割当てられた各クラスタの代表値と、に基づいて、遺伝子型と代表値との関係を示す確率分布モデルを構築する。確率分布モデルは、遺伝子型毎の代表値の確率密度関数からなる。各確率密度関数の確率変数は、代表値である。

確率分布モデルとして、ガウス分布（正規分布）、混合ガウス分布、Ｆ分布、及びベータ分布など、任意の確率分布に従う確率密度関数を利用することができる。また、各確率密度関数は、遺伝子型毎に異なる種類の分布に従ってもよい。例えば、遺伝子型ＡＡ，ＢＢの確率密度関数は混合ガウス分布に従い、遺伝子型ＡＢの確率密度関数は正規分布に従うことが考えられる。

図１７は、モデル構築部７が構築した確率分布モデルの一例を示す図である。図１７の例では、代表値は、原点を通る近似直線の傾きである。図１７において、左から順に、遺伝子型ＡＡ，ＡＢ，ＢＢの確率密度関数が示されている。

信号強度Ａ，Ｂが正確に計測されている場合、遺伝子型ＡＡ，ＢＢの確率分布は、遺伝子型ＡＢの確率分布に対して対称になる。また、遺伝子型ＡＢの確率分布は、その平均値が約４５°となる。これに対して、図１７の確率分布モデルでは、遺伝子型ＡＡ，ＢＢの確率分布が非対称となり（揺らぎ１）、遺伝子型ＡＢの確率分布の平均値が４５°からずれている（揺らぎ２）。

このように、第１ラベリング部６が割当てた遺伝子型及び代表値を利用することにより、モデル構築部７は、実験環境の影響による分布の揺らぎを反映した確率分布モデルを構築することができる。

モデルＤＢ８は、モデル構築部７が構築した確率分布モデルを格納する。すなわち、遺伝子型毎の確率密度関数のパラメータ（平均や分散）を格納する。

第２ラベリング部９は、代表値ＤＢ５を参照して、クラスタが１つ又は２つ生成されたＳＮＰを抽出する。クラスタが１つ又は２つ生成されたＳＮＰは、１つ又は２つのクラスタに代表値が格納されたＳＮＰにそれぞれ対応する。例えば、図１６の例では、ＳＮＰ１，２が抽出される。

次に、第２ラベリング部９は、抽出した各ＳＮＰの各クラスタに遺伝子型を割当てる。遺伝子型の割当は、モデルＤＢ８に格納された確率分布モデルを利用して行われる。より詳細には、第２ラベリング部９は、各クラスタの代表値を各遺伝子型の確率密度関数に代入し、確率密度が最大となる遺伝子型を各クラスタに割当てる。

例えば、図１８に示すように、ＳＮＰ１のクラスタ１の代表値がα°であった場合、クラスタ１は、遺伝子型ＡＡの確率密度関数における確率密度が最大となる。したがって、第２ラベリング部９は、ＳＮＰ１のクラスタ１に遺伝子型ＡＡを割当てる。

第２ラベリング部９が、割当結果をクラスタＤＢ３に格納されたクラスタデータに適用することにより、１つ又は２つのクラスタに分類されたＳＮＰの遺伝子型の判定結果が生成される。判定結果は、判定結果ＤＢ１０に格納される。

判定結果ＤＢ１０は、各検体の各ＳＮＰの遺伝子型の判定結果を格納する。判定結果は、クラスタＤＢ３に格納された各クラスタに、第１ラベリング部６及び第２ラベリング部９が割当てた遺伝子型を適用することで生成される。図１９は、判定結果ＤＢ１０に格納された遺伝子型の判定結果の一例を示す図である。図１９の例では、検体１のＳＮＰ１は、遺伝子型ＡＡである。

表示部１１は、判定装置が生成した各種の情報を、画像データや映像データに変換し、後述する表示装置１０３に表示させる。図９の例では、表示部１１は、判定結果ＤＢ１０のみと接続されているが、信号強度ＤＢ１、クラスタＤＢ３、代表値ＤＢ５、及びモデルＤＢ８と接続されていてもよい。表示部１１が表示させる画面については後述する。

次に、本実施形態に係る判定装置のハードウェア構成について、図２０を参照して説明する。本実施形態に係る判定装置は、図２０に示すように、コンピュータ１００により構成される。コンピュータ１００は、ＣＰＵ（中央演算装置）１０１と、入力装置１０２と、表示装置１０３と、通信装置１０４と、記憶装置１０５と、とを備え、これらはバス１０６により相互に接続されている。

ＣＰＵ１０１は、コンピュータ１００の制御装置及び演算装置である。ＣＰＵ１０１は、バス１０６を介して接続された各装置（例えば、入力装置１０２、通信装置１０４、記憶装置１０５）から入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を、バス１０６を介して接続された各装置（例えば、表示装置１０３、通信装置１０４、記憶装置１０５）に出力する。

具体的には、ＣＰＵ１０１は、コンピュータ１００のＯＳ（オペレーティングシステム）や、判定プログラムなどを実行し、コンピュータ１００を構成する各装置を制御する。判定プログラムとは、コンピュータ１００に、判定装置の上述の各機能を実現させるプログラムである。ＣＰＵ１０１が判定プログラムを実行することにより、コンピュータ１００が判定装置として機能する。

入力装置１０２は、コンピュータ１００に情報を入力するための装置である。入力装置１０２は、例えば、キーボード、マウス、及びタッチパネルであるが、これに限られない。判定装置のユーザ（オペレータ）は、入力装置１０２を用いることにより、判定装置に判定処理を開始させたり、確率分布モデルのパラメータを入力したりすることができる。

表示装置１０３は、画像や映像を表示するための装置である。表示装置１０３は、例えば、ＬＣＤ（液晶ディスプレイ）、ＣＲＴ（ブラウン管）、及びＰＤＰ（プラズマディスプレイ）であるが、これに限られない。表示装置１０３には、表示部１１が生成した画像データが表示される。

通信装置１０４は、コンピュータ１００が外部装置と無線又は有線で通信するための装置である。通信装置１０４は、例えば、モデム、ハブ、及びルータであるが、これに限られない。ＤＮＡマイクロアレイが計測した信号強度や、検体のクラスタリング結果などの情報は、通信装置１０４を介して外部装置から入力することができる。

記憶装置１０５は、コンピュータ１００のＯＳや、判定プログラム、判定プログラムの実行に必要なデータ、及び判定プログラムの実行により生成されたデータなどを記憶する記憶媒体である。記憶装置１０５には、主記憶装置と外部記憶装置とが含まれる。主記憶装置は、例えば、ＲＡＭ、ＤＲＡＭ、ＳＲＡＭであるが、これに限られない。また、外部記憶装置は、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。信号強度ＤＢ１、クラスタＤＢ３、代表値ＤＢ５、モデルＤＢ８、及び判定結果ＤＢ１０は、記憶装置１０５を用いて構成することができる。

なお、コンピュータ１００は、ＣＰＵ１０１、入力装置１０２、表示装置１０３、通信装置１０４、及び記憶装置１０５を、１つ又は複数備えてもよいし、プリンタやスキャナなどの周辺機器を接続されていてもよい。

また、判定装置は、単一のコンピュータ１００により構成されてもよいし、相互に接続された複数のコンピュータ１００からなるシステムとして構成されてもよい。

さらに、判定プログラムは、コンピュータ１００の記憶装置１０５に予め記憶されていてもよいし、ＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に記録されていてもよいし、インターネット上にアップロードされていてもよい。いずれの場合も、判定プログラムをコンピュータ１００にインストールして実行することにより、判定装置を構成することができる。

次に、本実施形態に係る判定装置が実行する判定処理について、図２１〜図３９を参照して説明する。以下では、クラスタリング部２によるクラスタリングは終了し、クラスタＤＢ３には検体１〜ＭのＳＮＰ１〜ｎのクラスタが格納されているものとする。

まず、判定処理の概要について説明する。図２１は、判定処理を概略的に示すフローチャートである。図２１に示すように、判定処理が開始すると、まず、ステップＳ１において、代表値算出部４が、ＳＮＰ１〜ｎの各クラスタの代表値を算出する。次に、ステップＳ２において、第１ラベリング部６が、代表値の大小関係を利用して、３つのクラスタに分類されたＳＮＰの各クラスタに遺伝子型を割当てる。続いて、モデル構築部７が、第１ラベリング部６によるクラスタに割当てられた遺伝子型と、遺伝子型を割当てられたクラスタの代表値と、に基づいて、確率分布モデルを構築する。そして、ステップＳ４において、第２ラベリング部９が、確率分布モデルを利用して、１つ又は２つのクラスタに分類されたＳＮＰの各クラスタに遺伝子型を割当てる。

以上の処理により、検体１〜ＭのＳＮＰ１〜ｎの各クラスタに遺伝子型が割当てられ、判定処理が終了する。判定結果は、判定結果ＤＢ１０に格納される。

ここで、上記のステップＳ１〜Ｓ４の各処理について、具体的に詳細に説明する。

（ステップＳ１）
まず、ステップＳ１における、代表値の算出処理について説明する。図２２は、代表値の算出処理を示すフローチャートである。以下では、代表値は、信号強度平面上の原点を通る近似曲線の傾きであるものとする。

まず、ステップＳ１０において、代表値算出部４は、信号強度ＤＢ１に格納された信号強度データと、クラスタＤＢ３に格納されたクラスタデータと、を取得する。

次に、ステップＳ１１において、代表値算出部４は、ＳＮＰｉのクラスタｊの信号強度Ａ，Ｂを抽出する。ｉは１〜ｎ、ｊは１〜３である。例えば、ＳＮＰｉのクラスタ１の信号強度を抽出する場合、図２３に示すように、代表値算出部４は、まず、ＳＮＰｉのクラスタデータを参照し、クラスタ１の検体を抽出する。図２３の例では、クラスタ１の検体は、検体１，３，Ｍ−１である。

次に、代表値算出部４は、信号強度データを参照し、クラスタ１の検体の信号強度Ａ，Ｂを抽出する。これにより、図２３に示すように、ＳＮＰｉのクラスタ１の信号強度Ａ，Ｂが抽出される。

続いて、ステップＳ１２において、代表値算出部４は、ＳＮＰｉのクラスタｊの代表値ＣＬＵ（ｉ，ｊ）を算出する。代表値ＣＬＵ（ｉ，ｊ）は、クラスタｊの近似直線の傾き（角度）である。図２４は、代表値ＣＬＵ（ｉ，ｊ）の一例を示す図である。図２４の例では、ＳＮＰｉのクラスタ１の代表値ＣＬＵ（ｉ，１）と、クラスタ２の代表値ＣＬＵ（ｉ，２）が示されている。近似直線は、図２４に示すように、信号強度平面の原点と、クラスタｊのクラスタ中心と、を通る直線となる。代表値ＣＬＵ（ｉ，ｊ）は、以下の式により算出される。
CLU(i,j)=tan^-1*(averege B(i,j))/(average A(i,j))・・・（１）

式（１）において、Ｂ（ｉ，ｊ）は、ＳＮＰｉのクラスタｊの信号強度Ｂ、Ａ（ｉ，ｊ）は、ＳＮＰｉのクラスタｊの信号強度Ａである。ＳＮＰｉのクラスタｊのクラスタ中心の座標は、 (averege A(i,j), averege B(i,j))である。代表値算出部４は、ステップＳ１１で抽出したＳＮＰｉのクラスタｊの信号強度Ａ，Ｂを代入することにより、代表値ＣＬＵ（ｉ，ｊ）を算出する。

そして、ステップＳ１３において、代表値算出部４は、算出した代表値ＣＬＵ（ｉ，ｊ）を、代表値ＤＢ５に格納する。図２５〜図２７は、代表値ＤＢ５に格納された代表値ＣＬＵ（ｉ，ｊ）の一例を示す図である。図２５は、３つのクラスタに分類されたＳＮＰの代表値ＣＬＵ（ｉ，ｊ）を示し、図２６は、２つのクラスタに分類されたＳＮＰの代表値ＣＬＵ（ｉ，ｊ）を示し、図２７は、１つのクラスタに分類されたＳＮＰの代表値ＣＬＵ（ｉ，ｊ）を示している。

代表値ＤＢ５は、図２５〜図２７に示すように、ＳＮＰのクラスタ数毎の異なるテーブルを備えてもよい。また、代表値ＤＢ５は、図１６に示ように、１つのテーブルを備えてもよい。この場合、図２６のＳＮＰ２のように、２つのクラスタに分類されたＳＮＰｉのクラスタ３の代表値には、ＮＡが格納される。また、図２７のＳＮＰ１のように、１つのクラスタに分類されたＳＮＰｉのクラスタ２の代表値及びクラスタ３の代表値には、ＮＡが格納される。

（ステップＳ２）
次に、ステップＳ２における、３クラスタのＳＮＰ（３つのクラスタに分類されたＳＮＰ）に対する遺伝子型の割当処理について説明する。図２８は、３クラスタのＳＮＰに対する遺伝子型の割当処理を示すフローチャートである。

まず、ステップＳ２０において、第１ラベリング部６は、代表値ＤＢ５から３クラスタのＳＮＰｉの代表値データを取得する。これにより、代表値ＣＬＵ（ｉ，１）〜ＣＬＵ（ｉ，３）を格納した、図２５のようなテーブルが取得される。

次に、ステップＳ２１において、第１ラベリング部６は、クラスタデータを参照して、各ＳＮＰｉのクラスタ１〜３に遺伝子型を割当てる。図２９に示すように、代表値ＣＬＵ（ｉ，ｊ）は、信号強度Ａが大きいほど小さくなり、信号強度Ｂが大きいほど大きくなる。したがって、第１ラベリング部６は、代表値ＣＬＵ（ｉ，ｊ）が大きい順に、クラスタ１〜３に遺伝子型ＢＢ，ＡＢ，ＢＢを割当てる。例えば、図２５の例では、ＳＮＰｎのクラスタ１には遺伝子型ＡＡ、クラスタ２には遺伝子型ＡＢ、クラスタ３には遺伝子型ＢＢが割当てられる。

図３０は、第１ラベリング部６による遺伝子型の割当結果の一例を示す図である。このような割当結果は、第１ラベリング部６に保持される。また、割当結果は、判定結果ＤＢ１０に格納されてもよい。

続いて、ステップＳ２２において、第１ラベリング部６は、ＳＮＰｉの遺伝子型の割当結果をクラスタデータに適用する。すなわち、第１ラベリング部６は、クラスタＤＢ３に格納されたＳＮＰｉの各検体のクラスタを、ＳＮＰｉの各クラスタに割当てられた遺伝子型に置換する。

図３１は、クラスタデータへの割当結果の適用方法を説明する図である。図３１の例では、ＳＮＰｉのクラスタ１，２，３に、遺伝子型ＡＡ，ＡＢ，ＢＢがそれぞれ割当てられている。このため、クラスタデータにおけるＳＮＰｉのクラスタ１，２，３は、遺伝子型ＡＡ，ＡＢ，ＢＢにそれぞれ置換されている。

第１ラベリング部６が割当結果を適用することにより、図１９に示したような、３クラスタのＳＮＰの遺伝子型の判定結果が生成される。

そして、ステップＳ２３において、生成された判定結果が、判定結果ＤＢ１０に格納される。

また、ステップＳ２４において、第１ラベリング部６は、ＳＮＰｉの遺伝子型の割当結果を代表値データに適用する。すなわち、第１ラベリング部６は、代表値ＤＢ５に格納された各代表値ＣＬＵ（ｉ，ｊ）のクラスタｊを、ＳＮＰｉの各クラスタｊに割当てられた遺伝子型に置換し、遺伝子型毎にソートする。

図３２は、代表値データへの割当結果の適用方法を説明する図である。図３２の例では、ＳＮＰｉのクラスタ１，２，３に、遺伝子型ＡＡ，ＡＢ，ＢＢがそれぞれ割当てられている。このため、代表値データにおけるＳＮＰｉのクラスタ１，２，３は、遺伝子型ＡＡ，ＡＢ，ＢＢにそれぞれ置換されている。

そして、第１ラベリング部６は、代表値ＣＬＵ（ｉ，ｊ）を遺伝子型毎にソートする。これにより、代表値ＤＢ５が更新される。図３３は、更新後の代表値データの一例を示す図である。図３３の例では、遺伝子型ＡＡ，ＡＢ，ＢＢの順に、各ＳＮＰｉの代表値がソートされている。例えば、ＳＮＰｎの遺伝子型ＡＡの代表値は４．３２である。

（ステップＳ３）
次に、ステップＳ３における、確率分布モデルの構築処理について説明する。図３４は、確率分布モデルの構築処理を示すフローチャートである。以下では、確率分布モデルは、正規分布を利用して構築されるものとする。

まず、ステップＳ３０において、モデル構築部７は、代表値ＤＢ５に格納された３クラスタのＳＮＰの代表値データを取得する。これにより、図３３に示したような、更新後の代表値データが取得される。

次に、ステップＳ３１において、モデル構築部７は、遺伝子型毎の代表値を抽出する。図３５に示すように、モデル構築部７は、例えば、遺伝子型ＡＡの代表値として、代表値データに含まれる遺伝子型ＡＡの代表値を全て抽出する。以下では、抽出された遺伝子型ＡＡの代表値の集合をＣＬＵ_ＡＡ、遺伝子型ＡＢの代表値の集合をＣＬＵ_ＡＢ、遺伝子型ＢＢの代表値の集合をＣＬＵ_ＢＢという。

続いて、ステップＳ３２において、モデル構築部７は、各遺伝子型の平均μ及び分散δを計算する。すなわち、モデル構築部７は、集合ＣＬＵ_ＡＡの平均μ_ＡＡ及び分散σ_ＡＡと、集合ＣＬＵ_ＡＢの平均μ_ＡＢ及び分散σ_ＡＢと、集合ＣＬＵ_ＢＢの平均μ_ＢＢ及び分散σ_ＢＢとを計算する。

そして、ステップＳ３３において、モデル構築部７は、各遺伝子型の平均μ及び分散σを正規分布に適用し、各遺伝子型の確率密度関数ｆ（ｘ）を生成する。確率密度関数は以下の式で表される。

式（３）〜（５）において、ｘは代表値ＣＬＵ、ｆ_ＡＡ（ｘ）は遺伝子型ＡＡの確率密度関数、ｆ_ＡＢ（ｘ）は遺伝子型ＡＢの確率密度関数、ｆ_ＢＢ（ｘ）は遺伝子型ＢＢの確率密度関数である。上記の３つの確率密度関数の組が確率分布モデルとなる。図３６は、ステップＳ３３で構築された確率分布モデルの一例を示す図である。

確率分布モデルの構築後、ステップＳ３４において、モデル構築部７は、確率分布モデルをモデルＤＢ８に格納する。モデルＤＢ８には、遺伝子型毎の平均μ及び分散σが格納される。

（ステップＳ４）
次に、ステップＳ４における、１又は２クラスタのＳＮＰ（１つのクラスタに分類されたＳＮＰ又は２つのクラスタに分類されたＳＮＰ）に対する遺伝子型の割当処理について説明する。図３７は、１又は２クラスタのＳＮＰに対する遺伝子型の割当処理を示すフローチャートである。

まず、ステップＳ４０において、第２ラベリング部９は、代表値ＤＢ５に格納された１クラスタＳＮＰ又は２クラスタのＳＮＰの代表値データを取得する。これにより、図２６や図２７に示したような、代表値データが取得される。

また、ステップＳ４１において、第２ラベリング部９は、モデルＤＢ８に格納された確率分布モデルを取得する。これにより、図３６に示した確率分布モデルが取得される。

次に、ステップＳ４２において、第２ラベリング部９は、確率分布モデルに代表値ＣＬＵ（ｉ，ｊ）を適用する。すなわち、第２ラベリング部９は、図３８に示すように、代表値ＣＬＵ（ｉ，ｊ）を各遺伝子型の確率密度関数ｆ（ｘ）に代入し、遺伝子型毎の確率密度ｆ（ＣＬＵ（ｉ，ｊ））を計算する。

続いて、ステップＳ４３において、第２ラベリング部９は、ＳＮＰｉのクラスタｊに、確率密度ｆ（ＣＬＵ（ｉ，ｊ））が最大となった遺伝子型を割当てる。例えば、図３８の例では、ＳＮＰｉのクラスタｊには、遺伝子型ＡＡが割当てられる。

図３９は、第２ラベリング部９による遺伝子型の割当結果の一例を示す図である。このような割当結果は、第２ラベリング部９に保持される。また、割当結果は、判定結果ＤＢ１０に格納されてもよい。

そして、ステップＳ４４において、第２ラベリング部９は、ＳＮＰｉの遺伝子型の割当結果をクラスタデータに適用する。すなわち、第２ラベリング部９は、クラスタＤＢ３に格納されたＳＮＰｉの各検体のクラスタを、ＳＮＰｉの各クラスタに割当てられた遺伝子型に置換する。割当結果の適用方法は、ステップＳ２２と同様である。

第２ラベリング部９が割当結果を適用することにより、図１９に示したような、１クラスタのＳＮＰ又は２クラスタのＳＮＰの遺伝子型の判定結果が生成される。

そして、ステップＳ４５において、生成された判定結果が、判定結果ＤＢ１０に格納される。これにより、検体１〜ＭのＳＮＰ１〜ｎの遺伝子型を判定が終了する。

以上説明した通り、本実施形態では、実験環境の影響による分布の揺らぎを反映した確率分布モデルを利用して遺伝子型を判定する。したがって、実験環境の影響による遺伝子型の割当ての誤りを抑制し、遺伝子型の判定精度を向上させることができる。

（第２実施形態）
以下、第２実施形態について、図４０〜図４５を参照して説明する。本実施形態では、第２ラベリング部９が割当てた遺伝子型の信頼性が高いか判定する。信頼性が低い場合には、遺伝子型を再割当てする。判定及び再割当のために、生物学的な知見が利用される。

図４０は、本実施形態に係る判定装置を示す機能ブロック図である。図４０に示すように、本実施形態に係る判定装置は、第３ラベリング部１２を備える。他の構成は、図９と同様である。

第３ラベリング部１２は、第２ラベリング部９による遺伝子型の割当結果を取得し、割当結果の信頼性が高いか判定する。

割当結果の信頼性が低いと判定した場合、第３ラベリング部１２は、第２ラベリング部９の割当結果をそのまま出力する。一方、割当結果の信頼性が低いと判定した場合、第３ラベリング部１２は、遺伝子型を再割当てする。そして、第３ラベリング部１２は、再割当てした遺伝子型の割当結果を出力する。

本実施形態では、第３ラベリング部１２が出力した割当結果をクラスタＤＢ３に格納されたクラスタデータに適用することにより、１クラスタ及び２クラスタのＳＮＰの遺伝子型の判定結果が生成される。

図４１は、第３ラベリング部１２による遺伝子型の信頼性の再割当処理を示すフローチャートである。

まず、ステップＳ５０において、第３ラベリング部１２は、第２ラベリング部９から、ＳＮＰｉに対する遺伝子型の割当結果を取得する。ここで取得されるＳＮＰｉは、１クラスタ又は２クラスタのＳＮＰである。

次に、ステップＳ５１において、第３ラベリング部１２は、取得したＳＮＰｉが１クラスタか２クラスタか判定する。ＳＮＰｉが２クラスタである場合（Ｙｅｓ）、処理はステップＳ５２に進む。

ステップＳ５２において、第３ラベリング部１２は、２クラスタのＳＮＰｉに割当てられた２つの遺伝子型が、異なる遺伝子型であるか判定する。異なる遺伝子型である場合（Ｙｅｓ）、処理はステップＳ５３に進む。

ステップＳ５３において、第３ラベリング部１２は、２クラスタのＳＮＰｉに割当てられた２つの遺伝子型に遺伝子型ＡＢが含まれるか判定する。遺伝子型ＡＢが含まれる場合（Ｙｅｓ）、第３ラベリング部１２は、第２ラベリング部９から取得した割当結果をそのまま出力し、再割当処理は終了する。

一方、ステップＳ５３において、２つの遺伝子型に遺伝子型ＡＢが含まれない場合（Ｎｏ）、処理はステップＳ５４に進む。

ステップＳ５４において、第３ラベリング部１２は、割当方法Ａを利用して、ＳＮＰｉの２つのクラスタ１，２に遺伝子型を再割当てする。割当方法Ａについては後述する。その後、第３ラベリング部１２は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。

また、ステップＳ５２において、２クラスタのＳＮＰｉに割当てられた２つの遺伝子型が同一であった場合（Ｙｅｓ）、処理はステップＳ５５に進む。

ステップＳ５５において、第３ラベリング部１２は、ＳＮＰｉに割当てられた遺伝子型がＡＢであるか判定する。ＳＮＰｉに遺伝子型ＡＢが割当てられている場合（ＹＥＳ）、処理はステップＳ５６に進む。

ステップＳ５６において、第３ラベリング部１２は、割当方法Ｂを利用して、ＳＮＰｉの２つのクラスタ１，２に遺伝子型を再割当てする。割当方法Ｂについては後述する。その後、第３ラベリング部１２は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。

一方、ステップＳ５５において、ＳＮＰｉに遺伝子型ＡＢが割当てられていない場合（Ｎｏ）、処理はステップＳ５７に進む。

ステップＳ５７において、第３ラベリング部１２は、割当方法Ｃを利用して、ＳＮＰｉの２つのクラスタ１，２に遺伝子型を再割当てする。割当方法Ｃについては後述する。その後、第３ラベリング部１２は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。

さらに、ステップＳ５１において、ＳＮＰｉが１クラスタである場合（Ｎｏ）、処理はステップＳ５８に進む。

ステップＳ５８において、第３ラベリング部１２は、ＳＮＰｉに割当てられた遺伝子型がＡＢであるか判定する。ＳＮＰｉに遺伝子型ＡＢが割当てられている場合（Ｙｅｓ）、処理はステップＳ５９に進む。

ステップＳ５９において、第３ラベリング部１２は、割当方法Ｄを利用して、ＳＮＰｉの１つのクラスタ１に遺伝子型を再割当てする。割当方法Ｄについては後述する。その後、第３ラベリング部１２は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。

一方、ステップＳ５８において、ＳＮＰｉに遺伝子型ＡＢが割当てられていない場合（Ｎｏ）、第３ラベリング部１２は、第２ラベリング部９から取得した割当結果をそのまま出力し、再割当処理は終了する。

次に、各割当方法Ａ〜Ｄについて説明する。

（割当方法Ａ）
まず、割当方法Ａについて説明する。割当方法Ａによる再割当が行われるのは、ＳＮＰｉの２つのクラスタ１，２に遺伝子型ＡＡ，ＢＢが割当てられた場合である。

ヒトのある民族集団の遺伝子型が、遺伝子型ＡＡ及び遺伝子型ＢＢのみに分かれる可能性は、生物学上極めて低いと考えられる。これは、遺伝子型ＡＡの母（父）と遺伝子型ＢＢの父（母）との子は、５０％の確率で遺伝子型ＡＢとなるためである。したがって、生物学的な観点から、この割当結果の信頼性は低いと判定される。

このような場合、第３ラベリング部１２は、まず、確率分布モデルと、ＳＮＰｉの代表値データと、を取得する。これにより、確率密度関数ｆ_ＡＡ（ｘ），ｆ_ＡＢ（ｘ），ｆ_Ｂ _Ｂ（ｘ）と、クラスタ１の代表値ＣＬＵ（ｉ，１）と、クラスタ２の代表値ＣＬＵ（ｉ，２）と、が取得される。

次に、第３ラベリング部１２は、各代表値を確率密度関数ｆ_ＡＢ（ｘ）に代入して、確率密度ｆ_ＡＢ（ＣＬＵ（ｉ，１））と、確率密度ｆ_ＡＢ（ＣＬＵ（ｉ，２））と、を計算する。そして、第３ラベリング部１２は、確率密度ｆ_ＡＢ（ｘ）が大きいクラスタに、遺伝子型ＡＢを再割当てする。確率密度ｆ_ＡＢ（ｘ）が小さいクラスタの遺伝子型はそのままである。

図４２は、割当方法Ａを説明する図である。図４２において、クラスタ１に遺伝子型ＡＡ、クラスタ２に遺伝子型ＢＢが割当てられている。また、ｆ_ＡＢ（ＣＬＵ（ｉ，１））＜ｆ_ＡＢ（ＣＬＵ（ｉ，２））である。図４２の例では、第３ラベリング部１２は、クラスタ２に遺伝子型ＡＢを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＡ、クラスタ２の遺伝子型がＡＢとなる。

（割当方法Ｂ）
次に、割当方法Ｂについて説明する。割当方法Ｂによる再割当が行われるのは、ＳＮＰｉの２つのクラスタ１，２にいずれも遺伝子型ＡＢが割当てられた場合である。２つのクラスタに同一の遺伝子型が割当てられていることから、この割当結果の信頼性は低いと判定される。

次に、第３ラベリング部１２は、各代表値を確率密度関数ｆ_ＡＢ（ｘ）に代入して、確率密度ｆ_ＡＢ（ＣＬＵ（ｉ，１））と、確率密度ｆ_ＡＢ（ＣＬＵ（ｉ，２））と、を計算する。そして、第３ラベリング部１２は、確率密度ｆ_ＡＢ（ｘ）が小さいクラスタに遺伝子型ＡＡ，ＢＢのいずれかを再割当てする。確率密度ｆ_ＡＢ（ｘ）が大きいクラスタの遺伝子型はＡＢのままである。

第３ラベリング部１２は、確率密度ｆ_ＡＢ（ｘ）が小さいクラスタの確率密度ｆ_ＡＡ（ｘ），ｆ_ＢＢ（ｘ）を計算する。ｆ_ＡＡ（ｘ）＞ｆ_ＢＢ（ｘ）の場合、第３ラベリング部１２は、確率密度ｆ_ＡＢ（ｘ）が小さいクラスタに、遺伝子型ＡＡを再割当てする。一方、ｆ_ＡＡ（ｘ）＜ｆ_ＢＢ（ｘ）の場合、第３ラベリング部１２は、確率密度ｆ_ＡＢ（ｘ）が小さいクラスタに、遺伝子型ＢＢを再割当てする。

図４３は、割当方法Ｂを説明する図である。図４３において、クラスタ１，２に遺伝子型ＡＢが割当てられている。また、ｆ_ＡＢ（ＣＬＵ（ｉ，１））＞ｆ_ＡＢ（ＣＬＵ（ｉ，２））かつｆ_ＢＢ（ＣＬＵ（ｉ，２））＞ｆ_ＡＡ（ＣＬＵ（ｉ，２））である。図４３の例では、第３ラベリング部１２は、クラスタ２に遺伝子型ＢＢを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＢ、クラスタ２の遺伝子型がＢＢとなる。

なお、割当方法Ｂにおいて、一方のクラスタの遺伝子型をＡＢのままにするのは、上述の通り、遺伝子型がＡＡ及びＢＢのみに分かれる可能性は、生物学上極めて低いと考えられるためである。

（割当方法Ｃ）
次に、割当方法Ｃについて説明する。割当方法Ｃによる再割当が行われるのは、ＳＮＰｉの２つのクラスタ１，２にいずれも遺伝子型ＡＡ又は遺伝子型ＢＢが割当てられた場合である。２つのクラスタに同一の遺伝子型が割当てられていることから、この割当結果の信頼性は低いと判定される。

クラスタ１，２に遺伝子型ＡＡが割当てられている場合、第３ラベリング部１２は、各代表値を確率密度関数ｆ_ＡＡ（ｘ）に代入して、確率密度ｆ_ＡＡ（ＣＬＵ（ｉ，１））と、確率密度ｆ_ＡＡ（ＣＬＵ（ｉ，２））と、を計算する。そして、第３ラベリング部１２は、確率密度ｆ_ＡＡ（ｘ）が小さいクラスタに遺伝子型ＡＢを再割当てする。確率密度ｆ _ＡＡ（ｘ）が大きいクラスタの遺伝子型はＡＡのままである。

一方、クラスタ１，２に遺伝子型ＢＢが割当てられている場合、第３ラベリング部１２は、各代表値を確率密度関数ｆ_ＢＢ（ｘ）に代入して、確率密度ｆ_ＢＢ（ＣＬＵ（ｉ，１））と、確率密度ｆ_ＢＢ（ＣＬＵ（ｉ，２））と、を計算する。そして、第３ラベリング部１２は、確率密度ｆ_ＢＢ（ｘ）が小さいクラスタに遺伝子型ＡＢを再割当てする。確率密度ｆ_ＢＢ（ｘ）が大きいクラスタの遺伝子型はＢＢのままである。

図４４は、割当方法Ｃを説明する図である。図４４において、クラスタ１，２に遺伝子型ＡＡが割当てられている。また、ｆ_ＡＡ（ＣＬＵ（ｉ，１））＞ｆ_ＡＡ（ＣＬＵ（ｉ，２））である。図４４の例では、第３ラベリング部１２は、クラスタ２に遺伝子型ＡＢを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＡ、クラスタ２の遺伝子型がＡＢとなる。

なお、割当方法Ｃにおいて、一方のクラスタの遺伝子型をＡＢに再割当するのは、上述の通り、遺伝子型がＡＡ及びＢＢのみに分かれる可能性は、生物学上極めて低いと考えられるためである。

（割当方法Ｄ）
次に、割当方法Ｄについて説明する。割当方法Ｄによる再割当が行われるのは、１クラスタのＳＮＰｉに遺伝子型ＡＢが割当てられた場合である。

ヒトのある民族集団の遺伝子型が、集団全員に関して遺伝子型ＡＢのみである可能性は、生物学上極めて低いと考えられる。これは、遺伝子型ＡＢ同士を親とすると、遺伝子型ＡＡ又はＢＢのようなホモ接合体の子が、約５０％の確率で現れるためである。また、大規模な集団全員の遺伝子型がＡＢとなる場合は、各個の親として、遺伝子型ＡＡの母（父）と遺伝子型ＢＢの父（母）との組み合わせのみしか考えられないためである。したがって、生物学的な観点から、この割当結果の信頼性は低いと判定される。

このような場合、第３ラベリング部１２は、まず、確率分布モデルと、ＳＮＰｉの代表値データと、を取得する。これにより、確率密度関数ｆ_ＡＡ（ｘ），ｆ_ＡＢ（ｘ），ｆ_Ｂ _Ｂ（ｘ）と、クラスタ１の代表値ＣＬＵ（ｉ，１）と、が取得される。

次に、第３ラベリング部１２は、代表値ＣＬＵ（ｉ，１）を確率密度関数ｆ_ＡＡ（ｘ），ｆ_ＢＢ（ｘ）に代入して、確率密度ｆ_ＡＡ（ＣＬＵ（ｉ，１）），ｆ_ＢＢ（ＣＬＵ（ｉ，１））を計算する。そして、第３ラベリング部１２は、ｆ_ＡＡ（ＣＬＵ（ｉ，１））＞ｆ_ＢＢ（ＣＬＵ（ｉ，１））の場合、クラスタ１に遺伝子型ＡＡを再割当てし、ｆ_ＡＡ（ＣＬＵ（ｉ，１））＜ｆ_ＢＢ（ＣＬＵ（ｉ，１））の場合、クラスタ１に遺伝子型ＢＢを再割当てする。

図４５は、割当方法Ｄを説明する図である。図４５において、クラスタ１には遺伝子型ＡＢが割当てられている。また、ｆ_ＡＡ（ＣＬＵ（ｉ，１））＞ｆ_ＢＢ（ＣＬＵ（ｉ，１））である。図４５の例では、第３ラベリング部１２は、クラスタ１に遺伝子型ＡＡを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＡとなる。

以上説明した通り、本実施形態では、生物学的な知見を利用して、信頼性が低い遺伝子型を割当てられたクラスタに、遺伝子型を再割当てすることができる。したがって、遺伝子型の割当ての信頼性を向上させ、結果として、遺伝子型の判定精度を向上させることができる。

（第３実施形態）
以下、第３実施形態について、図４６〜図４８を参照して説明する。本実施形態では、第３ラベリング部１２は、第２の代表値を利用して、遺伝子型の再割当を行う。第２の代表値とは、第１ラベリング部６及び第２ラベリング部９が利用する代表値（以下、「第１の代表値」という）とは異なる種類の代表値のことである。したがって、本実施形態では、第１の代表値と、第２の代表値と、を含む少なくとも２種類の代表値が算出される。

第２の代表値は、信号強度Ａ，Ｂに基づいて算出されてもよい。このような代表値として、例えば、各クラスタの回帰直線の回帰係数、回帰係数の逆正接、又は原点を通る近似直線の傾き、各クラスタの相関係数、クラスタ中心値、クラスタ中央値、クラスタ分散、比の平均値、又は差の平均値が挙げられる。

また、第２の代表値は、信号強度Ａ，Ｂに基づいて算出されなくてもよい。このような代表値として、例えば、検体数が挙げられる。検体数とは、各クラスタに含まれる検体の数のことである。

本実施形態において、第３ラベリング部１２による遺伝子型の信頼性の判定方法は、第２実施形態と同様である（図４１のフローチャート参照）。しかしながら、本実施形態では、割当方法Ａ〜Ｃが第２実施形態とは異なる。そこで、本実施形態における割当方法Ａ〜Ｃについて説明する。以下では、第１の代表値はクラスタの近似直線の傾きであり、第２の代表値は検体数であるものとする。

本実施形態において、第３ラベリング部１２は、検体数が少ないクラスタに遺伝子型ＡＢを再割当てする。これは、検体数の少ないクラスタは、遺伝子型の割当ての信頼性も低いと考えられるためである。検体数が多いクラスタの遺伝子型はそのままである。

図４６は、本実施形態における割当方法Ａを説明する図である。図４６において、クラスタ１に遺伝子型ＡＡ、クラスタ２に遺伝子型ＢＢが割当てられている。また、クラスタ１の検体数は１０、クラスタ２の検体数は１００である。図４６の例では、第３ラベリング部１２は、クラスタ１に遺伝子型ＡＢを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＢ、クラスタ２の遺伝子型がＢＢとなる。

（割当方法Ｂ）
次に、割当方法Ｂについて説明する。割当方法Ｂによる再割当が行われるのは、ＳＮＰｉの２つのクラスタ１，２にいずれも遺伝子型ＡＢが割当てられた場合である。

本実施形態において、第３ラベリング部１２は、検体数の少ないクラスタに遺伝子型ＡＡ，ＢＢのいずれかを再割当てする。これは、検体数の少ないクラスタは、遺伝子型の割当ての信頼性も低いと考えられるためである。検体数が多いクラスタの遺伝子型はＡＢのままである。

第３ラベリング部１２は、第２実施形態と同様の方法で、検体数が少ないクラスタに遺伝子型を再割当てすればよい。すなわち、第３ラベリング部１２は、確率密度ｆ_ＡＡ（ｘ），ｆ_ＢＢ（ｘ）を計算し、ｆ_ＡＡ（ｘ）＞ｆ_ＢＢ（ｘ）の場合、遺伝子型ＡＡを再割当てし、ｆ_ＡＡ（ｘ）＜ｆ_ＢＢ（ｘ）の場合、遺伝子型ＢＢを再割当てする。

図４７は、本実施形態における割当方法Ｂを説明する図である。図４７において、クラスタ１，２に遺伝子型ＡＢが割当てられている。また、クラスタ１の検体数は１０、クラスタ２の検体数は１００、ｆ_ＡＡ（ＣＬＵ（ｉ，１））＞ｆ_ＢＢ（ＣＬＵ（ｉ，１））である。図４７の例では、第３ラベリング部１２は、クラスタ１に遺伝子型ＡＡを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＡ、クラスタ２の遺伝子型がＡＢとなる。

（割当方法Ｃ）
次に、割当方法Ｃについて説明する。割当方法Ｃによる再割当が行われるのは、ＳＮＰｉの２つのクラスタ１，２にいずれも遺伝子型ＡＡ又は遺伝子型ＢＢが割当てられた場合である。

図４８は、本実施形態における割当方法Ｃを説明する図である。図４８において、クラスタ１，２に遺伝子型ＡＡが割当てられている。また、クラスタ１の検体数は１０、クラスタ２の検体数は１００である。図４８の例では、第３ラベリング部１２は、クラスタ１に遺伝子型ＡＢを再割当てする。これにより、再割当後の割当結果では、クラスタ１の遺伝子型がＡＢ、クラスタ２の遺伝子型がＡＡとなる。

以上説明した通り、本実施形態によれば、第２の代表値を利用して、遺伝子型を再割当てが行われる。第１の代表値の信頼性が低いことに起因して、遺伝子型の割当ての信頼性が低下している場合、第２の代表値を利用して再割当てすることにより、遺伝子型の割当ての信頼性を向上させ、結果として、遺伝子型の判定精度を向上させることができる。

なお、割当方法Ａ〜Ｃにおいて、本実施形態の方法と、第２実施形態の方法と、を併用することも可能である。例えば、検体数の閾値αを設定しておき、クラスタ１，２の検体数の少なくとも一方が閾値α以下の場合、本実施形態の方法で遺伝子型を再割当てし、クラスタ１，２の検体数の両方が閾値αより多い場合、第２実施形態の方法で遺伝子型を再割当てすることが考えられる。

また、モデル構築部７が第２の代表値に基づく第２の確率分布モデルを構築し、モデルＤＢ８が第２の確率分布モデルを格納し、第３ラベリング部１２が第２の代表値と第２の確率分布モデルとに基づいて遺伝子型の再割当を行なってもよい。

さらに、代表値算出部４が３種類以上の代表値を各クラスタに対して算出し、第３ラベリング部１２が第１の代表値以外の２種類以上の代表値を利用して遺伝子型の再割当を行なってもよい。

（第４実施形態）
以下、第４実施形態について、図４９〜図５２を参照して説明する。第４実施形態では、表示部１１が表示装置１０３に表示させる画面について説明する。図４９〜図５２は、画面の一例を示す図である。

図４９の画面では、クラスタリング結果及び代表値の算出結果が可視化して表示されている。表示部１１は、信号強度ＤＢ１、クラスタＤＢ３、及び代表値ＤＢ５からＳＮＰｉの信号強度データ、クラスタデータ、及び代表値データをそれぞれ取得し、取得した各種データを利用して、表示装置１０３に図４９の画面を表示させることができる。

図４９の画面には、表示中のＳＮＰの種類（ＳＮＰｉ）と、信号強度平面上にプロットされた複数の検体と、ＳＮＰｉに対して生成されたクラスタ（クラスタ１，２）及びクラスタ中心と、各クラスタに対して算出された代表値（ＣＬＵ）を示すテーブルと、が表示されている。図４９の例では、クラスタ１の代表値は１１．８１である。

表示部１１がこのような画面を表示することにより、判定装置のユーザは、クラスタや代表値を容易に把握することができる。なお、第３実施形態のように、複数種類の代表値が算出される場合には、図４９中の代表値テーブルを複数行にし、各種類の代表値を一覧してもよい。

図５０の画面では、クラスタリング結果及び遺伝子型の判定結果が可視化して表示されている。表示部１１は、信号強度ＤＢ１、クラスタＤＢ３、及び判定結果ＤＢ１０からＳＮＰｉの信号強度データ、クラスタデータ、及び判定結果をそれぞれ取得し、取得した各種データを利用して、表示装置１０３に図５０の画面を表示させることができる。

図５０の画面には、表示中のＳＮＰの種類（ＳＮＰｉ）と、信号強度平面上にプロットされた複数の検体と、ＳＮＰｉに対して生成されたクラスタ（クラスタ１，２）及びクラスタ中心と、各クラスタに割当てられた遺伝子型を示すテーブルと、が表示されている。図５０の例では、クラスタ１の遺伝子型はＡＡである。

表示部１１がこのような画面を表示することにより、判定装置のユーザは、クラスタや遺伝子型の判定結果（割当結果）を容易に把握することができる。

図５１の画面では、確率分布モデルが可視化して表示されている。表示部１１は、モデルＤＢ８から確率分布モデルのデータ（パラメータ等）を取得し、取得したデータを利用して、表示装置１０３に図５１の画面を表示させることができる。

図５１の画面には、グラフ化された確率分布モデルと、確率分布モデルを構成する各確率密度関数のタイプ（正規分布）及びパラメータ（μ，σ）を示すテーブルと、が示されている。例えば、図５１の例では、確率密度関数ｆ_ＡＡ（ｘ）は、正規分布に従い、平均μ_ＡＡが１７、分散σ_ＡＡが２０である。

また、図５１のグラフ上には、クラスタの遺伝子型を判定するために計算された確率密度がプロットされている。クラスタに割当てられた遺伝子型の確率密度関数上には、塗りつぶされた丸がプロットされ、その他の遺伝子型の確率密度関数上には、中抜きの丸がプロットされている。

表示部１１がこのような画面を表示することにより、判定装置のユーザは、構築された確率分布モデルや、遺伝子型の割当ての根拠（確率密度）を容易に把握することができる。

なお、第３ラベリング部１２によって遺伝子型が再割当てされた場合には、図５２に示すように、再割当のために使用された確率密度が確率密度関数上にプロットされてもよい。図５２において、再割当のために使用された確率密度は、四角によりプロットされ、第２ラベリング部９が割当に使用した確率密度と区別可能なように表示されている。

なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

１：信号強度ＤＢ、２：クラスタリング部、３：クラスタＤＢ、４：代表値算出部、５：代表値ＤＢ、６：第１ラベリング部、７：モデル構築部、８：モデルＤＢ、９：第２ラベリング部、１０：判定結果ＤＢ、１１：表示部、１２：第３ラベリング部

Claims

ＤＮＡマイクロアレイにより計測された複数のＳＮＰにおける複数の検体の信号強度に基づいて分類された前記ＳＮＰ毎の検体のクラスタについて、前記各クラスタに含まれる検体の信号強度に基づいて当該各クラスタの代表値を算出する代表値算出部と、
前記ＳＮＰのうち３つのクラスタに分類されたＳＮＰの各クラスタに、当該各クラスタの代表値に基づいて遺伝子型を割当てる第１ラベリング部と、
前記ＳＮＰのうち３つのクラスタに分類されたＳＮＰの各クラスタの遺伝子型と、当該各クラスタの代表値と、の関係を示すモデルを構築するモデル構築部と、
前記ＳＮＰのうち１つ又は２つのクラスタに分類されたＳＮＰの各クラスタに、当該各クラスタの代表値及び前記モデルに基づいて遺伝子型を割当てる第２ラベリング部と、
を備える遺伝子型判定装置。
前記信号強度は、蛍光強度又は電流強度、若しくはそれらの値に基づいて変換された変換値である
請求項１に記載の遺伝子型判定装置。
前記代表値は、前記クラスタに含まれる前記検体の回帰直線の回帰係数、前記回帰係数の逆正接、原点を通る近似直線の傾き、相関係数、クラスタ中心値、クラスタ中央値、クラスタ分散、比の平均値、又は差の平均値である
請求項１又は請求項２に記載の遺伝子型判定装置。
前記第１ラベリング部は、前記クラスタの前記代表値の順に、一方のホモ接合体の遺伝子型、ヘテロ接合体の遺伝子型、他方のホモ接合体の遺伝子型を割当てる
請求項１乃至請求項３のいずれか１項に記載の遺伝子型判定装置。
前記モデルは、前記遺伝子型毎の前記代表値の確率分布に従う確率密度関数である
請求項１乃至請求項４のいずれか１項に記載の遺伝子型判定装置。
前記確率分布は、混合ガウシアン分布、正規分布、ベータ分布、又はＦ分布である
請求項５に記載の遺伝子型判定装置。
前記第２ラベリング部は、前記クラスタに、前記代表値の確率密度が最大の前記遺伝子型を割当てる
請求項１乃至請求項６のいずれか１項に記載の遺伝子型判定装置。
２つの前記クラスタに分類された前記ＳＮＰの前記各クラスタに、ホモ接合型の異なる前記遺伝子型がそれぞれ割当てられた場合、前記各クラスタの前記代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える
請求項１乃至請求項７のいずれか１項に記載の遺伝子型判定装置。
２つの前記クラスタに分類された前記ＳＮＰの前記各クラスタに、ヘテロ接合型の前記遺伝子型がそれぞれ割当てられた場合、前記各クラスタの前記代表値に基づいて、一方の前記クラスタにホモ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える請求項１乃至請求項８のいずれか１項に記載の遺伝子型判定装置。
２つの前記クラスタに分類された前記ＳＮＰの前記各クラスタに、ホモ接合型の同一の前記遺伝子型がそれぞれ割当てられた場合、前記各クラスタの前記代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える
請求項１乃至請求項９のいずれか１項に記載の遺伝子型判定装置。
１つの前記クラスタに分類された前記ＳＮＰの前記クラスタに、ヘテロ接合型の前記遺伝子型が割当てられた場合、ホモ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える
請求項１乃至請求項１０のいずれか１項に記載の遺伝子型判定装置。
前記代表値算出部は、前記ＳＮＰ毎に前記各クラスタの第２の代表値を算出する
請求項１乃至請求項１１のいずれか１項に記載の遺伝子型判定装置。
前記第２の代表値は、前記各クラスタに含まれる前記検体の数である
請求項１２に記載の遺伝子型判定装置。
２つの前記クラスタに分類された前記ＳＮＰの前記各クラスタに、ホモ接合型の異なる前記遺伝子型がそれぞれ割当てられた場合、前記第２の代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える
請求項１２又は請求項１３に記載の遺伝子型判定装置。
２つの前記クラスタに分類された前記ＳＮＰの前記各クラスタに、ヘテロ接合型の前記遺伝子型がそれぞれ割当てられた場合、前記第２の代表値に基づいて、一方の前記クラスタにホモ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える
請求項１２乃至請求項１４のいずれか１項に記載の遺伝子型判定装置。
２つの前記クラスタに分類された前記ＳＮＰの前記各クラスタに、ホモ接合型の同一の前記遺伝子型がそれぞれ割当てられた場合、前記第２の代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第３ラベリング部を更に備える
請求項１２乃至請求項１５のいずれか１項に記載の遺伝子型判定装置。
前記モデル、前記判定結果、及び前記代表値の少なくとも１つを表示する表示部を更に備える
請求項１乃至請求項１６のいずれか１項に記載の遺伝子型判定装置。
ＤＮＡマイクロアレイにより計測された複数のＳＮＰにおける複数の検体の信号強度に基づいて分類された前記ＳＮＰ毎の検体のクラスタについて、前記各クラスタに含まれる検体の信号強度に基づいて当該各クラスタの代表値を算出する工程、
前記ＳＮＰのうち３つのクラスタに分類されたＳＮＰの各クラスタに、当該各クラスタの代表値に基づいて遺伝子型を割当てる工程と、
前記ＳＮＰのうち３つのクラスタに分類されたＳＮＰの各クラスタの遺伝子型と、当該各クラスタの代表値と、の関係を示すモデルを構築する工程と、
前記ＳＮＰのうち１つ又は２つのクラスタに分類されたＳＮＰの各クラスタに、当該各クラスタの代表値及び前記モデルに基づいて遺伝子型を割当てる工程と、
を含む遺伝子型判定方法。