JPWO2016157473A1 - 遺伝子型判定装置及び方法 - Google Patents

遺伝子型判定装置及び方法 Download PDF

Info

Publication number
JPWO2016157473A1
JPWO2016157473A1 JP2017509089A JP2017509089A JPWO2016157473A1 JP WO2016157473 A1 JPWO2016157473 A1 JP WO2016157473A1 JP 2017509089 A JP2017509089 A JP 2017509089A JP 2017509089 A JP2017509089 A JP 2017509089A JP WO2016157473 A1 JPWO2016157473 A1 JP WO2016157473A1
Authority
JP
Japan
Prior art keywords
genotype
cluster
representative value
clusters
snps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017509089A
Other languages
English (en)
Other versions
JP6367473B2 (ja
Inventor
亜梨花 福島
亜梨花 福島
真也 梅野
真也 梅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2016157473A1 publication Critical patent/JPWO2016157473A1/ja
Application granted granted Critical
Publication of JP6367473B2 publication Critical patent/JP6367473B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

DNAマイクロアレイを用いた遺伝子型判定技術における、遺伝子型の判定精度を向上させる遺伝子型判定装置及び方法を提供する。一実施形態に係る遺伝子型判定装置は、代表値算出部と、第1ラベリング部と、モデル構築部と、第2ラベリング部と、を備える。代表値算出部は、複数のSNPにおける複数の検体の信号強度に基づいて分類されたSNP毎の検体のクラスタについて、信号強度に基づいて各クラスタの代表値を算出する。第1ラベリング部は、3つのクラスタに分類されたSNPの各クラスタに、各クラスタの代表値に基づいて遺伝子型を割当てる。モデル構築部は、3つのクラスタに分類されたSNPの各クラスタの遺伝子型と代表値と、の関係を示すモデルを構築する。第2ラベリング部は、1つ又は2つのクラスタに分類されたSNPの各クラスタに、各クラスタの代表値及びモデルに基づいて遺伝子型を割当てる。

Description

本発明の実施形態は、遺伝子型判定装置及び方法に関する。
生物は、遺伝情報をゲノム塩基配列(DNA)として保持しており、同生物種では、塩基配列の大部分は一致する。しかし、塩基配列の一部は個体間で異なり、特に、同一生物種の集団において1%以上の頻度で塩基が異なる遺伝子座を一塩基多型(SNP)と呼ぶ。ヒトのように染色体を2本持つ生物(二倍体の生物)においては、SNPにおける塩基の違いによって、3種類の組合せパターンが生じる。このような組み合わせパターンを遺伝子型と呼ぶ。
SNPの遺伝子型によって、同生物種間においても体質などの個体差が生じるため、遺伝子型は、遺伝病や薬効・薬副作用に関連する。このため、ある個体の特定のSNPの遺伝子型を調べることにより、投薬前に薬効・副作用を予測できる。
遺伝病や薬効・薬副作用と関連する遺伝子型を発見するために、ヒトの場合、数十万個から数百万個のSNPの遺伝子型を一度に判定する必要がある。これを実現可能とする遺伝子型判定方法として、DNAマイクロアレイを利用する方法が挙げられる。
この方法では、まず、DNAマイクロアレイにより、アレイ側のSNPの既知塩基配列と、遺伝子型を判定したいある生物(検体)の未知塩基配列と、をハイブリダイゼーションさせ、信号強度を測定する。次に、同一SNPで測定された複数の検体の信号強度を平面上に射影し、個々のSNPにおいて、同一遺伝子型のクラスタに分類する。そして、生物学的知見を用いて、各クラスタの遺伝子型を割当てる(ラベリングする)。これにより、同一SNPの遺伝子型を、複数の検体に対して一度に判定することができる。
しかしながら、上記従来の方法では、温度や湿度などの実験環境により生じる信号強度の揺らぎが考慮されていなかったため、クラスタに誤った遺伝子型が割当てられることがあった。これにより、誤った遺伝子型に判定されたSNPが増加し、遺伝子型の判定精度が低下するという問題があった。
米国特許出願公開第2008/0287308号明細書
DNAマイクロアレイを用いた遺伝子型判定技術における、遺伝子型の判定精度を向上させる遺伝子型判定装置及び方法を提供する。
一実施形態に係る遺伝子型判定装置は、代表値算出部と、第1ラベリング部と、モデル構築部と、第2ラベリング部と、を備える。代表値算出部は、DNAマイクロアレイにより計測された複数のSNPにおける複数の検体の信号強度に基づいて分類されたSNP毎の検体のクラスタについて、各クラスタに含まれる検体の信号強度に基づいて各クラスタの代表値を算出する。第1ラベリング部は、SNPのうち3つのクラスタに分類されたSNPの各クラスタに、各クラスタの代表値に基づいて遺伝子型を割当てる。モデル構築部は、SNPのうち3つのクラスタに分類されたSNPの各クラスタの遺伝子型と、各クラスタの代表値と、の関係を示すモデルを構築する。第2ラベリング部は、SNPのうち1つ又は2つのクラスタに分類されたSNPの各クラスタに、各クラスタの代表値及びモデルに基づいて遺伝子型を割当てる。
DNAマイクロアレイを示す概略図。 DNAマイクロアレイの動作を説明する図。 信号強度平面上にプロットされた検体の一例を示す図。 各遺伝子型のクラスタの位置関係を説明する図。 検体の分布の揺らぎを説明する図。 検体の分布の揺らぎによる影響を説明する図。 第1実施形態に係る遺伝子型判定装置による遺伝子型の判定方法の概要を説明する図。 第1実施形態に係る遺伝子型判定装置による遺伝子型の判定方法の概要を説明する図。 第1実施形態に係る遺伝子型判定装置を示す機能ブロック図。 信号強度データの一例を示す図。 信号強度データの一例を示す図。 クラスタデータの一例を示す図。 変換信号強度平面上にプロットされた検体の一例を示す図。 変換信号強度データの一例を示す図。 変換信号強度データの一例を示す図。 代表値データの一例を示す図。 確率分布モデルの一例を示す図。 確率分布モデルを利用した遺伝子型の割当方法を説明する図。 遺伝子型の判定結果の一例を示す図。 第1実施形態に係る遺伝子型判定装置のハードウェア構成を示す図。 第1実施形態に係る遺伝子型判定装置による遺伝子型の判定処理を概略的に示すフローチャート。 代表値の算出処理を示すフローチャート。 信号強度データの抽出方法を説明する図。 代表値の算出方法を説明する図。 3クラスタのSNPの代表値データの一例を示す図。 2クラスタのSNPの代表値データの一例を示す図。 1クラスタのSNPの代表値データの一例を示す図。 3クラスタのSNPに対する遺伝子型の割当処理を示すフローチャート。 3クラスタのSNPに対する遺伝子型の割当方法を説明する図。 3クラスタのSNPに対する遺伝子型の割当結果の一例を示す図。 クラスタデータへの割当結果の適用方法を説明する図。 代表値データへの割当結果の適用方法を説明する図。 更新された代表値データの一例を示す図。 確率分布モデルの構築処理を示すフローチャート。 代表値の抽出方法を説明する図。 確率分布モデルの一例を示す図。 1,2クラスタのSNPに対する遺伝子型の割当処理を示すフローチャート。 1,2クラスタのSNPに対する遺伝子型の割当方法を説明する図。 1,2クラスタのSNPに対する遺伝子型の割当結果の一例を示す図。 第2実施形態に係る遺伝子型判定装置を示す機能ブロック図。 第2実施形態に係る遺伝子型判定装置による再割当処理を示すフローチャート。 第2実施形態に係る遺伝子型判定装置による割当方法Aを説明する図。 第2実施形態に係る遺伝子型判定装置による割当方法Bを説明する図。 第2実施形態に係る遺伝子型判定装置による割当方法Cを説明する図。 第2実施形態に係る遺伝子型判定装置による割当方法Dを説明する図。 第3実施形態に係る遺伝子型判定装置による割当方法Aを説明する図。 第3実施形態に係る遺伝子型判定装置による割当方法Bを説明する図。 第3実施形態に係る遺伝子型判定装置による割当方法Cを説明する図。 表示装置に表示される画面の一例を示す図。 表示装置に表示される画面の一例を示す図。 表示装置に表示される画面の一例を示す図。 表示装置に表示される画面の一例を示す図。
以下、本発明の実施形態について図面を参照して説明する。
まず、DNAマイクロアレイを用いた遺伝子型の判定技術の概要について、図1〜図6を参照して説明する。図1は、DNAマイクロアレイを示す概略図である。図1に示すように、DNAマイクロアレイは、複数の検体区画を備える。各検体区画は、各検体と対応する。各検体区画は、数十万から数百万のSNP区画を備える。各SNP区画は、各SNPと対応する。
各SNP区画は、既知の塩基配列からなる2種類のプローブA,Bを備える。プローブとは、各SNPにおいて2種類の異なる塩基を捉えるための仕組みのことで、各プローブは、そのSNP区画が対応するSNPの塩基が異なる。図1の例では、SNPの塩基がAのプローブと及びCのプローブが示されている。このSNP区画に検体のDNAが適用されると、対応するSNPの塩基がTの検体のDNAは、塩基がAのプローブにハイブリダイゼーションし、塩基がGの検体のDNAは、塩基がCのプローブにハイブリダイゼーションする。
各プローブに検体のDNAがハイブリダイゼーションすると蛍光強度や電流強度などの信号強度が変化する。DNAマイクロアレイは、この信号強度を、プローブの種類毎に計測する。以下では、一方のプローブをプローブA、他方のプローブをプローブBという。また、プローブAのハイブリダイゼーションに応じて強度が変化する信号を信号A、信号Aの強度を信号強度Aという。また、プローブBのハイブリダイゼーションに応じて強度が変化する信号を信号B、信号Bの強度を信号強度Bという。
ここで、SNPiの塩基がAのプローブをプローブA、塩基がCのプローブをプローブBとすると、図2に示すように、検体1のSNPiの遺伝子型がTTの場合、SNPiに対応するSNP区画では、プローブAに多くの検体がハイブリダイゼーションし、信号強度Aが大きくなる。このように、信号強度Aが大きくなる遺伝子型を、以下では遺伝子型AAと称する。遺伝子型AAは、ホモ接合体の遺伝子型である。
また、検体2のSNPiの遺伝子型がTGの場合、SNPiに対応するSNP区画では、プローブA,Bに同程度の検体がハイブリダイゼーションし、信号強度A,Bが同程度になる。このように、信号強度A,Bが同程度になる遺伝子型を、以下では遺伝子型ABと称する。遺伝子型ABは、ヘテロ接合体の遺伝子型である。
さらに、検体3のSNPiの遺伝子型がGGの場合、SNPiに対応するSNP区画では、プローブBに多くの検体がハイブリダイゼーションし、信号強度Bが大きくなる。このように、信号強度Bが大きくなる遺伝子型を、以下では遺伝子型BBと称する。遺伝子型BBは、ホモ接合体の遺伝子型である。
DNAマイクロアレイは、複数のSNPにおける複数の検体について、同時に信号強度A,Bを計測する。次に、DNAマイクロアレイが計測した信号強度A,Bに基づいて、SNP毎の検体のクラスタリングが行われる。
図3は、あるSNPiに対して、複数の検体を信号強度平面上にプロットした図である。図3において、横軸は信号強度A、縦軸は信号強度B、破線は各クラスタを示している。各クラスタは、SNPiの遺伝子型が同一の検体の集合である。検体のクラスタリングは、既存のクラスタリング方法を利用して行われる。これにより、各SNPに対して、3つ以下のクラスタがそれぞれ生成される。
そして、クラスタリングの後、生成された各クラスタに遺伝子型が割当てられる。上記の通り、遺伝子型ABの検体は、信号強度A,Bが同程度になることから、遺伝子型ABのクラスタは、信号強度平面上における45°の直線上に分布すると考えられる。また、遺伝子型AAのクラスタは、信号強度Aが大きく、信号強度Bが小さいことから、45°の直線より、信号強度A軸側に分布し、遺伝子型BBのクラスタは、信号強度Bが大きく、信号強度Aが小さいことから、45°の直線より、信号強度B軸側に分布すると考えられる。
従来の遺伝子型判定技術では、このような遺伝子型毎の信号強度の大小関係を利用して、各クラスタへの遺伝子型の割当が行われた。図4は、このような方法により遺伝子型を割当てられた図3の各クラスタを示す図である。図4において、信号強度A軸近傍のクラスタには遺伝子型AAが割当てられ、信号強度B軸近傍のクラスタには遺伝子型BBが割当てられ、45°の直線上のクラスタには遺伝子型ABが割当てられている。
各SNPに対して以上の処理を行うことにより、従来の遺伝子型判定技術では、複数のSNPにおける複数の検体の遺伝子型を同時に判定することができる。例えば、図4の例では、検体1のSNPiは遺伝子型AA、検体2のSNPiは遺伝子型AB、検体3のSNPiは遺伝子型BBと判定される。
信号強度の大小関係を利用した遺伝子型の割当方法では、信号強度A,Bが正確に計測されている場合、高い精度で遺伝子型を割当てることができる。しかしながら、実際には、DNAマイクロアレイによって信号強度A,Bを計測する際の実験環境(DNAマイクロアレイの試薬など)の影響で、信号強度A,Bに計測誤差が生じ、検体の分布に揺らぎが生じることがある。
例えば、図5に示すように、信号強度Aが信号強度Bより相対的に大きく計測され、検体の分布が非対称になったり(揺らぎ1)、検体の分布が全体的に平行移動したりする(揺らぎ2)ことが考えられる。
このように、検体の分布に揺らぎが生じると、図5に示すように、45°の直線上に、遺伝子型AB以外のクラスタが位置するおそれがある。このような場合であっても、1つのSNPに対してクラスタが3つ生成されていれば、クラスタの信号強度順に遺伝子型を割当てることにより、遺伝子型を正しく割当てること可能であるが、図6に示すように、1つのSNPに対してクラスタが1つ又は2つしか生成されない場合、遺伝子型の割当は困難となる。
これは、図6のように、クラスタが1つ又は2つしか生成されていない場合、検体の分布にどのように揺らぎが生じているのか不明なためである。そこで、以下の各実施形態に係る遺伝子型判定装置は、検体の分布に生じた揺らぎを考慮して、各SNPの各クラスタに対して遺伝子型を割当てる。
(第1実施形態)
以下、第1実施形態について、図7〜図39を参照して説明する。
まず、第1実施形態に係る遺伝子型判定装置による遺伝子型の判定方法の概要について説明する。図7及び図8は、本実施形態に係る遺伝子型判定装置による判定方法の概要を説明する図である。
図7の例では、100万SNPの90検体の信号強度及びクラスタIDが用意されている。100万SNPのうち、50万SNPは3クラスタ、20万SNPは2クラスタ、30万SNPは1クラスタに分類されている。
遺伝子型判定装置は、上記の通り、遺伝子型を、検体毎にではなく、クラスタ毎に割当てる。このために、まず、遺伝子型判定装置は、各クラスタに含まれる検体の信号強度から、各クラスタの代表値を計算する。代表値は、各SNPに対して計算される。
次に、遺伝子型判定装置は、3クラスタに分類されたSNPの各クラスタに対して、代表値の大小関係を利用して遺伝子型を割当てる。図7の例では、SNP1の各クラスタの代表値は、それぞれ10°,40°,80°である。このとき、遺伝子型判定装置は、代表値が小さい順に、3つのクラスタに遺伝子型AA,AB,BBを割当てる。遺伝子型判定装置は、この方法で、3クラスタに分類された50万個のSNPの全てのクラスタに、遺伝子型を割当てる。
これにより、図7に示すように、50万SNPの各遺伝子型の代表値が得られる。図7の例では、SNP1の遺伝子型AA,AB,BBの代表値は、それぞれ10°,40°,80°である。
遺伝子型判定装置は、こうして得られた50万SNPの遺伝子型と代表値とを用いて、確率分布モデルを構築する。例えば、遺伝子型AAの確率分布モデルは、遺伝子型AAの50万個の代表値の確率密度関数として表される。
続いて、遺伝子型判定装置は、1又は2クラスタに分類されたSNPの各クラスタに対して、確率分布モデルを利用して遺伝子型を割当てる。具体的には、遺伝子型判定装置は、各クラスタの代表値を、上記の確率分布モデルに適用し、確率密度が最大となる遺伝子型を、各クラスタに割当てる。
図8の例では、2クラスタに分類されたSNP3のクラスタ1の代表値は42°、クラスタ2の代表値は78°である。42°を確率分布モデルに適用すると、遺伝子型ABの確率密度が最大となる。また、78°を確率分布モデルに適用すると、遺伝子型BBの確率密度が最大となる。このため、SNP3のクラスタ1には遺伝子型AB、クラスタ2には遺伝子型BBが割当てられる。遺伝子型判定装置は、この方法で、2クラスタに分類された20万個のSNPの全てのクラスタに、遺伝子型を割当てる。1クラスタに分類された30万個のSNPについても同様である。
次に、本実施形態に係る遺伝子型判定装置(以下、「判定装置」という)の機能構成について、図9〜図19を参照して説明する。図9は、本実施形態に係る判定装置を示す機能ブロック図である。
図9に示すように、この判定装置は、信号強度DB1と、クラスタリング部2と、クラスタDB3と、代表値算出部4と、代表値DB5と、第1ラベリング部6と、モデル構築部7と、モデルDB8と、第2ラベリング部9と、判定結果DB10と、表示部11と、を備える。
信号強度DB1は、DNAマイクロアレイが計測した信号強度A,B(信号強度データ)を格納する。上述の通り、信号強度A,Bは、蛍光強度であってもよいし、電流強度であってもよい。以下では、信号強度DB1には、検体1〜MのSNP1〜nの信号強度がそれぞれ格納されているものとする。このとき、信号強度DB1には、M×n個の信号強度A,Bがそれぞれ格納される。
図10は、信号強度DB1に格納された信号強度Aの一例を示す図である。図10において、信号強度Aは蛍光強度であり、FUは蛍光単位である。図10に示すように、信号強度DB1には、検体1〜MのSNP1〜nの信号強度Aが格納される。例えば、図10の例では、検体1のSNP1の信号強度Aは、494.20FUである。
図11は、信号強度DB1に格納された信号強度Bの一例を示す図である。図11において、信号強度Bは蛍光強度であり、FUは蛍光単位である。図11に示すように、信号強度DB1には、検体1〜MのSNP1〜nの信号強度Bが格納される。例えば、図11の例では、検体1のSNP1の信号強度Bは、1448.17FUである。
クラスタリング部2は、信号強度DB1に格納された信号強度A,Bに基づいて、SNP毎にクラスタを生成する。クラスタとは、検体の集合のことである。各検体は、クラスタリング部2が生成したいずれかのクラスタに分類される。検体がヒトである場合、遺伝子型はAA,AB,BBの3つしか存在しないため、各SNPに対して3つ以下のクラスタが生成される。クラスタリング部2は、k−means法などの周知のクラスタリング方法を用いて検体のクラスタリングを行なえばよい。
クラスタDB3は、クラスタリング部2によるクラスタリング結果(クラスタデータ)を格納する。すなわち、クラスタDB3は、各SNPの各検体のクラスタ情報を格納する。図12は、クラスタDB3に格納されたクラスタリング結果の一例を示す図である。図12の例では、SNP1の検体1のクラスタは、クラスタ1である。また、SNP1は1つのクラスタに分類され、SNP2は2つのクラスタに分類され、SNP3は3つのクラスタに分類されている。
なお、判定装置は、図12のようなクラスタリング結果を、外部装置から取得することも可能である。この場合、判定装置は、クラスタリング部2を備えなくてもよい。
また、クラスタリング部2は、信号強度A,Bから、変換信号強度x,yを計算し、変換信号強度x,yに基づいてクラスタリングを行なってもよい。変換信号強度x,yは、例えば、以下の式により計算される。
Figure 2016157473
式(1),(2)により計算された変換信号強度x,yを利用してクラスタリングを行うと、図13に示すように、変換信号強度x軸及び変換信号強度y軸とからなる変換信号強度平面上に検体がプロットされ、変換信号強度平面上にクラスタが生成される。変換信号強度上に生成されるクラスタは、図13に示すように、変換信号強度xの大きさに応じたクラスタとなり、変換信号強度xが小さい順に、遺伝子型AA,AB,BBのクラスタに対応する。
クラスタリング部2により計算された変換信号強度x,yは、信号強度DB1に格納してもよい。図14は、信号強度DB1に格納された変換信号強度xの一例を示す図であり、図15は、信号強度DB1に格納された変換信号強度yの一例を示す図である。図14及び図15において、変換信号強度x,yは無次元である。判定装置は、信号強度DB1に格納された変換信号強度x,yを、信号強度A,Bの代わりに利用してもよい。
代表値算出部4は、クラスタリング部2が生成した各クラスタの代表値を算出する。代表値は、各SNPの各クラスタに固有の値である。本実施形態において、代表値は、各SNPの各クラスタに含まれる検体の信号強度A,Bや変換信号強度x,yに基づいて計算される。以下では、代表値は、信号強度A,Bに基づいて算出されるものとする。
代表値は、例えば、各クラスタの回帰直線の回帰係数、回帰係数の逆正接、又は原点を通る近似直線の傾きであるが、これに限られない。代表値は、各クラスタの相関係数、クラスタ中心値、クラスタ中央値、クラスタ分散、比の平均値、又は差の平均値であってもよい。
代表値DB5は、代表値算出部4が算出した各SNPの各クラスタの代表値(代表値データ)を格納する。図16は、代表値DB5に格納された代表値の一例を示す図である。図16の例では、各クラスタの代表値として、1つの値が格納されている。図16において、例えば、SNP1のクラスタ1の代表値は3.31であり、クラスタ2,3の代表値は、NA(Not Available)である。NAは、代表値が格納されていないことを示す。これは、SNP1にはクラスタが1つしか生成されていないことに対応する。
第1ラベリング部6は、代表値DB5を参照して、クラスタが3つ生成されたSNPを抽出する。クラスタが3つ生成されたSNPは、3つのクラスタに代表値が格納されたSNPに対応する。例えば、図16の例では、SNP3が抽出される。
次に、第1ラベリング部6は、抽出した各SNPの各クラスタに遺伝子型を割当てる。遺伝子型の割当は、代表値の大小関係を利用して行われる。より詳細には、代表値として、クラスタに含まれる検体の信号強度Aが大きいほど大きくなる値が算出されている場合、第1ラベリング部6は、代表値が大きい順に、3つのクラスタに遺伝子型AA,AB,BBを割当てる。同様に、代表値として、クラスタに含まれる検体の信号強度Bが大きいほど大きくなる値が算出されている場合、第1ラベリング部6は、代表値が大きい順に、3つのクラスタに遺伝子型BB,AB,AAを割当てる。これは、代表値が変換信号強度x,yに基づいて算出されている場合も同様である。
例えば、代表値が図3の信号強度平面上における各クラスタの回帰係数である場合、信号強度Bが大きいほど代表値は大きくなる。したがって、第1ラベリング部6は、代表値が大きい順に、3つのクラスタに遺伝子型BB,AB,AAを割当てる。したがって、図16の例では、クラスタ1に遺伝子型AAが割当てられ、クラスタ2に遺伝子型ABが割当てられ、クラスタ3に遺伝子型BBが割当てられる。
第1ラベリング部6が、割当結果をクラスタDB3に格納されたクラスタデータに適用することにより、3つクラスタに分類されたSNPの遺伝子型の判定結果が生成される。判定結果は、判定結果DB10に格納される。
モデル構築部7は、第1ラベリング部6が割当てた各クラスタの遺伝子型と、遺伝子型を割当てられた各クラスタの代表値と、に基づいて、遺伝子型と代表値との関係を示す確率分布モデルを構築する。確率分布モデルは、遺伝子型毎の代表値の確率密度関数からなる。各確率密度関数の確率変数は、代表値である。
確率分布モデルとして、ガウス分布(正規分布)、混合ガウス分布、F分布、及びベータ分布など、任意の確率分布に従う確率密度関数を利用することができる。また、各確率密度関数は、遺伝子型毎に異なる種類の分布に従ってもよい。例えば、遺伝子型AA,BBの確率密度関数は混合ガウス分布に従い、遺伝子型ABの確率密度関数は正規分布に従うことが考えられる。
図17は、モデル構築部7が構築した確率分布モデルの一例を示す図である。図17の例では、代表値は、原点を通る近似直線の傾きである。図17において、左から順に、遺伝子型AA,AB,BBの確率密度関数が示されている。
信号強度A,Bが正確に計測されている場合、遺伝子型AA,BBの確率分布は、遺伝子型ABの確率分布に対して対称になる。また、遺伝子型ABの確率分布は、その平均値が約45°となる。これに対して、図17の確率分布モデルでは、遺伝子型AA,BBの確率分布が非対称となり(揺らぎ1)、遺伝子型ABの確率分布の平均値が45°からずれている(揺らぎ2)。
このように、第1ラベリング部6が割当てた遺伝子型及び代表値を利用することにより、モデル構築部7は、実験環境の影響による分布の揺らぎを反映した確率分布モデルを構築することができる。
モデルDB8は、モデル構築部7が構築した確率分布モデルを格納する。すなわち、遺伝子型毎の確率密度関数のパラメータ(平均や分散)を格納する。
第2ラベリング部9は、代表値DB5を参照して、クラスタが1つ又は2つ生成されたSNPを抽出する。クラスタが1つ又は2つ生成されたSNPは、1つ又は2つのクラスタに代表値が格納されたSNPにそれぞれ対応する。例えば、図16の例では、SNP1,2が抽出される。
次に、第2ラベリング部9は、抽出した各SNPの各クラスタに遺伝子型を割当てる。遺伝子型の割当は、モデルDB8に格納された確率分布モデルを利用して行われる。より詳細には、第2ラベリング部9は、各クラスタの代表値を各遺伝子型の確率密度関数に代入し、確率密度が最大となる遺伝子型を各クラスタに割当てる。
例えば、図18に示すように、SNP1のクラスタ1の代表値がα°であった場合、クラスタ1は、遺伝子型AAの確率密度関数における確率密度が最大となる。したがって、第2ラベリング部9は、SNP1のクラスタ1に遺伝子型AAを割当てる。
第2ラベリング部9が、割当結果をクラスタDB3に格納されたクラスタデータに適用することにより、1つ又は2つのクラスタに分類されたSNPの遺伝子型の判定結果が生成される。判定結果は、判定結果DB10に格納される。
判定結果DB10は、各検体の各SNPの遺伝子型の判定結果を格納する。判定結果は、クラスタDB3に格納された各クラスタに、第1ラベリング部6及び第2ラベリング部9が割当てた遺伝子型を適用することで生成される。図19は、判定結果DB10に格納された遺伝子型の判定結果の一例を示す図である。図19の例では、検体1のSNP1は、遺伝子型AAである。
表示部11は、判定装置が生成した各種の情報を、画像データや映像データに変換し、後述する表示装置103に表示させる。図9の例では、表示部11は、判定結果DB10のみと接続されているが、信号強度DB1、クラスタDB3、代表値DB5、及びモデルDB8と接続されていてもよい。表示部11が表示させる画面については後述する。
次に、本実施形態に係る判定装置のハードウェア構成について、図20を参照して説明する。本実施形態に係る判定装置は、図20に示すように、コンピュータ100により構成される。コンピュータ100は、CPU(中央演算装置)101と、入力装置102と、表示装置103と、通信装置104と、記憶装置105と、とを備え、これらはバス106により相互に接続されている。
CPU101は、コンピュータ100の制御装置及び演算装置である。CPU101は、バス106を介して接続された各装置(例えば、入力装置102、通信装置104、記憶装置105)から入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を、バス106を介して接続された各装置(例えば、表示装置103、通信装置104、記憶装置105)に出力する。
具体的には、CPU101は、コンピュータ100のOS(オペレーティングシステム)や、判定プログラムなどを実行し、コンピュータ100を構成する各装置を制御する。判定プログラムとは、コンピュータ100に、判定装置の上述の各機能を実現させるプログラムである。CPU101が判定プログラムを実行することにより、コンピュータ100が判定装置として機能する。
入力装置102は、コンピュータ100に情報を入力するための装置である。入力装置102は、例えば、キーボード、マウス、及びタッチパネルであるが、これに限られない。判定装置のユーザ(オペレータ)は、入力装置102を用いることにより、判定装置に判定処理を開始させたり、確率分布モデルのパラメータを入力したりすることができる。
表示装置103は、画像や映像を表示するための装置である。表示装置103は、例えば、LCD(液晶ディスプレイ)、CRT(ブラウン管)、及びPDP(プラズマディスプレイ)であるが、これに限られない。表示装置103には、表示部11が生成した画像データが表示される。
通信装置104は、コンピュータ100が外部装置と無線又は有線で通信するための装置である。通信装置104は、例えば、モデム、ハブ、及びルータであるが、これに限られない。DNAマイクロアレイが計測した信号強度や、検体のクラスタリング結果などの情報は、通信装置104を介して外部装置から入力することができる。
記憶装置105は、コンピュータ100のOSや、判定プログラム、判定プログラムの実行に必要なデータ、及び判定プログラムの実行により生成されたデータなどを記憶する記憶媒体である。記憶装置105には、主記憶装置と外部記憶装置とが含まれる。主記憶装置は、例えば、RAM、DRAM、SRAMであるが、これに限られない。また、外部記憶装置は、ハードディスク、光ディスク、フラッシュメモリ、及び磁気テープであるが、これに限られない。信号強度DB1、クラスタDB3、代表値DB5、モデルDB8、及び判定結果DB10は、記憶装置105を用いて構成することができる。
なお、コンピュータ100は、CPU101、入力装置102、表示装置103、通信装置104、及び記憶装置105を、1つ又は複数備えてもよいし、プリンタやスキャナなどの周辺機器を接続されていてもよい。
また、判定装置は、単一のコンピュータ100により構成されてもよいし、相互に接続された複数のコンピュータ100からなるシステムとして構成されてもよい。
さらに、判定プログラムは、コンピュータ100の記憶装置105に予め記憶されていてもよいし、CD−ROMなどのコンピュータ読み取り可能な記録媒体に記録されていてもよいし、インターネット上にアップロードされていてもよい。いずれの場合も、判定プログラムをコンピュータ100にインストールして実行することにより、判定装置を構成することができる。
次に、本実施形態に係る判定装置が実行する判定処理について、図21〜図39を参照して説明する。以下では、クラスタリング部2によるクラスタリングは終了し、クラスタDB3には検体1〜MのSNP1〜nのクラスタが格納されているものとする。
まず、判定処理の概要について説明する。図21は、判定処理を概略的に示すフローチャートである。図21に示すように、判定処理が開始すると、まず、ステップS1において、代表値算出部4が、SNP1〜nの各クラスタの代表値を算出する。次に、ステップS2において、第1ラベリング部6が、代表値の大小関係を利用して、3つのクラスタに分類されたSNPの各クラスタに遺伝子型を割当てる。続いて、モデル構築部7が、第1ラベリング部6によるクラスタに割当てられた遺伝子型と、遺伝子型を割当てられたクラスタの代表値と、に基づいて、確率分布モデルを構築する。そして、ステップS4において、第2ラベリング部9が、確率分布モデルを利用して、1つ又は2つのクラスタに分類されたSNPの各クラスタに遺伝子型を割当てる。
以上の処理により、検体1〜MのSNP1〜nの各クラスタに遺伝子型が割当てられ、判定処理が終了する。判定結果は、判定結果DB10に格納される。
ここで、上記のステップS1〜S4の各処理について、具体的に詳細に説明する。
(ステップS1)
まず、ステップS1における、代表値の算出処理について説明する。図22は、代表値の算出処理を示すフローチャートである。以下では、代表値は、信号強度平面上の原点を通る近似曲線の傾きであるものとする。
まず、ステップS10において、代表値算出部4は、信号強度DB1に格納された信号強度データと、クラスタDB3に格納されたクラスタデータと、を取得する。
次に、ステップS11において、代表値算出部4は、SNPiのクラスタjの信号強度A,Bを抽出する。iは1〜n、jは1〜3である。例えば、SNPiのクラスタ1の信号強度を抽出する場合、図23に示すように、代表値算出部4は、まず、SNPiのクラスタデータを参照し、クラスタ1の検体を抽出する。図23の例では、クラスタ1の検体は、検体1,3,M−1である。
次に、代表値算出部4は、信号強度データを参照し、クラスタ1の検体の信号強度A,Bを抽出する。これにより、図23に示すように、SNPiのクラスタ1の信号強度A,Bが抽出される。
続いて、ステップS12において、代表値算出部4は、SNPiのクラスタjの代表値CLU(i,j)を算出する。代表値CLU(i,j)は、クラスタjの近似直線の傾き(角度)である。図24は、代表値CLU(i,j)の一例を示す図である。図24の例では、SNPiのクラスタ1の代表値CLU(i,1)と、クラスタ2の代表値CLU(i,2)が示されている。近似直線は、図24に示すように、信号強度平面の原点と、クラスタjのクラスタ中心と、を通る直線となる。代表値CLU(i,j)は、以下の式により算出される。
CLU(i,j)=tan-1*(averege B(i,j))/(average A(i,j))・・・(1)
式(1)において、B(i,j)は、SNPiのクラスタjの信号強度B、A(i,j)は、SNPiのクラスタjの信号強度Aである。SNPiのクラスタjのクラスタ中心の座標は、 (averege A(i,j), averege B(i,j))である。代表値算出部4は、ステップS11で抽出したSNPiのクラスタjの信号強度A,Bを代入することにより、代表値CLU(i,j)を算出する。
そして、ステップS13において、代表値算出部4は、算出した代表値CLU(i,j)を、代表値DB5に格納する。図25〜図27は、代表値DB5に格納された代表値CLU(i,j)の一例を示す図である。図25は、3つのクラスタに分類されたSNPの代表値CLU(i,j)を示し、図26は、2つのクラスタに分類されたSNPの代表値CLU(i,j)を示し、図27は、1つのクラスタに分類されたSNPの代表値CLU(i,j)を示している。
代表値DB5は、図25〜図27に示すように、SNPのクラスタ数毎の異なるテーブルを備えてもよい。また、代表値DB5は、図16に示ように、1つのテーブルを備えてもよい。この場合、図26のSNP2のように、2つのクラスタに分類されたSNPiのクラスタ3の代表値には、NAが格納される。また、図27のSNP1のように、1つのクラスタに分類されたSNPiのクラスタ2の代表値及びクラスタ3の代表値には、NAが格納される。
(ステップS2)
次に、ステップS2における、3クラスタのSNP(3つのクラスタに分類されたSNP)に対する遺伝子型の割当処理について説明する。図28は、3クラスタのSNPに対する遺伝子型の割当処理を示すフローチャートである。
まず、ステップS20において、第1ラベリング部6は、代表値DB5から3クラスタのSNPiの代表値データを取得する。これにより、代表値CLU(i,1)〜CLU(i,3)を格納した、図25のようなテーブルが取得される。
次に、ステップS21において、第1ラベリング部6は、クラスタデータを参照して、各SNPiのクラスタ1〜3に遺伝子型を割当てる。図29に示すように、代表値CLU(i,j)は、信号強度Aが大きいほど小さくなり、信号強度Bが大きいほど大きくなる。したがって、第1ラベリング部6は、代表値CLU(i,j)が大きい順に、クラスタ1〜3に遺伝子型BB,AB,BBを割当てる。例えば、図25の例では、SNPnのクラスタ1には遺伝子型AA、クラスタ2には遺伝子型AB、クラスタ3には遺伝子型BBが割当てられる。
図30は、第1ラベリング部6による遺伝子型の割当結果の一例を示す図である。このような割当結果は、第1ラベリング部6に保持される。また、割当結果は、判定結果DB10に格納されてもよい。
続いて、ステップS22において、第1ラベリング部6は、SNPiの遺伝子型の割当結果をクラスタデータに適用する。すなわち、第1ラベリング部6は、クラスタDB3に格納されたSNPiの各検体のクラスタを、SNPiの各クラスタに割当てられた遺伝子型に置換する。
図31は、クラスタデータへの割当結果の適用方法を説明する図である。図31の例では、SNPiのクラスタ1,2,3に、遺伝子型AA,AB,BBがそれぞれ割当てられている。このため、クラスタデータにおけるSNPiのクラスタ1,2,3は、遺伝子型AA,AB,BBにそれぞれ置換されている。
第1ラベリング部6が割当結果を適用することにより、図19に示したような、3クラスタのSNPの遺伝子型の判定結果が生成される。
そして、ステップS23において、生成された判定結果が、判定結果DB10に格納される。
また、ステップS24において、第1ラベリング部6は、SNPiの遺伝子型の割当結果を代表値データに適用する。すなわち、第1ラベリング部6は、代表値DB5に格納された各代表値CLU(i,j)のクラスタjを、SNPiの各クラスタjに割当てられた遺伝子型に置換し、遺伝子型毎にソートする。
図32は、代表値データへの割当結果の適用方法を説明する図である。図32の例では、SNPiのクラスタ1,2,3に、遺伝子型AA,AB,BBがそれぞれ割当てられている。このため、代表値データにおけるSNPiのクラスタ1,2,3は、遺伝子型AA,AB,BBにそれぞれ置換されている。
そして、第1ラベリング部6は、代表値CLU(i,j)を遺伝子型毎にソートする。これにより、代表値DB5が更新される。図33は、更新後の代表値データの一例を示す図である。図33の例では、遺伝子型AA,AB,BBの順に、各SNPiの代表値がソートされている。例えば、SNPnの遺伝子型AAの代表値は4.32である。
(ステップS3)
次に、ステップS3における、確率分布モデルの構築処理について説明する。図34は、確率分布モデルの構築処理を示すフローチャートである。以下では、確率分布モデルは、正規分布を利用して構築されるものとする。
まず、ステップS30において、モデル構築部7は、代表値DB5に格納された3クラスタのSNPの代表値データを取得する。これにより、図33に示したような、更新後の代表値データが取得される。
次に、ステップS31において、モデル構築部7は、遺伝子型毎の代表値を抽出する。図35に示すように、モデル構築部7は、例えば、遺伝子型AAの代表値として、代表値データに含まれる遺伝子型AAの代表値を全て抽出する。以下では、抽出された遺伝子型AAの代表値の集合をCLUAA、遺伝子型ABの代表値の集合をCLUAB、遺伝子型BBの代表値の集合をCLUBBという。
続いて、ステップS32において、モデル構築部7は、各遺伝子型の平均μ及び分散δを計算する。すなわち、モデル構築部7は、集合CLUAAの平均μAA及び分散σAAと、集合CLUABの平均μAB及び分散σABと、集合CLUBBの平均μBB及び分散σBBとを計算する。
そして、ステップS33において、モデル構築部7は、各遺伝子型の平均μ及び分散σを正規分布に適用し、各遺伝子型の確率密度関数f(x)を生成する。確率密度関数は以下の式で表される。
Figure 2016157473
式(3)〜(5)において、xは代表値CLU、fAA(x)は遺伝子型AAの確率密度関数、fAB(x)は遺伝子型ABの確率密度関数、fBB(x)は遺伝子型BBの確率密度関数である。上記の3つの確率密度関数の組が確率分布モデルとなる。図36は、ステップS33で構築された確率分布モデルの一例を示す図である。
確率分布モデルの構築後、ステップS34において、モデル構築部7は、確率分布モデルをモデルDB8に格納する。モデルDB8には、遺伝子型毎の平均μ及び分散σが格納される。
(ステップS4)
次に、ステップS4における、1又は2クラスタのSNP(1つのクラスタに分類されたSNP又は2つのクラスタに分類されたSNP)に対する遺伝子型の割当処理について説明する。図37は、1又は2クラスタのSNPに対する遺伝子型の割当処理を示すフローチャートである。
まず、ステップS40において、第2ラベリング部9は、代表値DB5に格納された1クラスタSNP又は2クラスタのSNPの代表値データを取得する。これにより、図26や図27に示したような、代表値データが取得される。
また、ステップS41において、第2ラベリング部9は、モデルDB8に格納された確率分布モデルを取得する。これにより、図36に示した確率分布モデルが取得される。
次に、ステップS42において、第2ラベリング部9は、確率分布モデルに代表値CLU(i,j)を適用する。すなわち、第2ラベリング部9は、図38に示すように、代表値CLU(i,j)を各遺伝子型の確率密度関数f(x)に代入し、遺伝子型毎の確率密度f(CLU(i,j))を計算する。
続いて、ステップS43において、第2ラベリング部9は、SNPiのクラスタjに、確率密度f(CLU(i,j))が最大となった遺伝子型を割当てる。例えば、図38の例では、SNPiのクラスタjには、遺伝子型AAが割当てられる。
図39は、第2ラベリング部9による遺伝子型の割当結果の一例を示す図である。このような割当結果は、第2ラベリング部9に保持される。また、割当結果は、判定結果DB10に格納されてもよい。
そして、ステップS44において、第2ラベリング部9は、SNPiの遺伝子型の割当結果をクラスタデータに適用する。すなわち、第2ラベリング部9は、クラスタDB3に格納されたSNPiの各検体のクラスタを、SNPiの各クラスタに割当てられた遺伝子型に置換する。割当結果の適用方法は、ステップS22と同様である。
第2ラベリング部9が割当結果を適用することにより、図19に示したような、1クラスタのSNP又は2クラスタのSNPの遺伝子型の判定結果が生成される。
そして、ステップS45において、生成された判定結果が、判定結果DB10に格納される。これにより、検体1〜MのSNP1〜nの遺伝子型を判定が終了する。
以上説明した通り、本実施形態では、実験環境の影響による分布の揺らぎを反映した確率分布モデルを利用して遺伝子型を判定する。したがって、実験環境の影響による遺伝子型の割当ての誤りを抑制し、遺伝子型の判定精度を向上させることができる。
(第2実施形態)
以下、第2実施形態について、図40〜図45を参照して説明する。本実施形態では、第2ラベリング部9が割当てた遺伝子型の信頼性が高いか判定する。信頼性が低い場合には、遺伝子型を再割当てする。判定及び再割当のために、生物学的な知見が利用される。
図40は、本実施形態に係る判定装置を示す機能ブロック図である。図40に示すように、本実施形態に係る判定装置は、第3ラベリング部12を備える。他の構成は、図9と同様である。
第3ラベリング部12は、第2ラベリング部9による遺伝子型の割当結果を取得し、割当結果の信頼性が高いか判定する。
割当結果の信頼性が低いと判定した場合、第3ラベリング部12は、第2ラベリング部9の割当結果をそのまま出力する。一方、割当結果の信頼性が低いと判定した場合、第3ラベリング部12は、遺伝子型を再割当てする。そして、第3ラベリング部12は、再割当てした遺伝子型の割当結果を出力する。
本実施形態では、第3ラベリング部12が出力した割当結果をクラスタDB3に格納されたクラスタデータに適用することにより、1クラスタ及び2クラスタのSNPの遺伝子型の判定結果が生成される。
図41は、第3ラベリング部12による遺伝子型の信頼性の再割当処理を示すフローチャートである。
まず、ステップS50において、第3ラベリング部12は、第2ラベリング部9から、SNPiに対する遺伝子型の割当結果を取得する。ここで取得されるSNPiは、1クラスタ又は2クラスタのSNPである。
次に、ステップS51において、第3ラベリング部12は、取得したSNPiが1クラスタか2クラスタか判定する。SNPiが2クラスタである場合(Yes)、処理はステップS52に進む。
ステップS52において、第3ラベリング部12は、2クラスタのSNPiに割当てられた2つの遺伝子型が、異なる遺伝子型であるか判定する。異なる遺伝子型である場合(Yes)、処理はステップS53に進む。
ステップS53において、第3ラベリング部12は、2クラスタのSNPiに割当てられた2つの遺伝子型に遺伝子型ABが含まれるか判定する。遺伝子型ABが含まれる場合(Yes)、第3ラベリング部12は、第2ラベリング部9から取得した割当結果をそのまま出力し、再割当処理は終了する。
一方、ステップS53において、2つの遺伝子型に遺伝子型ABが含まれない場合(No)、処理はステップS54に進む。
ステップS54において、第3ラベリング部12は、割当方法Aを利用して、SNPiの2つのクラスタ1,2に遺伝子型を再割当てする。割当方法Aについては後述する。その後、第3ラベリング部12は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。
また、ステップS52において、2クラスタのSNPiに割当てられた2つの遺伝子型が同一であった場合(Yes)、処理はステップS55に進む。
ステップS55において、第3ラベリング部12は、SNPiに割当てられた遺伝子型がABであるか判定する。SNPiに遺伝子型ABが割当てられている場合(YES)、処理はステップS56に進む。
ステップS56において、第3ラベリング部12は、割当方法Bを利用して、SNPiの2つのクラスタ1,2に遺伝子型を再割当てする。割当方法Bについては後述する。その後、第3ラベリング部12は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。
一方、ステップS55において、SNPiに遺伝子型ABが割当てられていない場合(No)、処理はステップS57に進む。
ステップS57において、第3ラベリング部12は、割当方法Cを利用して、SNPiの2つのクラスタ1,2に遺伝子型を再割当てする。割当方法Cについては後述する。その後、第3ラベリング部12は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。
さらに、ステップS51において、SNPiが1クラスタである場合(No)、処理はステップS58に進む。
ステップS58において、第3ラベリング部12は、SNPiに割当てられた遺伝子型がABであるか判定する。SNPiに遺伝子型ABが割当てられている場合(Yes)、処理はステップS59に進む。
ステップS59において、第3ラベリング部12は、割当方法Dを利用して、SNPiの1つのクラスタ1に遺伝子型を再割当てする。割当方法Dについては後述する。その後、第3ラベリング部12は、再割当てした遺伝子型の割当結果を出力し、再割当処理は終了する。
一方、ステップS58において、SNPiに遺伝子型ABが割当てられていない場合(No)、第3ラベリング部12は、第2ラベリング部9から取得した割当結果をそのまま出力し、再割当処理は終了する。
次に、各割当方法A〜Dについて説明する。
(割当方法A)
まず、割当方法Aについて説明する。割当方法Aによる再割当が行われるのは、SNPiの2つのクラスタ1,2に遺伝子型AA,BBが割当てられた場合である。
ヒトのある民族集団の遺伝子型が、遺伝子型AA及び遺伝子型BBのみに分かれる可能性は、生物学上極めて低いと考えられる。これは、遺伝子型AAの母(父)と遺伝子型BBの父(母)との子は、50%の確率で遺伝子型ABとなるためである。したがって、生物学的な観点から、この割当結果の信頼性は低いと判定される。
このような場合、第3ラベリング部12は、まず、確率分布モデルと、SNPiの代表値データと、を取得する。これにより、確率密度関数fAA(x),fAB(x),f (x)と、クラスタ1の代表値CLU(i,1)と、クラスタ2の代表値CLU(i,2)と、が取得される。
次に、第3ラベリング部12は、各代表値を確率密度関数fAB(x)に代入して、確率密度fAB(CLU(i,1))と、確率密度fAB(CLU(i,2))と、を計算する。そして、第3ラベリング部12は、確率密度fAB(x)が大きいクラスタに、遺伝子型ABを再割当てする。確率密度fAB(x)が小さいクラスタの遺伝子型はそのままである。
図42は、割当方法Aを説明する図である。図42において、クラスタ1に遺伝子型AA、クラスタ2に遺伝子型BBが割当てられている。また、fAB(CLU(i,1))<fAB(CLU(i,2))である。図42の例では、第3ラベリング部12は、クラスタ2に遺伝子型ABを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAA、クラスタ2の遺伝子型がABとなる。
(割当方法B)
次に、割当方法Bについて説明する。割当方法Bによる再割当が行われるのは、SNPiの2つのクラスタ1,2にいずれも遺伝子型ABが割当てられた場合である。2つのクラスタに同一の遺伝子型が割当てられていることから、この割当結果の信頼性は低いと判定される。
このような場合、第3ラベリング部12は、まず、確率分布モデルと、SNPiの代表値データと、を取得する。これにより、確率密度関数fAA(x),fAB(x),f (x)と、クラスタ1の代表値CLU(i,1)と、クラスタ2の代表値CLU(i,2)と、が取得される。
次に、第3ラベリング部12は、各代表値を確率密度関数fAB(x)に代入して、確率密度fAB(CLU(i,1))と、確率密度fAB(CLU(i,2))と、を計算する。そして、第3ラベリング部12は、確率密度fAB(x)が小さいクラスタに遺伝子型AA,BBのいずれかを再割当てする。確率密度fAB(x)が大きいクラスタの遺伝子型はABのままである。
第3ラベリング部12は、確率密度fAB(x)が小さいクラスタの確率密度fAA(x),fBB(x)を計算する。fAA(x)>fBB(x)の場合、第3ラベリング部12は、確率密度fAB(x)が小さいクラスタに、遺伝子型AAを再割当てする。一方、fAA(x)<fBB(x)の場合、第3ラベリング部12は、確率密度fAB(x)が小さいクラスタに、遺伝子型BBを再割当てする。
図43は、割当方法Bを説明する図である。図43において、クラスタ1,2に遺伝子型ABが割当てられている。また、fAB(CLU(i,1))>fAB(CLU(i,2))かつfBB(CLU(i,2))>fAA(CLU(i,2))である。図43の例では、第3ラベリング部12は、クラスタ2に遺伝子型BBを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAB、クラスタ2の遺伝子型がBBとなる。
なお、割当方法Bにおいて、一方のクラスタの遺伝子型をABのままにするのは、上述の通り、遺伝子型がAA及びBBのみに分かれる可能性は、生物学上極めて低いと考えられるためである。
(割当方法C)
次に、割当方法Cについて説明する。割当方法Cによる再割当が行われるのは、SNPiの2つのクラスタ1,2にいずれも遺伝子型AA又は遺伝子型BBが割当てられた場合である。2つのクラスタに同一の遺伝子型が割当てられていることから、この割当結果の信頼性は低いと判定される。
このような場合、第3ラベリング部12は、まず、確率分布モデルと、SNPiの代表値データと、を取得する。これにより、確率密度関数fAA(x),fAB(x),f (x)と、クラスタ1の代表値CLU(i,1)と、クラスタ2の代表値CLU(i,2)と、が取得される。
クラスタ1,2に遺伝子型AAが割当てられている場合、第3ラベリング部12は、各代表値を確率密度関数fAA(x)に代入して、確率密度fAA(CLU(i,1))と、確率密度fAA(CLU(i,2))と、を計算する。そして、第3ラベリング部12は、確率密度fAA(x)が小さいクラスタに遺伝子型ABを再割当てする。確率密度f AA(x)が大きいクラスタの遺伝子型はAAのままである。
一方、クラスタ1,2に遺伝子型BBが割当てられている場合、第3ラベリング部12は、各代表値を確率密度関数fBB(x)に代入して、確率密度fBB(CLU(i,1))と、確率密度fBB(CLU(i,2))と、を計算する。そして、第3ラベリング部12は、確率密度fBB(x)が小さいクラスタに遺伝子型ABを再割当てする。確率密度fBB(x)が大きいクラスタの遺伝子型はBBのままである。
図44は、割当方法Cを説明する図である。図44において、クラスタ1,2に遺伝子型AAが割当てられている。また、fAA(CLU(i,1))>fAA(CLU(i,2))である。図44の例では、第3ラベリング部12は、クラスタ2に遺伝子型ABを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAA、クラスタ2の遺伝子型がABとなる。
なお、割当方法Cにおいて、一方のクラスタの遺伝子型をABに再割当するのは、上述の通り、遺伝子型がAA及びBBのみに分かれる可能性は、生物学上極めて低いと考えられるためである。
(割当方法D)
次に、割当方法Dについて説明する。割当方法Dによる再割当が行われるのは、1クラスタのSNPiに遺伝子型ABが割当てられた場合である。
ヒトのある民族集団の遺伝子型が、集団全員に関して遺伝子型ABのみである可能性は、生物学上極めて低いと考えられる。これは、遺伝子型AB同士を親とすると、遺伝子型AA又はBBのようなホモ接合体の子が、約50%の確率で現れるためである。また、大規模な集団全員の遺伝子型がABとなる場合は、各個の親として、遺伝子型AAの母(父)と遺伝子型BBの父(母)との組み合わせのみしか考えられないためである。したがって、生物学的な観点から、この割当結果の信頼性は低いと判定される。
このような場合、第3ラベリング部12は、まず、確率分布モデルと、SNPiの代表値データと、を取得する。これにより、確率密度関数fAA(x),fAB(x),f (x)と、クラスタ1の代表値CLU(i,1)と、が取得される。
次に、第3ラベリング部12は、代表値CLU(i,1)を確率密度関数fAA(x),fBB(x)に代入して、確率密度fAA(CLU(i,1)),fBB(CLU(i,1))を計算する。そして、第3ラベリング部12は、fAA(CLU(i,1))>fBB(CLU(i,1))の場合、クラスタ1に遺伝子型AAを再割当てし、fAA(CLU(i,1))<fBB(CLU(i,1))の場合、クラスタ1に遺伝子型BBを再割当てする。
図45は、割当方法Dを説明する図である。図45において、クラスタ1には遺伝子型ABが割当てられている。また、fAA(CLU(i,1))>fBB(CLU(i,1))である。図45の例では、第3ラベリング部12は、クラスタ1に遺伝子型AAを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAAとなる。
以上説明した通り、本実施形態では、生物学的な知見を利用して、信頼性が低い遺伝子型を割当てられたクラスタに、遺伝子型を再割当てすることができる。したがって、遺伝子型の割当ての信頼性を向上させ、結果として、遺伝子型の判定精度を向上させることができる。
(第3実施形態)
以下、第3実施形態について、図46〜図48を参照して説明する。本実施形態では、第3ラベリング部12は、第2の代表値を利用して、遺伝子型の再割当を行う。第2の代表値とは、第1ラベリング部6及び第2ラベリング部9が利用する代表値(以下、「第1の代表値」という)とは異なる種類の代表値のことである。したがって、本実施形態では、第1の代表値と、第2の代表値と、を含む少なくとも2種類の代表値が算出される。
第2の代表値は、信号強度A,Bに基づいて算出されてもよい。このような代表値として、例えば、各クラスタの回帰直線の回帰係数、回帰係数の逆正接、又は原点を通る近似直線の傾き、各クラスタの相関係数、クラスタ中心値、クラスタ中央値、クラスタ分散、比の平均値、又は差の平均値が挙げられる。
また、第2の代表値は、信号強度A,Bに基づいて算出されなくてもよい。このような代表値として、例えば、検体数が挙げられる。検体数とは、各クラスタに含まれる検体の数のことである。
本実施形態において、第3ラベリング部12による遺伝子型の信頼性の判定方法は、第2実施形態と同様である(図41のフローチャート参照)。しかしながら、本実施形態では、割当方法A〜Cが第2実施形態とは異なる。そこで、本実施形態における割当方法A〜Cについて説明する。以下では、第1の代表値はクラスタの近似直線の傾きであり、第2の代表値は検体数であるものとする。
(割当方法A)
まず、割当方法Aについて説明する。割当方法Aによる再割当が行われるのは、SNPiの2つのクラスタ1,2に遺伝子型AA,BBが割当てられた場合である。
本実施形態において、第3ラベリング部12は、検体数が少ないクラスタに遺伝子型ABを再割当てする。これは、検体数の少ないクラスタは、遺伝子型の割当ての信頼性も低いと考えられるためである。検体数が多いクラスタの遺伝子型はそのままである。
図46は、本実施形態における割当方法Aを説明する図である。図46において、クラスタ1に遺伝子型AA、クラスタ2に遺伝子型BBが割当てられている。また、クラスタ1の検体数は10、クラスタ2の検体数は100である。図46の例では、第3ラベリング部12は、クラスタ1に遺伝子型ABを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAB、クラスタ2の遺伝子型がBBとなる。
(割当方法B)
次に、割当方法Bについて説明する。割当方法Bによる再割当が行われるのは、SNPiの2つのクラスタ1,2にいずれも遺伝子型ABが割当てられた場合である。
本実施形態において、第3ラベリング部12は、検体数の少ないクラスタに遺伝子型AA,BBのいずれかを再割当てする。これは、検体数の少ないクラスタは、遺伝子型の割当ての信頼性も低いと考えられるためである。検体数が多いクラスタの遺伝子型はABのままである。
第3ラベリング部12は、第2実施形態と同様の方法で、検体数が少ないクラスタに遺伝子型を再割当てすればよい。すなわち、第3ラベリング部12は、確率密度fAA(x),fBB(x)を計算し、fAA(x)>fBB(x)の場合、遺伝子型AAを再割当てし、fAA(x)<fBB(x)の場合、遺伝子型BBを再割当てする。
図47は、本実施形態における割当方法Bを説明する図である。図47において、クラスタ1,2に遺伝子型ABが割当てられている。また、クラスタ1の検体数は10、クラスタ2の検体数は100、fAA(CLU(i,1))>fBB(CLU(i,1))である。図47の例では、第3ラベリング部12は、クラスタ1に遺伝子型AAを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAA、クラスタ2の遺伝子型がABとなる。
(割当方法C)
次に、割当方法Cについて説明する。割当方法Cによる再割当が行われるのは、SNPiの2つのクラスタ1,2にいずれも遺伝子型AA又は遺伝子型BBが割当てられた場合である。
本実施形態において、第3ラベリング部12は、検体数が少ないクラスタに遺伝子型ABを再割当てする。これは、検体数の少ないクラスタは、遺伝子型の割当ての信頼性も低いと考えられるためである。検体数が多いクラスタの遺伝子型はそのままである。
図48は、本実施形態における割当方法Cを説明する図である。図48において、クラスタ1,2に遺伝子型AAが割当てられている。また、クラスタ1の検体数は10、クラスタ2の検体数は100である。図48の例では、第3ラベリング部12は、クラスタ1に遺伝子型ABを再割当てする。これにより、再割当後の割当結果では、クラスタ1の遺伝子型がAB、クラスタ2の遺伝子型がAAとなる。
以上説明した通り、本実施形態によれば、第2の代表値を利用して、遺伝子型を再割当てが行われる。第1の代表値の信頼性が低いことに起因して、遺伝子型の割当ての信頼性が低下している場合、第2の代表値を利用して再割当てすることにより、遺伝子型の割当ての信頼性を向上させ、結果として、遺伝子型の判定精度を向上させることができる。
なお、割当方法A〜Cにおいて、本実施形態の方法と、第2実施形態の方法と、を併用することも可能である。例えば、検体数の閾値αを設定しておき、クラスタ1,2の検体数の少なくとも一方が閾値α以下の場合、本実施形態の方法で遺伝子型を再割当てし、クラスタ1,2の検体数の両方が閾値αより多い場合、第2実施形態の方法で遺伝子型を再割当てすることが考えられる。
また、モデル構築部7が第2の代表値に基づく第2の確率分布モデルを構築し、モデルDB8が第2の確率分布モデルを格納し、第3ラベリング部12が第2の代表値と第2の確率分布モデルとに基づいて遺伝子型の再割当を行なってもよい。
さらに、代表値算出部4が3種類以上の代表値を各クラスタに対して算出し、第3ラベリング部12が第1の代表値以外の2種類以上の代表値を利用して遺伝子型の再割当を行なってもよい。
(第4実施形態)
以下、第4実施形態について、図49〜図52を参照して説明する。第4実施形態では、表示部11が表示装置103に表示させる画面について説明する。図49〜図52は、画面の一例を示す図である。
図49の画面では、クラスタリング結果及び代表値の算出結果が可視化して表示されている。表示部11は、信号強度DB1、クラスタDB3、及び代表値DB5からSNPiの信号強度データ、クラスタデータ、及び代表値データをそれぞれ取得し、取得した各種データを利用して、表示装置103に図49の画面を表示させることができる。
図49の画面には、表示中のSNPの種類(SNPi)と、信号強度平面上にプロットされた複数の検体と、SNPiに対して生成されたクラスタ(クラスタ1,2)及びクラスタ中心と、各クラスタに対して算出された代表値(CLU)を示すテーブルと、が表示されている。図49の例では、クラスタ1の代表値は11.81である。
表示部11がこのような画面を表示することにより、判定装置のユーザは、クラスタや代表値を容易に把握することができる。なお、第3実施形態のように、複数種類の代表値が算出される場合には、図49中の代表値テーブルを複数行にし、各種類の代表値を一覧してもよい。
図50の画面では、クラスタリング結果及び遺伝子型の判定結果が可視化して表示されている。表示部11は、信号強度DB1、クラスタDB3、及び判定結果DB10からSNPiの信号強度データ、クラスタデータ、及び判定結果をそれぞれ取得し、取得した各種データを利用して、表示装置103に図50の画面を表示させることができる。
図50の画面には、表示中のSNPの種類(SNPi)と、信号強度平面上にプロットされた複数の検体と、SNPiに対して生成されたクラスタ(クラスタ1,2)及びクラスタ中心と、各クラスタに割当てられた遺伝子型を示すテーブルと、が表示されている。図50の例では、クラスタ1の遺伝子型はAAである。
表示部11がこのような画面を表示することにより、判定装置のユーザは、クラスタや遺伝子型の判定結果(割当結果)を容易に把握することができる。
図51の画面では、確率分布モデルが可視化して表示されている。表示部11は、モデルDB8から確率分布モデルのデータ(パラメータ等)を取得し、取得したデータを利用して、表示装置103に図51の画面を表示させることができる。
図51の画面には、グラフ化された確率分布モデルと、確率分布モデルを構成する各確率密度関数のタイプ(正規分布)及びパラメータ(μ,σ)を示すテーブルと、が示されている。例えば、図51の例では、確率密度関数fAA(x)は、正規分布に従い、平均μAAが17、分散σAAが20である。
また、図51のグラフ上には、クラスタの遺伝子型を判定するために計算された確率密度がプロットされている。クラスタに割当てられた遺伝子型の確率密度関数上には、塗りつぶされた丸がプロットされ、その他の遺伝子型の確率密度関数上には、中抜きの丸がプロットされている。
表示部11がこのような画面を表示することにより、判定装置のユーザは、構築された確率分布モデルや、遺伝子型の割当ての根拠(確率密度)を容易に把握することができる。
なお、第3ラベリング部12によって遺伝子型が再割当てされた場合には、図52に示すように、再割当のために使用された確率密度が確率密度関数上にプロットされてもよい。図52において、再割当のために使用された確率密度は、四角によりプロットされ、第2ラベリング部9が割当に使用した確率密度と区別可能なように表示されている。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
1:信号強度DB、2:クラスタリング部、3:クラスタDB、4:代表値算出部、5:代表値DB、6:第1ラベリング部、7:モデル構築部、8:モデルDB、9:第2ラベリング部、10:判定結果DB、11:表示部、12:第3ラベリング部

Claims (18)

  1. DNAマイクロアレイにより計測された複数のSNPにおける複数の検体の信号強度に基づいて分類された前記SNP毎の検体のクラスタについて、前記各クラスタに含まれる検体の信号強度に基づいて当該各クラスタの代表値を算出する代表値算出部と、
    前記SNPのうち3つのクラスタに分類されたSNPの各クラスタに、当該各クラスタの代表値に基づいて遺伝子型を割当てる第1ラベリング部と、
    前記SNPのうち3つのクラスタに分類されたSNPの各クラスタの遺伝子型と、当該各クラスタの代表値と、の関係を示すモデルを構築するモデル構築部と、
    前記SNPのうち1つ又は2つのクラスタに分類されたSNPの各クラスタに、当該各クラスタの代表値及び前記モデルに基づいて遺伝子型を割当てる第2ラベリング部と、
    を備える遺伝子型判定装置。
  2. 前記信号強度は、蛍光強度又は電流強度、若しくはそれらの値に基づいて変換された変換値である
    請求項1に記載の遺伝子型判定装置。
  3. 前記代表値は、前記クラスタに含まれる前記検体の回帰直線の回帰係数、前記回帰係数の逆正接、原点を通る近似直線の傾き、相関係数、クラスタ中心値、クラスタ中央値、クラスタ分散、比の平均値、又は差の平均値である
    請求項1又は請求項2に記載の遺伝子型判定装置。
  4. 前記第1ラベリング部は、前記クラスタの前記代表値の順に、一方のホモ接合体の遺伝子型、ヘテロ接合体の遺伝子型、他方のホモ接合体の遺伝子型を割当てる
    請求項1乃至請求項3のいずれか1項に記載の遺伝子型判定装置。
  5. 前記モデルは、前記遺伝子型毎の前記代表値の確率分布に従う確率密度関数である
    請求項1乃至請求項4のいずれか1項に記載の遺伝子型判定装置。
  6. 前記確率分布は、混合ガウシアン分布、正規分布、ベータ分布、又はF分布である
    請求項5に記載の遺伝子型判定装置。
  7. 前記第2ラベリング部は、前記クラスタに、前記代表値の確率密度が最大の前記遺伝子型を割当てる
    請求項1乃至請求項6のいずれか1項に記載の遺伝子型判定装置。
  8. 2つの前記クラスタに分類された前記SNPの前記各クラスタに、ホモ接合型の異なる前記遺伝子型がそれぞれ割当てられた場合、前記各クラスタの前記代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える
    請求項1乃至請求項7のいずれか1項に記載の遺伝子型判定装置。
  9. 2つの前記クラスタに分類された前記SNPの前記各クラスタに、ヘテロ接合型の前記遺伝子型がそれぞれ割当てられた場合、前記各クラスタの前記代表値に基づいて、一方の前記クラスタにホモ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える請求項1乃至請求項8のいずれか1項に記載の遺伝子型判定装置。
  10. 2つの前記クラスタに分類された前記SNPの前記各クラスタに、ホモ接合型の同一の前記遺伝子型がそれぞれ割当てられた場合、前記各クラスタの前記代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える
    請求項1乃至請求項9のいずれか1項に記載の遺伝子型判定装置。
  11. 1つの前記クラスタに分類された前記SNPの前記クラスタに、ヘテロ接合型の前記遺伝子型が割当てられた場合、ホモ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える
    請求項1乃至請求項10のいずれか1項に記載の遺伝子型判定装置。
  12. 前記代表値算出部は、前記SNP毎に前記各クラスタの第2の代表値を算出する
    請求項1乃至請求項11のいずれか1項に記載の遺伝子型判定装置。
  13. 前記第2の代表値は、前記各クラスタに含まれる前記検体の数である
    請求項12に記載の遺伝子型判定装置。
  14. 2つの前記クラスタに分類された前記SNPの前記各クラスタに、ホモ接合型の異なる前記遺伝子型がそれぞれ割当てられた場合、前記第2の代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える
    請求項12又は請求項13に記載の遺伝子型判定装置。
  15. 2つの前記クラスタに分類された前記SNPの前記各クラスタに、ヘテロ接合型の前記遺伝子型がそれぞれ割当てられた場合、前記第2の代表値に基づいて、一方の前記クラスタにホモ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える
    請求項12乃至請求項14のいずれか1項に記載の遺伝子型判定装置。
  16. 2つの前記クラスタに分類された前記SNPの前記各クラスタに、ホモ接合型の同一の前記遺伝子型がそれぞれ割当てられた場合、前記第2の代表値に基づいて、一方の前記クラスタにヘテロ接合型の前記遺伝子型を再割当てする第3ラベリング部を更に備える
    請求項12乃至請求項15のいずれか1項に記載の遺伝子型判定装置。
  17. 前記モデル、前記判定結果、及び前記代表値の少なくとも1つを表示する表示部を更に備える
    請求項1乃至請求項16のいずれか1項に記載の遺伝子型判定装置。
  18. DNAマイクロアレイにより計測された複数のSNPにおける複数の検体の信号強度に基づいて分類された前記SNP毎の検体のクラスタについて、前記各クラスタに含まれる検体の信号強度に基づいて当該各クラスタの代表値を算出する工程、
    前記SNPのうち3つのクラスタに分類されたSNPの各クラスタに、当該各クラスタの代表値に基づいて遺伝子型を割当てる工程と、
    前記SNPのうち3つのクラスタに分類されたSNPの各クラスタの遺伝子型と、当該各クラスタの代表値と、の関係を示すモデルを構築する工程と、
    前記SNPのうち1つ又は2つのクラスタに分類されたSNPの各クラスタに、当該各クラスタの代表値及び前記モデルに基づいて遺伝子型を割当てる工程と、
    を含む遺伝子型判定方法。
JP2017509089A 2015-04-01 2015-04-01 遺伝子型判定装置及び方法 Active JP6367473B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/060368 WO2016157473A1 (ja) 2015-04-01 2015-04-01 遺伝子型判定装置及び方法

Publications (2)

Publication Number Publication Date
JPWO2016157473A1 true JPWO2016157473A1 (ja) 2017-12-21
JP6367473B2 JP6367473B2 (ja) 2018-08-01

Family

ID=57004114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017509089A Active JP6367473B2 (ja) 2015-04-01 2015-04-01 遺伝子型判定装置及び方法

Country Status (5)

Country Link
US (1) US20170364632A1 (ja)
JP (1) JP6367473B2 (ja)
CN (1) CN107533591A (ja)
GB (1) GB2551091A (ja)
WO (1) WO2016157473A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033829B (zh) * 2019-04-11 2021-07-23 北京诺禾心康基因科技有限公司 基于差异snp标记物的同源基因的融合检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531853A (ja) * 2002-06-28 2005-10-20 アプレラ コーポレイション Snp遺伝子型クラスタリングのためのシステムおよび方法
JP2006107396A (ja) * 2004-10-08 2006-04-20 Institute Of Physical & Chemical Research Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム
JP2008533558A (ja) * 2005-02-10 2008-08-21 アプレラ コーポレイション 遺伝子型分析のための正規化方法
WO2013073929A1 (en) * 2011-11-15 2013-05-23 Acgt Intellectual Limited Method and apparatus for detecting nucleic acid variation(s)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005071594A1 (en) * 2004-01-23 2005-08-04 King Faisal Specialist Hospital & Research Center Estimation of signal thresholds for microarray data using mixture modeling
CN101570788A (zh) * 2009-06-09 2009-11-04 华东师范大学 一种通过寡核苷酸多态性芯片识别基因型的方法
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005531853A (ja) * 2002-06-28 2005-10-20 アプレラ コーポレイション Snp遺伝子型クラスタリングのためのシステムおよび方法
JP2006107396A (ja) * 2004-10-08 2006-04-20 Institute Of Physical & Chemical Research Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム
JP2008533558A (ja) * 2005-02-10 2008-08-21 アプレラ コーポレイション 遺伝子型分析のための正規化方法
WO2013073929A1 (en) * 2011-11-15 2013-05-23 Acgt Intellectual Limited Method and apparatus for detecting nucleic acid variation(s)

Also Published As

Publication number Publication date
JP6367473B2 (ja) 2018-08-01
WO2016157473A1 (ja) 2016-10-06
CN107533591A (zh) 2018-01-02
US20170364632A1 (en) 2017-12-21
GB201713894D0 (en) 2017-10-11
GB2551091A (en) 2017-12-06

Similar Documents

Publication Publication Date Title
Alirezaie et al. ClinPred: prediction tool to identify disease-relevant nonsynonymous single-nucleotide variants
Neale et al. Testing for an unusual distribution of rare variants
Lee et al. Rare-variant association analysis: study designs and statistical tests
Verma et al. Human-disease phenotype map derived from PheWAS across 38,682 individuals
Brownstein et al. An international effort towards developing standards for best practices in analysis, interpretation and reporting of clinical genome sequencing results in the CLARITY Challenge
Hejblum et al. Time-course gene set analysis for longitudinal gene expression data
Chakravorty et al. Gene and variant annotation for Mendelian disorders in the era of advanced sequencing technologies
Schadt et al. A new paradigm for drug discovery: integrating clinical, genetic, genomic and molecular phenotype data to identify drug targets
Porubsky et al. A fully phased accurate assembly of an individual human genome
Salas et al. A transdisciplinary approach to understand the epigenetic basis of race/ethnicity health disparities
Shevchenko et al. Clinical versus research sequencing
Flassig et al. An effective framework for reconstructing gene regulatory networks from genetical genomics data
JP6367473B2 (ja) 遺伝子型判定装置及び方法
Deleye et al. Massively parallel sequencing of micro-manipulated cells targeting a comprehensive panel of disease-causing genes: A comparative evaluation of upstream whole-genome amplification methods
CN114334078A (zh) 用于推荐药物的方法、电子设备和计算机存储介质
Cox Utility and limitations of animal models for the functional validation of human sequence variants
JP6623774B2 (ja) パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
US20160171151A1 (en) Method for determining read error in nucleotide sequence
Walsh The trouble with trabeculation: how genetics can help to unravel a complex and controversial phenotype
Steuerman et al. Exploiting gene-expression deconvolution to probe the genetics of the immune system
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
Li et al. On epistasis: a methodological review for detecting gene-gene interactions underlying various types of phenotypic traits
Holm et al. From sequence data to returnable results: ethical issues in variant calling and interpretation
US20170364631A1 (en) Genotype estimation device, method, and program
Ramachandran et al. CONDEX: Copy number detection in exome sequences

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20170825

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180704

R151 Written notification of patent or utility model registration

Ref document number: 6367473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151