JPWO2008032822A1 - サンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置 - Google Patents

サンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置 Download PDF

Info

Publication number
JPWO2008032822A1
JPWO2008032822A1 JP2008534408A JP2008534408A JPWO2008032822A1 JP WO2008032822 A1 JPWO2008032822 A1 JP WO2008032822A1 JP 2008534408 A JP2008534408 A JP 2008534408A JP 2008534408 A JP2008534408 A JP 2008534408A JP WO2008032822 A1 JPWO2008032822 A1 JP WO2008032822A1
Authority
JP
Japan
Prior art keywords
sample
sample data
cluster
reliability
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008534408A
Other languages
English (en)
Other versions
JP5396081B2 (ja
Inventor
真也 荻原
真也 荻原
田邊 哲也
哲也 田邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2008534408A priority Critical patent/JP5396081B2/ja
Publication of JPWO2008032822A1 publication Critical patent/JPWO2008032822A1/ja
Application granted granted Critical
Publication of JP5396081B2 publication Critical patent/JP5396081B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置を提供することを課題とする。本発明は、サンプルデータ集合に基づいて、同クラスターサンプル間代表距離および異クラスターサンプル間代表距離をサンプルデータごとに算出し、算出した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離の1つ以上の組に基づいて、サンプルデータ集合の部分集合であるサンプルデータ部分集合の信頼性を評価するための指標である信頼性評価指標をサンプルデータ部分集合ごとに算出し、算出した1つ以上の信頼性評価指標に基づいて、サンプルデータ部分集合の信頼性を当該サンプルデータ部分集合ごとに評価する。

Description

本発明は、サンプルを区分するためのサンプルデータの信頼性の評価やサンプルデータの品質管理に関するものである。
生体由来のサンプルの多型解析では、サンプルの濃度や阻害物質の有無などに因ってサンプルごとに多型識別反応の進行の速さが異なる。そのため、多型解析では、広い分布を持った多型データが得られる。
従来では、サンプルのシグナルに対し統計的手法や遺伝学的手法を用いて多型解析を行っていた。
しかし、特に遺伝子多型に関する多型解析の場合には、数百サンプル中に数サンプルしか存在しないような頻度の少ない多型があるので、従来の統計的手法に基づく統計量が意味をなさないことがある。
そのため、遺伝子多型に関する多型解析の場合には、一般的に、当該多型解析で得られた多型データの信頼性を、ハーディー・ワインバーグ平衡を利用して遺伝統計学的に評価している。また、遺伝子多型に関する多型解析で得られた多型データの信頼性を評価する技術として、非特許文献1が開示されている。具体的には、非特許文献1で開示されている評価指標“CSS”では、クラスターごとの統計値を利用する。
しかし、これら従来の評価手法の場合、ランダムな交配を行った集団からサンプリングしたサンプルから得られた多型データを評価対象とすることが前提であるので、例えば家系サンプルや患者サンプルなど偏ってサンプリングしたサンプルから得られた多型データは評価対象として適さない。また、図10に示すような例えば遺伝子型“BB”が1つしかない多型データを評価対象とした場合、遺伝子型“BB”のクラスターに対応する分散・平均が得られないため、上述した従来の評価手法では評価値の算出が困難である。
つまり、ランダムな交配を行っていない集団、もしくは遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合、従来の評価手法では、このような多型データの信頼性を評価することが困難であった。
そこで、従来では、熟練したオペレーターが、頻度の少ない多型を含む多型データの信頼性を主観的に評価して、エラーサンプルの抽出やタイプ分けの閾値の決定を行っていた。
Kevin L Gunderson,Frank J Steemers,Grace Lee,Leo G Mendoza,and Mark S Chee,「A genome−wide scalable SNP genotyping assay using microarray technology」,NATURE GENETICS,VOLUME37,NUMBER5,MAY,2005
しかしながら、従来技術では、オペレーターが主観的に多型データの信頼性を評価していたので、同じ多型データを評価対象としているにもかかわらず、オペレーターが異なると評価結果も異なってしまうことがあるという問題点があった。
本発明は、上記問題点に鑑みてなされたものであって、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明にかかる請求項1に記載のサンプルデータ信頼性評価方法は、クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する工程と、前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する工程と、前記工程で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータごとの信頼性を評価するための指標である信頼性評価指標を算出する工程と、前記工程で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合の集合全体の前記信頼性を評価する工程と、を含むことを特徴とする。
また、本発明にかかる請求項2に記載のサンプルデータ信頼性評価方法は、請求項1に記載のサンプルデータ信頼性評価方法において、前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であることを特徴とする。
また、本発明にかかる請求項3に記載のサンプルデータ信頼性評価方法は、請求項1または2に記載のサンプルデータ信頼性評価方法において、前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であることを特徴とする。
また、本発明にかかる請求項4に記載のサンプルデータ信頼性評価方法は、請求項1から3のいずれか1つに記載のサンプルデータ信頼性評価方法において、前記工程で算出した前記信頼性評価指標を出力する工程をさらに含むことを特徴とする。
また、本発明はサンプルデータ信頼性評価装置に関するものであり、請求項5に記載のサンプルデータ信頼性評価装置は、クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する手段と、前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する手段と、前記手段で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータごとの信頼性を評価するための指標である信頼性評価指標を算出する手段と、前記手段で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する手段と、を備えたことを特徴とする。
また、本発明にかかる請求項6に記載のサンプルデータ信頼性評価装置は、請求項5に記載のサンプルデータ信頼性評価装置において、前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であることを特徴とする。
また、本発明にかかる請求項7に記載のサンプルデータ信頼性評価装置は、請求項5または6に記載のサンプルデータ信頼性評価装置において、前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であることを特徴とする。
また、本発明にかかる請求項8に記載のサンプルデータ信頼性評価装置は、請求項5から7のいずれか1つに記載のサンプルデータ信頼性評価装置において、前記手段で算出した前記信頼性評価指標を出力する手段をさらに備えたことを特徴とする。
本発明によれば、クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、サンプルと当該サンプルが属するクラスターと同じクラスターに属するサンプルとの間の代表距離である同クラスターサンプル間代表距離を算出し、サンプルデータ集合に基づいて、サンプルと当該サンプルが属する前記クラスターとは異なるクラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出し、算出した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離に基づいて、サンプルデータ集合の部分集合であるサンプルデータ部分集合(例えば、1つのサンプルデータを要素として持つサンプルデータ部分集合、同じクラスターに属する複数のサンプルデータを要素として持つサンプルデータ部分集合、全てのサンプルデータを要素として持つサンプルデータ部分集合など)の信頼性を評価するための指標である信頼性評価指標(例えば、サンプルデータの信頼性を評価するための指標であるサンプル信頼性評価指標、サンプル信頼性評価指標の平均など)を算出し、算出した信頼性評価指標に基づいて、サンプルデータ部分集合の信頼性を評価するので、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができる等の効果を奏する。
図1は、本発明の基本原理を示す原理構成図である。 図2は、サンプルデータ信頼性評価装置100の構成を示すブロック図である。 図3は、サンプルデータ集合ファイル106aに格納される情報の一例を示す図である。 図4は、注目サンプル関連データファイル106bに格納される情報の一例を示す図である。 図5は、サンプルデータ信頼性評価装置100の制御部102で行うメイン処理の一例を示すフローチャートである。 図6は、実験単位ごとに算出したQVavg.の一例を示す図である。 図7は、エラーサンプルの抽出例を示す図である。 図8は、QVavg.のヒストグラムの一例を示す図である。 図9は、図8において平均的な入力データの品質を有する実験に対応するQVavg.を示す図である。 図10は、従来技術では評価が困難な頻度の少ない多型データの一例を示す図である。
符号の説明
100 サンプルデータ信頼性評価装置
102 制御部
102a サンプルデータ集合取得部
102b 注目サンプル設定部
102c 同クラスターサンプル間代表距離算出部
102d 異クラスターサンプル間代表距離算出部
102e 信頼性評価指標算出部
102f 信頼性評価部
102g 結果出力部
104 通信インターフェース部
106 記憶部
106a サンプルデータ集合ファイル
106b 注目サンプル関連データファイル
106c 評価結果データファイル
108 入出力インターフェース部
110 入力装置
112 出力装置
200 外部システム
300 ネットワーク
以下に、本発明にかかるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置の実施の形態を、図面に基づいて詳細に説明する。なお、本実施の形態により本発明が限定されるものではない。以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
[本発明の概要]
まず、本発明の概要について図1を参照して説明する。図1は、本発明の基本原理を示す原理構成図である。本発明は、概略的に以下の基本的特徴を有する。
まず、本発明は、クラスタリングされたサンプルに関する複数のサンプルデータを要素とする集合であるサンプルデータ集合に基づいて、同クラスターサンプル間代表距離および異クラスターサンプル間代表距離を、サンプルデータごとに算出する(ステップS−1およびステップS−2)。同クラスターサンプル間代表距離とは、在るサンプルと、当該在るサンプルが属するクラスターと同じクラスターに属するサンプルとの間の代表距離である。異クラスターサンプル間代表距離とは、在るサンプルと、当該在るサンプルが属するクラスターとは異なるクラスターに属するサンプルとの間の代表距離である。
つぎに、本発明は、ステップS−1で算出した同クラスターサンプル間代表距離およびステップS−2で算出した異クラスターサンプル間代表距離の1つ以上の組に基づいて、サンプルデータ集合の部分集合であるサンプルデータ部分集合の信頼性を評価するための指標である信頼性評価指標(例えば、サンプルデータの信頼性を評価するための指標であるサンプル信頼性評価指標、サンプル信頼性評価指標の平均など)を、サンプルデータ部分集合ごとに算出する(ステップS−3)。
ここで、ステップS−1では、在るサンプルと当該在るサンプルが属するクラスターと同じクラスターに属するサンプルとの間の平均距離である同クラスターサンプル間平均距離を、同クラスターサンプル間代表距離として算出し、ステップS−2では、在るサンプルと当該在るサンプルが属するクラスターとは異なるクラスターに属するサンプルとの間の最小距離である異クラスターサンプル間最小距離を、異クラスターサンプル間代表距離として算出し、ステップS−3では、当該同クラスターサンプル間平均距離と当該異クラスターサンプル間最小距離との比または当該比の平均を、信頼性評価指標として算出してもよい。これにより、各サンプル毎に評価値を得ることができるという効果が得られる。
つぎに、本発明は、ステップS−3で算出した1つ以上の信頼性評価指標に基づいて、サンプルデータ部分集合の信頼性を当該サンプルデータ部分集合ごとに評価する(ステップS−4)。ここで、ステップS−4では、信頼性の低いサンプルデータ部分集合を抽出してもよく、またクラスタリングに用いたアルゴリズムの信頼性を評価してもよい。これにより、アルゴリズムの改良、判定基準の動的な設定、エラーサンプルの抽出などができるという効果が得られる。
以上、本発明の概要について説明したが、本発明において、上述した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離は、ユークリッド距離や標準化ユークリッド距離、ミンコフスキー距離、マハラノビス距離などに基づくものでもよい。これにより、サンプルデータの性質に応じた適正な同クラスターサンプル間代表距離および異クラスターサンプル間代表距離を算出することができるという効果が得られる。
また、本発明は、信頼性評価指標や評価結果などを出力(例えば表示や印刷など)してもよい。これにより、オペレーターによる主観的なクラスター分割(クラスタリング)を支援することができ、また信頼性の評価(判断)に関するオペレーター間の相違を低減させることができるという効果が得られる。
また、本発明は、サンプルデータ集合の各サンプルデータを極座標に変換し、サンプル間の角度差を距離として定義して、極座標に変換したサンプルデータ集合に基づいて同クラスターサンプル間代表距離および異クラスターサンプル間代表距離を算出してもよい。これにより、同一のタイプ群の中でシグナル強度に大きな差があるときにも信頼性を評価することができるという効果が得られる。
また、本発明において、サンプルデータ部分集合は、1つのサンプルデータを要素として持つものでもよく、同じクラスターに属する複数のサンプルデータを要素として持つものでもよく、全てのサンプルデータを要素として持つもの(サンプルデータ集合)でもよい。これにより、サンプル単位、クラスター単位または全サンプル単位(具体的には実験単位)で信頼性評価指標を算出することができ、結果的に、サンプル単位、クラスター単位または全サンプル単位(具体的には実験単位)でサンプルデータ部分集合の信頼性を評価することができるという効果が得られる。
[システム構成]
つぎに、本実施の形態にかかるサンプルデータ信頼性評価装置100の構成について、図2から図4を参照して説明する。図2は、サンプルデータ信頼性評価装置100の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。
サンプルデータ信頼性評価装置100は、当該サンプルデータ信頼性評価装置を統括的に制御するCPU(Central Processing Unit)等の制御部102と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して当該サンプルデータ信頼性評価装置をネットワーク300に通信可能に接続する通信インターフェース部104と、各種のデータベースやテーブルやファイルなどを格納する記憶部106と、入力装置110や出力装置112に接続する入出力インターフェース部108とで構成されており、これら各部は任意の通信路を介して通信可能に接続されている。
記憶部106は、ストレージ手段であり、例えば、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリ装置や、HD(Hard Disk:ハードディスク)のような固定ディスク装置や、フレキシブルディスクや、光ディスク等を用いることができる。そして、記憶部106は、図示の如く、サンプルデータ集合ファイル106aと、注目サンプル関連データファイル106bと、評価結果データファイル106cとを格納する。なお、記憶部106は、各種のファイル(サンプルデータ集合ファイル106a〜評価結果データファイル106c)を格納する他、制御部102で実行する各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
サンプルデータ集合ファイル106aは、サンプルデータ集合を格納する。ここで、サンプルデータ集合ファイル106a格納される情報の一例について図3を参照して説明する。図3は、サンプルデータ集合ファイル106aに格納される情報の一例を示す図である。図3に示すように、サンプルデータ集合ファイル106aは、サンプルを一意に識別するためのサンプル識別データとしてのサンプルIDと、クラスター(例えば多型のタイプなど)を一意に識別するためのクラスター識別データとしてのクラスターIDと、サンプルの測定から得られるシグナルデータとを相互に関連付けて格納する。
図2に戻り、注目サンプル関連データファイル106bは、後述する注目サンプル設定部102bで設定した注目するサンプルである注目サンプルに関連するデータを格納する。ここで、注目サンプル関連データファイル106bに格納される情報の一例について図4を参照して説明する。図4は、注目サンプル関連データファイル106bに格納される情報の一例を示す図である。図4に示すように、注目サンプル関連データファイル106bは、注目サンプルに対応するサンプルIDと、同クラスターサンプル間代表距離と、異クラスターサンプル間代表距離と、サンプル信頼性評価指標とを相互に関連付けて格納する。
図2に戻り、評価結果データファイル106cは、後述する信頼性評価部102fでの評価結果に関するデータを、注目サンプルデータ集合ごとに格納する。注目サンプルデータ集合は、本発明におけるサンプルデータ部分集合に相当し、1つ以上の注目サンプルデータ(注目サンプルに対応するサンプルデータ)を要素とする。
通信インターフェース部104は、サンプルデータ信頼性評価装置100とネットワーク300(またはルータ等の通信装置)との間における通信を媒介する。すなわち、通信インターフェース部104は他の端末と通信回線を介してデータを通信する機能を有する。
入出力インターフェース部108は、入力装置110や出力装置112に接続する。ここで、出力装置112には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる(なお、以下で、出力装置112をモニタとして記載する場合がある。)。また、入力装置110には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。
制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラムおよび所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行するための情報処理を行う。そして、制御部102は、図示の如く、大別して、サンプルデータ集合取得部102aと、注目サンプル設定部102bと、同クラスターサンプル間代表距離算出部102cと、異クラスターサンプル間代表距離算出部102dと、信頼性評価指標算出部102eと、信頼性評価部102fと、結果出力部102gとを備えている。
サンプルデータ集合取得部102aは、サンプルデータ集合を取得し、取得したサンプルデータ集合をサンプルデータ集合ファイル106aの所定の記憶領域に格納する。
注目サンプル設定部102bは、サンプルデータ集合取得部102aで取得したサンプルデータ集合の中から注目サンプルを設定する。
同クラスターサンプル間代表距離算出部102cは、サンプルデータ集合取得部102aで取得したサンプルデータ集合に基づいて、注目サンプル設定部102bで設定した注目サンプルに対応する同クラスターサンプル間代表距離(具体的には、注目サンプルと当該注目サンプルが属するクラスターと同じクラスターに属するサンプルとの間の代表距離)を算出し、算出した同クラスターサンプル間代表距離を注目サンプル関連データファイル106bの所定の記憶領域に格納する。
異クラスターサンプル間代表距離算出部102dは、サンプルデータ集合取得部102aで取得したサンプルデータ集合に基づいて、注目サンプル設定部102bで設定した注目サンプルに対応する異クラスターサンプル間代表距離(具体的には、注目サンプルと当該注目サンプルが属するクラスターとは異なるクラスターに属するサンプルとの間の代表距離)を算出し、算出した異クラスターサンプル間代表距離を注目サンプル関連データファイル106bの所定の記憶領域に格納する。
信頼性評価指標算出部102eは、同クラスターサンプル間代表距離算出部102cで算出した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離算出部102dで算出した異クラスターサンプル間代表距離の1つ以上の組(換言すると、同クラスターサンプル間代表距離および異クラスターサンプル間代表距離の注目サンプルごとの組)に基づいて、サンプル信頼性評価指標を信頼性評価指標として注目サンプルデータごとに算出し、算出した1つ以上のサンプル信頼性評価指標を注目サンプル関連データファイル106bの所定の記憶領域に格納する。また、信頼性評価指標算出部102eは、算出した1つ以上のサンプル信頼性評価指標の平均を、信頼性評価指標として注目サンプルデータ集合ごとに算出する。
信頼性評価部102fは、信頼性評価指標算出部102eで算出した1つ以上の信頼性評価指標(サンプル信頼性評価指標、サンプル信頼性評価指標の平均)に基づいて、注目サンプルデータ集合の信頼性を当該サンプルデータ集合ごとに評価し、その評価結果に関するデータを評価結果データファイル106cの所定の記憶領域に格納する。
結果出力部102gは、信頼性評価指標算出部102eで算出した信頼性評価指標や信頼性評価部102fでの評価結果を出力装置112へ出力する。
外部システム200は、ネットワーク300を介してサンプルデータ信頼性評価装置100と相互に通信可能に接続され、例えばサンプルデータ集合等に関する外部データベースや、各種処理を実行するための外部プログラム等を提供する機能などを有する。ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPUやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等、およびそれらを制御するプログラム等で実現される。
ネットワーク300は、サンプルデータ信頼性評価装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth(登録商標)等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。これにより、サンプルデータ信頼性評価装置100は、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
[システムの処理]
つぎに、サンプルデータ信頼性評価装置100の制御部102が行うメイン処理の一例を、図5を参照して説明する。図5は、サンプルデータ信頼性評価装置100の制御部102が行うメイン処理の一例を示すフローチャートである。なお、ここでは、1つの実験に対応するサンプルデータ集合に基づく処理について説明する。
まず、制御部102は、サンプルデータ集合取得部102aの処理により、ネットワーク300を介して外部システム200からサンプルデータ集合を取得し、取得したサンプルデータ集合をサンプルデータ集合ファイル106aの所定の記憶領域に格納する(ステップSA−1)。
つぎに、制御部102は、注目サンプル設定部102bの処理により、ステップSA−1で取得したサンプルデータ集合の中から注目サンプルを設定する(ステップSA−2)。
つぎに、制御部102は、同クラスターサンプル間代表距離算出部102cの処理により、サンプルデータ集合ファイル106aに格納したサンプルデータ集合に基づいて、ステップSA−2で設定した注目サンプルに対応する同クラスターサンプル間平均距離を算出し、算出した同クラスターサンプル間平均距離を注目サンプル関連データファイル106bの所定の記憶領域に格納する(ステップSA−3)。
ここで、ステップSA−3では、下記の数式1に基づいて同クラスターサンプル間平均距離を算出してもよい。
Figure 2008032822
数式1において、d1は同クラスターサンプル間平均距離であり、(ai,bi)は注目サンプルiそのもののシグナルデータであり、(aj,bj)は、注目サンプルが属するクラスターと同じクラスターに属するサンプルに対応するサンプルデータに含まれるシグナルデータであり、nは、注目サンプルが属するクラスターに含まれるサンプルの総数である。なお、d1は、同一クラスターに含まれるサンプルであっても、サンプルによって異なる。
また、制御部102は、ステップSA−3と並行して、異クラスターサンプル間代表距離算出部102dの処理により、サンプルデータ集合ファイル106aに格納したサンプルデータ集合に基づいて、ステップSA−2で設定した注目サンプルに対応する異クラスターサンプル間最小距離を算出し、算出した異クラスターサンプル間最小距離を注目サンプル関連データファイル106bの所定の記憶領域に格納する(ステップSA−4)。
ここで、ステップSA−4では、下記の数式2に基づいて異クラスターサンプル間最小距離を算出してもよい。
Figure 2008032822
数式2において、d2は異クラスターサンプル間最小距離であり、(ai,bi)は注目サンプルiそのもののシグナルデータであり、(ak,bk)は、注目サンプルが属するクラスターとは異なるクラスターに属するサンプルに対応するサンプルデータに含まれるシグナルデータである。なお、d2は、同一クラスターに含まれるサンプルであっても、サンプルによって異なる。
つぎに、制御部102は、サンプルデータ集合ファイル106aに格納したサンプルデータ集合の全てのサンプルについてステップSA−2からステップSA−4までが終了したか否かを確認し、この確認結果が「終了した」でなかった場合(ステップSA−5:No)には、ステップSA−2からステップSA−4までを各処理部に実行させ、この確認結果が「終了した」であった場合(ステップSA−5:Yes)には、後述するステップSA−6を信頼性評価指標算出部102eに実行させる。
つぎに、制御部102は、信頼性評価指標算出部102eの処理により、ステップSA−3で算出した同クラスターサンプル間平均距離およびステップSA−4で算出した異クラスターサンプル間最小距離の注目サンプルごとの組に基づいて、同クラスターサンプル間平均距離と異クラスターサンプル間最小距離との比をサンプル信頼性評価指標として注目サンプルデータごとに算出し、算出した複数のサンプル信頼性評価指標を注目サンプル関連データファイル106bの所定の記憶領域に格納し、算出した複数のサンプル信頼性評価指標の平均を算出する(ステップSA−6)。
ここで、ステップSA−6では、下記の数式3に基づいてサンプルデータ信頼性評価指標を算出してもよい。
Figure 2008032822
数式3において、QVは注目サンプルiにおけるサンプルデータ信頼性評価指標であり、d1は上述した数式1に示す同クラスターサンプル間平均距離であり、d2は上述した数式2に示す異クラスターサンプル間最小距離である。
つぎに、制御部102は、信頼性評価部102fの処理により、ステップSA−6で算出した複数のサンプル信頼性評価指標に基づいて注目サンプルデータの信頼性を当該注目サンプルデータごとに評価するとともに、ステップSA−6で算出した複数のサンプル信頼性評価指標の平均に基づいて注目サンプルデータ集合の信頼性を注目サンプルデータ集合ごとに評価し、これらの評価結果に関するデータを評価結果データファイル106cの所定の記憶領域に格納する(ステップSA−7)。
これにて、サンプルデータ信頼性評価装置100の制御部102が行うメイン処理の一例についての説明を終了する。
[本実施の形態のまとめ、および他の実施の形態]
以上説明したように、本実施の形態によれば、サンプルデータ集合を取得し、サンプルデータ集合の中から注目サンプルを設定し、設定した注目サンプルについて同クラスターサンプル間平均距離および異クラスターサンプル間最小距離を算出し、サンプルデータ集合の全てのサンプルについて注目サンプルの設定・同クラスターサンプル間平均距離の算出および異クラスターサンプル間最小距離の算出を繰り返し行い、算出した同クラスターサンプル間平均距離および異クラスターサンプル間最小距離の注目サンプルごとの組に基づいて、同クラスターサンプル間平均距離と異クラスターサンプル間最小距離との比をサンプル信頼性評価指標として注目サンプルデータごとに算出すると共にサンプル信頼性評価指標の平均を注目サンプルデータ集合ごとに算出し、算出した複数のサンプルデータ信頼性評価指標に基づいて注目サンプルデータの信頼性を当該注目サンプルデータごとに評価すると共に算出した複数の平均に基づいて、注目サンプルデータ集合の信頼性を注目サンプルデータ集合ごとに評価する。これにより、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができる。ここで、本実施の形態では、一例として、数式1に基づいて同クラスターサンプル間平均距離を代表距離として算出しているが、代表距離としては、平均距離の他に、例えば、中央値、最頻値、最大値と最小値を除外して、平均値を算出してもよく、あるいは平均値から分散の2倍以上離れているデータを除外して、新たに平均値を算出してもよい。
また、本実施の形態によれば、注目サンプルデータ集合は、1つの注目サンプルデータを要素として持つものでもよく、同じクラスターに属する複数の注目サンプルデータを要素として持つものでもよく、全ての注目サンプルデータを要素として持つものでもよい。これにより、サンプル単位、クラスター単位または全サンプル単位(具体的には実験単位)で信頼性評価指標を算出することができ、結果的に、サンプル単位、クラスター単位または全サンプル単位(具体的には実験単位)で注目サンプルデータ集合の信頼性を評価することができる。
また、本発明は、上述した実施の形態以外にも、特許請求の範囲の書類に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。例えば、サンプルデータ信頼性評価装置100は、当該サンプルデータ信頼性評価装置とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。また、本実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
また、サンプルデータ信頼性評価装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、サンプルデータ信頼性評価装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、このプログラムは、後述する記録媒体に記録されており、必要に応じてサンプルデータ信頼性評価装置100に機械的に読み取られる。すなわち、ROMまたはHDなどの記憶部106などには、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、サンプルデータ信頼性評価装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
また、前記のプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
また、サンプルデータ信頼性評価装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明にかかるサンプルデータ信頼性評価方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。
さらに、サンプルデータ信頼性評価装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。
ここでは、上述した実施の形態にかかるサンプルデータ信頼性評価装置100で算出した信頼性評価指標(具体的には、上述した実施の形態にかかるQVや、QVの平均(QVavg.)など)の具体的一例を示す。
まず、ヒトの一塩基多型をSSPCE−FCS(「Current Pharmaceutical Biotechnology,2003,4,447−484」参照)でタイピングし、それぞれのサンプルについての各アリル(Allele)に対応するシグナルを1分子蛍光測定装置(MF10S、Olympus社製)で測定し、その測定結果をタイプ別にクラスタリングした。そして、クラスタリングされたサンプルのシグナルデータを、上述したサンプルデータ信頼性評価装置100の入力データとした。
図6に、実験単位ごとに算出した信頼性評価指標(QVavg.)を示す。このQVavg.は、96wellプレートで実施した実験に含まれている80サンプルについてサンプルごとに算出した80個のQVの平均である。図6に示すように、クラスタリングの状況は、実験A(Exp.A)、実験B(Exp.B)、実験C(Exp.C)の順で悪くなっている。そして、クラスタリングの状況が悪くなるのに対応して、QVavg.の値も8.44、4.00、1.42と悪くなっている。このことから、QVavg.の値は、実験単位でのクラスタリングの状況の変化に対応していた。
次に、サンプルごとに求めた信頼性評価指標(QV)を用いて、分離の悪いサンプル(タイピング不良サンプル、エラーサンプル)の抽出を試みた。その結果を図7に示す。図7では、QVの値が1を下回るサンプルに矢印を付している。QVが1を下回るということは、同じタイプへの平均的な距離が最も近い他のタイプへの距離よりも大きくなっていることを意味する。そして、図7に示すように、QVが1を下回っているサンプルはクラスターの境界付近に集中している。このことから、QVの値で、分離の不明瞭なサンプルを抽出することができた。
次に、図8に、約600の実験(1つの実験は80サンプルからなる)について実験ごとに算出した約600個のQVavg.のヒストグラムを示す。QVはサンプルの分離状況に相関があるため、実験間のQVavg.を比較することで入力データの品質を明らかにすることができる。実験ごとに算出したQVavg.をヒストグラムで示すことで、現在着目している実験に対応する入力データの品質を、他の実験のそれと客観的に比較することができる。また、図9に、図8において平均的な入力データの品質を有する実験に対応するQVavg.を示す。約600の実験全体におけるQVavg.の平均は、3.47であり、その平均に近い3.35のQVavg.に対応する実験Gの散布図を図9では示している。
以上より、QVやQVavg.は、タイピング結果の信頼性を評価するための指標として有用であることが示された。また、図8に示したQVavg.のヒストグラムを用いることで、複数の実験に関してその信頼性を第三者に客観的に示すことができた。また、QVにより、エラーサンプルの自動抽出を実現することができた。これにより、上述したサンプルデータ信頼性評価装置100で実行するサンプルデータ信頼性評価方法は、エラーサンプルの自動抽出アルゴリズムとして使用することができる。
以上のように、本発明にかかるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置は、従来技術では信頼性の評価が困難な頻度の少ない多型データであってもオペレーターの主観に因らず客観的にその信頼性を評価することができ、バイオ・製薬・医療など様々な産業上の分野において好適に用いることができる。

Claims (8)

  1. クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する工程と、
    前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する工程と、
    前記工程で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータの信頼性を評価するための指標である信頼性評価指標を算出する工程と、
    前記工程で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する工程と、
    を含むことを特徴とするサンプルデータ信頼性評価方法。
  2. 前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、
    前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、
    前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であること
    を特徴とする請求項1に記載のサンプルデータ信頼性評価方法。
  3. 前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であること
    を特徴とする請求項1または2に記載のサンプルデータ信頼性評価方法。
  4. 前記工程で算出した前記信頼性評価指標を出力する工程をさらに含むこと
    を特徴とする請求項1から3のいずれか1つに記載のサンプルデータ信頼性評価方法。
  5. クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する手段と、
    前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する手段と、
    前記手段で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータの信頼性を評価するための指標である信頼性評価指標を算出する手段と、
    前記手段で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する手段と、
    を備えたことを特徴とするサンプルデータ信頼性評価装置。
  6. 前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、
    前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、
    前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であること
    を特徴とする請求項5に記載のサンプルデータ信頼性評価装置。
  7. 前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であること
    を特徴とする請求項5または6に記載のサンプルデータ信頼性評価装置。
  8. 前記手段で算出した前記信頼性評価指標を出力する手段をさらに備えたこと
    を特徴とする請求項5から7のいずれか1つに記載のサンプルデータ信頼性評価装置。
JP2008534408A 2006-09-14 2007-09-14 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置 Active JP5396081B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008534408A JP5396081B2 (ja) 2006-09-14 2007-09-14 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006249837 2006-09-14
JP2006249837 2006-09-14
JP2008534408A JP5396081B2 (ja) 2006-09-14 2007-09-14 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置
PCT/JP2007/067946 WO2008032822A1 (fr) 2006-09-14 2007-09-14 Procédé d'évaluation de fiabilité de données d'échantillon et dispositif d'évaluation de fiabilité de données d'échantillon

Publications (2)

Publication Number Publication Date
JPWO2008032822A1 true JPWO2008032822A1 (ja) 2010-01-28
JP5396081B2 JP5396081B2 (ja) 2014-01-22

Family

ID=39183874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008534408A Active JP5396081B2 (ja) 2006-09-14 2007-09-14 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置

Country Status (4)

Country Link
EP (1) EP2063370A1 (ja)
JP (1) JP5396081B2 (ja)
CN (1) CN101517580B (ja)
WO (1) WO2008032822A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171115A1 (en) * 2018-03-05 2019-09-12 Omron Corporation Method for controlling operations of mechanical device and method and device for determining reliability of data
CN117130851B (zh) * 2023-07-26 2024-03-26 是石科技(江苏)有限公司 一种高性能计算集群运行效率评价方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3936851B2 (ja) * 2001-06-15 2007-06-27 日立ソフトウエアエンジニアリング株式会社 クラスタリング結果評価方法及びクラスタリング結果表示方法
JP2005531853A (ja) * 2002-06-28 2005-10-20 アプレラ コーポレイション Snp遺伝子型クラスタリングのためのシステムおよび方法
JP4516777B2 (ja) * 2004-02-13 2010-08-04 新日本製鐵株式会社 薄板の表面欠陥の分布形態解析装置、薄板の表面欠陥の分布形態解析方法、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
JP4041081B2 (ja) * 2004-03-23 2008-01-30 東芝ソリューション株式会社 分割クラスタリング装置及び分割データ数決定方法
JP2006163894A (ja) * 2004-12-08 2006-06-22 Hitachi Software Eng Co Ltd クラスタリングシステム

Also Published As

Publication number Publication date
CN101517580A (zh) 2009-08-26
CN101517580B (zh) 2016-04-06
WO2008032822A1 (fr) 2008-03-20
EP2063370A1 (en) 2009-05-27
JP5396081B2 (ja) 2014-01-22

Similar Documents

Publication Publication Date Title
Sathirapongsasuti et al. Exome sequencing-based copy-number variation and loss of heterozygosity detection: ExomeCNV
Bravo et al. Model-based quality assessment and base-calling for second-generation sequencing data
CN108920899B (zh) 一种基于目标区域测序的单个外显子拷贝数变异预测方法
US20240105282A1 (en) Methods for detecting bialllic loss of function in next-generation sequencing genomic data
AU2019346427A1 (en) Methods of normalizing and correcting RNA expression data
US20200105371A1 (en) Method for finding variants from targeted sequencing panels
Zhang et al. Statistical method evaluation for differentially methylated CpGs in base resolution next-generation DNA sequencing data
Sadasivan et al. Rapid real-time squiggle classification for read until using rawmap
WO2021137563A1 (ko) 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법
KR102273257B1 (ko) 리드 깊이 기반한 유전자 복제수 변이 검출 기법 및 분석장치
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
Pei et al. deCS: A tool for systematic cell type annotations of single-cell RNA sequencing data among human tissues
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
US8024155B2 (en) Sample data reliability evaluation method and sample data reliability evaluation apparatus
JP5396081B2 (ja) 遺伝子多型解析データ信頼性評価方法及び遺伝子多型解析データ信頼性評価装置
US20190108311A1 (en) Site-specific noise model for targeted sequencing
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
CN117730372A (zh) 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量
JP2005038256A (ja) 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体
Filipović Genomic resources for population analyses of an invasive insect pest Oryctes rhinoceros
KR20190126606A (ko) 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치
Tan et al. FPfilter: A false-positive-specific filter for whole-genome sequencing variant calling from GATK
Brown et al. Leveraging ancestry to improve causal variant identification in exome sequencing for monogenic disorders
WO2018192967A1 (en) Use of off-target sequences for dna analysis
US20190311779A1 (en) Methods for detecting variants in next-generation sequencing genomic data

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100312

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131021

R151 Written notification of patent or utility model registration

Ref document number: 5396081

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250