JPWO2008032822A1

JPWO2008032822A1 - サンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置

Info

Publication number: JPWO2008032822A1
Application number: JP2008534408A
Authority: JP
Inventors: 真也荻原; 田邊　哲也; 哲也田邊
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 2006-09-14
Filing date: 2007-09-14
Publication date: 2010-01-28
Anticipated expiration: 2027-09-14
Also published as: CN101517580A; CN101517580B; WO2008032822A1; EP2063370A1; JP5396081B2

Abstract

特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置を提供することを課題とする。本発明は、サンプルデータ集合に基づいて、同クラスターサンプル間代表距離および異クラスターサンプル間代表距離をサンプルデータごとに算出し、算出した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離の１つ以上の組に基づいて、サンプルデータ集合の部分集合であるサンプルデータ部分集合の信頼性を評価するための指標である信頼性評価指標をサンプルデータ部分集合ごとに算出し、算出した１つ以上の信頼性評価指標に基づいて、サンプルデータ部分集合の信頼性を当該サンプルデータ部分集合ごとに評価する。

Description

本発明は、サンプルを区分するためのサンプルデータの信頼性の評価やサンプルデータの品質管理に関するものである。

生体由来のサンプルの多型解析では、サンプルの濃度や阻害物質の有無などに因ってサンプルごとに多型識別反応の進行の速さが異なる。そのため、多型解析では、広い分布を持った多型データが得られる。

従来では、サンプルのシグナルに対し統計的手法や遺伝学的手法を用いて多型解析を行っていた。

しかし、特に遺伝子多型に関する多型解析の場合には、数百サンプル中に数サンプルしか存在しないような頻度の少ない多型があるので、従来の統計的手法に基づく統計量が意味をなさないことがある。

そのため、遺伝子多型に関する多型解析の場合には、一般的に、当該多型解析で得られた多型データの信頼性を、ハーディー・ワインバーグ平衡を利用して遺伝統計学的に評価している。また、遺伝子多型に関する多型解析で得られた多型データの信頼性を評価する技術として、非特許文献１が開示されている。具体的には、非特許文献１で開示されている評価指標“ＣＳＳ”では、クラスターごとの統計値を利用する。

しかし、これら従来の評価手法の場合、ランダムな交配を行った集団からサンプリングしたサンプルから得られた多型データを評価対象とすることが前提であるので、例えば家系サンプルや患者サンプルなど偏ってサンプリングしたサンプルから得られた多型データは評価対象として適さない。また、図１０に示すような例えば遺伝子型“ＢＢ”が１つしかない多型データを評価対象とした場合、遺伝子型“ＢＢ”のクラスターに対応する分散・平均が得られないため、上述した従来の評価手法では評価値の算出が困難である。
つまり、ランダムな交配を行っていない集団、もしくは遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合、従来の評価手法では、このような多型データの信頼性を評価することが困難であった。

そこで、従来では、熟練したオペレーターが、頻度の少ない多型を含む多型データの信頼性を主観的に評価して、エラーサンプルの抽出やタイプ分けの閾値の決定を行っていた。

ＫｅｖｉｎＬＧｕｎｄｅｒｓｏｎ，ＦｒａｎｋＪＳｔｅｅｍｅｒｓ，ＧｒａｃｅＬｅｅ，ＬｅｏＧＭｅｎｄｏｚａ，ａｎｄＭａｒｋＳＣｈｅｅ，「Ａｇｅｎｏｍｅ−ｗｉｄｅｓｃａｌａｂｌｅＳＮＰｇｅｎｏｔｙｐｉｎｇａｓｓａｙｕｓｉｎｇｍｉｃｒｏａｒｒａｙｔｅｃｈｎｏｌｏｇｙ」，ＮＡＴＵＲＥＧＥＮＥＴＩＣＳ，ＶＯＬＵＭＥ３７，ＮＵＭＢＥＲ５，ＭＡＹ，２００５

しかしながら、従来技術では、オペレーターが主観的に多型データの信頼性を評価していたので、同じ多型データを評価対象としているにもかかわらず、オペレーターが異なると評価結果も異なってしまうことがあるという問題点があった。

本発明は、上記問題点に鑑みてなされたものであって、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明にかかる請求項１に記載のサンプルデータ信頼性評価方法は、クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する工程と、前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する工程と、前記工程で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータごとの信頼性を評価するための指標である信頼性評価指標を算出する工程と、前記工程で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合の集合全体の前記信頼性を評価する工程と、を含むことを特徴とする。

また、本発明にかかる請求項２に記載のサンプルデータ信頼性評価方法は、請求項１に記載のサンプルデータ信頼性評価方法において、前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であることを特徴とする。

また、本発明にかかる請求項３に記載のサンプルデータ信頼性評価方法は、請求項１または２に記載のサンプルデータ信頼性評価方法において、前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であることを特徴とする。

また、本発明にかかる請求項４に記載のサンプルデータ信頼性評価方法は、請求項１から３のいずれか１つに記載のサンプルデータ信頼性評価方法において、前記工程で算出した前記信頼性評価指標を出力する工程をさらに含むことを特徴とする。

また、本発明はサンプルデータ信頼性評価装置に関するものであり、請求項５に記載のサンプルデータ信頼性評価装置は、クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する手段と、前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する手段と、前記手段で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータごとの信頼性を評価するための指標である信頼性評価指標を算出する手段と、前記手段で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する手段と、を備えたことを特徴とする。

また、本発明にかかる請求項６に記載のサンプルデータ信頼性評価装置は、請求項５に記載のサンプルデータ信頼性評価装置において、前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であることを特徴とする。

また、本発明にかかる請求項７に記載のサンプルデータ信頼性評価装置は、請求項５または６に記載のサンプルデータ信頼性評価装置において、前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であることを特徴とする。

また、本発明にかかる請求項８に記載のサンプルデータ信頼性評価装置は、請求項５から７のいずれか１つに記載のサンプルデータ信頼性評価装置において、前記手段で算出した前記信頼性評価指標を出力する手段をさらに備えたことを特徴とする。

本発明によれば、クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、サンプルと当該サンプルが属するクラスターと同じクラスターに属するサンプルとの間の代表距離である同クラスターサンプル間代表距離を算出し、サンプルデータ集合に基づいて、サンプルと当該サンプルが属する前記クラスターとは異なるクラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出し、算出した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離に基づいて、サンプルデータ集合の部分集合であるサンプルデータ部分集合（例えば、１つのサンプルデータを要素として持つサンプルデータ部分集合、同じクラスターに属する複数のサンプルデータを要素として持つサンプルデータ部分集合、全てのサンプルデータを要素として持つサンプルデータ部分集合など）の信頼性を評価するための指標である信頼性評価指標（例えば、サンプルデータの信頼性を評価するための指標であるサンプル信頼性評価指標、サンプル信頼性評価指標の平均など）を算出し、算出した信頼性評価指標に基づいて、サンプルデータ部分集合の信頼性を評価するので、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができる等の効果を奏する。

図１は、本発明の基本原理を示す原理構成図である。図２は、サンプルデータ信頼性評価装置１００の構成を示すブロック図である。図３は、サンプルデータ集合ファイル１０６ａに格納される情報の一例を示す図である。図４は、注目サンプル関連データファイル１０６ｂに格納される情報の一例を示す図である。図５は、サンプルデータ信頼性評価装置１００の制御部１０２で行うメイン処理の一例を示すフローチャートである。図６は、実験単位ごとに算出したＱＶ_avg.の一例を示す図である。図７は、エラーサンプルの抽出例を示す図である。図８は、ＱＶ_avg.のヒストグラムの一例を示す図である。図９は、図８において平均的な入力データの品質を有する実験に対応するＱＶ_avg.を示す図である。図１０は、従来技術では評価が困難な頻度の少ない多型データの一例を示す図である。

符号の説明

１００サンプルデータ信頼性評価装置
１０２制御部
１０２ａサンプルデータ集合取得部
１０２ｂ注目サンプル設定部
１０２ｃ同クラスターサンプル間代表距離算出部
１０２ｄ異クラスターサンプル間代表距離算出部
１０２ｅ信頼性評価指標算出部
１０２ｆ信頼性評価部
１０２ｇ結果出力部
１０４通信インターフェース部
１０６記憶部
１０６ａサンプルデータ集合ファイル
１０６ｂ注目サンプル関連データファイル
１０６ｃ評価結果データファイル
１０８入出力インターフェース部
１１０入力装置
１１２出力装置
２００外部システム
３００ネットワーク

以下に、本発明にかかるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置の実施の形態を、図面に基づいて詳細に説明する。なお、本実施の形態により本発明が限定されるものではない。以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。

［本発明の概要］
まず、本発明の概要について図１を参照して説明する。図１は、本発明の基本原理を示す原理構成図である。本発明は、概略的に以下の基本的特徴を有する。

まず、本発明は、クラスタリングされたサンプルに関する複数のサンプルデータを要素とする集合であるサンプルデータ集合に基づいて、同クラスターサンプル間代表距離および異クラスターサンプル間代表距離を、サンプルデータごとに算出する（ステップＳ−１およびステップＳ−２）。同クラスターサンプル間代表距離とは、在るサンプルと、当該在るサンプルが属するクラスターと同じクラスターに属するサンプルとの間の代表距離である。異クラスターサンプル間代表距離とは、在るサンプルと、当該在るサンプルが属するクラスターとは異なるクラスターに属するサンプルとの間の代表距離である。

つぎに、本発明は、ステップＳ−１で算出した同クラスターサンプル間代表距離およびステップＳ−２で算出した異クラスターサンプル間代表距離の１つ以上の組に基づいて、サンプルデータ集合の部分集合であるサンプルデータ部分集合の信頼性を評価するための指標である信頼性評価指標（例えば、サンプルデータの信頼性を評価するための指標であるサンプル信頼性評価指標、サンプル信頼性評価指標の平均など）を、サンプルデータ部分集合ごとに算出する（ステップＳ−３）。

ここで、ステップＳ−１では、在るサンプルと当該在るサンプルが属するクラスターと同じクラスターに属するサンプルとの間の平均距離である同クラスターサンプル間平均距離を、同クラスターサンプル間代表距離として算出し、ステップＳ−２では、在るサンプルと当該在るサンプルが属するクラスターとは異なるクラスターに属するサンプルとの間の最小距離である異クラスターサンプル間最小距離を、異クラスターサンプル間代表距離として算出し、ステップＳ−３では、当該同クラスターサンプル間平均距離と当該異クラスターサンプル間最小距離との比または当該比の平均を、信頼性評価指標として算出してもよい。これにより、各サンプル毎に評価値を得ることができるという効果が得られる。

つぎに、本発明は、ステップＳ−３で算出した１つ以上の信頼性評価指標に基づいて、サンプルデータ部分集合の信頼性を当該サンプルデータ部分集合ごとに評価する（ステップＳ−４）。ここで、ステップＳ−４では、信頼性の低いサンプルデータ部分集合を抽出してもよく、またクラスタリングに用いたアルゴリズムの信頼性を評価してもよい。これにより、アルゴリズムの改良、判定基準の動的な設定、エラーサンプルの抽出などができるという効果が得られる。

以上、本発明の概要について説明したが、本発明において、上述した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離は、ユークリッド距離や標準化ユークリッド距離、ミンコフスキー距離、マハラノビス距離などに基づくものでもよい。これにより、サンプルデータの性質に応じた適正な同クラスターサンプル間代表距離および異クラスターサンプル間代表距離を算出することができるという効果が得られる。

また、本発明は、信頼性評価指標や評価結果などを出力（例えば表示や印刷など）してもよい。これにより、オペレーターによる主観的なクラスター分割（クラスタリング）を支援することができ、また信頼性の評価（判断）に関するオペレーター間の相違を低減させることができるという効果が得られる。

また、本発明は、サンプルデータ集合の各サンプルデータを極座標に変換し、サンプル間の角度差を距離として定義して、極座標に変換したサンプルデータ集合に基づいて同クラスターサンプル間代表距離および異クラスターサンプル間代表距離を算出してもよい。これにより、同一のタイプ群の中でシグナル強度に大きな差があるときにも信頼性を評価することができるという効果が得られる。

また、本発明において、サンプルデータ部分集合は、１つのサンプルデータを要素として持つものでもよく、同じクラスターに属する複数のサンプルデータを要素として持つものでもよく、全てのサンプルデータを要素として持つもの（サンプルデータ集合）でもよい。これにより、サンプル単位、クラスター単位または全サンプル単位（具体的には実験単位）で信頼性評価指標を算出することができ、結果的に、サンプル単位、クラスター単位または全サンプル単位（具体的には実験単位）でサンプルデータ部分集合の信頼性を評価することができるという効果が得られる。

［システム構成］
つぎに、本実施の形態にかかるサンプルデータ信頼性評価装置１００の構成について、図２から図４を参照して説明する。図２は、サンプルデータ信頼性評価装置１００の構成を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。

サンプルデータ信頼性評価装置１００は、当該サンプルデータ信頼性評価装置を統括的に制御するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の制御部１０２と、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して当該サンプルデータ信頼性評価装置をネットワーク３００に通信可能に接続する通信インターフェース部１０４と、各種のデータベースやテーブルやファイルなどを格納する記憶部１０６と、入力装置１１０や出力装置１１２に接続する入出力インターフェース部１０８とで構成されており、これら各部は任意の通信路を介して通信可能に接続されている。

記憶部１０６は、ストレージ手段であり、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等のメモリ装置や、ＨＤ（ＨａｒｄＤｉｓｋ：ハードディスク）のような固定ディスク装置や、フレキシブルディスクや、光ディスク等を用いることができる。そして、記憶部１０６は、図示の如く、サンプルデータ集合ファイル１０６ａと、注目サンプル関連データファイル１０６ｂと、評価結果データファイル１０６ｃとを格納する。なお、記憶部１０６は、各種のファイル（サンプルデータ集合ファイル１０６ａ〜評価結果データファイル１０６ｃ）を格納する他、制御部１０２で実行する各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。

サンプルデータ集合ファイル１０６ａは、サンプルデータ集合を格納する。ここで、サンプルデータ集合ファイル１０６ａ格納される情報の一例について図３を参照して説明する。図３は、サンプルデータ集合ファイル１０６ａに格納される情報の一例を示す図である。図３に示すように、サンプルデータ集合ファイル１０６ａは、サンプルを一意に識別するためのサンプル識別データとしてのサンプルＩＤと、クラスター（例えば多型のタイプなど）を一意に識別するためのクラスター識別データとしてのクラスターＩＤと、サンプルの測定から得られるシグナルデータとを相互に関連付けて格納する。

図２に戻り、注目サンプル関連データファイル１０６ｂは、後述する注目サンプル設定部１０２ｂで設定した注目するサンプルである注目サンプルに関連するデータを格納する。ここで、注目サンプル関連データファイル１０６ｂに格納される情報の一例について図４を参照して説明する。図４は、注目サンプル関連データファイル１０６ｂに格納される情報の一例を示す図である。図４に示すように、注目サンプル関連データファイル１０６ｂは、注目サンプルに対応するサンプルＩＤと、同クラスターサンプル間代表距離と、異クラスターサンプル間代表距離と、サンプル信頼性評価指標とを相互に関連付けて格納する。

図２に戻り、評価結果データファイル１０６ｃは、後述する信頼性評価部１０２ｆでの評価結果に関するデータを、注目サンプルデータ集合ごとに格納する。注目サンプルデータ集合は、本発明におけるサンプルデータ部分集合に相当し、１つ以上の注目サンプルデータ（注目サンプルに対応するサンプルデータ）を要素とする。

通信インターフェース部１０４は、サンプルデータ信頼性評価装置１００とネットワーク３００（またはルータ等の通信装置）との間における通信を媒介する。すなわち、通信インターフェース部１０４は他の端末と通信回線を介してデータを通信する機能を有する。

入出力インターフェース部１０８は、入力装置１１０や出力装置１１２に接続する。ここで、出力装置１１２には、モニタ（家庭用テレビを含む）の他、スピーカやプリンタを用いることができる（なお、以下で、出力装置１１２をモニタとして記載する場合がある。）。また、入力装置１１０には、キーボードやマウスやマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。

制御部１０２は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、各種の処理手順等を規定したプログラムおよび所要データを格納するための内部メモリを有し、これらのプログラムに基づいて種々の処理を実行するための情報処理を行う。そして、制御部１０２は、図示の如く、大別して、サンプルデータ集合取得部１０２ａと、注目サンプル設定部１０２ｂと、同クラスターサンプル間代表距離算出部１０２ｃと、異クラスターサンプル間代表距離算出部１０２ｄと、信頼性評価指標算出部１０２ｅと、信頼性評価部１０２ｆと、結果出力部１０２ｇとを備えている。

サンプルデータ集合取得部１０２ａは、サンプルデータ集合を取得し、取得したサンプルデータ集合をサンプルデータ集合ファイル１０６ａの所定の記憶領域に格納する。

注目サンプル設定部１０２ｂは、サンプルデータ集合取得部１０２ａで取得したサンプルデータ集合の中から注目サンプルを設定する。

同クラスターサンプル間代表距離算出部１０２ｃは、サンプルデータ集合取得部１０２ａで取得したサンプルデータ集合に基づいて、注目サンプル設定部１０２ｂで設定した注目サンプルに対応する同クラスターサンプル間代表距離（具体的には、注目サンプルと当該注目サンプルが属するクラスターと同じクラスターに属するサンプルとの間の代表距離）を算出し、算出した同クラスターサンプル間代表距離を注目サンプル関連データファイル１０６ｂの所定の記憶領域に格納する。

異クラスターサンプル間代表距離算出部１０２ｄは、サンプルデータ集合取得部１０２ａで取得したサンプルデータ集合に基づいて、注目サンプル設定部１０２ｂで設定した注目サンプルに対応する異クラスターサンプル間代表距離（具体的には、注目サンプルと当該注目サンプルが属するクラスターとは異なるクラスターに属するサンプルとの間の代表距離）を算出し、算出した異クラスターサンプル間代表距離を注目サンプル関連データファイル１０６ｂの所定の記憶領域に格納する。

信頼性評価指標算出部１０２ｅは、同クラスターサンプル間代表距離算出部１０２ｃで算出した同クラスターサンプル間代表距離および異クラスターサンプル間代表距離算出部１０２ｄで算出した異クラスターサンプル間代表距離の１つ以上の組（換言すると、同クラスターサンプル間代表距離および異クラスターサンプル間代表距離の注目サンプルごとの組）に基づいて、サンプル信頼性評価指標を信頼性評価指標として注目サンプルデータごとに算出し、算出した１つ以上のサンプル信頼性評価指標を注目サンプル関連データファイル１０６ｂの所定の記憶領域に格納する。また、信頼性評価指標算出部１０２ｅは、算出した１つ以上のサンプル信頼性評価指標の平均を、信頼性評価指標として注目サンプルデータ集合ごとに算出する。

信頼性評価部１０２ｆは、信頼性評価指標算出部１０２ｅで算出した１つ以上の信頼性評価指標（サンプル信頼性評価指標、サンプル信頼性評価指標の平均）に基づいて、注目サンプルデータ集合の信頼性を当該サンプルデータ集合ごとに評価し、その評価結果に関するデータを評価結果データファイル１０６ｃの所定の記憶領域に格納する。

結果出力部１０２ｇは、信頼性評価指標算出部１０２ｅで算出した信頼性評価指標や信頼性評価部１０２ｆでの評価結果を出力装置１１２へ出力する。

外部システム２００は、ネットワーク３００を介してサンプルデータ信頼性評価装置１００と相互に通信可能に接続され、例えばサンプルデータ集合等に関する外部データベースや、各種処理を実行するための外部プログラム等を提供する機能などを有する。ここで、外部システム２００は、ＷＥＢサーバやＡＳＰサーバ等として構成してもよく、そのハードウェアは一般に市販されるワークステーションやパーソナルコンピュータ等の情報処理装置およびその付属装置で構成してもよい。また、外部システム２００の各機能は、外部システム２００のハードウェア構成中のＣＰＵやディスク装置やメモリ装置や入力装置や出力装置や通信制御装置等、およびそれらを制御するプログラム等で実現される。

ネットワーク３００は、サンプルデータ信頼性評価装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮや、パソコン通信網や、公衆電話網（アナログ／デジタルの双方を含む）や、専用回線網（アナログ／デジタルの双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ−Ｐ方式等の携帯回線交換網／携帯パケット交換網や、無線呼出網や、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の局所無線網や、ＰＨＳ網や、ＣＳ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれかを含んでもよい。これにより、サンプルデータ信頼性評価装置１００は、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。

［システムの処理］
つぎに、サンプルデータ信頼性評価装置１００の制御部１０２が行うメイン処理の一例を、図５を参照して説明する。図５は、サンプルデータ信頼性評価装置１００の制御部１０２が行うメイン処理の一例を示すフローチャートである。なお、ここでは、１つの実験に対応するサンプルデータ集合に基づく処理について説明する。

まず、制御部１０２は、サンプルデータ集合取得部１０２ａの処理により、ネットワーク３００を介して外部システム２００からサンプルデータ集合を取得し、取得したサンプルデータ集合をサンプルデータ集合ファイル１０６ａの所定の記憶領域に格納する（ステップＳＡ−１）。

つぎに、制御部１０２は、注目サンプル設定部１０２ｂの処理により、ステップＳＡ−１で取得したサンプルデータ集合の中から注目サンプルを設定する（ステップＳＡ−２）。

つぎに、制御部１０２は、同クラスターサンプル間代表距離算出部１０２ｃの処理により、サンプルデータ集合ファイル１０６ａに格納したサンプルデータ集合に基づいて、ステップＳＡ−２で設定した注目サンプルに対応する同クラスターサンプル間平均距離を算出し、算出した同クラスターサンプル間平均距離を注目サンプル関連データファイル１０６ｂの所定の記憶領域に格納する（ステップＳＡ−３）。

ここで、ステップＳＡ−３では、下記の数式１に基づいて同クラスターサンプル間平均距離を算出してもよい。

数式１において、ｄ₁は同クラスターサンプル間平均距離であり、（ａ_i，ｂ_i）は注目サンプルｉそのもののシグナルデータであり、（ａ_j，ｂ_j）は、注目サンプルが属するクラスターと同じクラスターに属するサンプルに対応するサンプルデータに含まれるシグナルデータであり、ｎは、注目サンプルが属するクラスターに含まれるサンプルの総数である。なお、ｄ₁は、同一クラスターに含まれるサンプルであっても、サンプルによって異なる。

また、制御部１０２は、ステップＳＡ−３と並行して、異クラスターサンプル間代表距離算出部１０２ｄの処理により、サンプルデータ集合ファイル１０６ａに格納したサンプルデータ集合に基づいて、ステップＳＡ−２で設定した注目サンプルに対応する異クラスターサンプル間最小距離を算出し、算出した異クラスターサンプル間最小距離を注目サンプル関連データファイル１０６ｂの所定の記憶領域に格納する（ステップＳＡ−４）。

ここで、ステップＳＡ−４では、下記の数式２に基づいて異クラスターサンプル間最小距離を算出してもよい。

数式２において、ｄ₂は異クラスターサンプル間最小距離であり、（ａ_i，ｂ_i）は注目サンプルｉそのもののシグナルデータであり、（ａ_k，ｂ_k）は、注目サンプルが属するクラスターとは異なるクラスターに属するサンプルに対応するサンプルデータに含まれるシグナルデータである。なお、ｄ₂は、同一クラスターに含まれるサンプルであっても、サンプルによって異なる。

つぎに、制御部１０２は、サンプルデータ集合ファイル１０６ａに格納したサンプルデータ集合の全てのサンプルについてステップＳＡ−２からステップＳＡ−４までが終了したか否かを確認し、この確認結果が「終了した」でなかった場合（ステップＳＡ−５：Ｎｏ）には、ステップＳＡ−２からステップＳＡ−４までを各処理部に実行させ、この確認結果が「終了した」であった場合（ステップＳＡ−５：Ｙｅｓ）には、後述するステップＳＡ−６を信頼性評価指標算出部１０２ｅに実行させる。

つぎに、制御部１０２は、信頼性評価指標算出部１０２ｅの処理により、ステップＳＡ−３で算出した同クラスターサンプル間平均距離およびステップＳＡ−４で算出した異クラスターサンプル間最小距離の注目サンプルごとの組に基づいて、同クラスターサンプル間平均距離と異クラスターサンプル間最小距離との比をサンプル信頼性評価指標として注目サンプルデータごとに算出し、算出した複数のサンプル信頼性評価指標を注目サンプル関連データファイル１０６ｂの所定の記憶領域に格納し、算出した複数のサンプル信頼性評価指標の平均を算出する（ステップＳＡ−６）。

ここで、ステップＳＡ−６では、下記の数式３に基づいてサンプルデータ信頼性評価指標を算出してもよい。

数式３において、ＱＶは注目サンプルｉにおけるサンプルデータ信頼性評価指標であり、ｄ₁は上述した数式１に示す同クラスターサンプル間平均距離であり、ｄ₂は上述した数式２に示す異クラスターサンプル間最小距離である。

つぎに、制御部１０２は、信頼性評価部１０２ｆの処理により、ステップＳＡ−６で算出した複数のサンプル信頼性評価指標に基づいて注目サンプルデータの信頼性を当該注目サンプルデータごとに評価するとともに、ステップＳＡ−６で算出した複数のサンプル信頼性評価指標の平均に基づいて注目サンプルデータ集合の信頼性を注目サンプルデータ集合ごとに評価し、これらの評価結果に関するデータを評価結果データファイル１０６ｃの所定の記憶領域に格納する（ステップＳＡ−７）。

これにて、サンプルデータ信頼性評価装置１００の制御部１０２が行うメイン処理の一例についての説明を終了する。

［本実施の形態のまとめ、および他の実施の形態］
以上説明したように、本実施の形態によれば、サンプルデータ集合を取得し、サンプルデータ集合の中から注目サンプルを設定し、設定した注目サンプルについて同クラスターサンプル間平均距離および異クラスターサンプル間最小距離を算出し、サンプルデータ集合の全てのサンプルについて注目サンプルの設定・同クラスターサンプル間平均距離の算出および異クラスターサンプル間最小距離の算出を繰り返し行い、算出した同クラスターサンプル間平均距離および異クラスターサンプル間最小距離の注目サンプルごとの組に基づいて、同クラスターサンプル間平均距離と異クラスターサンプル間最小距離との比をサンプル信頼性評価指標として注目サンプルデータごとに算出すると共にサンプル信頼性評価指標の平均を注目サンプルデータ集合ごとに算出し、算出した複数のサンプルデータ信頼性評価指標に基づいて注目サンプルデータの信頼性を当該注目サンプルデータごとに評価すると共に算出した複数の平均に基づいて、注目サンプルデータ集合の信頼性を注目サンプルデータ集合ごとに評価する。これにより、特に遺伝子多型に関する多型解析で頻度の少ない多型を含む多型データが得られた場合であっても、このような多型データの信頼性を客観的に評価することができる。ここで、本実施の形態では、一例として、数式１に基づいて同クラスターサンプル間平均距離を代表距離として算出しているが、代表距離としては、平均距離の他に、例えば、中央値、最頻値、最大値と最小値を除外して、平均値を算出してもよく、あるいは平均値から分散の２倍以上離れているデータを除外して、新たに平均値を算出してもよい。

また、本実施の形態によれば、注目サンプルデータ集合は、１つの注目サンプルデータを要素として持つものでもよく、同じクラスターに属する複数の注目サンプルデータを要素として持つものでもよく、全ての注目サンプルデータを要素として持つものでもよい。これにより、サンプル単位、クラスター単位または全サンプル単位（具体的には実験単位）で信頼性評価指標を算出することができ、結果的に、サンプル単位、クラスター単位または全サンプル単位（具体的には実験単位）で注目サンプルデータ集合の信頼性を評価することができる。

また、本発明は、上述した実施の形態以外にも、特許請求の範囲の書類に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。例えば、サンプルデータ信頼性評価装置１００は、当該サンプルデータ信頼性評価装置とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。また、本実施の形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

また、サンプルデータ信頼性評価装置１００に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、サンプルデータ信頼性評価装置１００の各部または各装置が備える処理機能、特に制御部１０２にて行なわれる各処理機能については、その全部または任意の一部を、ＣＰＵおよび当該ＣＰＵにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、このプログラムは、後述する記録媒体に記録されており、必要に応じてサンプルデータ信頼性評価装置１００に機械的に読み取られる。すなわち、ＲＯＭまたはＨＤなどの記憶部１０６などには、ＯＳと協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭ等にロードされることによって実行され、ＣＰＵと協働して制御部１０２を構成する。また、このコンピュータプログラムは、サンプルデータ信頼性評価装置１００に対して任意のネットワーク３００を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

また、前記のプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。

また、サンプルデータ信頼性評価装置１００は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明にかかるサンプルデータ信頼性評価方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。

さらに、サンプルデータ信頼性評価装置１００の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）を用いて実現してもよい。

ここでは、上述した実施の形態にかかるサンプルデータ信頼性評価装置１００で算出した信頼性評価指標（具体的には、上述した実施の形態にかかるＱＶや、ＱＶの平均（ＱＶ_avg.）など）の具体的一例を示す。

まず、ヒトの一塩基多型をＳＳＰＣＥ−ＦＣＳ（「ＣｕｒｒｅｎｔＰｈａｒｍａｃｅｕｔｉｃａｌＢｉｏｔｅｃｈｎｏｌｏｇｙ，２００３，４，４４７−４８４」参照）でタイピングし、それぞれのサンプルについての各アリル（Ａｌｌｅｌｅ）に対応するシグナルを１分子蛍光測定装置（ＭＦ１０Ｓ、Ｏｌｙｍｐｕｓ社製）で測定し、その測定結果をタイプ別にクラスタリングした。そして、クラスタリングされたサンプルのシグナルデータを、上述したサンプルデータ信頼性評価装置１００の入力データとした。

図６に、実験単位ごとに算出した信頼性評価指標（ＱＶ_avg.）を示す。このＱＶ_avg.は、９６ｗｅｌｌプレートで実施した実験に含まれている８０サンプルについてサンプルごとに算出した８０個のＱＶの平均である。図６に示すように、クラスタリングの状況は、実験Ａ（Ｅｘｐ．Ａ）、実験Ｂ（Ｅｘｐ．Ｂ）、実験Ｃ（Ｅｘｐ．Ｃ）の順で悪くなっている。そして、クラスタリングの状況が悪くなるのに対応して、ＱＶ_avg.の値も８．４４、４．００、１.４２と悪くなっている。このことから、ＱＶ_avg.の値は、実験単位でのクラスタリングの状況の変化に対応していた。

次に、サンプルごとに求めた信頼性評価指標（ＱＶ）を用いて、分離の悪いサンプル（タイピング不良サンプル、エラーサンプル）の抽出を試みた。その結果を図７に示す。図７では、ＱＶの値が１を下回るサンプルに矢印を付している。ＱＶが１を下回るということは、同じタイプへの平均的な距離が最も近い他のタイプへの距離よりも大きくなっていることを意味する。そして、図７に示すように、ＱＶが１を下回っているサンプルはクラスターの境界付近に集中している。このことから、ＱＶの値で、分離の不明瞭なサンプルを抽出することができた。

次に、図８に、約６００の実験（１つの実験は８０サンプルからなる）について実験ごとに算出した約６００個のＱＶ_avg.のヒストグラムを示す。ＱＶはサンプルの分離状況に相関があるため、実験間のＱＶ_avg.を比較することで入力データの品質を明らかにすることができる。実験ごとに算出したＱＶ_avg.をヒストグラムで示すことで、現在着目している実験に対応する入力データの品質を、他の実験のそれと客観的に比較することができる。また、図９に、図８において平均的な入力データの品質を有する実験に対応するＱＶ_avg.を示す。約６００の実験全体におけるＱＶ_avg.の平均は、３．４７であり、その平均に近い３．３５のＱＶ_avg.に対応する実験Ｇの散布図を図９では示している。

以上より、ＱＶやＱＶ_avg.は、タイピング結果の信頼性を評価するための指標として有用であることが示された。また、図８に示したＱＶ_avg.のヒストグラムを用いることで、複数の実験に関してその信頼性を第三者に客観的に示すことができた。また、ＱＶにより、エラーサンプルの自動抽出を実現することができた。これにより、上述したサンプルデータ信頼性評価装置１００で実行するサンプルデータ信頼性評価方法は、エラーサンプルの自動抽出アルゴリズムとして使用することができる。

以上のように、本発明にかかるサンプルデータ信頼性評価方法およびサンプルデータ信頼性評価装置は、従来技術では信頼性の評価が困難な頻度の少ない多型データであってもオペレーターの主観に因らず客観的にその信頼性を評価することができ、バイオ・製薬・医療など様々な産業上の分野において好適に用いることができる。

Claims

クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する工程と、
前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する工程と、
前記工程で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータの信頼性を評価するための指標である信頼性評価指標を算出する工程と、
前記工程で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する工程と、
を含むことを特徴とするサンプルデータ信頼性評価方法。
前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、
前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、
前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であること
を特徴とする請求項１に記載のサンプルデータ信頼性評価方法。
前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であること
を特徴とする請求項１または２に記載のサンプルデータ信頼性評価方法。
前記工程で算出した前記信頼性評価指標を出力する工程をさらに含むこと
を特徴とする請求項１から３のいずれか１つに記載のサンプルデータ信頼性評価方法。
クラスタリングされたサンプルに関する複数のサンプルデータを要素とするサンプルデータ集合に基づいて、前記サンプルと当該サンプルが属するクラスターと同じ前記クラスターに属する前記サンプルとの間の代表距離である同クラスターサンプル間代表距離を算出する手段と、
前記サンプルデータ集合に基づいて、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の代表距離である異クラスターサンプル間代表距離を算出する手段と、
前記手段で算出した前記同クラスターサンプル間代表距離および前記異クラスターサンプル間代表距離に基づいて、前記サンプルデータの信頼性を評価するための指標である信頼性評価指標を算出する手段と、
前記手段で算出した前記信頼性評価指標に基づいて、前記サンプルデータ集合の部分集合もしくは前記サンプルデータ集合全体の前記信頼性を評価する手段と、
を備えたことを特徴とするサンプルデータ信頼性評価装置。
前記同クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターと同じ前記クラスターに属する前記サンプルとの間の平均距離であり、
前記異クラスターサンプル間代表距離は、前記サンプルと当該サンプルが属する前記クラスターとは異なる前記クラスターに属する前記サンプルとの間の最小距離であり、
前記信頼性評価指標は、前記同クラスターサンプル間代表距離と前記異クラスターサンプル間代表距離との比、または当該比の平均であること
を特徴とする請求項５に記載のサンプルデータ信頼性評価装置。
前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の前記信頼性の前記評価とは、前記信頼性の低い前記サンプルデータ集合の前記部分集合もしくは前記サンプルデータ集合全体の抽出、または前記クラスタリングに用いたアルゴリズムの前記信頼性の前記評価であること
を特徴とする請求項５または６に記載のサンプルデータ信頼性評価装置。
前記手段で算出した前記信頼性評価指標を出力する手段をさらに備えたこと
を特徴とする請求項５から７のいずれか１つに記載のサンプルデータ信頼性評価装置。