WO2012164954A1

WO2012164954A1 - 集合データの類似性評価方法、類似性評価プログラム、及び類似性評価装置

Info

Publication number: WO2012164954A1
Application number: PCT/JP2012/003612
Authority: WO
Inventors: 芳和森; 桂一野田
Original assignee: 株式会社ツムラ
Priority date: 2011-06-01
Filing date: 2012-05-31
Publication date: 2012-12-06
Also published as: JPWO2012164954A1; EP2717048A1; TWI521203B; HK1181116A1; CN102985818B; CN102985818A; KR101436534B1; EP2717048B1; JP5910506B2; US20130197813A1; EP2717048A4; TW201314205A; KR20130029405A

Abstract

　評価の精度及び効率を向上させることに寄与可能とする。　複数のデータが集合した集合データ相互の類似性を評価する集合データの類似性評価装置１であって、各集合データの各データを選択された尺度でパターン化するパターン化部３と、パターン化した各データを総当たりで比較し一致数を求める一致数抽出部５と、求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定部７とを備え、集合データの類似性を簡易且つ迅速に評価することを特徴とする。

Description

集合データの類似性評価方法、類似性評価プログラム、及び類似性評価装置

　本発明は、集合データの類似性評価方法、類似性評価プログラム、及び類似性評価装置に関する。

　多成分物質として、例えば多成分で構成される薬剤（以下、多成分薬剤）である漢方薬などの天然物由来の薬剤がある。これら薬剤の定量的、定性的プロフィールは、使用する原料生薬の、地質学的要因、生態学的要因、収集時期、収集場所、収集年代、生育期の天候等が原因で変化する。

　そのため、これら多成分薬剤などについては、その安全性および有効性を担保するための品質として一定の基準を規定し、その基準に基づいて、国家の監督機関、化学的組織、製造業者等が品質評価を行っている。

　しかしながら、多成分薬剤の品質等の判定基準は、多成分薬剤中のある特徴的な１ないしは数成分を選択して、その含有量などに基づいて設定することが一般的であった。

　例えば、非特許文献１では、多成分薬剤において有効成分の同定ができていない場合、定量分析が可能、水に溶けやすい、熱水中で分解しない、他の成分と化学反応をしない等の物性を持った複数の成分を選択し、化学分析により得られるそれら成分の含有量を評価の基準としている。

　また、多成分薬剤にクロマトグラフィーを適用し、保持時間ごとに紫外可視吸収スペクトルを得て、その中の一部の成分情報から評価の基準を設定することも知られている。

　例えば、特許文献１では、ＨＰＬＣクロマトグラム・データ（以下、クロマト）中の一部のピークを選択し、バーコード化することによって多成分薬剤を評価している。

　しかしながら、これらの方法は、評価の対象が「特定成分の含有量」又は「特定成分のクロマト・ピーク」に限定されており、多成分薬剤が含有する成分の一部を評価対象にしているに過ぎない。このため、多成分薬剤については、評価の対象外となっている成分が多数存在することから、多成分薬剤の評価方法として精度的に不十分である。

　多成分薬剤の品質を正確に評価するには、全ピーク情報或いは数％の細かい情報を除外した全ピーク情報に近いピーク情報を網羅した波形パターンの評価が必要であり、そのため、多成分薬剤間で全ピーク或いはこれに近い個数のピークを対応させる必要がある。

　ところが、複数のピークを高精度で効率的に対応させることが困難であり、このことが多成分薬剤の高精度で効率的な評価の妨げとなっていた。

　さらに説明すると、同じ製品名の多成分薬剤であっても生薬は天然物であるがために構成成分が僅かに異なる場合がある。このため、同じ品質の薬剤であっても構成成分の含量比率が異なったり、ある薬剤に存在する成分が他の薬剤には存在しないこと（以下、薬剤間誤差）がある。さらに、クロマトにおけるピーク強度やピークの溶出時間には厳密な再現性がない（以下、分析誤差）などの要因もある。これらにより、多成分薬剤間の全ピーク或いはこれに近い個数のピークについて同じ成分に由来するピークに対応させること（以下、ピーク帰属）ができないことが原因となって高精度で効率的な評価の妨げとなっていた。

特開２００２－２１４２１５号公報

月刊薬事ｖｏｌ.２８, Ｎｏ.３, ６７-７１ (１９８６)

　解決しようとする問題点は、既存の評価方法では多成分物質の品質等を高精度で効率的に評価することに限界があった点である。

　本発明は、評価の精度及び効率を向上させることに寄与するために、複数のデータが集合した集合データ（例えば、液体クロマトグラム（ＬＣ）、ガスクロマトグラム（ＧＣ）、核磁気共鳴（ＮＭＲ）スペクトル等の測定データ(チャート)、またはそれらをパターン化等の加工処理して得られるデータ）の相互の類似性評価方法であって、前記各集合データの各データを選択された尺度でパターン化するパターン化工程と、前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出工程と、求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定工程とを備えたことを集合データの類似性評価方法の特徴とする。

　本発明は、複数のデータが集合した集合データの相互の類似性評価をコンピュータに実現させる類似性評価プログラムであって、前記各集合データの各データを選択された尺度でパターン化するパターン化機能と、前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出機能と、求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定機能とをコンピュータに実現させることを集合データの類似性評価プログラムの特徴とする。

　本発明は、複数のデータが集合した集合データの相互の類似性評価装置であって、前記各集合データの各データを選択された尺度でパターン化するパターン化部と、前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出部と、求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定部とを備えたことを集合データの類似性評価装置の特徴とする。

　本発明の集合データの類似性評価方法は、上記構成であるから、複数のデータが集合した集合データの類似性を簡易且つ迅速に評価することができる。

　したがって、例えば評価対象の多成分物質の対象ＦＰを、評価基準の複数の薬剤の基準ＦＰと比較して評価するとき、その前処理として対象ＦＰのピーク帰属に適した多成分物質のＦＰを複数の基準ＦＰから選定するに際し、簡易且つ迅速な選定を行わせることができる。

　本発明の集合データの類似性評価プログラムは、上記構成であるから、機能をコンピュータに実現させ、ＦＰの類似性を評価し、前記基準ＦＰ等の選定を簡易かつ迅速に行わせることができる。

　本発明の集合データの類似性評価装置は、上記構成であるから、各部を作用させ、前記基準ＦＰ等の選定を簡易かつ迅速に行わせることができる。

集合データの類似性評価装置のブロック図である。（実施例１）集合データの類似性評価方法の工程図である。（実施例１）薬剤ごとのＦＰを示し、（Ａ）は薬剤Ａ、（Ｂ）は薬剤Ｂ、（Ｃ）は薬剤Ｃを示すグラフである。（実施例１）対象ＦＰ及び基準ＦＰのリテンション・タイムを示す説明図である。（実施例１）対象ＦＰのリテンション・タイム・出現パターンを示す説明図である。（実施例１）基準ＦＰのリテンション・タイム・出現パターンを示す説明図である。（実施例１）対象及び基準ＦＰの出現距離の一致数を示す説明図である。（実施例１）対象ＦＰと基準ＦＰの全リテンション・タイム・出現距離の一致数を示す説明図である。（実施例１）対象ＦＰと基準ＦＰの全リテンション・タイム・出現パターンの一致度を示す説明図である。（実施例１）対象ＦＰのピーク高さ比パターンを示す説明図である。（実施例２）ＦＰ類似性評価処理におけるデータ処理フローチャートである。（実施例１）ＦＰ類似性評価処理におけるリテンション・タイム・出現パターンの一致度計算処理のフローチャートである。（実施例１）

　評価の精度及び効率の向上に寄与可能にするという目的を、パターン化部と、一致数抽出部と、一致度判定部とにより実現した。

　本発明の実施例１は、集合データの類似性評価装置を、多成分物質、例えば多成分薬剤を評価する多成分薬剤の評価装置の前処理として適用するものである。

　多成分薬剤は、複数の有効化学成分を含有する薬剤と定義され、限定はされないが、生薬、生薬の組合せ、それらの抽出物、漢方薬等が含まれる。また剤形も特に限定されず、例えば、第１５改正日本薬局方の製剤総則で規定されている液剤、エキス剤、カプセル剤、顆粒剤、丸剤、懸濁剤・乳剤、散剤、酒精剤、錠剤、浸剤・煎剤、チンキ剤、トローチ剤、芳香水剤、流エキス剤等が含まれる。多成分物質としては、薬剤以外のものも含まれる。

　漢方薬の具体例は、医療用漢方製剤１４８処方「使用上の注意」の業界統一と自主改訂、一般用漢方処方の手引き(１９７８年)に記載されている。

　多成分薬剤の評価装置では、評価対象薬剤が正常品と定めた複数の薬剤と同等であるかどうかを評価するため、まず、評価対象薬剤の三次元クロマトグラム・データ（以下、３Ｄクロマト）からその薬剤特有の情報を抽出した対象ＦＰを作成する。次に、対象ＦＰのピーク帰属に適した多成分薬剤のＦＰを複数の基準ＦＰから選定する。この選定した基準ＦＰのピークに、対象ＦＰの各ピークを帰属させる。

　そして、全基準ＦＰからピーク帰属処理し作成した全基準ＦＰのピーク対応データ（以下、基準群ＦＰ）に、前記のように帰属された対象ＦＰの各ピークを帰属する。

　次に、基準群ＦＰのピークと帰属した対象ＦＰのピーク（以下、対象ＦＰ帰属ピーク）の同等性をＭＴ法で評価する。最後に、得られた評価値（以下、ＭＤ値）と予め設定しておいた判定値（ＭＤ値の上限値）を比較し、評価対象薬剤が正常品と同等であるかどうかを判定する。

　なお、３Ｄクロマトは、評価対象となる多成分物質である多成分薬剤としての漢方薬のＨＰＬＣクロマトグラム・データ（以下、クロマト）であり、ＵＶスペクトルを含んでいる。

　ＦＰとは、特定の波長で検出されたピークにおけるシグナル強度（高さ）の極大値又は面積値（以下、ピーク）とそのピークの出現時間（以下、リテンション・タイム）、とで構成するフィンガー・プリント・データである。

　対象ＦＰは、評価対象である漢方薬の三次元クロマトグラム・データである３Ｄクロマトから、特定の検出波長における複数のピークとそのリテンション・タイムならびにＵＶスペクトルを抽出したものである。したがって、対象ＦＰは、複数のデータとしてピークが集合した集合データである。

　基準ＦＰは、正常品と定めた多成分物質である多成分薬剤としての漢方薬のＦＰであり、対象ＦＰ同様、三次元クロマトグラム・データである３Ｄクロマトから、特定の検出波長における複数のピークとそのリテンション・タイムならびにＵＶスペクトルを抽出したものである。したがって、基準ＦＰも、複数のデータとしてピークが集合した集合データである。
［ＦＰの類似性評価装置、類似性評価方法］
　図１は、ＦＰの類似性評価装置のブロック図、図２は、ＦＰの類似性評価方法の工程図である。

　図1、図２のように、ＦＰの類似性評価装置１が機能して行われるＦＰの類似性評価方法は、対象ＦＰ及び基準ＦＰ相互の一致度を調べるものである。

　ＦＰの類似性評価装置１は、コンピュータで構成され、図示はしないが、ＣＰＵ、ＲＯＭ、ＲＡＭなどを備えている。ＦＰの類似性評価装置１は、コンピュータにインストールされた集合データの類似性評価プログラムを実現させ、対象ＦＰの類似性評価を行わせることができる。但し、集合データの類似性評価プログラムは、これを記録した集合データの類似性評価プログラム記録媒体を用い、コンピュータで構成されたＦＰの類似性評価装置１にこれを読み取らせることで、対象ＦＰの類似性評価を実現させることもできる。

　ＦＰの類似性評価方法は、パターン化部３が機能して行われるパターン化工程Ｓ１と、一致数抽出部５が機能して行われる一致数抽出工程Ｓ２と、一致度判定部７が機能して行われる一致度判定工程Ｓ３とを備えている。

　このＦＰの類似性評価方法で、前記最終的な評価の前処理として、対象ＦＰのピーク帰属に適した多成分薬剤のＦＰを複数の集合データとしての基準ＦＰから選定することになる。

　パターン化部３の機能により、パターン化工程Ｓ１は、各集合データである対象ＦＰ及び基準ＦＰの各データである各ピークを選択された尺度でパターン化する。この尺度は、本実施例においてピークの出現距離としてのリテンション・タイム間距離である。具体的には、後述する。

　一致数抽出部５の機能により、一致数抽出工程Ｓ２は、パターン化した各ピークを総当たりで比較し各パターン間での一致数を求める。この一致数は、本実施例において出現距離の一致数である。具体的には、後述する。

　一致度判定部７の機能により、一致度判定工程Ｓ３は、求めた一致数を基にTanimoto係数を用いて各パターン間での一致度を求める。

　一致度判定工程Ｓ３では、前記Tanimoto係数を、
「出現距離の一致数／（対象ＦＰピーク数＋基準ＦＰピーク数－出現距離の一致数）」
　とし、（１－Tanimoto係数）が零に近いことで前記一致度を求める。

　この（１－Tanimoto係数）に、（対象ＦＰピーク数－出現距離の一致数＋１）の重み付けをし、
　「（１－Tanimoto係数）×（対象ＦＰピーク数－出現距離の一致数＋１）」
　としても良い。

　この重み付けで、対象ＦＰのピークがより多く一致している基準ＦＰを選ぶことができる。
［ＦＰの類似性評価装置、類似性評価方法の動作原理］
　図３（Ａ）は、薬剤Ａ、（Ｂ）は、薬剤Ｂ、（Ｃ）は、薬剤ＣのＦＰである。

　例えば薬剤ＡのＦＰが対象ＦＰであるとし、薬剤Ｂ、ＣのＦＰが基準ＦＰであるとすると、薬剤Ｂ、Ｃから作成した基準群ＦＰに、対象ＦＰの各ピークを帰属する前に、複数の基準ＦＰから対象ＦＰの帰属に適した薬剤Ｂ、Ｃ何れかの基準ＦＰを選定し、この選定した基準ＦＰのピークに、対象ＦＰの各ピークを帰属させることになる。

　すなわち、対象ＦＰの各ピークのピーク帰属を高い精度で行うため、図４～図９のように対象ＦＰと基準ＦＰとの間でピークのリテンション・タイム・出現パターンの一致度を算出し、この一致度が最小となる基準ＦＰを全基準ＦＰから選定する。

　図４～図９は、対象ＦＰと基準ＦＰとのリテンション・タイム・出現距離の一致数ならびにリテンション・タイム・出現パターンの一致度について説明した図である。図４は、対象ＦＰ及び基準ＦＰのリテンション・タイムを示す説明図、図５は、対象ＦＰのリテンション・タイム・出現パターンを示す説明図、図６は、基準ＦＰのリテンション・タイム・出現パターンを示す説明図である。図７は、対象及び基準ＦＰの出現距離の一致数を示す説明図、図８は、対象ＦＰと基準ＦＰの全リテンション・タイム・出現距離の一致数を示す説明図、図９は、対象ＦＰと基準ＦＰの全リテンション・タイム・出現パターンの一致度を示す説明図である。

　図４では、対象ＦＰ１５及び基準ＦＰ１７それぞれのリテンション・タイムを示す。図５、図６では、対象ＦＰ１５及び基準ＦＰ１７それぞれのリテンション・タイムから全てのリテンション・タイム間距離を算出し、それら距離を表形式にまとめたリテンション・タイム・出現パターンを示す。図７では、対象ＦＰ、基準ＦＰのリテンション・タイム・出現パターンの各セルの値をそれぞれの行で比較し２つの値の差が一定以内となる数をカウントし算出したリテンション・タイム・出現距離の一致数を示す。図８では、このリテンション・タイム・出現距離の一致数を対象ＦＰと基準ＦＰ間の全ての組み合わせで算出し、それら一致数を表形式にまとめたリテンション・タイム・出現距離の一致数を示す。図９では、この一致数をもとにリテンション・タイム・出現パターンの一致度を算出し、それら一致度を表形式にまとめたリテンション・タイム・出現パターンの一致度を示す。

　対象ＦＰ１５のピーク帰属処理において、対象ＦＰ１５とできるだけＦＰパターンが類似した基準ＦＰで対象ＦＰ１５の各ピークを帰属する。この対象ＦＰ１５に類似した基準ＦＰを複数の基準ＦＰから選定することが精度の高い帰属を行う上で重要なポイントである。

　そこで、対象ＦＰ１５のＦＰパターンとの類似性を客観的かつ簡易的に評価する方法として、リテンション・タイム・出現パターンの一致度によりＦＰパターンの類似性を評価する。

　例えば、対象ＦＰ１５及び基準ＦＰ１７のリテンション・タイムが図４のような場合、対象ＦＰ１５及び基準ＦＰ１７それぞれのリテンション・タイム・出現パターンは、図５、図６のようになる。図５、図６では、上段の対象ＦＰ１５及び基準ＦＰ１７に対し、下段の図表のように、各セルの値がリテンション・タイム間距離で構成された表形式のパターンとして作成している。

　図５において、対象ＦＰ１５の各ピーク（１９、２１、２３、２５、２７、２９、３１、３３、３５、３７）のリテンション・タイムは、（１０．２）、（１０．５）、（１０．８）、（１１．１）、（１１．６）、（１２．１）、（１２．８）、（１３．１）、（１３．６）、（１４．０）となっている。

　したがって、ピーク１９及びピーク２１間のリテンション・タイム間距離は、（１０．５）－（１０．２）＝（０．３）となる。同様に、ピーク１９及びピーク２３間は、（０．６）、ピーク２１及びピーク２３間は、（０．３）などとなる。以下、同様であり、図５の下段図表の対象ＦＰ出現パターンとなる。

　図６において、基準ＦＰ１７の各ピーク（３９、４１、４３、４５、４７、４９、５１、５３、５５、５７、５９）のリテンション・タイムは、（１０．１）、（１０．４）、（１０．７）、（１１．１）、（１１．７）、（１２．３）、（１２．７）、（１３．１）、（１３．６）、（１４．１）、（１４．４）となっている。

　したがって、同様にリテンション・タイム間距離は、図６の下段図表の基準ＦＰ出現パターンとなる。

　この図５、図６ようにパターン化した各ピークを総当たりで比較し一致数を求める。例えば、図５下段図表の対象ＦＰ出現パターンの各セルの値と図６下段図表の基準ＦＰ出現パターンの各セルの値とを図７のように比較し、図８のように一致数を得る。

　図７では、対象ＦＰ１５と基準ＦＰ１７のリテンション・タイム・出現パターンの全てのリテンション・タイム間距離によるパターンを行単位で順番に総当たりで比較し、設定した範囲内で距離が一致した数を算出した。

　例えば、図７の対象及び基準ＦＰリテンション・タイム・出現パターンの各１行目のパターンを比較すると、丸で囲まれた数値が一致しており、一致数は７個である。この７個の一致数が、図８の対象及び基準ＦＰリテンション・タイム・出現パターンの１行目にリテンション・タイム・出現距離の一致数が書き込まれる。図７中のその他の行についても同様であり、対象ＦＰリテンション・タイム・出現パターンの１行～９行までと、基準ＦＰリテンション・タイム・出現パターンの１行～１０行までとを総当たりで比較し、それぞれ一致数が得られる。

　図８に結果を示した。この図８において、丸で囲まれた左端の７の数値は、対象及び基準ＦＰリテンション・タイム・出現パターンの各１行目を比較した結果であり、その隣の７の数値は、対象ＦＰリテンション・タイム・出現パターンの１行目と基準ＦＰリテンション・タイム・出現パターンの２行目とを比較した結果である。

　また、出現距離の一致を判定するための設定値の範囲に限定はなく、好ましくは０．０５分～０．２分の範囲である。実施例１は、０．１分とした。

　リテンション・タイム・出現パターンの一致度をＲＰとすると、対象ＦＰ１５のｆ行目のリテンション・タイム・出現パターンと基準ＦＰ１７のｇ行目のリテンション・タイム・出現パターンの一致度（ＲＰ_ｆｇ）は、Tanimoto係数を用いて、
　ＲＰ_ｆｇ　＝　｛１－（ｍ／（ａ＋ｂ－ｍ））｝×（ａ－ｍ＋１）
として算出する。

　なお、式中ａは対象ＦＰ１５のピーク数（対象ＦＰピーク数）、ｂは基準ＦＰ１７のピーク数（基準ＦＰピーク数）、ｍはリテンション・タイム・出現距離の一致数である（図８参照）。

　図８の一致数をもとに前記式により各リテンション・タイム・出現パターンの一致度（ＲＰ）を算出した（図９参照）。

　これらＲＰの最小値であるＲＰ＿ｍｉｎを対象ＦＰ１５と基準ＦＰ１７とのリテンション・タイム・出現パターンの一致度とする。図９では、（０．５０）が対象ＦＰ１５の基準ＦＰに対する一致度となる。

　この一致度を全ての基準ＦＰについて算出し、最も小さい一致度の基準ＦＰが選定され、この基準ＦＰに対して対象ＦＰのピーク帰属を行わせる。

　［類似性評価プログラム］
　図１１、１２は、類似性評価プログラムに係るフローチャートである。

　図１１は、ＦＰ間の類似性を評価するための処理全体のステップを示すフローチャートであり、システム起動によりスタートし、パターン化機能と、一致数抽出機能と、一致度判定機能とをコンピュータに実現させ、正常品とされた複数の基準ＦＰと対象ＦＰ１７間でリテンション・タイム出現パターンの類似性を評価し、対象ＦＰ１７の帰属に適した基準ＦＰを選定する。

　図１２は、図１１の「ＦＰ類似性評価処理」における「サブルーチン１」の詳細を示すフローチャートである。この処理では、ＦＰ間（例えば、対象ＦＰと基準ＦＰ）のリテンション・タイム・出現パターンの一致度を計算する。

　［ＦＰ類似性評価処理］
　ステップＳ２０１では、「対象ＦＰを読み込む」の処理が実行される。この処理では、帰属対象のＦＰを読み込み、ステップＳ２０２へ移行する。

　ステップＳ２０２では、「全リテンション・タイム（Ｒ１）を取得」の処理が実行される。この処理では、Ｓ２０１で読み込んだ対象ＦＰのリテンション・タイム情報を全て取得し、ステップＳ２０３へ移行する。

　ステップＳ２０３では、「全基準ＦＰのファイル名をリスト化」の処理が実行される。この処理では、後で全基準ＦＰを順番に処理するために予め全基準ＦＰのファイル名をリスト化し、ステップＳ２０４へ移行する。

　ステップＳ２０４では、全基準ＦＰを順番に処理するためのカウンタの初期値としてｎに１を代入（ｎ←１）し、ステップＳ２０５へ移行する。

　ステップＳ２０５では、「リストｎ番目の基準ＦＰ（基準ＦＰ_ｎ）を読み込む」の処理が実行される。この処理では、Ｓ２０３でリスト化した全基準ＦＰのファイル名リストのｎ番目のＦＰを読み込み、ステップＳ２０６へ移行する。

　ステップＳ２０６では、「全リテンション・タイム（Ｒ２）を取得」の処理が実行される。この処理では、Ｓ２０５で読み込んだ基準ＦＰのリテンション・タイム情報を全て取得し、ステップＳ２０７へ移行する。

　ステップＳ２０７では、「Ｒ１とＲ２のリテンション・タイム・出現パターンの一致度を算出（ＲＰ_ｎ＿ｍｉｎ）」の処理が実行される。この処理では、Ｓ２０２で取得した対象ＦＰのリテンション・タイムとＳ２０６で取得した基準ＦＰのリテンション・タイムからＲＰ_ｎ＿ｍｉｎを算出し、ステップＳ２０８へ移行する。なお、ＲＰ_ｎ＿ｍｉｎの詳細な計算フローは、図１２のサブルーチン１により別途説明する。

　ステップＳ２０８では、「ＲＰ_ｎ＿ｍｉｎの保存（ＲＰ_ａｌｌ＿ｍｉｎ」の処理が実行される。この処理では、Ｓ２０７で算出したＲＰ_ｎ＿ｍｉｎをＲＰ_ａｌｌ＿ｍｉｎに保存し、ステップＳ２０９へ移行する。

　ステップＳ２０９では、「ｎの更新（ｎ←ｎ＋１）」の処理が実行される。この処理では、処理を次のＦＰへ移行するためｎの更新としてｎにｎ＋１を代入し、ステップＳ２１０へ移行する。

　ステップＳ２１０では、「全基準ＦＰ処理終了？」の判断処理が実行される。この処理では、基準ＦＰ全てが処理されたか否かが判断され、処理済み（ＹＥＳ）の場合は、ステップＳ２１１へ移行する。未処理の基準ＦＰがある（ＮＯ）場合は、未処理のＦＰに対してＳ２０５～Ｓ２１０の処理を実行するため、Ｓ２０５へ移行する。全基準ＦＰの処理が終了するまでＳ２０５～Ｓ２１０の処理を繰り返す。

　ステップＳ２１１では、「ＲＰ_ａｌｌ＿ｍｉｎから一致度が最小となる基準ＦＰを選定」の処理が実行される。この処理では、全基準ＦＰに対して算出したＲＰ_１＿ｍｉｎからＲＰ_ｎ＿ｍｉｎを比較し、対象ＦＰとのリテンション・タイム・出現パターンの一致度が最小となる基準ＦＰを選定する。

　[サブルーチン１]
　ステップS１００１では、「ｘ←Ｒ１、ｙ←Ｒ２」の処理が実行される。この処理では、図８０のＳ２０２とＳ２０６で取得したＲ１及びＲ２をそれぞれｘとｙに代入し、ステップＳ１００２へ移行する。

　ステップＳ１００２では、「ｘ、ｙのデータ数を取得（ａ、ｂ）」の処理が実行される。この処理では、ｘ、ｙのデータ数をそれぞれａ、ｂとして取得し、ステップＳ１００３へ移行する。

　ステップＳ１００３では、ｘのリテンション・タイムを順番に呼び出すためのカウンタの初期値としてｉに１を代入（ｉ←１）し、ステップＳ１００４へ移行する。

　ステップＳ１００４では、「ｘｉ番目のリテンション・タイムからの全距離を取得（ｆ）」の処理が実行される。この処理では、ｘｉ番目のリテンション・タイムとそれ以降の全リテンション・タイム間距離をｆとして取得し、ステップＳ１００５へ移行する。

　ステップＳ１００５では、ｙのリテンション・タイムを順番に呼び出すためのカウンタの初期値としてｊに１を代入（ｊ←１）し、ステップＳ１００６へ移行する。

　ステップＳ１００６では、「ｙｊ番目のリテンション・タイムからの全距離を取得（ｇ）」の処理が実行される。この処理では、ｙｊ番目のリテンション・タイムとそれ以降の全リテンション・タイム間距離をｇとして取得し、ステップＳ１００７へ移行する。

　ステップＳ１００７では「”｜ｆの各リテンション・タイム間距離－ｇの各リテンション・タイム間距離｜＜閾値”の条件を満たしたデータ数を取得（ｍ）」の処理が実行される。この処理では、Ｓ１００４及びＳ１００６で取得したリテンション・タイム間距離ｆとｇを総当りで比較し、”｜ｆの各リテンション・タイム間距離－ｇの各リテンション・タイム間距離｜＜閾値”の条件を満たしたデータ数をｍとして取得し、ステップＳ１００８へ移行する。

　ステップＳ１００８では、「ｆとｇのリテンション・タイム・出現パターンの一致度を算出（ＲＰ_ｆｇ）」の処理が実行される。この処理では、Ｓ１００２で取得したａ、ｂとＳ１００７で取得したｍからＲＰ_ｆｇを、
　ＲＰ_ｆｇ　＝　（１－（ｍ／（ａ＋ｂ－ｍ）））×（ａ－ｍ＋１）
として算出し、ステップＳ１００９へ移行する。

　ステップＳ１００９では、「ＲＰ_ｆｇを保存（ＲＰ＿ａｌｌ）」の処理が実行される。この処理では、Ｓ１００８で算出した一致度をＲＰ＿ａｌｌに保存し、ステップＳ１０１０へ移行する。

　ステップＳ１０１０では、「ｊの更新（ｊ←ｊ＋１）」の処理が実行される。この処理では、ｙの処理を次のリテンション・タイムへ移行するためｊの更新としてｊにｊ＋１を代入し、ステップＳ１０１１へ移行する。

　ステップＳ１０１１では、「ｙの全リテンション・タイムで処理終了？」の判断処理が実行される。この処理では、ｙの全てのリテンション・タイムの処理が終了したか否かが判断される。終了している（ＹＥＳ）場合は、ｙの全リテンション・タイムの処理が終了したと判断し、ステップＳ１０１２へ移行する。終了していない（ＮＯ）場合は、ｙ中に未処理のリテンション・タイムが残っていると判断し、ステップＳ１００６へ移行する。つまり、Ｓ１００６～Ｓ１０１１までの処理はｙの全てのリテンション・タイムが処理されるまで繰り返す。

　ステップＳ１０１２では、「ｉの更新（ｉ←ｉ＋１）」の処理が実行される。この処理では、ｘの処理を次のリテンション・タイムへ移行するためｉの更新としてｉにｉ＋１を代入し、ステップＳ１０１３へ移行する。

　ステップＳ１０１３では、「ｘの全リテンション・タイムで処理終了？」の判断処理が実行される。この処理では、ｘの全てのリテンション・タイムの処理が終了したか否かが判断される。終了している（ＹＥＳ）場合は、ｘの全リテンション・タイムの処理が終了したと判断し、ステップＳ１０１４へ移行する。終了していない（ＮＯ）場合は、ｘ中に未処理のリテンション・タイムが残っていると判断し、ステップＳ１００４へ移行する。つまり、Ｓ１００４～Ｓ１０１３までの処理はｘの全てのリテンション・タイムが処理されるまで繰り返す。

　ステップＳ１０１４では、「ＲＰ＿ａｌｌから最小値を取得（ＲＰ＿ｍｉｎ）」の処理が実行される。この処理では、対象ＦＰと基準ＦＰとのリテンション・タイム・出現パターンの全組み合わせでのＲＰが保存されたＲＰ＿ａｌｌ中の最小値を、ＲＰ＿ｍｉｎとして取得し、そのＲＰ＿ｍｉｎを図１１のＳ２０７に渡し、リテンション・タイム・出現パターンの一致度計算処理を終了する。

　[実施例１の効果]
　本発明の実施例１は、複数のピーク（１９、２１、・・・）、（３９、４１、・・・）が集合した対象ＦＰ１５と基準ＦＰ１７との類似性を評価するＦＰの類似性評価方法であって、対象ＦＰ１５及び基準ＦＰ１７の各ピーク（１９、２１、・・・）、（３９、４１、・・・）を出現距離で図５、図６のようにパターン化するパターン化工程Ｓ１と、パターン化した各パターンを総当たりで比較し、図８のように一致数を求める一致数抽出工程Ｓ２と、求めた一致数を基にTanimoto係数を用いて図９のように一致度を求める一致度判定工程Ｓ３とを備えた。

　このため、対象ＦＰ１５と基準ＦＰ１７との類似性を簡易且つ迅速に評価することができ、対象ＦＰ１５とできるだけＦＰパターンが類似した基準ＦＰで対象ＦＰ１５の各ピークを帰属することが可能となる。この対象ＦＰ１５に類似した基準ＦＰを複数の基準ＦＰから選定することで、より精度の高い帰属を行うことができる。

　一致度判定工程Ｓ３は、Tanimoto係数を、
　「出現距離の一致数／（対象ＦＰピーク数＋基準ＦＰピーク数－出現距離の一致数）」とし、（１－Tanimoto係数）が零に近いことで一致度を求め、（１－Tanimoto係数）に、（対象ＦＰピーク数－出現距離の一致数＋１）の重み付けをし、
　「（１－Tanimoto係数）×（対象ＦＰピーク数－出現距離の一致数＋１」
として一致度を求める。

　このため、重み付けにより対象ＦＰ１５のピーク（１９、２１、・・・）がより多く一致している基準ＦＰを選ぶことができる。

　本発明実施例１の集合データの類似性評価プログラムは、パターン化機能、一致数抽出機能、一致度判定機能の実現により、ＦＰの類似性を評価し、基準ＦＰの選定を簡易かつ迅速に行わせることに寄与できる。

　本発明実施例１のＦＰの類似性評価装置１では、パターン化部３、一致数抽出部５、一致度判定部７により、ＦＰの類似性評価方法を実現することができる。

　図１０は、対象ＦＰのピーク高さ比パターンを示す説明図である。

　本実施例２では、図１０上段の対象ＦＰ１５に対し、下段の図表のように、各セルの値がピーク高さ比で構成された表形式のパターン化としている。

　図１０において、対象ＦＰ１５の各ピーク（１９、２１、２３、２５、２７、２９、３１、３３、３５、３７）の各ピーク高さは、（５、９、２、３０、２、２１、３２、４、４、１１）となっている。

　したがって、ピーク１９及びピーク２１間の高さ比は、（９÷５）＝（１．８）となる。同様に、ピーク１９及びピーク２３間は、（０．４）、ピーク２１及びピーク２３間は、（０．２）などとなる。以下、同様であり、図１０の下段図表の対象ＦＰのピークの高さ比パターンとなる。

　基準ＦＰについても、同様に基準ＦＰのピークの高さ比パターンが得られる。

　したがって、本実施例２において、パターン化工程Ｓ１は、尺度をピークの高さ比としてパターン化する。

　一致数抽出工程Ｓ２は、一致数を高さ比の一致数とし、ピークの高さ比でパターン化した各ピークを総当たりで比較し、設定した範囲内で高さ比が一致した数を算出する。この算出により図８と同様に一致数を得ることができる。

　なお、ピークの高さ比でパターン化する本実施例では、図１０下段図表で示す１行中に、同じような値が複数存在するケースがあり、これらを複数回カウントしないようにしなければならない。

　一致度判定工程Ｓ２は、Tanimoto係数を、「高さ比の一致数／（対象ＦＰピーク数＋基準ＦＰピーク数－高さ比の一致数）」とし、（１－Tanimoto係数）が零に近いことで前記一致度を求めることができる。

　また、（１－Tanimoto係数）に、（対象ＦＰピーク数－高さ比の一致数＋１）の重み付けをし、「（１－Tanimoto係数）×（対象ＦＰピーク数－高さ比の一致数＋１）」とし、重み付けにより対象ＦＰ１５のピーク（１９、２１、・・・）がより多く一致している基準ＦＰを選ぶことができる。

　したがって、本実施例２においても、実施例１と同様の効果を奏することができる。

　［その他］
　本発明実施例は、多成分薬剤として漢方薬の評価について適用したが、その他の多成分物質の評価にも適用することができる。クロマトは、３Ｄクロマトに限らず、ＦＰとしてＵＶスペクトルを除いたピークとそのリテンション・タイムとで構成されたものを用いることもできる。

　本発明の集合データの類似性評価方法は、複数のデータが集合した集合データ相互の一致度を調べる類似性評価方法であって、前記各集合データの各データを選択された尺度でパターン化するパターン化工程と、前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出工程と、前記求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定工程とを備えて、集合データ相互の類似性を評価することに広く適用することができる。集合データとしては、ＦＰに限らず、その他の信号データ等にも適用することができる。

　上記実施例の集合データであるＦＰは、ピーク高さに基づいて作成し、上記手法により類似性を評価したが、ＦＰをピークの面積値で作成するときも同様の手法により評価することができる。

　すなわち、本発明の集合データの類似性評価方法、類似性評価プログラム、及び類似性評価装置において用いるピークについては、上記のようにシグナル強度（高さ）の極大値を意味する場合と、シグナル強度の面積値（ピーク面積）を高さで表現したものを意味する場合の何れも含めることができる。

　この場合、ＦＰをピーク面積で作成するときも、面積値を高さで表現してＦＰを作成するため、ＦＰとしては上記実施例のピーク高さで作成する場合と同様の表現となる。このため、ＦＰをピーク面積で作成したときも、ＦＰをシグナル強度のピーク高さで作成した場合と同様に上記実施例１又は実施例２の処理により類似性を評価することができる。

　したがって、本発明において、パターン化部、パターン化工程、パターン化機能は、各集合データの各データを選択された尺度を、実施例１のピークの出現距離、実施例２のピークの高さ比以外に、ピーク面積の面積比を用いて実施例２と同様に行わせることができる。

１　ＦＰの類似性評価装置（集合データの類似性評価装置）
３　パターン化部
５　一致数抽出部
７　一致度判定部
Ｓ１　パターン化工程
Ｓ２　一致数抽出工程
Ｓ３　一致度判定工程

Claims

　複数のデータが集合した集合データ相互の類似性を評価する集合データの類似性評価方法であって、
　前記各集合データの各データを選択された尺度でパターン化するパターン化工程と、
　前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出工程と、
　前記求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定工程と、
　を備えたことを特徴とする集合データの類似性評価方法。
　請求項１記載の集合データの類似性評価方法であって、
　前記集合データは、ピークとそのリテンション・タイムとからなるＦＰであり、
　前記パターン化工程は、前記尺度をピークの出現距離、高さ比、面積比の何れかとし、対象ＦＰに最も近い基準ＦＰを複数種の基準ＦＰから前記一致度により選定する場合に、
　前記一致数抽出工程は、前記一致数を前記出現距離、高さ比、面積比の何れかの一致数とし、
　前記一致度判定工程は、前記Tanimoto係数を、
　「出現距離、高さ比、面積比の何れかの一致数／（対象ＦＰピーク数＋基準ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数）」
　とし、（１－Tanimoto係数）が零に近いことで前記一致度を求める、
　ことを特徴とする集合データの類似性評価方法。
　請求項２記載の集合データの類似性評価方法であって、
　前記（１－Tanimoto係数）に、（対象ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数＋１）の重み付けをし、
　「（１－Tanimoto係数）×（対象ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数＋１）」
とした、
　ことを特徴とする集合データの類似性評価方法。
　請求項２又は３記載の集合データの類似性評価方法であって、
　前記ＦＰは、多成分物質のクロマトから検出された、
　ことを特徴とする集合データの類似性評価方法。
　請求項４記載の集合データの類似性評価方法であって、
　前記多成分物質は、多成分薬剤である、
　ことを特徴とする集合データの類似性評価方法。
　請求項５記載の集合データの類似性評価方法であって、
　前記多成分薬剤は、生薬、生薬の組合せ、それらの抽出物、漢方薬の何れかである、
　ことを特徴とする集合データの類似性評価方法。
　複数のデータが集合した集合データ相互の類似性を評価する集合データの類似性評価プログラムであって、
　前記各集合データの各データを選択された尺度でパターン化するパターン化機能と、
　前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出機能と、
　前記求めた一致数を基にTanimoto係数を用いて一致度を求める一致度判定機能と、
　をコンピュータに実現させることを特徴とする集合データの類似性評価プログラム。
　請求項７記載の集合データの類似性評価プログラムであって、
　前記集合データは、ピークとそのリテンション・タイムとからなるＦＰであり、
　前記パターン化機能は、前記尺度をピークの出現距離、高さ比、面積比の何れかとし、対象ＦＰに最も近い基準ＦＰを複数種の基準ＦＰから前記一致度により選定する場合に、
　前記一致数抽出機能は、前記一致数を前記出現距離、高さ比、面積比の何れかの一致数とし、
　前記一致度判定機能は、前記Tanimoto係数を、
　「出現距離、高さ比、面積比の何れかの一致数／（対象ＦＰピーク数＋基準ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数）」
　とし、（１－Tanimoto係数）が零に近いことで前記一致度を求める、
　ことを特徴とする集合データの類似性評価プログラム。
　請求項８記載の集合データの類似性評価プログラムであって、
　前記（１－Tanimoto係数）に、（対象ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数＋１）の重み付けをし、
　「（１－Tanimoto係数）×（対象ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数＋１）」
　とした、
　ことを特徴とする集合データの類似性評価プログラム。
　請求項８又は９記載の集合データの類似性評価プログラムであって、
　前記ＦＰは、多成分物質のクロマトから検出された、
　ことを特徴とする集合データの類似性評価プログラム。
　請求項１０記載の集合データの類似性評価プログラムであって、
　前記多成分物質は、多成分薬剤である、
　ことを特徴とする集合データの類似性評価プログラム。
　請求項１１記載の集合データの類似性評価プログラムであって、
　前記多成分薬剤は、生薬、生薬の組合せ、それらの抽出物、漢方薬の何れかである、
　ことを特徴とする集合データの類似性評価プログラム。
　複数のデータが集合した集合データ相互の類似性を評価する類似性評価装置であって、
　前記各集合データの各データを選択された尺度でパターン化するパターン化部と、
　前記パターン化した各データを総当たりで比較し一致数を求める一致数抽出部と、
　前記求めた一致数を基にTanimoto係数により一致度を求める一致度判定部と、
　を備えたことを特徴とする集合データの類似性評価装置。
　請求項１３記載の集合データの類似性評価装置であって、
　前記集合データは、ピークとそのリテンション・タイムとからなるＦＰであり、対象ＦＰに最も近い基準ＦＰを複数種の基準ＦＰから前記一致度により選定する場合に、
　前記パターン化部は、前記尺度をピークの出現距離、高さ比、面積比の何れかとし、
　前記一致数抽出部は、前記一致数を前記出現距離、高さ比、面積比の何れかの一致数とし、
　前記一致度判定部は、前記Tanimoto係数を、
　「出現距離、高さ比、面積比の何れかの一致数／（対象ＦＰピーク数＋基準ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数）」
　とし、（１－Tanimoto係数）が零に近いことで前記一致度を求める、
　ことを特徴とする集合データの類似性評価装置。
　請求項１４記載の集合データの類似性評価装置であって、
　前記（１－Tanimoto係数）に、（対象ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数＋１）の重み付けをし、
　「（１－Tanimoto係数）×（対象ＦＰピーク数－出現距離、高さ比、面積比の何れかの一致数＋１）」
　とした、
　ことを特徴とする集合データの類似性評価装置。
　請求項１４又は１５記載の集合データの類似性評価装置であって、
　前記ＦＰは、多成分物質のクロマトから検出された、
　ことを特徴とする集合データの類似性評価装置。
　請求項１６記載の集合データの類似性評価装置であって、
　前記多成分物質は、多成分薬剤である、
　ことを特徴とする集合データの類似性評価装置。
　請求項１７記載の集合データの類似性評価装置であって、
　前記多成分薬剤は、生薬、生薬の組合せ、それらの抽出物、漢方薬の何れかである、
　ことを特徴とする集合データの類似性評価装置。