WO2001039041A1

WO2001039041A1 - Id symbol unique to structural formula of compound

Info

Publication number: WO2001039041A1
Application number: PCT/JP2000/008078
Authority: WO
Inventors: Tetsuro Toyoda; Akiko Itai
Original assignee: Institute Of Medicinal Molecular Design. Inc.
Priority date: 1999-11-19
Filing date: 2000-11-16
Publication date: 2001-05-31
Also published as: AU1413901A; EP1235159B1; EP1235159A1; EP1235159A4; CA2393321A1; DE60033422D1; DE60033422T2; CN1425159A; ATE354133T1; US20070027900A1

Description

明細書化合物の構造式にユニークな ID記号技術分野

本発明は、化合物の化学構造式に実質的にユニークである固定長または可変長の文字列をその化合物又はその化合物に関連する情報に付する ID記号として生成する方法に関する。背景技術

近年、医薬開発に有用な活性化合物を探す目的で、多数の化合物のスクリ一二ングが行われている。市販されている化合物は現在 1 0 0万種類に及んでいる。製薬企業ではこれらの膨大な数の化合物をライブラリとして管理することが行われている。そこで、膨大な化合物の情報をデータベース化するとともに、デ一夕ベースの中から、ある化学構造と同一又は類似構造の化合物を効率的に検索する有効な方法が必要となってきた。

化合物はそれを構成する原子の種類と原子間の結合状態を示す化学構造式によつて一義的に特定される。一方、印刷や出版の都合上、言葉や文字で化学構造を特定する方法も必要であり、その目的のために化合物命名法が昔から研究されてきた。命名法としては、 I U P A Cの方式とケミカルァブストラク卜の方式が有名である。しかし、そのどちらでもない命名法も依然として用いられている。例えば、新たな化合物の発見者が任意に命名した慣用名も天然化合物等にはよく用いられている。命名規則を厳密に適用するには高度熟練が必要であるが、命名法を利用する通常の有機化学者は命名規則に練達していない。よって適用する者によって異なる名前がつけられているケースが多い。また IUPAC命名規則をコンピュー夕に行わせた場合でも、巨大で複雑な化学構造式では命名できないケースや、命名結果が一意にきまらないというケースもあり問題となっている。結局、 1つの化合物に幾通りもの名前や呼び方が存在する可能性があること、また正確に記述することを目的とする正式命名法では化合物名として固定長の名前が付けられないこと、という理由から上記の命名法はコンビュ一夕による管理に適していない。

そこで、近年では命名法によらず、化学構造式を直接クエリーに用いて検索できる化合物データベースが主流となってきた。コンピュータソフトウヱァを利用し、コンピュータ画面上で化学構造式を描画すると、原子の種類と原子間の結合関係を入力することができる。該化学構造式をクエリ一として検索を行うことができる。そのデ一夕ベースの仕様及び検索法としては、米国M E) L社のI S I S が有名である。この方法は、原子の種類と原子間のつながりを指定することで、それを部分構造に含む化学構造式が検索できるので便利である。しかしながら、この方法は比較用の化学構造式データがデ一夕ベース内に存在しないと比較できないということと、化学構造式を比較する専用のソフトウエアが必要とされる。化学構造式は文字列デ一夕でないため、インデックス検索用ソフトウヱァを利用して化学構造式から検索することはできない。

学術論文で発表された化合物や特許出願された化合物のデ一夕ベースである Chemical Abstract は命名法に基づく化合物デ一夕ベースとして有名である。また、市販化合物のデ一夕べ一スである A C Dは化学構造式に基づく化合物デ一夕ベースとして有名である。後者のデ一夕ベースでは、化合物のデ一夕レコードそれそれに対し 6〜1 0字の英数字からなる識別子（ID記号）が付されている。しかしながら、それらの ID記号は構造と無関係に付されているため、同一構造に異なる ID記号が付されるケースが多い。このため、構造式や命名法による化合物名のように化学構造式が同一かどうかを該 ID記号から確認することはできない。ある化合物が既存のいずれかのデータベース中にあるかどうを検索したり、出所の異なるデータベース間で同じ化合物が含まれているかどうかを検出するような膨大な試行が要求される作業には、化合物の構造式の代わりに照合の対象とできる ID記号があると便利である。そのためには、すべての化合物の構造式に一義的に定まる固有な ID記号を付する方法を開発する必要がある。発明の開示

本発明の課題は、化合物の化学構造式に対して実質的にユニークな固定長又は可変長の文字列からなる ID記号を付する方法を提供することにより、いつでもどこでも同一の化学構造式に同一の ID記号を付する手段を提供することにある。また、別の課題としては化学構造式をクエリ一として直接用いることができるインデックスサーチ方法を提供することにある。本発明者らは上記の課題を解決すベく鋭意努力した結果、化合物の構造式を一意な文字列又は文字列群に変換して表す処理を実行することにより、化学構造式に対して実質的にユニークな ID記号を生成できることを見出した。また、この文字列又は文字列群を変換関数によりさらに短い固定長又は可変長の文字列に変換するという 2つの処理を組み合わせることにより、化学構造式に対して実質的にユニークな IP記号を 30数文字程度の適切な長さの文字列で付与することに成功した。また、上記の性質の ID記号をィンデックスサーチのクエリーとして用いることで、化学構造式を直接クエリーとしてインデックスサーチした場合と同等の検索をすることができることを見いだした。本発明は上記の知見を基にして完成された。

すなわち、本発明は、化合物の化学構造式を構成する各原子の種類及び原子間の結合関係にもとづいて、化学構造式に対して実質的にユニークである固定長又は可変長の文字列を生成し、この文字列を該化合物の ID 記号とする方法を提供するものである。この発明の好ましい態様によれば、化学構造式を構成する各原子の元素番号、及び/又は各原子の種類、ァイソトープの種類、若しくはその原子によって生ずる異性体の種類に応じて各原子に数値を割り振り、これを数列の初項とし、そして該原子群の共有結合関係によって定める演算規則を漸化的に有限回繰り返すことで数列を得、この数列を各項の大小比較により並べなおして得られる該化学構造式に対して実質的にユニークである数列を生成し、この数列をもとに文字列を生成することができる。上記の方法における工程に続き、上記工程によ'り得られた文字列を変換関数を用いてさらに短い固定長又は可変長の文字列に変換する工程を含む方法も本発明により提供される。変換関数として衝突困難ハッシュ関数及び/又は汎用一方向性ハッシュ関数を用いることができ、好ましくは該変換関数として SHA、 SHA 1、 MD-4. D-5 及び RIPEMDなどのメッセージダイジエスト関数から選ばれる少なくとも一つの関数を利用して、固定長の文字列、好ましくはアルファベット及び/ 又はアラビア文字からなる固定長の文字列を生成させることができる。上記方法により得られた文字列又は文字列群には、直接利用されなかった情報に関する 1 又は 2以上の文字列（例えば該 ID記号生成法の種類及び/又は該 ID記号対象物のカテゴリの情報に関する 1又は 2以上の文字列）をさらに付加してもよい。本発明の方法は、好ましくは、下記の要素：

(a)化学構造式を構成する各原子の種類に応じて各原子に数値を割り振る手段；

(b)それらの値を要素とするべクトルを記憶する手段 n；

( c)該原子間の共有結合関係を入力する手段、及び/又はその関係を行列の要素として記憶する記憶手段 c ；

(d) nと cとを利用する演算式によって生成する数列を記憶する手段、その生成装置、及び/又はその生成のための演算手順を記憶する媒体；及び

(e)上記数列を大小比較規則による並べ替えにより、該化学構造式に固有な数列を得、該数列を文字列に変換した結果を記憶する媒体、該変換を行う装置、及び/ 又はその変換方法を記憶する媒体

からなる装置を用いて行うことができる。

別の好ましい態様では、各原子の種類として、化学構造式の各原子の元素番号、ァイソトープの種類、及びその原子によって生ずる異性体の種類に応じて各原子に数値を割り振り、これらの数値を要素として並べたべクトルを記憶する記憶手段 nと、該原子間の共有結合関係を記憶する記憶手段 cと、記憶手段 n及び/又は記憶手段 n- 1の各原子が対応するべクトル要素に該べクトル要素の定数倍及び /又は結合価数倍とその原子が記憶手段 cにより共有結合していると判定される原子が対応するべクトル要素を定数倍及び/又は結合価数倍して加えた値を記憶する記憶手段 n+1 と、これらの演算を漸化的に繰り返すことで得られるすべてのべクトル列の要素を要素ごと又は原子ごとの単位で並べなおした数列を記憶する媒体と、その数列を該化合物の構造式にユニークな文字列として出力する装置とを用いて上記方法を行うことができる。

別の観点からは、上記の方法により得られる化合物の化学構造式にユニークな ID記号、及び該 ID記号を格納した記憶媒体が提供される。この ID記号は化合物の化学構造の同一性又は類似性の判定に用いることができる。例えば 1つの化合物デ—夕ベース内、又は 2つ以上の化合物デ一夕ベース間において同一又は類似の化学構造式に関する情報を抽出するために用いることができ、化合物デ一夕べースの管理に用いることもできる。例えば、化合物データベース又は化合物の情報を含むデータベース中の各ファイルについて上記 ID記号を付加しておき、化学構造式の情報を用いずに ID 記号の比較のみから化合物の情報を検索又は照合することができる。

さらに、本発明により、上記 ID記号を含むファイル、レコード、データォブジェクト、ファイル名、ファイルパス名、レコード名、又は検索キー；上記 ID記号を含む検索クェリーと、該クエリ一を生成する装置；上記 ID記号が含まれているファイル、レコード、データオブジェクト、ファイル名、ファイルパス名、又はレコ一ド名を検索するための装置；上記の装置を動作させる手順を記録した媒体；化合物間の化学構造式の同一性判定に用いる上記 ID記号；化合物の化学構造式の一部又は全部を使用せずに行う化合物間の同一性または類似性の判定に用いる上記 ID記号；上記 ID記号を使用することにより、該化合物の化学構造式を直接比較しなくて済むため、該化学構造式の機密性を保持する方法； 2以上のデ一夕ベースにおいて同一化合物に付する ID 記号を一致させるために行う上記の方法； 2以上のデータベースを同一のクエリーで検索するために使用する上記 ID 記号が提供される。ファイルもレコードも本発明の本質において同質であり、コンピュー夕における情報の記録形式の一態様である。さらに別の観点からは、上記の方法を実装したコンピュータ用プログラムを記憶する記憶媒体が本発明により提供され、上記の方法を実行するための上記装置と、該装置を動作させるためのプラグラムを記録した媒体が本発明により提供される。記憶媒体、記憶装置、記録媒体及び記録装置としてはコンビュ一夕により読みとり可能ないかなる媒体又は装置を用いてもよく、好ましくはメモリ、フラッシュメモリ、フロッピ一ディスク、ハードディスク、 CD-R0M、 DVD, M0 などを用いることができる。図面の簡単な説明

第 1図は、ローカル IDで管理されたレコードを、化合物の構造式に固有の ID をクエリ一に用いて検索できるデータベースシステムの例を示した図である。発明を実施するための最良の形態

本明細書において用いられる用語の意味は以下のとおりである。

「文字」とはアルファベット、アラビア数字、ひらがな、力夕カナ、漢字、ノヽングルなど、世界中で使用されているすべて又は一部の文字記号をコードするデ一夕。「文字列」とは 1個以上の有限個数の文字を順番に並べたデ一夕であり、通常は該デ一夕をコンピュータで読み出すことができる記憶装置に格納して使用する。「文字列」としては英数字やそれを ASCI Iコードでビット列に変換したデ一夕からなるものも包含する。「数列」は 1個以上の有限個数の有理数を順番に並べたデ一夕であり、通常は該デ一夕をコンピュータで読み出すことができる記憶装置に格納して使用する。なお、二進数のビット列で表現可能なデータは 0と 1で表現できるため、文字列又は数列のいずれと解釈しても差し支えない。

記憶装置としてコンビュ一夕のメモリを含む二進数を記憶できる装置を使用するのが好ましく、文字列においては、各一文字をキャラクタ一コード表で 1ないし 4バイト長の二進数に変換して記憶するのが好ましい。キャラクタ一コード表としては ASCI Iコードまたは UNICODEが好ましいが、文字と数列を 1対 1で対応付けているものであればいかなるものを用いてもよい。また文字列中の複数文字群がひとまとまりで 1 0進数や 1 6進数などの数値を表している場合は、その値を二進数に変換して記憶してもよく、あるいはそれらを 1文字ずつキャラクターコード表で 1ないし 1 6バイト長の二進数に変換して記憶してもよい。

数列では、各有理数を 1ないし 8バイト長の二進数に変換して記憶することが好ましい。この際、各有理数の値を二進数に変換して記憶してもよく、あるいはその値を 1 0進数や 1 6進数として複数文字群で表し、文字列と同様の形式で記憶してもよい。文字列および数列を二進数形式で表現したデータを本明細書では「ビット列」あるいは「バイナリデ一夕」と呼ぶことがある。

「化合物の化学構造式」とは、一般に化学者が化合物をユニークに表現する目的で、原子の種類、結合関係、結合の種類、異性体の種類など記述した図形を意味するが、本明細書ではより広い概念として化合物の構造をユニークに特定しうるデータという意味で使用する。「ユニークな ID記号」（本明細書において「固有の ID記号」と呼ぶ場合もある）とは、同じ化合物の ID記号は-致し、構造式が異なる化合物の ID 記号は実質的に一致しない性質を意味している。本明細書では「ユニーク」に替えて「固有」を上記の性質をあらわす意味で使用する場合がある。「実質的に一致しない」とは論理的に一致しないことが証明されている訳ではないが、一致する可能性が非常に小さいため、現実的な使用においてほとんど一致することがないという意味である。

「化合物」は共有結合で互いに結合した原子団であり、有機化合物の他、無機化合物も含む。

本発明の方法では、化合物の化学構造式を一意な文字列で表現するための変換処理を行う。化学構造式を一意な文字列に変換する方法は、同じ化学構造式からは必ず同じ文字列が生成し、かつ異なる化学構造式からは実質的に異なる文字列が生成するものであれば、その種類は特に限定されない。以下、メタノール（C H ₃ O H ) を例にして具体的に説明するが、本発明の方法に利用可能な変換処理は下記のものに限定されることはない。「文字列の生成」

まず、各原子に割り振る数値を記憶する手段を準備する。この記憶手段はレジス夕、メモリ、磁気記憶媒体、又はパンチテープなどのいずれでもかまわないが、コンピュータが利用可能な記憶装置としてメモリが最も好ましい。これら原子にその「原子の種類」に応じて定められた数値を割り振る。割り振る数値としては各原子の元素番号、各原子の種類に応じて任意に定義した数値、又はアイソトープの種類まで区別して異なる数値を割り振ることができる。その原子が光学異性体の元となる不斉中心である場合や幾何異性体のもととなるシス結合やトランス結合に関わる場合は、その原子によって生ずる異性体の種類も区別可能なように定義された数値を割り振ってもよい。好ましくはコンピュータを用いて、化学構造式を表現したデータ又は化学構造式と同等の情報である該化学構造の 3次元デ —夕をファイルシステムなどの入力手段から入力し、各原子に上記の数値を自動的に割り振るとよい（以下の説明では簡略化のために元素番号を割り振つたが.. 変換処理では必ずしも元素番号を割り振る必要はなく、割り振る値を数通り変えて以下の手順を実行してもよい。下図では割り振った値はかつこの中に記してある。また、元素記号の前の数字は各原子を区別できるように便宜的につけた順番である）。数値を初期値として割り振った状態をステップ 1と呼ぶ。化学式（ 1 )

1 H ( 1 )

2H ( 1 ) - 4 C ( 6 ) 50 ( 8 ) - 6 H ( 1 )

3 H ( 1 ) ステップ 1で各原子に割り振られた数値を記憶手段 1に記憶させる。記憶手段 1に記憶されたデータは複数の数値からなり、各数値は各原子に割り振られた数値である。原子の数が M個である場合、これら複数の数値（数値 1 , 数値 2，，，数値 M) をまとめて 1つの M次元ベクトルと見立てることが可能である。本明細書では該デ一夕を「ベクトル」とよび、ベクトル中で各原子に割り振られた数値を「要素」と呼ぶことがある。特にステップ 1で記憶手段 1に記憶されたべクトルを「初項」と呼ぶ。化学式（ 1) の例では、 1H、 2H、 3H、 4C、 50、 6Hの順で数値をならベた初項は、（ 1 , 1， 1 , 6 , 8, 1) であり、これが記憶手段 1 に記憶される。

また、入力手段より入力した化学構造式を表すデータから原子間の共有結合関係を表す情報を、記憶手段 cに記憶させる。記憶手段 cのデ一夕に基づくことで任意の原子についてそれが共有結合している相手原子を判定できるならば、記憶手段 cのデ一夕構造は特に限定されない。好ましくは、任意の 2つの原子ペアが共有結合していれば真、共有結合していなければ偽を返すものとして、原子群を行と列にならべ、 2つの原子組に対応する要素に真なら 1、偽なら 0を格納した行列又は 2次元配列 ( c[l,2,,M][l,2,，，M] ) を電子メモリに格納して使用するとよい。化学式（ 1 )の例では、 5番目の 50と 6番目の 6Hが結合しているので、 c[5][6]=c[6][5]二 1 であり、 4番目の 4Cと 6番目の 6Hは結合していないため、 c[4][6]二 c[6][4]=0となる。

次に記憶手段 1と同等の記憶手段 2を用意し、ステップ 1の各原子の値をもとに以下に説明する演算処理を行った結果として各原子に新たに割り振られる値を記憶手段 2に格納する（これを「ステップ 2」と呼ぶ）。さらに同様の処理を漸化的に繰り返しステップごとに原子に割り振られる値を記憶手段 n ( n=l， 2，，，，，）に記憶させる（このステップを「ステップ nj と呼ぶ）。

まず、ステップ 2での各原子の値を次のように算出する。記憶手段 1の各原子の値を定数倍（好ましくは 1倍）した値を記憶手段 2に記憶させる。引き続き、記憶手段 cにより調べることができる各原子が共有結合する相手原子の個数（ H の相手は 1個， Cなら 4個、 0は 2個）を定数倍（好ましくは 0倍）して記憶手段 1の各原子の値に掛け合わした値を該原子の記憶手段 2における値に加える。引き続き、記憶手段 cにより調べることができる各原子が結合する相手原子群の記憶手段 1における値を定数倍（好ましくは 1倍）して該原子の記憶手段 2における値に加える。好ましい定数倍率で実行したステップ 2における記憶手段 2の各原子の値を下記に記す。化学式（ 2 )

1 H ( 1+6=7)

I

2 H ( 1+6=7) - 4 C (6+1+1+1+8=17) - 50 (8+6+1=15) - 6 H ( 1+8=9)

I

3H (1+6=7) 同様に、ステップ nでの各原子の値を次のように算出する。記憶手段 k (ただし、 kは 1 ≤ k ≤ nを満たす整数から任意に選んだ n個以下の整数群であり、好ましくは k = nの 1整数のみを用いる）の各原子の値を定数倍（好ましくは 1 倍）した値を記憶手段 n+1に記憶させる。引き続き、記憶手段 cにより調べることができる各原子が共有結合する相手原子の個数を定数倍（好ましくは n = 1の場合は 0倍であり、 n > 1の場合に - 1倍）して記憶手段ただし、 kは 1≤ k≤ nを満たす整数から選んだ n-1個以下の整数群であり、好ましくは n > 1の場合のみに k = n- 1の 1整数のみを用いる）の各原子の値に掛け合わした値を該原子の記憶手段 n+1における値に加える。引き続き、記憶手段 cにより調べることができる各原子が結合する相手原子群の記憶手段 k (ただし、 kは 1 ≤ k≤ nを満たす整数から任意に選んだ n個以下の整数群であり、好ましくは k = nの 1整数だけ）における値を定数倍（好ましくは 1倍）して該原子の記憶手段 n+1における値に加える。

ステップ数は任意の有限回数繰り返してよい（好ましくは 10程度）。これにより各ステップに対応したべクトル列が生成される。コンピュータで処理する場合は、上記の演算規則を漸化式としてプログラムすることから、ここではこれを漸化式とよぶ。該漸化式は記憶手段 Cに記憶された原子間の共有結合関係情報に基づいて定義されている。ここでの説明ではわかりやすくするためにステップ 2までの実行結果について説明するが、本発明の実施においてはステップ数は特に制限されない。ステップ 1と 2におけるべクトルは上記の化学式に示した通りであり、記憶手段 1のべクトルは（ 1 , 1 , 1， 6， 8, 1) であり、記憶手段 2のベクトルは（7， 7， 7 , 17, 1 5， 9) である。ちなみに、原子ごとにべクトルの要素を並べると下記のようになる化学式（ 3 )

1H (1， 7)

I

2H (1, 7) - 4C (6, 17) - 50 (8, 15) - 6H (1, 9)

I

3H (1， 7) 次に大小比較規則によりこれらの要素を並べ替えて数列を生成する。例えば、各要素の値を小さい順にならベた例では「1， 1， 1, 1, 7, 7, 7, 9， 15, 17」という数列が「化学構造式に実質的にユニークな数列」として生成される。また、別の大小比較規則として、原子ごとにまとめて比較した順に並べることも可能であり、例えば原子ごとの要素列をまず記憶手段 1における値で比較し、小さい順にならベることができる。もし、記憶手段 1における値が等しい場合は、記憶手段 2における値を比較することで次のような順になる。（1， 7), (1, 7), (1, 7), (1， 9), (6， 17)，（8， 15)— 1， 7, 1, 7， 1， 7, 1, 9, 6, 17, 8， 15。そしてこの数列をキャラクタコードあるいは数値として 2進数化し、数列の順番に並べることでビット列からなる文字列を生成することができる。

この方法では、ステップ数が増すほど文字列全体は長くなり、かつ構造の特徴が強調される。本発明の目的に何ステップまで行えばよいかは、数万の市販化合物に対してステップ数を変えて文字列を生成し、文字列が衝突する（異なる構造式から同じ文字列が生成する）頻度を比較することにより、最小限必要なステツプ数を推定することができる。この方法を用いて実際のデータを処理し、文字列の衝突について検討を行ったところ、ステップ数を多く計算して文字列を長くすればする程、構造が異なる化合物間での文字列の衝突は防げることが確認された。

ACD (約 25万の市販化合物のデータベース）を用いて、全化合物に対して本方法で数列を生成して文字列の衝突を調べたところ、ステップ 6まで計算を行うと衝突はほとんど起こらなかった。安全を期してステップ数を 1 0程度までとれば、現実的な化合物に関しては十分である。

このように生成された文字列は化学構造式に対して実質的にユニークである可変長の文字列である。これを以下では「構造文字列」と呼ぶ。構造文字列は上記のような数列から生成され（このような数列を「構造数列」と呼ぶ場合がある）、化学構造と実質的に 1対 1に対応しているので、化学構造の-一致や類似の判定に利用することができ、 ID記号として用いることもできる。また数列中の各値をァラビア文字などで文字列として表し、それら文字列を任意の区切り文字またはヌル文字をはさんで連結し、全体として一つの文字列にまとめたものを利用してもよい。

以上の説明では各原子に元素番号を初期数値として割り振つたが、元素番号でなくとも任意の数値を与えて行ってもよく、何通りかに初期数値の割り振り方を変えた条件で上記のアルゴリズムを最終ステップまで実行し、数字列に並べる際にそれぞれの初期数値で得られた数字列をまとめて並べてもよい。構造中で局所的な特徴をもつ原子については、その原子の初期数値を変えることで対処できる。例えば、幾何異性、立体異性などの違いに関わる原子の初期値を異性体それそれで変えることで構造文字列の違いに反映させることができる。

化合物の構造式から直接に導かれる構造文字列はさまざまな長さになるが、化合物の構造式に固有で、かつ構造式のみの情報から生成されるので、得られた文字列が適切な長さの範囲内であれば、構造文字列自身を ID記号として化学構造式の同一性又は類似性の判定に用いても差し支えない。さらに短い文字列を ID記号として用いる場合には、変換関数による処理を行うことが望ましい。変換関数を用いることにより、上記で得られる長さの異なる構造文字列から固定長の ID記号である文字列を導くこともできるので、この工程を含む方法は本発明の好ましい態様である。

例えば、以下に説明するように構造文字列をビット列に変換して記憶手段 bに保持し、 2 0バイト程度の短い固定長のビット列に変換するアルゴリズムを記憶手段 bに適用して、変換されたビット列を記憶手段 dに記憶することができる。これを文字列に変換して出力手段から文字列である ID 記号として出力することができる。ここで、記憶手段 bおよび dとしては二進数を記憶できる任意の装置を用いることができるが、好ましくは電算機のレジス夕またはメモリを使用することができる。以下の説明ではわかりやすくするために構造文字列について適応した例で説明するが、構造数列にも同様に適応できる。

変換関数での処理により生成される ID記号としての文字列は、構造文字列に固有であり、次のような 1対 1写像関数としての条件を実質的に満たしている必要がある。

同一の構造文字列からは同一の ID記号が生成されること。

異なる構造文字列からは異なる ID記号が生成されること。

ID記号は固定長又は可変長（好ましくは固定長）の短い文字列であること。

生成方法が容易であること。

本発明の方法において好適に用いられる変換関数として、ハッシュ関数、より好ましくは衝突困難ハッシュ関数及び汎用一方向性ハ、ンシュ関数を挙げることができる。もっとも、本発明の方法に用いる変換関数としては、衝突困難性、好ましくは衝突困難性及び一方向性が数学的に厳密に証明されている必要はなく、実際上、上記の特徴を満足する変換結果を与える関数であればいかなるものを用いてもよい。讽用一方向性ノヽッシュ関数 (universal one-way hash function )¾ Naorと Yung により導入された関数であり、関数 hとその定義域のある値 Xが与えられた場合に h(x)=h(y)となるような yを求めることが難しいような関数のことである。一方、衝突困難ハッシュ関数（col l ision intractable hash function)は Damgard により導入された関数であり、関数 hが与えられた場合に、 h(x)=h(y)となるような一対の値（x， y) を求めることが難しいような関数のことである。

関数に対する要求条件としては、衝突困難ハッシュ関数の方が汎用一方向性関数よりも強い（ハッシュ関数について、総説として、岡本龍明、山本博資著：『シリーズ / 情報科学の数学現代暗号』産業図書；岡本栄司著：『暗号理論入門』共立出版株式会社などを参照のこと）。本明細書において、ハッシュ関数、特に衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数は最も広義に解釈する必要があり、いかなる意味においても限定的に解釈してはならない。本発明の方法には、衝突困難ハッシュ関数又は汎用一方向性ハッシュ関数に分類される関数はいずれも使用可能である。

また、衝突困難性をもつことを目標としつつ、実用的な効率性を重視して開発された多くのハッシュ関数が提案されており、 Rivestによる MD- 4， MD-5やそれらに基づく RIPEMD, SHA( secure hash algorithm)などが広く使用されている (Menezes, A. J. , van Oorschot, P. and Vanstone, S. A.： Handbook of Applied Cryptography, CRC Press, 1996 )ので、このような関数を本発明の方法に用いてもよい。 2種以上の異なる変換関数、例えば 2種以上の衝突困難ハッシュ関数、 2種以上の汎用一方向性ハッシュ関数を組み合わせて用いてもよい。また、例えば 1種又は 2種以上の衝突困難ハッシュ関数と 1種又は 2種以上の汎用一方向性ハッシュ関数とを適宜組み合わせて処理することも可能である。本発明の方法には SHA又は SHA- 1を単独で用いることが特に好ましいが、使用する関数及びそれらの組み合わせは、生成する ID記号の衝突可能性を十分に下げるように、当業者が適宜選択可能である。本明細書では、これらの関数をメッセージダイジェスト関数とよぶ場合もある。以下に、本発明の方法に特に好適に使用可能な変換関数として SHAのアルゴリズムを紹介するが、本発明の方法に利用可能な変換関数は SHAに限定されることはない。なお、この例では、ハッシュ関数の処理により生成するハッシュ値である文字列は、英字の小文字と数字の組み合わせにより表現されているが、文字は英字の小文字に限定されることはない。本発明の方法に用いる文字は大文字又は小文字のいずれでもよく、大文字と小文字を区別せずに用いるか、あるいはそれらを区別して用いてもよい。また、より衝突困難性が高く、高速なハッシュ法を SHAの代用として本方法を実施してもよい。例えば SHAの改良型である SHA1を使用しても良い。

ネ入力データ

2 ^{6 4}ビット未満の任意長のビット配列「m」（各化合物の構造文字列デ一夕をビット配列「m」に変換する方法は後述）。

*出力データ

「m」に対して 1 6 0ビヅ卜のハッシュ値を生成する。

入力されたビット列「m」が 512ビット（16 x 32ビット）の倍数になるようにパディングを以下の手順で行う。

手順 1 ) m のビット配列長が ' 512N— 64' となるように、「m」の最後にビット配列 100···0を付加する。

手順 2 )入力配列のビット配列長を 64ビットで表現し、さらにビット配列の後ろに付加する。

得られたビット配列を 512 ビヅトずつ Ν個に分割し、それそれ M_{l 5} Μ₂ Μ_Νとする。

ビット補正後の配列を各 512ビットのブロックに分割

Mi

上記のビット配列に対し、以下の定数と関数を使用して、以下に述べる手順によりハッシュ値を計算する。定数）以下の定数値は 16進数で表現されている

H0 = 67452301

HI = EFCDAB89

H2 = 98BADCFE

H3 = 10325476

H4 = C3D2E1F0

Kt = 5A827999 (0≤t≤19)

Kt = 6ED9EBA1 (20≤t≤39)

Kt = 8F1BBCDC (40≤t≤59)

Kt = CA62C1D6 (60≤t≤79)

関数）

ή(χ, y, z) = (xAy) V ( Λζ) (0≤t≤19)

ft(x, y, z) = χ τ y & z (20≤t≤39)

/H x， y， z ) = ( xAy) V (χΛζ) V (yAz) ( 40≤t≤59 )

ft(x, y, z) = x&y&z (60≤t≤79)

注） Λ：論理積（AND)

V：論理和（OR)

Φ：排他的論理和（XOR)

*処理

i = 0から Nまで以下の手順を繰り返す。

を 32ビットずつ 16ブロックに分割し、左から Wi, … , ₅とおく。

(2) W_t = ( Wt-s®

«< 1 (ただし SHA-1の場合のみ）

により …， W₇₉ (各 32ビット）を定める。

参考 4) X«< nは、 Xに対して左に nビット巡回シフトすることを意味する。

巡回シフ卜：ビッ卜の数字配列を一定方向に移動し、端の数字は巡回

(3) A= HO, B = HI, C = H2, D = H3, E = H4 (各 32ビット）を設定する _c

(4) t = 0 から 79 まで以下の手順を繰り返す。

参考 5) ' + ' は左右の加算値の '2³²' による剰余を示す。

TEMP = (Α«<5) + ίέ(Β,0,Ό) + Ε+ W_t+ Kt

E = D

D = C

C = B «< 30

B=A

A = TEMP

(5) HO = H0+A,H1 = H1 + B, H2 = H2 + C, H3 = H3 + D， H4 = U4十 E 最終的に得られた H 0〜 H 4のビット配列を連結した計 160ビットをハッシュ値とする。

構造文字列をビット列に変換する方法を次に説明する。 ASCII コードにより、文字列の順に各文字を 8ビットに変換して並べたビット列を作成する。本明細書の実施例ではこの方法を使用しているが、文字コードをビット列に変換する際、 ASCIIコード以外の変換コードを使用してもよい。なお、ビット列とは 1 ビットの情報を並べたものである。 1ビットは 2進数の 1桁に対応し 0または 1で表現される。 ASCIIコードを用いた場合、 2⁶⁴ビット未満という SHAの条件は文字数にして約 2 10¹⁸未満ということになり、かなり高いステップ数の構造文字列も表現できる。

上記のハッシュ関数によって得られた 160ビット列を IDとして利用するには、このビット列を英数字で表現できるよう、必要なビット数に分割すればよい。 160 ビットを 5ビッ卜ずつに分解し、各 5ビットを 0, 1， 2, 3, 4, 5， 6, 7, 8, 9, a, b， c， d， e, f, g, h, i, j, k, 1， m, n, o， p, q, r, s， t， u, vの 32文字を用いた 32進数で表現する。

次の 160ビット列を 5ビット毎に分割し、それそれを対応する 32進数文字に変換すると、

10000110111101111110010000110111 - 10111000 10000 11011 11011 11110 01000 … g r r u 8

のように変換され、次のような I Dが得られる。

"grru8dvqkmjvpoat3nebjqnat8rncpto'^: 本発明の方法により生成される ID記号には、対応するデ一夕の種類を表わす情報（例えば、 ID記号が化合物を示すことを示す情報）や ID記号の作成方法の種類を表わす情報（例えば、利用したハッシュ関数の種類などを表わす情報）などを付加するため、さらに固定長の 1又は 2以上の文字列、好ましくは英数字からなる文字列を付加して新たな ID記号としてもよい。付加する文字列はハッシュ関数を適用して得られた文字列の先頭又は末尾など、いかなる部分に配置してもよい。好ましくはハッシュ値として得られる文字列の先頭に 1の文字列を付加するのがよい。

本発明の ID記号は、化合物データ（化学構造式デ一夕を含む）の管理や照合に用いることができる。上記 ID記号は各化合物に固有であり、しかも衝突の可能性が極めて低いため、複数の化合物を本発明の方法で処理して ID記号を生成させ、その ID 記号を比較することによって化合物の同一性を簡便かつ高速に判定することができる。例えば、上記 ID記号を用いて、特定の化合物と同一の化学構造式を化合物データベースから高速に検索することができる。また、上記の ID記号を使用して、化合物データベースを管理することができる。例えば、データベース中の化合物について上記の ID記号を生成し、化合物データベース中に重複して含まれる化合物を検出することができ、あるいは異なる化合物データベース間で重複して登録されている化合物を簡便かつ高速に検出することが可能になる。また、新しい化合物情報をデータベースに登録する際に、すでにその化合物が登録されているものであるかどうかを簡便に検索することが可能になる。さらに、化合物比較のために ID記号のみを公開し、化合物デー夕そのものは公開しないことで化合物データの機密性を守ることも可能である。

本発明の方法は、基本的に同一の化学構造式を検索 ·照合する目的に便利であるが、誘導体など類似の化学構造式を検出して分類などの用途にも利用できる。また、以下のようにすれば、類似の構造式の化合物を検出する目的にも利用できる。ある化学構造式について、構造式そのものの ID記号の他、置換基を除いた構造（ 1つに限らない）について ID記号を作成して、いっしょに保存しておくのがよい。例えば、塩化化合物の C1を Hに置換して生成した ID記号と臭化化合物の Br を Hに置換して生成した ID記号が一致すれば、類縁の化合物であることが機械的に判定でき、さらに複雑な構造式の化合物群でも同様に操作できる。 ID記号の数に制限はなく、元の構造式に対するものから順に保存すればよい。データべース中の化合物全部についても同様に複数の ID 記号を発生させて保存しておけば、異なる出処のデ一夕ベース間で、ある誘導体系列の化合物があるかどうか、ある特定の化合物について化合物データベース中にその誘導体があるかどうかなどを高速に調べることができる。このような態様もすベて本発明の範囲に包含されることを理解すべきである。実施例

以下、実施例により本発明をさらに具体的に説明するが、本発明の範囲は下記の実施例に限定されることはない。

例 1

組成式がともに C2H601であるエタノールとジメチルエーテルに、上記方法を適用した（文中で「好ましい」と記した方法をここでは採用した）。エタノール

ステップ 1)

H (1) H (1)

I I

H (1) - C (6) - C (6) - 0 (8) - H (1)

H (1) H (1)

ステップ 2 )

H (1， 7) H (1, 7)

I I

H (1， 7) 一 C (6, 15) ― C (6， 22) 一 0 (8, 15) 一 H (1， 9)

I I

H (1， 7) H (1， 7)

構造数列：

1,7,1,7,1,7,1,7,1,7,1,9,6,15,6,22,8,15

構造文字列：

"1 7 1 7 1 7 1 7 1 7 1 9 6 15 6 22 8 15"

ID： cb6mv472bodkdaelhsgvrda77dlvlhgr ジメチルエーテル

ステップ 1 )

H (1) H (1)

H (1) - C (6) - 0 (8) - C (6) - H (1)

H (1) H (1) ステップ 2 )

H (1， 7) H (1， 7)

H (1, 7) - C (6， 17) 一 0 (8， 20) 一 C (6, 17) 一 H (1, 7)

H (1, 7) H (1， 7) 構造数列：

1,7,1,7,1,7,1,7,1,7,1,7,6,17,6,17,8,20

構造文字列：

"1 7 1 7 1 7 1 7 1 7 1 7 6 17 6 17 8 20"

ID： 9o7fkpmigj73svgq6gqist2sjuillshn

このように、エタノールとジメチルェ一テルでは異なる構造数列、構造文字列、 IDが得られた。例 2

化合物の構造式に固有の IDをクエリーに用いてレコードを検索できるデータべースシステムの構築例を図 1に示す。

データベースシステム内ではレコードに対して IDをつけて内部で管理している。レコードの ID (図 1中、 RecordIDl， RecordID2等はこのデータベースシステムの内部でローカルに用いられているため、ここではローカル IDと呼ぶ。データべースシステム内には、化合物の構造式に固有の IDとローカル IDの対応テーブルがあり、この対応づけはデータベースシステムの管理者により、変更、追加、削除可能になっている。また、データべ一スシステム内にはレコードを口一カル IDで管理する口一カルデータベースが存在し、ローカル IDによりレコードを検索することが可能である。レコード検索装置と ID間の対応テーブルとローカルデータべ —スは物理的に互いに離れた場所に存在してもよく、その間の通信はィンタ一ネットゃイントラネットを経由して行われてもよい。また、 ID間の対応テーブルの管理者と口一カルデータベースの管理者は異なつていてもよい。 ID間の対応テーブルは固有 IDから、それに対応づけられたローカル IDを検索できれば、いかなる手段をもちいてもよい。固有 IDとローカル IDの対応は多対多であってもよい。

検索時の処理手順は以下のようになつている。データベースシステムの外部にいる検索者が、化合物の構造式に固有の IDを 1 つ以上含む検索クエリ一を該デ一タベースシステムのレコード検索装置に送る (図 1①）。レコード検索装置は該固有 IDに対応づけられたローカル IDを ID間の対応テーブルから検索する（図 1②)。次に該ローカル IDを使ってレコ一ド検索装置は口一カルデータべ一スから該ローカル IDがついたレコ一ドを検索する（図 1③）。最後にレコード検索装置は該レコ一ドを検索者に送り返す。

別の方法としては、リレーショナルデータベースのビュー作成機能を用いて、 ID 間の対応テ一ブルとローカルデータベースのテ一ブルを予め融合しておけば、 ② と③の検索を一括して行うことも可能である。

この例では、検索者は化合物の構造式に固有の IDのみからデータベース検索でき、しかも、検索する時点で「ID間の対応テーブル」により対応づけられているローカル IDのレコ一ドを検索することができる。データべ一スシステム管理者はローカルデータベース内のレコードを変更、追加、削除した際に、固有 IDとロー力ル IDの対応を適切なものに変更することで、検索者が要求する化合物の構造式に対し、常に適切なレコードを送り返すように設定できる。また、レコードの変更ゃ削除により、固有 IDが対応するレコ一ドが口一カルデータベース内に存在しなくなった場合は、レコードの代わりにそれについての訂正情報を検索者に対し送り返すように設定できる。また、検索者はィンターネットゃィントラネットを経由して図 1に示したデータベースシステムの複数に対し同じ固有の IDをクエリ一として同時に送ることで、同時に複数のデータベース検索をすることも可能である。また、本システムのレコードとして固有 IDを含むファイルに限定すれば、市販のインデックスサーチ用プログラムを使用すると便利である。この場合、ィンデックスサーチ用プログラムがファイル内の固有 IDをキ一ヮ一ドとして自動認識し、該 IDと該ファイルのパスの対応づけ（ID間の対応テーブルに相当）を自動的に作成してくれる。このためィンデックスサーチ用プログラムに固有 IDをクェリーとして送ることで、該固有 IDを含むファィルを検索することができる。産業上の利用可能性

本方法の方法によれば、いかなる構造の化合物に対しても、固定長又は可変長で衝突確率が極めて低い文字列又は文字列群として、その化合物の化学構造式にユニークな ID記号を生成することができる。この ID記号は化合物の化学構造式から極めて高速かつ簡便に生成することができ、しかも ID記号は各有機化合物の化学構造式に固有であり、実際上衝突の可能性がほとんどないため、 ID記号のみを比較することにより化学構造の同一性又は類似性を容易に判定することができる。エントリ一に重複のないようデータベースの管理に利用でき、異なるサイトで作られる化合物デー夕ベースが一元的に利用できるようになるほか、ある化合物またはその誘導体が化合物データベースにあるか否かなどを高速に調べることができる。

また、本発明の ID記号は化学構造自身からソフトウエアによって生成されるので、該ソフトウエアを配布しておけば、世界中どこでも同じ構造には同じ ID記号が与えら、化学構造式の代わりにデ一夕ベース検索や照合に用いることができる。化学構造式自身をクエリーとしてデータベースを検索する必要がなくなるため、通信時や検索時等に機密が外部に漏れることも防げる。また、デ一夕べ一ス管理者がデータベース中の全化合物に付加しておくことで、重複を避けたり、作成元の異なるデ一夕べ一ス間のリンクに用いることができる。さらに、研究者が合成したり、これから合成しょうとする化合物の化学構造式についても、同じソフトウェアにより容易に ID記号を与えることができ、データベース検索や構造の照合をすることができる。

Claims

請求の範囲

1 . 化学構造式を構成する各原子の種類及び該原子間の結合関係に基づいて、該化学構造式に対して実質的にユニークである固定長又は可変長の文字列を生成し、この文字列を該化学構造式及び/又は該化学構造式で特定される化合物の ID 記号とする方法。

2 . 次の手順により文字列を生成する請求の範囲第 1項に記載の方法

( 1 )化学構造式を構成する各原子の元素の種類に対して定められた数値を各要素とするべクトルを初項とする、

(2 )該化学構造式中の原子間の共有結合関係にもとづいて漸化式を定義する、

( 3 )該初項と該漸化式に基づき有限個のべクトル列を生成する、

(4)全ぺクトル内の全要素を大小比較規則により並べ直すことで、同一の化学構造式からは必ず同一数列となる「化学構造式に実質的にユニークな数列」を生成する、

( 5 )該数列の順番で該数列の各項を変換し文字列を生成する。

3 . 化学構造式を構成する各原子の元素の種類及び該原子によって生ずる異性体の種類に対して定められた数値を各要素とするべクトルを初項とする請求の範囲第 2項に記載の方法。

4 . 請求の範囲第 1項から第 3項のいずれか 1項に記載の方法で得られる文字列を、実質的に 1対 1写像関数である変換関数により固定長の文字列に変換し、これを ID記号とする方法。

5 . 実質的に 1対 1写像関数である変換関数として衝突困難ハッシュ関数及び/ 又は汎用一方向性ハッシュ関数を用いる請求の範囲第 4項に記載の方法。

6 . 実質的に 1対 1写像関数である変換関数としてメッセージダイジェスト関数を用いる請求の範囲第 4項又は第 5項に記載の方法。

7 . 該 ID記号生成法の種類及び/又は該 ID記号対象物のカテゴリの情報に関する 1又は 2以上の文字列をさらに付加する工程を含む請求の範囲第 1項ないし 6 のいずれか 1項に記載の方法。

8 .複数の化学構造式間の同一性判定を ID記号のみの比較で行うために用いる請求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法。

9 .請求の範囲第 5項又は第 6項に記載の ID記号を使用することにより、該化合物の化学構造式の機密性を保持する請求の範囲第 8項に記載の方法。

1 0 . 請求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法により生成した ID記号を記録した媒体及び/又は該 ID記号を含むファイルを記録した媒体。

1 1 . 2以上のデ一夕ベースにおいて同一化学構造式に付する ID記号を一致させるために用いる、請求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法。

1 2 . 化学構造式及び/又は化学構造式で特定される化合物に関連する情報を記録したファイルと、該化学構造式の ID記号とを対応づけたデータを記録した媒体。

1 3 .請求の範囲第 1 2項に記載の対応付けデータに基づき ID記号から対応づけられたファイルを検索する装置。

1 4 . 化学構造式又はこれと同等のデータから、請求の範囲第 1項ないし第 7項のいずれか 1項に記載の方法により該化学構造式の ID 記号を生成するプログラムを記録した媒体、及び/又は該プログラムをネットワーク経由で送信可能なサーバ装置。