WO2001046858A1

WO2001046858A1 - Creation d'un indice vectoriel, recherche de vecteurs similaires et dispositifs correspondants

Info

Publication number: WO2001046858A1
Application number: PCT/JP2000/009079
Authority: WO
Inventors: Yuji Kanno
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 1999-12-21
Filing date: 2000-12-21
Publication date: 2001-06-28
Also published as: US7007019B2; AU2399301A; US20020178158A1; EP1204032A1; EP1204032A4

Description

明細書

べクトル索引作成方法と類似べクトル検索方法およびそれらのための装

技術分野

本発明は、テキスト情報、画像情報、音声情報、アンケート結果、売り上げ（P O S ) データなど、電子化されて蓄積された各種のデータべース（データの集合）中の各データの特徴抽出を行って作成したべクトルデ一夕（当該データの特徴を表す実数を N個並べた、通常「特徴べクトル」と呼ばれる N次元実ベクトルと、その識別番号などとの組）の集合であるべクトルデータベースに対して、計算機を利用してべクトルデ一夕の検索、分類、傾向分析などを行うための索引の作成方法およびその装置と、指定したベクトルに類似のベクトルを、上記の方法および装置により作成された索引を用いて効率よく検索する、類似べクトル検索方法およびその装置に関する。

S -景技術

近年、テキスト、画像、音声などのマルチメディア情報のデータべ一ス化や、 P O Sシステムなどの普及に伴い、マルチメディアデータべ一スシステムゃデー夕マイニングシステムなどのコンピュータシステムにおいて、数 -〜数百次元のべクトルデータを数十万個〜数百万個集めたベクトルデータベースの検索、分類、傾向分析などを効率よく実行するための技術の研究開発が盛んになつている。

例えば新聞記事データベースの場合には、多数の新聞記事データを蓄積したデータベースに対し、 W語の単語を集めた辞書を使って各新聞記事から辞書中の各単語 kの出現回数 f _kを抽出し、各新聞記事を、識別番号 iと、 W次元の実ベクトル（ f い f _{2 >} · · · ， f _w) の組で表現する。主成分分析手法などによってこのベクトルを変換し、各ベクトルの主要な N個（N《W) の成分を求めて、これをベクトルデ一夕とする。指定した新聞記事に対応するべクトルデータと、データベース中の他の新聞記事に対応するベクトルとの内積を計算し、内積の最も大きいべクトルを持つ新聞記事を求めることで、高精度な類似記事検索が可能になる。米国特許第 4 8 3 9 8 5 3号には、このような、べクトルデータを用いた文書検索方法が開示されている。

また、写真データベースの場合には、多数の写真画像のデータを蓄積したデータベースに対し、各写真データに対して 2次元のフーリエ変換を施し、主要な N個のフーリエ成分を f _kを抽出し、各写真データを、写真番号 i と、 N次元の実べクトル（ f い f ₂ , · · ·， f _w) の組で表現し、これをベクトルデータとする。指定した写真に対応するべクトルデータと、データベース中の他の写真データに対応するべクトルとの距離（2つのベクトルの差の大きさ）を計算し、距離の最も小さいべクトルを持つ写真データを求めることで、高精度な類似写真検索が可能になる。さらに、例えば「ポートレート」，「風景写真」，「花の接写」といった、異なるカテゴリーに属する典型的な写真データをそれぞれ数枚ずつ、分類条件として提示し、各カテゴリーの平均的な特徴ベクトルを算出、各写真データのベクトルに対して最も距離の小さい特徴べクトルのカテゴリーを割り当てることで、残りの写真データを上記の 3種類のカテゴリ一に自動的に分類することが可能になる。

このような用途には、数 ^〜数百次元という、極めて高次元のべクトルの効率のよい類似検索手法が必要となるため、各種の方法が研究されている。例えば、 Norio Katayama and Shinichi Satoh, "The SR - t ree : An Index St ruc ture for High-Diment ional Neares t Ne ighbor Quer ies , Proceedings of the SIGMOD ， 97, ACM (1997) には、 S R (多次元探索) 木を用いた高次元べクトルの索引作成方法および類似検索方法が開示されてレる。また、 Sergey Brin, Near Neighbor Search in Large Metric Spaces ， Proceedings of the VLDB 95, Morgan-Kaufman Publishers (1995) には、ポロノィ分割に基づいた高次元べクトルの索引作成方法および類似検索方法が開示されている。さらに、 Stefan Berchtold, Christian Bohm and Hans Kriegel, The Pyramid - Technique : Towards Breaking the Curse of Diment ionar i ty" , Proceedings of the SIGMOD ' 98， ACM (1998) には、「ピラミッド技法」というデータ分割手法に基づいた高次元べクトルの索引作成方法および類似検索方法が開示されている。

しかしながら、これらの従来のべクトル索引作成方法および類似べクトル検索方法は、以下の 4種の条件のいずれかが満たされず、広範囲の用途に広く適用できない、という課題があった。

1 ) ベクトルの次元が数百次元の場合でも、高速な検索ができる。

2) 類似検索の際に、ベクトル間の距離と、ベクトルの内積の 2種類の類似度のいずれかを選択できる。

3) 「もっとも類似している L個のベクトルを求める」という型の類似検索ができる。さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならない。

4) 「内積が 0. 6以上」といった、類似検索範囲の指定ができる。

5) 索引作成に要する計算量が実用的範囲である（即ち、ベクトルデー夕量 nに比例した時間、あるいは n * 1 o g (n) 時間で索引が作成できる）。

具体的には、 S R木を用いた方法では上記 1) 、 2) が満たされず、ポロノィ分割に基づいた方法では 2) 、 5) が満たされず、ピラミッド技法を用いた方法では、 2 ) 、 3 ) が満たされない。

本発明のべクトル索引作成方法および類似べクトル検索方法およびその装置は、これらの従来の技術の持つ課題を解決するもので、高次元のベクトルを、複数個の部分ベクトルに分解し、各部分ベクトルの方向と大きさを、中心ベクトルで規定した所属領域番号と、中心ベクトルとのなす角（偏角）と、ノルムを表すノルム区分との組で表現して記録することで、どのような質問ベクトルに対しても、ベクトル索引の検索対象範囲を精度よく限定することができ、部分内積の下限値（部分二乗距離の上限値）と、実際の部分内積（部分二乗距離）との差を累算することで、分岐限定技法による効率的な検索結果の確定ができるため、上記の 1 ) 〜4 ) をすベて満足した、広範囲の用途に適用可能なベクトル索引作成方法および類似べクトル検索方法を提供するものである。

上記課題を解決するために、本発明の第 1の様態によるべクトル索引作成方法および装置は、部分ベクトルを算定する手段と、ノルム分布を集計してノルム区分表を作成する手段と、領域番号を算定する手段と、偏角分布を集計して偏角区分表を作成する手段と、ノルム区分番号を算定する手段と、偏角区分番号を算定する手段と、索引データを算定する手段と、索引を構成する手段とを有することにより、方向、ノルムの分布が不明なべクトルデータベースに対して、べクトルの次元が数百次元の場合でも、高速な検索が可能で、類似検索の際に、ベクトル間の距離と、ベクトルの内積の 2種類の類似度のいずれかを選択でき、「もっとも類似している L個のべクトルを求める」という型の類似検索ができ、さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならず、「内積が 0 . 6以上」といった、類似検索範囲の指定が可能で、索引作成に要する計算量が実用的範囲であるような、ベクトル索引の作成を可能にする、という効果を奏するものである。また、本発明の第 2の様態によるべクトル索引作成方法および装置は、第 1の様態に加えて、成分区分番号を算定する手段をさらに有することにより、第 1の様態による効果に加えて、成分の量子化による計算誤差を最小限に抑えながら、作成すべきべクトル索引の容量を大幅に低減できる、という効果を奏するものである。

また、本発明の第 3の様態による類似べクトル検索方法および装置は、部分質問条件を算定する手段と、検索対象範囲を生成する手段と、索引を検索する手段と、内積差分上限を算定する手段と、類似検索結果を決定する手段とを有し、部分内積差分の累算値を算定して類似検索の手がかりとして用いることにより、ベクトルデータベースに対して、べクトルの次元が数百次元の場合でも、高速な検索が可能で、「もっとも類似している L個のべクトルを求める」という型の類似検索ができ、さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならず、「内積が 0 . 6以上」といった、類似検索範囲の指定が可能で、内積を類似尺度として用いる類似ベクトル検索を可能にする、という効果を奏するものである。

また、本発明の第 4の様態による類似べクトル検索方法および装置は、部分質問条件を算定する手段と、検索対象範囲を生成する手段と、索引を検索する手段と、二乗距離差分上限を算定する手段と、類似検索結果を決定する手段とを有し、部分二乗距離差分の累算値を算定して類似検索の手がかりとして用いることにより、べクトルデータベースに対して、ベクトルの次元が数百次元の場合でも、高速な検索が可能で、「もっとも類似している L個のべクトルを求める」という型の類似検索ができ、さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならず、「距離が 0 . 8以下」といった、類似検索範囲の指定が可能で、距離を類似尺度として用いる類似ベクトル検索を可能にする、という効果を奏するものである。図面の簡単な説明

図 1は、第 1の実施の形態におけるべクトル索引作成装置の全体構成を示すブロック図であり、

図 2は、第 2の実施の形態におけるべクトル索引作成装置の全体構成を示すブロック図であり、

図 3は、第 3の実施の形態における類似べクトル検索装置の全体構成を示すブロック図であり、

図 4は、第 4の実施の形態における類似ベクトル検索装置の全体構成を示すブロック図であり、

図 5 A、 5 Bは一体となって、第 1、第 2の実施の形態におけるべクトル索引作成の第 1ステップの作成手順を記述した流れ図であり、図 6 A、 6 Bは一体となって、第 1の実施の形態におけるベクトル索引作成の第 2、第 3ステップの作成手順を記述した流れ図であり、図 7 A、 7 Bは一体となって、第 2の実施の形態におけるベクトル索引作成の第 2、第 3ステツプの作成手順を記述した流れ図であり、図 8 A、 8 Bは一体となって、第 3の実施の形態における類似べクトル検索の第 1ステップの検索手順を記述した流れ図であり、

図 9は、第 3の実施の形態における類似ベクトル検索の第 2ステップの検索手順を記述した流れ図であり、

図 1 0 A、 1 0 Bは一体となって、第 4の実施の形態における類似べクトル検索の第 1ステップの検索手順記述した流れ図であり、

図 1 1 A、 1 I Bは一体となって、第 4の実施の形態における類似べクトル検索の第 2ステップの検索手順を記述した流れ図であり、図 1 2 A、 1 2 Bは一体となって、第 1、第 2、第 3、第 4の実施の形態におけるべクトルデータベースの内容例を示す一覧図であり、図 1 3は、第 1、第 2の実施の形態におけるノルム分布集計結果例を示す特性図であり、

図 14は、第 1、第 2の実施の形態における偏角分布集計結果例を示す特性図であり、

図 1 5A、 1 5 Bは一体となって、第 1、第 2、第 3、第 4の実施の形態におけるノルム区分表の内容例を示す一覧図であり、

図 1 6は、第 1、第 2、第 3、第 4の実施の形態における偏角区分表の内容例を示す一覧図であり、

図 1 7A、 1 7 Bは一体となって、第 3の実施の形態における表 Wの内容例（一部分）を示す一覧図であり、

図 1 8A、 1 8 B、 1 8 Cは一体となって、第 4の実施の形態における表 Wの内容例（一部分）を示す一覧図である。発明を実施するための最良の形態

ぐ第 1の実施の形態 >

以下、本発明の第 1の実施の形態について、図面を参照しながら説明する。 (べクトル索引作成装置の構成）

図 1は本発明の請求項 1、 3〜8、 14、 1 6〜2 1にかかる、べクトル索引作成装置の第 1の実施の形態の全体構成を表わすプロック図である。図 1において、ベクトルデータベース 1 0 1は、 20万件の新聞記事を集めた新聞記事全文データベースから作成した、各新聞記事の特徴を表す 296次元の単位実ベクトルと、 1から 2 00000の範囲の識別番号の 2項目からなるべクトルデータを 20万個格納し、図 1 2 A、 1 2 Bのような内容を持つ。

部分べクトル算定手段 1 0 2は、べクトルデータベース 1 0 1中の各べクトルデータの 2 9 6次元のべクトル Vに対し、 3 7種の 8次元部分ベクトル v。〜v₃₆と、 0〜3 6の部分空間番号 bとを算定する。ノルム分布集計手段 1 0 3は、部分べクトル算定手段 1 0 2が 2 0万個の各べクトルデータについて算定した 3 7個の各部分べクトルのュ一クリツドノルムを算出して、その分布を集計し、 2 5 6個の連続する実数範囲、

ノルム区分 0 = [0 , r 1 ) ，

ノルム区分 1 = [r 1 , r 2) , ノルム区分 2 5 5 = [ r 2 5 5， r 2 5 6)

としてノルム区分を定める。

ノルム区分表 1 04は、ノルム分布集計手段 1 0 3が算出したノルム区分を格納する。

領域番号算定手段 1 0 5は、部分べクトル算定手段 1 0 2が算定した 8次元の各部分ベクトル Vに対して、成分が { 0， 1 , _ 1 } のいずれかであるような、 0べクトルでない 8次元べクトルをノルムが 1になるよう正規化した、

領域中心ベクトル 0 = (0, 0， 0 0, 0 , 0 0 1) 領域中心べクトル 1 = ( 0 , 0 , 0 0， 0， 0 0

領域中心べクトル 2 = (0 , 0， 0 0, 0 , 0 0) ，領域中心ベクトル 3 = s q r t ( 1 2 ) * ( 0 0 0 , 0 0 , 0, 1， 1 ) ，

領域中心ベクトル 4 = s Q r t ( 1 2 ) * (0, 0， 0， 0， 0 0 , 1 , — 1 ) ，領域中心ベクトル 5 = (0， 0， 0, 0， 0， 0, — 1， 0) , 領域中心ベクトル 6 5 54 = s Q r t ( 1 / 7 ) * (— 1 , — 1 , - 1 , — 1 , — 1，一 1， 1， 0) ，

領域中心ベクトル 6 5 5 5 = s Q r t ( 1 / 8 ) * (— 1 , — 1 , ― 1， — 1， _ 1, — 1， 1 , 1) ，

領域中心ベクトル 6 556 = s q r t ( 1 / 8 ) * — 1， - 領域中心ベクトル 6 557 = s q r t (1/7) * (— 1 , 一 1，一 1, - 1 , - 1 , - 1 , - 1 , 0) ，

領域中心ベクトル 6 558 = s Q r t ( 1 / 8 ) * (— 1 , — 1，一領域中心ベクトル 6559 = s Q r t (1/8) * (— 1 , — 1， - という（ただし「s q r t (x) は xの平方根を表す」；）、 6 560個のべクトルを領域中心べクトルとし、部分べクトル Vとの内積が最も大きい領域中心べクトル p _dを求めて、その番号 dを Vの所属領域の領域番号とし、 p jと Vとのなす角の余弦を、偏角 cとして求める。

偏角分布集計手段 1 06は、領域番号算定手段 1 05が 20万個の各べクトルデータの 3 7個の部分べクトルについて算定した偏角の値 cの分布を集計し、 4個の連続する実数範囲、

偏角区分 0 = [c 0, c 1) ，

偏角区分 1 = [c 1 , c 2) ,

偏角区分 2 = [c 2， c 3) ，

偏角区分 3 = [c 3, c 4) ,

として偏角区分を定める。偏角区分表 1 07は、偏角分布集計手段 1 06が算出した偏角区分を格納する。

ノルム区分番号算定手段 1 08は、部分べクトル算定手段 1 02が算出した各部分べクトルのノルムの属するノルム区分番号 rを、ノルム区分表 1 04を検索して定める。

偏角区分番号算定手段 1 09は、部分べクトル算定手段 1 02が算出した各部分べクトル Vと、領域番号算定手段 1 05が Vに対して算定した領域中心べクトルから、 Vと pの偏角の属する偏角区分番号 cを、偏角区分表 1 07を検索して定める。

索引データ算定手段 1 1 0は、部分べクトル算定手段 1 02の算定した部分べクトル v_bおよび部分空間番号 bと、領域番号算定手段 1 05 の算定した領域番号 dと、偏角区分番号算定手段 1 09の算定した偏角区分番号 cと、ノルム区分番号算定手段 1 08の算定したノルム区分番号 rとから検索用の鍵、

K= ( (b * 6560 +d) * 4 + c) * 2 56 + r

を作成し、この鍵 Kと部分ベクトルの識別番号 i と成分 v _bの組（K, i， v_b) を索引データとして算定する。

索引構成手段 1 1 1は、索引デ一夕算定手段 1 1 0の算定した索引デ一夕（K, i , v_b) から、 Kを鍵とし、（ i， v_b) を検索するような探索木と、各識別番号 iと各部分空間番号 bの組に対して、領域番号 d と偏角区分番号じと、ノルム区分番号 rとから第 2の鍵、

L= (d * 4 + c) * 2 56 + r

を格納した逆採索表と、ノルム区分表 1 04と、偏角区分表 1 07とを格納した索引を構成する。

べクトル索引 1 1 2は、索引構成手段 1 1 1が作成する探索木と逆探索表とノルム区分表 1 04と偏角区分表 1 07とを格納する。 (べクトル索引作成装置の動作）

以上の構成のべクトル索引作成装置において、その動作を図面をもとに説明する。図 5A、 5 Bは一体となってベクトル索引作成の第 1ステップにおけるノルム区分表 Rおよび偏角区分表 Cの作成処理の手順を記述した流れ図であり、図 6A、 6 Bは一体となってベクトル索引作成の第 2、第 3ステップにおける索引登録デ一夕の算定およびべクトル索引の作成処理の手順を記述した流れ図である。図中の「s Q r t (x) 」は xの平方根を、「 i n t (X) 」は Xの整数部分を、「a b s (x) 」は Xの絶対値を、それぞれ表すものとする。また「s i g n 2 (x) 」は xが非負なら 1を、負なら 2をとる関数であるとする。

(べクトル索引作成の第 1ステップ）

ベクトル索引作成の第 1ステップでは、まず、部分ベクトル算定手段 1 02が、べクトルデータベース 1 0 1からべクトルデータを順に読み込んで部分ベクトルを算定し、ノルム分布集計手段 1 03と偏角分布集計手段 1 06が、それぞれ部分べクトルのノルム分布、偏角分布を算定する。全てのベクトルデータを処理した時点で、ノルム区分表および偏角区分表が作成される。べクトルデータベース中のべクトルのノルムの上限値は既知であり、上限値は r— s u pであるとする。本実施の形態の例では、各ベクトルデータのベクトルが単位ベクトルなので、明らかに r— s u p= lとなる。べクトルデータベース中のべクトルのノルムの上限値が未知である場合には、予め調査して r— s u pを求めておけばよい。

初めに、ステップ 1 00 1で、集計用の表 H rおよび H cを 0に初期ィ匕し、総部分ベクトル数 nも 0にする。次に、ステップ 1 002で、未処理のベクトルデータ（し V) をベクトルデータベースから 1つ読み込む。部分空間の番号 bを 0に初期化する。ステップ 1 0 0 3で、の値に従って、 8次元の部分ベクトル uを、読み込んだ 2 9 6次元のべクトル Vの先頭から、連続する 8成分ずつに区分して 3 7種作成する。例えば図 1 2 Aの 1番目のべクトルデータの場合には、 b = 0の部分べクトルは、

( +0. 029259 -0. 016005 -0. 021 118 +0. 024992 -0. 006860 -0. 009032 -0. 007255 -0. 007715)

となる。 b = lの部分ベクトルは、

( -0. 025648 +0. 016061 -0. 060584 -0. 013593 -0. 020985 -0. 1 12403 -0. 012045 +0. 044741)

となり、 b = 3 6の部分ベクトルは、

( +0. 069379 +0. 020206 +0. 032996 +0. 047815 +0. 046106 +0. 001794 +0. 035342-0. 003895)

となる。そして、 uのノルム i u I をノルムの最大値 r— s u pで割つて 1 0 0 0 0倍した後、整数化し、ノルム分布集計表 H rの該当する区分 j に累算し、ノルム分布を集計する。

図 1 3はこのようにして集計したノルム分布のグラフの例である。グラフの横軸はノルム分布集計表 H rの区分番号、縦軸は各区分番号 j に対する H r [ j ] の値、即ち区分 jのノルム範囲のノルムを持つ部分べクトルの数である。図 1 2 Aの 1番目のベクトルデータの b = 0の部分べクトルの場合には、

I u I = sqr t (0. 029259*0. 029259 + 0. 016005*0. 016005 + … +

0. 007715*0. 007715) = 0. 049193

であり、 r— s u p = 1であるから、区分 j は、

j = int ( (0. 049193 I 1. 0) * 10000) = 491

となる。偏角区分は、ステップ 1 004〜ステップ 1 00 9で集計する。まず、ステップ 1 004で、部分べクトル uの 8個の成分 u [0]〜u [7]に対して、絶対値の大きい順に、成分の番号を格納する。図 1 2Aの 1番目のべクトルデータの b = 0の部分べクトルの場合には、第 0成分の絶対値が最も大きく、次に第 3成分の絶対値が大きく、第 4成分の絶対値が最も小さいので、

s [0..7] = (0 3 2 1 5 7 6 4)

となる。

次にステップ 1 00 5〜ステップ 1 008を、変数 mの値を 0から 7 まで変えながら、 8回（8=部分空間の次元）繰り返し、 6560種の領域中心べクトルのうちで最も部分べクトル uとの内積が大きいものの番号 dと、そのときの内積の値 Xとを求める。ステップ 1 005では、絶対値の大きいほうから m+ 1個の成分が、（部分べクトルの成分の符号） * 1で、残りの 7 _m個の成分が 0であるような領域中心ベクトルの番号 j と内積の SQrt (m)倍の値 yとを求めている。ステップ 1 006 ではステップ 1 00 5で求めた値 yから内積を y * sart (1/m)で計算し、これまでの内積の最高値 Xを比較し、 Xより大きければステップ 1 007で内積の最高値 Xと、領域中心べクトルの番号 dとを更新する。このように、成分が {+ 1, 0， - 1 } のいずれかであるような領域中心ベクトル群を用いることにより、非常に簡単な計算によって、部分べクトルと最も内積の大きい領域中心べクトルの番号と、その内積の値とを効率よく求めることができる。

図 1 2 Aの 1番目のべクトルデータの b = 0の部分べクトルの場合には、

(| u [0] |) * sqrt (1/1) = 0.029259

(I u [0] | + | u [3] |) * sqrt (1/2) = 0.038361 (I u [0] l + l u [3] l + l u [2] I) * sart (1/3) = 0.043514

(I u [0] l + l u [3] l + l u [2] l + l u [1] |) * sqrt (1/4) = 0.045687

(I u [0] l + l u [3] l + l u [2] l + l u [1] | + | u [5] |) * sart (1/5) = 0.044903 (I u [0】 l + l u [3] l + l u [2] l + l u [1] | + | u [5] | + | u [7] |) * sart (1/6) = 0.044140

(I u [0] l + l u [3] l + l u [2] l + l u [1] | + | u [5] | + | u [7] | + | u [6] |) * sart (1/7) = 0.043608

(I u [0] l + l u [3] l + l u [2] l + l u [1] | + | u [5] | + | u [7] | + | u [6] | + | u [4] I) * sqrt (1/8) = 0.043217

となって、内積の最高値である x = 0. 04 5 6 8 7、および領域中心ベクトル

(+ 1 /2, _ 1 Z2, - 1 /2， + 1 Z2, 0, 0, 0, 0 )

の番号である d = (3 — 7) + 2 * (3 — 6) + 2 * (3 " 5) + (3 " 4) =42 1 2が求まる。

続いてステップ 1 0 0 9で内積 Xを部分べクトル uのノルムで割って、部分べクトルと領域中心べクトルとのなす角の余弦を求め、 1 0 0 0 0 倍した後、整数化し、偏角分布集計表 Heの該当する区分 j に累算し、偏角分布を集計する。図 1 4はこのようにして集計した偏角分布のダラフの例である。グラフの横軸は偏角分布集計表 Heの区分番号、縦軸は各区分番号 j に対する He [ j ] の値、即ち区分 j の偏角範囲の偏角を持つ部分ベクトルの数である。ただし図 1 4において、 8 2 74より小さな区分の H cの集計値は全て 0なので、 8 0 0 0〜 1 0 0 0 0区分の部分のみ図示している。図 1 2 Aの 1番目のべクトルデータの b二 0の部分べクトルの場合には、

j =int (1 0 0 0 0 * 0. 04 5 6 8 7/0. 049 1 9 3)

= int (1 0 0 0 0 * 0. 9 2 8 7 3 0) = 9 2 8 7 となる。

部分べクトル選択用変数 bと、総部分べクトル数集計用変数 nを増やした後、ステップ 1 0 1 0で着目べクトルデータの全ての部分べクトルを処理したか否かを判定し、まだ未処理の部分べクトルが残っている場合にはステップ 1 003に戻って、次の部分ベクトルに対して処理を行う。全ての部分ベクトルを処理した場合には、ステップ 1 0 1 1でべクトルデータベース 1 0 1中の全てのべクトルデータを処理したか否かを判定し、まだ未処理のべクトルデータが残っている場合にはステップ 1 002に戻って次のべクトルデータを処理し、全てのべクトルデ一夕を読み込んで処理した場合には、ステップ 1 0 1 2〜ステップ 1 0 1 8のノルム区分表、偏角区分表の作成処理に進む。

ステップ 1 0 1 2では作業変数を初期化し、ステップ 1 0 1 3〜ステップ 1 0 1 8でノルム区分表および偏角区分表の区分データの作成処理を行う。ステップ 1 0 1 3では、ノルム集計結果のうち、ノルムカ 0力、ら！ "— s u p * 1 0000までの部分べクトルの個数の合計値 Xと、偏角集計結果のうち、偏角が 0から j 1 0000までの部分べクトルの個数の合計値 yとを求める。

ステップ 1 0 14では、ノルムが 0から r— s u p * jノ 1 0000 までの部分べクトルの個数の全部分べクトル数に対する割合 xZnが、ノルム区分表の 2 56個の区分のうち、第 k区分までの区分数の割合 k 2 56より大きいか否かを判定する。大きい場合には、ステップ 1 0 1 5に進んでノルム区分表の第 k区分の境界値である R [k] を r— s u p * j / 1 0000と定める。図 1 5 A、 1 5 Bは一体となって、以上のようにして図 1 3のノルム分布のノルム分布集計表 H rから作成したノルム区分表の例である。分布が集中している 0. 1〜0. 2の区間を細かく区分していることがわかる。ステップ 1 0 1 6からステップ 1 0 1 7で、偏角区分についても、同様にして偏角区分表の第 m区分の境界値を定める。ステップ 1 0 1 8でノルム集計結果、偏角集計結果をすベて処理したか否かを判定し、未処理の集計結果が残っている場合にはステップ 1 0 1 3に戻って処理を続行し、全ての集計結果を処理し終えた場合にはステップ 1 0 1 9に進んで、 R [0..256], C [0..4] をそれぞれノルム区分表、偏角区分表としてベクトル索引作成の第 1ステップを終了する。図 1 6は、以上のようにして図 14の偏角分布の偏角分布集計表 H cから作成した偏角区分表の例である。分布が集中している 0. 9 5付近を細かく区分していることがわかる。

(べクトル索引作成の第 2ステップ）

ベクトル索引作成の第 2ステップでは、図 6A、 6 Bのステップ 1 1 0 1〜ステップ 1 1 0 9に記載した処理を行って、個々の部分べクトルから索引登録データを作成する。まず、 1 1 0 1で探索木 Tを初期化し、 Tの登録データ数を 0とする。探索木としては、

1) 整数値を鍵として、ベクトルデータ（ i , u) 即ち整数と 8個の浮動小数点数の組が登録できる。

2)登録時の整数値の範囲を鍵にして、登録したデータを検索できる。という、 2つの条件を満たすものであれば、 R. セジウィック著、野下浩平他訳， "アルゴリズム第 2巻探索 ·文字列 ·計算幾何" ，近代科学社（1992) や、 G. H. G o n n e t著玄光男他訳 "アルゴリズムとデータ構造ハンドブック" ，啓学出版（1987) などの教科書に記載されている、 B木や 2分探索木などの（平衡）探索木を用いることができる。ステツプ 1 1 02では、べクトルデータベース 1 0 1から未処理のベクトルデータを 1つ読み込み、部分空間番号 bを 0から順に増やしながら各部分空間の部分べクトルに対する処理を行う。ステップ 1 1 03では、部分ベクトル uを作成し、作成済みのノルム区分表 1 04を検索して、ノルム I u Iに対応するノルム区分の番号 rを求める。ステップ 1 1 04〜ステップ 1 1 0 8までは、図 5 A、 5 Bのステップ 1 004〜ステップ 1 008と同一の処理を行って、 6560種の領域中心べクトルのうちで最も部分べクトル uとの内積が大きいものの番号 dと、そのときの内積の値 Xとを求める。

ステップ 1 1 09では、作成済みの偏角区分表 1 07を検索して、偏角（即ち部分べクトルと所属領域の領域中心べクトルとのなす角の余弦） xZ I u I に対応する偏角区分の番号 cを求める。ステップ 1 1 1 0では、索引データ算定手段 1 1 0が、こうして求めたノルム区分番号 d、偏角区分番号じから、

k = b *N_d*N_c *N_r + d *N_c *N_r + c * N _r + r

=b * 76 1 7440 +d * 1 024+ c * 2 56 + r

によって、部分空間番号 b、領域番号 d、偏角区分番号 c、ノルム区分番号 rの 4種の整数値を 1つの整数値に変換し、探索木に登録する際の鍵 kを算定、ステップ 1 1 1 1でこの鍵 kと、部分べクトルデ一夕（ i， u) から、索引登録データ（k, i， u) を算定する。ただし、 N_dは領域の総数で 6 560、 N_cは偏角区分数で 4， N_rはノルム区分数で 2 56である。このようにして、ベクトル索引作成の第 2ステップで、各ベクトルデータの各部分ベクトルに対する索引登録データ（k， i， u) を効率よく（ベクトルデータ数に比例した時間で）作成できる。

(べクトル索引作成の第 3ステップ）

べクトル索引作成の第 3ステップでは、図 6 Bのステップ 1 1 1 1〜ステップ 1 1 1 5に記載した処理を行って、索引登録デ一夕からべクトル索引を作成する。まず、ステップ 1 1 1 1では、索引登録データ（k， i , u ) 中の kを鍵として、データ（ i， u ) を探索木に（追加）登録する。次にステップ 1 1 1 2で、逆探索表 Kの識別番号 iのベクトルデ一夕の部分空間番号 bに対応する要素 K [i， u]に鍵 kを格納する。部分空間番号 bを 1増やした後、ステップ 1 1 1 3で全ての部分空間について処理を終了したか否かを判定する。まだ未処理の部分空間が残っている場合にはステップ 1 1 0 3に戻って次の部分べクトルに対する処理を行レ、全ての部分空間について処理を終了した場合には、ステップ 1 1 1 4に進む。ステップ 1 1 1 4では、べクトルデータベース 1 0 1中の全てのベクトルデ一夕を処理したか否かを判定する。まだ未処理のべクトルデ一夕が残っている場合にはステップ 1 1 0 2に戻って次のべクトルデ一夕に対する処理を行い、全てのべクトルデータについて処理を終了した場合には、ステップ 1 1 1 5に進んで探索木 T、逆探索表 Κ、ノルム区分表 R、偏角区分表 Cを格納したベクトル索引を作成して、べクトル索引の作成が完了する。 '

以上説明したように、本発明の第 1の実施の形態のべクトル索引作成方法および装置によれば、以下のような優れた効果を奏する。

1 ) 2 9 6次元のベクトルを、 3 7種の 8次元の部分ベクトルに分解し、各々の部分ベクトルに対して、その方向を、 6 5 6 0種の領域中の所属領域の領域番号と偏角区分番号の組で精密に量子化し、その大きさをノルム区分番号で量子化した上で、複数の鍵を 1つの整数値にェンコ一ドして探索木に登録することで、部分空間毎の高速で高精度な範囲検索が可能となる。

2 ) また、逆探索表を作成 ·装備することで、ベクトルデータの識別番号を指定してベクトルの成分を取得する機能が、成分データを 2重持ちすることなく実現できるため、元のべクトルデータベース 1 0 1が検索時には不要となり、検索装置の記憶容量を削減することが可能となる。

3 ) ノルム分布集計手段，偏角分布集計手段において、各区分に所属する部分べクトルの個数ができる限り均一になるように区分境界を定めるため、分布に偏りのあるベクトルデータベースに対しても、常に最適な（検索速度の低下を最小限に抑えた）ベクトル索引を作成することができる。

4 ) 領域中心ベクトルとして、成分が { 0， + 1 , — 1 } のいずれかである 0べクトルでない全てのべクトルを正規化したべクトルの集合を用いているため、各部分ベクトルの所属領域の算定が、領域の個数には依存せずに行え、部分ベクトルの成分の絶対値順序の算出と、成分の絶対値の加算などの、極めて少ない計算量で済むことから、数十万〜数百万個のべクトルデータからなる大規模なべクトルデータベースの場合でも、実用的な処理時間でべクトル索引を作成することが可能となる。ぐ第 2の実施の形態 >

次に、本発明の第 2の形態について、図面を参照しながら説明する。

(べクトル索引作成装置の構成）

図 2は本発明の請求項 2、 3〜8、 1 5、 1 6〜2 1にかかる、べクトル索引作成装置の第 2の実施の形態の全体構成を表わすプロック図である。図 2において、ベクトルデータべ一ス 2 0 1は、 2 0万件の新聞記事を集めた新聞記事全文データベースから作成した、各新聞記事の特徴を表す 2 9 6次元の単位実べクトリレと、 1から 2 0 0 0 0 0の範囲の識別番号と、記事の見出しの 3項目からなるべクトルデータを 2 0万個格納し、図 1 2 A、 1 2 Bのような内容を持つ。

部分べクトル算定手段 2 0 2は、べクトルデータベース 2 0 1中の各べクトルデータの 2 9 6次元のべクトル Vに対し、 3 7種の 8次元部分ベクトル v_Q〜v₃₆と、 0〜36の部分空間番号 bとを算定する。ノルム分布集計手段 2 0 3は、部分べクトル算定手段 2 0 2が 2 0万個の各べクトルデータについて算定した 3 7個の各部分べクトルのユークリツドノルムを算出して、その分布を集計し、 2 56個の連続する実数範囲、

ノルム区分 0 = [0， r 1 ) ，

ノルム区分 1 = [ r 1 , r 2) , ノルム区分 255= [ r 2 55 , r 2 56 ) ,

としてノルム区分を定める。

ノルム区分表 2 04は、ノルム分布集計手段 2 0 3が算出したノルム区分を格納する。

領域番号算定手段 2 0 5は、部分べクトル算定手段 2 0 2が算定した 8次元の各部分ベクトル Vに対して、成分が { 0， 1， - 1 } のいずれかであるような、 0べクトルでない 8次元べクトルをノルムが 1になるよう正規化した、

領域中心ベクトル 0 = (0， 0, 0, 0， 0, 0 0 1) ，領域中心ベクトル 1 = (0, 0, 0， 0， 0， 0 0 一 1) 領域中心ベクトル 2 = (0， 0， 0, 0， 0， 0 1 0) ，領域中心ベクトル 3 = s q r t ( 1 / 2 ) * (0 0 0， 0 0， 0, 1 , 1 ) ，

領域中心ベクトル 4 = s Q r t ( 1 /2) * (0 0, 0， 0， 0, 0， 1 , 一 1 ) ，

領域中心ベクトル 5 = ( 0 , 0, 0, 0 , 0, 0, - 1 , 0) , 領域中心ベクトル 6554 = s q r t (1/7) * (— 1 , — 1 , 一 1 , - 1 , - 1 , - 1 , 1， 0) ，

領域中心ベクトル 6 5 5 5 = s Q r t ( 1 /8) * (— 1， — 1， - 領域中心ベクトル 6 5 5 6 = s Q r t ( 1/8) * (- 1 , — 1， - 領域中心ベクトル 6 5 5 7 = s Q r t ( 1 /7) * (— 1， _ 1， - 領域中心ベクトル 6 5 5 8 = s Q r t ( 1 / 8 ) * (— 1， — 1， - 領域中心ベクトル 6 5 59 = s q r t (1/8) * (— 1， — 1， - という（ただし「s Q r t (x) は xの平方根を表す」；）、 6 5 6 0個のべクトルを領域中心べクトルとし、部分べクトル Vとの内積が最も大きい領域中心ベクトル p _dを求めて、その番号 dを Vの所属領域の領域番号とし、 p」·と Vとのなす角の余弦を、偏角 Cとして求める。

偏角分布集計手段 206は、領域番号算定手段 205が 20万個の各べクトルデータの 37個の部分べクトルについて算定した偏角の値 cの分布を集計し、 4個の連続する実数範囲、

偏角区分 0 = [c 0, c 1) ，

偏角区分 1 = [c 1 , c 2) ,

偏角区分 2 = [c 2， c 3) ,

偏角区分 3 = [c 3, c 4) ，

として偏角区分を定める。

偏角区分表 207は、偏角分布集計手段 206が算出した偏角区分を格納する。ノルム区分番号算定手段 208は、部分べクトル算定手段 20 2が算出した各部分べクトルのノルムの属するノルム区分番号 rを、ノルム区分表 2 04を検索して定める。

偏角区分番号算定手段 209は、部分べクトル算定手段 202が算出した各部分ベクトル Vと、領域番号算定手段 205が Vに対して算定した領域中心べクトル！）から、 Vと pの偏角の属する偏角区分番号 cを、偏角区分表 20 7を検索して定める。

索引データ算定手段 2 1 0は、部分べクトル算定手段 202の算定した部分べクトル v_bおよび部分空間番号 bと、領域番号算定手段 2 0 5 の算定した領域番号と、偏角区分番号算定手段 209の算定した偏角区分番号 cと、ノルム区分番号算定手段 208の算定したノルム区分番号 rとから検索用の鍵、

K= ( (b * 6560 + d) * 4 + c) * 256 + r

を作成し、この鍵 Kと部分べクトルの識別番号 i と成分区分番号 _{y j}の組（K, i , y) を索引データとして算定する。

索引構成手段 2 1 1は、索引データ算定手段 2 1 0の算定した索引デ一夕（K, i , y) から、 Kを鍵とし、（ i， y) を検索するような探索木と、各識別番号 iと各部分空間番号 bの組に対して、領域番号と偏角区分番号 cと、ノルム区分番号 rとから第 2の鍵、

L= (d * 4 + c) * 256 + r

を格納した逆探索表と、ノルム区分表 204と、偏角区分表 20 7とを格納した索引を構成する。

べクトル索引 2 1 2は、索引構成手段 2 1 1が作成する探索木と逆採索表とノルム区分表 204と偏角区分表 207とを格納する。なお、構成要素 2 0 1〜 2 1 2は、それぞれ図 1の構成要素 1 0 1〜 1 1 2と対応し、特に構成要素 20 1〜209は、図 1の構成要素 1 0 1〜 1 09 と同一である。

成分区分番号算定手段 2 1 3は、部分べクトル算定手段 2 0 2が算定した部分べクトル v _bと、ノルム区分番号算定手段 2 0 8が算定したノルム区分番号とから、部分ベクトルの各成分の値から、 0〜 2 5 5の範囲の成分区分番号 y _Q〜y ₇を算定する。

(べクトル索引作成装置の動作）

(べクトル索引作成の第 1ステップ）

以上の構成のべクトル索引作成装置において、その動作を図面をもとに説明する。べクトル索引作成の第 1ステップにおけるノルム区分表 R および偏角区分表 Cの作成処理の手順は、第 1の実施の形態における手順と同一であり、同一のベクトルデータベースならば、作成されるノルム区分表 Rおよび偏角区分表 Cは、ともに第 1の実施の形態におけるノルム区分表 Rおよび偏角区分表 Cの内容と同一となるので、説明を省略する。

(ベクトル索引作成の第 2、第 3ステップ）

図 7 A、 7 Bは一体となってベクトル索引作成の第 2、第 3ステップにおける索引登録データの算定およびべクトル索引の作成処理の手順を記述した流れ図である。図 7 A、 7 Bのステップ 1 2 0 0〜ステップ 1 2 1 6はそれぞれ図 6 A、 6 Bのステップ 1 1 0 0〜ステップ 1 1 1 6 に対応し、特に、ステップ 1 2 1 1 , ステップ 1 2 1 5 , ステップ 1 2 1 7以外の各ステップは、図 6 A、 6 Bの対応するステップと同一の処理であるため、説明を省略する。

ステップ 1 2 1 7では、部分ベクトル u [0. . 7]から、 uの各成分に対応する成分区分番号 y [0. . 7]を算定する。どの u [m] に対しても、 abs (u [m] )≤| u | < R [r+ 1] なので、

- K u W X R [r+ l] < + 1

が成り立ち、成分区分番号 y [m]は 0〜 2 5 5までの、 8ビッ卜で表現できる整数値となる。ステップ 1 2 1 1では、 uの代わりに、 yを使って、 ( i， y ) という、整数データを kを鍵にして探索木 Tに登録する。各々の y [m]は 8ビッ卜で表現できるので、 u [m]を浮動小数点形式で登録する場合に比べ、探索木 Tの容量が大幅に低減する。ステップ 1 2 1 5では、このようにして作成した探索木 Tを含むべクトル索引を作成するので、結果的に作成したべクトル索引の容量が、 u [in]を登録する場合に比ベて小さくて済む。

なお、本実施の様態 2においては、ステップ 1 2 1 7で 8ビットの整数値 y [m]で各成分 u [m]を近似したが、 8ビットでは類似検索時の精度が不足する場合には、十分な精度が得られるよう、 9ビット〜 2 4ビットで表現して登録すればよい。

以上説明したように、本発明の第 2の実施の形態のベクトル索引作成方法および装置によれば、以下のような優れた効果を奏する。

1 ) 2 9 6次元のベクトルを、 3 7種の 8次元の部分ベクトルに分解し、各々の部分ベクトルに対して、その方向を、 6 5 6 0種の領域中の所属領域の領域番号と偏角区分番号の組で精密に量子化し、その大きさをノルム区分番号で量子化し、さらに加えて部分ベクトルの各成分を成分区分番号という、ノルム区分を基準にした量子化を行って、複数の鍵を 1つの整数値にエンコードして、近似結果である部分べクトルの成分区分番号とともに探索木に登録することで、部分空間毎の高速で高精度な範囲検索が可能となる。

2 ) 逆探索表を作成 ·装備することで、ベクトルデータの識別番号を指定してべクトルの成分を取得する機能が、成分データを 2重持ちすることなく実現できるため、元のべクトルデータベース 1 0 1が検索時には不要となり、検索装置の記憶容量を削減することが可能となる。

4 ) 領域中心ベクトルとして、成分が { 0 , + 1， - 1 } のいずれかである 0べクトルでない全てのべクトルを正規化したべクトルの集合を用いているため、各部分ベクトルの所属領域の算定が、領域の個数には依存せずに行え、部分ベクトルの成分の絶対値順序の算出と、成分の絶対値の加算などの、極めて少ない計算量で済むことから、数十万〜数百万個のべクトルデータからなる大規模なべクトルデータベースの場合でも、実用的な処理時間でべクトル索引を作成することが可能となる。

5 ) 作成するべクトル索引の容量を大幅に削減することができる。ぐ第 3の実施の形態 >

次に、本発明の第 3の形態について、図面を参照しながら説明する。

(類似べクトル検索装置の構成）

図 3は本発明の請求項 9、 1 1、 1 2、 2 2、 2 4、 2 5にかかる、類似べクトル検索装置の全体構成を表わすブロック図である。図 3において、ベクトル索引 3 0 1は、上記した第 1の実施の形態のベクトル索引作成装置によって作成したものであり、 2 0万件の新聞記事を集めた新聞記事全文データベースから作成した、各新聞記事の特徴を表す 2 9 6次元の実べクトルと、各記事を一意に識別するための 1から 2 0 0 0 0 0の範囲の識別番号の 2項目からなるべクトルデータを 2 0万個格納した、図 1 2A、 1 2 Bのような内容を持つベクトルデ一夕ベースから作成したべクトル索引である。

検索条件入力手段 3 0 2は、前記新聞記事全文データベースに対する類似検索を行うために、前記新聞記事全文データベース中のいずれかの記事の識別番号と、類似検索範囲を示す 0〜 1 0 0までの類似度下限値と最大取得件数とを入力し、べクトル索引 3 0 1を識別番号で検索して入力された識別番号から対応する記事のべクトルを質問べクトル Qとして求め、類似度下限値から内積下限値 αを求める。

部分質問条件算定手段 3 0 3は、検索条件入力手段 3 0 2が求めた質問ベクトル Qに対し、 0〜 3 6までの部分空間について、 3 7種の 8次元部分質問べクトル Qと、 Qに対応する部分べクトルとの内積の下限値である部分内積下限値 f を f =ひ | q | ²Z | Q | ²によって算定する。検索対象範囲生成手段 3 04は、部分質問条件算定手段 3 0 3が求めた部分空間 bに対する部分質問べクトル Qと部分内積下限値 f とべクトル索引 3 0 1中のノルム区分表および偏角区分表とから、部分質問べクトル Qとの部分内積が部分内積下限値 f より大きい可能性がある部分文書べクトルを含んでいる領域を特定する領域番号 d，偏角区分番号 c，ノルム区分範囲 [i^, r ₂] の組（d, c , [r !, r ₂] ) を全て列挙する。

索引検索手段 3 0 5は、検索対象範囲生成手段 3 04が各部分空間 b に対して生成した（d, c , [r ₁； r ₂] ) から、ベクトル索引 3 0 1 に対する検索条件 Kを、べクトル索引作成時における鍵の算定と同様に、

K= [k_{m i n}, k_max]

k_{mi n}=b * 7 6 1 7440 + d * 1 0 24 + c * 2 56 + r ₁ k_ma =b * 7 6 1 7440 + d * 1 0 24 + c * 2 5 6 + r ₉ と算定し、べクトル索引 3 0 1を検索条件 Kで範囲検索して検索条件に合致する鍵を持つ部分ベクトル Vと識別番号 i との組（ i， V ) をすベて求める。

内積差分上限算定手段 3 0 6は、索引検索手段 3 0 5が求めた部分べクトル Vと識別番号 iとの組（ i， V ) および部分質問条件算定手段 3 0 3が求めた部分質問ベクトル Qと部分内積下限値 f から、 t = ( V · q ) 一 f によって部分内積差分値 tを算定して、識別番号 iを添字とする表の要素 S [ i ] に、部分内積差分値 tを累算（加算）することで、識別番号 iのべクトルデータのべクトル Vと質問べクトル Qとの内積 Q · Vから内積下限値ひを減じた内積差分の上限値を算定する。

内積差分表 3 0 7は、内積差分上限算定手段 3 0 6が算出した内積差分の上限値を蓄積するものであり、識別番号 iのべクトルべ一夕の内積差分値 S [ i ] を参照ノ格納する。

類似検索決定手段 3 0 8は、内積差分表 3 0 7の要素 S [i]中で、内積差分上限値 S [i]が正の値で大きいものから順に、べクトル索引 3 0 1を織別番号 iで検索して対応するべクトル Vを求め、 Vと検索条件入力手段 3 0 2が算出した質問べクトル Qとの内積 V · Qから、検索条件入力手段 3 0 2が算出した内積下限値 αを差し引いた内積差分値 V · Q - a を算出して、 S [ i]を内積差分値 V · Q—ひで置き換え、内積差分値を算出していない記事の部分内積差分累算値の最大値より大きい内積差分値を持つ、内積差分値を算出した記事が L個以上になった時点、あるいは部分内積差分累算値が正である全ての記事の内積差分値を算出した時点で、内積差分値が正である、内積差分値の大きな最大 L個の結果候補（ i , S [i] )に対し、識別番号 iと内積 S [i] +ひとの組 U， S [ i] + α )を、検索結果として、検索結果出力手段 3 0 9に出力する。

検索結果出力手段 3 0 9は、類似ベクトル検索の結果である、最大し件の新聞記事の識別番号と 0〜 1 0 0の範囲の類似度とを、類似結果決定手段 3 0 8が求めた検索結果から算定して表示する。

(類似べクトル検索装置の動作）

以上の構成の類似ベクトル検索装置において、その動作を図面をもとに説明する。図 8 A、 8 Bは一体となっては類似ベクトル検索の第 1ステツプにおける検索処理の手順を記述した流れ図、図 9は類似べクトル検索の第 2ステップにおける検索処理の手順を記述した流れ図である。類似べクトル検索の第 1ステップでは、検索条件入力手段 3 0 2から入力された検索条件から部分質問べクトル qと部分内積下限値 f とを作成し、ベクトル索引 3 0 1を検索して、各ベクトルデ一夕の内積差分上限値 S [ i ] , 即ち質問ベクトルとの内積から内積下限値を減じた値が S [ i ] 未満となるような値を内積差分表 3 0 7に求める。次に、類似べクトル検索の第 2ステップでは、第 1ステップで内積差分表 3 0 7に求めた内積差分上限値を手がかりにして、類似検索結果決定手段 3 0 8が、「質問ベクトルとの内積がひより大きい」という検索条件に合致し、かつ質問べクトルとの内積が比較的大きいべクトルデータから順に、べクトルの成分を検索して内積差分を求めていき、内積差分を求めていないべクトルデータのどれよりも内積差分値が大きいことが保証されるべクトルデータが指定件数（即ち L件）以上集まるか、あるいは検索条件に合致する全てのべクトルデータについて内積差分値を求めるまで処理を続け、得られた内積差分値から内積を算出して最終結果を出力する。

(類似べクトル検索の第 1ステップ）

以下、検索条件として識別番号 1、類似度下限値 9 0、最大取得件数 1 0が入力された場合を例にとって、図 8 A、 8 B、図 9にそって類似ベクトル検索の内容を説明する。識別番号が 1なので、 296次元のベクトルの各成分は、図 1 2 Aの通りとなる。まず、ステップ 1 30 1で内積差分表 Sの 20万個の要素 S [0] 〜S [200000 ] を 0に初期設定する。次に、上記の検索条件を検索条件入力手段 30 2から読み込み、それぞれし Z、 Lに格納する。

ステップ 1 302で部分空間番号 bを 0に初期化した後、類似度下限値 Zから、内積下限値ひを算出する。この検索条件の場合には、 α— (9 0— 50) / 50 = 0. 8となる。ステップ 1 304, ステップ 1 30 5で、各部分空間について、ベクトル索引 30 1の逆変換表 Κを引いて鍵を求め、探索表を検索してベクトルデータを求め、識別番号が 1であるもののべクトル部分を Qに格納することで、質問ベクトルを Q

[0..295]に求める。ステップ 1 306で部分空間番号を初期化した後、ステップ 1 307〜ステップ 1 3 1 7で各部分空間についてべクトル索引を検索して内積差分表 307に各べクトルデータの内積差分上限値を求める。

ステップ 1 307では、部分空間番号 bの部分質問べクトル Q [0..7] と部分内積下限値 f 、即ちこの部分空間の部分べクトルデータと Qとの内積の下限値を求める。 b = 0の場合には、 | q | ²= 0. 2 2 1 7 9 5， I Q I ²= 1であるから、

f = 0. 8 * 0. 22 1 79 5/1. 0 = 0. 1 77436 となる。領域番号 dを 0に初期化したあと、検索対象範囲を決定するために用いる表 Wを作成する。表 Wは偏角区分番号 c、ノルム区分番号 r で引いて、着目している領域番号 dの領域の中心べクトル pと部分質問ベクトル Qとの内積 P · qが W [c , r] 未満ならば、区分（d, c , 0 ) 〜区分（d， c , r ) の部分ベクトル vと部分質問ベクトル Qとの内積が f 以下となるように作成する。この場合には、区分（d， c , 0) 〜区分（d， c , r ) の部分ベクトルはこの部分空間に対する検索条件 (即ち部分内積が f より大きい）を満たさないため、これらの区分の検索を省略することができる。

表 Wを求めるには、部分べクトル Vが領域 d内で最も部分質問べク卜ル Qに近い場合、 p , q , Vがー平面上にあり、かつ Vと qとのなす角 ωが偏角区分 cの範囲内でもっとも小さい場合を考えればよい。このとき、 ρと Qのなす角を 0， ρと Vのなす角の最大値を φとすると、 Vと qのなす角 ωは ω= Θ — φとなるから、

f < V · q = I v |*| q |*cos - ) < R [r+1] *| q |* (cos Θ *cos + sin Θ sinc

と、

C [c] =cos φ

COS θ = (ρ · q)/| P 1*1 q 1= (p . q) /I Q I

とから、 p · qが満足する不等式、

f <R [r+l]*C [c] * (p · q) +R [r+1] *sart (1 - C [c] ²) *SQrt (I q | ²— (P · q) ²))

を解いて、ステップ 1 3 0 7の W [c , r] の式を得る。

このように、実際の部分ベクトル Vの成分を参照せず、また領域 dにも依存せずに、部分質問ベクトルのノルム i Q i だけから、表 W[c， r] の値を定めることができる。本実施の形態の場合には、ノルム区分表 R，偏角区分表 Cがそれぞれ図 1 5 A、 1 5 B、 1 6の通りなので、 b = 0 の場合には、表 Wは図 1 7 A、 1 7 Bのような内容となる。図中で表の値が「 9. 9 9 99 9」となっている要素は、この部分質問ベクトル Q については、ノルムが小さすぎて、どの方向の部分ベクトル Vでも、 q との内積が f に達することができないため、検索対象とはならないノルム区分であることを意味している。図 1 7 A、 1 7 Bからは、 c = 0，即ち偏角の値が大きい場合には、広範囲な検索を行い、 c = 3 , 即ち偏角の値が小さい場合には、ノルムの大きな部分のみの、より狭い範囲を検索するような内容になっていることがわかる。

ステップ 1 3 0 8では、着目する領域の中心べクトル pと部分質問べクトル qとの内積 tを求め、偏角区分用のループ変数 cを 0に初期化した後、ステップ 1 3 0 9で表 Wの最小値を与える要素 W [0， 255] より内積 tが小さいか否か検査し、小さい場合には、領域 dを鍵の一部とするどの部分べクトルも検索条件を満足しないことが確定するのでステップ 1 3 1 2に飛び、そうでない場合にはステップ 1 3 1 0で偏角区分 cについて、検索すべきノルム区分の最低値 rをステップ 1 3 0 7で算定した表 Wを手がかりにして求め、この rと部分空間番号 b, 領域番号 d，偏角区分番号 cとから、ベクトル索引 3 0 1の検索範囲 [kmin, kmax] を求める。ステップ 1 3 1 1ではこの検索範囲 [kmin， kmax] を鍵にして探索木を範囲検索し、範囲検索結果に含まれる、識別番号 j とべクトル Vの組（j ， V) のそれぞれについて、部分質問ベクトル qと Vとの内積から部分内積下限値 f を減じた部分内積差分値を算定、内積差分表 3 0 7の該当要素 S [ j ] に累算する。

例えば、 b = 0 , d = 4 2 1 2の場合には、

q = ( +0.029259 -0.016005 -0.021118 +0.024992 -0.006860 -0.009032 -0.007255 -0.007715)

p o= (+ 1 /2 , - 1 /2 , - 1 / 2 , + 1 / 2 , 0， 0 , 0， 0) であるから、

t = p · q = + 0.045687

となり、 W [0, 255] =-0.02527 よりも tが大きく、ステップ 1 3 1 0に進む。図 1 7 A、 1 7 Bの表 Wより、

W [0, r ]≤ t <W [0， r + 1 ] となるノルム区分番号 rは r = 1であり、 c = 0の場合には、探索木の鍵は、

[ k min , k max ] = [ 0*6717440+4212*1024+0*256+1, 0*6717440+4212*1024+0*256+255]

= [4313089, 4313343]

となる。識別番号 1のべクトルデータの b = 0の部分べクトル

V = (+0.029259 -0.016005 -0.021118 +0.024992 -0.006860 -0.009032 -0.007255 -0.007715 ) は、 §i k = 0*6717440+4212*1024+0*256+1 = 4313089 で登録されているので、この範囲検索の結果の 1つとなる。その部分内積差分値は、

(V · q ) _ f = 0.221795-0.177436 = 0.044359

となり、 S [1] =0.044359となる。

また、識別番号 2のべクトルデータの b = 0の部分べクトル

V = (+0.029259 -0.016005 -0.021118 +0.024992 -0.006860 -0.009032 -0.007255 -0.007715) は、鍵 k =0*6717440+619*1024+2*256+2 で登録されており、 b = 0.， c = 2 , d = 6 1 9の範囲検索の結果に含まれ、その部分内積差分値は、

(v - q) 一 f =0.00005

となり、 S [2]=0.00005となる。

同様に、 b= 1では、識別番号 2のベクトルデータの部分ベクトルは鍵 k=l*6717440+2691*1024+l*256+93で登録されており、 b= l， c =

1， d = 2 69 1の範囲検索の結果に含まれ、その部分内積差分値は、 (v - q) - f =0.00217

が S [2]に累算され、 S [2] =0.00222 となる。

このようにして、ステップ 1 3 1 2、ステップ 1 3 1 3で cを増やしながら各偏角区分について検索範囲の決定と検索処理，内積差分の算出と累算を行う。次いで、ステップ 1 3 1 4、ステップ 1 3 1 5で領域番号 dを 6 5 6 0まで順に増やしながら各領域についてステップ 1 3 0 8 〜ステップ 1 3 1 3の処理を行う。さらにステップ 1 3 1 6、ステップ 1 3 1 7で部分空間番号を 3 7まで順に増やしながら各部分空間についてステップ 1 3 0 7〜ステップ 1 3 1 5の処理を行い、類似べクトル検索の第 1ステップを終了する。この段階で、内積差分表 3 0 7には各識別番号のべクトルデータ Vについて、質問べクトル Qとの内積 V . Qと、内積下限値 αとの差である、内積差分値（V · Q ) —ひの推定値の上限が求まる。なぜなら、各部分空間 bについて、部分質問ベクトル Qとの内積が部分内積下限値 f より大きな部分べクトルについては、もれなく部分内積差分値を求めているので、部分内積差分値を求めなかったべクトルデータの部分内積差分値は負の値となるはずであり、この負の値を 0で置き換えて累算している（「内積差分表を変化させない」ということは 0を累算していることに等価である）ので、部分内積差分値の累算結果は、内積差分値を上から押さえる、内積差分上限値の 1つとなるからである。以上のようにして内積差分表 3 0 7を求めた後、類似べクトル検索の第 2ステップを実行し、最終的な検索結果を得る。

(類似べクトル検索の第 2ステップ）

次に、図 9の流れ図にそって第 2ステップの処理手順を説明する。ステツプ 1 4 0 1で現時点での検索条件を満たす候補の件数を 0クリアし. べクトルデータの内積差分を求めたか否かのフラグ A [0. . 200000]も 0、即ち「内積差分を求めていない」に初期設定する。そして、現時点で検索条件を満たす候補のうちの内積差分値の最低値（=しきい値） tを 0 に初期化する。

ステップ 1 4 0 2では、まだ未調査、即ち内積差分を求めていないべクトルデータがあるかどうか調べ、全てのべクトルデータの内積差分を求めた場合にはステップ 1 4 1 2に飛ぶ。ただし、検索条件として与えた内積下限値が 0以上で、かつ、ベクトルデータの各成分の分布に偏りが小さい場合には、全てのべクトルデ一夕の内積差分を求めるはるか前にステップ 1 4 0 4で条件が「n o」になるため、通常の検索条件ではステップ 1 4 0 2が「n o」になることはない。

ステップ 1 4 0 3では A [ j ] が 0、即ち未調査のベクトルデータ中で、内積差分表の値 S [ j ] が最大となるようなベクトルデータの識別番号 j を求める。このステップの処理は、内積差分表 3 0 7を、内積差分値の降順に整列するか、あるいはヒープなどのデータ構造で表現することにより、効率のよい実行が可能である。

ステップ 1 4 0 4では、先に求めた tと S [ j ] とを比較し、もしも S [ j ] が t以下であれば、未調査のベクトルデータ中には現時点の n 件の候補の内積差分値を超えるべクトルデータは存在しないことが確定するのでステップ 1 4 1 2に飛び、現時点での候補から結果を計算して出力し、検索処理を終了する。 tが S [ j ] より大きい場合には、ステップ 1 4 0 5で着目ベクトルデータのフラグ A [ j ] を 1に変えて「内積差分を求めた」ことを記録し、ベクトル索引 3 0 1を検索して識別番号 jのベクトル Vを求め、質問ベクトル Qとの内積差分値（V · Q ) - αを求めて内積差分表 2 0 7の該当要素 S [ j ] 内の上限値を、正確な内積差分値で置き換える。記憶領域に余裕のある場合には、内積差分表を置き換えず、新たな表に記録しても差し支えない。

ステップ 1 4 0 6では、置き換えた後の S [ j ]と tとを再び比較し、 S [ j ] 力 S tより大きい場合には、ステップ 1 4 0 7〜ステップ 1 4 1 1までを実行して識別番号 jのベクトルデータを候補に加える。ステツプ 1 4 0 7では、この時点で既に L件の候補が求まっているかどうか判定し、まだ L件求まっていない場合には、ステップ 1 4 0 8で候補の件数 nを増やす。ステップ 1 4 0 9では候補の識別番号の配列 Bの最終候補（内積差分が候補中でもっとも低いような候補）として j を登録した後、 B [0. . n- 1] を、 S [ B [k] ]の降順に整列する。ステップ 1 4 1 0で候補件数 nが Lに達していれば、ステップ 1 4 1 1でしきい値 tを更新し、ステップ 1 4 0 2に戻って処理を続ける。

ステップ 1 4 0 2、もしくはステップ 1 4 0 4で判定が「 n o」になると、上記のループを抜け、ステップ 1 4 1 2に進む。ステップ 1 4 1 2では、 n件（最高 L件）の候補の識別番号 B [0]〜B [n- 1]のそれぞれについて、既に求めた内積差分値 S [B [k] ]に αを加えて内積の値を求め、 0から η— 1までの各 kについて、内積が k番目に大きいべクトルデー夕の結果番号 B [k]と、質問べクトル Vとの内積の値 S [ B [k] ]との組（B [k]， S [B [k] ] ) を類似ベクトル検索の最終結果として出力し、類似べクトル検索を終了する。

検索条件中の内積下限の値が 0 . 5以上と十分に大きく、かつべクトルデ一夕の分布に大きな偏りがなく、内積下限 α以上の内積となるべクトルデータの個数が取得件数 Lよりも十分多い場合には、ステップ 1 4 0 2〜ステップ 1 4 1 1のループを、取得件数 Lの数倍程度繰り返すと、ステップ 1 4 0 4の判定が「η ο」となるため、実際にベクトルを検索して内積を求めるベクトルデータの個数が非常に少なく、最終結果を効率よく求めることが可能となる。しかも、この特性は Lが数百程度の場合でも成り立つため、 Lが比較的大きい検索条件の場合には、 Lが高々数個の場合にしか実用的な検索速度が得られない従来の類似べク卜ル検索方法に比べ、処理効率が非常によくなる。

以上説明したように、本発明の第 3の実施の形態の類似ベクトル検索方法および装置によれば、べクトルの次元が数百に及ぶべクトルデータを多数集めたべクトルデータベースに対して、「最も類似している L個のベクトルデータを求める」という型の高速な類似検索が可能で、さらに Lが比較的大きい（数十〜数百個）場合でも検索処理が極端に遅くならず、「内積の値が 0 . 8以上」といった類似検索範囲の指定が可能な、べクトルの内積を類似尺度として用いる優れた類似べクトル検索方法および装置を提供することができる。

なお、本実施の形態 3においては、本発明の実施の形態 1のベクトル索引作成装置で作成したべクトル索引を検索する場合について説明したが、実施の形態 1の索引作成装置において、各部分ベクトルを求める処理を、ノルム区分番号と各成分の成分区分番号とから各成分の値を求めるように変更するだけで、本実施の形態 3の類似べクトル検索装置は、実施の形態 2のべクトル索引作成装置で作成したべクトル索引の検索にも用いることができ、上記と同様な効果が期待できる。

さらに、本実施の形態 3においては、類似ベクトル検索の第 1ステツプにおいて、各部分空間 bについての検索処理を逐次的に行う手順を説明したが、図 8 A、 8 Bの流れ図のステップ 1 3 0 6〜ステップ 1 3 1 7のループは、多数の C P U (中央処理装置）を持つ並列計算機の場合には、それぞれの C P Uで分担して処理し、共通の内積差分表に中間結果として累算することで、容易に高い並列度で並列処理することができ、検索速度をさらに向上させることが可能である。ぐ第 4の実施の形態 >

次に、本発明の第 4の形態について、図面を参照しながら説明する,

(類似べクトル検索装置の構成）

図 4は本発明の請求項 1 0、 1 1、 1 3、 2 3、 2 4、 2 6にかかる類似べクトル検索装置の全体構成を表わすブロック図である。図 4において、ベクトル索引 4 0 1は、上記した第 1の実施の形態のベクトル索引作成装置によって作成したものであり、 2 0万件の新聞記事を集めた新聞記事全文データベースから作成した、各新聞記事の特徴を表す 2 9 6次元の実ベクトルと、各記事を一意に識別するための 1から 2 0 0 0 0 0の範囲の識別番号の 2項目からなるべクトルデータを 2 0万個格納した、図 1 2 A、 1 2 Bのような内容を持つベクトルデータベースから作成したべクトル索引である。

検索条件入力手段 4 0 2は、前記新聞記事全文データベースに対する類似検索を行うために、前記新聞記事全文データベース中のいずれかの記事の識別番号と、類似検索範囲を示す 0〜 1 0 0までの類似度下限値と最大取得件数とを入力し、ベクトル索引 4 0 1を識別番号で検索して入力された識別番号から対応する記事のべクトルを質問べクトル Qとして求め、類似度下限値から二乗距離、即ち距離の二乗の上限値である、二乗距離上限値 α ²を求める。

部分質問条件算定手段 4ひ 3は、検索条件入力手段 4 0 2が求めた質問ベクトル Qに対し、 0〜 3 6までの部分空間について、 3 7種の 8次元部分質問べクトル Qと、 Qに対応する部分べクトルとの二乗距離の上限値である部分二乗距離上限値 f ²を f ² = ひ ² I Q I ² I Q I ²によつて算定する。

検索対象範囲生成手段 4 0 4は、部分質問条件算定手段 4 0 3が求めた部分空間 bに対する部分質問べクトル Qと部分二乗距離上限値 f ²とべクトル索引 4 0 1中のノルム区分表および偏角区分表とから、部分質問べクトル qとの部分二乗距離が部分二乗距離上限値 f ²より小さい可能性がある部分ベクトルを含んでいる領域を特定する領域番号 d、偏角区分番号 c、ノルム区分範囲 [ rい r ₂ ] の組（d， c， [ r ₁； r ₂ ] ) を全て列挙する。

索引検索手段 405は、検索対象範囲生成手段 404が各部分空間 b に対して生成した（d, c, [ r ₁； r ₂] ) から、べクトル索引 40 1 に対する検索条件 Kを、べクトル索引作成時における鍵の算定と同様に、 - L _m j _n , k_max]

kmi

* 76 1 7440 +d * 1 024 + c * 2 56 + r ₁ k_max= b * 76 1 7440 + d * l 024 + c * 256 + r ₂ と算定し、べクトル索引 40 1を検索条件 Kで範囲検索して検索条件に合致する鍵を持つ部分ベクトル Vと識別番号 iとの組（ i， V) をすベて求める。

二乗距離差分上限算定手段 406は、索引検索手段 40 5が求めた部分ベクトル Vと識別番号 i との組（ i， V) および部分質問条件算定手段 40 3が求めた部分質問べクトル Qと部分二乗距離上限値 f ²から、 t = f ²- I v- q I ²によって部分二乗距離差分値 tを算定して、識別番号 iを添字とする表の要素 S [ i ] に、部分二乗距離差分値 tを累算 (加算）することで、二乗距離上限値 α²から、識別番号 iのベクトルデータのべクトル Vと質問べクトル Qとの二乗距離 I V— Q I ²を減じた二乗距離差分の上限値を算定する。

二乗距離差分表 407は、二乗距離差分上限算定手段 406が二乗距離差分の上限値を蓄積する、識別番号 iのベクトルべ一夕の二乗距離差分値 S [ i ] を参照格納する。

類似検索結果決定手段 40 8は、二乗距離差分表 40 7の要素 S [i] 中で、二乗距離差分上限値 S [i]が正の値で大きいものから順に、べクトル索引 40 1を識別番号 iで検索して対応するべクトル Vを求め、検索条件入力手段 40 2が算出した二乗距離上限値 α²から、 Vと検索条件入力手段 40 2が算出した質問べクトル Qとの二乗距離 I V— Q I ²を差し引いた二乗距離差分値ひ ²— I V - Q I ²を算出して、 S [i]を二乗距離差分値ひ ²— I V - Q I ²で置き換え、二乗距離差分値を算出していない記事の部分二乗距離差分累算値の最大値より大きい二乗距離差分値を持った二乗距離差分値を算出した記事が L個以上になった時点、あるいは部分二乗距離差分累算値が正である全ての記事の二乗距離差分値を算出した時点で、二乗距離差分値が正である、二乗距離差分値の大きな最大 L個の結果候補（ i , S [i] )〖こ対し、識別番号 i と距離 s q r t (ひ ²— S [i] ) との組（ i , s q r t ( a ² _ S [i] ) ) を、検索結果として、検索結果出力手段に出力する。

検索結果出力手段 4 0 9は、類似ベクトル検索の結果である、最大 L 件の新聞記事の識別番号と 0〜 1 0 0の範囲の類似度とを、類似検索結果決定手段 4 0 8が求めた検索結果から算定して表示するものである。

(類似べクトル検索装置の動作）

以上の構成の類似べクトル検索装置において、その動作を図面をもとに説明する。図 1 0 A、 1 0 Bは一体となって類似ベクトル検索の第 1 ステップにおける検索処理の手順を記述した流れ図、図 1 1 A、 1 1 B は一体となって類似べクトル検索の第 2ステップにおける検索処理の手順を記述した流れ図である。類似ベクトル検索の第 1ステップでは、検索条件入力手段 4 0 2から入力された検索条件から部分質問べクトル Q と部分二乗距離上限値 f とを作成し、べクトル索引 4 0 1を検索して、各ベクトルデータの二乗距離差分上限値 S [ i ] 、即ち二乗距離上限値から質問ベクトルとの二乗距離を減じた値が S [ i ] 未満となるような値を二乗距離差分表 4 0 7に求める。次に、類似ベクトル検索の第 2ステツプでは、第 1ステップで二乗距離差分表 4 0 7に求めた二乗距離差分上限値を手がかりにして、類似検索結果決定手段 4 0 8が、「質問べクトルとの二乗距離が α²より小さい」という検索条件に合致し、かつ質問べクトルとの二乗距離が比較的小さいべクトルデータから順に、ベクトルの成分を検索して二乗距離差分を求めていき、二乗距離差分を求めていないべクトルデータのどれよりも二乗距離差分値が大きいことが保証されるベクトルデータが指定件数（即ち L件）以上集まるか、あるいは検索条件に合致する全てのべクトルデ一夕について二乗距離差分値を求めるまで処理を続け、得られた二乗距離差分値から距離を算出して最終結果を出力する。 (類似ベクトル検索の第 1ステップ）

以下、検索条件として識別番号 1、類似度下限値 90、最大取得件数 1 0が入力された場合を例にとって、図 1 0 A、 1 0 B、 1 1 A、 1 1 Bにそって類似べクトル検索の内容を説明する。識別番号が 1なので、 296次元のベクトルの各成分は、図 1 2 Aの通りとなる。まず、ステップ 1 50 1で二乗距離差分表 Sの 20万個の要素 S [0] 〜S [20 0000] を 0に初期設定する。次に、上記の検索条件を検索条件入力手段 402から読み込み、それぞれ i， Z, Lに格納する。

ステップ 1 502で部分空間番号 bを 0に初期化したあと、類似度下限値 Zから、二乗距離上限値ひ ²を算出する。この検索条件の場合には、ひ— （1 00— 90) /50 = 0. 2となる。ステップ 1 504、ステップ 1 50 5で、各部分空間について、ベクトル索引 40 1の逆変換表 Kを引いて鍵を求め、探索表を検索してベクトルデータを求め、識別番号が 1であるもののべクトル部分を Qに格納することで、質問べクトルを Q [0..295] に求める。ステップ 1 506で部分空間番号を初期化した後、ステップ 1 507〜ステップ 1 5 1 7で各部分空間についてべクトル索引を検索して二乗距離差分表 40 7に各べクトルデータの二乗距離差分上限値を求める。

ステップ 1 5 0 7では、部分空間番号 bの部分質問べクトル Q [0..7] と部分二乗距離上限値 f ²、即ちこの部分空間の部分べクトルデータ V と Qとの部分二乗距離の上限値を求める。 b = 0の場合には、 I Q I ² = 0. 2 2 1 7 9 5 , | Q = 1であるから、

f ²= 0. 0 4 * 0. 2 2 1 7 9 5/ 1. 0 = 0. 0 0 8 8 7 1 8 となる。領域番号 dを 0に初期化したあと、検索対象範囲を決定するために用いる表 Wを作成する。表 Wは偏角区分番号 c，ノルム区分番号 r で引いて、着目している領域番号 dの領域の中心べクトル pと部分質問ベクトル Qとの内積 p · qが W [c， r ] 未満ならば、区分（d， c , 0) 〜区分（d , c， r ) の部分ベクトル vと部分質問ベクトル Qとの部分二乗距離が f ²以上となるように作成する。この場合には、区分（d， c , 0 ) 〜区分（d， c , r ) の部分ベクトルはこの部分空間に対する検索条件（即ち部分二乗距離が f ²より小さい）を満たさないため、これらの区分の検索を省略することができる。

表 Wを求めるには、部分べクトル Vが領域 d内で最も部分質問べクトル Qに近い場合、即ち p、 Q、 Vがー平面上にあり、かつ Vと Qとのなす角 ωが偏角区分 cの範囲内でもっとも小さい場合を考えればよい。このとき、 Ρと Qのなす角を Θ、 Ρと Vのなす角の最大値を φとすると、 Vと qのなす角 ωは ω = Θ— φとなるから、

f ²> I V - q I ² = I V I ²+ I q I ² - 2 *| V |* | q |*cos(0 - ) > R [r] ² + I q I ² - 2 * R [r+1] *| q I* (cos Θ *cos φ + sin θ Ξϊη )

と、

C [c] =cos<|)

cos0 = (p · q) /I P 1*1 Q 1= (p · q) /I q I とから、 P · Qが満足する不等式

f ²>R [r] ² + | q I ² - 2 *R [r+1] * ((p · q ) * C [c] +SQrt (| q | ²- (p · q) ²) *sart (1— C [c] ²))

を解いて、ステップ 1 507の W [c， r] の式を得る。

このように、実際の部分ベクトル Vの成分を参照せず、また領域 dにも依存せずに、部分質問べクトルのノルム I Q Iだけから表 W[c， Γ]の値を定めることができる。本実施例の場合には、ノルム区分表 R、偏角区分表 Cがそれぞれ図 1 5 A、 1 5 B、 1 6の通りなので、 b = 0， b = 1の場合には、表 Wは図 1 8 A、 1 8 B、 1 8 Cのような内容となる。図 1 7A、 1 7 Bと同様に、図中で表の値が「 9. 99999」となつている要素は、この部分質問べクトル Qについては検索対象とはならないノルム区分であることを意味している。また、 b=0では区分 1 0〜 2 55, b = 1区分 0〜 59および区分 1 80〜 2 55までの表の値が記載されていないが、この部分はすべて値が「 9. 99999」であるので省略している。これが、類似尺度として距離を用いているため、ノルムが小さすぎても、逆に大きすぎても、部分質問ベクトルとの距離が大きくなつてしまい、結果的に「距離がひ未満」という検索条件を満足できなくなるためである。

ステップ 1 508で着目する領域の領域中心べクトル pと部分質問べクトル Qとの内積 tを求め、偏角区分用のループ変数 cを 0に初期化した後、ステップ 1 509で表 Wの最小値を与える要素 M i n (W[0, r]) より内積 tが小さいか否か検査し、小さい場合には、領域 dを鍵の一部とするどの部分べクトルも検索条件を満足しないことが確定するのでステツプ 1 5 1 2に飛び、そうでない場合には、ステップ 1 5 1 0で偏角区分 cについて、検索すべきノルム区分の最低値 r_{mi n}及び最高値 r_ma _xをステップ 1 50 7で算定した表 Wを手がかりにして、 W [c , r ] < tが成り立つノルム区分番号 rの区間として求め、この [ r_{m i n} r_m _ax] と部分空間番号 b、領域番号 d、偏角区分番号 cとから、ベクトル索引 4 0 1の検索範囲 [kmin kmax] を求める。

ステップ 1 5 1 1では、この検索範囲 [kmin kmax] を鍵にして探索木を範囲検索し、範囲検索結果に含まれる、識別番号 j とベクトル Vの組（j , V) のそれぞれについて、部分二乗距離上限値 f ²から部分質問べクトル qと Vとの部分二乗距離 I V _ Q I ²を減じた部分二乗距離差分値を算定、二乗距離差分表 4 0 7の該当要素 S [ j ] に累算する。例えば、 b = 0 , d = 4 2 1 2の場合には、

p = (+ 1 /2 , - 1 /2 , - 1 / 2 , + 1 /2 , 0 , 0 0 0 ) であるから、

t = p · q = +0.045687

となり、 M i n (W[0 r]) =0.03356 よりも tが大きく、ステップ 1 5 1 0に進む。図 1 5 A 1 5 Bの表 Wより、例えば c = 0の場合には、

^A r m i n = 1 r ma x = 5

であり、探索木の検索範囲は、

[ k min , k max ] = [ 0*6717440+4212*1024†0*256+1, 0*6717440+4212*1024+0*256+5] = [4313089, 4313093]

となる。識別番号 1のべクトルデータの b = 0の部分べクトル Xは、

X = (+0.029259 -0.016005 -0.021118 +0.024992 - 0· 006860 -0.009032 -0.007255 -0.007715)

となり、 k =0*6717440+4212*1024+0*256+1 = 4313089で登録されているので、この範囲検索の結果の 1つとなる。その部分二乗距離差分値は、 f 2一 j _v _ _q I 2 = 0.0088718- 0 = 0.0088718 となり、 S [ 1] = 0. 0088718となる。

このようにして、ステップ 1 5 1 2、ステップ 1 5 1 3で cを増やしながら各偏角区分について検索範囲の決定と検索処理、二乗距離差分の算出と累算を行う。ステップ 1 5 1 4、ステップ 1 5 1 5で領域番号 d を 6 5 6 0まで順に増やしながら各領域についてステップ 1 5 0 8〜ステツプ 1 5 1 3の処理を行う。ステップ 1 5 1 6、ステップ 1 5 1 7で部分空間番号を 3 7まで順に増やしながら各部分空間についてステップ 1 5 0 7〜ステップ 1 5 1 5の処理を行い、類似べクトル検索の第 1ステツプを終了する。この段階で、二乗距離差分表 4 0 7には各識別番号のベクトルデータ Vについて、二乗距離上限値 α ²と、質問ベクトル Q との二乗距離 I V _ Q I ²との差である、二乗距離差分値ひ ²— I V - Q I ²の推定値の上限が求まる。なぜなら、各部分空間 bについて、部分質問べクトル Qとの二乗距離が部分二乗距離上限値 f ²より小さな部分ベクトルについては、もれなく部分二乗距離差分値を求めているので、部分二乗距離差分値を求めなかったべクトルデータの部分二乗距離差分値は負の値となるはずであり、この負の値を 0で置き換えて累算している（「二乗距離差分表を変化させない」ということは 0を累算していることに等価である）ので、部分二乗距離差分値の累算結果は、二乗距離差分値を上から押さえる、二乗距離差分上限値の 1つとなるからである。こうして二乗距離差分表 4 0 7を求めた後、類似べクトル検索の第 2ステツプを実行し、最終的な検索結果を得る。

(類似べクトル検索の第 2ステップ）

次に、図 1 1 A、 1 1 B.の流れ図にそって第 2ステップの処理手順を説明する。ステップ 1 6 0 1で現時点での検索条件を満たす候補の件数を 0クリアし、べクトルデータの二乗距離差分を求めたか否かのフラグ A [0. . 200000] も 0、即ち「二乗距離差分を求めていない」に初期設定する。そして、現時点で検索条件を満たす候補のうちの二乗距離差分値の最低値（=しきい値） tを 0に初期化する。

ステップ 1 6 0 2では、まだ未調査、即ち二乗距離差分を求めていないべクトルデータがあるかどうか調べ、全てのべクトルデータの二乗距離差分を求めた場合にはステップ 1 6 1 2に飛ぶ。ただし、検索条件として与えた二乗距離上限値が 1以下で、かつ、ベクトルデータの各成分の分布に偏りが小さい場合には、全てのべクトルデータの二乗距離差分を求めるはるか前にステップ 1 6 0 4で条件が「n o」になるため、通常の検索条件ではステップ 1 6 0 2が「n o」になることはない。ステップ 1 6 0 3では A [ j ] が 0、即ち未調査のベクトルデータ中で、二乗距離差分表の値 S [ j ] が最大となるようなベクトルデータの識別番号 j を求める。このステップの処理は、二乗距離差分表 4 0 7を、二乗距離差分値の降順に整列するか、あるいはヒープなどのデータ構造で表現することにより、効率のよい実行が可能である。

ステップ 1 6 0 4では、先に求めた tと S [ j ] とを比較し、もしも S [ j ] が t以下であれば、未調査のベクトルデータ中には現時点の n 件の候補の二乗距離差分値を超えるべクトルデータは存在しないことが確定するのでステップ 1 6 1 2に飛び、現時点での候補から結果を計算して出力し、検索処理を終了する。

tが S [ j ] より大きい場合には、ステップ 1 6 0 5で着目ベクトルデータのフラグ A [ j ] を 1に変えて「二乗距離差分を求めた」ことを記録し、べクトル索引 4 0 1を検索して識別番号 jのべクトル Vを求め、質問べクトル Qとの二乗距離差分値ひ ²— I V - Q I ²を求めて二乗距離差分表 4 0 7の該当要素 S [ j ] 内の上限値を、正確な二乗距離差分値で置き換える。記憶領域に余裕のある場合には、二乗距離差分表を置き換えず、新たな表に記録しても差し支えない。ステップ 1 606で、置き換えた後の S [ j ] と tとを再び比較し、 S [ j ] が tより大きい場合には、ステップ 1 607〜ステップ 1 6 1 1までを実行して識別番号 jのベクトルデータを候補に加える。

ステップ 1 607では、この時点で既に L件の候補が求まっているかどうか判定し、まだ L件求まっていない場合には、ステップ 1 608で候補の件数 nを増やす。ステップ 1 609では候補の識別番号の配列 B の最終候補（二乗距離差分が候補中でもっとも低いような候補）として j を登録した後、 B [0.. n-1] を、 S [B [k]]の降順に整列する。ステツプ 1 6 1 0で候補件数 nが Lに達していれば、ステップ 1 6 1 1でしきい値 tを更新し、ステップ 1 602に戻って処理を続ける。ステップ 1 602、もしくはステップ 1 604で判定が「n o」になると、上記のループを抜け、ステップ 1 6 1 2に進む。

ステップ 1 6 1 2では、 n件（最高 L件）の候補の識別番号 B [0]〜 B [n-1]のそれぞれについて、既に求めた二乗距離差分値 S [B [k]]から、 s q r t (ひ ²— S [B [k]]) で質問ベクトル Qとの距離を求め、 0から n一 1までの各 kについて、距離が k番目に小さいべクトルデータの結果番号 B [k]と、質問ベクトル Qとの距離の値 S [B [k]]との組（B [k]、 S [B [k]]) を類似べクトル検索の最終結果として出力し、類似べクトル検索を終了する。

検索条件中の二乗距離上限ひ ²の値が 0. 5以下と十分に小さく、かつべクトルデータの分布に大きな偏りがなく、二乗距離上限 α²未満の二乗距離となるべクトルデータの個数が取得件数 Lよりも十分多い場合には、ステップ 1 602〜ステップ 1 6 1 1のループを、取得件数しの数倍程度繰り返すと、ステップ 1 604の判定が「η ο」となるため、実際にべクトルを検索して二乗距離を求めるべクトルデータの個数が非常に少なく、最終結果を効率よく求めることが可能となる。しかも、この特性は Lが数百程度の場合でも成り立つため、 Lが比較的大きい検索条件の場合には、 Lが高々数個の場合にしか実用的な検索速度が得られない従来の類似ベクトル検索方法に比べ、処理効率が非常によくなる。以上、説明したように、本発明の第 4の実施の形態の類似ベクトル検索方法によれば、べクトルの次元が数百に及ぶべクトルデータを多数集めたべクトルデータベースに対して、「最も類似している L個のべクトルデ一夕を求める」という型の高速な類似検索が可能で、さらに Lが比較的大きい（数十〜数百個）場合でも検索処理が極端に遅くならず、「距離の値が 0 . 2以下」といった類似検索範囲の指定が可能な、ベクトル間の距離を類似尺度として用いる優れた類似べクトル検索方法が実現でさる。

なお、本実施の形態 4においては、本発明の実施の形態 1のベクトル索引作成装置で作成したべクトル索引を検索する場合について説明したが、実施の形態 1の索引作成装置において、各部分ベクトルを求める処理を、ノルム区分番号と各成分の成分区分番号とから各成分の値を求めるように変更するだけで、本実施の形態 4の類似ベクトル検索装置は、実施の形態 2のべクトル索引作成装置で作成したべクトル索引の検索にも用いることができ、上記と同様な効果が期待できる。

また、本実施の形態 4においては、質問ベクトルを直接入力せず、ベクトルデータベース中のべクトルデータの識別番号を指定する形態を説明したが、外部から直接質問ベクトルのデータを指定した場合でも、上記の説明と同様の方法で、類似べクトル検索装置を用意に実施できる。さらに、本実施の形態 4においては、類似ベクトル検索の第 1ステツプにおいて、各部分空間 bについての検索処理を逐次的に行う手順を説明したが、図 1 0 A、 1 0 Bの流れ図のステップ 1 5 0 6〜ステップ 1 5 1 7のループは、多数の C P U (中央処理装置）を持つ並列計算機の場合には、それぞれの C P Uで分担して処理し、共通の内積差分表に中間結果として累算することで、容易に高い並列度で並列処理することができ.、検索速度をさらに向上させることが可能である。産業上の利用可能性

以上のように本発明のべクトル索引作成方法は、部分べクトル算定手段と、ノルム分布集計手段と、ノルム区分表と、領域番号算定手段と、偏角分布集計手段と、偏角区分表と、ノルム区分番号算定手段と、偏角区分番号算定手段と、索引データ算定手段と、索引構成手段とを有することにより、方向、ノルムの分布が不明なベクトルデータベースに対して、ベクトルの次元が数百次元の場合でも、高速な検索が可能で、類似検索の際に、ベクトル間の距離と、ベクトルの内積の 2種類の類似度のいずれかを選択でき、「もっとも類似している L個のベクトルを求める」という型の類似検索ができ、さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならず、「内積が 0 . 6以上」といつた、類似検索範囲の指定が可能で、索引作成に要する計算量が実用的範囲であるような、ベクトル索引の作成を可能にする、という効果を奏するものである。

また、本発明のベクトル索引作成方法は、成分区分番号算定手段をさらに有することにより、上記の効果に加えて、成分の量子化による計算誤差を最小限に抑えながら、作成すべきべクトル索引の容量を大幅に低減できる、という効果を奏するものである。

また、本発明の類似ベクトル検索方法は、部分質問条件算定手段と、検索対象範囲生成手段と、索引検索手段と、内積差分上限算定手段もしくは二乗距離差分上限算定手段と、類似検索結果決定手段とを有し、部分内積差分の累算値を算定して類似検索の手がかりとして用いることにより、ベクトルデータベースに対して、ベクトルの次元が数百次元の場合でも、高速な検索が可能で、「もっとも類似している L個のベクトルを求める」という型の類似検索ができ、さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならず、「内積が 0 . 6以上」といった、類似検索範囲の指定が可能な、内積あるいは距離を類似尺度として用いる類似べクトル検索を可能にする、という効果を奏するものである。しかも、内積と距離のどちらを類似尺度として用いるかをベクトル索引の作成時に指定する必要がなく、単一のベクトル索引を使つて、検索時に必要に応じて、類似尺度の使い分けが可能であるという、優れた効果を奏するものである。

また、本発明の類似ベクトル検索方法は、部分質問条件を算定する手段と、検索対象範囲を生成する手段と、索引を検索する手段と、二乗距離差分上限を算定する手段と、類似検索結果を決定する手段とを有し、部分二乗距離差分の累算値を算定して類似検索の手がかりとして用いることにより、ベクトルデータベースに対して、ベクトルの次元が数百次元の場合でも、高速な検索が可能で、「もっとも類似している L個のベクトルを求める」という型の類似検索ができ、さらに、 Lが比較的大きい（数十〜数百）場合でも、検索処理が極端に遅くならず、「距離が 0 . 8以下」といった、類似検索範囲の指定が可能で、距離を類似尺度として用いる類似べクトル検索を可能にする、という効果を奏するものである。

本発明の効果は、索引作成対象、検索対象となるベクトルデータの次元が数百次元と高く、ベクトルべ一夕ベース中のベクトルデータ数が数十万〜数百万個と多く、検索時の取得件数が数十個と多い場合には特に顕著であり、従来のべクトル索引作成方法では数百時間を要していた索引作成時間を数十分に短縮するとともに、従来の類似べクトル検索方法では数分を要する、あるいは実行不可能であった類似検索処理を 1秒以下で処理することができ、実用上、非常に大きな効果が得られる。

Claims

請求の範囲

1. 少なくとも N次元実ベクトルと、その識別番号とを含む組をべクトルデータとして有限個登録したべクトルデータベースに対して、機械検索可能な索引を作成する方法であって、

べクトル索引作成の第 1ステップでは、前記べクトルデータベース中の各べクトルデータの N次元実べクトル Vに対して、 N個の成分を予め定めた方法で m組に分けて、 m個の部分べクトル V 〜 v_mを作成した後，部分ベクトル v_k (k= l〜m) のノルムの分布を集計して、予め定められた D種のノルム区分のノルムの範囲を定めたノルム区分表を作成するとともに、予め定めた D個の領域中心ベクトル p i〜p_Dに従って、前記部分べクトル v_kの所属する領域番号 dを算定し、前記部分べクトル v _kと領域中心べクトル p _dとのなす角の余弦（v _k · p _d) / ( I V _k I * I P _d I ) の分布を偏角分布として集計して、予め定めた C種の偏角区分の偏角の範囲を記録した偏角区分表を作成し、

べクトル索引作成の第 2ステップでは、前記べクトルデータベース中の各べクトルデータの N次元実べクトル Vに対して、前記第 1のステツプと同一の方法で N個の成分を m組に分けて、 m個の部分べクトル V！〜v_mを作成した後、部分空間番号 bに対する部分ベクトル v_b (b= 1 〜m) に対して、前記ノルム区分表を参照して前記各部分ベクトル v_b のノルムが所属するノルム区分の番号 rを算定するとともに、前記第 1 のステップと同一の方法で、予め定めた D個の領域中心べクトル p i〜 P_Dに従って、前記部分ベクトル v_bの所属する領域番号 dを算定し、前記部分べクトル v_bと前記領域番号 dの領域の中心方向を表す領域中心べクトル p _dとのなす角の余弦である偏角（v_b ' p_d) （ | v_b | * | P_d I ) を算定して、前記偏角区分表を参照して、所属する偏角区分の番号 cを算出し、前記部分空間番号と、前記領域番号 dと、前記偏角区分番号 cと、前記ノルム区分番号 rと、前記部分ベクトル v_bの成分と、識別番号 iとから、ベクトル索引に登録する索引登録データを算定し、

ベクトル索引作成の第 3ステップでは、前記ノルム区分表と、前記偏角区分表と、前記索引登録データとから、各部分ベクトルの識別番号と成分とを、部分空間番号 b、領域番号 d、角区分番号 c、ノルム区分番号範囲 r ₂] の組を鍵にして、索可能で、かつ各ベクトルデ一夕のべクトルの成分を、その識別番号で検索可能なべクトル索引として構成することを特徴とするべクトル索引作成方法。

2. 少なくとも N次元実ベクトルと、その識別番号とを含む組をべクトルデータとして有限個登録したべクトルデータベースに対して、機械検索可能な索引を作成する方法であって、

べクトル索引作成の第 1ステップでは、前記べクトルデータベース中の各べクトルデータの N次元実べクトル Vに対して、 N個の成分を予め定めた方法で m組に分けて、 m個の部分べクトル V 〜 v_mを作成した後、各部分空間番号 bに対する部分ベクトル v_b (b= l〜m) のノルムの分布を集計して、予め定められた D種のノルム区分のノルムの範囲を定めたノルム区分表を作成するとともに、予め定めた D個の領域中心べクトル P P Dに従って、前記部分べクトル V _bの所属する領域番号 dを算定し、前記部分べクトル v_bと領域中心べクトル p_dとのなす角の余弦 (v_b- p_d)/( I v_b I * I _{P d} I )の分布を偏角分布として集計して、予め定めた C種の偏角区分の偏角の範囲を記録した偏角区分表を作成し、べクトル索引作成の第 2ステップでは、前記べク卜ルデータベース中の各べクトルデータの N次元実べクトル Vに対して、前記第 1ステップと同一の方法で N個の成分を m組に分けて、 m個の部分べクトル V 〜 v_mを作成した後、前記部分空間 bに対する部分ベクトル v_b (b= l〜 m) に対して、前記ノルム区分表を参照して前記各部分ベクトル v_bのノルムが所属するノルム区分の番号 rを算定するとともに、前記第 1ステツプと同一の方法で、予め定めた D個の領域中心べクトル p i p Dに従って、前記部分ベクトル v_bの所属する領域番号 dを算定し、前記部分べクトル V _bと前記領域番号 dの領域の中心方向を表す領域中心べクトル p _dとのなす角の余弦である偏角（v_b · p_d) （ I v_b I * I p _d I ) を算定して、前記偏角区分表を参照して、所属する偏角区分の番号 cを算出し、前記算定したノルム区分番号 rに対応するノルム区分のノルムの最高値から、前記算定した部分べクトル v_bの各成分 v_{b j}に対して、 V _{b j}が所属する予め定めた範囲の成分区分番号 Wjを算定し、前記部分空間番号 bと、前記領域番号 dと、前記偏角区分番号 cと、前記ノルム区分番号 rと、前記成分区分番号 _Wjの列と、識別番号 i とから、べクトル索引に登録する索引登録データを算定し、

ベクトル索引作成の第 3ステップでは、前記ノルム区分表と、前記偏角区分表と、前記索引登録データとから、各部分ベクトルの識別番号と成分とを、部分空間番号 b、領域番号 d、偏角区分番号 c、ノルム区分番号範囲 [ι^, r ₂] の組を鍵にして、検索可能で、かつ各ベクトルデ —夕のベクトルの成分を、その識別番号で検索可能なベクトル索引として構成することを特徴とするべクトル索引作成方法。

3. 前記べクトル索引作成の第 1および第 2のステップにおいて、部分べクトル vbと領域中心べクトル pdとのなす角度の関数として、角度の余弦（ vb · pd) ノ（ I vb i * I pd I ) を用い、この値を偏角として偏角分布を求める、請求項 1又は 2記載のベクトル索引作成方法。

4. 前記べクトル索引作成の第 1および第 2のステップにおいて、 N次元べクトル Vの全成分を取り出すように、 Vの先頭の成分から順に、 N/m個、あるいは（NZm) + 1個の成分を取り出して、部分べクトルを作成する請求項 1又は 2記載のべクトル索引作成方法。

5. 前記ベクトル索引作成の第 1のステップにおいて、ノルム区分表を作成する際に、ノルム分布の集計結果をもとに、各ノルム区分に相当するノルム範囲に所属する部分べクトルの数が、できる限り均一になるようにノルム区分を定める請求項 1記載のべクトル索引作成方法。

6. 前記ベクトル索引作成の第 1のステップにおいて、偏角区分表を作成する際に、偏角分布の集計結果をもとに、各偏角区分に相当する偏角範囲に所属する部分べクトルの数が、できる限り均一になるように偏角区分を定める請求項 1記載のべクトル索引作成方法。

7. 前記べクトル索引作成の第 1および第 2のステップにおいて、部分べクトル V _bの領域番号を、予め定めた D個の領域中心べクトル p i 〜P_Dのうち、 ₀₁と ₁₎のなす角の余弦（V b ' p Z U vb l * ! p _d I ) がもっとも大きくなるような領域中心べクトル p _dの番号 dとして求める請求項 1又は 2記載のべクトル索引作成方法。

8. 前記ベクトル索引作成の第 3のステップにおいて、部分空間番号 b、領域番号 d、偏角区分番号 c、ノルム区分番号 rを結合した番号（b *Nd*Nc*Nr) + (d * Nc* Nr) + (c *Nr) + rを鍵とし、ベクトルの識別番号 i と成分とを検索可能な探索木と、ベクトルデ一夕の識別番号を添字とする、各部分べクトルの前記探索木の鍵を記録した表とを作成し、べクトル索引の一部とする請求項 1又は 2記載のベクトル索引作成方法。

9. 前記ベクトル索引作成の第 2のステップにおいて、成分が {一

1 , 0， + 1 } のうちのいずれかである、 0ベクトルでない全てのべクトル（0, ···, 0, + 1) 〜（— 1， …， — 1) を正規化したベクトルを領域中心べクトルとして用いる請求項 1又は 2記載のべクトル索引作成方法。

1 0. 検索条件として N次元実ベクトルの質問ベクトル Qと、内積下限値ひ、および最大取得ベクトル数 Lとを指定して、少なくとも N次元実べクトルとその I D番号との組を有限個登録したべクトルデータから作成したべクトル索引を検索して、前記べクトルデータベースのべクトルデータ（ i , V) で、前記質問ベクトル Qとの内積の値 V · Qが前記内積下限値ひより大きいものについて、その識別番号 iと、 Qと Vの内積の組（ i , V · Q) を最大 L個求める類似ベクトルの検索方法であつて、

類似べクトル検索の第 1ステップでは、前記質問べクトル Qに対して、 Qの N個の成分を、前記べク卜ル索引の作成時に用いた方法と同一の、予め定めた方法で m組に分けて、 m個の部分質問べクトル (！ェ〜^ を作成するとともに、各部分質問べクトル q_bと対応する部分べクトルとの内積（この内積をこれ以降「部分内積」と呼ぶ）の下限値である部分内積下限値 f _bを、指定された内積下限値ひから算定し、各部分質問べクトル Q_b (b= l〜m) と各領域 bに対して、領域中心ベクトル p_dと前記部分質問ベクトル Q_bとの内積 P_d · Q_bの値と、前記部分内積下限値 f _bと、前記べクトル索引中のノルム区分表および偏角区分表とから、部分空間番号 b、領域番号 dにおいて検索すべき偏角区分番号 c、ノルム区分の範囲 [ ， r ₂] の組（c， [r ₁； r ₂] ) を算定し、前記算定した（c， [r r ₂] ) を基に、（b， d， c, [r ₁₍ r ₂] ) を検索条件として前記べクトル索引を範囲検索し、索引検索結果として、条件を満たす部分べクトル v_bの識別番号 i と成分とを求め、前記 v_bと

Q _bとの部分内積V _b · Q _bと前記部分内積下限値 f _bとの差である、部分内積差分（v_b * Q_b) —： f _bを算出して、内積差分表の識別番号 iの内積差分上限値 S [i]として累算（加算）し、

類似べクトル検索の第 2ステップでは、前記内積差分表 S [ i]中で値の大きいものから順に、前記べクトル索引を識別番号 iで検索してべクトルデータの成分 Vを求め、 Vと前記質問べクトル Qとの内積 V · Qからを差し引いた内積差分値 t =V · Q_ aを算出していき、前記内積差分表中で、内積差分値を算出していない要素の最大値より大きい内積差分値を持つべクトルデータが L個以上になった時点、あるいは内積差分上限値が正である全てのべクトルデータの内積を算出した時点で、内積差分値の大きな最大 L個のべクトルデータに対し、少なくとも識別番号 i と内積 t +ひとの組を、検索結果として出力することを特徴とする類似べクトル検索方法。

1 1. 検索条件として N次元実ベクトルの質問ベクトル Qと、距離上限値ひ、および最大取得ベクトル数 Lとを指定して、少なくとも N次元実べクトルとその識別番号との組を有限個登録したべクトルデータから作成したべクトル索引を検索して、前記質問べクトル Qとの内積の値が前記距離上限値 α以下であるような、前記べクトルデータ中の Ν次元実ベクトル Vの識別番号 iと、 Qと Vの距離 pの組（ i , p) を最大 L 個求める類似べクトルの検索方法であって、

類似べクトル検索の第 1ステップでは、前記質問べクトル Qに対して、 Qの N個の成分を、前記べクトル索引の作成時に用いた方法と同一の、予め定めた方法で m組に分けて、 m個の部分質問べクトル q を作成するとともに、各部分質問べクトル Q_bと対応する部分べクトル v_bとの二乗距離 I v_b— q_b I ² (すなわちユークリッド距離の二乗、この値をこれ以降「部分二乗距離」と呼ぶ）の上限値である部分二乗距離上限値 f _bを、指定された距離上限値ひから算定し、各部分質問ベクトル q _b (b= l〜m) に対して、前記部分質問ベクトル q_bと、前記部分二乗距離上限値 f _bと、前記ベクトル索引中のノルム区分表および偏角区分表とから、検索すべき部分空間番号 b、領域番号 d、偏角区分番号 c、ノルム区分の範囲 [i^, r ₂] の組（b， d, c , [ r ₁； r ₂] ) を系統的に生成し、前記生成した（b, d， c， [r _1; r ₂] ) を検索条件として、前記ベクトル索引を範囲検索して、索引検索結果として、条件を満たす部分ベクトル v_bの識別番号 i と成分とを求め、前記部分二乗距離上限値 f _bと、 v_bと q_bとの部分二乗距離 I v_b— Q_b I ²との差である、部分二乗距離差分 f _b— I v_b-q_b I ²を算出して、二乗距離差分表の識別番号 iの二乗距離差分上限値 S [ i ]として累算（加算）し、類似べクトル検索の第 2ステップでは、前記二乗距離差分表 S [ i ]中で値の大きいものから順に、前記ベクトル索引を識別番号 iで検索してべクトルデータの成分 Vを求め、距離上限値の二乗ひ ²から Vと前記質問べクトル Qとの二乗距離 I V— Q I ²を差し引いた二乗距離差分値ひ ²— I V— Q I ²を算出していき、前記二乗距離差分表中で、二乗距離差分値を算出していない要素の最大値より大きい二乗距離差分値を持つベクトルデータが L個以上になった時点、あるいは二乗距離差分上限値が正である全てのべクトルデータの二乗距離差分値を算出した時点で、二乗距離差分値 tの大きな最大 L個のべクトルデータに対し、少なくとも識別番号 i と、距離（α²_ t ) ^1/2との組を、検索結果として出力することを特徴とする類似べクトル検索方法。

1 2. 前記類似ベクトル検索の第 1のステップにおいて、 N次元べクトル Vの全成分を取り出すように、 Vの先頭の成分から順に、 NZm 個、あるいは（NZm) + 1個の成分を取り出して、部分質問ベクトルを作成する請求項 1 0又は 1 1記載の類似べクトル検索方法。

1 3. 前記類似ベクトル検索の第 1のステップにおいて、前記部分質問べクトル q _bと対応する部分べクトル V _bとの内積の下限値である部分内積下限値 f _bを、指定された内積下限値ひから、 f _b=a I Q_b I ² /∑ ( I q_b I ²) によって算定する請求項 1 1記載の類似べクトル検索方法。

14. 前記類似ベクトル検索の第 1のステップにおいて、前記部分質問べクトル Q _bと対応する部分べクトル v_bとの二乗距離の上限値である部分二乗距離上限値 f _bを、指定された距離下上限値ひから、 f _b = α² I Q_b I ²Z∑ ( I q_b I ²) によって算定する請求項 1 1記載の類似べクトル検索方法。

1 5. 少なくとも N次元実ベクトルと、その識別番号とを含む組をべクトルデータとして有限個登録したべクトルデータベースに対して、機械検索可能な索引を作成する装置であって、

前記べクトルデ一夕ベース中の各べクトルデータの N次元実べクトル Vに対して、 N個の成分を予め定めた方法で m組に分けて、 m個の部分べクトルェ〜を作成する部分べクトル算定手段と、

前記作成された m個の部分べクトル V i〜 v_mのうち、部分べクトル V _k (k= l〜m) のノルムの分布を集計して、予め定められた D種のノルム区分のノルムの範囲を定めたノルム区分表を作成するノルム分布集計手段と、

予め定めた D個の領域中心べクトル p 〜。に従って、前記部分べクトル v_kの所属する領域番号 dを算定する領域番号算定手段と、

前記部分べクトル v _kと領域中心べクトル p _dとのなす角の余弦（V _k ' P_d) Z ( | v_k | * | p_d | ) の分布を偏角分布として集計して、予め定めた C種の偏角区分の偏角の範囲を記録した偏角区分表を作成する偏角分布集計手段と、

前記部分べクトル算定手段が作成した m個の部分べクトル V i〜 v_m のうち、部分空間番号 bに対する部分ベクトル v_b (b= l〜m) に対して、前記ノルム区分表を参照して前記各部分べクトル v_bのノルムが所属するノルム区分の番号 rを算定するノルム区分番号算定手段と、前記部分べクトル v_bと前記領域番号算定手段が算定した領域番号 d の領域の中心方向を表す領域中心べクトル p _dとのなす角の余弦である偏角（v_b · p_d) / ( I v_b I * I p_d I ) を算定して、前記偏角区分表を参照して、所属する偏角区分の番号 cを算出する偏角区分番号算定手段と、

前記部分空間番号と、前記領域番号と、前記偏角区分番号 cと、前記ノルム区分番号 rと、前記部分ベクトル v_bの成分と、識別番号 i とから、べクトル索引に登録する索引登録データを算定する索引データ算定手段と、

前記ノルム区分表と、前記偏角区分表と、前記索引登録データとから、各部分ベクトルの識別番号と成分とを、部分空間番号 b、領域番号 d、偏角区分番号 c、ノルム区分番号範囲 [ r^ , r ₂] の組を鍵にして、検索可能で、かつ各ベクトルデータのベクトルの成分を、その識別番号で検索可能なべクトル索引として構成する索引構成手段とを備えたことを特徴とするべクトル索引作成装置。

1 6. 少なくとも N次元実ベクトルと、その識別番号とを含む組をべクトルデータとして有限個登録したべクトルデータベースに对して、機械検索可能な索引を作成する装置であって、

前記べクトルデータベース中の各べクトルデータの N次元実べクトル Vに対して、 N個の成分を予め定めた方法で m組に分けて、 m個の部分べクトル V 〜 v_mを作成する部分べクトル算定手段と、

前記作成された m個の部分べクトル _{V l}〜v_mのうち、部分空間番号 b に対する部分ベクトル v_b (b= l〜m) のノルムの分布を集計して、予め定められた D種のノルム区分のノルムの範囲を定めたノルム区分表を作成するノルム分布集計手段と、

予め定めた D個の領域中心べクトル p 〜 !^に従って、前記部分べクトル v_bの所属する領域番号 dを算定する領域番号算定手段と、

前記部分べクトル v_bと領域中心べクトル p _dとのなす角の余弦（V _b - p_d) / ( | v_b | * | _{P d} | ) の分布を偏角分布として集計して、予め定めた C種の偏角区分の偏角の範囲を記録した偏角区分表を作成する偏角分布集計手段と、

前記部分べクトル算定手段が作成した m個の部分べクトル V i〜 v _m のうち、部分空間 bに対する部分べクトル v_b (b= l〜m) に対して、前記ノルム区分表を参照して前記各部分べクトル V _bのノルムが所属するノルム区分の番号 rを算定するノルム区分番号算定手段と、

前記部分べクトル v_bと前記領域番号算定手段が算定した領域番号 d の領域の中心方向を表す領域中心べクトル P _dとのなす角の余弦である偏角（v_b ' p_d) ノ（ | v_b | * | p_d | ) を算定して、前記偏角区分表を参照して、所属する偏角区分の番号 cを算出する偏角区分番号算定手段と、

前記算定したノルム区分番号 rに対応するノルム区分のノルムの最高値から、前記算定した部分ベクトル v_bの各成分 v_{b j}に対して、 v_{b j}が所属する予め定めた範囲の成分区分番号 Wjを算定する成分区分番号算定手段と、

前記部分空間番号 bと、前記領域番号 dと、前記偏角区分番号 cと、前記ノルム区分番号 rと、前記成分区分番号 Wjの列と、識別番号 iとから、ベトル索引に登録する索引登録データを算定する索引データ算定手段と、 . 前記ノルム区分表と、前記偏角区分表と、前記索引登録データとから、各部分ベクトルの識別番号と成分とを、部分空間番号 b、領域番号 d、偏角区分番号 c、ノルム区分番号範囲 r ₂] の組を鍵にして、検索可能で、かつ各ベクトルデータのベクトルの成分を、その識別番号で検索可能なべクトル索引として構成する索引構成手段とを備えたことを特徴とするべクトル索引作成装置。

1 7. 前記部分ベクトル算定手段が、 N次元ベクトル Vの全成分を取り出すように、 Vの先頭の成分から順に、 NZm個、あるいは（NZ m) + 1個の成分を取り出して、部分ベクトルを作成する請求項 1 5又は 1 6記載のべクトル索引作成装置。

1 8. 前記ノルム分布集計手段が、ノルム区分表を作成する際に、ノルム分布の集計結果をもとに、各ノルム区分に相当するノルム範囲に所属する部分べクトルの数が、できる限り均一になるようにノルム区分を定める請求項 1 5記載のべク卜ル索引作成装置。

1 9. 前記偏角分布集計手段が、偏角区分表を作成する際に、偏角分布の集計結果をもとに、各偏角区分に相当する偏角範囲に所属する部分べクトルの数が、できる限り均一になるように偏角区分を定める請求項 1 5記載のべクトル索引作成装置。

20. 前記領域番号算定手段が、部分ベクトル v_bの領域番号を、予め定めた D個の領域中心べクトル〜。のうち、 _£1と ₁₃のなす角の余弦（v_b ' p_d) （ | v_b | * | p_d | ) がもっとも大きくなるような領域中心べクトル p _dの番号 dとして求める請求項 1 5又は 1 6記載のべクトル索引作成装置。

2 1. 前記索引構成手段が、部分空間番号 b，領域番号 d, 偏角区分番号 c，ノルム区分番号 rを結合した番号（b * Nd* Nc* Nr) + (d * Nc* Nr) + (c * Nr) + rを鍵とし、べクトルの識別番号 i と成分とを検索可能な探索木と、べクトルデータの識別番号を添字とする、各部分べクトルの前記探索木の鍵を記録した表とを作成し、べクトル索引の一部とする請求項 1 5又は 1 6記載のべクトル索引作成装置。

22. 前記領域番号算定手段が、成分が {_ 1， 0, + 1 } のうちのいずれかである、 0ベクトルでない全てのベクトル（ 0 , …， 0， + 1 ) 〜（_ 1 , ···, - 1 ) を正規化したベクトルを領域中心ベクトルとして用いる請求項 1 5又は 1 6記載のべクトル索引作成装置。

2 3. 検索条件として N次元実ベクトルの質問ベクトル Qと、内積下限値、および最大取得ベクトル数 Lとを指定して、少なくとも N 次元実べクトルとその I D番号との組を有限個登録したべクトルデータから作成したべクトル索引を検索して、前記べクトルデータベースのべクトルデータ（ i， V) で、前記質問べクトル Qとの内積の値 V · Qが前記内積下限値 αより大きいものについて、その識別番号 iと、 Qと V の内積の組（ i， V · Q) を最大 L個求める類似ベクトルの検索装置であって、

前記質問ベクトル Qに対して、 Qの N個の成分を、前記ベクトル索引の作成時に用いた方法と同一の、予め定めた方法で m組に分けて、 m個の部分質問べクトル Q を作成するとともに、各部分質問べクトル

Q_bと対応する部分ベクトルとの内積（この内積をこれ以降「部分内積」と呼ぶ）の下限値である部分内積下限値 f _bを、指定された内積下限値 (¾から算定する部分質問条件算定手段と、

前記部分質問ベクトル Q _b (b= l〜m) と各領域 bに対して、領域中心べクトル p_dと前記部分質問べクトル Q _bとの内積 p _d · q _bの値と、前記部分内積下限値 f _bと、前記べクトル索引中のノルム区分表および偏角区分表とから、部分空間番号 b、領域番号 dにおいて検索すべき偏角区分番号 c、ノルム区分の範囲 [ rい r ₂] の組（c , [r ₁； r ₂] ) を算定する検索対象範囲生成手段と、

前記検索対象範囲生成手段が算定した（c， [r ₁； r ₂] ) を基に、 (b, d, c， [r !, r ₂] ) を検索条件として前記ベクトル索引を範囲検索し、索引検索結果として、条件を満たす部分ベクトル v_bの識別番号 iと成分とを求める索引検索手段と、

前記 v_bと q_bとの部分内積 v_b · q_bと前記部分内積下限値 f _bとの差である、部分内積差分（V _b · Q _b) — f _bを算出して、内積差分表の識別番号 iの内積差分上限値 S [ i ]として累算（加算）する内積差分上限算定手段と、

前記内積差分表 S [ i ]中で値の大きいものから順に、前記べクトル索引を識別番号 iで検索してべクトルデ一夕の成分 Vを求め、 Vと前記質問べクトル Qとの内積 V · Qから αを差し引いた内積差分値 t = V · Q 一 Q!を算出していき、前記内積差分表中で、内積差分値を算出していない要素の最大値より大きい内積差分値を持つべクトルデータが L個以上になった時点、あるいは内積差分上限値が正である全てのべクトルデー夕の内積を算出した時点で、内積差分値の大きな最大 L個のべクトルデ一夕に対し、少なくとも識別番号 i と内積 t + αとの組を、検索結果として出力する類似検索結果決定手段とを備えたことを特徴とする類似べクトル検索装置。

2 4 . 検索条件として Ν次元実ベクトルの質問ベクトル Qと、距離上限値 α、および最大取得ベクトル数 Lとを指定して、少なくとも Ν次元実べクトルとその識別番号との組を有限個登録したべクトルデータから作成したべクトル索引を検索して、前記質問べクトル Qとの内積の値が前記距離上限値 α以下であるような、前記べクトルデータ中の Ν次元実ベクトル Vの識別番号 i と、 Qと Vの距離 pの組（ i , p ) を最大 L 個求める類似べクトルの検索装置であって、

Q _bと対応する部分べクトル v _bとの二乗距離 I v _b— q _b I ² (すなわちユークリッド距離の二乗，この値のことをこれ以降「部分二乗距離」と呼ぶ）の上限値である部分二乗距離上限値 f _bを、指定された距離上限値ひから算定する部分質問条件算定手段と、

前記部分質問ベクトル Q_b (b= l〜m) に対して、前記部分質問べクトル Q_bと、前記部分二乗距離上限値 f _bと、前記ベクトル索引中のノルム区分表および偏角区分表とから、検索すべき部分空間番号 b、領域番号 d、偏角区分番号 c、

ノルム区分の範囲 [r ^ r ₂] の組（b， d, c , [r _{1 ;} r ₂] ) を系統的に生成する検索対象範囲生成手段と、

前記検索対象範囲生成手段が生成した（b, d, c， [r _{1 (} r ₂] ) を検索条件として、前記ベクトル索引を範囲検索して、索引検索結果として、条件を満たす部分ベクトル v _bの識別番号 iと成分とを求める索引検索手段と、

前記部分二乗距離上限値 f _bと、 V _bと Q _bとの部分二乗距離 I V _b_ Q _b I ²との差である、部分二乗距離差分 f _b— I v _b- q _b I ²を算出して、二乗距離差分表の識別番号 iの二乗距離差分上限値 S [ i ]として累算 (加算）する二乗距離差分上限算定手段と、

前記二乗距離差分表 S [ i]中で値の大きいものから順に、前記べクトル索引を識別番号 iで検索してべクトルデータの成分 Vを求め、距離上限値の二乗ひ ²から Vと前記質問べクトル Qとの二乗距離 I V— Q I ² を差し引いた二乗距離差分値 α²— I V-Q I ²を算出していき、前記二乗距離差分表中で、二乗距離差分値を算出していない要素の最大値より大きい二乗距離差分値を持つべクトルデータが L個以上になった時点、あるいは二乗距離差分上限値が正である全てのべクトルデータの二乗距離差分値を算出した時点で、二乗距離差分値 tの大きな最大 L個のべクトルデータに対し、少なくとも識別番号 iと距離（a²_ t) ^1/2との組を、検索結果として出力する類似検索結果決定手段とを備えたことを特徴とする類似べクトル検索装置。

2 5. 前記部分質問条件算定手段が、 N次元べクトル Vの全成分を取り出すように、 Vの先頭の成分から順に、 NZm個，あるいは（NZ m) + 1個の成分を取り出して、部分質問ベクトルを作成する請求項 2 3又は 2 4記載の類似べクトル検索装置。

2 6. 前記部分質問べクトル Q _bと対応する部分べクトル v_bとの内積の下限値である部分内積下限値 f _bを、指定された内積下限値ひから、 f _b= o; I q_b I ²/∑ ( I Q_b I ²) によって算定する請求項 2 3記載の類似ベクトル検索装置。

2 7. 前記部分質問べクトル Q _bと対応する部分べクトル v_bとの二乗距離の上限値である部分二乗距離上限値 f _bを、指定された距離下上限値ひから、 f _b=a² I Q_b I ²Z∑ ( I q_b I ²) によって算定する請求項 24記載の類似べクトル検索装置。

2 8. 請求項 1又は 2記載の方法を実行するためのコンピュータプログラムを記録した記録媒体。

2 9. 請求項 1 5又は 1 6記載の装置をソフトウェアにより実現するためのコンピュータプログラムを記録した記録媒体。