WO2013061680A1

WO2013061680A1 - 情報処理装置、データ・アクセス方法およびプログラム

Info

Publication number: WO2013061680A1
Application number: PCT/JP2012/071448
Authority: WO
Inventors: 小柳　光生; ルディー・レイモンド・ハリー・プテラ; 裕也海野; 貴司今道
Original assignee: インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date: 2011-10-26
Filing date: 2012-08-24
Publication date: 2013-05-02
Also published as: US20140122921A1; US9043660B2; CN103890763B; CN103890763A

Abstract

　本発明は、キーを効率的に格納するデータストアを実現するための情報処理装置、データ・アクセス方法およびプログラムを提供する。本発明に従う情報処理装置は、データストア１００を構成し、シンボルのエントリ毎のカウンタを有する最上位ストア１１０と、それぞれ、上記データストア１００を構成し、階層ごとに頻度に関する代表値Ｒ_ｉが定義される１以上の階層ストア１３０と、アクセスされるシンボルを、最上位ストア１１０内でカウントし、カウンタ値に応じて最上位ストア１１０および１以上の階層ストア１３０へ振り分けを行う振り分け部１５０とを含む。上記振り分け部１５０は、最上位ストア１１０から移動されたシンボルに対するアクセスに対応して、該シンボルが含まれる階層ストア１３０に対し定義される頻度に関する代表値Ｒ_ｉを用いて、最上位ストア１１０に該シンボルのエントリを復元する。

Description

情報処理装置、データ・アクセス方法およびプログラム

　本発明は、データストアに関し、より詳細には、キーを効率的に格納するデータストアを実現する情報処理装置、該データストアに対するデータ・アクセス方法およびプログラムに関する。

　言語処理、ユーザ管理などのアプリケーション開発の分野において、単語、フレーズ、人名、ＵＲＬなどの膨大な文字列をメモリに空間効率高く格納する技術に対する要望が高まっている。これは、文字列などをキーとする効率の高いデータストアを実現することにより、多数の文字列を省メモリで管理することが可能となり、ひいては上記アプリケーションを効率よく実現できるようになるからである。

　上記用途で用いられるデータストアとして、ハッシュ・マップ（Hash Map/Hash Table）が知られている。ハッシュ・マップは、ハッシュ関数を用いてキーを値へマップするデータ構造であり、キーで値を登録し、キーで照会して値を取得することができる。ハッシュ・マップは、キーから要約されたハッシュ値により「値」を管理しているため、追記が容易であり、かつ、要素数によらず定数時間での検索および追加が可能であり、高速なデータ・アクセスが可能とされる。しかしながら、ハッシュ・マップは、衝突を低減するために充分に疎なテーブルが用いられ、メモリ空間効率を高めることは困難である。

　上述した用途で用いられる他のデータストアとして、ダブルアレイ（Double-Array）で実装したトライ木（TRIE）が知られている。ダブルアレイで実装したトライ木（以下、単にダブルアレイという場合がある。）は、キーが格納されるトライ木をリンク構造で維持するデータ構造である。ダブルアレイは、上記ハッシュ・マップと比較すると、データ・アクセス速度の観点で見劣りするが、メモリ空間効率を比較的高くできることが知られている。

　上述した用途で用いられる他のデータストアとして、さらに、ＬＯＵＤＳ（Level Order Unary Degree Structure）で実装したトライ木が知られている。ＬＯＵＤＳは、ツリー構造を表現する簡潔データ構造である（非特許文献１）。単語などの文字列を格納するトライ木の表現にＬＯＵＤＳを用いることによって、ダブルアレイでの実装と比較して、アクセス速度では数倍のコストがかかる一方、４～１０倍のメモリ空間効率を実現した例も報告されている（非特許文献２）。一方、ＬＯＵＤＳは、メモリ空間中に密に配置されたデータ構造であるため、一度完成したＬＯＵＤＳに対し新たな文字列を追加するには、新たな文字列のノードを追加する箇所に隙間（ノードを現す１ビット）を作るため平均半分のデータを移動する必要がある。このため、構築済みのデータ構造に新たな文字列を追加することは大きな処理コストを発生させる。

　また、膨大な量のストリーム・データを処理する用途において、高頻度に出現するキーを優先的に保持する戦略が知られている。例えば、非特許文献３は、誤り許容カウント法（Lossy Counting Method）により、ストリーム・データとして入力されるアイテムの頻度をカウントし、出現頻度上位のアイテムの集合を取得する技術を開示している。その他、誤り許容カウント法の改良型として、非特許文献４に開示される確率的誤り許容カウント法（Probabilistic Lossy Counting Method）や、非特許文献５に開示されるニーモニック誤り許容カウント法（Mnemonic Lossy Counting Method）が知られている。

G. Jacobson、"Space-efficient Static Trees and Graphs"、In Proceedings of the 30th Annual Symposium on Foundations of Computer Science (SFCS '89)、IEEE Computer Society、USA、1989、549-554 岡野原　大輔、「大規模キー集合の効率的な格納法ｔｘ　ｂｅｐ」、［online］、東京大学、［平成２３年９月１５日検索］、インターネット＜ＵＲＬ：http://www-tsujii.is.s.u-tokyo.ac.jp/~hillbig/papers/2007-1031-massiveKeys.pdf＞ G. S. Manku, et al.、"Approximate Frequency Counts over Data Streams"、Proceedings of the 28th International Conference on Very Large Data Base (VLDB)、2002 X. Dimitropoulos, et al.、"Probabilistic Lossy Counting: An efficient Algorithm for Finding Heavy Hitters"、ACM SIGCOMM Computer Communication Review、Volume 38、Issue 1、January 2008 Q. Rong, et al.、"Mnemonic Lossy Counting: An Efficient and Accurate Heavy-Hitters Identification Algorithm"、Performance Computing and Communications Conference (IPCCC) 2010 IEEE 29th International、2010、255-262

　上述したように、ハッシュ・マップ、ダブルアレイおよびＬＯＵＤＳなどのデータストアは、その特性において、概ねメモリ空間効率とデータ・アクセス速度とがトレードオフの関係にある。このため、上記従来技術のデータ構造では、空間効率およびデータ・アクセス速度が両立したデータストアを実現することが困難であった。

　また、上記特許文献３に開示されるストリーム・アルゴリズムによれば、出現頻度上位のアイテムの集合を効率的に取得することができる。これにより、低い頻度のデータが重要ではない用途においては、比較的小さなメモリ消費量で、高頻度の比較的重要なデータを効率的に保持することが可能となる。しかしながら、出現頻度上位から漏れた低い頻度のアイテム・セットは、破棄されてしまうことになるため、上記特許文献３の従来技術は、辞書やユーザ管理等のためのキーバリュー・ストアのように、全てのエントリを保持する必要がある用途には使用することが困難であった。

　本発明は、上記従来技術における不充分な点に鑑みてなされたものであり、本発明は、オンライン構築が可能であり、高い空間効率でキーを格納し、かつ、高いデータ・アクセス速度を有するデータストアを実現する情報処理装置、データストア操作方法およびプログラムを提供することを目的とする。

　本発明では、上記課題を解決するために、データストアに実際に入力されるデータには、出現頻度の高いものから低いものまで種々存在することに着目し、下記の特徴を有する情報処理装置を提供する。本情報処理装置は、データストアを構成し、シンボルのエントリ毎のカウンタを有する最上位ストアと、それぞれ、上記データストアを構成し、階層ごとに頻度に関する代表値が定義される１以上の階層ストアと、アクセスされるシンボルを、上記最上位ストア内でカウントし、カウンタ値に応じて最上位ストアおよび１以上の階層ストアへ振り分けを行う振り分け部とを含む。情報処理装置において上記振り分け部は、上記最上位ストアから移動されたシンボルに対するアクセスに対応して、該シンボルが含まれる階層ストアに対し定義される頻度に関する代表値を用いて最上位ストアに該シンボルのエントリを復元する。

　上記構成によれば、高頻度のシンボルを、データ・アクセス速度が優先されたデータ構造内に格納し、低頻度のシンボルを、メモリ空間効率が優先されたデータ構造内に格納することが可能となる。各シンボルを出現頻度に応じたタイプのストアに格納することにより、現実のデータ・アクセスにおいて、全体としてのメモリ空間効率およびスループットを向上することができる。

キーワードの出現頻度と出現頻度の順位との間に成立する、ジップの法則（Ｚｉｐｆ’ｓ　Ｌａｗ）を説明する図。第１の実施形態によるコンピュータ装置上で実現される、キーバリュー・ストアの機能ブロック図。第１の実施形態において振り分け部に入力されるデータ・ストリームを模式的に表す図。第１の実施形態による振り分け部がアクセス毎に実行する、カウント処理を説明する図。第１の実施形態による振り分け部がバケット内のエントリ毎に実行する、振り分け処理を説明する図。（Ａ）シンボルを濃度階調したデータ・ストリームを示す図、および（Ｂ）画定される出現頻度ｆに対するストア間の境界θ_ｉ（Ｂ－Δ）を説明する図。第１の実施形態による振り分け部がバケット毎に実行する、組み入れ処理を説明する図。第１の実施形態による振り分け部が実行する、誤り許容カウント法を適用した振り分け処理のメインフローを示すフローチャート。第１の実施形態による振り分け部が実行する、アクセス毎のカウント処理を示すフローチャート。第１の実施形態による振り分け部が実行する、振り分け処理を示すフローチャート。第１の実施形態による振り分け部が実行する、組み入れ処理を示すフローチャート。第２の実施形態によるコンピュータ装置上で実現される、キーバリュー・ストアの機能ブロック図。第２の実施形態によるＬＯＵＤＳストアのより詳細な機能ブロック図。第３の実施形態によるコンピュータ装置上で実現される、キーバリュー・ストアの機能ブロック図。本実施形態のキーバリュー・ストアを実現するコンピュータ装置の概略的なハードウェア構成図。実験例５および実験例６について測定された、（Ａ）帰還率の経時変化および（Ｂ）残留率の経時変化をプロットした折れ線グラフ。上記実験例５および実験例６について測定された、（Ａ）ヒット率の経時変化をプロットした折れ線グラフ、および（Ｂ）最終的に得られたキーバリュー・ストアの消費メモリ量をプロットした棒グラフ。

　以下、本発明について実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。なお、以下に説明する実施形態では、データストアを実現する情報処理装置として、複数タイプのストアにキーを振り分けて格納するキーバリュー・ストア１００を実現する、コンピュータ装置を一例に説明する。

　まず、本実施形態によるキーバリュー・ストア１００の具体的な構成を説明する前に、本実施形態によるキーバリュー・ストアの主な格納対象である、単語において観察される経験則について説明する。図１は、キーワードの出現頻度と出現頻度の順位との間に成立するジップの法則（Zipf's Law）を説明する図である。図１は、ＮＨＴＳＡ（National Highway Traffic Safety Administration）が収集公開している６８７，０００件のレコードから、２５４，０００，０００キーワードについて作成したグラフである。

　ジップの法則とは、出現頻度がｋ番目に大きい要素の全体に占める割合がｋに反比例することを表す経験則である。図１に示すように、ジップの法則によれば、キーワードのうち上位数％の高頻度領域に属するものが、全体の８０％程度のヒットに寄与する一方で、下位８０％の低頻度領域に属するキーワードは、全体の数％程度のヒットにしか寄与しないことになる。

　本実施形態によるキーバリュー・ストア１００では、上述したキーワードの出現頻度において観測されるジップの法則に鑑みて、キーワードなどのシンボルの出現頻度を計測し、各シンボルの出現頻度に応じて、メモリ空間効率およびアクセス速度においてトレードオフの関係を有する各タイプのデータストアに振り分ける。以下、図２～図１５の図面を参照して、本実施形態によるコンピュータ装置上で実現されるキーバリュー・ストア１００について、より詳細に説明する。

（１）機能ブロック
　図２は、第１の実施形態によるコンピュータ装置上で実現される、キーバリュー・ストアの機能ブロックを示す図である。図２に示すキーバリュー・ストア１００は、そのデータ構造として、カウンタ付きの最上位ストア１１０と、ブルームフィルタ１２０と、１以上の階層ストア１３０とを含み構成される。

　最上位ストア１１０は、主として図１における高頻度領域に属するキーワードを格納するためのデータストアであり、メモリ空間効率およびアクセス速度のトレードオフにおいてはアクセス速度が優先される。最上位ストア１１０には、シンボルのエントリ毎に、その出現頻度を保持するカウンタが設けられており、カウンタの値は、詳細を後述するシンボルの出現頻度に応じた振り分け処理において参照される。

　これに対して、１以上の階層ストア１３０は、主として図１における高頻度領域未満の中頻度領域ないし低頻度領域に属するキーワードを格納するためのデータストアである。１以上の階層ストア１３０は、それぞれ、上記最上位ストア１１０とは異なる特性を有しており、上記トレードオフにおいてはメモリ空間効率が優先される。１以上の階層ストア１３０には、最上位ストア１１０よりも、膨大な数のシンボルが格納されることになる。そこで、本実施形態では、階層ストア１３０には、各シンボルの出現回数を保持する整数型データであるカウンタを設けず、コンパクトなデータ構造としている。

　最上位ストア１１０および階層ストア１３０は、それぞれ、既知の如何なるタイプのデータストアから、上記トレードオフの関係において優先される特性（アクセス速度またはメモリ空間効率）を考慮して選択することができる。選択肢となるデータストアとしては、ハッシュ・マップ、動的トライ木および静的トライ木を挙げることができる。上記動的トライ木とは、ノードごとに文字配列を持たせたデータ構造、ダブルアレイ、遷移テーブルおよびトリプルアレイなどのリンク構造によってツリー構造を維持するトライ木である。一方、静的トライ木とは、ＬＯＵＤＳなどの簡潔データ構造によってツリー構造を維持するトライ木である。なお、トライ木に代えて、パトリシア木などの他のツリーを用いてもよい。

　ハッシュ・マップは、検索および追加の操作を要素数によらず定数時間で実現し、上記に列挙したデータストアの中では最もデータ・アクセス速度が高いが、メモリ空間効率が比較的低い特徴を有する。また、ハッシュ・マップは、追記容易なデータ構造である。これに対し、ＬＯＵＤＳなどの静的トライ木は、上記に列挙したデータストアの中では最もメモリ空間効率が高いが、データ・アクセス速度が比較的低い特徴を有する。ダブルアレイなどの動的トライ木は、静的トライ木よりもデータ・アクセス速度が高く、一方で、ハッシュ・マップよりもメモリ空間効率が高く、追記も静的トライ木に比較しても容易である。

　好適な実施形態では、最上位ストア１１０は、上述したハッシュ・マップを採用することができる。階層ストア１３０は、それぞれ、上述した動的トライ木および静的トライ木またはいずれか一方を好適に採用することができる。頻度が高いシンボルが格納される方のストアを上位であるとすると、動的トライ木および静的トライ木の両方の階層ストアを採用する場合、好適には、上位の階層ストア１３０として動的トライ木を採用し、下位の階層ストア１３０として静的トライ木を採用することができる。具体例として、最上位ストア１１０、第１階層ストア１３０－１および第２階層ストア１３０－２の３ストア構成を採用する場合は、好適には、それぞれハッシュ・マップ、動的トライ木および静的トライ木を用いる構成を採用することができる。

　図２に示すキーバリュー・ストア１００は、さらに、キーバリュー・ストア１００に対するデータ操作のバックグラウンドまたはフォアグラウンドで動作する、振り分け部１５０を含み構成される。振り分け部１５０は、入力されるシンボルを、ストリーム・アルゴリズムを用いて最上位ストア１１０および１以上の階層ストア１３０－１～１３０－ｎへ振り分ける処理を実行する。振り分け部１５０は、より具体的には、入力されるシンボルを、上記最上位ストア１１０内でその出現頻度をカウントし、カウンタの値に応じて最上位ストア１１０に残留（ＳＴＡＹ）させるエントリと、取り出していずれかの階層ストア１３０－１～１３０－ｎへ追加（ＡＤＤ）するエントリとを判定する。

　また、振り分け部１５０は、最上位ストア１１０から一旦移動されて階層ストア１３０に格納されているシンボルが再度入力された場合は、該シンボルに対応するエントリを最上位ストア１１０に再度追加（ＲＥ－ＥＮＴＲＹ）する。最上位ストア１１０には、上記の通り、シンボルのカウント値が保持されるが、階層ストア１３０には各シンボルのカウンタが設けられていない。このため、シンボルがカウンタ付きの最上位ストア１１０から階層ストア１３０へ一旦移動すると、それ以前のカウント値が失われてしまう。

　そこで、本実施形態では、階層ストア１３０それぞれに対し、階層ストア１３０におけるシンボルの出現頻度を代表する少なくとも１つのストア代表頻度値が定義される。上記ストア代表頻度値としては、階層ストア１３０のシンボルの出現頻度を要約する種々の値を用いることができるが、好適には、上記階層ストア１３０内のシンボル平均出現頻度、または起こり得る最悪の誤差を想定した最大出現頻度などを用いることができる。振り分け部１５０は、過去に移動されて最上位ストア１１０からエントリが削除されたシンボルに対するアクセスに対応して、このシンボルが格納される階層ストア１３０に対し定義された上記ストア代表頻度値を読み出し、移動により失われたカウンタ値をストア代表頻度値で復元した上で、最上位ストア１１０にエントリを再度追加する。

　上述したように、振り分け部１５０は、アクセス速度に優れたタイプのより上位ストアにより高頻度なシンボルを振り分け、メモリ空間効率に優れたタイプのより下位のストアにより低頻度なシンボルを振り分けるように動作する。

　上記ストリーム・アルゴリズムとしては、誤り許容カウント法（Lossy Counting Method）挙げることができ、以下に説明する実施形態では、振り分け部１５０は、誤り許容カウント法によりシンボルの出現頻度をカウントするものとして説明する。しかしながら、上記ストリーム・アルゴリズムとしては、上記カウント法の改良型である、確率的誤り許容カウント法（Probabilistic Lossy Counting Method）およびニーモニック誤り許容カウント法（Mnemonic Lossy Counting Method）を採用することを妨げない。

　図２に示すブルームフィルタ１２０は、キーバリュー・ストア１００において特定のキーが格納されていることを近似的ないし確率的に判定するフィルタである。ブルームフィルタ１２０には、ｋ個（１以上の自然数）のハッシュ関数が定義されており、ハッシュ関数は、それぞれ、入力される特定のキーをビット配列中の配列位置にマッピングする。特定のキーをｋ個のハッシュ関数に入力し、得られたｋ個のハッシュ値に対応するビット群いずれかひとつでも「０」であれば、その特定のキーがキーバリュー・ストア１００内に含まれていないことを示す。反対に、得られたｋ個の配列インデックスに対応するビット群すべてが「１」、すなわち有効化されていれば、その特定のキーがキーバリュー・ストア１００中に含まれている可能性（含まれていない場合もある。）があることを示す。

　システムは、キーバリュー・ストア１００へ「キー」で「値」を登録することを要求する、登録要求（ＰＵＴ）を受領すると、最上位ストア１１０内に、「キー」のエントリに関連付けて「値」を記憶する。同時に、システムは、登録要求（ＰＵＴ）に応答して、ブルームフィルタ１２０のｋ個のハッシュ値に対応するビット群を「１」に有効化する。

　また、システムは、キーバリュー・ストア１００から「キー」で「値」を取得することを要求する、取得要求（ＧＥＴ）を受領すると、まず最上位ストア１１０に対し問い合わせを行う（ＧＥＴ１）。カウンタ付き最上位ストア１１０内で取得要求にかかる「キー」が見付かれば、システムは、「キー」のエントリに関連付けられた値を読み出し、取得要求元に返却する。一方、カウンタ付き最上位ストア１１０内で「キー」が見付からなければ、システムは、続いてブルームフィルタ１２０に対しキー存在確認を行うことができる（ＣＨＥＣＫ２）。

　ブルームフィルタ１２０から肯定的な結果が返却された場合は、システムは、第１階層ストア１３０－１・・・第ｎ階層ストア１３０－ｎの順に問い合わせを行い（ＧＥＴ３・・・ＧＥＴＸ）、キーが見付かれば「キー」のエントリに関連付けられた「値」を、対応する階層ストア１３０から読み出し、取得要求元に返却する。ブルームフィルタ１２０から否定的な結果が返却された場合は、キーバリュー・ストア１００内にキーが登録されていないことが明らかなので、階層ストア１３０に対する問い合わせは行わず、直ちに取得要求元に、キーが未登録である旨のエラーを返却する。最下層の階層ストア１３０－ｎまで問い合わせても見付からなかった場合も、システムは、キーが未登録である旨のエラーを取得要求元に返却する。

　なお、ブルームフィルタ１２０に対する問い合わせは、特に限定されるものではないが、最上位ストア１１０がハッシュ・マップである場合は、アクセス速度を向上させる観点からは、好適には、最上位ストア１１０への問い合わせの後に行うことができる。また、上記問い合わせは、階層ストア１３０に動的トライ木が含まれる場合は、動的トライ木の階層ストア１３０への問い合わせの前に行うことが好ましいが、後に行うことを妨げるものではない。上記問い合わせは、また、階層ストア１３０に静的トライが含まれる場合は、静的トライ木の階層ストア１３０への問い合わせの前に行うことが好ましく、これにより、メモリ空間効率が優先される静的トライ木を構成に含む場合でも、好適にアクセス速度を改善することができる。

　上記カウンタ付き最上位ストア１１０、ブルームフィルタ１２０、１以上の階層ストア１３０は、好適には、高速なデータ操作を可能とするため、コンピュータ装置が備えるＲＡＭ（Random Access Memory）などの１次記憶装置で実装することができる。

（２）誤り許容カウント法を適用した振り分け処理
　以下、図３～図７を参照しながら、振り分け部１５０が実行する誤り許容カウント法を適用した振り分け処理について、より詳細に説明する。誤り許容カウント法とは、出現頻度が所与の順位ｓ（支持度）以上のシンボルを、出現頻度ｆに対する所与の許容誤差ｅを保証しながら列挙するストリーム・アルゴリズムである。誤り許容カウント法は、入力されるデータ・ストリームをバケットと呼ばれる単位に分割し、データ・ストリームを構成するシンボルの出現頻度をカウントするとともに、バケット境界毎に過去の実績から低頻度のシンボルのエントリを除外するアルゴリズムである。このように、低頻度のものを途中で適宜除外することにより、小さなメモリ領域で、所定頻度以上を有するシンボルの集合を得ることが可能となる。以下、まず誤り許容カウント法を適用した振り分け処理を説明するにあたって用いる定義を示す。

（２．１）定義
Ｄ：最上位ストア１１０内のエントリの集合を表す。
ｘ：シンボル（キー）を表す。
ｆ：シンボルｘの出現頻度（出現回数）を表す。
Δ：シンボルｘの出現頻度ｆに対する最大許容誤差（誤差値）を表す。なお、θ_ｉΔが、計数された出現頻度ｆに含まれる可能性のある最大の誤差となる。
（ｘ，ｆ，Δ）：上記集合Ｄの各エントリ（要素）を表す。
Ｄ_ｉ：第ｉ階層ストア１３０－ｉ（ｉ＝１，…，ｎ）内のエントリの集合を表す。ここで、添え字ｉは、階層の順位を表し、Ｄ_１は最上層の階層ストアを表し、Ｄ_ｎは最下層の階層ストアを表す。
θ_ｉ：第ｉ階層ストア１３０－ｉのバケット内出現頻度上限を表す。バケット内出現頻度上限θ_ｉは、パラメータとして与えられる。
Ｎ：入力された全シンボルの合計出現頻度（入力データ数）を表す。重複するものも計数される。
Ｎ_ｉ：第ｉ階層ストア１３０－ｉ内の全シンボルの合計出現頻度を表す。
｜Ｄ_ｉ｜：第ｉ階層ストア１３０－ｉのシンボル数を表す。
ｗ＝１／ｅ：バケット幅を表す。
ｅ：許容される出現回数に対する誤差を表す。
Ｂ＝ｃｅｉｌｉｎｇ（ｅＮ）：現在のバケットを識別するバケット識別値を表す。
Ｒ_ｉ：第ｉ階層ストア１３０－ｉに定義されるストア代表頻度値を表す。ストア代表頻度値は、シンボル平均出現頻度を用いる場合は、下記式（１）で算出される。ストア代表頻度値は、最大出現頻度を用いる場合は、第ｉ階層ストア１３０－ｉのバケット内出現頻度上限θ_ｉと現在のバケット識別値Ｂとを用いて、下記式（２）で算出される。最大出現頻度は、直前のバケット境界前まで整理されず出現頻度が計数されていたことを想定した、起こり得る出現頻度の最大値を示す。

（２．２）アルゴリズムの説明
　図３は、第１の実施形態において振り分け部１５０に入力される、データ・ストリーム２００を模式的に表す図である。なお、説明する実施形態では、途切れなく連続して入力されるデータ・ストリーム２００を例に説明するが、他の実施形態では、所定サイズのデータ・セットに対して適用することもできる。誤り許容カウント法においては、データ・ストリーム２００を構成するシンボル列が、所定幅ｗ（＝１／ｅ）のバケット２１０と呼ばれる単位に区分される。各バケット２１０－１，２１０－２・・・に対しては、現時点の入力データ数Ｎに応じてバケット識別値Ｂが付される。例えば、１／１０００の誤差を許容する（ｅ＝１／１０００）とすると、１０００個のシンボル毎にバケットに区分され、連続するバケット識別値Ｂ（１，２，・・・）が割り振られることになる。

　隣接するバケット間の境界２１２は、バケット境界と参照し、このバケット境界において、出現頻度に応じた振り分け処理が実行される。上記データ・ストリーム２００のシンボル列が入力されると、順次、バケットが満たされて行き、バケット境界において振り分けが行われ、最上位ストア１１０の集合Ｄから低頻度のエントリが整理される。そして、整理されたエントリは、出現頻度に応じた階層ストア１３０で保存されることになる。図３中、矢印２１４は、該矢印２１４で示す位置まで入力によりバケットが満たされたことを表している。

　本実施形態による誤り許容カウント法を適用した振り分け処理では、振り分け部１５０は、以下に説明する、アクセス毎の（Ａ）カウント処理およびバケット毎の（Ｂ）振り分け処理を繰り返し実行する。

（Ａ）カウント処理
　振り分け部１５０は、シンボルｘに対するアクセス毎に、下記（Ａ１）～（Ａ３）で説明するカウント処理を実行する。図４は、第１の実施形態による振り分け部１５０がシンボルｘに対するアクセス毎に実行するカウント処理を説明する図である。

（Ａ１）振り分け部１５０は、カウント処理においては、最上位ストア１１０を参照し、アクセスにかかるシンボルｘが集合Ｄ内で発見された場合は、このシンボルｘの既存エントリの出現頻度のカウンタを増分し、（ｘ，ｆ＋１，Δ）に更新する（図４の（Ａ１））。

（Ａ２）振り分け部１５０は、上記集合Ｄ内で発見されない場合は、さらに各階層ストア１３０を参照する。振り分け部１５０は、シンボルｘが第ｉ階層ストア１３０－ｉの集合Ｄ_ｉで発見された場合は、発見された第ｉ階層ストア１３０－ｉに対し定義されるストア代表頻度値Ｒ_ｉ（１３２－ｉ）を取得し、ストア代表頻度値Ｒ_ｉからカウンタ値を復元して、最上位ストア１１０の集合Ｄにエントリ（ｘ，Ｒ_ｉ，Ｂ－１）を再追加する。発見された第ｉ階層ストア１３０－ｉ内のエントリについては、ストア内から削除されるか、あるいは、削除されたものと見なして無視されることになる。振り分け部１５０は、上記再追加に伴い、さらに、第ｉ階層ストア１３０－ｉの全シンボルの合計出現回数Ｎ_ｉ（１３４－ｉ）を再追加のカウント分Ｒ_ｉだけ減分する（Ｎ_ｉ＝Ｎ_ｉ－Ｒ_ｉ）（図４の（Ａ２））。また、上記再追加に伴い、適宜第ｉ階層ストア１３０－ｉのシンボル数｜Ｄ_ｉ｜も減少する。

　ここで設定される最大許容誤差Δ（＝Ｂ－１）は、直前のバケット境界前まで整理されず出現頻度が計数され、該バケット境界で整理された後に、当該バケットで再追加されることを想定した、起こり得る出現頻度の最大値（最大許容誤差：θ_ｉ（Ｂ－１））を与える。

　なお、ストア代表頻度値Ｒ_ｉは、シンボル平均出現頻度を用いる場合は、第ｉ階層ストア１３０－ｉの合計出現回数Ｎ_ｉ（１３４－ｉ）およびシンボル数｜Ｄ_ｉ｜（１３６－ｉ）から算出することができる。最大出現頻度を用いる場合は、ストア代表頻度値Ｒ_ｉは、第ｉ階層ストア１３０－ｉに対応するバケット内出現頻度上限θ_ｉおよび現在のバケット識別値Ｂ１５２から算出することができる。なお、ストア代表頻度値としては、上記シンボル平均出現頻度および最大出現頻度のうち、シンボル平均出現頻度を好適に選択することができる。これにより、最上位ストア１１０の集合Ｄ内に残留するエントリの数の増長を抑制することができる。

（Ａ３）振り分け部１５０は、最上位ストア１１０および１以上の階層ストア１３０すべてを参照したにもかかわらず、シンボルｘが集合Ｄ，Ｄ_ｉ（ｉ＝１，・・・，ｎ）内で発見できなかった場合は、最上位ストア１１０の集合Ｄに、エントリ（ｘ，１，Ｂ－１）を新規追加する（図４の（Ａ３））。ここで設定される出現頻度のカウンタ値は初期値であり、最大許容誤差Δ（＝Ｂ－１）は上記と同様である。

（Ｂ）振り分け処理
　振り分け部１５０は、バケット内のエントリ毎に、下記（Ｂ１）および（Ｂ２）で説明する振り分け処理を実行する。図５は、第１の実施形態による振り分け部１５０がバケット内のエントリ毎に実行する振り分け処理を説明する図である。

（Ｂ１）振り分け部１５０は、各エントリ（ｘ，ｆ，Δ）の出現頻度ｆと、最大許容誤差Δと、現在のバケット識別値Ｂ（＝ｅＮ）とが、階層ｉに関して下記式（３）を満たす場合は、最上位ストア１１０の集合Ｄから第ｉ階層ストア１３０の集合Ｄ_ｉへ移動する（図５の（Ｂ１））。上記移動では、振り分け部１５０は、最上位ストア１１０の集合Ｄからエントリを読み出し、第ｉ階層ストアの集合Ｄ_ｉに該エントリのシンボルを追加し、最上位ストア１１０の集合Ｄから該エントリを削除する。これにより、最上位ストア１１０内の比較的低頻度なエントリが、頻度別に階層ストア１３０へ振り分けられる。振り分け部１５０は、上記移動に伴い、第ｉ階層ストアの全シンボルの合計出現頻度Ｎ_ｉ１３４－ｉを、移動したエントリの出現頻度ｆ分だけ増分する（Ｎ_ｉ＝Ｎ_ｉ＋ｆ）。また、上記移動に伴い、適宜シンボル数｜Ｄ_ｉ｜も増加する。

（Ｂ２）振り分け部１５０は、各エントリ（ｘ，ｆ，Δ）における出現頻度ｆと、最大許容誤差Δと、現在のバケット識別値Ｂ（＝ｅＮ）とが、上記式（３）を満たさない場合、つまり出現頻度ｆがθ_１（Ｂ－Δ）より大きいエントリについては、最上位ストア１１０内に該エントリを残留させる（図５の（Ｂ２））。

　図６は、上記（Ｂ）振り分け処理によって最上位ストア１１０および各階層ストア１３０へシンボルのエントリが振り分けられる様子を説明する図である。なお、図６は、最上位ストアＤと、２つの階層ストアＤ_１，Ｄ_２を含む場合のキーバリュー・ストアを例示している。

　図６（Ａ）は、シンボルが濃度階調で表現されたデータ・ストリーム２００を示す。図６（Ｂ）は、各エントリの最大許容誤差Δと、現在のバケット識別値Ｂ（Ｂ＝ｅＮ：現在までの入力データ数Ｎに関係する。）に応じて画定される、出現頻度ｆに対するストア間の境界θ_ｉ（Ｂ－Δ）を説明する図である。

　図６（Ａ）に示すようなデータ・ストリーム２００が入力されると、図６（Ｂ）に示すように、上記カウント処理により各シンボルの出現頻度がカウントされる。また、各シンボルのエントリには、該シンボルのエントリが最上位ストア１１０に追加された時点における最大許容誤差Δが格納されている。したがって、境界θ_ｉ（Ｂ－Δ）は、最上位ストア１１０にエントリが追加された時点で出現頻度ｆに含まれ得る最大の誤差（θ_ｉΔ）を差し引き、第ｉ階層ストアに振り分ける出現頻度ｆに対する上限を表す。ひいては、第ｉ階層ストアのバケット内出現頻度上限θ_ｉと、その下位の第（ｉ＋１）階層ストアのバケット内出現頻度上限θ_ｉ＋１とから、当該第ｉ階層ストア１３０に振り分けられるシンボルの出現頻度ｆに対する範囲が画定される。

　最上位ストア１１０に再追加されたエントリには、さらに、元の階層ストアのストア代表頻度値Ｒ_ｉで復元された、過去の出現頻度をある程度反映したカウント値が含まれる。再追加されたエントリは、上記復元された値から出現頻度のカウントが始まるため、全くの初期値（＝１）からカウントする場合と比較して、過去にある程度の出現頻度があったシンボルは、最上位ストア１１０に戻った後に再度階層ストアに移動し難くなる。例えば、図６に示すシンボル「Ｂ」は、１からカウントをしていた場合は出現頻度ｆが境界θ_１（Ｂ－Δ）に達しないため、最上位ストア１１０から整理されてしまうはずであったところ、ストア代表頻度値Ｒ_ｉでカウンタ値が復元されたことにより、最上位ストア１１０に残留している。

（Ｃ）組み入れ処理
　さらに、本実施形態による誤り許容カウント法を適用した振り分け処理では、振り分け部１５０は、バケット毎に、下位の階層ストアの実績を下回った上位の階層ストアのエントリを下位の階層ストアに組み入れる、組み入れ処理を繰り返し実行することができる。

　図７は、振り分け部１５０がバケット毎に実行する組み入れ処理を説明する図である。振り分け部１５０は、組み入れ処理においては、各階層ストア（ｉ＝１，…，ｎ－１）について、下記式（４）により、上位階層ストアｉの実績が下位の階層ストアｉ＋１の実績を下回っていないかを判定する。なお、下記式（４）中のμは、組み入れ判定における組み入れる条件を規定する因子であり、パラメータとして与えられる。振り分け部１５０は、下位階層ストア（ｉ＋１）の実績を規定より下回る上位階層ストアｉが存在した場合は、その上位階層ストアｉ内の全エントリを取り出し、下位階層ストア（ｉ＋１）に組み入れる（図７の（Ｃ））。振り分け部１５０は、さらに、上記組み入れに伴い、上位階層ストアの合計出現頻度Ｎ_ｉを下位階層ストアの合計出現頻度Ｎ_ｉ＋１に加算し（Ｎ_ｉ＋１＝Ｎ_ｉ＋１＋Ｎ_ｉ）、０にリセットする（Ｎ_ｉ＝０）。上位階層ストアｉは、上記組み入れに伴い、キーバリュー・ストア１００から除外される。

（２．３）処理フロー
　以下、図８～図１２を参照しながら、振り分け部１５０が実行する誤り許容カウント法を適用した振り分け処理の流れについて、詳細を説明する。図８は、第１の実施形態による振り分け部１５０が実行する、誤り許容カウント法を適用した振り分け処理のメインフローを示すフローチャートである。

　図８に示す処理は、ステップＳ１００から開始し、ステップＳ１０１では、振り分け部１５０は、まず、初期化を行う。ステップＳ１０１で示す初期化処理では、各種パラメータ（ｅ、θ_ｉ、μ）が取得され、空の最上位ストア１１０および階層ストア１３０が準備され、各変数（Ｎ、Ｎ_ｉ、｜Ｄ_ｉ｜、Ｂ）に初期値が設定される。

　ステップＳ１０２では、シンボルｘに対するアクセス毎に、図９に示すカウント処理を呼び出す。カウント処理フローは、図９を参照して説明する。ステップＳ１０２で示すカウント処理が終了すると、ステップＳ１０３へ処理が進められる。ステップＳ１０３では、振り分け部１５０は、データ・ストリームの入力によってバケットが満たされたか否かを判定する。ステップＳ１０３で、現在のバケットが未だ満たされていないと判定された場合（ＮＯ）は、ステップＳ１０２へループさせ、入力位置がバケット境界に達するまで待ち受ける。ステップＳ１０３で、現在のバケットが満たされたと判定された場合（ＹＥＳ）は、ステップＳ１０４へ処理を進める。

　ステップＳ１０４では、振り分け部１５０は、詳細は図１０を参照して説明する振り分け処理フローを呼び出す。ステップＳ１０４の振り分け処理が終了すると、ステップＳ１０５へ処理が進められる。ステップＳ１０５では、振り分け部１５０は、詳細は図１１を参照して説明する組み入れ処理フローを呼び出す。ステップＳ１０５の組み入れ処理が終了すると、ステップＳ１０２へ再びループされて、次のアクセスへと処理対象が移り、ステップＳ１０２～ステップＳ１０５で示す処理が繰り返される。

　図９は、第１の実施形態による振り分け部１５０が実行する、アクセス毎のカウント処理を示すフローチャートである。図９に示すカウント処理は、図８で示したステップＳ１０４で呼び出されて、ステップＳ２００から開始する。ステップＳ２０１では、振り分け部１５０は、アクセスにかかるシンボルｘを取得する。

　ステップＳ２０２では、振り分け部１５０は、最上位ストア１１０を参照して、シンボルｘが集合Ｄ内に存在するか否かを判定する。ステップＳ２０２で、最上位ストア１１０の集合Ｄ内からシンボルｘが見付かり、集合Ｄ内に存在すると判定された場合（ＹＥＳ）は、ステップＳ２０７へ処理が分岐される。ステップＳ２０７では、振り分け部１５０は、最上位ストアの集合Ｄ内の既存エントリ（ｘ，ｆ，Δ）を、（ｘ，ｆ＋１，Δ）に更新し、ステップＳ２１１で呼び出し元の処理に戻す。

　ステップＳ２０７が、登録要求（ＰＵＴ）に対応するアクセスによる場合は、上記アクセスに対応して、最上位ストア１１０の集合Ｄ内のエントリに対応する「値」が上書きされる。ステップＳ２０７が、取得要求（ＧＥＴ）に対応するアクセスによる場合は、上記アクセスに対応して、最上位ストア１１０から集合Ｄ内のエントリに対応して格納された「値」が読み出され、要求元に返却される。

　一方、ステップＳ２０２で、シンボルｘが集合Ｄ内に見付からず、存在しないと判定された場合（ＮＯ）は、ステップＳ２０３～Ｓ２０５で示すループへ処理を進める。ステップＳ２０３～Ｓ２０５のループでは、第１階層ストアＤ_１から第ｎ階層ストアＤ_ｎまでの各第ｉ階層ストア１３０－ｉの集合Ｄ_ｉについて、ステップＳ２０４で、第ｉ階層ストア１３０－ｉを参照して、該集合Ｄ_ｉ内にシンボルｘが存在するか否かを判定する。

　ステップＳ２０４で、第ｉ階層ストア１３０－ｉの集合Ｄ_ｉ中にシンボルｘが存在すると判定された場合（ＹＥＳ）は、ステップＳ２０３～Ｓ２０５のループを抜け出し、ステップＳ２０８へ処理が進められる。ステップＳ２０８では、振り分け部１５０は、シンボルｘが存在する第ｉ階層ストアの集合Ｄ_ｉに定義されるストア代表頻度値Ｒ_ｉを取得する。ステップＳ２０９では、振り分け部１５０は、最上位ストア１１０の集合Ｄ中にシンボルｘのエントリ（ｘ，Ｒ_ｉ，Ｂ－１）を再度追加し、ステップＳ２１０で、上記第ｉ階層ストアの合計出現頻度Ｎ_ｉからストア代表頻度値Ｒ_ｉを減算し、ステップＳ２１１で、呼び出し元の処理に戻す。

　ステップＳ２０９が、登録要求（ＰＵＴ）に対応するアクセスによる場合は、上記アクセスに対応して、最上位ストア１１０内にエントリに対応付けて値を格納する。ステップＳ２０９が、取得要求（ＧＥＴ）に対応するアクセスによる場合は、上記アクセスに対応して、上記第ｉ階層ストア１３０－ｉからキーに対応する値が読み出されて、要求元に返却されるとともに、最上位ストア１１０内にエントリに対応して値が格納される。

　一方、ステップＳ２０４で、第ｉ階層ストア１３０－ｉの集合Ｄ_ｉ内にシンボルｘが見付からず、存在しないと判定された場合（ＮＯ）は、ステップＳ２０５へ処理を進める。最下層の階層ストア１３０－ｎの集合Ｄ_ｎでも見付からなければ、ステップＳ２０３～ステップＳ２０５のループを終了して、ステップＳ２０６へ処理が進められる。この場合は、シンボルｘは初出であるので、ステップＳ２０６では、振り分け部１５０は、最上位ストアＤにシンボルｘのエントリ（ｘ，１，Ｂ－１）を新規追加し、ステップＳ２１１で呼び出し元の処理に戻す。

　ステップＳ２０６のアクセスが、登録要求（ＰＵＴ）に対応する場合は、最上位ストアＤ内にエントリに対応付けて「値」が格納される。ステップＳ２０６のアクセスが、取得要求（ＧＥＴ）に対応する場合は、照会されたキーに対応する値なしの旨の応答がなされる。

　図１０は、第１の実施形態による振り分け部１５０が実行する、振り分け処理を示すフローチャートである。図１０に示す振り分け処理は、図８のステップＳ１０６で呼び出されて、ステップＳ３００から開始する。ステップＳ３０１～Ｓ３０７のループでは、最上位ストア１１０の集合Ｄ内の各エントリ（ｘ，ｆ，Δ）毎に、ステップＳ３０２～Ｓ３０９で示す各処理を実行する。

　ステップＳ３０２では、振り分け部１５０は、最上位ストア１１０から集合Ｄ内のエントリ（ｘ，ｆ，Δ）を読み出す。ステップＳ３０３～Ｓ３０５のループでは、振り分け部１５０は、第１階層ストアＤ_１から第ｎ階層ストアＤ_ｎまでの各第ｉ階層ストア１３０－ｉの集合Ｄ_ｉについて、ステップＳ３０４で、エントリの出現頻度ｆに応じた振り分けを行うための上記式（３）を満たすか否かの判定を行う。

　ステップＳ３０４で、上記式（３）を満たすと判定された場合（ＹＥＳ）は、ステップＳ３０８へ処理が進められる。この場合は、振り分け先が第ｉ階層ストア１３０－ｉに決定されるので、ステップＳ３０８では、振り分け部１５０は、最上位ストア１１０からエントリ（ｘ，ｆ，Δ）を取り出し、第ｉ階層ストア１３０－ｉの集合Ｄ_ｉに移動する。ステップＳ３０９では、振り分け部１５０は、第ｉ階層ストア１３０－ｉの合計出現頻度Ｎ_ｉから、シンボルｘの出現頻度ｆを減算し、ステップＳ３０３～Ｓ３０５のループを抜け出し、ステップＳ３０７へ分岐させる。

　ステップＳ３０４で、上記式（３）が満たされないと判定された場合（ＮＯ）は、ステップＳ３０５へ処理が進められる。いずれの階層ストアの集合Ｄ_ｉ（１～ｎ）でも、上記式（３）が満たされない場合、つまり出現頻度ｆがθ_１（Ｂ－Δ）より大きかった場合は、ステップＳ３０３～ステップＳ３０５のループを終了して、ステップＳ３０６へ処理が進められる。この場合は、振り分け先が最上位ストア１１０に決定されるので、ステップＳ３０６では、振り分け部１５０は、エントリ（ｘ，ｆ，Δ）をそのまま最上位ストア１１０の集合Ｄ内に残留させて、ステップＳ３０７へ進める。ステップＳ３０１～Ｓ３０７のループが全エントリ（ｘ，ｆ，Δ）について行われると、ステップＳ３１０で呼び出し元に処理が戻される。

　図１１は、第１の実施形態による振り分け部１５０が実行する、組み入れ処理を示すフローチャートである。図１１に示す組み入れ処理は、図８のステップＳ１０７で呼び出されて、ステップＳ４００から開始する。ステップＳ４０１～Ｓ４０６のループでは、振り分け部１５０は、第１階層ストアＤ_１から第ｎ－１階層ストアＤ_ｎ－１までの各第ｉ階層ストアの集合Ｄ_ｉについて、ステップＳ４０２で、上記式（４）により、上位階層ストアｉの出現頻度の実績が下位階層ストア（ｉ＋１）の実績を下回っていないかを判定する。

　ステップＳ４０２で、上記式（４）を満たすと判定された場合（ＹＥＳ）は、ステップＳ４０３へ処理が進められる。この場合は、上位階層ストアｉの実績が下位の階層ストアｉ＋１の実績を規定より下回ったと判断されたことになる。ステップＳ４０３では、振り分け部１５０は、上位階層ストアｉの集合Ｄ_ｉすべてのエントリを下位階層ストアｉ＋１の集合Ｄ_ｉ＋１へ組み入れる。ステップＳ４０４では、振り分け部１５０は、上位階層ストアｉの合計出現頻度Ｎ_ｉを０とし、ステップＳ４０５で、上位階層ストアｉの合計出現頻度Ｎ_ｉを下位階層ストアｉ＋１の合計出現頻度Ｎ_ｉ＋１に加算し、ステップＳ４０６へ進める。

　一方、ステップＳ４０２で、上記式（４）が満たされないと判定された場合（ＮＯ）は、ステップＳ４０６へ処理が進められる。いずれの階層ストア（ｉ＝１～ｎ－１）についても上記式（４）が満たされず、下位階層ストア（ｉ＋１）の実績を下回る上位階層ストアｉが存在しないと判定された場合は、ステップＳ４０２～ステップＳ４０６のループを終了して、組み入れを行わずに、ステップＳ４０７呼び出し元へ処理が戻される。

（３）第１の実施形態による利点
　上述した第１の実施形態によれば、高頻度のシンボルが、データ・アクセス速度が優先されたデータ構造内に格納され、低頻度のシンボルが、メモリ空間効率が優先されたデータ構造内に格納されることになる。これにより、各シンボルが出現頻度に応じた最適なタイプのストアに格納され、特にジップの法則に沿った現実のデータ・アクセスにおいて、全体としてのメモリ空間効率およびスループットが向上する。

　また、上述した第１の実施形態によれば、頻度別のシンボルの抽出精度を許容誤差によって制御することが可能となる。最上位ストア１１０のエントリを（ｘ，ｆ_Ｂ，Δ_Ｂ）と表すと、該エントリは、パラメータとして与えられた第１階層ストアのバケット内出現頻度上限θ_１に対し、下記式（５）を満足することが保証される。また、第ｉ階層ストア１３０－ｉ（ｉ＝１，…，ｎ－１）のエントリを（ｙ_ｉ，ｆ_ｉ，Δ_ｉ）と表すと、該エントリは、階層ストア１３０－ｉおよび階層ストア１３０－（ｉ＋１）のバケット内出現頻度上限θ_ｉ，θ_ｉ＋１に対し、下記式（６）を満足することが保証される。さらに、最下層の第ｎ階層ストア１３０－ｎのエントリを（ｚ，ｆ_ｎ，Δ_ｎ）で表すと、該エントリは、下記式（７）を満足することが保証される。なお、下記式（５）～（７）中、Ｅ（）は、平均を表す。

　また、上記第１の実施形態によれば、各階層ストア１３０－ｉに対してストア代表頻度値Ｒ_ｉが定義されており、各階層ストアｉから最上位ストア１１０に再追加されるエントリは、ストア代表頻度値Ｒ_ｉに基づきある程度過去を反映した出現頻度が復元される。このため、バケット幅を小さくし、中頻度の正確な情報が失われる状況においても、上記ストア代表頻度値Ｒ_ｉから適切な頻度が復元されることで、最上位ストア１１０および階層ストア１３０間のエントリの行き来による振動が低減される。さらに、上記組み入れ処理により、頻度の抽出精度を高いレベルに維持し、最悪のケースの性能を底上げすることが可能となる。

（４）第２の実施形態
　以上、最上位ストア１１０および１以上の階層ストア１３０を含み構成されるキーバリュー・ストア１００を実現する第１の実施形態について説明してきたが、以下、より具体的な実施形態について説明する。また、上記第１の実施形態では、再追加されるエントリについて、ストア代表頻度値Ｒ_ｉからカウンタ値ｆが復元されるものとして説明してきた。しかしながら、上述したように、振り分けの際の境界θ_ｉ（Ｂ－Δ）は、各エントリの最大許容誤差Δ、出現頻度ｆおよび入力データ数Ｎとの関係により画定されることから、他の実施形態では、最大許容誤差Δを復元するストア代表値を定義することもできる。以下、カウンタ付きハッシュマップ・ストア、ダブルアレイ・ストアおよびＬＯＵＤＳストアの３つのデータストアを含み構成され、最大許容誤差Δを復元するストア代表値が定義された、第２の実施形態について説明する。

　図１２は、第２の実施形態によるコンピュータ装置上で実現されるキーバリュー・ストアの機能ブロック図である。図１２に示すキーバリュー・ストア３００は、カウンタ付きのハッシュマップ・ストア３１０と、ブルームフィルタ３２０と、ダブルアレイ・ストア３３０と、ＬＯＵＤＳストア３４０と、振り分け部３５０とを含み構成される。

　ハッシュマップ・ストア３１０は、図１における高頻度領域（概ね上位１％）に属するキーワードを格納するためのアクセス速度に優れたデータストアである。ハッシュマップ・ストア３１０には、シンボルのエントリ毎に、その出現頻度を保持するカウンタが設けられている。ＬＯＵＤＳストア３４０は、図１における低頻度領域（概ね下位７９％）に属するキーワードを格納するためのメモリ空間効率に優れたデータストアである。ダブルアレイ・ストア３３０は、図１における中頻度領域に属するキーワードを格納するためのデータストアである。ダブルアレイ・ストア３３０は、ハッシュマップ・ストア３１０よりもメモリ空間効率が優れ、ＬＯＵＤＳストア３４０よりもアクセス速度が優れた特徴を有する。

　ＬＯＵＤＳストア３４０は、上述したように、追記が難しいデータ構造であるため、本実施形態では、ファサード構成を採用する。すなわち、ＬＯＵＤＳストア３４０は、それぞれｍ個ずつのキーを格納する下位のＬＯＵＤＳ（以下、下位ＬＯＵＤＳと参照する。）３４２－１～３４２－ｘを含み構成され、これらの下位ＬＯＵＤＳ３４２があたかも単一のデータ構造であるかのように扱われる。

　図１３は、第２の実施形態によるＬＯＵＤＳストア３４０のより詳細な機能ブロックを示す図である。図１３に示すＬＯＵＤＳストア３４０は、入力バッファトライ木３４６と、０または１以上の下位ＬＯＵＤＳ３４２－１～３４２－ｘとを含む。

　入力バッファトライ木３４６は、キーおよび値のエントリが格納されたトライ木を維持する追記可能なバッファである。入力バッファトライ木３４６は、ＬＯＵＤＳが追記困難な静的なトライ木であるのに対し、リンク構造によりツリー構造が維持された、追記可能な動的なトライ木として構成される。

　下位ＬＯＵＤＳ３４２は、それぞれ、ＬＯＵＤＳストア３４０に対する入力データ総数Ｍのうちのｍ個ずつの入力データ・セットが格納されたトライ木を表現する簡潔データ構造である。下位ＬＯＵＤＳ３４２は、入力バッファトライ木３４６に入力されたデータ数が規定数ｍに達する毎に呼び出されるＬＯＵＤＳ構築処理中に構築される。

　ＬＯＵＤＳストア３４０は、さらに、上記下位ＬＯＵＤＳ３４２に対応する０または１以上のブルームフィルタ３４４を備えることができる。各ブルームフィルタ３４４は、対応する下位ＬＯＵＤＳ３４２内に特定のキーが存在することを近似的ないし確率的に判定するフィルタである。ブルームフィルタ３４４は、入力バッファトライ木３４６に入力されたデータ数が規定数ｍに達する毎に呼び出されるＬＯＵＤＳ構築処理中に、下位ＬＯＵＤＳ３４２とともに構築することができる。

　ＬＯＵＤＳストア３４０に対しデータ入力要求（ＡＤＤ）が行われると、キーおよび値が入力バッファトライ木３４６に追記される。ＬＯＵＤＳストア３４０は、図示しないＬＯＵＤＳ構築手段を備えており、入力バッファトライ木３４６に入力されたデータ数が一定数ｍに達する毎に、入力バッファトライ木３４６の各ノードを走査して、該トライ木を表現する下位ＬＯＵＤＳ３４２を構築するとともに、対応するブルームフィルタ３４４を構築する。また、ＬＯＵＤＳストア３４０は、図示しないＬＯＵＤＳ結合手段を備えることができ、一定の戦略に従って複数の下位ＬＯＵＤＳ３４２の各ノードを走査して、複数の下位ＬＯＵＤＳ３４２のトライ木を結合した結合トライ木を表現する上位レベルのＬＯＵＤＳを構築するとともに、対応するフィルタを構築することもできる。上記構築および結合におけるノードの走査は、具体的には、幅優先走査により行うことができる。

　ＬＯＵＤＳストア３４０に対しキー照会要求（ＧＥＴ）が行われると、当該ＬＯＵＤＳストア３４０の実データ構造（入力バッファトライ木３４６および下位ＬＯＵＤＳ３４２（対応するブルームフィルタ３４４を含む。））群に対し、新しいものから順に問い合わせが行われ、いずれかの実データ構造から照会キーが見付かった時点で値が返却される。これにより、ＬＯＵＤＳストア３４０に格納されたキーに対応する値（複数あるのであればその最新の値）が、要求元に返却される。上述した構成により、ＬＯＵＤＳ単体のデータ構造よりも、追記が容易であり、かつ、メモリ利用効率も高く、アクセス速度が改善されたＬＯＵＤＳストア３４０を提供することができる。

　第２の実施形態による振り分け部３５０が実行する、誤り許容カウント法を適用した振り分け処理について、より詳細に説明する。以下、まず、誤り許容カウント法を適用した振り分け処理を説明するにあたって用いる定義を示す。

Ｄ_ＨＭ：ハッシュマップ・ストア３１０内のエントリの集合を表す。Ｄ_ＨＭは最上位のストアである。
Ｄ_ＤＡ：ダブルアレイ・ストア３３０内のエントリの集合を表す。Ｄ_ＤＡは最上位の階層ストアであり、中位のストアである。
Ｄ_Ｌ：ＬＯＵＤＳストア３４０内のエントリの集合を表す。Ｄ_Ｌは最下層の階層ストアであり、最下位のストアである。
Θ_ＤＡ：ダブルアレイ・ストア３３０の出現頻度に関する上限閾値を表す。上限閾値Θ_ＤＡは、パラメータとして与えられる。
Θ_Ｌ：ＬＯＵＤＳストア３４０の出現頻度に関する上限閾値を表す。上限閾値Θ_Ｌは、パラメータとして与えられる。
ｘ：シンボル（キー）を表す。
ｆ：シンボルの出現頻度を表す。
δ：出現頻度ｆに対するエラー見積もり（誤差値）を表す。
（ｘ，ｆ，δ）：上記集合Ｄ_ＨＭの各エントリ（要素）を表す。
Ｎ：入力された全シンボルの合計出現頻度（入力データ数）を表す。重複するものも計数される。
Ｔ_ＤＡ：ダブルアレイ・ストア３３０の全シンボルの合計出現頻度を表す。
＃ＤＡ：ダブルアレイ・ストア３３０のシンボル数（キー数）を表す。
Ｔ_Ｌ：ＬＯＵＤＳストア３４０の全シンボルの合計出現頻度を表す。
＃Ｌ：ＬＯＵＤＳストア３４０のシンボル数を表す。
ｗ＝１／ｅ：バケット幅を表す。
Ｂ＝ｃｅｉｌｉｎｇ（ｅＮ）：現在のバケットを識別するバケット識別値を表す。
Ｒ_ＤＡ：ダブルアレイ・ストア３３０に定義されるストア代表値を表す。シンボル平均出現頻度を用いる場合は、ストア代表値Ｒ_ＤＡは、下記式（８）で算出される。最大出現頻度を用いる場合は、ストア代表値Ｒ_ＤＡは、ダブルアレイ・ストア３３０の上限閾値Θ_ＤＡと現在のバケット識別値Ｂとを用いて、下記式（９）で算出される。
Ｒ_Ｌ：ＬＯＵＤＳストア３４０に定義されるストア代表値を表す。ストア代表値Ｒ_Ｌは、ストア代表値Ｒ_ＤＡと同様に計算される。

　第１の実施形態と同様に、入力されるデータ・ストリーム２００は、所定幅ｗ（＝１／ｅ）のバケット２１０と呼ばれる単位に区分される。各バケット２１０－１，２１０－２・・・に対しては、現在の入力データ数Ｎに応じてバケット識別値Ｂが付される。上記データ・ストリーム２００が入力されると、順次、バケット２１０が満たされて行き、バケット境界２１２において振り分けが行われ、ハッシュマップ・ストア３１０の集合Ｄ_ＨＭから低頻度のエントリが整理される。整理されたエントリは、出現頻度に応じてダブルアレイ・ストア３３０またはＬＯＵＤＳストア３４０内に保存されることになる。

　上記誤り許容カウント法を適用した振り分け処理では、振り分け部３５０は、アクセス毎に（Ａ）カウント処理を実行し、バケット毎に（Ｂ）振り分け処理を繰り返し実行する。また、振り分け部３５０は、バケット毎に、（Ｃ）組み入れ処理を繰り返し実行することができる。

（Ａ）カウント処理
　振り分け部３５０は、シンボルｘに対するアクセス毎に、下記（Ａ１）～（Ａ４）で説明するカウント処理を実行する。

（Ａ１）振り分け部３５０は、カウント処理においては、ハッシュマップ・ストア３１０を参照し、アクセスにかかるシンボルｘが集合Ｄ_ＨＭ内で発見された場合は、このシンボルｘの既存エントリの出現頻度のカウンタを増分し、（ｘ，ｆ＋１，δ）に更新する。

（Ａ２）振り分け部３５０は、上記集合Ｄ_ＨＭ内で発見されない場合は、さらにダブルアレイ・ストア３３０を参照する。振り分け部３５０は、ダブルアレイ・ストア３３０の集合Ｄ_ＤＡでシンボルｘを発見すると、ダブルアレイ・ストア３３０に対し定義されるストア代表値Ｒ_ＤＡを取得し、ハッシュマップ・ストア３１０の集合Ｄ_ＨＭにエントリ（ｘ，１，Ｒ_ＤＡ）を再追加する。振り分け部３５０は、上記再追加に伴い、さらに、ハッシュマップ・ストア３１０の全シンボルの合計出現回数Ｔ_ＤＡを再追加のカウント分Ｒ_ＤＡだけ減分する（Ｔ_ＤＡ＝Ｔ_ＤＡ－Ｒ_ＤＡ）。また、上記再追加に伴い、適宜ハッシュマップ・ストア３１０のシンボル数＃ＤＡも減少する。

　第２の実施形態では、エントリが復元される際には、ストア代表値からカウント値が復元される代わりに、カウント値は初期値１のままに設定され、ストア代表値Ｒ_ＤＡからエラー見積もりδが設定される。このエラー見積もりδは、ストア代表値としてシンボル平均出現頻度を用いる場合は、平均出現頻度が含まれ得る誤差として見積もられる。最大出現頻度を用いる場合は、エラー見積もりδは、直前のバケット境界前まで整理されず出現頻度が計数され、該境界で整理された後に当該バケットで再追加されることを想定した、起こり得る出現頻度の最大値（最大許容誤差）を与える。

（Ａ３）振り分け部３５０は、上記集合Ｄ_ＨＭ，Ｄ_ＤＡ内で発見されない場合は、さらにＬＯＵＤＳストア３４０を参照する。振り分け部３５０は、ＬＯＵＤＳストア３４０の集合Ｄ_Ｌ内でシンボルｘを発見すると、ＬＯＵＤＳストア３４０に対し定義されるストア代表値Ｒ_Ｌを取得し、ハッシュマップ・ストア３１０の集合Ｄ_ＨＭにエントリ（ｘ，１，Ｒ_Ｌ）を再追加する。ここで設定される出現頻度ｆのカウンタ値は、初期値１であり、エラー見積もりδは上記と同様である。

（Ａ４）振り分け部３５０は、ハッシュマップ・ストア３１０、ダブルアレイ・ストア３３０およびＬＯＵＤＳストア３４０すべてを参照したにもかかわらず、集合Ｄ_ＨＭ，Ｄ_ＤＡ，Ｄ_Ｌでシンボルｘを発見できなかった場合は、ハッシュマップ・ストア３１０の集合Ｄ_ＨＭに、エントリ（ｘ，１，０）を新規追加する。ここで設定される出現頻度のカウンタ値は初期値１であり、エラー見積もりδ（＝０）は、シンボルｘが初出であり、誤差が含まれ得ないことを表しているが、エラー見積もりδにバケット識別値を入力してもよい。

（Ｂ）振り分け処理
　振り分け部３５０は、バケット内のエントリ毎に、下記（Ｂ１）～（Ｂ３）で説明する振り分け処理を実行する。

（Ｂ１）振り分け部３５０は、各エントリ（ｘ，ｆ，δ）の出現頻度ｆと、エラー見積もりδと、現在の入力データ数Ｎとが、下記式（１０）を満たす場合は、ハッシュマップ・ストア３１０内に該エントリを残留させる。

（Ｂ２）振り分け部３５０は、各エントリ（ｘ，ｆ，δ）の出現頻度ｆと、エラー見積もりδと、現在の入力データ数Ｎとが、下記式（１１）を満たす場合は、該エントリをハッシュマップ・ストア３１０の集合Ｄ_ＨＭからダブルアレイ・ストア３３０の集合Ｄ_ＤＡへ移動する。振り分け部３５０は、上記移動に伴い、ダブルアレイ・ストアの全シンボルの合計出現頻度Ｔ_ＤＡを、移動したエントリの出現頻度ｆ分だけ増分する（Ｔ_ＤＡ＝Ｔ_ＤＡ＋ｆ）。また、上記移動に伴い、ダブルアレイ・ストア３３０のシンボル数＃ＤＡは、集合Ｄ_ＤＡにシンボルｘが存在しなければ、移動したエントリ分だけ増分する（＃ＤＡ＝＃ＤＡ＋１）。

（Ｂ３）振り分け部３５０は、各エントリ（ｘ，ｆ，δ）の出現頻度ｆと、エラー見積もりδと、現在の入力データ数Ｎとが、下記式（１２）を満たす場合は、該エントリをハッシュマップ・ストア３１０の集合Ｄ_ＨＭからＬＯＵＤＳストア３４０の集合Ｄ_Ｌへ移動する。振り分け部３５０は、上記移動に伴い、ＬＯＵＤＳストア３４０の合計出現頻度Ｔ_Ｌを、移動したエントリの出現頻度ｆ分だけ増分する（Ｔ_Ｌ＝Ｔ_Ｌ＋ｆ）。またこれに伴い、ＬＯＵＤＳストア３４０のシンボル数＃Ｌは、集合Ｄ_Ｌにシンボルｘが存在しなければ、移動したエントリ分だけ増分する（＃Ｌ＝＃Ｌ＋１）。

（Ｃ）組み入れ処理
　振り分け部１５０は、組み入れ処理においては、ダブルアレイ・ストア３３０について下記式（１３）により、上位であるダブルアレイ・ストア３３０が、それより下位のＬＯＵＤＳストア３４０の実績を下回っていないかを判定する。振り分け部３５０は、ダブルアレイ・ストア３３０の実績が、ＬＯＵＤＳストア３４０の実績を規定より下回った場合は、ダブルアレイ・ストア３３０の全エントリ（ハッシュマップ・ストア３１０に存在するエントリを除く。）を取り出し、ＬＯＵＤＳストアに組み入れる。振り分け部３５０は、さらに、上記組み入れに伴い、ダブルアレイ・ストア３３０の合計出現頻度Ｔ_ＤＡをＬＯＵＤＳストア３４０の合計出現頻度Ｔ_Ｌに加算し（Ｔ_Ｌ＝Ｔ_Ｌ＋Ｔ_ＤＡ：ハッシュマップ・ストア３１０に存在する分を除く。）、ダブルアレイ・ストア３３０のシンボル数＃ＤＡをＬＯＵＤＳストア３４０のシンボル数＃Ｌに加算し（＃Ｌ＝＃Ｌ＋＃ＤＡ：ハッシュマップ・ストア３１０に存在する分を除く。）、合計出現頻度Ｔ_ＤＡおよび数＃ＤＡを０にリセットする。

　上述した第２の実施形態によれば、第１の実施形態と同様に、各シンボルが最適なタイプのストアに格納され、ジップの法則に沿った現実のデータ・アクセスにおいて、全体としてのメモリ空間効率およびスループットが向上する。

　また、上述した第２の実施形態によれば、頻度別のシンボルの抽出精度を許容誤差によって制御することが可能となる。ここで、Ｘを、ｘに対するアクセス数を表す確率変数であるとすると、ハッシュマップ・ストア３１０のエントリについては、パラメータとして与えられたΘ_ＤＡに対し、下記式（１４）を満足することが保証される。ダブルアレイ・ストア３３０のエントリについては、パラメータとして与えられたΘ_ＤＡおよびΘ_Ｌに対し、下記式（１５）を満足することが保証される。ＬＯＵＤＳストア３４０のエントリについては、パラメータとして与えられたΘ_Ｌに対し、下記式（１６）を満足することが保証される。下記式（１４）～（１６）中、Ｅ（）は、平均を表す。

　また、上記第２の実施形態によれば、ダブルアレイ・ストア３３０およびＬＯＵＤＳストア３４０各々に対してストア代表値Ｒ_ＤＡ，Ｒ_Ｌが定義されており、ハッシュマップ・ストア３１０に再追加されるエントリには、ある程度過去を考慮したエラー見積もりが設定される。このため、第１の実施形態と同様に、ハッシュマップ・ストア３１０およびストア３３０，３４０間のエントリの行き来による振動が低減される。さらに、上記組み入れ処理により、頻度の抽出精度を高いレベルに維持し、最悪のケースの性能を底上げすることが可能となる。

（５）第３の実施形態
　以上、ハッシュマップ・ストア３１０、ブルームフィルタ３２０、ダブルアレイ・ストア３３０およびＬＯＵＤＳストア３４０を含み構成されるキーバリュー・ストア３００を実現する第２の実施形態について説明してきた。しかしながら、他の実施形態は、図１４に示すような、２つタイプのストアを用いてキーバリュー・ストア４００を構成することもできる。図１４に示す第３の実施形態のキーバリュー・ストア４００は、カウンタ付きのハッシュマップ・ストア４１０と、ブルームフィルタ４２０と、ダブルアレイ・ストアまたはＬＯＵＤＳストアから構成されるストア４３０と、振り分け部４５０とを含み構成される。

　図１４に示す第３の実施形態においても、ジップの法則に沿った現実のデータ・アクセスにおいて、全体としてのメモリ空間効率およびスループットを向上することができる。また、ハッシュマップ・ストア４１０およびストア４３０間のエントリの行き来による振動を低減することが可能となり、また、最悪のケースの性能を底上げすることが可能となる。

（６）ハードウェア構成
　以下、上記実施形態によるキーバリュー・ストアを実現するコンピュータ装置について説明する。図１５は、本実施形態のキーバリュー・ストア（１００／３００／４００）を実現するコンピュータ装置の概略的なハードウェア構成を示す。図１５に示すコンピュータ装置は、中央処理装置（ＣＰＵ）１２と、ＣＰＵ１２が使用するデータの高速アクセスを可能とするＬ１およびＬ２などのレベルを有するキャッシュ・メモリ１４と、ＣＰＵ１２の処理を可能とするＤＲＡＭなどの固体メモリ素子から形成されるシステム・メモリ１６とを備えている。システム・メモリ１６は、本実施形態のキーバリュー・ストア（１００／３００／４００）のデータ構造の格納領域を提供する。

　ＣＰＵ１２、キャッシュ・メモリ１４およびシステム・メモリ１６は、システム・バス１８を介して、他のデバイスまたはドライバ、例えば、グラフィックス・ドライバ２０およびネットワーク・インタフェース・カード（ＮＩＣ）２２へと接続されている。グラフィックス・ドライバ２０は、バスを介して外部のディスプレイ２４に接続されて、ＣＰＵ１２による処理結果をディスプレイ画面上に表示させることができる。また、ＮＩＣ２２は、物理層レベルおよびデータリンク層レベルでコンピュータ装置を、ＴＣＰ／ＩＰなどの適切な通信プロトコルを使用するネットワークへと接続している。

　システム・バス１８には、さらにＩ／Ｏバス・ブリッジ２６が接続されている。Ｉ／Ｏバス・ブリッジ２６の下流側には、ＰＣＩなどのＩ／Ｏバス２８を介して、ＩＤＥ、ＡＴＡ、ＡＴＡＰＩ、シリアルＡＴＡ、ＳＣＳＩ、ＵＳＢなどにより、ハードディスク装置３０が接続されている。また、Ｉ／Ｏバス２８には、ＵＳＢなどのバスを介して、キーボードおよびマウスなどのポインティング・デバイスなどの入力装置３２が接続されていて、この入力装置３２によりユーザ・インタフェースが提供される。

　コンピュータ装置のＣＰＵ１２としては、いかなるシングルコア・プロセッサまたはマルチコア・プロセッサを用いることができる。コンピュータ装置は、ＷＩＮＤＯＷＳ（登録商標）２００Ｘ、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ（登録商標）などのオペレーティング・システム（以下、ＯＳとして参照する。）により制御される。コンピュータ装置は、上記ＯＳの管理の下、システム・メモリ１６上などにプログラムを展開し、プログラムを実行し、各ハードウェア資源を動作制御することによって、上述した機能部の構成および処理をコンピュータ上に実現する。

（７）実験
（７－１）コンピュータ装置における実装
　クロック数２．２ＧＨｚのＤｕａｌ　Ｃｏｒｅ　Ｏｐｔｅｒｏｎ（登録商標）２７５プロセッサ２機と、２ＭＢの２次キャッシュ、４ＧＢのＰＣ３２００のＲＡＭ、７５０ＧＢのＳＡＴＡインタフェースのＨＤＤ（７２００ｒｐｍ）２機を備えるＩｎｔｅｌｌｉＳｔａｔｉｏｎ（登録商標）ＡＰｒｏを用いて、本実施形態によるキーバリュー・ストアを実現するコンピュータ装置を実装した。このコンピュータ装置のオペレーティング・システムは、Ｗｉｎｄｏｗｓ（登録商標）２００３　Ｓｅｒｖｅｒ　Ｓｔａｎｄａｒｄ　ｘ６４　Ｅｄｉｔｉｏｎ　ＳｅｒｖｉｃｅＰａｃｋ２であり、上記プログラムは、Ｊａｖａ（登録商標）言語（Ｖｅｒｓｉｏｎ　１．６．０）によって記述した。

（７－２）実験結果（スループットおよびメモリ消費量）
　図１２に示すキーバリュー・ストア３００を実現するシステムをコンピュータ装置上に実現した。ＬＯＵＤＳストア３４０は、図１３に示すファサード構成により実装した。ＬＯＵＤＳストア３４０において、ブルームフィルタ３４４は、１キーワードあたり３ビットのビット配列を準備し、２個のハッシュ関数によって各２ビットを有効化する構成とした。また、誤差ｅは、１／２００００とし、上限閾値Θ_ＨＭおよびΘ_Ｌは、それぞれ、１／４０００および１／１００００とした。

　上記キーバリュー・ストア３００に対し、ＮＨＴＳＡが収集公開している自動車の不具合報告データベースから言語処理によって抽出された重複を含むキーワード２．４億件のデータ・セットを入力した際の平均スループットおよびメモリ使用量を計測した。上記キーワードは、平均約２７．２文字であり、上記データ・セットには約６５０万個のユニークなキーワード文字列が含まれていた。

　さらに比較のため、ハッシュマップ・ストアのみからなるキーバリュー・ストア、ダブルアレイ・ストアのみからなるキーバリュー・ストア、およびＬＯＵＤＳストアのみからなるキーバリュー・ストアをそれぞれ構成し、上記と同一のデータ・セットを入力し、平均スループットおよびメモリ使用量を計測した。

　上記データ・セットからキーバリュー・ストアを構築した際の第２の実施形態（Ｈａｓｈ　Ｍａｐ＋ＤＡ＋ＬＯＵＤＳ）、ハッシュマップ・ストアのみ（Ｈａｓｈ　Ｍａｐ）、ダブルアレイ・ストアのみ（Ｄｏｕｂｌｅ　Ａｒｒａｙ　ＴＲＩＥ）、ＬＯＵＤＳストアのみ（ＬＯＵＤＳ　ＴＲＩＥ）にかかる実験例を、それぞれ、実験例１、実験例２、実験例３および実験例４と参照する。実験例１が実施例に対応する。

　下記表１は、上記実験例１～実験例４について測定された平均スループットおよびメモリ使用量をまとめたテーブルである。下記表１が示すように、実験例１のキーバリュー・ストア３００は、実験例３のダブルアレイのみのキーバリュー・ストアの約半分のメモリ消費量で、ダブルアレイのみのストアに迫る平均スループットを記録した。したがって、ハッシュマップ・ストアのみ、ダブルアレイ・ストアのみまたはＬＯＵＤＳストアのみでの実装と比較して、概ねジップの法則に従う現実のデータ・アクセスにおいて、上記実施形態によるキーバリュー・ストアが、メモリ空間効率およびスループットの総合的な観点から優れた性能を発揮できることが示された。

（７－３）実験結果（帰還率および残留率）
　さらに、上記コンピュータ装置において、上記データ・セットを入力した際のバケットごとのハッシュマップ・ストアに入った全シンボル数に対する他ストアからハッシュマップ・ストア３１０へ帰還したシンボル数の割合（帰還率）、振り分け時のハッシュマップ・ストアの全エントリに対するハッシュマップ・ストア３１０に残留したエントリ数の割合（残留率）、全シンボル数に対するハッシュマップ・ストア３１０のエントリにヒットする割合（ヒット率）の経時変化を計測した。また、上記データ・セットを入力して最終的に得られたキーバリュー・ストアのメモリ消費量を計測した。

　さらに比較のため、図１２に示すキーバリュー・ストア３００を実現するシステムにおいて、ストア代表値を用いたエントリの復元を行わないシステムを構成し、同一データ・セットを入力し、上記データ・セットを入力した際の帰還率、残留率およびヒット率の経時変化を計測した。また、上記データ・セットを入力して最終的に得られたキーバリュー・ストアのメモリ消費量を計測した。

　上記データ・セットからキーバリュー・ストアを構築した際の、第２の実施形態によるシステムと、第２の実施形態によるシステムにおいてストア代表値を用いたエントリの復元を行わないシステムとにかかる実験例を、それぞれ、実験例５および実験例６と参照する。実験例５が実施例に対応する。

　図１６（Ａ）は、上記実験例５および実験例６について測定された帰還率の経時変化をプロットした折れ線グラフである。図１６（Ｂ）は、上記実験例５および実験例６について測定された残留率の経時変化をプロットした折れ線グラフである。図１７（Ａ）は、上記実験例５および実験例６について測定されたヒット率の経時変化をプロットした折れ線グラフである。図１７（Ｂ）は、上記実験例５および実験例６について最終的に得られたキーバリュー・ストアの消費メモリ量をプロットした棒グラフである。なお、上記図１６および図１７（Ａ）において、横軸の時間は、入力データ数に対応する。

　図１６（Ａ）に示すように、ストア代表値を用いた復元が行われないシステム（実験例６）では、帰還率が時間の経過に従って大きく変動し、高い値を示す。これに対し、ストア代表値を用いた復元が行われる第２の実施形態のシステム（実験例５）では、定常的に低い帰還率に抑制されていることが理解される。同様に図１６（Ｂ）に示すように、実験例６のシステムでは、残留率が時間の経過に関わらず低い値を示すが、実験例５の第２の実施形態によるシステムでは、時間の経過とともに残留率が改善し、最終的には約９３％まで向上していることが理解される。同様に図１７（Ａ）を参照すると、実験例６のシステムでは、ヒット率が時間の経過に伴い単調減少して行くが、実験例５の第２の実施形態によるシステムでは、時間の経過とともにヒット率が向上していることが理解される。

　また、図１７（Ｂ）に示すように、実験例６のシステムと、実験例５の第２の実施形態によるシステムとでは、メモリ消費量に大きな相違が無く、第２の実施形態によるシステムの方が若干コンパクトになる結果であった。

　帰還率は、低いときに精度が高いと評価され、残留率は、高いときに精度が高いと評価され、ヒット率も高いときに精度が高いと評価されるが、上記実験例５は、ストア代表値を用いた復元が行われない実験例６と比較して、帰還率、残留率およびヒット率のいずれの観点からも精度が改善することが示された。

　第２の実施形態のシステムにおいて、帰還率、残留率およびヒット率が改善されるのは、ストア代表値を用いた復元により、シンボルの出現頻度が適正に評価され、高頻度のシンボルがハッシュマップ・ストア３１０に残留し易く、一度整理された低頻度のシンボルがハッシュマップ・ストア３１０に帰還し難くなり、ひいてはハッシュマップ・ストア３１０およびストア３３０，３４０間のエントリの行き来による振動が低減された結果であると考えられる。

　以上説明したように、本発明の実施形態によれば、オンライン構築が可能であり、高い空間効率でキーを格納し、かつ、高いデータ・アクセス速度を有するデータストアを実現する情報処理装置、データストア操作方法およびプログラムを提供することができる。

　なお、本発明につき、発明の理解を容易にするために各機能部および各機能部の処理を記述したが、本発明は、上述した特定の機能部が特定の処理を実行するほか、処理効率や実装上のプログラミングなどの効率を考慮して、いかなる機能部に、上述した処理を実行するための機能を割当てることができる。

　また、本発明は、キーとして、記号として１バイト文字を用いる文字列のほか、日本語、中国語、韓国語、アラビア語などマルチ・バイトの文字の文字列に対しても適用可能であることは言うまでもない。

　本発明の上記機能は、Ｃ＋＋、Ｊａｖａ（登録商標）、ＪａｖａＢｅａｎｓ（登録商標）、Ｊａｖａ（登録商標）Ａｐｐｌｅｔ、ＪａｖａＳｃｒｉｐｔ（登録商標）、Ｐｅｒｌ、Ｒｕｂｙなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。

　これまで本発明を、特定の実施形態をもって説明してきたが、本発明は、実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１２…ＣＰＵ、１４…キャッシュ・メモリ、１６…システム・メモリ、１８…システム・バス、２０…グラフィックス・ドライバ、２２…ＮＩＣ、２４…ディスプレイ、２６…Ｉ／Ｏバス・ブリッジ、２８…Ｉ／Ｏバス、３０…ハードディスク装置、３２…入力装置、１００，３００,４００…キーバリュー・ストア、１１０…最上位ストア、１２０，３２０，４２０…ブルームフィルタ、１３０…階層ストア、１３２…ストア代表頻度値Ｒ_ｉ、１３４…合計出現回数Ｎ_ｉ、１３６…シンボル数｜Ｄ_ｉ｜、１５０，３５０，４５０…振り分け部、２００…データ・ストリーム、２１０…バケット、２１２…バケット境界、２１４…入力位置、３１０，４１０…ハッシュマップ・ストア、３３０…ダブルアレイ・ストア、３４０…ＬＯＵＤＳストア、３４２…下位ＬＯＵＤＳ、３４４…ブルームフィルタ、３４６…入力バッファトライ木、４３０…ダブルアレイ・ストアまたはＬＯＵＤＳストア

Claims

　データストアを実現する情報処理装置であって、
　前記データストアを構成し、シンボルのエントリ毎のカウンタを有する最上位ストアと、
　それぞれ、前記データストアを構成し、階層ごとに頻度に関する代表値が定義される１以上の階層ストアと、
　アクセスされるシンボルを、前記最上位ストア内でカウントし、カウンタ値に応じて前記最上位ストアおよび前記１以上の階層ストアへ振り分けを行う振り分け部と
　を含み、前記振り分け部は、前記最上位ストアから移動されたシンボルに対するアクセスに対応して、該シンボルが含まれる階層ストアに対し定義される頻度に関する代表値を用いて前記最上位ストアに該シンボルのエントリを復元する、情報処理装置。
　前記カウンタ値は、シンボルの出現頻度値を保持し、前記復元は、前記代表値に応じて、シンボルの失われた過去を反映した出現頻度値、または出現頻度値に含まれ得る誤差を表す誤差値を設定することを含み、
　前記振り分け部は、前記誤差値を設定して前記最上位ストアにエントリを追加するとともに、入力データに対する規定幅のバケットの境界で、出現頻度値、誤差値および入力データ数の関係から、前記最上位ストアに残留させるエントリと、前記最上位ストアから前記階層ストア各々に移動するエントリとを判定する、請求項１に記載の情報処理装置。
　前記代表値は、前記階層ストア内のシンボル平均出現頻度または最大出現頻度である、請求項２に記載の情報処理装置。
　前記代表値は、階層ストア毎にカウントされるシンボルの合計出現頻度とシンボル数とから算出される前記シンボル平均出現頻度である、請求項３に記載の情報処理装置。
　前記１以上の階層ストアは、少なくとも２つの階層ストアを含み、
　前記振り分け部は、規定幅のバケットの境界で、シンボル平均出現頻度が下位の階層ストアより規定以上下回る上位の階層ストア内の全エントリを、該下位の階層ストアに組み入れる、請求項１に記載の情報処理装置。
　前記１以上の階層ストアは、リンク構造による動的なツリーおよび簡潔データ構造による静的なツリー、またはいずれか一方の構造によるツリーを少なくとも階層ストアとして含む、請求項１に記載の情報処理装置。
　前記最上位ストアは、ハッシュ・マップであり、前記１以上の階層ストアの１つがリンク構造による動的なツリーであり、前記１以上の階層ストアの他の１つが、ＬＯＵＤＳ（Level Order Unary Degree Sequence）による静的なツリーである、請求項１に記載の情報処理装置。
　前記振り分け部は、前記最上位ストア内のエントリに対するアクセスに対応して、前記カウンタを増分するとともに、前記最上位ストアおよび前記１以上の階層ストアのいずれにも含まれないシンボルに対するアクセスに対応して、該シンボルのエントリを、カウンタに初期値を設定して、前記最上位ストアに新規追加する、請求項１に記載の情報処理装置。
　最上位ストアＤから階層ストアＤ_ｉに移動するエントリを判定するための出現頻度値ｆ、誤差値Δおよび入力データ数Ｎの関係は、バケット幅が１／ｅで表され、バケット識別値がＢ（＝ｅＮ）で表され、階層ストアＤ_ｉおよびＤ_ｉ＋１対し設定された出現頻度の上限を表す閾値因子がθ_ｉおよびθ_ｉ＋１で表されるとして、下記式（１）で表現される、請求項２に記載の情報処理装置。
　データストアにアクセスするため情報処理装置が実行する方法であって、情報処理装置が、
　シンボルに対するアクセスを受領するステップと、
　アクセスされたシンボルを、前記データストアを構成しシンボルのエントリ毎にカウンタが設けられた最上位ストア内でカウントするステップと、
　カウンタ値に応じて前記最上位ストアと、それぞれ前記データストアを構成する１以上の階層ストアとへ振り分けるステップと、
　前記最上位ストアから移動されたシンボルに対するアクセスに対応して、該シンボルが含まれる階層ストアに対し定義される代表値を用いて前記最上位ストアに該シンボルのエントリを復元するステップと
　を含む、データ・アクセス方法。
　前記カウントするステップは、カウンタがシンボルの出現頻度値を保持するとして、出現頻度値に含まれ得る誤差を表す誤差値を設定して前記最上位ストアにエントリを追加するサブステップを含み、
　前記振り分けるステップは、入力データに対する規定幅のバケットの境界で、出現頻度値、誤差値および入力データ数の関係から、前記最上位ストアに残留させるエントリを判定するサブステップと、前記境界で前記関係に応じて前記最上位ストアから前記階層ストア各々に移動するエントリを判定するサブステップとを含み、
　前記復元するステップは、前記代表値に応じて、シンボルの失われた過去を反映した出現頻度値または誤差値をエントリに設定するサブステップをさらに含む、請求項１０に記載のデータ・アクセス方法。
　前記復元するステップは、前記代表値として、前記階層ストア内のシンボル平均出現頻度または最大出現頻度を算出するサブステップを含む、請求項１１に記載のデータ・アクセス方法。
　前記復元するステップにおける前記算出するサブステップは、階層ストア毎にカウントされるシンボル合計出現回数とシンボル数とから、前記シンボル平均出現頻度を前記代表値として算出するサブステップである、請求項１２に記載のデータ・アクセス方法。
　前記１以上の階層ストアは、少なくとも２つの階層ストアを含み、
　規定幅のバケットの境界で、シンボル平均出現頻度が下位の階層ストアより規定以上下回る上位の階層ストア内のエントリを、該下位の階層ストアに組み入れるステップをさらに含む、請求項１１に記載のデータ・アクセス方法。
　コンピュータ・システム上にデータストアを実現するためのコンピュータ実行可能なプログラムであって、前記プログラムは、前記コンピュータ・システムを、
　前記データストアを構成し、シンボルのエントリ毎のカウンタを有する最上位ストア、　それぞれ、前記データストアを構成し、代表値が定義される１以上の階層ストア、および
　アクセスされるシンボルを、前記最上位ストア内でカウントし、カウンタ値に応じて前記最上位ストアおよび前記１以上の階層ストアへ振り分けを行う振り分け部であって、前記最上位ストアから移動されたシンボルに対するアクセスに対応して、該シンボルが含まれる階層ストアに対し定義される代表値を用いて前記最上位ストアに該シンボルのエントリを復元する、当該振り分け部、
　として機能させるプログラム。