WO2016194401A1

WO2016194401A1 - 計算機、データベース処理方法、及び集積回路

Info

Publication number: WO2016194401A1
Application number: PCT/JP2016/053273
Authority: WO
Inventors: 芳孝 ▲辻▼本; 本村　哲朗; 義文藤川
Original assignee: 株式会社日立製作所
Priority date: 2015-06-05
Filing date: 2016-02-03
Publication date: 2016-12-08

Abstract

　行指向データベースから列指向データベースへの変換処理をＦＰＧＡとＣＰＵを併用して高速に行う。　計算機は（１）行指向形式で格納され、前記列指向データベースに追加すべきデータである追加データを列指向形式に変換した一時辞書符号化データと、一時辞書符号化データに対応した一時辞書データを生成する第１論理と、（２）一時辞書符号化データと、前記一時辞書データとを列指向データベースに追加する第２論理と、を含む集積回路を備える。計算機は、第１論理又は計算機のＣＰＵが生成する一時辞書データのエントリ数に基づいて、前記第２論理を駆動すべきか否か判断する。

Description

計算機、データベース処理方法、及び集積回路

　この発明は、概して、データベースの処理に関する。

　データベース処理には、大きく２種類の処理がある。１つは、オンライントランザクション処理（ＯｎＬｉｎｅ　Ｔｒａｎｓａｃｔｉｏｎ　Ｐｒｏｃｅｓｓｉｎｇ：ＯＬＴＰ）であり、もう１つは、オンライン分析処理（ＯｎＬｉｎｅ　Ａｎａｌｙｔｉｃａｌ　Ｐｒｏｃｅｓｓｉｎｇ：ＯＬＡＰ）である。ＯＬＴＰはデータベースを行単位で更新する操作が多く、行指向データベースにより効率よく処理できる。ＯＬＡＰはデータベースを読み出し、傾向を分析する操作が多く、列指向データベースにより効率よく処理できる。

　近年では、ＯＬＴＰによって更新されたデータベースを用いて、刻々と変わる傾向をＯＬＡＰにて即時分析することが要求されるようになってきた。このように１つのデータベースに対してＯＬＴＰとＯＬＡＰの２つの処理が行えるデータベースが求められており、行指向データベースと列指向データベースの両方の特性を持ち合わせたデータベースシステムが登場している。この様なデータベースでは、内部で行指向データベースから列指向データベースへ変換することが行われている。

　特許文献１には、ＯＬＴＰにより変更があった行を含んだ行指向データベースである増分データを、列指向データベースの増分データへ変換するだけでなく、値の辞書符号化も行われ、それからメインデータにマージすることが開示されている。行指向データベースから列指向データベースへの変換は、外部の行指向データベースからデータをインポートし、列指向データベースを構築する場合にも行われる。

　非特許文献２では、変換対象列のデータタイプと辞書エントリ数に応じて、変換処理に最適なデバイス、ＣＰＵ、ＦＰＧＡ、もしくは、ＧＰＵを割り当てる方式が比較、検討されている。

特開２０１４－１６９８３号公報特許第３９０５２２１号特許第４３９１４６４号特許第４９７８００６号

Ｊ．Ｗ．Ｊ　Ｗｉｌｌｉａｍｓ．"Ｈｅａｐｓｏｒｔ，"ＣＡＣＭ，Ｖｏｌ．７，Ｎｏ．６，Ｊｕｎｅ１９６４．Ｅｏｇｈａｎ　Ｏ’Ｎｅｉｌｌ，　ｅｔ　ａｌ．："Ｃｒｏｓｓ　Ｒｅｓｏｕｒｃｅ　Ｏｐｔｉｍｉｓａｔｉｏｎ　ｏｆ　Ｄａｔａｂａｓｅ　Ｆｕｎｃｔｉｏｎａｌｉｔｙ　Ａｃｒｏｓｓ　Ｈｅｔｅｒｏｇｅｎｅｏｕｓ　Ｐｒｏｃｅｓｓｏｒｓ"，ＩＰＳＡ，２０１４，ｐ１５０－１５７

　辞書符号化を伴う行指向データベースから列指向データベースへの変換処理は、ＦＰＧＡでもＣＰＵでも実行可能である。しかし変換処理対象のデータによっては、ＦＰＧＡで処理すると高速な場合も、ＣＰＵで処理すると高速な場合もある。例えばＣＰＵの場合、データベースに含まれる辞書エントリ数、列の並び順などのデータの性質によって、キャッシュのヒット率が大きく変わり、ＣＰＵのデータベース変換処理時間が大幅に変動する。加えて、上記変換処理は複数の変換やマージといったデータ操作処理内容（以後、単に処理内容と省略する）に分割できる。しかし、従来技術にはこれらを踏まえたＦＰＧＡ及びＣＰＵの併用による高速化にについて開示されていない。

　計算機は（１）行指向形式で格納され、前記列指向データベースに追加すべきデータである追加データを列指向形式に変換した一時辞書符号化データと、一時辞書符号化データに対応した一時辞書データを生成する第１論理と、（２）一時辞書符号化データと、前記一時辞書データとを列指向データベースに追加する第２論理と、を含む集積回路を備える。計算機は、第１論理又は計算機のＣＰＵが生成する一時辞書データのエントリ数に基づいて、前記第２論理を駆動すべきか否か判断する。

　本発明により、行指向データベースから列指向データベースへの変換処理を高速に実行することができる。

第１のデータベース変換処理が行われる状況を示す図。第２のデータベース変換処理が行われる状況を示す図。実施例１のシステム例を示す図。変換前の行指向データベース構造の１例を示す図。変換後の列指向データベース構造の１例を示す図。１つの列に対する増分データの変換とメインデータへのマージ処理のフローチャート。増分データを列指向に変換する処理のフローチャート。辞書符号化装置と辞書ソート装置を示す図。辞書符号化コマンドのパラメータを示す図。辞書符号化の処理のフローチャート。辞書ＲＡＭ装置内部とその周辺装置を示す図。辞書ＲＡＭ内の検索のフローチャート。長い文字列の場合の辞書ＲＡＭ装置を示す図。辞書ソート装置内のヒープ構造と出力データの辞書とソートｉｎｄｅｘを示す図。未ソート辞書とソート済辞書とソートｉｎｄｅｘの関係を示す図。具体的な辞書のマージ処理を示す図。ｉｄ変換テーブルの生成過程を示す図。ｉｄ変換テーブルの差分形式を示す図。辞書マージソート装置を示す図。辞書マージコマンドのパラメータを示す図。辞書マージ処理のフローチャート。ｉｄ変換テーブル操作装置を示す図。ｉｄ変換テーブル操作コマンドのパラメータを示す図。ｉｄ変換テーブル操作のフローチャート。ｉｄ変換処理の過程を示す図。ｉｄ変換装置を示す図。ｉｄ変換コマンドのパラメータを示す図。ｉｄ変換処理のフローチャート。実施例３のシステム例を示す図。デバイス選択部の入出力パラメータを示す図。ＳＷライブラリ、ＦＰＧＡコマンド、ＦＰＧＡ論理ブロックの対応を示す図。ＦＰＧＡとＣＰＵの辞書マージ処理時間比較を示す図。列数１の場合のデバイス選択部の変換処理フローチャート。処理内容に応じたデバイス選択結果を示す図。複数列の場合のデバイス選択部の変換処理フローチャート。処理内容に応じた複数列のデバイス選択結果を示す図。

　幾つかの実施例を、図面を参照して説明する。なお、以下に説明する実施例は請求の範囲にかかる発明を限定するものではなく、また実施例で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

　また、以下の説明では、ハードウェアを主語として処理を説明する場合があるが、プログラムをハードウェアの自体、またはハードウェアが有するプロセッサ（例えば、ＭＰ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｏｒ））によって実行することで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又は通信インターフェースデバイス（例えばポート）を用いながら行うため、処理の主語がプログラムとされても良い。

　また、以下の説明ではＦＰＧＡを構成する装置は、論理ブロックと呼ぶこともできる。ＦＰＧＡの構成は、実施例中で説明する構成に限定されない。例えば、ＦＰＧＡ内の１つの装置が行う処理を複数の装置で行うようＦＰＧＡを構成してもよい。また、複数の装置が行う処理を１つの装置で行うようにＦＰＧＡを構成してもよい。

　さらに、実施例で説明する処理の順番は、実施例で説明された順番やフローチャートに記載された順番に限定されない。ＦＰＧＡはその特徴から、複数の処理を各装置で同時並行して処理することができる。

　これから本実施例で説明する行指向データベースから列指向データベースへの変換がおこなわれる状況には、大きく２つある。１つは図１に示す場合であり、外部の行指向データベース１０１からデータをインポートし、列指向データベース２０３を構築する場合である。２つ目は図２に示す場合であり、ＯＬＴＰにより変更があった行を含んだ行指向データベースである増分データ２０１を、列指向データベースの増分データ２０２へ変換し、それからメインデータ２０３にマージする。これらの変換処理は重い処理であり、高速な処理が重要になる。

　図３は、実施例１のデータベース処理装置３００の全体を示す図である。データベース処理装置３００は、データベースの処理をする装置であって、サーバやパーソナルコンピュータ、サーバとストレージ装置又はサーバとネットワークとを一体型の筺体とした統合プラットフォームのような計算機、あるいはシステムである。データベース処理装置３００内では、主記憶装置（以下、主記憶）３０１とＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０２と二次記憶装置（以下、二次記憶）３０３と、外部装置とのインタフェースであるＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）３０４と論理回路であるＦＰＧＡ３１０が、データの通信を行うシステムバス３０５によって接続されている。本実施例で説明する処理は、ＦＰＧＡ３１０内に実装される。主記憶３０１は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）やＤＲＡＭ（Ｄｙａｎｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）のような揮発性メモリや、フラッシュメモリのような不揮発性メモリ等から構成され、データベースやソフトウェアのデータを一次的に記憶する。また、主記憶３０１に処理に必要なデータを格納しデータベースの処理も行われる。ＣＰＵ３０２は、主記憶３０１に格納されたプログラムやデータベース処理を実行する。二次記憶３０３は、データの最終記憶媒体で、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等から構成される。処理対象となる行指向データベースは、ＮＩＣ３０４を通して外部から入力され、主記憶３０１上に格納される。または、一旦二次記憶３０３に格納され、処理開始前に主記憶３０１上に格納される。あるいはＣＰＵ３０２によりデータが作成され、主記憶３０１上に格納される。

　変換処理は、ＣＰＵ３０２上で動くソフトウェアと、ＦＰＧＡ３１０内の装置を用いて、主記憶３０１上に格納された行指向データベースを読み出し、変換後、列指向データベースは主記憶３０１上に格納される。変換処理に必要な中間データの一部も必要に応じて、主記憶３０１上に格納される。

　図３のＦＰＧＡ３１０は、インタフェース装置３１１によってシステムバス３０５と接続される。ＦＰＧＡ３１０内には、列データ化と辞書符号化を行う論理ブロックである列データ化と辞書符号化装置３１２と、辞書データの各エントリのソート処理を行う論理ブロックである辞書ソート装置３１３と、複数の辞書をマージし新たな辞書を作成する処理を行う論理ブロックである辞書マージ装置３１４と、マージ前の辞書とマージ後との対応関係を管理するｉｄ変換テーブルを作成する論理ブロックであるｉｄ変換テーブル操作装置３１５と、ソート前の辞書とソートしてマージした後の辞書との対応関係を管理するｉｄ変換テーブルを作成する論理ブロックであるｉｄ変換装置３１６があり、それぞれインタフェース装置３１１と接続されている。

　主記憶３０１上に置かれた処理対象の行指向データベースのデータ形式の一例を図４に示す。行指向データベース４１０の格納場所は、先頭アドレス４０１で示され、行の大きさ４０３に１行のバイト数が格納されている。また、先頭アドレス４０１の値に行の大きさ４０３の値を加えると、２行目の先頭アドレスが得られる。行数４０２の値は、行指向データベース４１０の総行数を示す。列数４０４は、行指向データベース４１０の列の数を示し、各列ごとに、列のオフセット４０５と列のデータ型４０６の値を持つ。列のオフセット４０５は、各行の先頭からその行の各列の先頭までの距離を示す。列のデータ型４０６は、各列のバイト数や、数値、文字列などの型情報を示す。

　列指向データベースのデータ形式の一例を図５に示す。列指向データベースは主記憶３０１に格納されている。列指向データベース５０１は、複数の列データ５０２によって構成される。列データ５０２は、符号化データ５１１と辞書データ５１２とオプションの度数表５１３とそれらデータの位置や大きさを示す複数の値で構成される。ここで辞書データ５１２とは、列データ５０２で示される列に存在するデータの集合であり、各データには符号が付けられ、管理されている。また、符号化データ５１１とは、列の各行のデータを、辞書データ中の対応する符号で管理するデータである。列データ５０２で示される列のｎ行目のデータは、符号化データ５１１のｎ行目の符号と、その符号と対応するデータとを辞書データ５１２から検索することで得られる。符号化データ５１１の格納場所は符号化データアドレス５２１で格納場所の先頭アドレスが示され、符号化データ５１１の個々のデータの大きさは符号化ビット長５２２で示される。辞書データ５１２の格納場所は辞書先頭アドレス５２７で示され、辞書データ５１２の個々のエントリの大きさはデータ型５２３で示される。辞書データ５１２は辞書の個数５２４で示される個数の辞書から構成されており、それぞれの辞書に含まれるエントリ数は辞書のエントリ数５２６で示される。各辞書に対する符号化データの個数は、辞書に対するデータ行数５２５で示される。辞書の各エントリに対して参照回数を記録した度数表５１３のエントリが１対１で対応する。度数表５１３の格納場所は度数表のアドレス５２８により示される。

　ＦＰＧＡ３１０内の装置は、図４で示すような行指向データベースの各列を処理し、図５に示すような列指向データベースに変換し、増分データの場合はその後メインデータへマージする。

　行指向データベースから列指向データベースへの変換処理は各列ごとに独立に処理が行われる。増分データを変換しメインデータへマージする処理の流れを、図６のフローチャートを用いて説明する。１つの列の処理は、Ｓ６００からスタートし、ＦＰＧＡ３１０は、Ｓ６０１において増分データを辞書符号化する。Ｓ６０２では、ＦＰＧＡ３１０は、Ｓ６０１で作成された辞書と、もともと存在するメインデータの辞書を合わせてソート処理を行い（辞書マージ処理）、Ｓ６０１で作成された辞書とメインデータの辞書とをマージした新たな辞書を作成する。新たな辞書に対応して、符号化データの値を書き換える必要があるため、メインデータと増分データそれぞれの符号化データを書き換えるためのｉｄ変換テーブルも作成する。Ｓ６０３では、ＦＰＧＡ３１０は、辞書マージ処理により、新たな辞書と元のメイン辞書の間で、変更があったかどうかを検査する。ｉｄ変換テーブルを調べることでこの検査は容易に検査可能である。もし、変更されていないならば、Ｓ６０５の処理に移る。変更されていた場合は、ＦＰＧＡ３１０は、Ｓ６０４でメインデータの符号化データをｉｄ変換テーブルに従って書き換え後のメイン辞書に対応するよう書き換える。その後、Ｓ６０５において、ＦＰＧＡ３１０は、増分データの符号化データをｉｄ変換テーブルに従って書き換え、メインデータに追加する。そして、Ｓ６０６で終わる。この処理をすべての列に対して行うことで、行指向データベースは列指向データベースに書き換えられる。Ｓ６０１乃至Ｓ６０２におけるマージ処理とｉｄ変換テーブルの作成処理については、図１６、図１７、図１８を用いて詳細は後述する。また、Ｓ６０４とＳ６０５の詳細は、図２６乃至２８でも後述する。なお、外部の行指向データベースからデータをインポートし、列指向データベースを新たに構築する場合は、Ｓ６０１の処理のみが行われ、Ｓ６０１で作成されたデータがメインデータとして使用される。

　Ｓ６０１のより詳しい処理を、図７に示すフローチャートを用いて説明する。Ｓ７００からスタートし、列データ化と辞書符号化装置３１２と辞書ソート装置３１３とは、Ｓ７０１ではある一定の大きさ以下の辞書を１個または複数生成しながらデータを符号化する。Ｓ７０１の詳細は図１０のフローチャートを用いて後述する。Ｓ７０２では、辞書ソート装置３１３が、Ｓ７０１で生成された１又は複数の辞書をそれぞれソートする。また、同時に、辞書ソート装置３１３が、ソート前とソート後の符号の対応表であるソートｉｎｄｅｘを各辞書に対して生成する。Ｓ７０１とＳ７０２は、図８乃至図１５を用いて詳細は後述する。ここで、ＦＰＧＡ３１０内の辞書ＲＡＭには使用量の限界があるため、辞書ＲＡＭの使用量が辞書容量制限値を超えると、１つの辞書の作成は終了し、新たな辞書が作成される。そのため、増分データの辞書が複数存在することがある。詳細は図８乃至１１を用いて後述する。Ｓ７０３では、制御装置８０１が、Ｓ７０１で生成された辞書の数をチェックし、１つの辞書のみ生成されたならばＳ７０６へ処理が移り、２つ以上の辞書が生成されたならばＳ７０４へ処理が移る。Ｓ７０４では、辞書マージ装置３１４が複数の辞書をマージソートによりマージとソートをし、１つの辞書にまとめる。Ｓ７０４の詳細は、図１９乃至図２１を用いて後述する。次にＳ７０５において、ｉｄ変換テーブル操作装置３１５が、１つの辞書にマージする前と後の符号の対応表であるｉｄ変換テーブルを生成する。Ｓ７０５の詳細は、図２２乃至図２４を用いて詳細に説明する。Ｓ７０４とＳ７０５は、図１６乃至図１８でも詳細を後述する。最後にＳ７０６に移り、処理は終わる。

　Ｓ７０１とＳ７０２の処理は、ＦＰＧＡ３１０の列データ化と辞書符号化装置３１２と辞書ソート装置３１３とを用いて、行われる。図８に、列データ化と辞書符号化装置３１２と辞書ソート装置３１３のブロック図を示す。列データ化と辞書符号化装置３１２は、制御装置８０１と、元データ入力ＦＩＦＯ８０２と、符号決定装置８０３と、辞書ＲＡＭ８０４と、辞書使用量計測装置８０５と、データ符号出力装置８０６と、行数出力装置８０７とを有する。辞書ソート装置３１３は、辞書データと登録ｉｄとをヒープ構造で格納するヒープ構造データ８１１と、辞書・ソートｉｎｄｅｘ出力装置８１２とを有する。ここで辞書ＲＡＭ８０４は、一次的な辞書記憶部であり、ＲＡＭに限らずＤＲＡＭやフラッシュメモリ等、データを記憶できる媒体であればよい。

　図９に、辞書符号化を指示する操作コマンドである辞書符号化コマンド９００を示す。辞書符号化コマンド９００には、コマンドの種類が辞書符号化コマンドであることを示す辞書符号化コマンド９０１、辞書使用量の制限を指定するパラメータである１つの辞書の最大エントリ数９１１と１つの辞書の最大容量９１２とが含まれる。さらに辞書符号化コマンド９００には、行型データベースのアドレス９２１、行型データベースの行数９２１、行型データベースの１行の大きさ９２３、対象列のオフセット９２４、対象列のデータ型９２５、といった図４で説明した入力データである行型データベースを指定するパラメータが含まれる。また、辞書符号化コマンド９００は、辞書の数、辞書ごとのエントリ数、辞書、各エントリのオフセット、ソートｉｎｄｅｘ、度数表のそれぞれ出力先を指定するパラメータである、辞書の数出力アドレス９３１と、辞書ごとのエントリ数出力アドレス９３２と、辞書の出力先アドレス９３３と、各エントリのオフセット出力アドレス９３４と、ソートｉｎｄｅｘの出力アドレス９３５と、度数表の出力アドレス９３６とを含む。さらに、符号化データの出力先を指定する符号化データ出力アドレス９４１、符号をビットパックするときのビット長を指定する符号化ビット長９４２、辞書ごとのデータ行数の出力先を指定する辞書ごとのデータ行数出力アドレス９４３を、出力を指定するパラメータとして辞書符号化コマンド９００は有する。

　列データ化と辞書符号化装置３１２と辞書ソート装置３１３とを動作させるために、まず、ＣＰＵ３０２より操作コマンドである図９に示す辞書符号化コマンド９００を、システムバス３０５とインタフェース装置３１１を通して、制御装置８０１に指示する。制御装置８０１は辞書符号化コマンド９００内の９０１の値を確認し、辞書符号化を開始する。

　図１０に、列データ化と辞書符号化装置３１２の動作のフローチャートを示す。

　Ｓ７０１の処理を、図８乃至図１０を用いて説明する。Ｓ１００１では、制御装置８０１が、辞書ＲＡＭ８０４内のデータを初期値にリセットする。

　制御装置８０１は、コマンド９００内の入力データに関するパラメータ９２１、９２２、９２３、９２４、９２５に従って、各行の指定の列データを主記憶３０１から読み出し、元データ入力ＦＩＦＯ８０２にデータを入れる（Ｓ１００２）。符号決定装置８０３は、元データ入力ＦＩＦＯ８０２から順に１つのデータを取り出し（Ｓ１００３）、そのデータが辞書ＲＡＭ８０４に登録されているか検索する（Ｓ１００４）。

　登録されていれば（Ｓ１００５：ＹＥＳ）、符号決定装置８０３は、そのデータの登録ｉｄを符号としデータ符号出力装置８０６に出力する。

　登録されていなければ（Ｓ１００５：ＮＯ）、まず制御装置８０１は、辞書使用量計測装置８０５からのＲＡＭ使用量信号（すなわち、後述する辞書１１１２の登録エントリ数）をチェックし、登録エントリ数（すなわち使用量）がコマンド９００のパラメータ９１１で指定された１つの辞書の最大エントリ数を超えないかチェックする（Ｓ１００６）。制御装置８０１は、もし使用量がコマンド９００内のパラメータ９１１を超えないようなら（Ｓ１００６：Ｙｅｓ）、辞書に新たにデータを登録するよう符号決定装置８０３と辞書ＲＡＭ８０４に指示し、符号決定装置８０３と辞書ＲＡＭ８０４とは新たに辞書ＲＡＭ８０４にデータを登録する（Ｓ１００９）。もし使用量が辞書容量制限値を超えるようなら（Ｓ１００６：Ｏｖｅｒ　Ｆｌｏｗ）、制御装置８０１は、辞書ソート装置３１３に辞書登録終わりの信号を出力し、辞書ソート装置３１３は辞書のソート処理を行う（Ｓ１００７）。すなわち、ここで辞書を分割する。制御装置８０１は、辞書ＲＡＭ８０４を初期値にリセットするよう指示し、それまでに処理した行数を行数出力装置８０７に出力する（Ｓ１００８）。辞書ＲＡＭ８０４はリセットされ、新たな辞書が作成される。その後、制御装置８０１は、辞書に新たにデータを登録するよう符号決定装置８０３と辞書ＲＡＭ８０４に指示し、符号決定装置８０３と辞書ＲＡＭ８０４とは新たに辞書ＲＡＭ８０４にデータを登録する（Ｓ１００９）。辞書登録が済めば、符号決定装置８０３は、そのデータの登録ｉｄを符号としデータ符号出力装置８０６に出力する（Ｓ１０１３）。なお、辞書ＲＡＭ８０４にデータ登録する際に、辞書ＲＡＭ８０４は、辞書ソート装置３１３に、登録ｉｄと登録データとを送る。

　データ符号出力装置８０６は、コマンド９００内のパラメータ９４２に従って符号をビットパックし、パラメータ９４１の示すアドレスを先頭に順に符号を主記憶３０１に出力する（Ｓ１０１３）。同様に行数出力装置８０７は、コマンド９００内のパラメータ９４３の示すアドレスを先頭に行数を主記憶３０１に出力する（Ｓ１０１３）。行数は、あらかじめ列データを行数で分割する場合と異なり、辞書を分割後にしかわららないため出力される。

　そして、制御装置８０１は、辞書ソート装置３１３に辞書登録終わりの信号と全行の処理が終わったことを知らせる信号を出力し、Ｓ７０２に進む。

　ここで、辞書ＲＡＭ８０４の使用量が辞書容量制限値を超えないかの判断を、辞書１１１２の登録エントリ数とパラメータ９１１の値とを比較して行っているが、辞書１１１２のデータ容量とパラメータ９１２の値とを比較して行ってもよい。また、辞書１１１２の容量でなく、辞書ＲＡＭ８０４全体の使用量と対応する閾値とを比較して判断してもよい。

　以上の処理により、次のエントリを登録すると閾値である辞書容量制限値を超えてしまうまで、すなわち、辞書ＲＡＭ８０４の使用量が閾値を超える直前まで、辞書にエントリを登録することができ、辞書１１１２の容量が辞書ＲＡＭ８０４の容量を超えることにより処理が進められなくなることを防ぎつつ、辞書ＲＡＭ８０４を最大限に効率よく使用することができる。すなわち、列データをあらかじめ決められた行数で分割する場合と比較して、辞書ＲＡＭ８０４に一度に格納できる辞書１１１２のサイズが大きくなり、辞書の分割数が少なくなる。よって、辞書の数が少なくなることにより、ソート処理や、マージ処理、ｉｄ変換テーブル操作処理、ｉｄ変換処理のための主記憶３０１からの辞書の読み込みや、主記憶３０１への辞書の書き出しといった、時間がかかるＦＰＧＡ３１０外部の主記憶３０１とのデータの送受信数処理の回数が少なくなり、辞書の符号化処理を高速に行うことができる。

　フローチャートのＳ１００４に相当する部分は、符号決定装置８０３と辞書ＲＡＭ８０４により行われ、より詳しいブロック図を図１１に示す。また、図１０のＳ１００４乃至Ｓ１０１３の詳細なフローチャートを図１２に示す。

　符号決定装置８０３は、データからハッシュ値を計算するハッシュ関数装置１１０１と、入力データと辞書のデータを比較する比較装置１１０２から成る。辞書ＲＡＭ８０４は、ハッシュ表１１１１と、辞書データと頻度を格納した辞書１１１２と、ハッシュコンフリクト時に処理する為のリンク値を格納したリンク表１１１３から成る。ハッシュ表１１１１は、各ハッシュ値に対応する辞書データの登録ｉｄが格納される。辞書１１１２には、登録ｉｄで示される各エントリに、辞書データとその辞書データの出現回数である頻度値とが格納される。リンク表１１１３には、ハッシュコンフリクトを起きた場合の辞書データの登録ｉｄを格納する。辞書使用量計測装置８０５は、辞書１１１２の登録エントリ数をカウントする辞書エントリ数レジスタ１１２１を持つ。ハッシュ表１１１１とリンク表１１１３の各エントリの初期値はＮＩＬである。辞書１１１２の頻度値の初期値は０である。辞書エントリ数レジスタ１１２１の初期値は０である。

　符号決定装置８０３が元データ受け取ると、まずデータをハッシュ関数装置１１０１に送り、ハッシュ関数装置１１０１は、ハッシュ表１１１１のエントリ数に対応したハッシュ値を計算する（Ｓ１２０１）。ハッシュ値はハッシュ表１１１１へ送られ、辞書ＲＡＭ８０４は、値に基づいてハッシュ表１１１１のエントリを読む（Ｓ１２０２）。値がＮＩＬならば（Ｓ１００５：Ｎｏ、Ｓ１２０３：Ｙｅｓ）、辞書に登録されていないので（Ｓ１２１３）、辞書ＲＡＭ８０４は、辞書エントリ数レジスタ１１２１の値をハッシュ表１１１１のハッシュ値が示すエントリに書き込み（Ｓ１２１４、Ｓ１２１５）、辞書エントリ数レジスタ１１２１の値が示す登録ｉｄで示される辞書１１１２のエントリに元データを登録する（Ｓ１００９、Ｓ１２１５）。符号決定装置８０３は、辞書エントリ番号すなわち登録ｉｄを符号とし、辞書ＲＡＭ８０４は、辞書１１１２の頻度値を１とする（Ｓ１０１１、Ｓ１２１８）。そして、辞書使用量計測装置８０５は、辞書エントリ数レジスタ１１２１の値を＋１インクリメントする（Ｓ１０１０、Ｓ１２１７）。

　ハッシュ表１１１１のエントリ値がＮＩＬで無いならば（Ｓ１２０３：Ｎｏ）、辞書に登録されている可能性があるので、辞書ＲＡＭ８０４は、そのエントリ値に基づいて辞書１１１２のエントリのデータを読み出し（Ｓ１２０５）、比較装置１１０２へ送る。比較装置１１０２は、元データと辞書のデータを比較する（Ｓ１２０６）。もし、一致する場合は（Ｓ１００５：Ｙｅｓ、Ｓ１２０６：等しい）、元データが辞書１１１２内に存在するため（Ｓ１２１６）、符号決定装置８０３は、辞書データのエントリ番号を符号とし、辞書ＲＡＭ８０４は、辞書１１１２の頻度値を＋１インクリメントする（Ｓ１０１２、Ｓ１２１８）。もし一致しない場合は、ハッシュコンフリクトとなるので、元データが辞書データより小さいならば（Ｓ１２０６：辞書順で前）リンク表１１１３のＬの欄を参照し（Ｓ１２０７）、元データが辞書データより大きいならば（Ｓ１２０６：辞書順で後）リンク表１１１３のＲの欄を参照する（Ｓ１２０８）。もし参照値がＮＩＬならば（Ｓ１００５：Ｎｏ、Ｓ１２０４：Ｙｅｓ）、辞書に登録されていないので（Ｓ１２１０）、辞書ＲＡＭ８０４は、辞書エントリ数レジスタ１１２１の値を参照したリンク表１１１３の欄に書き込み（Ｓ１２１１、Ｓ１２１２）、辞書エントリ数レジスタ１１２１の値が示す登録ｉｄで示される辞書１１１２のエントリに元データを登録する（Ｓ１００９、Ｓ１２１６）。符号決定装置８０３は辞書エントリ番号を符号とし、辞書１１１２の頻度値を＋１インクリメントする（Ｓ１０１１、Ｓ１２１８）。そして、辞書使用量計測装置８０５は、辞書エントリ数レジスタ１１２１の値を＋１インクリメントする（Ｓ１０１０、Ｓ１２１７）。もし参照値がＮＩＬでないならば（Ｓ１２０４：Ｎｏ）、辞書ＲＡＭ８０４は、参照値に基づいて辞書１１１２のエントリのデータを読み出し（Ｓ１２０５）、比較装置１１０２へ送る。以下同様に、元データと辞書のデータを比較し（Ｓ１２０６）、処理を進め、符号を決定する。

　ただし、前述したように、辞書に新たにデータを登録する際には、制御装置８０１が、辞書エントリ数レジスタ１１２１の値をコマンド９００内のパラメータ９１１と比較し、超えそうな場合は辞書をリセットして作業を進める。

　コマンド９００内のパラメータ９２５として、辞書１１１２のデータ欄に入りきらない長い文字列などが指定された場合は、図１３に示すように、辞書ＲＡＭ８０４に文字列メモリ１３０１を設け、辞書１１１２のデータエントリには文字列メモリ１３０１内の位置と長さを記録する。符号決定装置８０３から辞書ＲＡＭ８０４に辞書データ参照依頼がくると、辞書ＲＡＭ８０４は、辞書１１１２のデータエントリが示す文字列メモリ１３０１内のデータを符号決定装置８０３に返す。

　続いて、Ｓ１００７及びＳ７０２の各辞書のソート、ソートｉｎｄｅｘの作成処理について説明する。図８の辞書ソート装置３１３は、辞書の登録データをソートする装置である。ヒープ構造データ８１１と辞書・ソートｉｎｄｅｘ出力装置８１２とを有する。実施例では、非特許文献１に示されているヒープソートアルゴリズムを元にした方法によってソートする。ハードウェアへの実装方法には、特許文献２や特許文献３があり、並列動作により高速にソートが行われる。列データ化と辞書符号化装置３１２から辞書登録データと登録ｉｄを受け取ると、辞書ソート装置３１３は、ヒープ構造データ８１１に辞書登録データと登録ｉｄをセットで図１４に示すような構造で登録を行う。ヒープ構造は、ルートノード（＃１）にソート順で最も登録データが前になる登録ｉｄと登録データのセットが置かれ、各ノードの葉ノードにはソート順で後になるものが置かれる。列データ化と辞書符号化装置３１２から辞書登録終わりの信号を受け取ると、辞書ソート装置３１３は、ヒープ構造データ８１１から、登録ｉｄと辞書登録データとを登録データのソート順に取り出し、辞書・ソートｉｎｄｅｘ出力装置８１２に出力する。辞書・ソートｉｎｄｅｘ出力装置８１２は、コマンド９００内のパラメータ９３２、９３３、９３４、９３５、９３６に従って、辞書やソートｉｎｄｅｘを主記憶３０１に出力する。制御装置８０１から全行の処理が終わったことを知らせる信号を、辞書ソート装置３１３が受け取ると、コマンド９００内のパラメータ９３１に従って、辞書の数を主記憶３０１に出力する。辞書の数は、あらかじめ列データを行数で分割する場合と異なり、最終的な辞書の分割数が辞書作成後にしかわららないため出力される。

　ソートｉｎｄｅｘは、図１５に示すように、未ソートの辞書登録ｉｄと、ソート後の登録ｉｄの関係を示すものである。

　以上の動作により、図７の７０１と７０２のステップが完了する。複数の辞書が生成された場合のＳ７０４とＳ７０５のステップと、図６のＳ６０２の、Ｓ６０４、Ｓ６０５の各ステップの具体的な内容を、図１６と図１７を用いて説明する。

　図１６の左端の辞書１（未ソート）と辞書２（未ソート）は、列データ化と辞書符号化装置３１２内で生成される２つの辞書である。これらは、辞書ソート装置３１３によって、それぞれソートされ、辞書１（ソート済）と辞書２（ソート済）が生成され、主記憶３０１上に格納される。同時に、ソートｉｎｄｅｘ１とソートｉｎｄｅｘ２が辞書ソート装置３１３によって生成され、主記憶３０１上に格納される。Ｓ７０４では、辞書マージ装置３１４が、辞書１（ソート済）と辞書２（ソート済）をマージし、マージ後の辞書データをソートし、同一のデータに関しては重複を排除し、マージ辞書Ａを生成する。この時、辞書マージ装置３１４とｉｄ変換テーブル操作装置３１５とｉｄ変換装置３１６とは、辞書１（ソート済）とマージ辞書Ａの対応表であるｉｄ変換テーブル１と、辞書２（ソート済）とマージ辞書Ａの対応表であるｉｄ変換テーブル２を生成する。ｉｄ変換テーブル１とｉｄ変換テーブル２の生成がＳ７０５のステップに当たる。３個以上の辞書をマージする場合は、同様の処理を繰り返す。次に、Ｓ６０２のステップで、マージ辞書Ａとメイン辞書（ソート済）を同様にマージし、マージ後の辞書データをソートし、マージ辞書Ｂを生成する。マージ辞書Ｂが、増分データがマージされた後の新たなメインデータの辞書となる。マージ辞書Ａの生成と同様に、辞書マージ装置３１４とｉｄ変換テーブル操作装置３１５とｉｄ変換装置３１６とは、マージ辞書Ａとマージ辞書Ｂとの対応表であるｉｄ変換テーブルａとメイン辞書とマージ辞書Ｂとの対応表であるｉｄ変換テーブルＭを生成する。

　次に、Ｓ６０４、Ｓ６０５において、各データをマージした辞書のｉｄに合わせる必要があるため、その準備として、ｉｄ変換装置３１６は、辞書１（未ソート）のｉｄからマージ辞書Ｂのｉｄへのｉｄ変換テーブルを生成する。図１７に示すように、ｉｄ変換テーブル１とｉｄ変換テーブルａを用いて、ｉｄ変換テーブル１’は生成される。この生成方法は、ｉｄ変換テーブル１の各エントリをインデックスとしてｉｄ変換テーブルａを参照し、そのエントリデータで置き換える作業を行うことで生成される。ｉｄ変換テーブル１’は、辞書１（ソート済）とのｉｄからマージ辞書Ｂのｉｄへの変換テーブルとなる。次に、ｉｄ変換テーブル１’とソートｉｎｄｅｘ１を用いて最終的な辞書１のｉｄ変換テーブルを生成する。この生成方法は、ｉｄ変換テーブル１’とソートｉｎｄｅｘ１の各エントリのデータを対にし、ソートｉｎｄｅｘ１のエントリデータをインデックスとし、ｉｄ変換テーブル１’のエントリデータを辞書１のｉｄ変換テーブルに書き込むことで、生成される。

　通常、メイン辞書のエントリ数は、メイン辞書とマージ辞書Ｂのエントリ数の差より大きい。そのため、メイン辞書からマージ辞書Ｂへのｉｄ変換テーブルであるｉｄ変換テーブルＭは、図１８に示すように、変化点と変化量のみを記録する方が、小さな表になる。そこで、図１８の左端の形式を全エントリ形式、中央の形式を差分形式と呼ぶこととする。例えば、左側の全エントリ形式ｉｄ変換テーブルＭは、＃０と＃１ではメイン辞書Ａとマージ辞書Ｂとの値に変化はなく、それぞれ０と１である。全エントリ形式ｉｄ変換テーブルＭは、＃２になると３になり、メイン辞書Ａとマージ辞書Ｂで変化がある。そのため、差分形式ｉｄ変換テーブルＭでは、変化点として２が、メイン辞書Ａとマージ辞書Ｂとの変化量は２から３に変化しているため差分の＋１が記録される。続いて全エントリ形式ｉｄ変換テーブルＭの＃３では、変化量が＃２と同じ＋１のため差分形式ｉｄ変換テーブルＭには記録されない。続いて、全エントリ形式ｉｄ変換テーブルＭの＃４では６であるため、変化量が＋１から＋２に変化している。そのため、差分形式ｉｄ変換テーブルＭには、変化点４と変化量＋２とが記録される。

　図１６と図１７と図１８で説明した処理は、図３の辞書マージ装置３１４とｉｄ変換テーブル操作装置３１５とｉｄ変換装置３１６を用いて行われる。

　辞書マージ装置３１４のブロック図を、図１９に示す。辞書マージ装置３１４は、図１６における辞書１と辞書２とをマージしてマージ辞書Ａを生成する処理や、マージ辞書Ａとメイン辞書とをマージしてマージ辞書Ｂを生成する処理のような、複数の辞書を１つの辞書にマージする処理を行う。辞書マージ装置３１４は、ＣＰＵ３０２より操作コマンドである図２０に示す辞書マージコマンド２０００を、システムバス３０５とインタフェース装置３１１を通して、制御装置１９０１が受け取り、動作する。

　辞書マージコマンド２０００には、コマンドの種類が辞書マージコマンドであることを示す辞書マージコマンド２００１が含まれる。さらに辞書マージコマンド２０００には、入力辞書を指定するパラメータとして、長さを含む対象列のデータ型２０１１、辞書１と辞書２それぞれのエントリ数を示す辞書１エントリ数２０１２と辞書２のエントリ数２０１３、辞書１と辞書２それぞれのアドレスを示す辞書１のアドレス２０１４と辞書２のアドレス２０１５、辞書１と辞書２それぞれの度数表のアドレスを示す辞書１の度数表のアドレス２０１６と辞書２の度数表のアドレス２０１７、が含まれる。また、辞書符号化コマンド９００は、出力辞書であるマージ辞書を指定するパラメータとして、マージ辞書のエントリ数出力アドレス２０２１、マージ辞書の出力アドレス２０２２、各エントリのオフセット出力アドレス２０２３、マージ辞書の度数表の出力アドレス２０２４とを含む。さらに、辞書符号化コマンド９００は、ｉｄ変換テーブルの出力を指定するパラメータとして、辞書１と辞書２とマージ辞書それぞれの符号化ビット長を指定した辞書１の符号化ビット長２０３１、辞書２の符号化ビット長２０３２、マージ辞書の符号化ビット長２０３３、辞書１と辞書２それぞれ全エントリ形式か差分形式かどちらの形式のｉｄ変換テーブルかを示す辞書１のｉｄ変換テーブルの形式指定２０３４、辞書２のｉｄ変換テーブルの形式指定２０３５、辞書１のｉｄ変換テーブルの出力先アドレス２０３６、辞書２のｉｄ変換テーブルの出力先アドレス２０３７、辞書１のｉｄ変換テーブルのエントリ数出力先アドレス２０３８、辞書２のｉｄ変換テーブルのエントリ数出力先アドレス２０３９を含む。なお、度数表に関する２０１６、２０１７、２０２４のパラメータは設定をしなくてもよい。０やＮＩＬをパラメータとして設定することで、度数表に関するパラメータを設定しないことができる。

　図１６の辞書１と辞書２のマージを行う場合は、ＣＰＵ３０２は、パラメータ２０１２、２０１４、２０１６、２０３１には、辞書１に関するパラメータを設定し、パラメータ２０１３、２０１５、２０１７、２０３２には、辞書２に関するパラメータを設定し、パラメータ２０３４、２０３５には全エントリ形式を指定する。

　図１６のマージ辞書Ａとメイン辞書のマージを行う場合は、ＣＰＵ３０２は、パラメータ２０１２、２０１４、２０１６、２０３１には、マージ辞書Ａに関するパラメータを設定し、パラメータ２０１３、２０１５、２０１７、２０３２には、メイン辞書に関するパラメータを設定し、パラメータ２０３４には全エントリ形式、パラメータ２０３５には差分形式を指定する。もし、マージ辞書Ａとメイン辞書をマージしたマージ辞書Ｂとメイン辞書に差がない場合は、パラメータ２０３９に指定のアドレスに０が書かれ、メイン辞書に変化がないことを示す。

　図２１は、辞書マージ処理のフローチャートである。図１９乃至図２１を用いて、辞書マージ処理を説明する。制御装置１９０１が辞書マージコマンド２０００を受け取ると、辞書１エントリカウンタ１９１０、辞書２エントリカウンタ１９１１、マージ辞書エントリカウンタ１９１２の各カウンタ値Ｃ１、Ｃ２、Ｃｍは０にリセットされ（Ｓ２１０１）、パラメータ２０１１、２０１２、２０１３、２０１４、２０１５、２０１６、２０１７に従って、辞書１と辞書２とオプションでそれぞれの度数表が主記憶３０１から読み出され、それぞれ辞書１入力ＦＩＦＯ１９０２、辞書２入力ＦＩＦＯ１９０３、辞書１度数表入力ＦＩＦＯ１９０６、辞書２度数表入力ＦＩＦＯ１９０７に読み込まれる。データ順序比較装置１９０４は、辞書１入力ＦＩＦＯ１９０２と辞書２入力ＦＩＦＯ１９０３から１エントリずつ取り出し（Ｓ２１０２）、順序比較する（Ｓ２１０３）。比較結果は、制御装置１９０１に伝えられ、その他の装置の制御に使用される。また、データ順序比較装置１９０４は、比較結果により、辞書１入力ＦＩＦＯ１９０２からのデータが前（小さい）ならば（Ｓ２１０３：Ｅ１＜Ｅ２）辞書１入力ＦＩＦＯ１９０２からのデータを、マージ辞書出力ＦＩＦＯ１９０５に出力し（Ｓ２１０５、Ｓ２１１６）、辞書２入力ＦＩＦＯ１９０３からのデータが前（小さい）ならば（Ｓ２１０３：Ｅ１＞Ｅ２）辞書２入力ＦＩＦＯ１９０３からのデータを、マージ辞書出力ＦＩＦＯ１９０５に出力し（Ｓ２１１３、Ｓ２１１６）、出力した方のデータの代わりに次のデータをそれぞれ辞書１入力ＦＩＦＯ１９０２、辞書２入力ＦＩＦＯ１９０３から１エントリ取り出す（Ｓ２１０６、Ｓ２１１４）。データ順序比較装置１９０４は、同じならば（Ｓ２１０３：Ｅ１＝Ｅ２）一方のデータをマージ辞書出力ＦＩＦＯ１９０５に出力し（Ｓ２１０９、Ｓ２１１６）、他方を捨て、代わりに次のデータをそれぞれ辞書１入力ＦＩＦＯ１９０２と辞書２入力ＦＩＦＯ１９０３から１エントリずつ取り出す（Ｓ２１１０）。

　制御装置１９０１は、辞書１入力ＦＩＦＯ１９０２からのデータが前ならば（Ｓ２１０３：Ｅ１＜Ｅ２）辞書１ｉｄ変換テーブル出力ＦＩＦＯ１９１３に１エントリ生成するよう指示し、辞書２入力ＦＩＦＯ１９０３からのデータが前ならば（Ｓ２１０３：Ｅ１＞Ｅ２）、辞書２ｉｄ変換テーブル出力ＦＩＦＯ１９１４に１エントリ生成するよう指示し（Ｓ２１１２）、同じならば（Ｓ２１０３：Ｅ１＝Ｅ２）、辞書１ｉｄ変換テーブル出力ＦＩＦＯ１９１３と辞書２ｉｄ変換テーブル出力ＦＩＦＯ１９１４の両方に１エントリ生成するよう指示する（Ｓ２１０８）。制御装置１９０１から１エントリを生成する指示を受けた辞書１ｉｄ変換テーブル出力ＦＩＦＯ１９１３と辞書２ｉｄ変換テーブル出力ＦＩＦＯ１９１４とは、それぞれ辞書１エントリカウンタ１９１０と辞書２エントリカウンタ１９１１の値をインデックスにマージ辞書エントリカウンタ１９１２の値をエントリデータとしてｉｄ変換テーブルを生成する（Ｓ２１０４、Ｓ２１０８、Ｓ２１１２）。

　その後、制御装置１９０１は、辞書１入力ＦＩＦＯ１９０２からのデータが前ならば（Ｓ２１０３：Ｅ１＜Ｅ２）辞書１エントリカウンタ１９１０のカウンタを＋１し（Ｓ２１０７）、辞書２入力ＦＩＦＯ１９０３からのデータが前ならば（Ｓ２１０３：Ｅ１＞Ｅ２）辞書２エントリカウンタ１９１１のカウンタを＋１し（Ｓ２１１５）、同じならば（Ｓ２１０３：Ｅ１＝Ｅ２）辞書１エントリカウンタ１９１０と辞書２エントリカウンタ１９１１のカウンタをそれぞれ＋１する（Ｓ２１１１）。そして、どの場合も、マージ辞書エントリカウンタ１９１２のカウンタを＋１する（Ｓ２１１７）。

　また度数加算器１９０８は、辞書１入力ＦＩＦＯ１９０２からのデータが前ならば（Ｓ２１０３：Ｅ１＜Ｅ２）辞書１度数表入力ＦＩＦＯ１９０６からの１エントリをマージ度数表出力ＦＩＦＯ１９０９へ出力し（Ｓ２１０５、Ｓ２１１６）、辞書２入力ＦＩＦＯ１９０３からのデータが前ならば（Ｓ２１０３：Ｅ１＞Ｅ２）辞書１度数表入力ＦＩＦＯ１９０７からの１エントリをマージ度数表出力ＦＩＦＯ１９０９へ出力し（Ｓ２１１３、Ｓ２１１６）、同じ場合（Ｓ２１０３：Ｅ１＝Ｅ２）は辞書１度数表入力ＦＩＦＯ１９０６からの１エントリと辞書２度数表入力ＦＩＦＯ１９０７からの１エントリを加算した結果をマージ度数表出力ＦＩＦＯ１９０９へ出力する（Ｓ２１０９、Ｓ２１１６）。

　マージ辞書出力ＦＩＦＯ１９０５は、辞書マージコマンド２０００のパラメータ２０２２、２０２３に従ってデータを主記憶３０１に出力する（Ｓ２１０４、Ｓ２１０８、Ｓ２１１２）。マージ度数表出力ＦＩＦＯ１９０９は、パラメータ２０２４に従って出力する。辞書１ｉｄ変換テーブル出力ＦＩＦＯ１９１３はパラメータ２０３１、２０３３、２０３４、２０３６に従って出力し、辞書２ｉｄ変換テーブル出力ＦＩＦＯ１９１４はパラメータ２０３２、２０３３、２０３５、２０３７に従って出力する。パラメータ２０３４、２０３５が差分形式の場合、辞書１ｉｄ変換テーブル出力ＦＩＦＯ１９１３、辞書２ｉｄ変換テーブル出力ＦＩＦＯ１９１４は、差分データ形式に変換して出力する。

　データ順序比較装置１９０４による比較とそれぞれの出力を繰り返し、全エントリを処理し終わったら（Ｓ２１１８：Ｙｅｓ）、最後に、マージ辞書出力ＦＩＦＯ１９０５、辞書１ｉｄ変換テーブル１９１３、辞書２ｉｄ変換テーブル１９１４は、それぞれパラメータ２０２１、２０３８、２０３９に従って、各エントリ数を出力する。

　以上の処理により、２つの辞書がソートマージされたマージ辞書、マージ辞書度数表、マージ前の各辞書とマージ後の辞書との対応件計を管理するｉｄ変換テーブルとが主記憶３０１に格納される。このマージ処理を繰り返すことで、図１６に示すような増分データがマージされたメイン辞書であるマージ辞書Ｂが作成される。

　ｉｄ変換テーブル操作装置３１５のブロック図を、図２２に示す。図２３にｉｄ変換テーブル操作コマンド２３００を示す。また、ｉｄ変換テーブル操作処理のフローチャートを図２４に示す。図２２乃至図２４は、図７のＳ７０５の詳細処理である。

　ｉｄ変換テーブル操作装置３１５は、ソート済みかつマージ前の辞書（図１６における辞書１（ソート済み）及び辞書２（ソート済み））とマージ後の辞書（図１６におけるマージ辞書Ｂ）との対応関係を管理するｉｄ変換テーブル（図１７におけるｉｄ変換テーブル１’）を作成する。

　ｉｄ変換テーブル操作コマンド２３００には、コマンドの種類がｉｄ変換テーブル操作コマンドであることを示すｉｄ変換テーブル操作２３０１が含まれる。さらにｉｄ変換テーブル操作コマンド２３００は、変換テーブルの入力を指定するパラメータとして、辞書１の符号化ビット長２３１１、辞書２の符号化ビット長２３１２、マージ辞書Ａの符号化ビット長２３１３、マージ辞書Ｂの符号化ビット長２３１４、辞書１のエントリ数２３１５、辞書２のエントリ数２３１６、マージ辞書Ａのエントリ数２３１７、辞書１からマージ辞書Ａへのｉｄ変換テーブル１のアドレス２３２１、辞書２からマージ辞書Ａへのｉｄ変換テーブル２のアドレス２３２２、マージ辞書Ａからマージ辞書Ｂへのｉｄ変換テーブルｍのアドレス２３２３を含む。また、ｉｄ変換テーブル操作コマンド２３００は、変換テーブルの出力を指定するパラメータとして、辞書１からマージ辞書Ｂへのｉｄ変換テーブル１’のアドレス２３３１、辞書２からマージ辞書Ｂへのｉｄ変換テーブル２’のアドレス２３３１を含む。

　ｉｄ変換テーブル操作装置３１５は、ＣＰＵ３０２より操作コマンドであるｉｄ変換テーブル操作コマンド２３００を、システムバス３０５とインタフェース装置３１１を通して、制御装置２２０１が受け取り、ｉｄ変換テーブル操作を動作する（Ｓ２４００）。図１６の辞書１からマージ辞書Ｂへのｉｄ変換テーブルと、辞書２からマージ辞書Ｂへのｉｄ変換テーブルを生成する場合は、ＣＰＵ３０２は、コマンド２３００のパラメータ２３１１、２３１３、２３１５、２３２１に辞書１からマージ辞書Ａへのｉｄ変換テーブルであるｉｄ変換表１に関するパラメータを設定し、パラメータ２３１２、２３１３、２３１６、２３２２に辞書２からマージ辞書Ａへのｉｄ変換テーブルであるｉｄ変換テーブル２に関するパラメータを設定し、パラメータ２３１３、２３１４、２３１７、２３２３にマージ辞書Ａからマージ辞書Ｂへのｉｄ変換テーブルであるｉｄ変換テーブルａに関するパラメータを設定し、パラメータ２３３１、２３３２に、生成されるｉｄ変換テーブルの出力先を設定する。

　制御装置２２０１がコマンド２３００を受け取ると、制御装置２２０１は、マージｉｄ変換テーブルｍエントリカウンタ２２０５の値Ｃを０にリセットし（Ｓ２４０１）、パラメータに従って３つの変換表をそれぞれｉｄ変換テーブル１入力ＦＩＦＯ２２０２、ｉｄ変換テーブル２入力ＦＩＦＯ２２０３、マージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４に読み込む。データ付き合わせ装置２２０６とデータ付き合わせ装置２２０７は、それぞれｉｄ変換テーブル１入力ＦＩＦＯ２２０２と、ｉｄ変換テーブル２入力ＦＩＦＯ２２０３から１エントリずつデータを読み込み（Ｓ２４０２）、また、両者ともマージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４から１エントリデータを読み込む（Ｓ２４０３）。

　データ付き合わせ装置２２０６は、ｉｄ変換テーブル１入力ＦＩＦＯ２２０２からのデータ値とマージｉｄ変換テーブルｍエントリカウンタ２２０５の値とを比較する（Ｓ２４０４）。もし、一致するなら（Ｓ２４０４：Ｙｅｓ）、データ付き合わせ装置２２０６は、マージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４からのデータを、マージｉｄ変換テーブル１’出力ＦＩＦＯ２２０８に出力し（Ｓ２４０５）、ｉｄ変換テーブル１入力ＦＩＦＯ２２０２から１エントリ読み込む（Ｓ２４０６）。一致しないならば（Ｓ２４０４：Ｎｏ）、データ付き合わせ装置２２０６は、マージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４からのデータを捨て、出力しない。

　データ付き合わせ装置２２０７は、ｉｄ変換テーブル２入力ＦＩＦＯ２２０３からのデータ値とマージｉｄ変換テーブルｍエントリカウンタ２２０５の値とを比較する（Ｓ２４０７）。もし、一致するなら（Ｓ２４０７：Ｙｅｓ）、データ付き合わせ装置２２０７は、マージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４からのデータを、マージｉｄ変換テーブル２’出力ＦＩＦＯ２２０９に出力し（Ｓ２４０８）、ｉｄ変換テーブル２入力ＦＩＦＯ２２０３から１エントリ読み込む（Ｓ２４０９）。一致しないならば（Ｓ２４０７：Ｎｏ）、データ付き合わせ装置２２０７は、マージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４からのデータを捨て、出力しない。

　ここで、図２４のフローチャートでは、Ｓ２４０４乃至Ｓ２４０６を行ったあと、Ｓ２４０７乃至Ｓ２４０９を行っているが、Ｓ２４０４乃至Ｓ２４０６とＳ２４０７乃至Ｓ２４０９とは、同時並行して処理を行ってもよい。

　そして、制御装置２２０１は、マージｉｄ変換テーブルｍエントリカウンタ２２０５の値を＋１インクリメントする（Ｓ２４１０）。データ付き合わせ装置２２０６とデータ付き合わせ装置２２０７とは、マージｉｄ変換テーブルｍ入力ＦＩＦＯ２２０４から１エントリデータを読み込み（Ｓ２４０３）、ｉｄ変換テーブル１入力ＦＩＦＯ２２０２とｉｄ変換テーブル２入力ＦＩＦＯ２２０３からのデータ値と２２０５の値と比較し（Ｓ２４０４、Ｓ２４０７）、同様の操作を、ｉｄ変換テーブル１入力ＦＩＦＯ２２０２とｉｄ変換テーブル２入力ＦＩＦＯ２２０３が空になるまで繰り返す（Ｓ２４１１）。マージｉｄ変換テーブル１’出力ＦＩＦＯ２２０８とマージｉｄ変換テーブル２’出力ＦＩＦＯ２２０９は、パラメータ２３２１と２３２２に従って、主記憶３０１に出力する。

　より多くの辞書をマージする場合は、辞書マージ装置３１４とｉｄ変換テーブル操作装置３１５を、コマンド２０００とコマンド２３００を用いて、繰り返し動作させることで、マージされた辞書とｉｄ変換テーブルを生成させることが可能となる。

　最後に図６のステップ６０４と６０５の具体的な動作を、図２５、図２６、図２７、図２８を用いて説明する。図２５は、ｉｄ変換処理の過程を示す概念図である。図２６はｉｄ変換装置３１６のブロック図であり、６０４と６０５の処理は、ｉｄ変換装置３１６により行われる。図２７はｉｄ変換コマンド２７００を示す。また、ｉｄ変換処理のフローチャートを図２８に示す。

　図２５の左端にあるデータが、元のメインデータと増分データである。この２つのデータをそれぞれｉｄ変換し、右端のようにマージされたデータを生成する。このマージされたデータが、図５の符号化データ５１１となる。メインデータは、ｉｄ変換テーブルＭを用いて、ｉｄ変換する。差分データは、辞書符号化時に生成された辞書ごとに、ｉｄ変換テーブル１’とソートｉｎｄｅｘ１、ｉｄ変換テーブル２’とソートｉｎｄｅｘ２を用いて、それぞれｉｄ変換する。なお、点線で囲まれたデータが変換テーブルＲＡＭ２６０５に書き込まれるデータである。

　すなわち、ｉｄ変換装置３１６は、差分形式のｉｄ変換テーブルから符号化データを作成する。また、ｉｄ変換装置３１６は、ソート前の辞書（図１６における辞書１（未ソート）と辞書２（未ソート））とマージ後のメイン辞書（図１６におけるマージ辞書Ｂ）との対応関係を管理するｉｄ変換テーブル（図１７における辞書１のｉｄ変換テーブル）を作成する。そして、ｉｄ変換装置３１６は、ｉｄ変換して作成した元のメインデータの符号化データに、ｉｄ変換して作成した差分データのｉｄ変換テーブルの値を符号化データとして追記していくことで、新たなマージされたメインデータの符号化データ５１１を作成する。

　ｉｄ変換コマンド２７００には、コマンドの種別がｉｄ変換コマンドであることを示すｉｄ変換コマンド２７０１が含まれる。ｉｄ変換コマンド２７００は、ｉｄ変換を行う変換テーブルの入力を指定するパラメータである、旧符号の符号化ビット長２７１１、新符号の符号化ビット長２７１２、全エントリ形式か差分形式かを指定するｉｄ変換テーブルの形式指定２７１３、ｉｄ変換テーブルのエントリ数２７１４、ｉｄ変換テーブルのアドレス２７１５、ソートｉｎｄｅｘの出力アドレス２７１６を含む。ここで、ソートｉｎｄｅｘの出力アドレス２７１６は、ｉｄ変換を行う対象が差分データの場合に設定されるオプションである。ｉｄ変換コマンド２７００は、変換前の符号化データのデータ入力を指定するパラメータである、入力データの行数を示す入力データ数２７２１、入力符号化データアドレス２７２２、入力符号化ビット長２７２３、を含む。さらに、ｉｄ変換コマンド２７００は、ｉｄ変換後の符号化データの出力を指定するパラメータである、符号化データ出力アドレス２７３１、出力符号化ビット長２７３２とを含む。

　ｉｄ変換装置３１６は、ＣＰＵ３０２より操作コマンドであるｉｄ変換コマンド２７００を、システムバス３０５とインタフェース装置３１１を通して、制御装置２６０１が受け取り、動作する。図２５のメインデータのｉｄ変換処理の場合、ＣＰＵ３０２は、コマンド２７００のパラメータ２７１１、２７１２、２７１３、２７１４、２７１５にｉｄ変換テーブルＭに関するパラメータを設定し、２７２１、２７２２、２７２３に変換前のメインデータの符号化データに関するパラメータを設定し、２７３１、２７３２に変換後のマージデータに関するパラメータを設定する。図２５の辞書１に対応する差分データのｉｄ変換処理の場合、ＣＰＵ３０２は、コマンド２７００のパラメータ２７１１、２７１２、２７１３、２７１４、２７１５、２７１６にｉｄ変換表１’とソートｉｎｄｅｘ１に関するパラメータを設定し、２７２１、２７２２、２７２３に辞書１に対応する差分データのｉｄ変換テーブル（未ソート）に関するパラメータを設定し、２７３１、２７３２に変換後のマージデータに関するパラメータを設定する。図２５の辞書２に対応する差分データのｉｄ変換処理の場合、ＣＰＵ３０２は、コマンド２７００のパラメータ２７１１、２７１２、２７１３、２７１４、２７１５、２７１６にｉｄ変換表２’とソートｉｎｄｅｘ２に関するパラメータを設定し、２７２１、２７２２、２７２３に辞書２に対応する差分データのｉｄ変換テーブル（未ソート）に関するパラメータを設定し、２７３１、２７３２に変換後のマージデータに関するパラメータを設定する。

　制御装置２６０１がコマンド２７００を受け取ると、パラメータ２７１１、２７１２、２７１３、２７１４、２７１５に従って、ｉｄ変換テーブルを主記憶３０１から読み出され、ｉｄ変換テーブル入力ＦＩＦＯ２６０２に読み込まれる（Ｓ２８０２、Ｓ２８０８）。同時に、パラメータ２７１６に従って、ソートｉｎｄｅｘがソートｉｎｄｅｘ入力ＦＩＦＯ２６０３に読み込まれる。次に、変換テーブル書き込みデータ生成装置２６０４は、ｉｄ変換テーブル入力ＦＩＦＯ２６０２とソートｉｎｄｅｘ入力ＦＩＦＯ２６０３からのデータを用いて、変換テーブルＲＡＭ２６０５に書き込むデータを生成する。もし、パラメータ２７１３が全エントリ形式で、パラメータ２７１６が指定されている場合は（Ｓ２８０１：全エントリ形式）、図１７の辞書１のｉｄ変換テーブルと辞書２のｉｄ変換テーブルや図２５の差分データ用の変換テーブルのように、元の辞書の全エントリに対する変換テーブルを、変換テーブルＲＡＭ２６０５上に生成する（Ｓ２８０３）。もし、パラメータ２７１３に差分形式が指定されている場合は（Ｓ２８０１：差分形式）、図２５のメインデータ用の２分木のように、変換テーブルＲＡＭ２６０５上に２分木構造を生成する（Ｓ２８０９、Ｓ２８１０）。これにより、２分探索が高速に行うことができる。

　変換テーブルＲＡＭ２６０５上のデータの構築が終わると、パラメータ２７２１、２７２２、２７２３に従って、データ符号が主記憶３０１から読み出され、データ符号入力ＦＩＦＯ２６０６に読み込まれる。テーブル参照装置２６０７は、データ符号入力ＦＩＦＯ２６０６からデータを取り出しては（Ｓ２８０４、Ｓ２８１１）、取り出したデータ符号を変換テーブルＲＡＭ２６０５上で検索し（Ｓ２８０５、Ｓ２８１２）、対応するｉｄ変換テーブルの値を読みだす。パラメータ２７１３に全エントリ形式が指定されている場合は（Ｓ２８０１：全エントリ形式）、テーブル参照装置２６０７は、対応する変換テーブルの値をそのままデータ符号出力ＦＩＦＯ２６０８に出力する（Ｓ２８０６）。パラメータ２７１３に差分形式が指定されている場合は（Ｓ２８０１：差分形式）、テーブル参照装置２６０７は、元のデータ符号の値に対応するｉｄ変換テーブルの値を加えた値を、データ符号出力ＦＩＦＯ２６０８に出力する（Ｓ２８１３、Ｓ２８１４）。データ符号出力ＦＩＦＯ２６０８は、パラメータ２７３１、２７３２に従って、主記憶３０１上に変換済みのデータ符号をｉｄ変換後の符号化データの符号として主記憶３０１に書き出す（Ｓ２８０６、Ｓ２８１４）。そして、テーブル参照装置２６０７は、データ符号入力ＦＩＦＯ２６０６に入力された全データの処理が完了したか判定し（Ｓ２８０７、Ｓ２８１５）、全データの処理が完了していない場合（Ｓ２８０７：Ｎｏ、Ｓ２８１５：Ｎｏ）Ｓ２８０４に戻り、全データの処理が完了している場合（Ｓ２８０７：Ｙｅｓ、Ｓ２８１５：Ｙｅｓ）、ｉｄ変換処理を終了する（Ｓ２８１６）。

　上記の説明通り、各列ごとに、ＦＰＧＡ３１０にコマンド９００、２０００、２３００、２７００を適用し、各処理を逐次に行うことで、行指向データベースから列指向データベースに変換することができる。また、ＦＰＧＡ３１０内の装置はそれぞれ同時動作可能であるので、パイプライン的に並列動作をさせることが可能であり、それにより高速に処理が可能である。

　また、本実施例はＦＰＧＡ３１０を用いて行指向データベースから列指向データベースに変換を行う例を説明したが、ＦＰＧＡ３１０に替えて、ＡＳＩＣのような他の集積回路で行指向データベースから列指向データベースに変換を行ってもよい。

　実施例１に示した処理内容は、ソフトウェアによるＣＰＵ処理でも実現できる。その場合、辞書符号化に使用する辞書の大きさを抑えることにより、限りあるＣＰＵのデータキャッシュを高効率で活用でき、システム全体の処理効率が上がる。

　行指向データベースから列指向データベースへの変換処理は、列ごとに、数ステップに分割でき、それぞれ、ＦＰＧＡ処理、ＣＰＵによるソフトウェア処理のどちらの処理方法も可能である。そのため、ＦＰＧＡ処理とＣＰＵによるソフトウェア処理を組みあわせて全体の処理を行うことも可能である。

　また、各辞書エントリ数や行数、データ型により、ＦＰＧＡ処理の方がＣＰＵ処理より高速なもの、ＣＰＵ処理の方がＦＰＧＡ処理より高速なものがある。そのため、各辞書エントリ数や行数、データ型により、処理を適時、ＦＰＧＡ処理またはＣＰＵ処理に振り分けることで、より高速に処理が行える。本実施例では、実施例１及び２にて開示のように変換処理が複数の処理内容に分割できることに着目し、処理内容についてＦＰＧＡで処理すべきか、ＣＰＵで処理すべきか判断する高速化について開示する。

　図２９は、実施例３のＦＰＧＡ処理とＣＰＵ処理の振り分けに関わる、データベース処理装置３００の構成を示す図である。データベース処理装置３００には、ランタイム実行部２９００とデータベース２９０１とＦＰＧＡ３１０とＳＷ（ソフトウェア）ライブラリ２９０５が含まれる。ランタイム実行部２９００は、ＣＰＵ３０２が主記憶３０１のプログラムを実行する際に処理を行う機能ブロックである。

　ランタイム実行部２９００には、デバイス選択部２９０２とＦＰＧＡ　ＡＰＩ２９０３とＳＷ　ＡＰＩ２９０４が含まれる。デバイス選択部２９０２は、データベースの変換処理の内容に応じて、処理に最適なデバイス、ＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５を選択し、ＦＰＧＡ　ＡＰＩ２９０３、ＳＷ　ＡＰＩ２９０４を通してＦＰＧＡ３１０を起動、もしくは、ＳＷライブラリ２９０５を呼び出す。

　図３０は、データベース２９０１とデバイス選択部２９０２、および、デバイス選択部２９０２とＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５で受け渡しするパラメータを示す図である。

　データベース２９０１からデバイス選択部２９０２に渡すパラメータを３０００に示している。デバイス選択部２９０２がＦＰＧＡ３１０とＳＷライブラリ２９０５を選択するのに用いるパラメータは、変換処理対象列が主キー/非主キー３００４と、辞書のエントリ数出力アドレス３００５と、マージ辞書のエントリ数出力アドレス３００６である。主キー/非主キー３００４は、ユーザが指定するデータベースの列情報の１つであり、変換対象列が主キーであるか否かを示している。辞書のエントリ数出力アドレス３００５とマージ辞書のエントリ数出力アドレス３００６は、ＦＰＧＡ３１０が計測したエントリ数を格納する主記憶３０１内のアドレスを示している。デバイス選択部２９０２は、辞書のエントリ数出力アドレス３００５とマージ辞書のエントリ数出力アドレス３００６に格納されている値を読み取り、デバイス選択の判定に用いる。

　デバイス選択部２９０２からデータベース２９０１に渡すパラメータを３００１に示している。デバイス選択部２９０２は、ＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５から変換処理完了通知を受け取り、全ての変換処理が完了するとデータベース２９０１に対して変換完了通知を行う。

　デバイス選択部２９０２からＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５に渡すパラメータを３００２に示している。４つの変換コマンド、辞書符号かコマンド９００、辞書マージコマンド２０００、id変換テーブル操作コマンド２３００、id変換コマンド２７００に対応付けしたコマンドＩＤ３００７（９０１、２００１、２３０１、２７０１）を含んでおり、デバイス選択部２９０２は、ＦＰＧＡ３１０、もしくは、ＣＰＵ３０２が行う処理内容に応じてコマンドＩＤ３００７をＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５に渡し、ＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５がそのコマンドＩＤ３００７に対応した処理を実行する。

　ＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５からデバイス選択部２９０２に渡すパラメータを３００３に示している。ＦＰＧＡ３１０、もしくは、ＳＷライブラリ２９０５の処理が完了したことを示す処理完了通知と、処理内容に応じたコマンドＩＤ（３００７と同じ値）を含んでいる。

　図３１は、ＳＷライブラリ２９０５、ＦＰＧＡコマンド３１００と、ＦＰＧＡコマンド３１００に対応したＦＰＧＡ論理ブロック名３１０１を示す図である。ＦＰＧＡコマンド３１００がＦＰＧＡ３１０に投入されると、ＦＰＧＡ３１０は、そのＦＰＧＡコマンド３１００に対応したＦＰＧＡ論理ブロック３１０１を起動して処理を実行する。ＳＷライブラリ２９０５は、辞書符号化３１０２、辞書マージ３１０３、id変換テーブル操作３１０４、id変換３１０５の４種類あり、それぞれに対応した、ＦＰＧＡコマンド３１００とＦＰＧＡ論理ブロック３１０１が存在する。

　図３２は、辞書マージ３１０３をＦＰＧＡ３１０とＳＷライブラリ２９０５で実行した場合の処理時間を比較した図である。デバイス選択部２９０２がＦＰＧＡ３１０に対してＦＰＧＡコマンド３１００を投入してから、ＦＰＧＡ３１０がＦＰＧＡコマンド３１００を処理完了するまでのコマンド処理時間が３２００と３２０４であり、ＦＰＧＡ３１０が辞書マージ処理実行に要する時間が３２０１と３２０５である。一方、ＣＰＵ３０２がＳＷライブラリ２９０５を呼び出す時間が３２０２と３２０６であり、ＳＷライブラリ２９０５の辞書マージ処理実行に要する時間が３２０３と３２０７である。

　図３２の上方においては、データベース２９０１に含まれるエントリ数が少なく、ＦＰＧＡ３１０で辞書マージ処理を行うと、コマンドの処理時間３２００の割合が大きくなり、ＣＰＵ３０２で辞書マージ処理を行った方が早く完了する。

　図３２の下方においては、データベース２９０１に含まれるエントリ数が多く、ＦＰＧＡ３０１で辞書マージ処理を行った場合に要するコマンド処理時間３２００の割合が減り、ＦＰＧＡ３１０で辞書マージ処理を行った方が、ＣＰＵ３０２で行うよりも早く完了する。

　このように、辞書マージ処理は、辞書のエントリ数によって、ＦＰＧＡ３１０で行うと早い場合もあれば、ＳＷライブラリ２９０５で行うと早い場合もあり、デバイス選択部２９０２は辞書のエントリ数に応じて最適なデバイス、ＦＰＧＡ３１０、もしくは、ＣＰＵ３０２を選択する。

　図３３は、ある１つの列に対する変換処理において、デバイス選択部２９０２がＦＰＧＡ３１０とＳＷライブラリ２９０５を選択する処理フローを示す図である。デバイス選択部２９０２は、データベース２９０１から変換処理要求を受け付けると、変換処理をスタートする（Ｓ３３００）。

　デバイス選択部２９０２は、変換処理をスタートすると、辞書符号化処理をＣＰＵ３０２もしくはＦＰＧＡ３１０のいずれかに割り当てる（Ｓ３３０１）。辞書符号化処理Ｓ３３０１において、辞書エントリ数がＦＰＧＡ３１０もしくはＳＷライブラリ２９０５によって計測され、主記憶３０１のアドレス３００５に格納される。辞書エントリ数と閾値を比較し（Ｓ３３０２）、辞書エントリ数が閾値よりも大きい場合には、辞書マージ、id変換テーブル操作をＦＰＧＡ３１０で実行する（Ｓ３３０３）。辞書エントリ数が閾値よりも小さい場合には、辞書マージ、id変換テーブル操作をＳＷライブラリ２９０５で実行する（Ｓ３３０５）。ＦＰＧＡ辞書マージ（Ｓ３３０３）、もしくは、ＳＷ辞書マージ（Ｓ３３０５）において、マージ辞書のエントリ数がＦＰＧＡ３１０もしくはＳＷライブラリ２９０５によって計測され、主記憶３０１のアドレス３００６に格納される。

　デバイス選択部は、ＦＰＧＡ３１０もしくはＳＷライブラリ２９０５からid変換テーブル操作完了通知を受け取ると、マージ後の辞書エントリ数とマージ前の辞書エントリ数を比較し（Ｓ３３０７）、辞書エントリ数に変更があれば、主キーの判定に移行する（Ｓ３３０８）。辞書エントリ数に変更がなければ、ＦＰＧＡ増分id変換（Ｓ３３１１）に移行する。主キーの判定（Ｓ３３０８）においては、変換対象列が主キー/非主キー（３００４）パラメータの値から、主キーであればメインid変換の処理をＦＰＧＡ３１０で実行する（Ｓ３３０９）。変換対象列が非主キーであれば、メインid変換の処理をＳＷライブラリ２９０５で実行する（Ｓ３３１０）。変換対象列が主キーである場合に、ＣＰＵで実行すると高速に処理が出来るのは、変換対象列が予めソートされており、キャッシュヒット率が高いためである。ＦＰＧＡ増分id変換処理（Ｓ３３１１）が完了すると、ある１つの列に対する変換処理が終了する（Ｓ３３１２）。

　なお、Ｓ３３０１はＳ６０１と同様であり、Ｓ３３０３はＳ６０２と同様であり、Ｓ３３０９はＳ６０４と同様であり、Ｓ３３１１はＳ６０５と同様である。

　図３４は、デバイス選択部２９０２が変換処理内容３４００に応じて、デバイス３４０１を割り当てた結果を示す図である。実施例３においては、辞書符号化３４０２はＦＰＧＡ３１０に、辞書マージ及びid変換テーブル操作３４０３はＣＰＵ３０２に、メインid変換３４０５はＦＰＧＡ３１０に、増分id変換３４０６はＦＰＧＡ３１０に割り当てている。このように、処理内容に応じて、デバイス選択部２９０２が最適なデバイス、ＦＰＧＡ３１０、もしくは、ＣＰＵ３０２を選択することによって、システムの処理性能を向上させることが可能となる。

　実施例３においては、ある１つの列に対する変換処理のデバイス選択方法を示したが、複数の列に対する変換処理のデバイス選択方法を本実施例で説明する。図５に示したように、ＦＰＧＡ３１０において、複数の列が同時に並列変換処理される。さらに、同時に変換処理を行うべきテーブルは１つとは限らない。しかしながら、ＦＰＧＡ３１０に搭載可能な論理数はデバイス毎に定まっている。そこで、ＦＰＧＡ３１０に並列に実装した論理が全て使われている場合には、ＣＰＵ３０２で変換処理を実行した方が早く完了する。本実施例はそのような場合に有効な技術について開示する。

　図３５は、変換対象列が複数ある場合の１つの列に対する変換処理において、デバイス選択部２９０２がＦＰＧＡ３１０とＳＷライブラリ２９０５を選択する処理フローを示す図である。変換処理スタート（Ｓ３５００）後の処理フローは、実施例３の図３３と基本動作は同じである。図３４との差異は、ＦＰＧＡリソース空きあり判定（Ｓ３５０１、Ｓ３５０５、Ｓ３５１２、Ｓ３５１５）の追加である。なお、これらステップはより正確にはＦＰＧＡ３１０に並列に搭載した変換論理が全て利用されているか、ＣＰＵリソースに空きがあるかに基づいて判断される。ＦＰＧＡの変換論理が全て利用されていない場合はＹｅｓであり、ＦＰＧＡの変換論理が全て利用されていて、かつＣＰＵリソースに空きがある場合はＮｏである。なお、ＦＰＧＡの変換論理が全て利用されていて、かつＣＰＵリソースに空きがない場合はＹｅｓとすることでＦＰＧＡに優先して変換処理を行わせることが考えられるが、そうでなくてもよい。

　各分岐において処理すべきステップは図３５に示した通りである。なお、ステップ番号が図３３と変わらないステップは図３３で説明した通りである。なお、Ｓ３５０３はＳ３３０１の処理をソフトウェアで実現したものに相当し、Ｓ３５１７はＳ３３１１の処理をソフトウェアで実現したものに相当する。

　図３６は、各処理内容において、ＦＰＧＡ３１０とＣＰＵ３０２の割り当て途中経過を示す図である。変換対象列は３６００、３６０１、３６０２の３列あり、ＦＰＧＡ３１０は２並列の変換回路を搭載しているとする。列の処理順序は定まっておらず、第１列３６００と第３列３６０２にＦＰＧＡ３１０が既に割り当たっている場合には、ＦＰＧＡ３１０リソースに空きがない。そこで、第２列３６０１の符号化３６０３は、ＣＰＵ３０２を割り当てる（３６０４）と変換待ち時間が発生せずに早く処理を完了することが可能となる。このように、複数の列を同時に変換処理している場合には、他の列の変換処理に用いているデバイスの状況も考慮してデバイスを割り当てることで、システムの処理性能を向上させることが可能となる。

　１０１…外部の行指向データベース
　２０１…増分データの行指向データベース
　２０２…増分データの列指向データベース
　２０３…メインデータの列指向データベース
　３０１…主記憶装置
　３０２…ＣＰＵ
　３０３…二次記憶装置
　３０４…ＮＩＣ
　３０５…システムバス
　３１０…ＦＰＧＡ
　３１１…インタフェース装置
　３１２…列データ化と辞書符号化装置
　３１３…辞書ソート装置
　３１４…辞書マージ装置
　３１５…ｉｄ変換テーブル操作装置
　３１６…ｉｄ変換装置
　８０１…制御装置
　８０２…元データ入力ＦＩＦＯ
　８０３…符号決定装置
　８０４…辞書ＲＡＭ
　８０５…辞書使用量計測装置
　８０６…データ符号出力装置
　８０７…行数出力装置
　８１１…ヒープ構造データ
　８１２…辞書・ソートｉｎｄｅｘ出力装置
　９００…辞書符号化コマンド
　２０００…辞書マージコマンド
　２３００…ｉｄ変換テーブル操作コマンド
　２７００…ｉｄ変換コマンド

Claims

列指向形式で格納された列指向データベースと、行指向形式で格納され、前記列指向データベースに追加すべきデータである追加データと、前記列指向データベースにアクセスするプログラムと、を記憶する主記憶装置と、
前記プログラムを実行するＣＰＵと、
前記追加データを前記列指向データベースに追加するための複数の論理を含む集積回路と、を有する計算機であって、
前記列指向データベースは、辞書符号化データと、辞書データとを含み、
前記複数の論理は、少なくとも：
　前記追加データを列指向形式に変換した一時辞書符号化データと、一時辞書符号化データに対応した一時辞書データを生成する第１論理と、
　前記一時辞書符号化データと、前記一時辞書データとを前記列指向データベースに追加する第２論理と、
を含み、
前記ＣＰＵは、前記第１論理又は前記プログラムが生成する一時辞書データのエントリ数に基づいて、前記第２論理を駆動すべきか否か判断する、
計算機システム。