WO2007004430A1

WO2007004430A1 - データソート処理プログラム、データソート処理方法およびデータソート処理装置

Info

Publication number: WO2007004430A1
Application number: PCT/JP2006/312468
Authority: WO
Inventors: Tatsuya Asai; Seishi Okamoto; Hiroki Arimura
Original assignee: Fujitsu Limited
Priority date: 2005-06-30
Filing date: 2006-06-22
Publication date: 2007-01-11
Also published as: JP4479908B2; US20080114765A1; JP2007011784A; US8122064B2

Abstract

　小容量のメモリを用いて、かつ高速にデータソート処理を行うことができるようにする。　データソート処理プログラムを実行するコンピュータは以下の機能を有する。要約順序トライ作成手段（２）は、ルートを作成し、各データの各文字をそれぞれ順番に読み込み、ルートに接続される所定のノードを過去に通ったデータが所定数あったとき、かつ、所定のノードに関連づけられた文字の次の文字に対応する子ノードが作成されていないときに、所定のノードを共通にする各子ノードが所定の配列となるように子ノードを作成する。分割境界決定手段（３）は、所定のノード間に分割境界を設定する。データ振り分け手段（４）は、分割境界に基づいてデータを複数のデータ集合に振り分ける。

Description

明細書

データソート処理プログラム、データソート処理方法およびデータソート処理装置

技術分野

[0001] 本発明はデータソート処理プログラム、データソート処理方法およびデータソート処理装置に関し、特に大規模データのソートを行うデータソート処理プログラム、データソート処理方法およびデータソート処理装置に関する。

背景技術

[0002] 与えられたデータを、予め定められた順序に並べ替えるデータソート方法が知られている。

従来のデータソート方法として、クイックソートやバブルソート、シェルソート等の方法がある。これらのデータソート方法は、データの件数に対して線形時間を超える計算時間が必要であるため、件数が非常に多いデータに適用された場合、計算時間が増大し、コンピュータの演算性能が急激に悪ィ匕するという問題がある。

[0003] この問題を解決するために、唯一の根 (ルート）を持ち閉路を持たない (オープンループの)木構造 (グラフ）を用いたデータソート方法が知られて、る（例えば、特許文献 1参照)。

[0004] この木構造の 1種として、与えられたデータの容量に対して線形時間（データのサイズに比例する時間）でソートすることができるトライ (TRIE)構造がある。

図 12は、複数の文字を有する文字列 (データ）をトライ構造で示した図である。

[0005] なお、以下では、図 12中上下方向の長さを「深さ」、左右方向の長さを「幅」という。

トライ 90は 1つ以上のノード (節）から構成され、特に最初のノードを「ルート」（根）という。また、ノードとノードとを結ぶ線を「ブランチ」（枝）という。また、所定のノードを「親ノード」というとき、親ノードに対して 1つ下位のノードを「子ノード」といい、子ノードを持たないノードを「リーフ」（葉）という。

[0006] トライ 90を用いて文字を探索する場合は、ルートから開始する。ルートおよびノードは、トライ 90内の文字の種類と同じ数のブランチを有し、探索は文字に対応したブランチを選択するだけで進めることができる。トライ 90では、ルートは、 B、 Cおよび Dの 3本のブランチを有している。例えば、文字列が「BACK」ならば、最初に Bのブランチを選択し、次に Aのブランチ、次に Cのブランチ、最後に Kのブランチを選んで進めていけば探索が完了する。

[0007] このようなトライ構造を用いた特許文献 1に記載のデータソート方法によれば、巨大なサイズのデータ (文字列）に適用されても演算性能が急激に悪ィ匕することはない。しかし、トライ構造は、相異なるデータ (ソートアイテム)のサイズに比例した計算領域 (主記憶容量)を必要とする (メモリを大量に消費する）、う欠点を持つ。このため、文字列の数や文字列の長さが増えると、メモリに収まらなくなってしまい、処理時間の遅延の原因となる。

[0008] 従って、重複の少ない大規模データのソートや集計に適用されると、計算領域が不足して極端に演算性能が悪ィ匕する、または、計算が続けられなくなるという問題がある。

この問題を解決するために、与えられたデータを複数のデータの集合に分割し、それぞれのデータの集合に対して既存のソート方法を適用する方法が知られて、る（例えば、特許文献 2参照)。

特許文献 1：特開 2003— 44267号公報

特許文献 2：特許第 2959497号公報

発明の開示

発明が解決しょうとする課題

[0009] し力しながら、データを単純に区分けしただけでは、分割して得られる各データ集合間のデータの順序が定かではないため、これらのデータ集合に対して、さらに、それぞれの処理結果を併合するためのデータ処理を行う必要があり、処理を効率良く行うことができな、（データ処理のコストが高、） t 、う問題がある。

[0010] 本発明はこのような点に鑑みてなされたものであり、小容量のメモリを用いて、かつ高速にデータソート処理を行うことができるデータソート処理プログラム、データソート処理方法およびデータソート処理装置を提供することを目的とする。

課題を解決するための手段 [0011] 本発明では上記問題を解決するために、図 1に示すようなデータソート処理プログラムが提供される。このデータソート処理プログラムを実行するコンピュータは以下の機能を有する。

[0012] 要約順序トライ作成手段 2は、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライを作成する。分割境界決定手段 3は、所定のノード間に分割境界を設定する。データ振り分け手段 4は、分割境界に基づいて、データファイルを複数のデータ集合に振り分ける。

[0013] このようなデータソート処理プログラムによれば、以下の処理が実行される。要約順序トライ作成手段 2により、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライが作成される。また、分割境界決定手段 3により、所定のノード間に分割境界が設定される。また、データ振り分け手段 4により、分割境界に基づいてデータが複数のデータ集合に振り分けられる。

[0014] また、上記課題を解決するために、複数のデータを有するデータファイルに対し、ソート処理を行うデータソート処理方法において、要約順序トライ作成手段が、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライを作成し、分割境界決定手段が、所定のノード間に分割境界を設定し、データ振り分け手段が、前記分割境界に基づいて、前記データファイルを複数のデータ集合に振り分ける、ことを特徴とするデータソート処理方法が提供される。

[0015] このようなデータソート処理方法によれば、要約順序トライ作成手段により、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライが作成される。また、分割境界決定手段 3により、所定のノード間に分割境界が設定される。また、データ振り分け手段 4により、分割境界に基づいてデータが複数のデータ集合に振り分けられる。

[0016] また、上記課題を解決するために、複数のデータを有するデータファイルに対し、ソート処理を行うデータソート処理装置において、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライを作成する要約順序トライ作成手段と、所定のノード間に分割境界を設定する分割境界決定手段と、前記分割境界に基づいて、前記データファイルを複数のデータ集合に振り分けるデータ振り分け手段と、を有することを特徴とするデータソート処理装置が提供される。

[0017] このようなデータソート処理装置によれば、要約順序トライ作成手段により、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライが作成される。また、分割境界決定手段 3により、所定のノード間に分割境界が設定される。また、データ振り分け手段 4により、分割境界に基づいてデータが複数のデータ集合に振り分けられる。

発明の効果

[0018] 本発明によれば、要約順序トライを作成してデータソート処理を行うことによって、一度振り分けたデータを再度併合することなくデータソート処理を完了させることができるため、データソート処理を簡易なものとすることができ、また、データソート処理の高速ィ匕を図ることができる。

[0019] また、データを複数のデータ集合に振り分け、このデータ集合をソートすることにより

、データを直接ソートする場合に比べてメモリの省容量ィ匕を図ることができる。

本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

図面の簡単な説明

[0020] [図 1]実施の形態に適用される発明の概念図である。

[図 2]本実施の形態のコンピュータのハードウェア構成例を示す図である。

[図 3]コンピュータの機能を示すブロック図である。

[図 4]データソート処理の手順を示すフローチャートである。

[図 5]要約順序トライルーチンを示すフローチャートである。

[図 6]分割境界決定ルーチンを示すフローチャートである。

[図 7]データの振り分けルーチンを示すフローチャートである。

[図 8]文字列ファイルを表す図である。

[図 9]要約順序トライを構築する際の課程を示す概念図である。

[図 10]要約順序トライを用いたデータ分割境界を示す概要図である。

[図 11]要約順序トライを用いたデータ振り分けを示す概要図である。

[図 12]複数の文字を有する文字列 (データ)をトライ構造で示した図である。発明を実施するための最良の形態

[0021] 以下、本発明の実施の形態を図面を参照して詳細に説明する。

まず、実施の形態に適用される発明の概念について説明し、その後、実施の形態の具体的な内容を説明する。

[0022] 図 1は、実施の形態に適用される発明の概念図である。

データ記憶手段 1は、複数のデータ Dl、 · · ·、 D (n)を有するデータファイル Dを格納する。

[0023] 要約順序トライ作成手段 2は、データ記憶手段 1からデータファイル Dが入力され、成長頻度パラメータ入力手段 21から成長頻度パラメータが入力されると、要約順序トライを作成する。

[0024] なお、成長頻度パラメータについては後に詳述する。

ところで「トライ」とは、入力された全てのデータ Dl、 · · ·、 D (n)の情報を格納して構築される木構造であり、「要約順序トライ」とは、トライの部分木構造になっており、トラィと同一のルートを有し、データ Dl、 · ' ·ϋ (η)のうち、所定回数以上出現するデータの接頭辞 (共通接頭文字列）をすベて格納し、かつ、任意の親ノードの子ノードが、一意に、例えばアルファべットであれば、アルファべット順に例えば左力右へ順序付けられて、るものである。

[0025] 例えば、文字列（データ）「BAD」、「BACK」、「BADY」、 · · ·の要約順序トライは、文字「B」のノードを作成し、ルート所定回数 (この例では 3回）以上出現し共通する文字「A」のノードが作成され、さらに全てのデータを格納したときに、文字「B」のノードに続く文字「A」のノードを親ノードとし、それに続く子ノード (この例では「C」および「 D」）が、所定回数以上出現したときに、「C」、「D」が、この順番に（一意な方向に順序付けられて)作成された木構造である。

[0026] この要約順序トライによれば、データが多い部分の構造が深くなり、データが少ない部分の構造が浅くなるため、データの重要な部分の情報を失うことなく構造が簡素化される。

[0027] 分割境界決定手段 3は、要約順序トライの所定のノード間を分割する分割境界を決定する。具体的には、分割境界決定手段 3は、分割数入力手段 31から与えられるデータ集合分割数およびデータのデータ数 nに基づヽて、後述する各データ集合量が可及的に均等になるように要約順序トライの分割境界を決定する。

[0028] データ振り分け手段 4は、分割境界決定手段 3により決定された分割境界に基づいて、データ Dl、 · · ·、 D (n)を作成された要約順序トライに当てはめることにより、データ Dl、 · · ·、 D (n)を前述したデータ集合分割数のデータ集合に振り分ける。

[0029] 振り分けデータソート手段 5は、データ集合毎に、所定のソート方法を用いてソートを行う。

結合手段 6は、振り分けデータソート手段 5によってソートが行われた後のデータ集合を一意な順序で結合することにより、ソートが完了したデータを作成する。

[0030] これにより、データ記憶手段 1からデータファイル Dが入力され、成長頻度パラメ一タ入力手段 21から成長頻度パラメータが入力されると、要約順序トライ作成手段 2により、要約順序トライが作成される。そして、要約順序トライが分割境界決定手段 3に渡され、分割数入力手段 31によりデータ集合分割数が入力されると、分割境界決定手段 3により、各データ集合量が、可及的に均等になるように要約順序トライの分割境界が決定される。

[0031] 決定された分割境界およびデータ Dl、 · · ·、 D (n)がデータ振り分け手段 4に渡されると、データ振り分け手段 4により、データ Dl、 · · ·、 D (n)が作成された要約順序トライに当てはめられる。そして、データ Dl、 · · ·、 D (n)が前述したデータ集合分割数のデータ集合に振り分けられる。

[0032] データ集合分割数のデータ集合が振り分けデータソート手段 5に渡されると、振り分けデータソート手段 5により、データ集合毎に、所定のソート方法を用いてソートが行われる。

[0033] このソートが行われた後のデータ集合が結合手段 6に渡されると、結合手段 6により、ソートが行われた後のデータ集合が一意な順序で結合されることにより、ソートが完了したデータが作成される。

[0034] 以下、本発明の実施の形態を具体的に説明する。

図 2は、本実施の形態のコンピュータのハードウェア構成例を示す図である。本発明の実施の形態のデータソートプログラムおよびデータソート方法は、コンピュータで構成されるデータソート処理装置 100により実現される。

[0035] データソート処理装置 100は、以下の様なハードウェア構成を有している。

データソート処理装置 100は、 CPU (Central Processing Unit) 101によって装置全体が制御されている。 CPU101には、バス 10 laを介して RAM (Random Access Me mory) 102、ハードディスクドライブ（HDD:Hard Disk Drive) 103、グラフィック処理装置 104および入力インタフェース 105が接続されている。

[0036] RAM102には、 CPU101に実行させる OS (Operating System)のプログラムゃァプリケーシヨンプログラムの少なくとも一部が一時的に格納される。また、 RAM102には、 CPU101による処理に必要な各種データが格納される。また、 HDD103には、 OSやアプリケーションプログラム等が格納される。

[0037] グラフィック処理装置 104には、モニタ 11が接続されている。グラフィック処理装置 1 04は、 CPU101からの命令に従って、画像をモニタ 11の画面に表示させる。入カインタフェース 105には、キーボード 12とマウス 13とが接続されている。入力インタフエース 105は、キーボード 12やマウス 13から送られてくる信号を、バス 101aを介して C PU 101に送信する。

[0038] 以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。

以下、図 2に示す構成のデータソート処理装置 100における本実施の形態のデータソートの処理について詳細に説明する。

[0039] 図 3は、コンピュータの機能を示すブロック図である。

HDD103には、 n個の文字列 XI、 Χ2· · ·、 X(n)を有する文字列ファイル Xが格納されている。

[0040] データソート処理装置 100は、ソフトウェアによって実現される処理機能として、要約順序トライ構築部 110、分割境界決定部 120、文字列振り分け部 130、振り分け文字列ソート部 140および文字列結合部 150を有して、る。

[0041] 要約順序トライ構築部 110は、作成中の要約順序トライを表す変数 Tと、処理対象の文字を表す変数えと、制御対象のノードまたはルートを表す変数 Vとを有している。また、要約順序トライ構築部 110は、 j (1≤j≤n)番目の文字列 X(j)内の次の文字を取り出す関数 nextchar Oと、ノード wからレコード aをたどる移動先のノードを返す関数 goto (w, a)と、関数 goto (w, a) = zを満たし、さらに zが要約順序トライ T内で文字 aに対して一意な順番に位置するよう、要約順序トライ Tにノード zを追加する関数（戻り値なし) make (w,a,z)と、ノード wのカウンタ値を返す関数 count (w)とを有している。

[0042] 例えば、 j番目の文字列 X (j)が「BE」であり、現在の文字が「B」であるとき、関数 ne xtchar ()が実行されると、次の文字「E」が取り出される。

要約順序トライ構築部 110は、文字列 XI、 Χ2 · · ·、 X (n)を読み込み、キーボード 1 2やマウス 13等から入力される成長頻度パラメータ ocと、前述した変数および関数とを用いて要約順序トライ Tを作成する。

[0043] 分割境界決定部 120は、各ノード wに割り当てられたパケット IDを返す関数 bucket

(w)を有している。分割境界決定部 120は、要約順序トライ構築部 110から要約順序トライ Tが送られると、文字列の個数 nと、キーボード 12やマウス 13等力も入力されるデータ集合分割数 ι8とに基づいて、分割境界を決定する。具体的には、分割境界決定部 120は、文字列の個数 nが均等に分割されるように (文字列データ量が均等に分割されるように)要約順序トライ Tを調整した要約順序トライ T1を作成し、要約順序トライ T1を所定のノード間で分割し、関数 bucket (w)を用いて分割した各ノードにバケット IDを割り当てる。なお、このパケット IDの割り当て方法は、分割した各ノードを判別できるものであれば特に限定されな、。

[0044] 文字列振り分け部 130は、現在の文字を表す変数 λ 1と、現在のノードまたはルートを表す変数 vlとを有して、る。

また、文字列振り分け部 130は、前述した関数 nextchar Oと、前述した関数 goto( w,a)と、前述した関数 bucket (w)とを有している。

[0045] 文字列振り分け部 130は、分割境界決定部 120によって割り当てられたパケット ID の個数と等しいパケット Bl、 · · ·、 B (m)を作成する。そして、文字列 XI、 Χ2、 · · ·、 X (n)を要約順序トライ T1に当てはめることにより、文字列 XI、 Χ2、 · · ·、 X (n)をバケッ HDに従って、それぞれ対応するパケット Bl、 · · ·、 B (m)に格納する。

[0046] ここで、ノケット Bl、 · · ·、 B (m)内に格納される文字列をそれぞれ、文字列集合 U 1、 · · ·、 U (m)とすると、振り分け文字列ソート部 140は、所定のソート方法を用いて、それぞれ文字列集合 Ul、 · · ·、 U (m)のソートを行う。

[0047] このソート方法としては特に限定されないが、例えば、特開 2003— 44267号公報に開示されているソート方法や、クイックソート方法等が挙げられる。

文字列結合部 150は、ソートが完了した文字列集合 Ula、 · · ·、 U (m) aを、一意に結合して、その結合されたデータをソート結果としてモニタ 11に出力する。

[0048] 以上のような構成のコンピュータによってデータソートが行われる。

次に、データソート処理装置 100を用いたデータソート処理を詳細に説明する。図 4は、データソート処理の手順を示すフローチャートである。以下、図 4に示す処理をステップ番号に沿って説明する。

[0049] まず、要約順序トライ構築部 110は、未読の文字列の読み込みを試みる (ステップ S 11)。

次に、要約順序トライ構築部 110は、全ての文字列 XI、 · · ·、 Xnを読み込んだか否かを判断する (ステップ S 12)。

[0050] 全ての文字列を読み込んで、な、場合は (ステップ S 12の Yes)、要約順序トライ構築部 110は、未読の文字列のうちの最先の文字列 X(y) (0≤y<n)を取得し、読み込む。

[0051] 次に、要約順序トライ構築部 110は、変数 kを 0にセットする (ステップ S13)。

次に、要約順序トライ構築部 110は、変数 kをインクリメントする (ステップ S14)。

[0052] 次に、要約順序トライ構築部 110は、変数 kが、読み込んだ文字列 X(y)の文字数 Kより大き、か否かを判断する (ステップ S 15)。

変数 kが、文字数 Kより大きい場合は (ステップ S15の Yes)、ステップ S11に移行する。

[0053] 一方、変数 kが文字数 K以下のときは (ステップ S15の No)、要約順序トライ Tの構築を行う（ステップ S 16)。

なお、ステップ S16のサブルーチンについては後に詳述する。

[0054] ところで、ステップ SI 1で未読の文字列の読み込みに失敗した場合、すなわち要約順序トライ構築部 110が全ての文字列 XI、 · · ·、 X(n)を読み込んだ場合は (ステップ SI 2の No)、分割境界決定部 120は、分割境界決定を行う（ステップ S17)。

[0055] なお、ステップ S17のサブルーチンについては後に詳述する。

次に、文字列振り分け部 130は、未読の文字列の読み込みを試みる (ステップ S 18

) o

[0056] 次に、文字列振り分け部 130は、文字列ファイル X内の全ての文字列 XI、 · · ·、 X( n)を読み込んだ力否かを判断する (ステップ S 19)。

全ての文字列 XI、 · · ·、 X (n)を読み込んで!/ヽな、場合は (ステップ S 19の Yes)、文字列振り分け部 130は、未読の文字列 XI、 · · ·、 X(n)のうちの最先の文字列 X(y )を取得し、その文字列 X(y)の最初の文字を読み込む。

[0057] 次に、文字列振り分け部 130は、変数 kを 0にセットする (ステップ S20)。

次に、文字列振り分け部 130は、変数 kをインクリメントする (ステップ S21)。次に、文字列振り分け部 130は、変数 kが、読み込んだ文字列 X(y)の文字数 Kより大きヽか否かを判断する (ステップ S22)。

[0058] 変数 kが、文字数 Kより大きい場合は (ステップ S22の Yes)、ステップ S18に移行する。

一方、変数 kが文字数 K以下のときは (ステップ S22の No)、文字列の振り分けを行う（ステップ S 23)。

[0059] なお、ステップ S23のサブルーチンについては後に詳述する。

ところで、ステップ S 18で、未読の文字列の読み込みに失敗した場合、すなわち、全ての文字列 XI、 · · ·、 X(n)を読み込んだ場合は (ステップ S 19の No)、最終処理を行う（ステップ S24)。具体的には、前述したように、文字列集合 Ul、 · · ·、 U (m)を作成し、振り分け文字列ソート部 140が、文字列集合 Ul、 · · ·、 U (m)のソートを行い、文字列結合部 150が、ソートが完了した文字列集合 Ula、 · · ·、 U (m) aを、この順番に（一意に)結合して、その結合されたデータをソート結果としてモニタ 11に出力する。その後、データソート処理を終了する。

[0060] 次に、要約順序トライルーチンについて説明する。

図 5は、要約順序トライルーチンを示すフローチャートである。

以下、図 5に示す処理をステップ番号に沿って説明する。 [0061] なお、要約順序トライルーチンの動作は、特に記載がな、場合は、要約順序トライ構築部 110で行われる。

まず、初期設定を行う (ステップ S31)。具体的には、変数 Vをルートに設定し、変数

Tをルート Vのみのトライに設定し、変数えを文字列 XIの先頭文字に設定し、関数 co unt (v) =0に設定する。

[0062] 次に、変数 Vに設定されて、るルート（ノード)のカウンタ値をインクリメントする (ステップ S32)。

次に、変数 Vに設定されているルート（ノード)のカウンタ値が成長頻度パラメータ OC 以上か否かを判断する (ステップ S33)。

[0063] カウンタ値が成長頻度パラメータ a未満のときは (ステップ S33の No)、ステップ S3 9に移行する。

一方、カウンタ値が成長頻度パラメータ a以上のときは (ステップ S33の Yes)、関数 goto (V, λ )が存在するか否か、すなわち、変数 Vに設定されて、るルート (親ノード）力も現在のデータをたどる移動先のノード (子ノード）が存在するか否かを判断する（ステップ S 34)。

[0064] 関数 goto (V, λ )が存在するときは（ステップ S34の Yes)、ステップ S36に移行する。一方、関数 goto (V, λ )が存在しないときは（ステップ S34の No)、関数 make (V , λ , w)を実行して新たなノード wを作成し、関数 count (w) =0に設定する (ステツプ S35)。

[0065] 次に、 v=goto (ν, λ )を実行し、実行対象 (制御対象）のノードを移動先のノードとし、その移動先の変数 Vに設定されているノードのカウンタ値をインクリメントする (ステップ S36)。

[0066] 次に、現在の文字列 X(j)の次の文字がある力否力すなわち現在の文字列 X (j) の全ての文字に対して要約順序トライルーチンを実行した力否かを確認する (ステツプ S37)。

[0067] 次の文字がある場合は (ステップ S37の Yes)、現在の文字列 X(j)内の次の文字を取り出し (ステップ S38)、ステップ S32に移行する。

一方、次の文字がない場合は、（ステップ S37の No)、次の文字列 X (j + 1)があるか否かを判断する (ステップ S39)。

[0068] 次の文字列 X(j + 1)がある場合は (ステップ S39の Yes)、変数えを次の文字列 X(j

+ 1)の先頭の文字に設定し、ステップ S32に移行する（ステップ S40)。

一方、次の文字列 X(j + 1)が存在しない場合は (ステップ S39の No)、要約順序トライルーチンを終了する。

[0069] 次に、分割境界決定ルーチンについて説明する。

図 6は、分割境界決定ルーチンを示すフローチャートである。

以下、図 6に示す処理をステップ番号に沿って説明する。

[0070] なお、分割境界決定ルーチンの動作は、特に記載がな!、場合は、分割境界決定部 120で行われる。

まず、各パケット Bl、 · · ·、 B (n)に入れる平均データ数 D を求める（ステップ S41

AVE

)。具体的には、文字列 XI、 · · ·、 X(n)の個数 nを、与えられる文字集合分割数 j8で割った値を平均データ数 D とする。

AVE

[0071] 次に、要約順序トライ Tの各子ノードのカウンタ値の和力親ノードのカウンタ値と等しいか否かを確認し、各子ノードのカウンタ値の和力親ノードのカウンタ値と等しくないときは、各子ノードのカウンタ値の比率に応じて、各子ノードのカウンタ値の和が、親ノードのカウンタ値と等しくなるように、各子ノードのカウンタ値を調整し、近似的な要約順序トライ T1を作成する (ステップ S42)。

[0072] 次に、要約順序トライ T1の深さ毎または幅毎に各ノードのカウンタ値を足し合わせて、き、その値が平均データ数 D に略等しくなつたノードを境界とする (ステップ S4

AVE

3)。

[0073] 次に、要約順序トライ T1を探索し、境界に設定されたノードの前後で値を変えた ID を、変数 Vに設定されているノードに対して与える関数 bucket (V)を決定する (ステツプ S44)。

[0074] その後、分割境界決定ルーチンを終了する。

なお、ステップ S42のカウンタ値の調整は、分割境界決定ルーチンの前の段階で行ってもよい。

[0075] 次に、データの振り分けルーチンについて説明する。図 7は、データの振り分けルーチンを示すフローチャートである。

以下、図 7に示す処理をステップ番号に沿って説明する。

[0076] なお、データの振り分けルーチンの動作は、特に記載がな!、場合は、文字列振り分け部 130で行われる。

まず、初期設定を行う（ステップ S51)。具体的には、変数 λ 1を文字列 XIの先頭文字に設定し、変数 vlを要約順序トライ Τのルートに設定する。

[0077] 次に、関数 goto (vl, λ 1)が存在するか否かを判断する (ステップ S52)。

関数 goto (vl, λ 1)が存在するときは (ステップ S52の Yes)、変数 vlに対して関数 goto (vl, λ 1)を実行する (ステップ S53)。

[0078] 次に、現在の文字列 X(j)内に次の文字がある力否かを判断する (ステップ S54)。

次の文字がある場合は (ステップ S54の Yes)、現在の文字列 X(j)内の次の文字を変数 λ 1に設定し (ステップ S55)、ステップ S52に移行する。

[0079] 一方、次の文字がな!、場合は (ステップ S54の No)、ステップ S57に移行する。

また、ステップ S52で関数 goto (vl, λ 1)が存在しないときは（ステップ S52の No) 、変数 vlに設定されているノードがリーフノードか否かを判断する (ステップ S56)。

[0080] 変数 vlに設定されて!、るノードがリーフノードのとき（ステップ S56の Yes)、現在の文字列 X (j )に関数 bucket (V 1 )を割り当てて (ステップ S 57)ステップ S 59に移行する。

[0081] 一方、変数 vlに設定されているノードがリーフノードでないとき (ステップ S56の No )要約順序トライ Tに現在の文字列 X(j)の、リーフノード側に一番近いノード wに関するパケット bucket (w)を割り当てて（ステップ S58)、ステップ S59に移行する。

[0082] 次に、次の文字列 X(j + 1)があるか否かを判断する (ステップ S59)。

次の文字列 X(j + 1)がある場合は (ステップ S59の Yes)、変数 λ 1を次の文字列 X (j + 1)の先頭の文字に設定し、変数 vlをルートに設定し (ステップ S60)、ステップ S 52に移行する。

[0083] 一方、次の文字列 X(j + 1)がない場合は (ステップ S59の No)、データの振り分けルーチンを終了する。

図 8〜図 11は、データソート処理を具体的に示す概念図である。 [0084] 図 8は、文字列ファイルを表す図である。

図 8に示すように、文字列ファイル Xには、上力も順番に 10個の文字列 XI、 · · ·、 X 10 =く BEADSゝ CAT, DATA, BAD, BEA、 BACKゝ DAT, BADYゝ CAKE, BEAR >が格納されて、る。

[0085] 以下では、文字列ファイル Xのデータソート処理について説明する。

図 9は、要約順序トライを構築する際の課程を示す概念図である。

なお、図 9中の紙面上、右側を「右」、左側を「左」という。

[0086] また、成長頻度パラメータひ = 3、文字集合分割数 β = 3とする。

まず、要約順序トライ構築部 110は、文字列ファイル Xの最初の文字列「BEADS」を取得する。

[0087] 図 9 (a)に示すように、要約順序トライ構築部 110は、要約順序トライ Tのルートの力ゥンタを 1にセットし、現時点ではルートのみのトライであるので、最初の文字「B」に対応するノードを新たに作成する。このノードのカウンタ値を 1にセットする。次に、 2番目の文字列「CAT」を取得する。図 9 (b)に示すように、ルートのカウンタ値をインクリメントし、文字「C」に対応するノードを作成して、そのノードのカウンタ値を 1にセットする。 3番目の文字列「DATA」についても、同様の処理を行い文字「D」に対応するノードを作成する。ここで、最初の文字「B」に対して右側に「C」に対応するノードを作成したので、これらのアルファベットに一意な方向性 (Α、 Β、 · · ·Υ、 Ζ)を持たせるため、文字「D」に対応するノードは、文字「C」の右側に作成する。

[0088] 次に、 4番目の文字列「BAD」を読み込んだとき、前に文字列「BEADS」を読み込んだときに既に文字「B」に対するノードが作成されているため、この文字「B」のノードに移動して、この文字「B」のノード（現在のノード）のカウンタ値（以下ノード「B」のカウンタ値ともいう）をインクリメントする。この結果、ノード「B」のカウンタ値は 2になる。

[0089] 次に、 5番目の文字列「BEA」を読み込んだとき、ノード「B」のカウンタ値をインクリメントする。その結果、ノード「B」のカウンタ値は 3となり、成長頻度パラメータ αと等しくなるので、図 9 (c)に示すように、現在の文字列「ΒΕΑ」の 2番目の文字「Ε」に関するノードを新たに作成し、文字「Ε」のノードに移動して、このノード「Ε」のカウンタ値を 1 にセットする。 [0090] 次に、 6番目の文字列「BACK」を読み込んだとき、ノード「B」のカウンタ値をインクリメントする。その結果、ノード「B」のカウンタ値は 4になり、ノード「B」のカウンタ値が成長頻度パラメータ α以上になるため、図 9 (d)に示すように、現在の文字列「BAC K」の 2番目の文字「Α」に関するノードを新たに作成し、文字「Α」のノードに移動して、このノード「Α」のカウンタ値を 1にセットする。

[0091] 以上の操作を、最後の文字列「BEAR」まで繰り返して行うことにより、図 9 (e)に示すように、最終的な要約順序トライ Tが完成する。

次に、完成した要約順序トライ Tを用いて、入力データの分割境界を決定する。

[0092] 図 10は、要約順序トライを用いたデータ分割境界を示す概要図である。

分割境界決定部 120は、データ集合分割数 j8 = 3と、入力データ件数 N = 10との演算、 NZ J8 = 3. 333 · · ·を実行する。

[0093] 次に、図 10 (a)に示すように、文字「A」のノードのカウンタ値 2、文字「E」のノードのカウンタ値 2と、文字「B」のノードのカウンタ値 6との調整を行うため、文字「A」のノードのカウンタ値および文字「E」のノードのカウンタ値の比率（1： 1)に応じて、それぞれ文字「A」のノードのカウンタ値および文字「E」のノードのカウンタ値に 1を加算し、近似的な要約順序トライ T1を作成する。

[0094] 次に、分割境界決定部 120は、演算結果により要約順序トライ T1内の 1つのノードまたは各ノードの合計値が 3または 4となるようにカウンタ値の組み合わせを調節すること〖こよって、分割境界を決定する。

[0095] なお、ここでは、要約順序トライ T1の最下位の子ノードのカウンタ値、すなわち、文字「A」、文字「E」、文字「C」、文字「D」のノードのカウンタ値の組み合わせを調節する。

[0096] 具体的には、文字「C」のノードのカウンタ値および文字「D」のノードのカウンタ値の和が 2 + 2=4であるため、文字「A」のノードと文字「E」のノードとの間、文字「B」のノードと文字「C」および文字「D」のノードとの間で分割すると判断し、これらの間に境界線を引き、文字「A」のノードに ID= 1、文字「E」のノードに ID = 2、文字「C」および文字「D」のノードに ID = 3を割り当てる。

[0097] ここで、要約順序トライ T1の、任意の親ノードに対する子ノードが、一意な方向性を有しているため、割り当てられる IDのナンバーも一意な方向性を有する。すなわち、 I Dナンバーの増加する方向と、アルファベットの増加する方向（A→Zの方向）とが一致する。

[0098] 次に、文字列振り分け部 130は、文字列 XI、 · · ·、 X10をもう一度スキャンして要約順序トライ T1へ当てはめることにより、文字列 XI、 '，'、 10を対応する3個（|8個）のパケットに振り分ける。

[0099] 図 11は、要約順序トライを用いたデータ振り分けを示す概要図である。

まず、 1番目のデータ「BEADS」を取得し、要約順序トライ T1の上を移動させる。「 BE」まで読んだところで移動先のノードがなくなるので、分割決定段階で割り振られたノード「E」の IDを参照する。その結果、 ID = 2であることが分かるので、データ「BE ADS Jは 2番目のパケット B2に格納される。次に 2番目のデータ「CAT」を取得する。同様にして要約順序トライ Tの上を移動させると、 1文字目「c」で移動先のノードが無くなる。このノードの ID= 3であるので、データ「CAT」は 3番目のパケット B3に格納される。以下、同様の処理を続けることにより、 10個の文字列 XI、 · ' ·、Χ10=く BEA DSゝ CAT, DATA, BAD, BEA、 BACKゝ DAT, BADYゝ CAKE, BEAR>は、次のように 3分割される。パケット B1 :文字列集合 U1 = < BAD、 BACK, BADY> 、パケット B2 :文字列集合 U2= < BEADS、 BEA、 BEAR>、パケット B3 :文字列集合 U3 =く CAT、 DATA, DAT, CAKE>。

[0100] さらに、既存のソート方法を用いてパケット Bl、パケット B2およびパケット B3毎に各パケット内の文字列集合 Ul、 U2、 U3を、それぞれソートする。ソート結果の文字列集合 Ula、 U2a、 U3aは、 Ulaから U3aに向かって一意な方向性をもつ 3つの文字列集合 Ula= < BACK、 BAD, BADY>、文字列集合 U2a= < BEA、 BEADS, BEAR>、文字列集合 U3a= < CAKE, CAT, DAT, DATA >となる。

[0101] そして、文字列集合 Ulaと U2aと U3aとをこの順番で積み重ねることにより、文字列 XI、 · · ·、 X10= < BEADS、 CAT, DATA, BAD, BEA、 BACK, DAT, BAD Y、 CAKE, BEAR>のソート結果である U= < BACK、 BAD, BADY, BEA、 BE ADS、 BEAR, CAKE, CAT, DAT, DATA >が得られる。

[0102] 以上述べたように、データソート処理装置 100によれば、データの重要な部分の情報を失うことなく構造が簡素化された要約順序トライ Tを作成することにより、メモリ (R AM102)の省容量ィ匕が図れ、データソート処理を簡易なものにすることができる。

[0103] また、パケット Bl、 Β2、 Β3にそれぞれ該当する文字列集合 Ul、 U2、 U3を格納し、所定のソート方法を用いて各パケットのソートを行い、ソートが完了した文字列集合 Ula、 U2a、 U3aを、一意に結合することにより、一度振り分けた文字列集合 Ula、 U2a、 U3aを再度併合することなくデータソート処理を完了させることができるため、データソート処理をより簡易なものとすることができる。また、与えられた RAM102の容量に応じてパケット Bl、 · · ·、 B (m)の個数を調整することにより、各パケットに格納されるデータの容量を調節することができる。特に、データの容量が均等になるように、ノケット Bl、 · · ·、 B (m)の個数を調整することにより、メモリの容量を超えるパケットの作成を容易に防止することができ、ノケット Bl、 · · ·、 B (m)のソート処理においては、処理する文字列 XI、 · · ·、 X(n)の容量が大きなものであっても、再度 HDD103 にアクセスすることなくデータソート処理を行うことができる。これによりデータソート処理の高速ィ匕を図ることができる。

[0104] また、得られた要約順序トライ Tから近似的な要約順序トライ T1を作成することにより、さらに処理の高速化と、使用するメモリの少領域ィ匕を図ることができる。

以上本発明の好適な実施の形態について詳述した力本発明は、その特定の実施の形態に限定されるものではない。

[0105] 例えば、上記の説明ではソート対象として文字列を用いたが、これに限らず、例えば、数列を用いることもできる。この場合、数列内の全ての数字が、最も桁数の多い数字と同じ桁数となるように、数字の先頭に、それぞれ、 0をつけることで本実施の形態と同様にデータソート処理を行うことができる。例えば、最も桁数の多い数字が「11 11」の場合、 61は「0061」とする。

[0106] なお、上記の処理機能は、コンピュータによって実現することができる。その場合、データソート処理装置 100が有すべき機能の処理内容を記述したデータソート処理プログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンビユータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等がある。磁気記録装置には、ハードディスク装置 (HDD)、フレキシブルディスク (F D)、磁気テープ等がある。光ディスクには、 DVD (Digital Versatile Disc)、 DVD— R AM (Random Access Memory)、 CD— ROM (Compact Disc Read Only Memory;、 CD— R(Recordable) ZRW(ReWritable)等がある。光磁気記録媒体には、 MO (Ma gneto— Optical disk)等がめる。

[0107] プログラムを流通させる場合には、たとえば、そのプログラムが記録された DVD、 C D— ROM等の可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータ力他のコンピュータにそのプログラムを転送することもできる。

[0108] プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータ力転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置力プログラムを読み取り、プロダラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンビュータは、サーバコンピュータ力もプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。

[0109] 上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなぐ対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

符号の説明

[0110] 1 データ記憶手段

2 要約順序トライ作成手段

3 分割境界決定手段

4 データ振り分け手段

5 振り分けデータソート手段

6 結合手段 100 データソート処理装置 110 要約順序トライ構築部 120 分割境界決定部 130 文字列振り分け部 140 振り分け文字列ソート部 150 文字列結合部

T、T1 要約順序トライ

Claims

請求の範囲

[1] 複数のデータを有するデータファイルに対し、ソート処理を行うデータソート処理プログラムにおいて、

コンピュータを、

データに一定回数以上出現する共通接頭文字列を一意な順序で格納した要約順序トライを作成する要約順序トライ作成手段、

所定のノード間に分割境界を設定する分割境界決定手段、

前記分割境界に基づ、て、前記データファイルを複数のデータ集合に振り分けるデータ振り分け手段、

として機能させることを特徴とするデータソート処理プログラム。

[2] 前記要約順序トライ作成手段は、ルートを作成し、前記各データの各文字をそれぞれ順番に読み込み、前記ルートに接続される前記ノードを過去に通ったデータが所定数あったとき、かつ、前記所定のノードに関連づけられた文字の次の文字に対応する子ノードが作成されて、な、ときに、前記所定のノードを共通にする前記各子ノードが所定の配列となるように、前記子ノードを作成することを特徴とする請求の範囲第 1項記載のデータソート処理プログラム。

[3] 前記分割境界決定手段は、前記各データ集合が可及的に均等に振り分けられるように前記分割境界を決定することを特徴とする請求の範囲第 1項記載のデータソート処理プログラム。

[4] 前記各ノードは、前記各ノードに対応してそれぞれ設けられ、前記各データが前記各ノードを通る毎にインクリメントするカウンタを備え、

前記データの文字数 K (K≥ 1)のデータを読み込んだとき、前記ルートから深さ k ( l≤k≤K)のノードに設定されたカウンタが所定値以上のとき、かつ、深さ (k+ 1)の文字に対応するノードが存在しないときは、前記深さ kのノードに深さ（k+ 1)のノードを作成し、かつ、前記深さ (k+ 1)のノードを作成するときに、他の深さ（k+ 1)のノードが既に存在するときは、他の深さ (k+ 1)のノードに対して今回作成する前記深さ（ k+ 1)のノードが、所定の配列となるように作成することを特徴とする請求の範囲第 1 項記載のデータソート処理プログラム。

[5] 前記分割境界決定手段は、前記カウンタ値と予め設定される分割数とに基づいて、前記分割境界を設定することを特徴とする請求の範囲第 4項記載のデータソート処理プログラム。

[6] 前記分割数は、前記各データ集合の容量が前記コンピュータの不揮発性メモリの容量より小さくなるように設定されることを特徴とする請求の範囲第 5項記載のデータソート処理プログラム。

[7] 前記各データ集合を所定の方法でソートするデータ集合ソート手段を有することを特徴とする請求の範囲第 1項記載のデータソート処理プログラム。

[8] 前記所定の方法でソートされた各データ集合を一意な順序で結合する結合手段を有することを特徴とする請求の範囲第 7項記載のデータソート処理プログラム。

[9] 前記分割境界決定手段は、 i番目の前記各ノードのカウンタ値の和が、 (i- 1)番目の前記ノードのカウンタ値と異なるとき、前記 i番目の各ノードのカウンタ値の和が前記 (i— 1)番目のノードのカウンタ値と等しくなるように、それぞれ前記 i番目の各ノードのカウンタ値を補正することを特徴とする請求の範囲第 1項記載のデータソート処理プログラム。

[10] 前記 i番目の各ノードは、前記各ノードのカウンタ値の比率に応じて前記各ノードのカウンタ値を補正することを特徴とする請求の範囲第 9項記載のデータソート処理プログラム。

[11] 複数のデータを有するデータファイルに対し、ソート処理を行うデータソート処理方法において、

要約順序トライ作成手段が、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライを作成し、

分割境界決定手段が、所定のノード間に分割境界を設定し、

データ振り分け手段が、前記分割境界に基づいて、前記データファイルを複数のデータ集合に振り分ける、

ことを特徴とするデータソート処理方法。

[12] 複数のデータを有するデータファイルに対し、ソート処理を行うデータソート処理装 ¾【こ; i l /、て、データに一定回数以上出現する共通接頭文字列を格納した要約順序トライを作成する要約順序トライ作成手段と、

所定のノード間に分割境界を設定する分割境界決定手段と、

前記分割境界に基づ、て、前記データファイルを複数のデータ集合に振り分けるデータ振り分け手段と、

を有することを特徴とするデータソート処理装置。