JPS6266326A

JPS6266326A - 日本語デ−タ整列処理方式

Info

Publication number: JPS6266326A
Application number: JP60207506A
Authority: JP
Inventors: Nobuhiko Mori; 信彦毛利
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1985-09-19
Filing date: 1985-09-19
Publication date: 1987-03-25
Also published as: JPH048816B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕日本語データのレコードを、レコード先頭の漢字とその
読みをキーとして分類整列する場合の処理方式である。

同−読みのレコード群の全レコードが、所定の作業記憶
領域にすべて入る第１の場合、各レコード全体は入らな
いが、キー情報とアドレス情報のみ入る第２の場合、そ
れらの情報も入らない第３の場合に分けて、第３の場合
はファイル装置上で分類処理し、未処理レコードが減少
して、第１または第２の場合に対応する状況になれば、
処理を切り換えて、なるべく作業記憶領域を利用して処
理効率を上げるようにする。

〔産業上の利用分野〕

本発明は、情報処理システムにおける、日本語データの
レコードを、レコード先頭の漢字とその読みをキーとし
て分類整列する場合の処理方式に関する。

日本語データの処理として、例えば人名簿を作成する場
合等、日本語データレコードの例えば姓について、姓の
読みの第１字と、第１の漢字をキー情報として、該読み
の５０音順、同−読みの群内では第１漢字の文字コード
の大小順等によって分類整列する処理が必要になる。

〔従来の技術と発明が解決しようとする問題点〕第２図
は、情報処理システムの一構成例を示すブロック図であ
る。

日本語データレコードを、キー情報の読みの５０音順と
、同−読み内の第１漢字の文字コードの、例えば昇順に
、分類整列する場合には、磁気ディスク装置等のファイ
ル装置１に、予め例えば入力順に順不同の配列で保持さ
れている原データファイル２を、処理装置３において、
読みのカナ１字をキーとして通常の方法で分類すること
により、同−読みのレコードに群分けされて、ファイル
装置４上に作業ファイル５が作成される。

次に処理装置３は、作業ファイル５の、同−読みのレコ
ード群ごとに、そのキー情報の第１漢字の文字コードの
昇順にレコードを整列するように、ファイル装置６へ順
次出力して、出力データファイル７を構成する。

第３図は、この整列処理の一例を説明する図である。

作業ファイル５の各レコードは、フラグ部１０、キ一部
１１、データ部１２からなり、キ一部１１には、例えば
データ部１２内の姓を示すデータの、読みを示す読み情
報１３と、姓の第１漢字を示す漢字情報１４が含まれる
。

処理装置３は、例えば主記憶に作業領域８を設けて、読
み情＠１１３の第１文字のカナが同一のレコード（図は
、第１文字が「す」の例とする）群の全レコードを作業
領域８に読み出し、各レコードの漢字情報部１４を順に
相互に照合して、値の最も小さい文字コードを持つレコ
ードの１つを決定すると、そのコードを記憶し、そのレ
コードを出力データファイル７に出力し、作業領域８上
の該レコードのフラグ部１０を処理済の表示にする。

次に、記憶したコード値と同一か、同一のものが無けれ
ば、新たに最も小さい値の文字コードを持つレコードの
１つを、フラグ部１０に処理済の表示の無いレコード（
未処理レコードという）の中から決定し、前記と同様に
処理する。

以上の処理を、作業領域８に未処理レコードが無くなる
まで操り返して、読み「す」の群の整列処理を終わり、
次の読み（図では「夕」）の群を作業領域８へ読み込ん
で、処理を開始する。

以上の整列処理は、主記憶上に取った作業領域８の上の
データについて実行され、その間に作業ファイル５への
アクセスを必要としないので、高速に整列処理を実行す
ることができる（以下において、これを第１方式という
）。

しかし、そのためには作業領域８に１群の全レコードを
保持することが必要であり、もし作業領域８が全レコー
ドを保持し切れない大きさであった場合には、少なくと
もそのレコード群については、別の方式で処理しなけれ
ばならない。

例えばそのような相対的に大きな群については、作業フ
ァイル５からルーコードづつ順番に読み出して、それが
未処理レコードであれば、前に読み出して保持するルー
コードと比較し、両レコードのうち漢字情報１４の文字
コードの大きくないルーコードを選択して保持し、次の
レコードを読み出す、という処理を１群の全レコードに
ついて操り返して、全レコードの読出し／比較処理ごと
に出力すべきルコードが決定する（以下において、これ
を第３方式という）。

第３方式によれば、群の大きさに関わらず、２レコード
を保持する作業領域があれば常に整列処理を実行するこ
とができるが、作業ファイル５へのアクセスが多くなる
ので、処理に時間を要することは明らかである。

そのために、データ量に対して作業−領域が比較的小さ
く制限される場合の別の方式（第２方式とする）として
、第４図に示すように、作業領域８には作業ファイル５
の各レコードのデータ部１２の代わりにレコードアドレ
ス１５を保持することにする。

こ−でレコードアドレスとは、作業ファイル５上の該レ
コード位置を示すアドレスであって、°通常は４バイト
程度のデータ長を有し、一般にレコードのデータ部１２
のデータ長よりは十分に短い。

従って、このようにすることによって、作業領域８には
比較的多数のレコードの情報の保持が可能になる。

この場合、出カルコードを決定すると、そのレコードア
ドレス１５によって、作業ファイル５から改めて該当レ
コードを読み出し、それを出力データファイル７へ出力
する必要があるが、キ一部に関しては第１方式の場合と
同様に、作業領域８上ですべて処理することができるの
で、第３方式よりは大幅に高速の処理ができる。

しかし、この方式をとる場合にも、準備した作業領域の
大きさを越えるレコード群については、例えば前記第３
方式によって処理しなければならない。

第５図は、以上の従来の処理の流れを示す図である。整
列処理を開始すると、処理のステップ２０において、最
初の群のレコード情報を作業ファイル５から作業領域８
に読み込むことを試みる。読み込むレコード情報は、シ
ステムによって定まる、第１方式又は第２方式の情報で
ある。

その結果、ステップ２１で１群の全レコードの所定情報
を作業領域８に読み込み及び設定したと判定した場合に
は、ステップ２２で、第１又は第２方式による整列出力
処理を実行する。

又ステップ２１で、全レコードの情報を読み込めなかっ
たと判定したときは、ステップ２３に進んで、第３方式
により作業ファイル上での整列出力処理を実行する。

何れかの方式による処理を終わると、ステップ２４で全
群の処理を終わったか識別し、未処理の群があればステ
ップ２０へ戻り、全群完了で処理を終了する。

従って、高速に処理するためには、データ量を推定して
、作業領域８を十分に大きく確保しておく必要があり、
又その大きさが処理対象のデータ量に対して少しでも小
さい場合には、極端に処理時間が遅くなるという問題が
あった。

〔問題点を解決するための手段〕

第１図は、本発明の構成を示す処理の流れ図である。

図において、処理のステップ３０は第１方式によるレコ
ード情報の読み込み、ステップ３２はその結果全レコー
ドを読み込んだ場合の第１方式整列出力処理、ステップ
３４は第２方式によるレコード情報の読み込み、ステッ
プ３６は第２方式整列出力処理、ステップ３８は第３方
式による整列出力処理、ステップ４２．４３は第３方式
による１ブロツクのレコード出力ごとに未処理レコード
数を監視して処理方式を切り換える制御である。

〔作　用〕

処理を開始すると、先ず前記第１方式として、作業ファ
イル５から作業領域８へ、１群の全レコードの読み込み
を行う、全レコードの読み込みに成功すればステップ３
２で第１方式によってその群の整列出力処理を完了した
後、次の群の処理があればステップ３０に戻る。

全レコード読み込みができなかった場合には、ステップ
３４で、第２方式のレコード情報を作業領域８に読み込
み及び設定し、群の全レコードの情報が作業領域８に入
ったときは、ステップ３６で第２方式の整列出力処理を
実行した後、次の群の処理があればステップ３０に戻る
。

第２方式のレコード情報の全レコード読み込みもできな
かった場合には、ステップ３８において、第３方式によ
り整列出力のレコードを１ブロツク出力した後、ステッ
プ４２．４３で処理中の群の未処理レコード数をチェッ
クする。

未処理レコード数が第１方式の可能な数に減少していれ
ばステップ３０に戻り、第２方式の可能な数になってい
ればステップ３４に戻り、以上の何れでもなければステ
ップ３８の第３方式処理を継続する。

以上の構成により、適当な大きさの作業領域８を設けて
おけば、それを越えるデータ量の場合にも、作業領域が
有効に利用されて、処理効率の改善が得られる。

〔実施例〕

第１図の、ステップ３２における第１方式の整列出力処
理、ステップ３６における第２方式の整列出力処理、及
びステップ３８における第３方式の整列出力処理は、そ
れぞれ従来の各方式処理と同様である。

しかし、本発明により、処理方式は固定されることなく
、第１、第２、第３方式の順に、データ量と作業領域の
大きさとの関係で、可能な最も効率のよい処理方式が選
択され、且つ第３方式で処理が開始された後も、処理が
進んで未処理レコード数が減少すると、第１又は第２の
方式へ処理が自動的に切り換えられる。

即ち、処理を開始すると、先ず前記第１方式として、作
業ファイル５から作業領域８へ、１群の全レコードの読
み込みを行う、ステップ３１の判定で、全レコードの読
み込みに成功していれば、ステップ３２で第１方式によ
ってその群の整列出力処理を完了した後、ステップ４４
で未処理の群があるか識別し、次の群の処理があればス
テップ３０に戻る。

ステップ３１で、全レコード読み込みができなかったと
判定した場合には、ステップ３３で、読み込み試行によ
り得られた、作業領域８に保持可能なレコード数（第ル
コード数とする）を適当な記憶領域に記憶した後、ステ
ップ３４で、第２方式のレコード情報を作業領域８に読
み込み及び設定する。

ステップ３５で、第２方式の所要情報を全レコードにつ
いて、作業領域８に読み込んだと識別すると、ステップ
３６で第２方式の整列出力処理を実行する。その後、次
の群の処理があればステップ３０に戻る。

ステップ３５で、第２方式のレコード情報の全レコード
読み込みもできないと識別した場合は、ステップ３７で
、第２方式のレコード情報の作業領域８に保持可能なレ
コード数（第２レコード数とする）を適当な記憶領域に
記憶する。

次のステップ３８で第３方式の処理を実行する。

ステップ３８では、前記のように作業ファイル５の上で
レコードを順次走査して出力レコードを決定する処理を
実行し、出力レコードが決定すると、そのレコードを要
すれば出カバソファに書込み、１ブロツクの所定数の出
力レコードが出力バラファに蓄積されると、それを出力
データファイル７へ出力する。

以上のステップ３８の処理のレコード走査において、処
理中の群の未処理レコード数をカウントしておき、ステ
ップ４１〜４３で未処理レコード数による処理の分岐を
制御する。

即ち、ステップ４１の判定で、未処理レコード数が０で
あれば、ステップ４４に進み、次に処理する群があれば
ステップ３０に戻る。

未処理レコードがある場合、ステップ４２で先に記憶し
た第ルコード数と比較し、未処理数が第ルコード数より
大きくなければ、ステップ３０に戻り、残りのレコード
の処理を第１方式の処理に切り換える。

未処理レコード数が第ルコード数より大きい場合には、
ステップ４３で先に記憶した第２レコード数と比較し、
未処理数が第２レコード数より大きくなければ、ステッ
プ３４に戻り、残りのレコードの処理を第２方式の処理
に切り換える。

未処理レコード数が第２レコード数より大きい場合には
ステップ３８に戻って第３方式の処理を継続する。

〔発明の効果〕

以上の説明から明らかなように、本発明によれば、日本
語データの整列出力処理において、作業領域が常に有効
に利用されるようになるので、情報処理システムの処理
効率を改善するという著しい工業的効果がある。

【図面の簡単な説明】

第１図は本発明の処理の流れ図、第２図は情報処理システムの一構成例ブロック図、第３
図は整列処理の第１の例の説明図、第４図は整列処理の
第２の例の説明図、第５図は従来の処理の流れ図である。図において、１．４．６はファイル装置、２は原データ、　　　　　３は処理装置、５は作業ファ
イル、　　　７は出力データファイル、８は作業領域、
　　　１０はフラグ部、１１はキ一部、　　　　　１２
はデータ部、１３は読み情報、　　　　１４は漢字情報
、１５はレコードアドレス、２０〜２４．３０〜３８．４１〜４４は処理のステップ
第３図第４図

Claims

【特許請求の範囲】ファイル装置に保持され、複数のレコードからなる日本
語データを、該各レコードのキー情報の、読みの先頭文
字と先頭の漢字をキーとして整列する処理において、処理装置に作業用の記憶領域を設け、該キー情報の読みの先頭文字の同一なレコードの群につ
いて、未処理の該全レコードを該記憶領域に配列できる
場合には、該全レコードを該記憶領域に読み出して、該
記憶領域上のデータによって第１の前記整列処理を実行
し、第１の整列処理を実行することができないが、該各レコ
ードごとの所要キー情報と該レコードの前記ファイル装
置上の記憶アドレス情報とからなる部分情報が、該全レ
コードについて該記憶領域に配列できる場合には、該全
レコードの該部分情報を該記憶領域に読み出して、該記
憶領域上のデータによって第２の前記整列処理を実行し
、第１及び第２の整列処理を何れも実行できない場合に
は、該ファイル装置から順次レコードを読み出して、次
に整列するレコードを探索することによって、第３の前
記整列処理を実行し、第３の整列処理の実行中に、当該群の未処理レコード数
を監視して、該未処理レコード数が第１又は第２の整列
処理の可能なレコード数に減少した場合には、第１又は
第２の整列処理に切り換えるように構成されていること
を特徴とする日本語データ整列処理方式。