JPS63316231A

JPS63316231A - コンピユーター・ソーテイングを容易にする方法

Info

Publication number: JPS63316231A
Application number: JP63141870A
Authority: JP
Inventors: エデイ・リー; ユージン・クリネク
Original assignee: Northern Telecom Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1987-06-11
Filing date: 1988-06-10
Publication date: 1988-12-23
Also published as: EP0294950B1; EP0294950A2; DE3852672D1; US4939639A; CA1265623A; DE3852672T2; EP0294950A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、一般に、コンピューターによるアルファベッ
ト・ソーティングに関し、そしてさらに具体的には、多
言語アルファベットに基づくワードのコンピューターに
よるアルファベット・ソーティングに関する。

発明の背景現在まで、英数字に対して最も広く使用されたコード標
準は、ＡＳＣＩＩ（情報交換用米国標準コード）であり
、ＡＮＳＩ（米国規格協会）によって標準化された７ビ
ツト・バイナリ−・コードであった。ＡＳＣＩＩがサポ
ートする文字は英語文字だけであるために、情報処理及
び交換環境におけるその実現は、英語に制限された。そ
の結果、非常に多数のコンピューター・システムは、今
日、英語のみで通信する。

最近、コンピューター産業は、自国語のみに精通した非
技術者との通信を容易にするために、非英語ラテン系言
語をサポートする必要性を認識した。このため、新８ビ
ット多言語文字セットが、１９８６年にｌ５Ｏ（国際標
準化機構）によって規定された。このセットは、すでに
、産業と多数の国内標準化機構から広い支持を獲得した
。文字セットの名前は、ラテン・アルファベット＃ｌで
あり、そしてＩＳＯ標準において、ｌ５Ｏ８８５９／ｌ
として文書化された。それは、世界の４５国家において
使用される１４の西欧及び西半球の言語をサポートする
。

ＩＳＯ標準ｌ５Ｏ８８５９／１によってサポートされた
言語と文字のセント−「情報処理−８ビツト単一バイト
・コード化グラフィック文字セット−パートｌニラテン
・アルファベット＃１」は、北アメリカ、西欧と西半球
において使用される言語の殆どを含むと考えられる。そ
れらが、以下にリストされる。

アノマーク語、オランダ語、英語、７工ロー語、フィン
ランド語、フランス語、ドイツ語、アイスランド語、ア
イルランド語、イタリア語、ノルウェー語、ポルトガル
語、スペイン語、スウェーデン語これらの言語は、少なくとも次の国で使用され・ると考
えられる。

アルゼンチン、フィンランド、パナマ、オーストラリア
、フランス、パラグアイ、オーストリア、ドイツ、ペル
ー、ベルギー、グアテマラ、ポルトガル、ベリーズ、ガ
イアナ、エルサルバドル、ポリビア、ホンデュラス、ス
ペイン、ブラジル、アイスランド、スリナム、カナダ、
アイルランド、スウェーデン、チリ、イタリア、スイス
、コロンビア、リヒテンシュタイン、オランダ、コスタ
リカ、ルクセンブルク、イギリス、キューバ、メキシコ
、アメリカ合衆国、テンマーク、ニューシーラント、ウ
ルグアイ、エクアドル、ニカラグア、へ坏スエラ、フェ
ロ−諸島、ノルウェー今、ＡＳＣＩＩ文字セットに戻る
と、ソーティングに関して英語により具現される主な利
点は、英語のアルファベットにおける文字のアルファベ
ット順序が、ＡＳＣＩＩセットにおける内部数値照合順
序に対応するということである。この特別な特徴は、英
語文字列のソーティングを比較的簡単、そして多くの場
合に効率的にする。

例えば、２つの文字をソートするために、次の操作が行
われる。

ｌ）両文字のケースを同じものに変換せよ。（即ち、文
字は、ケースなしになる）２）両文字のコード（順序数）の直接比較を使用して、
相対ソート順序を決定せよ。その順序数がより小さい文
字が、（昇順ソーティングにおいて）最初に照合される
。

ＡＳＣＩＩ文字セットに基づいたソーティング方法の幾
つかの制限は、次項を含む。

１）総てではないとしても、殆どの今までに出版された
ソーティング・アルゴリズムは、基礎の文字セットが、
７ビツトＡＳＣＩＩセント（又は少数の場合にＥＢＣＤ
ＩＣセット）であり、外国文字をサポートシない。その
結果、これらのアルゴリズムは、多くの非英語ラテン系
言語を適正にソートすることができない。

２）英語と他の言語に対する現存のソーティング方法は
、外国文字が含まれる時、適正にソーティング処理しな
い。これは、コンピューター・システムが、それらの言
語における文字のみを含む国内文字セットを使用するな
らば、決して発生しない。しかし、ソーティングにおい
て外国文字を取り扱う問題は、８ビット文字セットがサ
ポートされる時、それらのセットが国内的に使用される
よりもより多くの文字を含むｊ；めに発生する。

３）現存のアルゴリズムは、同一データベースからの情
報が、異なる言語を使用する使用者によってアクセスさ
れる多言語環境においてソーティングを適正に処理する
ことができない。

多言語ソーティングを適正に処理するために、次の項目
が扱われる。

１）ラテン・アルファベット＃ｌ　（又は他の多言語セ
ット）における文字の照合シーケンスは、サポートされ
た言語の総てにおける文字のアルファベット順序に対応
しない。これは、ソーティングが、もはや文字セットに
よって課せられた照合シーケンスによらないことを意味
する。

２）多言語環境におけるソーティングの主な思想は、使
用者自身の言語でデータをソートさせることである。記
憶されたデータは、必ずしも使用者の言語である必要は
なく、そして事実、それは、幾つかの異なる言語から構
成される。こうして、使用者の言語により異なるソーテ
ィング順序をサポートすることができるソーティング操
作が、必要とされる。例えば、文字“入“は、スウェー
テン語において＃ｚ＃の後にソートされるが、ドイツ語
においては”Ａ“と同一にソートされる。

３）幾つかの言語において、異なる内部表現を有する文
字が、同一表現（例えば、スウェーテン語における＃Ｖ
“と“Ｗ“は同一に照合される）を有するかの如く、ソ
ートされる場合がある。これは、ソーティング問題に取
り組むための手段として内部表現を使用することを考え
るならば、確実に困難を生ずる。

４）ソーティング・ソフトウェアは、国内文字の中で外
国文字を正確に照合することができなければならない。

この種類の字訳は、明らかに言語による。

多言語文字セットがサポートされる時の問題についてよ
り良い概念を与えるために、４つの例示の言語のソート
順序が、以下に概略を示される。

言語１は、英語であり、言語２は、スウェーテン語であ
り、言語３は、ドイツ語であり、そして言語４は、フラ
ンス語である。同一アルファベット順序を有する文字は
、括弧で囲まれる。優先規則は、括弧で囲まれた文字に
適用され、そしてアクセントでのみ異なることに注意せ
よ。

ｌ）言語ｌ：小文字：ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕ
ｖｗｘｙｚ大文字：　ＡＢＣＤＥＦＧＨＩ　Ｊ　ＫＬＭＮＯＰＱＲ
５ＴＵＶＷＸＹＺ２）言語２：小文字：ａｂｃｄ　（ｅ６１　　ｆｇｈｉ　ｊｋｌｍｎ
。

ｐｑｒｓｔｕ　　（ｖｗ）　　ｘ　　１ｙＬＩＩ　　Ｚ
ａｌ　ｄ大文字：　ＡＢＣＤ　（Ｅ！１ｍｌ　ＦＧＨＩ
　Ｊ　ＫＬＭＮＯＰＱＲＳＴＵ　（ＶＷ）Ｘ　（ＹｔＪ
）　ＺＡＸＯ３）言語３：小文字：　　（ａｈ）　ｂｃｄｅｆｇｈｉｊｋｌｍｎ　
（。

６］　　ｐｑｒｓＱｔ　　（ｕｕ）　　ｖｗｘｙｚ大文
字：　（Ａ入）　ＢＣＤＥＦＧＨＩ　ＪＫＬＭＮ　（０
０）　　ＰＱＲＳβＴ　　（Ｕυ）ｖｗｘｙｚ４）言語
４：小文字：　　（ａＡ＠）　ｂ　（ｃ＋；）ｄ　（ｅ６Ａ
ｅＭ）ｆｇｈ　　（ｉＴＹ）　　ｊｋｌｍｎ　　（ｏ５
）　　ｐｑｒｓｔ（ｕＱＱＬＩ）　　ｖｗｘｙｚ大文字：　　（ＡＡＡ）　Ｂ　（ｃｃｌ　Ｄ　（Ｅ８Ｂ
ＥＥ）ＦＧＨ（Ｉ　　Ｉ　Ｔ）　　ＪＫＬＭＮ　　（○
Ｏ）　　ＰＱＲ３Ｔ（ＵＬＩＯＩＪ）　　ＶＷＸＹＺ発明の要約 ■５０８８５９／１において規定された文字セットは、
化アメリカと西欧の両方においてコンピューター産業か
ら広い支持を受けた。本発明の新ソ−ティング方法は、
上記の文字セット標準に基づいたコンピューター・シス
テムに組み込まれる。

また、方法は、他の８ビツト１バイト・コード化文字セ
ット標準を使用するシステムに僅かの修正で適用される
。

本発明のソーティング方法は、前記の１４の言語の任意
のものをサポートするために、同一アルゴリズム（ソフ
トウェア）を許容する。主な理由は、本発明は、１５０
８８５９／Ｉにおいて規定された総ての文字に対するソ
ート順序をコード化するために、標準コード化機構を使
用することである。このコード化機構は、文字セットの
内部照合表現へのソーティングの依存性を除去する。

言語依存ソート順序をデータ・ファイルとして記憶する
ことにより、ソーティング・ソフトウェアは、使用者の
言語に影響されず、そしてこのため高度に移植性があり
、そしてソフトウェアの唯一のセットが保守されなけれ
ばならないために、費用効果を有する。サポートされる
言語数は、利用されるデータ・ファイル数に正比例する
。これは、新言語がサポートされる時、ソフトウェア変
更が必要とされないことを意味する。代わりに、新デー
タ・ファイルが、規定されかつ設置されなければならな
い。

外国文字のソーティングをサポートするために、「字訳
」が使用され、使用者が探すことを最も予期されＩ；外
国文字がソートされることを保証する。

これは、幾何学的類似性と音声規則の両方を含む。

本発明のソーティング方法は、次の機能をサポートする
。

■）言語に出現しない文字は、その言語の使用者がそれ
らを探すことを予期される場合にソートされる。

２）総ての場合に、総ての句読点とブランクを除く非英
数字は、それらが数字とアルファベットの中に出現する
ならば無視される（例えば、Ａｄａ／Ｂｏｂｂｙ　　Ｃ
ｏ、は、ＡｄａＢｏｂｂｙＣｏ、としてソートされる）
。名前が句読点及び／又は非英数字を含むならば、それ
らの文字は、保存される（例えば、＊＊＊、［＊］　、
／＊／、等）。この場合、これらの非英数字は、数字と
文字の前に順序付けられる。

３）ソーティング操作は、幾つかの文字に対、し１対２
置換をサポートする。例えば、言語３の′Ｂ′は、言語
ｌにおける＃ＳＳ＃である如く、ソートされる。

４）ソーティング操作は、幾つかの文字に対し２対ｌ置
換をサポートする。例えば、スペイン語において、文字
対／　ｃｈ’と′　１１′は、単一文字である如くソー
トされ、そしてそれぞれ、′ｃ２′と／ｄ／の間、及び
′　！２′と′ｍ′の間にソートされる。

５）ソーティング操作は、アクセント優先度をサポート
する。これは、比較される文字列における文字の総てが
、アクセントを除いて等しい時、アクセント／非アクセ
ント文字が、異なる順序を与えられることを意味する（
例えば、”Ｅｌｌｅｎ“は、”Ｂ１１ｅｎ“の前に照合
される）。例えば、英語において、′　ａ′母音（アク
セント付き又は無し）は、優先度を除いて等しく取り扱
われる。それらの優先度順序は、ＡＡＡＡＡＸＡである
。アクセント間の優先度は、異なる言語で変わることに
注意せよ。

６）非英数字（句読点と記号）の間のソート順序は、言
語依存であることを予期されない。このため、ソーティ
ングの言語依存性は、文字とアクセントによって決定さ
れる。

本発明は、使用される文字セットによって課せられた内
部照合シーケンスを使用することとは別に、ソーティン
グ順序を記号化する方法に向けられ、ソーティング順序
を規定するために、幾何学的又は音声的類似性により「
外国」文字を字訳する段階を含む。

言い換えれば、本発明は、多言語アルファベントからの
文字に基づくワードのコンピューターによるアルファベ
ット・ソーティングを容易にする方法において、関連文
字に割り当てられた数値を考慮中の言語の文字のソーテ
ィング順序を反峡する数値に変換する段階を特徴とする
方法である。

さらに言い換えれば、本発明は、多言語アルファベット
からの文字に基づくワードのコンピューターによるアル
シアベット・ソーティングを容易にする方法において、
ソートされるワードのマスター・ファイルを保守する段
階と、サポートされる各言語に対するデータ・ファイル
を提供する段階とを特徴とし、データ・ファイルは、ア
ルファベット・ソーティングを行う前に、所定の方式で
マスター・ファイルを修正するためにマスター・ファイ
ルに適用される方法である。

実施例発明は、今、添付の図面を参照してより詳細に記載され
る。この場合幾つかの図面の各々における同様の部分は
、同一参照番号によって識別される。

ＡＳＣＩＩのソーティング・シーケンスとは異なり、ｌ
５Ｏ８８５９／１文字のソーティング・シーケンスは、
本発明によりサポートされた１４の言語のソート順序の
いづれにも対応しない。本発明により、使用者の言語に
基づく言語依存ソートキーは、標準ソーティング・パッ
ケージが使用される前に形成される。

本発明は、言語依存ソーティングを言語独立ソフトウェ
アによって処理されることを可能にする。

これは７、異なる言語がサポートされる時、ソーティン
グをサポートするために、ソフトウェアの同一セットが
移植可能であることを意味する。言語依存ソート順序は
、実行時にデータ・ファイルからロードされる。ソート
順序は、コード化ソフトウェア（付録Ａ）によって使用
される３つのコード化テーブル（それぞれ第１Ｂ図、第
２Ｂ図と第３Ｂ図のテーブル１２０．１２６と１３１）
に対してデータを作成するユーティリティ・プログラム
によって作成される。

サポートされる各言語に関連した２つのコード化テーブ
ル（第１Ｂ図の英数字コード化テーブル１２０と第２Ｂ
図のアクセント優先度コード化テーブル１２６）がある
が、第３のテーブル（第３Ｂ図の非英数字コード化テー
ブル１３１）は、（「発明の背景」の節においてリスト
された如く）サポートされる総ての言語に共通である。

各テーブルは、２５６エントリを有し、その結果ｌ５Ｏ
８８５９／１文字セットによってサポートされた総ての
文字が、表現される。

英数字コード化レコード２０（第１図）は、数字（数値
文字）と文字（アルファベット）をコード化するために
使用される。各文字は、４バイトの情報を必要とする。

バイト２１は、コード化が、１対１．１対２．２対２、
又は無視であるか、指示するために使用される。＃０＃
は、ｌ対１１“ｌ“はｌ対２、′２“は２対２、そして
＃２５５“は無視を指示する。

コード化インジケーター２１が＃０“　（即ち、ｌ対ｌ
）であるならば、第１コード化ソート順序バイト２２の
みが、文字エントリのコード化ソート順序を記憶するた
めに使用され、第２コード化ソート順序バイト２３と次
最大ソート順序バイト２４は、使用されない。

コード化インジケーター２１が“１“　（即ち、１対２
）であるならば、第１コード化ソート順序バイト２２と
第２コード化ソート順序バイト２３が、文字エントリの
２つの対応するコード化ソート順序を記憶するために両
方使用され、そして次最大ソート順序バイト２４は使用
されない。　コード化インジケーター２１が２“　（即
ち、２対２）であるならば、３つのバイトの総て（第１
コード化ソート順序２２、第２コード化ソート順序２３
、と次最大ソート順序２４）が、コード化情報を記憶す
るために使用される。第１コード化ソート順序２２は、
文字エントリのコード化ソート順序を記憶するために使
用される（例えば、第７図の文字“Ｃ′の値７８）。第
２コード化ソート順序２３は、対の第２文字のコード化
ソート順序を記憶するために使用される（例えば、２文
字の対“ＣＨ“における文字＃Ｈ＃に対する値８３）。

次最大ソート順序２４は、その言語において規定された
最大のソート順序のコード化ソート順序を記憶するため
に使用される（例えば、第７図の例における１０２）。

コード化インジケーター・バイト２１は、ｌ対ｌと１対
２の両方の場合に対して正しい応答を提供するが、２対
２の場合において不正確な応答を提供する。これは、次
の入力文字のコード化ソート順序が、バイト２３に記憶
された２文字の対における第２文字のコード化ソート順
序に一致するか否かを決定するために、余分なチェック
が必要とされるために、発生する。その結果、コード化
インジケーター２１は、潜在的に２文字対の接頭辞であ
る文字に対する２対２状況（即ち、”２″）に対してイ
ネーブルされる（例えば、スペイン語の“Ｃ“と＃Ｌ“
）。２文字対の第２文字に対する実コード化ソート順序
は、その言語に対する最高位コード化ソート順序値を表
現するバイト２４に記憶される（例えば、スペイン語に
対して、それは、文字′Ｚ“の値の後のコード化値を意
味する）。通常の如く、文字エントリに対するコード化
ソー］・順序は、なおバイト２２に記憶される。

数字と文字に対するコード化ソート順序の実際値は、非
英数字に対して規定されたものよりも大きくなけれなば
らない。コード化インジケーター・バイト２１が無視（
即ち、２５５）であるならば、文字のコード化値は、無
視される。これは、コード値１６進００乃至１６進ＩＦ
、１６進８０乃至１６進９Ｆ、非英数字１６進２１乃至
１６進２Ｆ、１６進３Ａ乃至３Ｆ、１６進４０．１６進
５Ｂ乃至５Ｆ、１６進６０．１６進７Ｂ乃至７Ｆ、及び
１６進Ａ１乃至１６進ＢＦで規定された制御文字に適用
される。

アクセント優先度コード化レコード２６（第２Ａ図）は
、文字優先度をサポートするために必要とされるアクセ
ントをコード化するために使用される。アクセントされ
る文字（例えば、′Ａ“と＃Ｅ“）に対し、これらの文
字はｌ対１文字コード化のみを必要とし、そしてこれは
アクセント・コード化にも適用されるために、第１コー
ド化アクセント値２７は、ゼロであり、そして第２コー
ド化アクセント値２８は、未使用である。アクセント・
コード化値（２７と２８）は、０がら始まり、そして利
用されるアクセント数に基づいて上昇する。コード化ア
クセント値２７と２８は、データがアクセントを除いて
同一である時、ソーティングに関して重要となることに
注意せよ。

１対２コード化を必要とする文字に対し、値２７と２８
は、字訳される２つの文字のコード化アクセント値を記
憶するために使用される。２文字対の接頭辞（例えば、
スペイン語の“Ｃ′と“Ｌ″）は、他の文字と同じ方法
でコード化され、そして特別なアクセント・コード化値
は必要とされない（即ち、それらは、他の１対１コード
化文字と同じ方法でコード化される）。２対２コード化
を必要とする文字対のアクセント値は、字訳された文字
（即ち、最大ソート順序）によるが、アクセントを具現
せず、そしてこのためコード化されたアクセント値は規
定されない。

非英数字コード化レコード３１（第３Ａ図）は、数字と
文字を除いて、総ての他の印字可能文字をコード化する
ために使用される。それらの文字は、１以上のコード化
値を割り当てられ、そしてコード化ソート順序３２に記
憶される。この項類における最終コード比値プラス１は
、英数字に対して使用されたコード化ソート順序の開始
値である。

全体ソートキー・コード化プロセス３３が、第４図に示
される。データ３４（即ち、ワード）は、コード化テー
ブルとして言語依存データ・ファイル３６を使用するソ
フトウェア３５によってコード化された後、言語依存ソ
ートキー３７に変換される。それからソートキー３７は
、実ソーティング操作中比較のために使用される。

第５図は、コード化ソートキー３７の構造ヲより詳細に
示す。コード化ソートキー３７は、コード化アクセント
優先度値４０の存在により、もはやオリジナル・データ
ではない。コード化ソートキー３７は、コード化ソート
順序３９とコード化アクセント値４０から成る。（オリ
ジナル・データの長さを超える）コード化ソートキー３
７の長さの増大は、データにおける総ての文字がアクセ
ント優先度値を有するならば、オリジナル・データのサ
イズのせいぜい半分である。これは、コード化アクセン
Ｉｆ先度値４０が、値が０乃至１０の範囲を取るために
、１バイトの２つの値にパックされるｔ；めに発生する
。こうして各個は、４ビットに適合する。コード化アク
センｔ・優先度値４０は、アクセントされる文字（例え
ば、′Ａ＃又は“Ｅ“）又は実際にアクセントされた文
字（例えば、＃Ａｓと“Ｅ“）に対して、コード化ソー
トキー３７にお憶されることに注意せよ。これは、数字
、アクセントされない文字（例えば、＃Ｘ′と＃Ｚ″）
、及び非英数字のみを含むデータに対し、生データの長
さを超えるコード化ソートキー３７のサイズにおける増
分はないことを意味する。

第６図は、ソート順序定義ユーティリティ４１を示す簡
単化ブロック図である。全体ソートキー・コード化プロ
セス３３（第４図）によって必要とされる言語依存デー
タ・ファイル３６は、オフライン・データ・ファイル構
成プロセス４１（第６図）によって作成され、このプロ
セスは、各特定言語のソート順序情報４２を必要とし、
そして言語依存データ・ファイル３６（即ち、英数字コ
ード化テーブル１２０、第１Ｂ図、アクセント優先度コ
ード化テーブル１２６、第２Ｂ図、及び非英数字コード
化テーブル１３１．第３Ｂ図）と呼ばれる３つのコード
化テーブルを構築するために、ソート順序定義ユーティ
リティ４３を使用する。

データ・ファイル３６の使用は、ソーティング・ソフト
ウェアをソート順序の言語依存性から独立させ、そして
ソーティング・ソ７′Ｆ−ウェアの１セツトの使用を許
容する。

第７図と第８図は、任意のサンプル・ワード又は４６で
示されたデータ“ＢＣＨＡＥ、”の実コード化の図示表
現である。このワードの英数字部分のコード化バージョ
ンは、英数字ソートキー４７として第７図にコード化形
式で示される。ワード４６のアクセント属性部分のコー
ド化バージョンは、アクセント・ソートキー４８として
第８図にコード化形式で示される。データ・ソートキー
４９と呼ばれるワード４６の完全コード化バージョンは
、第９図に示され、そしてアクセント・ソートキー４８
が続く英数字ソートキー４７から成る。

第７図は、英数字コード化プロセスにおいて発生する４
つの可能な作用、即ち、１対１，２対２、。

１対２、及び無視、を示す。与えられた例は、言語５（
スペイン語）の英数字コード化テーブルに基づき、そし
て例示目的のみのために与えられる。

コード化プロセスにおける第１段階は、ワード４６にお
ける第１文字、即ち、対応するコード化インジケーター
５１に対して文字＃Ｂ′、をチェックすることである。

これは、ワード４６における文字“Ｂ′から英数字コー
ド化テーブル５６の文字カラム５０におけるＢエントリ
に延びたライン６１によって第７図に示され、コード化
インジケーター・カラム５１における対応するエントリ
として、コード化がｌ対ｌであることを指示する値“０
“を有する。こうして、対応するコード化ソート順序（
即ち、７７′）は、第１コード化ソート順序カラム５２
からフェッチされ、そしてライン６２によって示された
如く、英数字ソートキー４７の第１位置に入れられる。

文字＃Ｂ′は、アクセント優先度が記憶されなければな
らないか調べるために、再びチェックされる（第８図参
照）。第８図において、ワード４６における文字″Ｂ″
からアクセント優先度コード化テーブル６０の文字カラ
ム５７におけるＢエントリに延びたライン６３によって
示された如く、第１コード化アクセント値カラム５８に
おける対応するエントリとして値“２５５＃を存する。

カラム５８における値”２５５＃は、この文字がアクセ
ントを含まず、そしてこのため値は、アクセント・ソー
トキー４８に記憶される必要がないことを指示する。

英数字コード化テーブル５６（第７図）の文字カラム５
０に対する同一チェック段階は、ワード４６における次
の文字に対して、即ち、ライン６４により示された如く
文字“Ｃ“に対して繰り返される。コード化インジケー
ター・カラム５１における対応するエントリは、２対２
コード化が必要とされることを指示する値＃２“である
。これが実際の場合であることを決定するために、ワー
ド４６における次の文字、即ち、文字″Ｈ″がコード化
され、ワード４６における文字“Ｈ“から文字カラム５
０におけるＨエントリに延びたライン６６によって示さ
れ、第１コード化ソート順序カラム５２における対応す
るエントリとして値“８３″を有する。それからこの値
は、第２コード化ソート順序カラム５３に記憶されたも
のに対して比較され、（値“８３“を有する）文字“Ｃ
“に対応される。値は、同一である（両方共、値“８３
＃を有する）ために、これは、文字対が存在する（即ち
、文字″ＣＨ”は、１単位として取り扱われなければな
らず、そして２対２コード化が必要とされる２つの分離
した文字として取り扱われない）ことを示す。文字“Ｃ
＃に対応する第１コード化ソート順序カラム５２からの
値“７８“は、ライン６７によって示された如く、英数
字ソートキー４７の第２位置に入れられる。文字″Ｃ″
に対応する次最大ソート順序カラム５４（即ち、値＃１
０２“）は、ライン６８によって示された如く、ソート
キー４７の第３位置に入れられる。アクセントは、次最
大ソート順序カラム５４に対して規定されないために、
チェックはアクセント優先度に対して必要とされず、そ
して文字対の第１文字（即ち、Ｃ）に対するアクセント
優先度は、それが決して使用されないｔ；めに無視され
る（この情報は、この事例において値２を有するコード
化インジケーター５１から抽出されることに注意せよ）
。

入力データにおけるｓＣ＃の後の文字のコード化ソート
順序が、文字“Ｃ“エントリに対して第２コード化ソー
ト順序カラム５３のエントリによって示された如く＃８
３″でないならば、文字“Ｃ“の第１コード化ソート順
序（即ち、カラム５２における“７８“）のみが、ソー
トキー４７の第２位置に入れられる。

次に、文字“ＡＥ＃が、ワード４６における文字“ＡＥ
“とコード化テーブル５６のカラム５０におけるエント
リ“ＡＥ”の間のライン６９によって示された如く、コ
ード化される。文字″ＡＥ“に対応するコード化インジ
ケーター・カラム５１におけるエントリは、値“ｌ“を
有する。これは、文字が１対２コード化を必要とするこ
とを示す。

その結果、カラム５２と５３（即ち、それぞれ値“７６
″と“８０“）からの値（コード化ソート順序）は、ラ
イン７１と７２によって示された如く、英数字ソートキ
ー４７の次の２つの位置に置かれる。

第８図に示された如く、文字“ＡＥｓは、ライン７３に
よって示された如く、アクセント優先度コード化テーブ
ル６０に対してチェックされる。

この作用は、文字″ＡＥ″が、２つのアクセント属性を
有することを顕示し、そしてこのため各々が＃０＃であ
る２つのコード化アクセント値がフェッチされ、そして
ライン７４と７６によって示された如く、アクセント・
ソートキー４８に入れられる。

ワード４６における最終文字は、ピリオド（６）である
。それは、ライン７７によって示された如く、コード化
テーブル（第７図）に対してチェックされる。文字“、
′に対するカラム５１のエントリは、値“２５５“であ
り、コード化値は必要とされず、このためこれは無視状
況であることを指示する。このためこの値は、英数字ソ
ートキー４７に追加されない。同じことは、第８図にお
いて、ライン７８によって示された如く、アクセント優
先度がチェックされる時発生する。

第９図は、オリジナル・ワード４６の完全データ・ソー
トキー４９を示す。データ・ソートキー４９は、図に示
された如く、アクセント・ソートキー４８（２バイトを
１バイトにパックする前が示される）が続いた英数字ソ
ートキー４７を含む。

第１Ｏ図は、データ８１が非英数字のみを含む時の状況
に対して発明を示す。各文字は、非英数字コード化テー
ブル８４を使用してコード化される。データ８１におけ
る第１記号、即ち、アステリスク＊が、非英数字コード
化テーブル８４の記号カラム８５におけるアステリスク
＊に対してチェックされる。これは、ライン８６によっ
て示される。テーブル８４のコード化ソート順序カラム
８３における対応するエントリは、数“１１“である。

それからこの数は、ライン８７によって示された如く、
ソートキー８２の第１位置に置かれる。

同一ステップは、データ８１における第２のアステリス
クに対して適用される。

同様のステップは、記号＠に対して適用される。

データ８１における記号＠は、ライン８８によって示さ
れた如く、テーブル８４の記号カラム８５における記号
＠に対してチェックされる。テーブル８４のコード化ソ
ート順序カラム８３における対応するエントリは、数“
２３“である。それからこの数は、ライン８９によって
示された如く、ソートキー８２の第３位置に置かれる。

最後に、同一ステップは、データ８１の最終記号、即ち
、記号＄、に適用される。データ８１における記号＄は
、ライン９１によって示された如く、テーブル８４の記
号カラム８５における記号＄に対してチェックされる。

テーブル８４のコード化ソート順序カラム８３における
対応するエントリは、数“５“である。それからこの数
は、ライン９２によって示された如く、ソートキー８２
の最終位置に置かれる。

前述から見られた如く、コード化プロセスは、一旦言語
依存データ・ファイル３６がセットアツプされると、比
較的簡単かつ順応性がある。さらに、コード化プロセス
は、現在のソーティング・プロセス又は論理に主なオー
バーヘラドラ導入しない。コード化は、ソーティング・
プロセス中２つの文字列の比較に先行して行われる現ケ
ース変換に単に取って変わる。コード化プロセス３３は
、ソーティングがケース不感応であると考えられるため
に、ケース変換を含むことに注意せよ。

前節において記載されたソーティング方法の利点と詳細
をさらに良く理解するために、３つのコード化テーブル
（５６，６０と８４）の内容と、コード化操作に関連し
た字訳プロセスが、以下により詳細に記載される。

記載された例示の実施態様に対して、異なる文字に対す
るコード化ソート順序値の分布が、以下に示される。

ｌ）値１乃至値６５は、非英数字２）値６６乃至値７５は、数字３）値７６以上は、言語において規定された文字と字訳
外国文字４）値０は、アクセントを持つことができるが、アクセ
ントを持たない文字５）アクセントの値は、次の如くである。

値　　　アクセント　　　　例１　　　鋭音　　　　　　　八２　　　抑音　　　　　　　Ａ３　　　曲折　　　　　　　且４　　　ティルデ　　　　　ａ５　　　ウムラウト　　　　ぽ６　　　りング　　　　　　ａ７　　　セディラ　　　　　Ｃ８ハイフン　　　　　Ｄ９　　　スラッシュ　　　　ｌｌＯ他のアクセント　　ｐ２５５　無アクセント　　　β ６）０、ｌと２は、それぞれ、１対１．１対２、及び２
対２コード化を指示する。

７）無視は、値２５５又は０を与えられる。

スペイン語である言語５に対する英数字コード化テーブ
ル１５６のさらに完全な内容が、付録Ｅに示される。

言語ｌと５に対するアクセント優先度コード化テーブル
１６０のさらに完全な内容が、付録Ｆに示される。

言語ｌと５に対する非英数字コード化テーブル１８４の
さらに完全な内容が、付録Ｇに示される。

英語である言語ｌに対する英数字コード化テーブルの内
容が、付録りに示される。

本発明のソーティング方法の１つの利点は、外国文字を
ソートする能力である。しかし、ソート順序は言語のア
ルファベット内の文字に対してのみ規定されるために、
「字訳」と呼ばれる特別な方法が、外国文字を字訳する
ために使用される。

幾つかの言語に対する外国文字の字訳プロセスの例が、
付録Ｃに示される。字訳プロセスの背後の概念は、非常
に簡単である。言語に出現しない文字は、その言語の使
用者がそれらを探すと予期される場合に照合され、そし
て多くの場合、グループ分けは、幾何学的類似性に基づ
く。

より詳細には、ｌ５Ｏ８８５９／Ｉにおける規定された
総ての文字は、使用者の言語に、属さないとしても、ソ
ート順序を割り当てられる。使用者の言語の外部の文字
は、次の一般規則によりソートされる。

ａ）幾何学的類似性−幾つかの外国文字は、国内文字に
類似し、そしてその結果、それらは、−緒にソートされ
る（例えば、八は、英語におけるＡになる）。

ｂ）音声的類似性−幾つかの外国文字は、（異なって見
えるとしても）国内文字と同−又は類似した音声であり
、そしてそれらは、−緒にソートされる（例えば、ＡＥ
は、スウェーテン語において八になり、βは、英語にお
いてＳＳになる）。

字訳において使用された概念は、言語依存データ・ファ
イルが作成される時、コード化テーブルに組み込まれる
。これは、提案されたソーティング方法が、外国文字の
字訳と共に、ソートキー・コード化に対して技法を含む
ことを意味する。異なる言語間の関係について資料Ｃを
参照せよ。

擬似コード本発明の実現を理解するために役立つ簡単化さレタ擬似
コードが、資料Ａに包含されるので、参照せよ資料Ａの擬似コードは、自明的であるが、完全な開示を
保証するために、流れ図（第１２図、第１３図、第１４
Ａ図と第１４Ｂ図）が、擬似コードによって行われる操
作を記載するために包含されｔこ。

資料Ａの擬似コードの節は、文字Ｃで始まる参照文字に
より、第１２図、第１３図、第１４Ａ図と第１４Ｂ図の
流れ図の対応する節に相互参照される。この文書におい
て使用された用語の解説が資料Ｂに見られるので、参照
せよ。

実施態様本発明の主なる特徴及び態様は以下のとおりである。

１、多言語アルファベットからの文字に基づくワード（
３４）のコンピューターによるアルファベット・ソーテ
ィングを容易にする方法（３３）において、関連文字に
割り当てられた数値を考慮中の言語の文字のソーティン
グ順序を反映する数値に変換する段階（３５）を特徴と
する方法。

２、外国文字を、考慮中の言語によってサポートされた
文字に字訳する段階をさらに含む上記ｌに記載の方法。

３、字訳の段階が、文字の幾何学的類似性に基づく上記
２に記載の方法。

４、字訳の段階が、文字の音声的類似性に基づく上記２
に記載の方法。

５、該文字が、英数字である上記ｌに記載の方法。

６、該文字が、アルファベットである上記１に記載の方
法。

７、関連文字に割り当てられた数値を変換する該段階が
、各英数字に対して、ａ）該文字を、アルファベット・コード化テーブル（１
２０）における対応するエントリ（２０）にマツチング
させる段階と、ｂ）該エントリに対応する該テーブルにおいてコード化
インジケーター（２１）をチェックし、該コード化イン
ジケーターは、コード化プロセスがｌ対！コード化、１
対２コード化、潜−在的２対２コード化、又は無視コー
ド化かを指示する段階と、Ｃ）コード化インジケーター
（２１）がコード化がｌ対ｌであることを指示するなら
ば、該エントリに対応する第１ソート順序エントリ（２
２）における値が、選択値として使用され、そしてコー
ド化プロセスにおける次の文字が、アクセスされる段階
と、ｄ）コード化インジケーター（２１）がコード化が１対
２であることを指示するならば、該エントリに対応する
第１ソート順序エントリ（２２）と第２ソート順序エン
トリ（２３）の両方における値が、選択値として使用さ
れ、そしてコード化プロセスにおける次の文字がアクセ
スされる段階と、ｅ）コード化インジケーター（２１）
が、コード化が潜在的２対２コード化であることを指示
するならば、考慮中の対における第２文字に対応する第
１ソート順序エントリ（２２）が、対における第１文字
に対応する第２ソート順序エントリ（２３）と比較され
、比較が一致になるならば、対における第１文字に対応
する第１ソート順序エントリ（２２）と第３ソート順序
（２４）が、２つの選択値として使用され、そうでなけ
れば、対の第１文字に対する第１ソート順序値（２２）
が選択され、そしてそれから対の第２文字が、コード化
プロセスにおける次の文字として選択される段階を含む
上記１に記載の方法。

８、該英数字が、アルファベットである上記７に記載の
方法。

９、多言語アルファベットからの文字に基づくワードの
コンピューターによるアルファベット・ソーティングを
容易にする方法において、ソートされるワードのマスタ
ー・ファイル（３４）ｔ−ｆｆｌ守する段階と、サポー
トされる各言語に対するデータ・ファイル（３６）を提
供する段階とを特徴とし、該データ・ファイルは、該ア
ルファベット・ソーティングを行う前に、所定の方式で
該マスター・ファイルを修正するために該マスター・フ
ァイルに適用される方法。

１０、言語依存ソートキー（３７）が、該ソーティング
を行う前に構成され、そして該ソーティングが、該ソー
トキーに基づく上記９に記載の方法。

ｌｌ、該マスター・ファイルを所定方式で修正する該段
階が、各英数字に対して、ａ）該文字をアルファベット・コード化テーブル（１２
０）における対応するエントリ（２ｏ）にマツチングさ
せる段階と、ｂ）該エントリに対応する該テーブルにおいてコード化
インジケーター（２１）をチェックし、該コード化イン
ジケーターは、コード化プロセスが１対ｌコード化、１
対２コード化、又は無視コード化かを指示する段階と、Ｃ）コード化インジケーター（２１）がコード化がｌ対
ｌであることを指示するならば、該エントリに対応する
第１ソート順序エントリ（２２）における値が、選択値
として使用され、そしてコード化プロセスにおける次の
文字が、アクセスされる段階と、ｄ）コード化インジケーター（２１）がフード化がｌ対
２であることを指示するならば、該エントリに対応する
第１ソート順序エントリ（２２）と第２ソート順序エン
トリ（２３）の両方における値が、選択値として使用さ
れ、そしてコード化プロセスにおける次の文字がアクセ
スされる段階と、ｅ）コード化インジケーター（２１）
がコード化が無視コード化であることを指示するならば
、値は選択されず、方法は、データが使い尽くされるま
で段階ａ）において継続され、この時点において方法は
停止する段階とを含む上記９に記載の方法。

１２、多言語アルファベットからの文字に基づくワード
のコンピューターによるアルファベット・ソーティング
を容易にする方法において、関連文字に割り当てられた
数値を考慮中の言語の文字のソーティング順序を反映す
る数値に変換する段階を特徴とし、この場合関連文字に
割り当てられた数値を変換する該段階が、各英数字に対
し、ａ）該文字を英数字コード化テーブル（２１０）に
おける対応するエントリ（２０）にマツチングさせる段
階と、ｂ）該エントリに対応する該テーブルにおいてフード化
インジケーター（２１）をチェックし、該コード化イン
ジケーターは、コード化プロセスがＩ対Ｉフード化又は
無視コード化かを指示する段階と、Ｃ）コード化インジケーター（２１）がコード化が１対
ｌであることを指示するならば、該エントリに対応する
第１ソート順序エントリ（２２）における値が、選択値
として使用され、そしてコード化プロセスにおける次の
文字が、アクセスされる段階と、ｄ）コード化インジケーター（２１）がコード化が無視
コード化であることを指示するならば、値は選択されず
、方法は、データが使い尽くされるまで段階ａ）におい
て継続され、この時点において方法は停止する段階とを
含む方法。

１３、該英数字が、アルファベットである上記１２に記
載の方法。

資料Ａは、本発明を理解するために役、：立つ簡単化擬
似コード・リスト。

資料Ｂは、本発明の説明において使用された幾つかの用
語の解説。

資料Ｃは、幾つかの異なる言語の文字間の対応を示すテ
ーブル。

資料りは、言語ｌに対する英数字コード化テーブル。

資料Ｅは、言語５に対する英数字コード化テーブル。

資料Ｆは、言語ｌと５に対するアクセント優先度コード
化テーブル。

資料Ｇは、言語ｌと５に対する非英数字コード化テーブ
ル。

１１ト　　　　　　　　　　　　。

、　　　　巡ｒ−ｍ＝、　　　、／− ：　　　　　　　　　　　　　三ＣＪ　　　　　　　　　　　　　　　　　　　　　　　
ＣＪ一吹　　　　トＪｌ！＋−怪　　　　　　昂づ　　ａ　　
　ｏ　　　ｏ　　　ｏ　　　ｏ　　　ｏ　　　ｏ　　　
：Ｉ　　：ｌ　　　り　　：：ｊ　　　−ｃ口２０　’
ＯＯＯＯＯＣ：ｌ　）　（１０＞　Ｑ＋Ｘ　＞

【図面の簡単な説明】

第１Ａ図は、１５０８８５９／ｌによってサポートされ
た英数字を処理するだめの本発明のレコード構造を示す
簡単化ブロック図。第１Ｂ図は、本発明の英数字コード化テーブルを示す簡
単化ブロック図。第２Ａ図は、ｌ５Ｏ８８５９／ｌによってサポートされ
たアクセントの優先度を処理するための本発明のレコー
ド構造を示す簡単化ブロック図。第２Ｂ図は、本発明のアクセント・コード化テーブルを
示す簡単化ブロック図。第３Ａ図は、Ｉ　ＳＯ８８５９／１によってサポートさ
れた非英数字を処理するだめの本発明のレコード構造を
示す簡単化ブロック図。第３Ｂ図は、本発明の非英数字コード化テーブルを示す
簡単化ブロック図。第４図は、本発明の全体ソートキー・コード化プロセス
を示す簡単化ブロック図。第５図は、本発明によりコード化されたソートキー・エ
ントリの構成を示す簡単化ブロック図。第６図は、ソート順序をコード化ソフトウェアによって
必要とされたデータ・ファイルに変換するために使用さ
れたオフライン・ユーティリティにより、言語依存デー
タ・ファイルが作成される方法を示す簡単化ブロック図
。第７図は、本発明によりアルファベットの実施例におい
て行われた実際のコード化段階の簡単化表現図。第８図は、本発明により実施例において行われた実際の
アクセント優先度コード化段階の簡単化表現図。第９図は、完全データ・ソートキーの簡単化表現図。第１Ｏ図は、非英数字の実施例において本発明によって
行われた実際のコード化段階の簡単化表現図。第１１図は、ｌ５０８８５９／ｌのラテン・アルファベ
ット＃ｌを示す図。第１２図、第１３図と第１４図は、本発明を理解するた
めに役立つ簡単化流れ図。２１・・・コード化インジケータ２２・・・第１ソート順序エントリ２６・・・アクセント優先光コード化レコード３１・・
・非英数字コード化レコード３４・・・マスター・ファイル３６・・・データ・ファイル３７・・・言語依存ソートキー２１０・・・英数字コード化テーブルｏ　　　　　　　　　　　　　　　８〜玲ｌ

Claims

【特許請求の範囲】１、多言語アルファベットからの文字に基づくワードの
コンピューターによるアルファベット・ソーティングを
容易にする方法において、関連文字に割り当てられた数
値を考慮中の言語の文字のソーティング順序を反映する
数値に変換する段階を特徴とする方法。２、多言語アルファベットからの文字に基づくワードの
コンピューターによるアルファベット・ソーティングを
容易にする方法において、ソートされるワードのマスタ
ー・ファイルを保守する段階と、サポートされる各言語
に対するデータ・ファイルを提供する段階とを特徴とし
、該データ・ファイルは、該アルファベット・ソーティ
ングを行う前に、所定の方式で該マスター・ファイルを
修正するために該マスター・ファイルに適用される方法
。３、多言語アルファベットからの文字に基づくワードの
コンピューターによるアルファベット・ソーティングを
容易にする方法において、関連文字に割り当てられた数
値を考慮中の言語の文字のソーティング順序を反映する
数値に変換する段階を特徴とし、この場合関連文字に割
り当てられた数値を変換する該段階が、各英数字に対し
、ａ）該文字を英数字コード化テーブルにおける対応す
るエントリにマッチングさせる段階と、ｂ）該エントリ
に対応する該テーブルにおいてコード化インジケーター
をチェックし、該コード化インジケーターは、コード化
プロセスが１対１コード化又は無視コード化かを指示す
る段階と、ｃ）コード化インジケーターがコード化が１
対１であることを指示するならば、該エントリに対応す
る第１ソート順序エントリにおける値が、選択値として
使用され、そしてコード化プロセスにおける次の文字が
、アクセスされる段階と、ｄ）コード化インジケーターがコード化が無視コード化
であることを指示するならば、値は選択されず、方法は
、データが使い尽くされるまで段階ａ）において継続さ
れ、この時点において方法は停止する段階とを含む方法
。