JPS63316231A - コンピユーター・ソーテイングを容易にする方法 - Google Patents

コンピユーター・ソーテイングを容易にする方法

Info

Publication number
JPS63316231A
JPS63316231A JP63141870A JP14187088A JPS63316231A JP S63316231 A JPS63316231 A JP S63316231A JP 63141870 A JP63141870 A JP 63141870A JP 14187088 A JP14187088 A JP 14187088A JP S63316231 A JPS63316231 A JP S63316231A
Authority
JP
Japan
Prior art keywords
encoding
character
sorting
characters
letters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63141870A
Other languages
English (en)
Inventor
エデイ・リー
ユージン・クリネク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Northern Telecom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northern Telecom Ltd filed Critical Northern Telecom Ltd
Publication of JPS63316231A publication Critical patent/JPS63316231A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、一般に、コンピューターによるアルファベッ
ト・ソーティングに関し、そしてさらに具体的には、多
言語アルファベットに基づくワードのコンピューターに
よるアルファベット・ソーティングに関する。
発明の背景 現在まで、英数字に対して最も広く使用されたコード標
準は、ASCII(情報交換用米国標準コード)であり
、ANSI(米国規格協会)によって標準化された7ビ
ツト・バイナリ−・コードであった。ASCIIがサポ
ートする文字は英語文字だけであるために、情報処理及
び交換環境におけるその実現は、英語に制限された。そ
の結果、非常に多数のコンピューター・システムは、今
日、英語のみで通信する。
最近、コンピューター産業は、自国語のみに精通した非
技術者との通信を容易にするために、非英語ラテン系言
語をサポートする必要性を認識した。このため、新8ビ
ット多言語文字セットが、1986年にl5O(国際標
準化機構)によって規定された。このセットは、すでに
、産業と多数の国内標準化機構から広い支持を獲得した
。文字セットの名前は、ラテン・アルファベット#lで
あり、そしてISO標準において、l5O8859/l
として文書化された。それは、世界の45国家において
使用される14の西欧及び西半球の言語をサポートする
ISO標準l5O8859/1によってサポートされた
言語と文字のセント−「情報処理−8ビツト単一バイト
・コード化グラフィック文字セット−パートlニラテン
・アルファベット#1」は、北アメリカ、西欧と西半球
において使用される言語の殆どを含むと考えられる。そ
れらが、以下にリストされる。
アノマーク語、オランダ語、英語、7工ロー語、フィン
ランド語、フランス語、ドイツ語、アイスランド語、ア
イルランド語、イタリア語、ノルウェー語、ポルトガル
語、スペイン語、スウェーデン語 これらの言語は、少なくとも次の国で使用され・ると考
えられる。
アルゼンチン、フィンランド、パナマ、オーストラリア
、フランス、パラグアイ、オーストリア、ドイツ、ペル
ー、ベルギー、グアテマラ、ポルトガル、ベリーズ、ガ
イアナ、エルサルバドル、ポリビア、ホンデュラス、ス
ペイン、ブラジル、アイスランド、スリナム、カナダ、
アイルランド、スウェーデン、チリ、イタリア、スイス
、コロンビア、リヒテンシュタイン、オランダ、コスタ
リカ、ルクセンブルク、イギリス、キューバ、メキシコ
、アメリカ合衆国、テンマーク、ニューシーラント、ウ
ルグアイ、エクアドル、ニカラグア、へ坏スエラ、フェ
ロ−諸島、ノルウェー今、ASCII文字セットに戻る
と、ソーティングに関して英語により具現される主な利
点は、英語のアルファベットにおける文字のアルファベ
ット順序が、ASCIIセットにおける内部数値照合順
序に対応するということである。この特別な特徴は、英
語文字列のソーティングを比較的簡単、そして多くの場
合に効率的にする。
例えば、2つの文字をソートするために、次の操作が行
われる。
l)両文字のケースを同じものに変換せよ。(即ち、文
字は、ケースなしになる) 2)両文字のコード(順序数)の直接比較を使用して、
相対ソート順序を決定せよ。その順序数がより小さい文
字が、(昇順ソーティングにおいて)最初に照合される
ASCII文字セットに基づいたソーティング方法の幾
つかの制限は、次項を含む。
1)総てではないとしても、殆どの今までに出版された
ソーティング・アルゴリズムは、基礎の文字セットが、
7ビツトASCIIセント(又は少数の場合にEBCD
ICセット)であり、外国文字をサポートシない。その
結果、これらのアルゴリズムは、多くの非英語ラテン系
言語を適正にソートすることができない。
2)英語と他の言語に対する現存のソーティング方法は
、外国文字が含まれる時、適正にソーティング処理しな
い。これは、コンピューター・システムが、それらの言
語における文字のみを含む国内文字セットを使用するな
らば、決して発生しない。しかし、ソーティングにおい
て外国文字を取り扱う問題は、8ビット文字セットがサ
ポートされる時、それらのセットが国内的に使用される
よりもより多くの文字を含むj;めに発生する。
3)現存のアルゴリズムは、同一データベースからの情
報が、異なる言語を使用する使用者によってアクセスさ
れる多言語環境においてソーティングを適正に処理する
ことができない。
多言語ソーティングを適正に処理するために、次の項目
が扱われる。
1)ラテン・アルファベット#l (又は他の多言語セ
ット)における文字の照合シーケンスは、サポートされ
た言語の総てにおける文字のアルファベット順序に対応
しない。これは、ソーティングが、もはや文字セットに
よって課せられた照合シーケンスによらないことを意味
する。
2)多言語環境におけるソーティングの主な思想は、使
用者自身の言語でデータをソートさせることである。記
憶されたデータは、必ずしも使用者の言語である必要は
なく、そして事実、それは、幾つかの異なる言語から構
成される。こうして、使用者の言語により異なるソーテ
ィング順序をサポートすることができるソーティング操
作が、必要とされる。例えば、文字“入“は、スウェー
テン語において#z#の後にソートされるが、ドイツ語
においては”A“と同一にソートされる。
3)幾つかの言語において、異なる内部表現を有する文
字が、同一表現(例えば、スウェーテン語における#V
“と“W“は同一に照合される)を有するかの如く、ソ
ートされる場合がある。これは、ソーティング問題に取
り組むための手段として内部表現を使用することを考え
るならば、確実に困難を生ずる。
4)ソーティング・ソフトウェアは、国内文字の中で外
国文字を正確に照合することができなければならない。
この種類の字訳は、明らかに言語による。
多言語文字セットがサポートされる時の問題についてよ
り良い概念を与えるために、4つの例示の言語のソート
順序が、以下に概略を示される。
言語1は、英語であり、言語2は、スウェーテン語であ
り、言語3は、ドイツ語であり、そして言語4は、フラ
ンス語である。同一アルファベット順序を有する文字は
、括弧で囲まれる。優先規則は、括弧で囲まれた文字に
適用され、そしてアクセントでのみ異なることに注意せ
よ。
l)言語l: 小文字:abcdefghijklmnopqrstu
vwxyz 大文字: ABCDEFGHI J KLMNOPQR
5TUVWXYZ 2)言語2: 小文字:abcd (e61  fghi jklmn
pqrstu  (vw)  x  1yLII  Z
al d大文字: ABCD (E!1ml FGHI
 J KLMNOPQRSTU (VW)X (YtJ
) ZAXO3)言語3: 小文字:  (ah) bcdefghijklmn 
(。
6]  pqrsQt  (uu)  vwxyz大文
字: (A入) BCDEFGHI JKLMN (0
0)  PQRSβT  (Uυ)vwxyz4)言語
4: 小文字:  (aA@) b (c+;)d (e6A
eM)fgh  (iTY)  jklmn  (o5
)  pqrst(uQQLI)  vwxyz 大文字:  (AAA) B (ccl D (E8B
EE)FGH(I  I T)  JKLMN  (○
O)  PQR3T(ULIOIJ)  VWXYZ 発明の要約 ■508859/1において規定された文字セットは、
化アメリカと西欧の両方においてコンピューター産業か
ら広い支持を受けた。本発明の新ソ−ティング方法は、
上記の文字セット標準に基づいたコンピューター・シス
テムに組み込まれる。
また、方法は、他の8ビツト1バイト・コード化文字セ
ット標準を使用するシステムに僅かの修正で適用される
本発明のソーティング方法は、前記の14の言語の任意
のものをサポートするために、同一アルゴリズム(ソフ
トウェア)を許容する。主な理由は、本発明は、150
8859/Iにおいて規定された総ての文字に対するソ
ート順序をコード化するために、標準コード化機構を使
用することである。このコード化機構は、文字セットの
内部照合表現へのソーティングの依存性を除去する。
言語依存ソート順序をデータ・ファイルとして記憶する
ことにより、ソーティング・ソフトウェアは、使用者の
言語に影響されず、そしてこのため高度に移植性があり
、そしてソフトウェアの唯一のセットが保守されなけれ
ばならないために、費用効果を有する。サポートされる
言語数は、利用されるデータ・ファイル数に正比例する
。これは、新言語がサポートされる時、ソフトウェア変
更が必要とされないことを意味する。代わりに、新デー
タ・ファイルが、規定されかつ設置されなければならな
い。
外国文字のソーティングをサポートするために、「字訳
」が使用され、使用者が探すことを最も予期されI;外
国文字がソートされることを保証する。
これは、幾何学的類似性と音声規則の両方を含む。
本発明のソーティング方法は、次の機能をサポートする
■)言語に出現しない文字は、その言語の使用者がそれ
らを探すことを予期される場合にソートされる。
2)総ての場合に、総ての句読点とブランクを除く非英
数字は、それらが数字とアルファベットの中に出現する
ならば無視される(例えば、Ada/Bobby  C
o、は、AdaBobbyCo、としてソートされる)
。名前が句読点及び/又は非英数字を含むならば、それ
らの文字は、保存される(例えば、***、[*] 、
/*/、等)。この場合、これらの非英数字は、数字と
文字の前に順序付けられる。
3)ソーティング操作は、幾つかの文字に対、し1対2
置換をサポートする。例えば、言語3の′B′は、言語
lにおける#SS#である如く、ソートされる。
4)ソーティング操作は、幾つかの文字に対し2対l置
換をサポートする。例えば、スペイン語において、文字
対/ ch’と′ 11′は、単一文字である如くソー
トされ、そしてそれぞれ、′c2′と/d/の間、及び
′ !2′と′m′の間にソートされる。
5)ソーティング操作は、アクセント優先度をサポート
する。これは、比較される文字列における文字の総てが
、アクセントを除いて等しい時、アクセント/非アクセ
ント文字が、異なる順序を与えられることを意味する(
例えば、”Ellen“は、”B11en“の前に照合
される)。例えば、英語において、′ a′母音(アク
セント付き又は無し)は、優先度を除いて等しく取り扱
われる。それらの優先度順序は、AAAAAXAである
。アクセント間の優先度は、異なる言語で変わることに
注意せよ。
6)非英数字(句読点と記号)の間のソート順序は、言
語依存であることを予期されない。このため、ソーティ
ングの言語依存性は、文字とアクセントによって決定さ
れる。
本発明は、使用される文字セットによって課せられた内
部照合シーケンスを使用することとは別に、ソーティン
グ順序を記号化する方法に向けられ、ソーティング順序
を規定するために、幾何学的又は音声的類似性により「
外国」文字を字訳する段階を含む。
言い換えれば、本発明は、多言語アルファベントからの
文字に基づくワードのコンピューターによるアルファベ
ット・ソーティングを容易にする方法において、関連文
字に割り当てられた数値を考慮中の言語の文字のソーテ
ィング順序を反峡する数値に変換する段階を特徴とする
方法である。
さらに言い換えれば、本発明は、多言語アルファベット
からの文字に基づくワードのコンピューターによるアル
シアベット・ソーティングを容易にする方法において、
ソートされるワードのマスター・ファイルを保守する段
階と、サポートされる各言語に対するデータ・ファイル
を提供する段階とを特徴とし、データ・ファイルは、ア
ルファベット・ソーティングを行う前に、所定の方式で
マスター・ファイルを修正するためにマスター・ファイ
ルに適用される方法である。
実施例 発明は、今、添付の図面を参照してより詳細に記載され
る。この場合幾つかの図面の各々における同様の部分は
、同一参照番号によって識別される。
ASCIIのソーティング・シーケンスとは異なり、l
5O8859/1文字のソーティング・シーケンスは、
本発明によりサポートされた14の言語のソート順序の
いづれにも対応しない。本発明により、使用者の言語に
基づく言語依存ソートキーは、標準ソーティング・パッ
ケージが使用される前に形成される。
本発明は、言語依存ソーティングを言語独立ソフトウェ
アによって処理されることを可能にする。
これは7、異なる言語がサポートされる時、ソーティン
グをサポートするために、ソフトウェアの同一セットが
移植可能であることを意味する。言語依存ソート順序は
、実行時にデータ・ファイルからロードされる。ソート
順序は、コード化ソフトウェア(付録A)によって使用
される3つのコード化テーブル(それぞれ第1B図、第
2B図と第3B図のテーブル120.126と131)
に対してデータを作成するユーティリティ・プログラム
によって作成される。
サポートされる各言語に関連した2つのコード化テーブ
ル(第1B図の英数字コード化テーブル120と第2B
図のアクセント優先度コード化テーブル126)がある
が、第3のテーブル(第3B図の非英数字コード化テー
ブル131)は、(「発明の背景」の節においてリスト
された如く)サポートされる総ての言語に共通である。
各テーブルは、256エントリを有し、その結果l5O
8859/1文字セットによってサポートされた総ての
文字が、表現される。
英数字コード化レコード20(第1図)は、数字(数値
文字)と文字(アルファベット)をコード化するために
使用される。各文字は、4バイトの情報を必要とする。
バイト21は、コード化が、1対1.1対2.2対2、
又は無視であるか、指示するために使用される。#0#
は、l対11“l“はl対2、′2“は2対2、そして
#255“は無視を指示する。
コード化インジケーター21が#0“ (即ち、l対l
)であるならば、第1コード化ソート順序バイト22の
みが、文字エントリのコード化ソート順序を記憶するた
めに使用され、第2コード化ソート順序バイト23と次
最大ソート順序バイト24は、使用されない。
コード化インジケーター21が“1“ (即ち、1対2
)であるならば、第1コード化ソート順序バイト22と
第2コード化ソート順序バイト23が、文字エントリの
2つの対応するコード化ソート順序を記憶するために両
方使用され、そして次最大ソート順序バイト24は使用
されない。 コード化インジケーター21が2“ (即
ち、2対2)であるならば、3つのバイトの総て(第1
コード化ソート順序22、第2コード化ソート順序23
、と次最大ソート順序24)が、コード化情報を記憶す
るために使用される。第1コード化ソート順序22は、
文字エントリのコード化ソート順序を記憶するために使
用される(例えば、第7図の文字“C′の値78)。第
2コード化ソート順序23は、対の第2文字のコード化
ソート順序を記憶するために使用される(例えば、2文
字の対“CH“における文字#H#に対する値83)。
次最大ソート順序24は、その言語において規定された
最大のソート順序のコード化ソート順序を記憶するため
に使用される(例えば、第7図の例における102)。
コード化インジケーター・バイト21は、l対lと1対
2の両方の場合に対して正しい応答を提供するが、2対
2の場合において不正確な応答を提供する。これは、次
の入力文字のコード化ソート順序が、バイト23に記憶
された2文字の対における第2文字のコード化ソート順
序に一致するか否かを決定するために、余分なチェック
が必要とされるために、発生する。その結果、コード化
インジケーター21は、潜在的に2文字対の接頭辞であ
る文字に対する2対2状況(即ち、”2″)に対してイ
ネーブルされる(例えば、スペイン語の“C“と#L“
)。2文字対の第2文字に対する実コード化ソート順序
は、その言語に対する最高位コード化ソート順序値を表
現するバイト24に記憶される(例えば、スペイン語に
対して、それは、文字′Z“の値の後のコード化値を意
味する)。通常の如く、文字エントリに対するコード化
ソー]・順序は、なおバイト22に記憶される。
数字と文字に対するコード化ソート順序の実際値は、非
英数字に対して規定されたものよりも大きくなけれなば
らない。コード化インジケーター・バイト21が無視(
即ち、255)であるならば、文字のコード化値は、無
視される。これは、コード値16進00乃至16進IF
、16進80乃至16進9F、非英数字16進21乃至
16進2F、16進3A乃至3F、16進40.16進
5B乃至5F、16進60.16進7B乃至7F、及び
16進A1乃至16進BFで規定された制御文字に適用
される。
アクセント優先度コード化レコード26(第2A図)は
、文字優先度をサポートするために必要とされるアクセ
ントをコード化するために使用される。アクセントされ
る文字(例えば、′A“と#E“)に対し、これらの文
字はl対1文字コード化のみを必要とし、そしてこれは
アクセント・コード化にも適用されるために、第1コー
ド化アクセント値27は、ゼロであり、そして第2コー
ド化アクセント値28は、未使用である。アクセント・
コード化値(27と28)は、0がら始まり、そして利
用されるアクセント数に基づいて上昇する。コード化ア
クセント値27と28は、データがアクセントを除いて
同一である時、ソーティングに関して重要となることに
注意せよ。
1対2コード化を必要とする文字に対し、値27と28
は、字訳される2つの文字のコード化アクセント値を記
憶するために使用される。2文字対の接頭辞(例えば、
スペイン語の“C′と“L″)は、他の文字と同じ方法
でコード化され、そして特別なアクセント・コード化値
は必要とされない(即ち、それらは、他の1対1コード
化文字と同じ方法でコード化される)。2対2コード化
を必要とする文字対のアクセント値は、字訳された文字
(即ち、最大ソート順序)によるが、アクセントを具現
せず、そしてこのためコード化されたアクセント値は規
定されない。
非英数字コード化レコード31(第3A図)は、数字と
文字を除いて、総ての他の印字可能文字をコード化する
ために使用される。それらの文字は、1以上のコード化
値を割り当てられ、そしてコード化ソート順序32に記
憶される。この項類における最終コード比値プラス1は
、英数字に対して使用されたコード化ソート順序の開始
値である。
全体ソートキー・コード化プロセス33が、第4図に示
される。データ34(即ち、ワード)は、コード化テー
ブルとして言語依存データ・ファイル36を使用するソ
フトウェア35によってコード化された後、言語依存ソ
ートキー37に変換される。それからソートキー37は
、実ソーティング操作中比較のために使用される。
第5図は、コード化ソートキー37の構造ヲより詳細に
示す。コード化ソートキー37は、コード化アクセント
優先度値40の存在により、もはやオリジナル・データ
ではない。コード化ソートキー37は、コード化ソート
順序39とコード化アクセント値40から成る。(オリ
ジナル・データの長さを超える)コード化ソートキー3
7の長さの増大は、データにおける総ての文字がアクセ
ント優先度値を有するならば、オリジナル・データのサ
イズのせいぜい半分である。これは、コード化アクセン
If先度値40が、値が0乃至10の範囲を取るために
、1バイトの2つの値にパックされるt;めに発生する
。こうして各個は、4ビットに適合する。コード化アク
センt・優先度値40は、アクセントされる文字(例え
ば、′A#又は“E“)又は実際にアクセントされた文
字(例えば、#Asと“E“)に対して、コード化ソー
トキー37にお憶されることに注意せよ。これは、数字
、アクセントされない文字(例えば、#X′と#Z″)
、及び非英数字のみを含むデータに対し、生データの長
さを超えるコード化ソートキー37のサイズにおける増
分はないことを意味する。
第6図は、ソート順序定義ユーティリティ41を示す簡
単化ブロック図である。全体ソートキー・コード化プロ
セス33(第4図)によって必要とされる言語依存デー
タ・ファイル36は、オフライン・データ・ファイル構
成プロセス41(第6図)によって作成され、このプロ
セスは、各特定言語のソート順序情報42を必要とし、
そして言語依存データ・ファイル36(即ち、英数字コ
ード化テーブル120、第1B図、アクセント優先度コ
ード化テーブル126、第2B図、及び非英数字コード
化テーブル131.第3B図)と呼ばれる3つのコード
化テーブルを構築するために、ソート順序定義ユーティ
リティ43を使用する。
データ・ファイル36の使用は、ソーティング・ソフト
ウェアをソート順序の言語依存性から独立させ、そして
ソーティング・ソ7′F−ウェアの1セツトの使用を許
容する。
第7図と第8図は、任意のサンプル・ワード又は46で
示されたデータ“BCHAE、”の実コード化の図示表
現である。このワードの英数字部分のコード化バージョ
ンは、英数字ソートキー47として第7図にコード化形
式で示される。ワード46のアクセント属性部分のコー
ド化バージョンは、アクセント・ソートキー48として
第8図にコード化形式で示される。データ・ソートキー
49と呼ばれるワード46の完全コード化バージョンは
、第9図に示され、そしてアクセント・ソートキー48
が続く英数字ソートキー47から成る。
第7図は、英数字コード化プロセスにおいて発生する4
つの可能な作用、即ち、1対1,2対2、。
1対2、及び無視、を示す。与えられた例は、言語5(
スペイン語)の英数字コード化テーブルに基づき、そし
て例示目的のみのために与えられる。
コード化プロセスにおける第1段階は、ワード46にお
ける第1文字、即ち、対応するコード化インジケーター
51に対して文字#B′、をチェックすることである。
これは、ワード46における文字“B′から英数字コー
ド化テーブル56の文字カラム50におけるBエントリ
に延びたライン61によって第7図に示され、コード化
インジケーター・カラム51における対応するエントリ
として、コード化がl対lであることを指示する値“0
“を有する。こうして、対応するコード化ソート順序(
即ち、77′)は、第1コード化ソート順序カラム52
からフェッチされ、そしてライン62によって示された
如く、英数字ソートキー47の第1位置に入れられる。
文字#B′は、アクセント優先度が記憶されなければな
らないか調べるために、再びチェックされる(第8図参
照)。第8図において、ワード46における文字″B″
からアクセント優先度コード化テーブル60の文字カラ
ム57におけるBエントリに延びたライン63によって
示された如く、第1コード化アクセント値カラム58に
おける対応するエントリとして値“255#を存する。
カラム58における値”255#は、この文字がアクセ
ントを含まず、そしてこのため値は、アクセント・ソー
トキー48に記憶される必要がないことを指示する。
英数字コード化テーブル56(第7図)の文字カラム5
0に対する同一チェック段階は、ワード46における次
の文字に対して、即ち、ライン64により示された如く
文字“C“に対して繰り返される。コード化インジケー
ター・カラム51における対応するエントリは、2対2
コード化が必要とされることを指示する値#2“である
。これが実際の場合であることを決定するために、ワー
ド46における次の文字、即ち、文字″H″がコード化
され、ワード46における文字“H“から文字カラム5
0におけるHエントリに延びたライン66によって示さ
れ、第1コード化ソート順序カラム52における対応す
るエントリとして値“83″を有する。それからこの値
は、第2コード化ソート順序カラム53に記憶されたも
のに対して比較され、(値“83“を有する)文字“C
“に対応される。値は、同一である(両方共、値“83
#を有する)ために、これは、文字対が存在する(即ち
、文字″CH”は、1単位として取り扱われなければな
らず、そして2対2コード化が必要とされる2つの分離
した文字として取り扱われない)ことを示す。文字“C
#に対応する第1コード化ソート順序カラム52からの
値“78“は、ライン67によって示された如く、英数
字ソートキー47の第2位置に入れられる。文字″C″
に対応する次最大ソート順序カラム54(即ち、値#1
02“)は、ライン68によって示された如く、ソート
キー47の第3位置に入れられる。アクセントは、次最
大ソート順序カラム54に対して規定されないために、
チェックはアクセント優先度に対して必要とされず、そ
して文字対の第1文字(即ち、C)に対するアクセント
優先度は、それが決して使用されないt;めに無視され
る(この情報は、この事例において値2を有するコード
化インジケーター51から抽出されることに注意せよ)
入力データにおけるsC#の後の文字のコード化ソート
順序が、文字“C“エントリに対して第2コード化ソー
ト順序カラム53のエントリによって示された如く#8
3″でないならば、文字“C“の第1コード化ソート順
序(即ち、カラム52における“78“)のみが、ソー
トキー47の第2位置に入れられる。
次に、文字“AE#が、ワード46における文字“AE
“とコード化テーブル56のカラム50におけるエント
リ“AE”の間のライン69によって示された如く、コ
ード化される。文字″AE“に対応するコード化インジ
ケーター・カラム51におけるエントリは、値“l“を
有する。これは、文字が1対2コード化を必要とするこ
とを示す。
その結果、カラム52と53(即ち、それぞれ値“76
″と“80“)からの値(コード化ソート順序)は、ラ
イン71と72によって示された如く、英数字ソートキ
ー47の次の2つの位置に置かれる。
第8図に示された如く、文字“AEsは、ライン73に
よって示された如く、アクセント優先度コード化テーブ
ル60に対してチェックされる。
この作用は、文字″AE″が、2つのアクセント属性を
有することを顕示し、そしてこのため各々が#0#であ
る2つのコード化アクセント値がフェッチされ、そして
ライン74と76によって示された如く、アクセント・
ソートキー48に入れられる。
ワード46における最終文字は、ピリオド(6)である
。それは、ライン77によって示された如く、コード化
テーブル(第7図)に対してチェックされる。文字“、
′に対するカラム51のエントリは、値“255“であ
り、コード化値は必要とされず、このためこれは無視状
況であることを指示する。このためこの値は、英数字ソ
ートキー47に追加されない。同じことは、第8図にお
いて、ライン78によって示された如く、アクセント優
先度がチェックされる時発生する。
第9図は、オリジナル・ワード46の完全データ・ソー
トキー49を示す。データ・ソートキー49は、図に示
された如く、アクセント・ソートキー48(2バイトを
1バイトにパックする前が示される)が続いた英数字ソ
ートキー47を含む。
第1O図は、データ81が非英数字のみを含む時の状況
に対して発明を示す。各文字は、非英数字コード化テー
ブル84を使用してコード化される。データ81におけ
る第1記号、即ち、アステリスク*が、非英数字コード
化テーブル84の記号カラム85におけるアステリスク
*に対してチェックされる。これは、ライン86によっ
て示される。テーブル84のコード化ソート順序カラム
83における対応するエントリは、数“11“である。
それからこの数は、ライン87によって示された如く、
ソートキー82の第1位置に置かれる。
同一ステップは、データ81における第2のアステリス
クに対して適用される。
同様のステップは、記号@に対して適用される。
データ81における記号@は、ライン88によって示さ
れた如く、テーブル84の記号カラム85における記号
@に対してチェックされる。テーブル84のコード化ソ
ート順序カラム83における対応するエントリは、数“
23“である。それからこの数は、ライン89によって
示された如く、ソートキー82の第3位置に置かれる。
最後に、同一ステップは、データ81の最終記号、即ち
、記号$、に適用される。データ81における記号$は
、ライン91によって示された如く、テーブル84の記
号カラム85における記号$に対してチェックされる。
テーブル84のコード化ソート順序カラム83における
対応するエントリは、数“5“である。それからこの数
は、ライン92によって示された如く、ソートキー82
の最終位置に置かれる。
前述から見られた如く、コード化プロセスは、一旦言語
依存データ・ファイル36がセットアツプされると、比
較的簡単かつ順応性がある。さらに、コード化プロセス
は、現在のソーティング・プロセス又は論理に主なオー
バーヘラドラ導入しない。コード化は、ソーティング・
プロセス中2つの文字列の比較に先行して行われる現ケ
ース変換に単に取って変わる。コード化プロセス33は
、ソーティングがケース不感応であると考えられるため
に、ケース変換を含むことに注意せよ。
前節において記載されたソーティング方法の利点と詳細
をさらに良く理解するために、3つのコード化テーブル
(56,60と84)の内容と、コード化操作に関連し
た字訳プロセスが、以下により詳細に記載される。
記載された例示の実施態様に対して、異なる文字に対す
るコード化ソート順序値の分布が、以下に示される。
l)値1乃至値65は、非英数字 2)値66乃至値75は、数字 3)値76以上は、言語において規定された文字と字訳
外国文字 4)値0は、アクセントを持つことができるが、アクセ
ントを持たない文字 5)アクセントの値は、次の如くである。
値   アクセント    例 1   鋭音       八 2   抑音       A 3   曲折       且 4   ティルデ     a 5   ウムラウト    ぽ 6   りング      a 7   セディラ     C 8ハイフン     D 9   スラッシュ    l lO他のアクセント  p 255 無アクセント   β 6)0、lと2は、それぞれ、1対1.1対2、及び2
対2コード化を指示する。
7)無視は、値255又は0を与えられる。
スペイン語である言語5に対する英数字コード化テーブ
ル156のさらに完全な内容が、付録Eに示される。
言語lと5に対するアクセント優先度コード化テーブル
160のさらに完全な内容が、付録Fに示される。
言語lと5に対する非英数字コード化テーブル184の
さらに完全な内容が、付録Gに示される。
英語である言語lに対する英数字コード化テーブルの内
容が、付録りに示される。
本発明のソーティング方法の1つの利点は、外国文字を
ソートする能力である。しかし、ソート順序は言語のア
ルファベット内の文字に対してのみ規定されるために、
「字訳」と呼ばれる特別な方法が、外国文字を字訳する
ために使用される。
幾つかの言語に対する外国文字の字訳プロセスの例が、
付録Cに示される。字訳プロセスの背後の概念は、非常
に簡単である。言語に出現しない文字は、その言語の使
用者がそれらを探すと予期される場合に照合され、そし
て多くの場合、グループ分けは、幾何学的類似性に基づ
く。
より詳細には、l5O8859/Iにおける規定された
総ての文字は、使用者の言語に、属さないとしても、ソ
ート順序を割り当てられる。使用者の言語の外部の文字
は、次の一般規則によりソートされる。
a)幾何学的類似性−幾つかの外国文字は、国内文字に
類似し、そしてその結果、それらは、−緒にソートされ
る(例えば、八は、英語におけるAになる)。
b)音声的類似性−幾つかの外国文字は、(異なって見
えるとしても)国内文字と同−又は類似した音声であり
、そしてそれらは、−緒にソートされる(例えば、AE
は、スウェーテン語において八になり、βは、英語にお
いてSSになる)。
字訳において使用された概念は、言語依存データ・ファ
イルが作成される時、コード化テーブルに組み込まれる
。これは、提案されたソーティング方法が、外国文字の
字訳と共に、ソートキー・コード化に対して技法を含む
ことを意味する。異なる言語間の関係について資料Cを
参照せよ。
擬似コード 本発明の実現を理解するために役立つ簡単化さレタ擬似
コードが、資料Aに包含されるので、参照せよ 資料Aの擬似コードは、自明的であるが、完全な開示を
保証するために、流れ図(第12図、第13図、第14
A図と第14B図)が、擬似コードによって行われる操
作を記載するために包含されtこ。
資料Aの擬似コードの節は、文字Cで始まる参照文字に
より、第12図、第13図、第14A図と第14B図の
流れ図の対応する節に相互参照される。この文書におい
て使用された用語の解説が資料Bに見られるので、参照
せよ。
実施態様 本発明の主なる特徴及び態様は以下のとおりである。
1、多言語アルファベットからの文字に基づくワード(
34)のコンピューターによるアルファベット・ソーテ
ィングを容易にする方法(33)において、関連文字に
割り当てられた数値を考慮中の言語の文字のソーティン
グ順序を反映する数値に変換する段階(35)を特徴と
する方法。
2、外国文字を、考慮中の言語によってサポートされた
文字に字訳する段階をさらに含む上記lに記載の方法。
3、字訳の段階が、文字の幾何学的類似性に基づく上記
2に記載の方法。
4、字訳の段階が、文字の音声的類似性に基づく上記2
に記載の方法。
5、該文字が、英数字である上記lに記載の方法。
6、該文字が、アルファベットである上記1に記載の方
法。
7、関連文字に割り当てられた数値を変換する該段階が
、各英数字に対して、 a)該文字を、アルファベット・コード化テーブル(1
20)における対応するエントリ(20)にマツチング
させる段階と、 b)該エントリに対応する該テーブルにおいてコード化
インジケーター(21)をチェックし、該コード化イン
ジケーターは、コード化プロセスがl対!コード化、1
対2コード化、潜−在的2対2コード化、又は無視コー
ド化かを指示する段階と、C)コード化インジケーター
(21)がコード化がl対lであることを指示するなら
ば、該エントリに対応する第1ソート順序エントリ(2
2)における値が、選択値として使用され、そしてコー
ド化プロセスにおける次の文字が、アクセスされる段階
と、 d)コード化インジケーター(21)がコード化が1対
2であることを指示するならば、該エントリに対応する
第1ソート順序エントリ(22)と第2ソート順序エン
トリ(23)の両方における値が、選択値として使用さ
れ、そしてコード化プロセスにおける次の文字がアクセ
スされる段階と、e)コード化インジケーター(21)
が、コード化が潜在的2対2コード化であることを指示
するならば、考慮中の対における第2文字に対応する第
1ソート順序エントリ(22)が、対における第1文字
に対応する第2ソート順序エントリ(23)と比較され
、比較が一致になるならば、対における第1文字に対応
する第1ソート順序エントリ(22)と第3ソート順序
(24)が、2つの選択値として使用され、そうでなけ
れば、対の第1文字に対する第1ソート順序値(22)
が選択され、そしてそれから対の第2文字が、コード化
プロセスにおける次の文字として選択される段階を含む
上記1に記載の方法。
8、該英数字が、アルファベットである上記7に記載の
方法。
9、多言語アルファベットからの文字に基づくワードの
コンピューターによるアルファベット・ソーティングを
容易にする方法において、ソートされるワードのマスタ
ー・ファイル(34)t−ffl守する段階と、サポー
トされる各言語に対するデータ・ファイル(36)を提
供する段階とを特徴とし、該データ・ファイルは、該ア
ルファベット・ソーティングを行う前に、所定の方式で
該マスター・ファイルを修正するために該マスター・フ
ァイルに適用される方法。
10、言語依存ソートキー(37)が、該ソーティング
を行う前に構成され、そして該ソーティングが、該ソー
トキーに基づく上記9に記載の方法。
ll、該マスター・ファイルを所定方式で修正する該段
階が、各英数字に対して、 a)該文字をアルファベット・コード化テーブル(12
0)における対応するエントリ(2o)にマツチングさ
せる段階と、 b)該エントリに対応する該テーブルにおいてコード化
インジケーター(21)をチェックし、該コード化イン
ジケーターは、コード化プロセスが1対lコード化、1
対2コード化、又は無視コード化かを指示する段階と、 C)コード化インジケーター(21)がコード化がl対
lであることを指示するならば、該エントリに対応する
第1ソート順序エントリ(22)における値が、選択値
として使用され、そしてコード化プロセスにおける次の
文字が、アクセスされる段階と、 d)コード化インジケーター(21)がフード化がl対
2であることを指示するならば、該エントリに対応する
第1ソート順序エントリ(22)と第2ソート順序エン
トリ(23)の両方における値が、選択値として使用さ
れ、そしてコード化プロセスにおける次の文字がアクセ
スされる段階と、e)コード化インジケーター(21)
がコード化が無視コード化であることを指示するならば
、値は選択されず、方法は、データが使い尽くされるま
で段階a)において継続され、この時点において方法は
停止する段階とを含む上記9に記載の方法。
12、多言語アルファベットからの文字に基づくワード
のコンピューターによるアルファベット・ソーティング
を容易にする方法において、関連文字に割り当てられた
数値を考慮中の言語の文字のソーティング順序を反映す
る数値に変換する段階を特徴とし、この場合関連文字に
割り当てられた数値を変換する該段階が、各英数字に対
し、a)該文字を英数字コード化テーブル(210)に
おける対応するエントリ(20)にマツチングさせる段
階と、 b)該エントリに対応する該テーブルにおいてフード化
インジケーター(21)をチェックし、該コード化イン
ジケーターは、コード化プロセスがI対Iフード化又は
無視コード化かを指示する段階と、 C)コード化インジケーター(21)がコード化が1対
lであることを指示するならば、該エントリに対応する
第1ソート順序エントリ(22)における値が、選択値
として使用され、そしてコード化プロセスにおける次の
文字が、アクセスされる段階と、 d)コード化インジケーター(21)がコード化が無視
コード化であることを指示するならば、値は選択されず
、方法は、データが使い尽くされるまで段階a)におい
て継続され、この時点において方法は停止する段階とを
含む方法。
13、該英数字が、アルファベットである上記12に記
載の方法。
資料Aは、本発明を理解するために役、:立つ簡単化擬
似コード・リスト。
資料Bは、本発明の説明において使用された幾つかの用
語の解説。
資料Cは、幾つかの異なる言語の文字間の対応を示すテ
ーブル。
資料りは、言語lに対する英数字コード化テーブル。
資料Eは、言語5に対する英数字コード化テーブル。
資料Fは、言語lと5に対するアクセント優先度コード
化テーブル。
資料Gは、言語lと5に対する非英数字コード化テーブ
ル。
11ト            。
、    巡 r−m=、   、/− :             三 CJ                       
CJ一 吹    トJl!+−怪      昂づ  a  
 o   o   o   o   o   o   
:I  :l   り  ::j   −c口20 ’
OOOOOC:l ) (10> Q+X >
【図面の簡単な説明】
第1A図は、1508859/lによってサポートされ
た英数字を処理するだめの本発明のレコード構造を示す
簡単化ブロック図。 第1B図は、本発明の英数字コード化テーブルを示す簡
単化ブロック図。 第2A図は、l5O8859/lによってサポートされ
たアクセントの優先度を処理するための本発明のレコー
ド構造を示す簡単化ブロック図。 第2B図は、本発明のアクセント・コード化テーブルを
示す簡単化ブロック図。 第3A図は、I SO8859/1によってサポートさ
れた非英数字を処理するだめの本発明のレコード構造を
示す簡単化ブロック図。 第3B図は、本発明の非英数字コード化テーブルを示す
簡単化ブロック図。 第4図は、本発明の全体ソートキー・コード化プロセス
を示す簡単化ブロック図。 第5図は、本発明によりコード化されたソートキー・エ
ントリの構成を示す簡単化ブロック図。 第6図は、ソート順序をコード化ソフトウェアによって
必要とされたデータ・ファイルに変換するために使用さ
れたオフライン・ユーティリティにより、言語依存デー
タ・ファイルが作成される方法を示す簡単化ブロック図
。 第7図は、本発明によりアルファベットの実施例におい
て行われた実際のコード化段階の簡単化表現図。 第8図は、本発明により実施例において行われた実際の
アクセント優先度コード化段階の簡単化表現図。 第9図は、完全データ・ソートキーの簡単化表現図。 第1O図は、非英数字の実施例において本発明によって
行われた実際のコード化段階の簡単化表現図。 第11図は、l508859/lのラテン・アルファベ
ット#lを示す図。 第12図、第13図と第14図は、本発明を理解するた
めに役立つ簡単化流れ図。 21・・・コード化インジケータ 22・・・第1ソート順序エントリ 26・・・アクセント優先光コード化レコード31・・
・非英数字コード化レコード 34・・・マスター・ファイル 36・・・データ・ファイル 37・・・言語依存ソートキー 210・・・英数字コード化テーブル o               8 〜 玲l

Claims (1)

  1. 【特許請求の範囲】 1、多言語アルファベットからの文字に基づくワードの
    コンピューターによるアルファベット・ソーティングを
    容易にする方法において、関連文字に割り当てられた数
    値を考慮中の言語の文字のソーティング順序を反映する
    数値に変換する段階を特徴とする方法。 2、多言語アルファベットからの文字に基づくワードの
    コンピューターによるアルファベット・ソーティングを
    容易にする方法において、ソートされるワードのマスタ
    ー・ファイルを保守する段階と、サポートされる各言語
    に対するデータ・ファイルを提供する段階とを特徴とし
    、該データ・ファイルは、該アルファベット・ソーティ
    ングを行う前に、所定の方式で該マスター・ファイルを
    修正するために該マスター・ファイルに適用される方法
    。 3、多言語アルファベットからの文字に基づくワードの
    コンピューターによるアルファベット・ソーティングを
    容易にする方法において、関連文字に割り当てられた数
    値を考慮中の言語の文字のソーティング順序を反映する
    数値に変換する段階を特徴とし、この場合関連文字に割
    り当てられた数値を変換する該段階が、各英数字に対し
    、a)該文字を英数字コード化テーブルにおける対応す
    るエントリにマッチングさせる段階と、b)該エントリ
    に対応する該テーブルにおいてコード化インジケーター
    をチェックし、該コード化インジケーターは、コード化
    プロセスが1対1コード化又は無視コード化かを指示す
    る段階と、c)コード化インジケーターがコード化が1
    対1であることを指示するならば、該エントリに対応す
    る第1ソート順序エントリにおける値が、選択値として
    使用され、そしてコード化プロセスにおける次の文字が
    、アクセスされる段階と、 d)コード化インジケーターがコード化が無視コード化
    であることを指示するならば、値は選択されず、方法は
    、データが使い尽くされるまで段階a)において継続さ
    れ、この時点において方法は停止する段階とを含む方法
JP63141870A 1987-06-11 1988-06-10 コンピユーター・ソーテイングを容易にする方法 Pending JPS63316231A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA000539491A CA1265623A (en) 1987-06-11 1987-06-11 Method of facilitating computer sorting
CA539491 1987-06-11

Publications (1)

Publication Number Publication Date
JPS63316231A true JPS63316231A (ja) 1988-12-23

Family

ID=4135874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63141870A Pending JPS63316231A (ja) 1987-06-11 1988-06-10 コンピユーター・ソーテイングを容易にする方法

Country Status (5)

Country Link
US (1) US4939639A (ja)
EP (1) EP0294950B1 (ja)
JP (1) JPS63316231A (ja)
CA (1) CA1265623A (ja)
DE (1) DE3852672T2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03201167A (ja) * 1989-12-27 1991-09-03 Internatl Business Mach Corp <Ibm> データ処理システムにおけるサーチ方法
JPH03201127A (ja) * 1989-12-27 1991-09-03 Internatl Business Mach Corp <Ibm> データ処理システムにおける国語支援データ処理システム内の文化的に予測可能なキー分類を実行する方法
JPH03201128A (ja) * 1989-12-27 1991-09-03 Internatl Business Mach Corp <Ibm> データ処理システムにおける順位値付与方法
JP2005517221A (ja) * 2001-05-31 2005-06-09 オラクル・インターナショナル・コーポレイション 多数の文字を扱うための効率的な照合要素構造

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070744B2 (ja) * 1987-04-10 2000-07-31 株式会社日立製作所 ベクトル処理装置
CA1280215C (en) * 1987-09-28 1991-02-12 Eddy Lee Multilingual ordered data retrieval system
US5060146A (en) * 1988-04-08 1991-10-22 International Business Machines Corporation Multilingual indexing system for alphabetical lysorting by comparing character weights and ascii codes
US5225833A (en) * 1989-10-20 1993-07-06 Digital Equipment Corporation Character encoding
JPH0512287A (ja) * 1991-07-09 1993-01-22 Canon Inc 文書処理装置
US5563997A (en) * 1992-11-16 1996-10-08 Canon Kabushiki Kaisha Method and apparatus for sorting records into a list box in a graphic user interface
US5440482A (en) * 1993-03-25 1995-08-08 Taligent, Inc. Forward and reverse Boyer-Moore string searching of multilingual text having a defined collation order
US5485373A (en) * 1993-03-25 1996-01-16 Taligent, Inc. Language-sensitive text searching system with modified Boyer-Moore process
US5675818A (en) * 1995-06-12 1997-10-07 Borland International, Inc. System and methods for improved sorting with national language support
US5926815A (en) * 1995-07-27 1999-07-20 James, Iii; J. Colin Binary sort access method and apparatus
US5778213A (en) * 1996-07-12 1998-07-07 Microsoft Corporation Multilingual storage and retrieval
US6243701B1 (en) * 1998-06-29 2001-06-05 Microsoft Corporation System and method for sorting character strings containing accented and unaccented characters
US6952823B2 (en) * 1998-09-01 2005-10-04 Pkware, Inc. Software patch generator using compression techniques
US6289509B1 (en) * 1998-09-01 2001-09-11 Pkware, Inc. Software patch generator
US6318156B1 (en) * 1999-10-28 2001-11-20 Micro Motion, Inc. Multiphase flow measurement system
US20060143253A1 (en) * 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060143199A1 (en) * 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060143237A1 (en) * 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060143249A1 (en) * 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060173847A1 (en) * 2000-03-09 2006-08-03 Pkware, Inc. System and method for manipulating and managing computer archive files
US6879988B2 (en) 2000-03-09 2005-04-12 Pkware System and method for manipulating and managing computer archive files
US8230482B2 (en) 2000-03-09 2012-07-24 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060173848A1 (en) * 2000-03-09 2006-08-03 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060143180A1 (en) * 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US7844579B2 (en) * 2000-03-09 2010-11-30 Pkware, Inc. System and method for manipulating and managing computer archive files
US20060155788A1 (en) * 2000-03-09 2006-07-13 Pkware, Inc. System and method for manipulating and managing computer archive files
US8959582B2 (en) 2000-03-09 2015-02-17 Pkware, Inc. System and method for manipulating and managing computer archive files
US20050015608A1 (en) * 2003-07-16 2005-01-20 Pkware, Inc. Method for strongly encrypting .ZIP files
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7130470B1 (en) * 2002-03-15 2006-10-31 Oracle International Corporation System and method of context-based sorting of character strings for use in data base applications
CA2390849A1 (en) * 2002-06-18 2003-12-18 Ibm Canada Limited-Ibm Canada Limitee System and method for sorting data
GB0228942D0 (en) * 2002-12-12 2003-01-15 Ibm Linguistic dictionary and method for production thereof
DE102004012265B4 (de) * 2004-03-12 2006-05-11 S. Siedle & Söhne Telefon- und Telegrafenwerke OHG Verfahren zum Betreiben einer Türanlage sowie Türanlage
US7899665B2 (en) * 2004-08-20 2011-03-01 International Business Machines Corporation Methods and systems for detecting the alphabetic order used by different languages
US20060101015A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Automated collation creation
US20060100857A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Custom collation tool
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070239738A1 (en) * 2006-03-29 2007-10-11 Harman Robert M Method and apparatus for sorting character strings having complex characters
AU2006202063B2 (en) * 2006-05-16 2009-03-12 Canon Kabushiki Kaisha Method for navigating large image sets using sort orders
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8825675B2 (en) 2010-03-05 2014-09-02 Starcounter Ab Systems and methods for representing text
WO2011107164A1 (en) * 2010-03-05 2011-09-09 Starcounter Ab Systems and methods for representing text
US20120158337A1 (en) * 2010-12-17 2012-06-21 Anil Singh Method and Integrated System for Improving Data and Service Quality with Respect to Measurement and Analysis of Reservoir Fluid Samples
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
EP2535802B1 (en) 2011-06-16 2016-08-10 GN Netcom A/S Computer-implemented method of arranging text items in a predefined order
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10296612B2 (en) 2015-09-29 2019-05-21 At&T Mobility Ii Llc Sorting system
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10416959B2 (en) 2015-10-27 2019-09-17 At&T Mobility Ii Llc Analog sorter
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10261832B2 (en) 2015-12-02 2019-04-16 At&T Mobility Ii Llc Sorting apparatus
US10496370B2 (en) 2015-12-02 2019-12-03 At&T Intellectual Property I, L.P. Adaptive alphanumeric sorting apparatus
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3611316A (en) * 1969-12-24 1971-10-05 Ibm Indirect indexed searching and sorting
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4295206A (en) * 1979-06-06 1981-10-13 Ncr Canada Ltd.-Ncr Canada Ltee Document sorting method
US4425617A (en) * 1981-03-23 1984-01-10 Rca Corporation High-speed data sorter
JPS6028027B2 (ja) * 1981-03-31 1985-07-02 富士通株式会社 韓国語ソ−ト制御方式
US4632578A (en) * 1981-04-03 1986-12-30 Digitext, Inc. Computerized printing system
US4498143A (en) * 1981-11-12 1985-02-05 Stanislaus Strzelecki Method of and apparatus for forming ideograms
JPS6162163A (ja) * 1984-09-03 1986-03-31 Toshiba Corp 日本語ワ−ドプロセツサ装置
US4758979A (en) * 1985-06-03 1988-07-19 Chiao Yueh Lin Method and means for automatically coding and inputting Chinese characters in digital computers
US4731735A (en) * 1985-09-30 1988-03-15 International Business Machines Corporation Multilingual processing for screen image build and command decode in a word processor, with full command, message and help support
US4809158A (en) * 1985-10-23 1989-02-28 Mccauley Peter B Sorting method and apparatus
GB2194084A (en) * 1986-06-27 1988-02-24 Sharp Kk Translation system
US4873625A (en) * 1987-11-17 1989-10-10 International Business Machines Corporation Method and apparatus for extending collation functions of a sorting program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03201167A (ja) * 1989-12-27 1991-09-03 Internatl Business Mach Corp <Ibm> データ処理システムにおけるサーチ方法
JPH03201127A (ja) * 1989-12-27 1991-09-03 Internatl Business Mach Corp <Ibm> データ処理システムにおける国語支援データ処理システム内の文化的に予測可能なキー分類を実行する方法
JPH03201128A (ja) * 1989-12-27 1991-09-03 Internatl Business Mach Corp <Ibm> データ処理システムにおける順位値付与方法
JP2005517221A (ja) * 2001-05-31 2005-06-09 オラクル・インターナショナル・コーポレイション 多数の文字を扱うための効率的な照合要素構造
JP4685348B2 (ja) * 2001-05-31 2011-05-18 オラクル・インターナショナル・コーポレイション 多数の文字を扱うための効率的な照合要素構造

Also Published As

Publication number Publication date
EP0294950A3 (en) 1991-01-02
EP0294950A2 (en) 1988-12-14
EP0294950B1 (en) 1995-01-04
DE3852672T2 (de) 1995-05-11
US4939639A (en) 1990-07-03
CA1265623A (en) 1990-02-06
DE3852672D1 (de) 1995-02-16

Similar Documents

Publication Publication Date Title
JPS63316231A (ja) コンピユーター・ソーテイングを容易にする方法
US5148541A (en) Multilingual database system including sorting data using a master universal sort order for all languages
US5873111A (en) Method and system for collation in a processing system of a variety of distinct sets of information
US5787452A (en) Client/server database system with methods for multi-threaded data processing in a heterogeneous language environment
US8069033B2 (en) Document based character ambiguity resolution
US6055365A (en) Code point translation for computer text, using state tables
US20020165707A1 (en) Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
JPH0351021B2 (ja)
US5384702A (en) Method for self-correction of grammar in machine translation
EP0268069B1 (en) Method of forming a message file in a computer
Lavanya et al. A simple approach for building transliteration editors for indian languages
US5225833A (en) Character encoding
US20050251519A1 (en) Efficient language-dependent sorting of embedded numerics
Lu Computers and Chinese writing systems
JP2000148754A (ja) マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
KR20050043884A (ko) 중국어 데이타 및 사용자에 의해 정정된 데이타를작성하고 사용하는 방법 및 시스템
JPS6028027B2 (ja) 韓国語ソ−ト制御方式
JPH08115330A (ja) 類似文書検索方法および装置
Peruginelli et al. Character sets: towards a standard solution?
JP2634926B2 (ja) かな漢字変換装置
JP2629040B2 (ja) 日本語処理システム
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
KR19980070531A (ko) 다수 바이트 문자 스트링의 컴퓨터 시스템내의 교환 코드간의변환 방법 및 시스템
JPH0556553B2 (ja)
JPH0352102B2 (ja)