JPS63231569A - 複合語の解析方法 - Google Patents
複合語の解析方法Info
- Publication number
- JPS63231569A JPS63231569A JP62319132A JP31913287A JPS63231569A JP S63231569 A JPS63231569 A JP S63231569A JP 62319132 A JP62319132 A JP 62319132A JP 31913287 A JP31913287 A JP 31913287A JP S63231569 A JPS63231569 A JP S63231569A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- dictionary
- compound
- constituent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000001875 compounds Chemical class 0.000 title claims description 52
- 238000004458 analytical method Methods 0.000 title description 10
- 239000000470 constituent Substances 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 9
- 230000006740 morphological transformation Effects 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 17
- 238000013459 approach Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 6
- 238000000844 transformation Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000013329 compounding Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 240000004528 Catalpa ovata Species 0.000 description 1
- 235000010005 Catalpa ovata Nutrition 0.000 description 1
- 240000008168 Ficus benjamina Species 0.000 description 1
- 240000005746 Ruta graveolens Species 0.000 description 1
- 241001655798 Taku Species 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 101100070120 Xenopus laevis has-rs gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 210000004291 uterus Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/191—Automatic line break hyphenation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A、産業上の利用分野
この発明は総括的にデータ処理に関するものであり、詳
細にいえばデータ処理における言語学的な応用に関する
ものである。
細にいえばデータ処理における言語学的な応用に関する
ものである。
B、従来技術
テキスト・プロセッシング用ワード・プロセッシング・
システムは、独立型用および分散システム用の両方に開
発されたものである。この明細書において、テキスト・
プロセッシングおよびワードプロセッシングという用語
は、互いに交換可能に使用されるものであり、文書とな
ったテキストを構成する英数字ス) IJソング作成、
編集、通信または印刷、あるいはこれらすべてを行なう
ために、主として使用されるデータ処理システムを指す
ものである。ワード・プロセッシング用の特殊な分散処
理システムが、1985年9月30日付けで本願と同時
出願のに−W・ボーゲンダール他(に、 W、 Bor
gendale、 et al、 ) r全コマンド
、メツセージおよびヘルプのサポートによる、ワード・
プロセッサにおける画面イメージの構築およびコマンド
のデコードのための多言語処理 (Multilingual Processing
for 5creen In+ageBuild an
d Command Decode in a Wor
d Processor+with Full Com
mand、 Message and He1p 5u
pport)Jという米国特許願第781862号に開
示されている。この米国特許願の図面と明細書は、この
発明を適用できるホスト・システムの一例として、参照
することによって、この明細書の一部をなすものである
。
システムは、独立型用および分散システム用の両方に開
発されたものである。この明細書において、テキスト・
プロセッシングおよびワードプロセッシングという用語
は、互いに交換可能に使用されるものであり、文書とな
ったテキストを構成する英数字ス) IJソング作成、
編集、通信または印刷、あるいはこれらすべてを行なう
ために、主として使用されるデータ処理システムを指す
ものである。ワード・プロセッシング用の特殊な分散処
理システムが、1985年9月30日付けで本願と同時
出願のに−W・ボーゲンダール他(に、 W、 Bor
gendale、 et al、 ) r全コマンド
、メツセージおよびヘルプのサポートによる、ワード・
プロセッサにおける画面イメージの構築およびコマンド
のデコードのための多言語処理 (Multilingual Processing
for 5creen In+ageBuild an
d Command Decode in a Wor
d Processor+with Full Com
mand、 Message and He1p 5u
pport)Jという米国特許願第781862号に開
示されている。この米国特許願の図面と明細書は、この
発明を適用できるホスト・システムの一例として、参照
することによって、この明細書の一部をなすものである
。
3つの手法が複合語のスペルを検証するため、ワード・
プロセッシング・システムで使用されている。従来技術
の手法のひとつは、システムが検証できるすべての複合
語を辞書データ・ベースに記憶させるものである。検証
は合致するかどうかについて、辞書をチェックすること
からなる。この手法の限界として明らかなことは、検証
可能な範囲を一応満足できるものとするのに、膨大な容
量の記憶機構が必要だということである。検証可能な範
囲を包括的なものと5することが、特にドイツ語の場合
に、不可能なのは、語の複合が広範囲にわたって行なわ
れ、意味のあるすべての複合語の辞書を構築することが
できないほどであるからである。
プロセッシング・システムで使用されている。従来技術
の手法のひとつは、システムが検証できるすべての複合
語を辞書データ・ベースに記憶させるものである。検証
は合致するかどうかについて、辞書をチェックすること
からなる。この手法の限界として明らかなことは、検証
可能な範囲を一応満足できるものとするのに、膨大な容
量の記憶機構が必要だということである。検証可能な範
囲を包括的なものと5することが、特にドイツ語の場合
に、不可能なのは、語の複合が広範囲にわたって行なわ
れ、意味のあるすべての複合語の辞書を構築することが
できないほどであるからである。
1984年10月24日にこの出願と同時に出願され、
IBMコーポレーシeンに譲渡された、米国特許願第6
64184号に記載されている第2の従来技術の手法は
、文法解析に基づくものである。この手法は複合語の適
切な検証を行なえる唯一の実際的な方法であるが、構成
語の対応付けの誤りや、構成語の間の「接続部」の不適
切な判定などの問題を生じやすいものである。この手法
においては、構成語の間の「接続部」となる可能性が高
いいくつかの文字の対を、語を分割するための手掛りと
して使用し、各部分の辞書との照合を行なっている。シ
ステム性能の点から見た場合、認識できない語にミスス
ペルとのマークを付ける前に、文法解析を行なわなけれ
ばならないのであるから、正しい複合状態を検証するに
は、解析機能に多数の区切り点がなければならない。そ
れゆえ、間違っている語の識別は遅くなり、システムの
性能が低下する。また、複合語を使用する言語における
平均語長は、語の複合を行なわない言語のものよりも長
くなるため、「接続部」としての文字の対のリストで認
められるすべての組合わせを試行するために無駄となる
コンピュータ時間は、無視できないものとなる。上述し
たように、この第2の解析手法には、対応付けの誤りと
いう問題がある。すなわち、スペルが正しい2つの構成
語からなるスペルが間違っている語は、正しいものとみ
なされてしまう。たとえば、rovertimeJとい
う語のスペルを間違えて、revertimeJとした
場合、この手法によるとこの語は正しいものとみ ′な
されてしまうが、これはreverJもrtimeJも
スペルが正しい構成語だからである。同様に、rtha
tisJなどの区切らずに続けてしまった語も、「正し
い」複合語であると検証されてしまう。複合語の構成語
を判断する際のあいまいさによって、正しくないハイフ
ネーションが行なわれることがある。たとえばN r
snakeskin Jがrsnakes−kin J
と解釈されることがある。
IBMコーポレーシeンに譲渡された、米国特許願第6
64184号に記載されている第2の従来技術の手法は
、文法解析に基づくものである。この手法は複合語の適
切な検証を行なえる唯一の実際的な方法であるが、構成
語の対応付けの誤りや、構成語の間の「接続部」の不適
切な判定などの問題を生じやすいものである。この手法
においては、構成語の間の「接続部」となる可能性が高
いいくつかの文字の対を、語を分割するための手掛りと
して使用し、各部分の辞書との照合を行なっている。シ
ステム性能の点から見た場合、認識できない語にミスス
ペルとのマークを付ける前に、文法解析を行なわなけれ
ばならないのであるから、正しい複合状態を検証するに
は、解析機能に多数の区切り点がなければならない。そ
れゆえ、間違っている語の識別は遅くなり、システムの
性能が低下する。また、複合語を使用する言語における
平均語長は、語の複合を行なわない言語のものよりも長
くなるため、「接続部」としての文字の対のリストで認
められるすべての組合わせを試行するために無駄となる
コンピュータ時間は、無視できないものとなる。上述し
たように、この第2の解析手法には、対応付けの誤りと
いう問題がある。すなわち、スペルが正しい2つの構成
語からなるスペルが間違っている語は、正しいものとみ
なされてしまう。たとえば、rovertimeJとい
う語のスペルを間違えて、revertimeJとした
場合、この手法によるとこの語は正しいものとみ ′な
されてしまうが、これはreverJもrtimeJも
スペルが正しい構成語だからである。同様に、rtha
tisJなどの区切らずに続けてしまった語も、「正し
い」複合語であると検証されてしまう。複合語の構成語
を判断する際のあいまいさによって、正しくないハイフ
ネーションが行なわれることがある。たとえばN r
snakeskin Jがrsnakes−kin J
と解釈されることがある。
1984年10月24日にこの出願と同時に出願され、
IBMコーポレーションに譲渡された、米国特許願第8
64183号に記載されている第3の従来技術の手法は
、複合語の構成語を文法解析し、俗語に関連付けられた
複合フラグに関して辞書をチェックし、構成語が許容可
能な順序で関連付けられているかどうかを調べることか
らなるものである。これはrpseudoJなどの純粋
な接頭辞となる語を、分離している場合、および語の始
め以外の場所にある場合の両方について検証する゛こと
を防止するものである。6つの複合フラグを使用して、
語の構成要素を分類する。6種類のフラグとは次のもの
を指す。1)語を複合できない。
IBMコーポレーションに譲渡された、米国特許願第8
64183号に記載されている第3の従来技術の手法は
、複合語の構成語を文法解析し、俗語に関連付けられた
複合フラグに関して辞書をチェックし、構成語が許容可
能な順序で関連付けられているかどうかを調べることか
らなるものである。これはrpseudoJなどの純粋
な接頭辞となる語を、分離している場合、および語の始
め以外の場所にある場合の両方について検証する゛こと
を防止するものである。6つの複合フラグを使用して、
語の構成要素を分類する。6種類のフラグとは次のもの
を指す。1)語を複合できない。
2)語を単独で、または前部あるいは中部に使用できる
。3)語を単独で、または任意の場所で使用できる。4
)語を単独で、または複合語の後部に使用できる。5)
語を単独で、または複合語の前部あるいは中部に使用で
きる。6)語を複合語の後部にだけ使用できる。この手
法は上述の2つの手法よりも優れたものではあるが、6
つのフラグではすべての吠況を記述するのに不十分であ
るため、この方式は限定されたものである。第2の手法
と同様、誤った対応付けが生じることがあり、語のなか
には辞書内の複合語に割り一部てられた複合フラグが、
これらの語が複合語に使用された場合のこれらの語の機
能を記述するのに不適切なものであるため、検証されな
いものもある。コンピュータ時間に無駄を生じる第3の
手法の他・の欠点は、最初の段階で構成語として考えら
れるすべてのものと、これらの複合フラグを分離し、次
いで複合フラグを検査する第2段階が行なわれることで
ある。この手法の非能率性は、構成語のあるものが複合
フラグを持っている場合であっても、考慮しなければな
らない構成語の順列によって生じるものであり、これが
結局は無効な組合わせをもたらす。この手法で使用され
る機構では、適正な検証を行なうためにrschiff
JとrfahrtJに分解しなければならないドイツ語
のrschiffahrtJの場合のように、複合の際
に使用される文字の省略を行なうこともできない。
。3)語を単独で、または任意の場所で使用できる。4
)語を単独で、または複合語の後部に使用できる。5)
語を単独で、または複合語の前部あるいは中部に使用で
きる。6)語を複合語の後部にだけ使用できる。この手
法は上述の2つの手法よりも優れたものではあるが、6
つのフラグではすべての吠況を記述するのに不十分であ
るため、この方式は限定されたものである。第2の手法
と同様、誤った対応付けが生じることがあり、語のなか
には辞書内の複合語に割り一部てられた複合フラグが、
これらの語が複合語に使用された場合のこれらの語の機
能を記述するのに不適切なものであるため、検証されな
いものもある。コンピュータ時間に無駄を生じる第3の
手法の他・の欠点は、最初の段階で構成語として考えら
れるすべてのものと、これらの複合フラグを分離し、次
いで複合フラグを検査する第2段階が行なわれることで
ある。この手法の非能率性は、構成語のあるものが複合
フラグを持っている場合であっても、考慮しなければな
らない構成語の順列によって生じるものであり、これが
結局は無効な組合わせをもたらす。この手法で使用され
る機構では、適正な検証を行なうためにrschiff
JとrfahrtJに分解しなければならないドイツ語
のrschiffahrtJの場合のように、複合の際
に使用される文字の省略を行なうこともできない。
従来技術の手法の欠点によって、より効率がよいアルゴ
リズムおよび包括的な複合コードのセットを開発し、コ
ンピユータ化された適用業務において膠着言語を的確に
処理することが必要となった。
リズムおよび包括的な複合コードのセットを開発し、コ
ンピユータ化された適用業務において膠着言語を的確に
処理することが必要となった。
C0発明が解決しようとする問題点
したがって、この発明の目的は、複合語のスペルを検証
する改善された手法を提供することである。
する改善された手法を提供することである。
この発明の他の目的は、文字の省略をも考慮した、複合
語のスペルを検証する改善された手法を提供することで
ある。
語のスペルを検証する改善された手法を提供することで
ある。
この発明のさらに他の目的は、従来技術で利用できるも
のに比較して、膠着言語の処理を効率よ<、シかも包括
的な、複合語のスペルを検証する改善された方法を提供
することである。
のに比較して、膠着言語の処理を効率よ<、シかも包括
的な、複合語のスペルを検証する改善された方法を提供
することである。
D8問題点を解決するための手段
この発明の上述したものおよびその他の目的、特徴なら
びに利点は、この明細書で開示する複合語のスペルを検
証する方法によって達成される。
びに利点は、この明細書で開示する複合語のスペルを検
証する方法によって達成される。
この発明はドイツ語、デンマーク語、スエーデン語、ノ
ルウェー語、オランダ語、アイスランド語、アフリカー
ンス語、スイス・ドイツ語などの多くの自然言語の複合
語のスペルを自動的に検証する方法を説明するものであ
る。辞書の語を調べる基本的な技術は、俗語に構成フラ
グを関連付けること、および複合語の構成語を分離し、
分離の仕方およびそれぞれの関連性の正しさを決定する
、強力な本走査手法を応用することによって補完される
。この手法をワード・プロセッシング・システムに使用
して、スペルの検証、テキストのハイフネーシロン、お
よびテキストの非ハイフネーシeンを支援することがで
きる。
ルウェー語、オランダ語、アイスランド語、アフリカー
ンス語、スイス・ドイツ語などの多くの自然言語の複合
語のスペルを自動的に検証する方法を説明するものであ
る。辞書の語を調べる基本的な技術は、俗語に構成フラ
グを関連付けること、および複合語の構成語を分離し、
分離の仕方およびそれぞれの関連性の正しさを決定する
、強力な本走査手法を応用することによって補完される
。この手法をワード・プロセッシング・システムに使用
して、スペルの検証、テキストのハイフネーシロン、お
よびテキストの非ハイフネーシeンを支援することがで
きる。
E、実施例
この発明は入力された語を辞書の語と突き合わせ、入力
語の一部と合成し、適切な複合フラグを有する語を得る
ことによって、複合語の文法解析を行なう手法である。
語の一部と合成し、適切な複合フラグを有する語を得る
ことによって、複合語の文法解析を行なう手法である。
入力語が辞書の語のどれとも正確に合致しない場合には
、入力語の残余部分に対して、合致が発見され、構成語
をすべて識別するか、あるいはすべての可能性を調べ、
いずれもが溝たされないかのいずれかが完了するまで、
処理が繰り返される。
、入力語の残余部分に対して、合致が発見され、構成語
をすべて識別するか、あるいはすべての可能性を調べ、
いずれもが溝たされないかのいずれかが完了するまで、
処理が繰り返される。
この発明の2つの特徴は、辞書の各項目と関連付けられ
た複合フラグの包括的なセットと、入力語を体系的に調
べることである。これら2つの特徴を、詳細に説明する
。
た複合フラグの包括的なセットと、入力語を体系的に調
べることである。これら2つの特徴を、詳細に説明する
。
韮」ビーム乙
複合語の言語学的分析と理論的な分析とによって、各構
成語が複合語の形成に関し、4つの独立した特性のいず
れかを有していることが判明した。
成語が複合語の形成に関し、4つの独立した特性のいず
れかを有していることが判明した。
1)独立した語として現われる。2)前部構成語すなわ
ち接頭辞として現われる。3)語の中間構成語として現
われる。4)後部構成語すなわち接尾辞として現われる
。これら4つの特性は合計15の可能性の任意の組合わ
せで現われるものであり、これらの特性のどれもが適用
されない場合が使用されることはない。たとえば、rs
unJという語には特性1および2のタグが付けられる
が、これはこの語が独立した語として、あるいはr s
ung 1asses JまたはrsuntanJなど
のように語の接頭辞として現われるからである。これに
対し、rglassesJという語は単独であるいは接
尾辞として使用されるのであるから、特性1および4を
有するものである。rpseudoJなどの語は接頭辞
としてだけ現われるものであるから、特性2というマー
クが付けられる。rfntangibleJという語は
独立した語としてだけ現われるものであるから、特性1
を何している。いくつかのドイツ語の例の場合、特性1
+3+4の組合わせを、rsandaleJという語に
関連付けることができるが、この語は単独で、あるいは
語の中間部または後部の構成語として現われるものであ
る。
ち接頭辞として現われる。3)語の中間構成語として現
われる。4)後部構成語すなわち接尾辞として現われる
。これら4つの特性は合計15の可能性の任意の組合わ
せで現われるものであり、これらの特性のどれもが適用
されない場合が使用されることはない。たとえば、rs
unJという語には特性1および2のタグが付けられる
が、これはこの語が独立した語として、あるいはr s
ung 1asses JまたはrsuntanJなど
のように語の接頭辞として現われるからである。これに
対し、rglassesJという語は単独であるいは接
尾辞として使用されるのであるから、特性1および4を
有するものである。rpseudoJなどの語は接頭辞
としてだけ現われるものであるから、特性2というマー
クが付けられる。rfntangibleJという語は
独立した語としてだけ現われるものであるから、特性1
を何している。いくつかのドイツ語の例の場合、特性1
+3+4の組合わせを、rsandaleJという語に
関連付けることができるが、この語は単独で、あるいは
語の中間部または後部の構成語として現われるものであ
る。
特徴1+3+4のrsandale Jという語の例L
eder +5andale + Reparatur
= Ledersandalereparatur特徴
3+4のrigJという語の例 Kurz + Be1n + ig + keit=
Kurzbeinigkeit 付加的なコードを使用して、語が取ることのできる形態
変換の型式を示してもかまわない。
eder +5andale + Reparatur
= Ledersandalereparatur特徴
3+4のrigJという語の例 Kurz + Be1n + ig + keit=
Kurzbeinigkeit 付加的なコードを使用して、語が取ることのできる形態
変換の型式を示してもかまわない。
俗語に関する複合特性を含んでいる辞書の生成は、人手
によっても、あるいは自動的にも行なうことができる。
によっても、あるいは自動的にも行なうことができる。
自動処理では、以下で説明する文法解析アルゴリズムを
使用して、正しい複合語をその構成語に分解すると同時
に、語内の各構成語の位置を維持することが必要である
。セグメント化された語を、人間の目で見て、不適正に
セグメント化された語に対する複合コードが辞書に入っ
ていないことを確認することができる。
使用して、正しい複合語をその構成語に分解すると同時
に、語内の各構成語の位置を維持することが必要である
。セグメント化された語を、人間の目で見て、不適正に
セグメント化された語に対する複合コードが辞書に入っ
ていないことを確認することができる。
法解析アルゴリズム
文法解析アルゴリズムは語の区切りとして可能なものを
すべて効率よく、体系的に調べる処理である。このアル
ゴリズムは木の「事前配列」走査に基づいたものである
。この型式の走査が語の文法解析に適用できるかどうか
は明らかではないが、複合語の構成語を配列し、さまざ
まな深さの木によって「同一形態的に」マツプできるこ
とを認識することによって、適用することができる。
すべて効率よく、体系的に調べる処理である。このアル
ゴリズムは木の「事前配列」走査に基づいたものである
。この型式の走査が語の文法解析に適用できるかどうか
は明らかではないが、複合語の構成語を配列し、さまざ
まな深さの木によって「同一形態的に」マツプできるこ
とを認識することによって、適用することができる。
たとえば、r isomorphicallyJという
語を複合語と考えてみる。辞書と突き合わせることので
きるサブストリングについて、この語を検討すると、第
1表で大文字となる語が見つかる。
語を複合語と考えてみる。辞書と突き合わせることので
きるサブストリングについて、この語を検討すると、第
1表で大文字となる語が見つかる。
第1表
a) IS omorphicallyb) IS
OMORPH1callyc) ISOMORPH
ICALL yd) ISOMORPHICAL
LYe) ISOMORPIIICALLYf)
l50M0RPHicallyg) l50M
0RPHICALL yh) l50M0RPII
ICALLY第1表の語のリストを第2図に示した形の
木として表わすことができる。第2図の木を事前配列の
順序で走査し、語の形成に使用できるすべての可能性を
調べることができる。しかしながら、木の分岐のいくつ
かの検討を最初から省くことができるが、これは分岐を
形成する語が不適切な複合フラグを有しているからであ
る。
OMORPH1callyc) ISOMORPH
ICALL yd) ISOMORPHICAL
LYe) ISOMORPIIICALLYf)
l50M0RPHicallyg) l50M
0RPHICALL yh) l50M0RPII
ICALLY第1表の語のリストを第2図に示した形の
木として表わすことができる。第2図の木を事前配列の
順序で走査し、語の形成に使用できるすべての可能性を
調べることができる。しかしながら、木の分岐のいくつ
かの検討を最初から省くことができるが、これは分岐を
形成する語が不適切な複合フラグを有しているからであ
る。
たとえば、「IS」という語は分離した語としてだけ現
われるのであるから、「IS」以降のチェックを行なう
必要はない。
われるのであるから、「IS」以降のチェックを行なう
必要はない。
実際の場合には、木の各分岐点において、これらの特定
の文字で始まるすべての語について辞書を調べ、辞書へ
のアクセスを最適化する。
の文字で始まるすべての語について辞書を調べ、辞書へ
のアクセスを最適化する。
候補の語は、アルゴリズムを反復して適用するか)ある
いは語を反復して処理されるスタックに入れることによ
って検討される。これら2つの手法はいずれも、同じ結
果をもたらす。
いは語を反復して処理されるスタックに入れることによ
って検討される。これら2つの手法はいずれも、同じ結
果をもたらす。
コンピュータ用語としての「ネタツク」とは、情報が所
定の順序で格納される配列である。一般に、スタックに
最後に格納された項目が、最初に検索されるものとなる
(テーブルに積み重ねた硬貨と同じである)。スタック
を使用してこの発明を実施するのには、辞書を走査して
語に合致するサブストリングを探す場合、合致する辞書
の語のそれぞれの位置および長さを、スタックに格納す
ることが必要となる。合致する辞書の語は複合語のサブ
ストリングであるから、この語を保管する必要はない。
定の順序で格納される配列である。一般に、スタックに
最後に格納された項目が、最初に検索されるものとなる
(テーブルに積み重ねた硬貨と同じである)。スタック
を使用してこの発明を実施するのには、辞書を走査して
語に合致するサブストリングを探す場合、合致する辞書
の語のそれぞれの位置および長さを、スタックに格納す
ることが必要となる。合致する辞書の語は複合語のサブ
ストリングであるから、この語を保管する必要はない。
すべての適切な合致が発見されたら(辞書の項目に関連
付けられているフラグの検討によって決定されるように
)、スタックに追加された最後の語に含まれていない複
合語の文字が、辞書と再度突き合わされ、複合語の残り
のすべての文字を含む適切な合致が発見されるまで、処
理が繰り返される。
付けられているフラグの検討によって決定されるように
)、スタックに追加された最後の語に含まれていない複
合語の文字が、辞書と再度突き合わされ、複合語の残り
のすべての文字を含む適切な合致が発見されるまで、処
理が繰り返される。
しかしながら、適切な合致が発見されない場合には、ス
タックの頂部にある成功しなかった語を除去し、スタッ
クの次の語について再度状みる。適切な合致が発見され
る前に、スタックが空になった場合には、構成語をまっ
たく識別することなく、処理は完了する。
タックの頂部にある成功しなかった語を除去し、スタッ
クの次の語について再度状みる。適切な合致が発見され
る前に、スタックが空になった場合には、構成語をまっ
たく識別することなく、処理は完了する。
何らかの言語特有の特性が存在している場合には、形態
適合手順を適用し、子音の省略(rschiffahr
tJの場合などの)を解析したり、あるいは言語の要件
に応じて複数の文字の組合わせの変換、たとえばrue
Jをウムラートの付いたruJに変換することを行なう
。rzuk−ker Jなどのドイツ語のハイフンでつ
ないだ語の場合、ハイフンを除去するとスペルもrzu
cker Jに変わる。
適合手順を適用し、子音の省略(rschiffahr
tJの場合などの)を解析したり、あるいは言語の要件
に応じて複数の文字の組合わせの変換、たとえばrue
Jをウムラートの付いたruJに変換することを行なう
。rzuk−ker Jなどのドイツ語のハイフンでつ
ないだ語の場合、ハイフンを除去するとスペルもrzu
cker Jに変わる。
アルゴリズムをスタックに基づいて実施したものを、P
L/1に類似した擬似コードで以下に示す。
L/1に類似した擬似コードで以下に示す。
+I \ \ \ \ \
\ \ \f1科4を拝4を4)4#4)
仲 呻 ト 殺 す で Δ 弯 づ ミ 1ト噛ト4−静静4を414)41 八 姪 p べ 、、t−的 へ IIIK 頃 姪 か 馴 ト Oべ −L−堰
か 姪 妹 畷 K 証 TOh 八 Q’ts QJP 八 かべ勢 べ積
コム λ Q 八 !、! ム K
\コ全 5全 K’h 全 −L−で −1−で h 訃
でK Δ K Δ 姪 令 Q
Δhjb ’ u;’ Q #E
’ −′罫 ゝ 膵ゝ解旭g 証: 派シトシ
)4)4を什414ト4) 梓)ト)ト→ト廿→ト→ト ■ +! く口 。
\ \ \f1科4を拝4を4)4#4)
仲 呻 ト 殺 す で Δ 弯 づ ミ 1ト噛ト4−静静4を414)41 八 姪 p べ 、、t−的 へ IIIK 頃 姪 か 馴 ト Oべ −L−堰
か 姪 妹 畷 K 証 TOh 八 Q’ts QJP 八 かべ勢 べ積
コム λ Q 八 !、! ム K
\コ全 5全 K’h 全 −L−で −1−で h 訃
でK Δ K Δ 姪 令 Q
Δhjb ’ u;’ Q #E
’ −′罫 ゝ 膵ゝ解旭g 証: 派シトシ
)4)4を什414ト4) 梓)ト)ト→ト廿→ト→ト ■ +! く口 。
;多九’!!b
石 くロ ニ; YK ≦2需■ミ
翳;−俵品f 、Dに一一―Q (ミSl−’l”+ ’blJrロー入 峙へC謔トコ )h=)七夕v令≧=4− 菅 % \ \ \
\ \静科梓4を4ト→ト Φ K 謔 ト l:+ かを
Q 婆 〉j 呻ム
、 駆 (@1) Δ?ノΔ m40′( 4二 H) 目堅 Δ文字の
省略: 2つの語を組み合わせた場合に、言語学上の理由で語が
省略され、結果として得られる複合語が構成語を厳密に
並置したものではな(なる場合がある。この発明はある
種の一般的な場合について、これらの状況を処理できる
ものである。たとえば、ドイツ語の場合、2重子音で終
わっている語を同じ子音で始まる他の語と組み合わせた
場合、文字が省略される。たとえば、rschiffa
hrtJという語(ドイツ語の「船旅」)はrfJを省
略した、rschiffJ (r船」)とrFahr
tJ (r旅」)とで構成されている。したがって、
この発明が行なう形態変換の一部として、語の残りの部
分(ここではrahrtJ )に対して、適切な辞書の
項目が見つからない場合には、前の構成語が2重子音で
終わっているか、また次の文字が母音であるかどうかを
調べるチェックが行なわれる。これらの条件が発見され
た場合には、残りのストリングの開始文字が前の語の最
後の文字に設定される。このようにして、プログラムは
rfahrtJという語をチェックする。
翳;−俵品f 、Dに一一―Q (ミSl−’l”+ ’blJrロー入 峙へC謔トコ )h=)七夕v令≧=4− 菅 % \ \ \
\ \静科梓4を4ト→ト Φ K 謔 ト l:+ かを
Q 婆 〉j 呻ム
、 駆 (@1) Δ?ノΔ m40′( 4二 H) 目堅 Δ文字の
省略: 2つの語を組み合わせた場合に、言語学上の理由で語が
省略され、結果として得られる複合語が構成語を厳密に
並置したものではな(なる場合がある。この発明はある
種の一般的な場合について、これらの状況を処理できる
ものである。たとえば、ドイツ語の場合、2重子音で終
わっている語を同じ子音で始まる他の語と組み合わせた
場合、文字が省略される。たとえば、rschiffa
hrtJという語(ドイツ語の「船旅」)はrfJを省
略した、rschiffJ (r船」)とrFahr
tJ (r旅」)とで構成されている。したがって、
この発明が行なう形態変換の一部として、語の残りの部
分(ここではrahrtJ )に対して、適切な辞書の
項目が見つからない場合には、前の構成語が2重子音で
終わっているか、また次の文字が母音であるかどうかを
調べるチェックが行なわれる。これらの条件が発見され
た場合には、残りのストリングの開始文字が前の語の最
後の文字に設定される。このようにして、プログラムは
rfahrtJという語をチェックする。
文字の挿入:
文字の省略と類似したものに、文字の挿入がある。ドイ
ツ語の場合、これはrsJという文字が最初の構成語に
追加される所有格で生じるものである。この発明は適切
な合致が発見されなかった場合に、残りの構成語がrs
Jで始まるかどうかをチェックすることによって、この
問題を処理するものである。「s」が存在している場合
には、これをとばし、構成語の残りの部分に対する突き
合わせが試みられる。
ツ語の場合、これはrsJという文字が最初の構成語に
追加される所有格で生じるものである。この発明は適切
な合致が発見されなかった場合に、残りの構成語がrs
Jで始まるかどうかをチェックすることによって、この
問題を処理するものである。「s」が存在している場合
には、これをとばし、構成語の残りの部分に対する突き
合わせが試みられる。
大文字の使用:
英語で固有名詞やこれから派生した形容詞に大文字を使
わなければならない(たとえば、Amer 1can
)のとまったく同じように、ドイツ語の文法ではすべて
の名詞に大文字を使わなければならない。それゆえ、ド
イツ語の辞書には大文字で始まる語が多数収められてい
る。このことは複合語の突き合わせを行なう場合、複合
語の最初の文字だけが大文字となり、内部のあらゆる構
成語が小文字で始まるようになるので問題となる。この
ことは辞書を大文字小文字にかかわりなくアルファベッ
ト順に配列しくただし、大文字小文字については付加的
な属性として示す)、かつ辞書の語と複合語を突き合わ
せ時に共通の文字セットに変換することにより、この発
明によって解決される。
わなければならない(たとえば、Amer 1can
)のとまったく同じように、ドイツ語の文法ではすべて
の名詞に大文字を使わなければならない。それゆえ、ド
イツ語の辞書には大文字で始まる語が多数収められてい
る。このことは複合語の突き合わせを行なう場合、複合
語の最初の文字だけが大文字となり、内部のあらゆる構
成語が小文字で始まるようになるので問題となる。この
ことは辞書を大文字小文字にかかわりなくアルファベッ
ト順に配列しくただし、大文字小文字については付加的
な属性として示す)、かつ辞書の語と複合語を突き合わ
せ時に共通の文字セットに変換することにより、この発
明によって解決される。
特定の形態変換:
複合語の構成語の使い方を特徴とする特徴の他に、特定
の変換を規定するコードを辞書中の俗語と関連付けるこ
とができる。たとえば、アフリカーンス語では、多くの
語に組・み合わされる非道成形の単数の所有格のスペル
が、主格の複数形と、両方とも主格の単数形にrsJを
付は加えたものである点で、同じものである。このよう
な語を始まりが「s」の語と複合する場合、これらの一
方を省略しなければならない。特別なコードをこのよう
な語に関連付けることによって、これを示すことができ
る。たとえば、「l1ans」という語に関連付けたこ
のようなコードは、これをrskooNという語と組み
合わせる場合、すなわちmans÷5kool =ma
nskool とする際に、「S」ノヒとつを省略させ
るものとなる。このような特定の変換は、辞書中のコー
ドによって表わされ、複合語を構成語に分解することが
可能となる。この手法が上述ノ省略ニついて述べたよう
なアルゴリズムの一部としてではな(、属性の特定のコ
ーディングによって決定されるものであることに留意さ
れたい。
の変換を規定するコードを辞書中の俗語と関連付けるこ
とができる。たとえば、アフリカーンス語では、多くの
語に組・み合わされる非道成形の単数の所有格のスペル
が、主格の複数形と、両方とも主格の単数形にrsJを
付は加えたものである点で、同じものである。このよう
な語を始まりが「s」の語と複合する場合、これらの一
方を省略しなければならない。特別なコードをこのよう
な語に関連付けることによって、これを示すことができ
る。たとえば、「l1ans」という語に関連付けたこ
のようなコードは、これをrskooNという語と組み
合わせる場合、すなわちmans÷5kool =ma
nskool とする際に、「S」ノヒとつを省略させ
るものとなる。このような特定の変換は、辞書中のコー
ドによって表わされ、複合語を構成語に分解することが
可能となる。この手法が上述ノ省略ニついて述べたよう
なアルゴリズムの一部としてではな(、属性の特定のコ
ーディングによって決定されるものであることに留意さ
れたい。
ハイフネーションのサポート:
この発明で説明したような複合語解析の副産物のひとつ
は、複合語を処理したあとのスタックの状態である。ス
タックは複合語の構成語を、それゆえ、複合語の主要な
ハイフネーション個所を識別する情報を含んでいる。こ
れらのハイフネーション個所を各構成語について辞書に
蓄積されているハイフネーションの情報によって補完す
ることもできる。さらに、この発明が文字の省略を識別
するということは、このような語のハイフネーションを
適切に行なうことを可能とするものである。
は、複合語を処理したあとのスタックの状態である。ス
タックは複合語の構成語を、それゆえ、複合語の主要な
ハイフネーション個所を識別する情報を含んでいる。こ
れらのハイフネーション個所を各構成語について辞書に
蓄積されているハイフネーションの情報によって補完す
ることもできる。さらに、この発明が文字の省略を識別
するということは、このような語のハイフネーションを
適切に行なうことを可能とするものである。
たとえば、ドイツ語のrSchiffahrtJという
語には、省略された文字を回復することによって、rs
chiff−fahrtJと正しいハイフンを付けるこ
とができる。
語には、省略された文字を回復することによって、rs
chiff−fahrtJと正しいハイフンを付けるこ
とができる。
第1図の流れ図は、スタックによって具現化されたもの
である。ステップ20において、次の語を取り込む。こ
れは大力バッファからのテキスト、あるいは他のコンピ
ュータ・プログラムが供給したもののいずれであっても
かまわない。ステップ22において、スタックをクリア
する。このことはスタックを空にし、レベルを1に等し
くセットすることを意味する。スタックを走査する手順
は、基本的には、事前配列の形態によるものであり、こ
のことは第3図のような連鎖をセットすることを意味す
るものであって、この連鎖はノード「a」から始まり、
ノードrbJおよびrcJに分かれていくものである。
である。ステップ20において、次の語を取り込む。こ
れは大力バッファからのテキスト、あるいは他のコンピ
ュータ・プログラムが供給したもののいずれであっても
かまわない。ステップ22において、スタックをクリア
する。このことはスタックを空にし、レベルを1に等し
くセットすることを意味する。スタックを走査する手順
は、基本的には、事前配列の形態によるものであり、こ
のことは第3図のような連鎖をセットすることを意味す
るものであって、この連鎖はノード「a」から始まり、
ノードrbJおよびrcJに分かれていくものである。
ノードrbJおよびrcJはレベル2にあり、ノードr
bJがノードrdJ、reJおよびrfJに分かれた場
合には、これは第3のレベルになる。ノードrcJがノ
ードrgJおよびrhJに分かれた場合には、これも第
3のレベルとなる。木の走査は、「a」からrbJへ、
次いでrdJ、reJおよびrfJと進み、次いでrb
Jへ戻り、さらにraJに戻り、その後1 rcJ箋
rgJと進み、次いでrhJへ進んでから1「c」に戻
す1次いでraJに戻ることによって行なわれる@これ
によって、木の走査が終了する。開示された発明は、検
証のために胎内でサブストリングを発見する各種の可能
性を試みるのと同じ機能を果たすものである。ここで、
「前進」というラベルまで進む。この時点で、テキスト
の語を取り込む(ステップ24)。この場合、テキスト
の語が変えられていないので、テキストの語に変化はな
い。これは最初入力されたものと同じである。流れ図の
以降のループ操作において、これが語の変更されたもの
となることがある。次いで、「合致するサブストリング
を求めて辞書をチェックする」というラベルの付いたス
テップ26に進む。この段階で、辞書のチェックを行な
い、ストリングの最初の部分と正確に合致している辞書
のあらゆる項目を識別する。語がどれも合致しない場合
には、「後退」というラベルに進み、レベルを下げ、連
鎖の他の分岐を進むことによって、他の可能性を試して
みる。しかし、何らかの合致する項目があった場合、こ
れは新しいレベルを作り出すので、ステップ28におい
てレベルを増加させる。大文字を扱うために、ステップ
30において、レベルが1を超えているのかどうかをチ
ェックしなければならない。このことは、それが語の最
初のサブストリングではないことを意味し、辞書に蓄積
されている語に存在している可能性のある大文字が無視
されることになる。この時点で、「現行レベル内のサブ
ストリングの数、およびその長さをスタックに格納する
」というラベルの付いたステップ32に入る。基本的に
、これは将来参照するためストリングを格納する機構に
すぎない。これは現行レベルに対してストリングが始ま
る場所、およびその長さを格納するものである。この情
報を格納したのち、ステップ34において、サブストリ
ングのフラグをチェックする。不適切なフラグが見つか
った場合、「現行レベルに他のサブストリングがあるか
」というラベルの付いたステップ36に進む。現行レベ
ルに他のサブストリングが見つからなくなるか、あるい
は適切なフラグを有するサブストリングが見つかるかの
いずれかまで、これらのサブストリングのチェックを継
続する。適切なフラグの付いたサブストリングが見つか
った場合には、「フラグまたはコードが変換を指定して
いるのであれば、それを適用する」というステップ38
に進む。このステップにおいて、文字の付加を必要とす
る変換が行なわれる。これらの変換を適用したのち、ス
テップ40において、サブストリングが語の最後のもの
であるかどうかを調べる。最後のものである場合には、
構成語がすべてチェックされ、これらが適切なフラグを
有しているのであるから、語が検証されたことになり、
したがって、この時点において、ステップ42で終了す
ることになる。しかしながら、サブストリングが語の最
後のものでない場合には、ステップ44においてその語
から最初のサブストリングを除去し、サブストリングの
他の部分(右側の部分)を維持し、「前に進む」という
ラベルに戻って、残りのサブストリングについて処理を
繰り返す。
bJがノードrdJ、reJおよびrfJに分かれた場
合には、これは第3のレベルになる。ノードrcJがノ
ードrgJおよびrhJに分かれた場合には、これも第
3のレベルとなる。木の走査は、「a」からrbJへ、
次いでrdJ、reJおよびrfJと進み、次いでrb
Jへ戻り、さらにraJに戻り、その後1 rcJ箋
rgJと進み、次いでrhJへ進んでから1「c」に戻
す1次いでraJに戻ることによって行なわれる@これ
によって、木の走査が終了する。開示された発明は、検
証のために胎内でサブストリングを発見する各種の可能
性を試みるのと同じ機能を果たすものである。ここで、
「前進」というラベルまで進む。この時点で、テキスト
の語を取り込む(ステップ24)。この場合、テキスト
の語が変えられていないので、テキストの語に変化はな
い。これは最初入力されたものと同じである。流れ図の
以降のループ操作において、これが語の変更されたもの
となることがある。次いで、「合致するサブストリング
を求めて辞書をチェックする」というラベルの付いたス
テップ26に進む。この段階で、辞書のチェックを行な
い、ストリングの最初の部分と正確に合致している辞書
のあらゆる項目を識別する。語がどれも合致しない場合
には、「後退」というラベルに進み、レベルを下げ、連
鎖の他の分岐を進むことによって、他の可能性を試して
みる。しかし、何らかの合致する項目があった場合、こ
れは新しいレベルを作り出すので、ステップ28におい
てレベルを増加させる。大文字を扱うために、ステップ
30において、レベルが1を超えているのかどうかをチ
ェックしなければならない。このことは、それが語の最
初のサブストリングではないことを意味し、辞書に蓄積
されている語に存在している可能性のある大文字が無視
されることになる。この時点で、「現行レベル内のサブ
ストリングの数、およびその長さをスタックに格納する
」というラベルの付いたステップ32に入る。基本的に
、これは将来参照するためストリングを格納する機構に
すぎない。これは現行レベルに対してストリングが始ま
る場所、およびその長さを格納するものである。この情
報を格納したのち、ステップ34において、サブストリ
ングのフラグをチェックする。不適切なフラグが見つか
った場合、「現行レベルに他のサブストリングがあるか
」というラベルの付いたステップ36に進む。現行レベ
ルに他のサブストリングが見つからなくなるか、あるい
は適切なフラグを有するサブストリングが見つかるかの
いずれかまで、これらのサブストリングのチェックを継
続する。適切なフラグの付いたサブストリングが見つか
った場合には、「フラグまたはコードが変換を指定して
いるのであれば、それを適用する」というステップ38
に進む。このステップにおいて、文字の付加を必要とす
る変換が行なわれる。これらの変換を適用したのち、ス
テップ40において、サブストリングが語の最後のもの
であるかどうかを調べる。最後のものである場合には、
構成語がすべてチェックされ、これらが適切なフラグを
有しているのであるから、語が検証されたことになり、
したがって、この時点において、ステップ42で終了す
ることになる。しかしながら、サブストリングが語の最
後のものでない場合には、ステップ44においてその語
から最初のサブストリングを除去し、サブストリングの
他の部分(右側の部分)を維持し、「前に進む」という
ラベルに戻って、残りのサブストリングについて処理を
繰り返す。
このようにして、語全体が認識されるまで、語の各セグ
メントを反復して処理する。「形態変換を適用する」と
いうラベルの付いたステップ46において、現行レベル
の他のサブストリングがない場合には、操作具は語の間
に何らかの変換が適用されていないかどうかを考慮しな
ければならない。
メントを反復して処理する。「形態変換を適用する」と
いうラベルの付いたステップ46において、現行レベル
の他のサブストリングがない場合には、操作具は語の間
に何らかの変換が適用されていないかどうかを考慮しな
ければならない。
この時点において、これらの変換が適用される。
変換が成功した場合には、再度「前進」というラベルに
戻り、ストリングの処理を継続する。変換を行なえない
場合には、「後退」というラベルに戻る。「後退」は実
際には、ある分岐においてうま(いかなかった場合に元
へ戻る処理であって、木の分岐を調べて、語の完全な認
識にいたらなかった場合には、このレベルにおけるすべ
ての可能性を試みたのち(ステップ52)、ステップ5
0においてレベルを下げる。ステップ54において、レ
ベルがゼロになった場合には、すべての可能性を試みた
のであるから、語が検証されなかったことになる°(ス
テップ56)。レベルがゼロでなく、かつ現行レベルに
他のサブストリングがある場合には、すべての可能性が
なくなるまで亀 「前進」を継続することになる。
戻り、ストリングの処理を継続する。変換を行なえない
場合には、「後退」というラベルに戻る。「後退」は実
際には、ある分岐においてうま(いかなかった場合に元
へ戻る処理であって、木の分岐を調べて、語の完全な認
識にいたらなかった場合には、このレベルにおけるすべ
ての可能性を試みたのち(ステップ52)、ステップ5
0においてレベルを下げる。ステップ54において、レ
ベルがゼロになった場合には、すべての可能性を試みた
のであるから、語が検証されなかったことになる°(ス
テップ56)。レベルがゼロでなく、かつ現行レベルに
他のサブストリングがある場合には、すべての可能性が
なくなるまで亀 「前進」を継続することになる。
F0発明の効果
本発明によれば、複合語を構成する語の性質を表わす新
規なフラグと、複合時に形態論的変形を受ける型の語を
表わす新規なコードを構成語とともに辞書で記憶してい
るので、複合語の文法解析方法が改善される。
規なフラグと、複合時に形態論的変形を受ける型の語を
表わす新規なコードを構成語とともに辞書で記憶してい
るので、複合語の文法解析方法が改善される。
第1図は、この発明の流れ図である。
第2図は、第1表に示したr isomorphica
lly Jという語を解析するツリー・ダイアグラムで
ある。 第3図は、本走査の例である。
lly Jという語を解析するツリー・ダイアグラムで
ある。 第3図は、本走査の例である。
Claims (1)
- 【特許請求の範囲】 複数個の構成語から成る複合語をコンピュータで文法解
析する方法にして、 構成語の辞書を格納し、かつ上記構成語が独立した語で
あるか、語の接頭辞であるか、語の中間構成であるか、
語の接尾辞であるかを表わすフラグまたは形態論的変形
を受ける型の語であることを表わすコードを各構成語と
関連づけ、 文法解析しようとする複合語を含む入力ワード・ストリ
ームを入力し、 入力語の初期のサブストリングに合致するすべての語を
上記辞書から選択しかつ上記辞書の語が接頭辞であり得
るということを表わすフラグを有する辞書の語だけを保
持し、 入力語の残りの部分をすべて処理し、入力語の上記残り
の部分の初期のサブストリングに合致するすべての語を
辞書から選択しかつその語が1つの語の中間構成であり
得るということを表わすフラグを有する辞書の語だけを
保持し、 入力語の残りの部分のすべてを処理し、該入力語の上記
残りの部分に正確に合致するすべての語を上記辞書から
選択しかつその語が1つの語の接尾辞であり得るという
ことを表わすフラグを有する辞書の語だけを保持し、 適切な辞書の候補が見つからなかった場合に、中間構成
または接尾辞構成を求めての検索中、形態論的規則を適
用する諸ステップから成る複合語の解析方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US025041 | 1987-03-12 | ||
US07/025,041 US4777617A (en) | 1987-03-12 | 1987-03-12 | Method for verifying spelling of compound words |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63231569A true JPS63231569A (ja) | 1988-09-27 |
Family
ID=21823726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62319132A Pending JPS63231569A (ja) | 1987-03-12 | 1987-12-18 | 複合語の解析方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4777617A (ja) |
EP (1) | EP0281742B1 (ja) |
JP (1) | JPS63231569A (ja) |
CA (1) | CA1288871C (ja) |
DE (1) | DE3865321D1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264738A (ja) * | 2006-03-27 | 2007-10-11 | Casio Comput Co Ltd | 情報表示制御装置及び情報表示制御プログラム |
JP2015525928A (ja) * | 2012-07-13 | 2015-09-07 | マイクロソフト コーポレーション | フレーズに基づく辞書抽出及び翻訳品質評価 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4974195A (en) * | 1986-06-20 | 1990-11-27 | Canon Kabushiki Kaisha | Document processing apparatus |
US4868743A (en) * | 1986-11-25 | 1989-09-19 | Hitachi, Ltd. | Traversal method of processing tree structure information and apparatus using the same |
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
EP0287713B1 (en) * | 1987-04-23 | 1994-06-22 | Océ-Nederland B.V. | A text processing system and methods for checking in a text processing system the correct and consistent use of units or chemical formulae |
US5754847A (en) * | 1987-05-26 | 1998-05-19 | Xerox Corporation | Word/number and number/word mapping |
US5551026A (en) * | 1987-05-26 | 1996-08-27 | Xerox Corporation | Stored mapping data with information for skipping branches while keeping count of suffix endings |
US5560037A (en) * | 1987-12-28 | 1996-09-24 | Xerox Corporation | Compact hyphenation point data |
JP2664915B2 (ja) * | 1988-01-12 | 1997-10-22 | 株式会社日立製作所 | 情報検索システム |
US5295069A (en) * | 1991-06-05 | 1994-03-15 | International Business Machines Corporation | Computer method for ranked hyphenation of multilingual text |
DE4135261C1 (ja) * | 1991-10-25 | 1993-03-18 | International Business Machines Corp., Armonk, N.Y., Us | |
EP0579873B1 (en) * | 1992-07-20 | 1999-05-06 | Océ-Technologies B.V. | Method of reproducing text on a raster output device |
US5625554A (en) * | 1992-07-20 | 1997-04-29 | Xerox Corporation | Finite-state transduction of related word forms for text indexing and retrieval |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
DE4323241A1 (de) * | 1993-07-12 | 1995-02-02 | Ibm | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text |
JPH0877173A (ja) * | 1994-09-01 | 1996-03-22 | Fujitsu Ltd | 文字列修正システムとその方法 |
EP0702311A1 (en) * | 1994-09-14 | 1996-03-20 | Kabushiki Kaisha Toshiba | Data processing system,data retrieval system,data processing method and data retrieval method |
DE19526264A1 (de) * | 1995-07-19 | 1997-04-10 | Daimler Benz Ag | Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten |
JP3605682B2 (ja) * | 1996-05-16 | 2004-12-22 | 本田技研工業株式会社 | 音声入力制御装置 |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
US6539118B1 (en) | 1998-12-31 | 2003-03-25 | International Business Machines Corporation | System and method for evaluating character sets of a message containing a plurality of character sets |
US7103532B1 (en) | 1998-12-31 | 2006-09-05 | International Business Machines Corp. | System and method for evaluating character in a message |
US6718519B1 (en) | 1998-12-31 | 2004-04-06 | International Business Machines Corporation | System and method for outputting character sets in best available fonts |
US7039637B2 (en) | 1998-12-31 | 2006-05-02 | International Business Machines Corporation | System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search |
US6813747B1 (en) | 1998-12-31 | 2004-11-02 | International Business Machines Corporation | System and method for output of multipart documents |
US6760887B1 (en) | 1998-12-31 | 2004-07-06 | International Business Machines Corporation | System and method for highlighting of multifont documents |
US7031002B1 (en) | 1998-12-31 | 2006-04-18 | International Business Machines Corporation | System and method for using character set matching to enhance print quality |
US7191114B1 (en) | 1999-08-27 | 2007-03-13 | International Business Machines Corporation | System and method for evaluating character sets to determine a best match encoding a message |
US6626960B1 (en) * | 1999-09-01 | 2003-09-30 | International Business Machines Corporation | Method, system, and program for generating a table to determine boundaries between characters |
US6671856B1 (en) | 1999-09-01 | 2003-12-30 | International Business Machines Corporation | Method, system, and program for determining boundaries in a string using a dictionary |
SE519636C2 (sv) * | 2000-07-06 | 2003-03-25 | Hapax Information Systems Ab | Förfarande och anordning för analys av sammansatta ord |
US7092871B2 (en) * | 2000-07-20 | 2006-08-15 | Microsoft Corporation | Tokenizer for a natural language processing system |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US20040205675A1 (en) * | 2002-01-11 | 2004-10-14 | Thangaraj Veerappan | System and method for determining a document language and refining the character set encoding based on the document language |
GB0413743D0 (en) | 2004-06-19 | 2004-07-21 | Ibm | Method and system for approximate string matching |
US7538692B2 (en) * | 2006-01-13 | 2009-05-26 | Research In Motion Limited | Handheld electronic device and method for disambiguation of compound text input and for prioritizing compound language solutions according to quantity of text components |
US7698128B2 (en) * | 2006-01-13 | 2010-04-13 | Research In Motion Limited | Handheld electronic device and method for disambiguation of compound text input and that employs N-gram data to limit generation of low-probability compound language solutions |
US8630841B2 (en) | 2007-06-29 | 2014-01-14 | Microsoft Corporation | Regular expression word verification |
US8176419B2 (en) * | 2007-12-19 | 2012-05-08 | Microsoft Corporation | Self learning contextual spell corrector |
JP4993319B2 (ja) * | 2009-02-13 | 2012-08-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ソフトウェアの国際化の検証を支援する装置及び方法 |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
WO2017017738A1 (ja) * | 2015-07-24 | 2017-02-02 | 富士通株式会社 | 符号化プログラム、符号化装置、及び符号化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57113187A (en) * | 1980-12-19 | 1982-07-14 | Ibm | Method of processing text |
JPS59127138A (ja) * | 1982-12-28 | 1984-07-21 | Fujitsu Ltd | 文章の異常検査修正装置 |
JPS61128365A (ja) * | 1984-11-28 | 1986-06-16 | Toshiba Corp | ワ−ドプロセツシングシステムにおけるスペルチエツク方式 |
JPS61173379A (ja) * | 1985-01-29 | 1986-08-05 | Brother Ind Ltd | スペルチエツク装置 |
JPS61175848A (ja) * | 1985-01-31 | 1986-08-07 | Toshiba Corp | ワ−ドプロセツサにおけるスペルチエツク方式 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2555792A1 (de) * | 1975-12-11 | 1977-06-23 | Eichhorn Friedrich Prof Dr | Verfahren zur qualitaetssicherung der schweissverbindungen beim elektrischen widerstandspunktschweissen |
US4342085A (en) * | 1979-01-05 | 1982-07-27 | International Business Machines Corporation | Stem processing for data reduction in a dictionary storage file |
US4355371A (en) * | 1980-03-25 | 1982-10-19 | International Business Machines Corporation | Instantaneous alpha content prescan method for automatic spelling error correction |
US4499553A (en) * | 1981-09-30 | 1985-02-12 | Dickinson Robert V | Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words |
US4456969A (en) * | 1981-10-09 | 1984-06-26 | International Business Machines Corporation | System for automatically hyphenating and verifying the spelling of words in a multi-lingual document |
US4597057A (en) * | 1981-12-31 | 1986-06-24 | System Development Corporation | System for compressed storage of 8-bit ASCII bytes using coded strings of 4 bit nibbles |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
US4672571A (en) * | 1984-10-24 | 1987-06-09 | International Business Machines Corporation | Compound word suitability for spelling verification |
US4701851A (en) * | 1984-10-24 | 1987-10-20 | International Business Machines Corporation | Compound word spelling verification |
-
1987
- 1987-03-12 US US07/025,041 patent/US4777617A/en not_active Expired - Lifetime
- 1987-12-18 JP JP62319132A patent/JPS63231569A/ja active Pending
-
1988
- 1988-01-22 DE DE8888100948T patent/DE3865321D1/de not_active Expired - Fee Related
- 1988-01-22 EP EP88100948A patent/EP0281742B1/en not_active Expired - Lifetime
- 1988-01-29 CA CA000557768A patent/CA1288871C/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57113187A (en) * | 1980-12-19 | 1982-07-14 | Ibm | Method of processing text |
JPS59127138A (ja) * | 1982-12-28 | 1984-07-21 | Fujitsu Ltd | 文章の異常検査修正装置 |
JPS61128365A (ja) * | 1984-11-28 | 1986-06-16 | Toshiba Corp | ワ−ドプロセツシングシステムにおけるスペルチエツク方式 |
JPS61173379A (ja) * | 1985-01-29 | 1986-08-05 | Brother Ind Ltd | スペルチエツク装置 |
JPS61175848A (ja) * | 1985-01-31 | 1986-08-07 | Toshiba Corp | ワ−ドプロセツサにおけるスペルチエツク方式 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007264738A (ja) * | 2006-03-27 | 2007-10-11 | Casio Comput Co Ltd | 情報表示制御装置及び情報表示制御プログラム |
JP4720570B2 (ja) * | 2006-03-27 | 2011-07-13 | カシオ計算機株式会社 | 情報表示制御装置及び情報表示制御プログラム |
JP2015525928A (ja) * | 2012-07-13 | 2015-09-07 | マイクロソフト コーポレーション | フレーズに基づく辞書抽出及び翻訳品質評価 |
JP2018037095A (ja) * | 2012-07-13 | 2018-03-08 | マイクロソフト テクノロジー ライセンシング,エルエルシー | フレーズに基づく辞書抽出及び翻訳品質評価 |
Also Published As
Publication number | Publication date |
---|---|
CA1288871C (en) | 1991-09-10 |
EP0281742A2 (en) | 1988-09-14 |
EP0281742A3 (en) | 1988-11-23 |
EP0281742B1 (en) | 1991-10-09 |
US4777617A (en) | 1988-10-11 |
DE3865321D1 (de) | 1991-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS63231569A (ja) | 複合語の解析方法 | |
EP0266001B1 (en) | A parser for natural language text | |
JP3189186B2 (ja) | パターンに基づく翻訳装置 | |
JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
US7809744B2 (en) | Method and system for approximate string matching | |
JPS63254559A (ja) | 複合ワードのためのスペリング援助方法 | |
JPH08194719A (ja) | 検索装置および辞書/テキスト検索方法 | |
JPH0724055B2 (ja) | 単語分割処理方法 | |
US5560037A (en) | Compact hyphenation point data | |
US6535886B1 (en) | Method to compress linguistic structures | |
JPH08292955A (ja) | 言語処理方法及びそれを適用するデータ処理装置 | |
JPH0211934B2 (ja) | ||
JP2002503849A (ja) | 漢字文における単語区分方法 | |
JP2807236B2 (ja) | 形態素解析方法 | |
JPH0140372B2 (ja) | ||
JP3091540B2 (ja) | 日本語文の形態素解析方式 | |
JP2002297585A (ja) | 英文名詞句の区分方法,英文構文情報生成方法および装置 | |
JP2795038B2 (ja) | データ検索装置 | |
JPH04330565A (ja) | 自然言語処理システム | |
JP2729342B2 (ja) | 仮名漢字変換方法および装置 | |
JP2695772B2 (ja) | 仮名漢字変換装置 | |
JPH0816910B2 (ja) | 言語解析装置 | |
JPS63136264A (ja) | 機械翻訳装置 | |
JPH05324714A (ja) | 翻訳処理機における定型文処理装置 | |
JPH086951A (ja) | 電子辞書引き装置 |