JPS63236168A

JPS63236168A - 機械翻訳辞書アクセス方法

Info

Publication number: JPS63236168A
Application number: JP62070012A
Authority: JP
Inventors: Masahiro Otaka; 大高　政浩
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-03-24
Filing date: 1987-03-24
Publication date: 1988-10-03
Anticipated expiration: 2012-03-05
Also published as: JP2588522B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は機械翻訳システムのアクセス方式に係り、特に
多段辞書をアクセスするときに、品詞レベルでのマージ
をするのに好適な機械翻訳辞書アクセス方式に関する。

〔従来の技術〕

機械翻訳システムでは、基本用語辞書、専門用辞書、ユ
ーザ辞書等、多種類の翻訳辞書が使用され、それらの間
に異なる優先順位を持たせている。

このように、複数種類の翻訳辞書を多段構成とした場合
、従来はアクセスの優先順位の高い辞書で単語が見つか
ると、他の辞書は無視（アクセスしない）していた。

第２図は多段構成辞書の従来のアクセス方式を説明する
図であり、アクセスの優先順位は辞書１゜２．３の順序
で低くなるとする。図中、Ｎは名詞データ、■は動詞デ
ータ、ＡＤＶは副詞データ、ＡＤＪは形容詞データ、Ｉ
Ｄは熟語データを示す。

例えば単語ｒｅｘｐｒｅｓｓＪを検索しようとするとき
、まず辞書１をアクセスする。こＮで、単語ｒｅＸｐｒ
ａｓｓ　Ｊが存在するから、このデータを品詞テーブル
８にロードする。そして、処理を終りとする。

即ち、辞書２．辞書３のデータは無視される。

なお、多段構成辞書のアクセスに関連するものには、例
えば、特開昭５５−１３４４７７号公報が挙げられる。

〔発明が解決しようとする問題点〕

上記従来技術では、多段構成辞書のアクセス時、優先順
位の高い辞書で単語が見つかると、他の辞書をアクセス
しないため、他の辞書に含まれる有効な情報を得られず
１機械翻訳システムにおいて、例えば英文解析に失敗し
、良い翻訳が得られないという問題があった。この対策
として、ユーザ辞書のデータを十分なものにすることが
考えられるが、その作成は難しく、保守も難しくなり、
コストが非常にか＼る問題がある。

本発明の目的は、ユーザの負担、コストを軽減して、翻
訳辞書からよりよいデータを取り出して、質のよい翻訳
結果を得ることにある。

〔問題点を解決するための手段〕

上記目的は、多段構成の辞書をアクセスする時、該複数
の辞書を優先順位の高いものから順次アクセスして、複
数の辞書に同一データが存在する場合は優先順位の高い
辞書のものを取込み、複数の辞書で異なるデータについ
ては各辞書のデータを取込むことにより達成される。

〔作　用〕

ある単語による辞書アクセス時に、優先順位の高い順序
で、まず辞書１から例えば熟語データと品詞データを取
込み、次に辞＃２から熟語データと辞書１にない品詞デ
ータを取込み、更に辞書３から熟語データと辞書１．辞
書２にない品詞データを取込むというマージ操作をして
、メモリ内に単語データを構成する。このように、多段
構成辞書の各データを品詞レベルでマージすることによ
り、該当単語の全ての可能性のある品詞データを取込む
ことができる。

〔実施例〕

以下、本発明の一実施例について図面により詳細に説明
する。

第２図の従来例に対応し、本発明による多段構成辞書ア
クセス方式の具体例を第３図に示す。こ＼で、辞書１，
２．３には、この順序のアクセスの優先度がついている
とする。また、熟語データは必ず取込むとする。例えば
単語ｒｃｌｅａｒＪで、辞書をアクセスするとき、まず
辞書１より名詞データＮい動詞データＶ工、熟語データ
ＩＤ１を取込む。次に、辞書２より副詞データＡＤＶ２
．熟語データより２を取込む。最後に、辞書３より形容
詞データＡＤＪ、、熟語ＩＤ、を取込む。二Ｎで、副詞
データＡＤＶ、、及び動詞データＶ、は、既にあるので
取込まない。このようにして、取込んでマージした結果
が品詞テーブル４である。

第３図の例によれば、単語ｒｃｌｅａｒＪの可能性のあ
る品詞データを、全て取込むことが可能になる。これに
対し、第２図の従来例では、辞書２゜３に存在する単語
ｒｅｘｐｒｅｓｓＪの他の可能性のある副詞データＡＤ
ｖ２、形容詞７−タＡ　Ｄ　Ｊ　ｚ、熟語データＩＤ２
．ＩＤ、は無視される。

第１図は本発明で対象とする機械翻訳システムの一実施
例で、中央処理装置（ＣＰＵ）９、主メモリ１０、原文
テキストファイル１２、辞書ファイル１３〜１５．訳文
テキストファイル１６より成る。

メモリ１０には翻訳プログラム１１や翻訳規則の他に、
辞書をアクセスして得られる各単語の品詞テーブル４や
翻訳途中データなどが随時格納される。ファイル１３の
辞書１は例えばユーザ辞書であり、ユーザが自由に単語
情報を作成したり、修正したりすることが可能である。

ファイル１４゜１５の辞書２、辞書３はシステム提供辞
書である。

辞書２は例えば専門用語辞書であり、経済分野、法学分
野、コンピュータ分野等、ユーザに対応した辞書である
。辞書３は例えば基本用語辞書であり、基本的な文章を
翻訳するときに、最低限必要な辞書である。こ＼で、辞
書１，２．３のアクセスの優先順位は、辞書１が最高で
、次が辞書２、辞書３が最低とするのが普通である。

第４図は辞書の構造例を示したもので、辞書１゜辞書２
．辞書３ともに同じ構造をしている。辞書内にある各単
語の基本テーブル部１７には、その単語のもつ品詞とそ
の品詞情報の存在するアドレスを示すポインタ、及び熟
語（イディオム）の存在を示すフラグとイディオム情報
の存在するアドレスを示すポインタとをもつ、各ポイン
タの示すアドレスには、各品詞の品詞情報１８．１８’
、及びイディオム情報１９が入っている。

さて、第１図において、中央処理装置９は、翻訳プログ
ラム１１の制御のもとに機械翻訳を実行する。第５図は
その処理フローを示したものである。まず、ファイル１
２より原文テキストを入力し、単語分割を行う（ステッ
プ１０１）。次に、辞書ファイル１３，１４．１５をア
クセスして、各単語の情報を辞ＩＦ１．辞書２．辞書３
より取込み、それらをマージして単語毎に品詞テーブル
４をメモリ１０内に形成する（ステップ１０２）。

次に、これらの単語情報とメモリ１０に予め用意された
翻訳規則に従って翻訳を行う（ステップ１０３）。そし
て、生成された訳文をファイル１６に出力する（ステッ
プ１０４）。

第６図は辞書アクセス処理の詳細フローを示したもので
ある。

一つの単語を読取り（ステップ２’０１）、まず。

ファイル１３の辞書１をアクセスして（ステップ２０２
）、該辞書１に存在する当該単語の全品詞データと熟語
データをメモリ１０に取込む（ステップ２０３）。次に
ファイル１４の辞書２をアクセスしくステップ２０４）
、品詞データについては、辞書１に存在するものと異な
る品詞データのみを取込んで辞書１の品詞データとマー
ジしくステップ２０５．２０６）＋熟語データはそのま
＼取込んでマージする（ステップ２０７）。次にファイ
ル１５の辞書３をアクセスしくステップ２゜８）、品詞
データについては、辞書１，２に存在するものと異なる
品詞データのみを取込んで、既に取込んであるものとマ
ージしくステップ２０９゜２１０）、熟語データはその
ま＼取込んでマージする（ステップ２１１）。第６図の
処理の具体例は第１図に示した通りである。

なお、翻訳対象テキストによっては多段構成のすべての
辞書をアクセスする必要がない場合がある。第７図はこ
のような場合の実施例を示したもので、品詞レベルでの
マージをするがどうかを判別するフラグ２０を付加しく
０はオフ、１はオン）、該フラグ２０がオフの場合、そ
の辞書の情報は無視するというものである。第７図の例
では、辞書２の品詞マージフラグ２０がオフになってい
る。

この場合、辞書１と辞＃３で品詞レベルのマージをすれ
ば、辞書２ではマージをしない。これによって、辞書ア
クセスの時間の無駄を省くと２もに、辞書アクセスを柔
軟に処理することが可能になる。

〔発明の効果〕

以上の説明から明らかな如く１本発明によれば、多段構
成辞書をアクセスする時、可能性のある品詞データや熟
語データが全て取込める。そのため、ユーザ辞書は、必
要最小限のデータを記述すればよく１人的負担、メモリ
の負担ともに大幅に軽減される。また、ユーザ辞書で定
義された単語のデータを、その定義されない品詞につい
ては、システム提供辞書からマージしてくるため、当該
単語のデータが十分になり、翻訳の精度が著しく向上す
る。

【図面の簡単な説明】

第１図は本発明で対象とする機械翻訳システムの一実施
例を示す図、第２図は従来の辞書アクセスを説明する図
、第３図は本発明による辞書アクセスの具体例を示す図
、第４図は辞書の形式例を示す図、第５図は翻訳プログ
ラムの概略処理フローを示す図、第６図は翻訳プログラ
ム中の辞書アクセス処理の詳細フローを示す図、第７図
は辞書構成の他の実施例を示す図である。１．２．３・・・辞書、４・・・マージされた辞書（品詞テーブル）。Ｎ２図Ｃシ詞テーフ゛ル／晶感月テープ）し第６図

Claims

【特許請求の範囲】

（１）異なるアクセス優先順位をもつ複数の辞書を有す
る機械翻訳システムにおいて、ある単語による辞書アク
セス時、前記複数の辞書を優先順位の高いものから順次
アクセスして、複数の辞書に同一データが存在する場合
は優先順位の高い辞書のものを取込み、複数の辞書で異
なるデータについては各辞書のデータを取込むことを特
徴とする機械翻訳辞書アクセス方式。