WO2009144890A1

WO2009144890A1 - 翻訳前換言規則生成システム

Info

Publication number: WO2009144890A1
Application number: PCT/JP2009/002218
Authority: WO
Inventors: 定政邦彦; 安藤真一
Original assignee: 日本電気株式会社
Priority date: 2008-05-26
Filing date: 2009-05-20
Publication date: 2009-12-03
Also published as: JP2011186507A

Abstract

　翻訳対象文書中の表現を換言するための換言規則を、不必要な規則を含めないようにして生成する翻訳前換言規則生成システムを提供する。対訳データ記憶手段７１は、原文と訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する。翻訳可能性判定手段７２は、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する。要素対グループ形成手段７３は、目的言語側の要素が等しい要素対の集合である要素対グループを定め、換言規則生成手段７４は、要素対グループに属する要素対の原言語側の要素のうち翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能と判定された要素に置き換える規則を、換言規則として生成する。

Description

[規則37.2に基づきISAが決定した発明の名称]　翻訳前換言規則生成システム

　本発明は、翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラムを格納した記録媒体に関する。

　近年、計算機の処理能力の高まりに応じて、第１の言語（原言語）を第２の言語（目的言語）に機械的に翻訳する機械翻訳システムが人手での翻訳支援のために実用的に利用されるようになってきた。しかし、機械翻訳システムの翻訳精度が十分ではなく、機械翻訳システムが得意とする表現と不得意とする表現が存在する。

　そこで、機械翻訳システムが不得意とする表現を得意とする表現に置き換える換言規則（言い換え規則）を用意しておき、機械翻訳処理を行う前にその換言規則により翻訳対象文書中の不得意表現を予め換言することで、機械翻訳処理をより精度良く行う手法が提案されている。この技術を「技術１」と記す。そして、この技術１を用いた翻訳前換言システム（翻訳前に換言を行うシステム）の一例が特許文献１に記載されている。なお、特許文献１には、選択したルール群に対して修正を行うかどうかについての指定が使用者により、キーボードなどを利用して行われることも記載されている。

　また、原言語の文書と、その原言語文書を過去に人手で翻訳した目的言語の文書とのペア（対訳文書）に対して、文、フレーズ（句）、単語、構文木の部分構造といった要素での対応関係を用例として蓄積し、新たな翻訳対象となる入力文に対しては、その入力文の各要素と一致する原言語表現を持つ用例を捜し、その用例の目的言語表現を統計的に組み合わせることで入力文の翻訳文を作成する用例翻訳という翻訳方法が広く知られている。用例翻訳においては、用例の数が十分でない等の理由で入力文の各部分構造に一致する用例が得られない場合、高い翻訳精度を得ることができない。

　そこで原言語表現の換言（言い換え）を大量の対訳文書から自動獲得し、この換言を用いて入力文の部分構造と用例の一致率を高めることで翻訳精度を高める手法が提案されている。この技術を「技術２」と記す。技術２を用いた装置の一例が特許文献２に記載されている。特許文献２に記載された装置では、訳文が等しい文同士のことを同義文として収集し、同義文のペアの各々についてＤＰ(dynamic Programming)マッチングを適用して同義表現ペアを抽出し、「頻度」や「共起」の側面からフィルタリングを行い換言規則を得る。また、特許文献２には、最頻表現を代表とすることも記載されている。

　また、各々の要素の対応関係が付与されている原文と訳文との組を機械的に求める方法が、例えば、非特許文献１，２に記載されている。

　また、大量の対訳文書から、機械翻訳システムにとって未知の原言語表現とその翻訳結果である目的言語表現のペア（対訳表現）を自動的・半自動的に獲得する手法が知られている。この技術を「技術３」と記す。技術３を用いた対訳表現獲得システムの例が非特許文献３～５に記載されている。

特開平６－１３９２７４号公報（段落００１８－００５８）特開２００３－３２３４２６号公報（段落００６２）

Yuji Matsumoto，Hiroyuki Ishimoto (Kyoto University)，and Takehito Utsuro，"Structural Matching of Parallel Texts"，Proceedings of the 31th Annual Meeting of the Association for Computational Linguistics (ACL-93)， pp.23-30， June 1993 荒牧英治，黒橋禎夫，佐藤理史，渡辺日出雄，「用例ベース翻訳のための対訳文の句アライメント」，自然言語処理，Vol.10，No.5，pp 75-92，2003 北村美穂子，松本裕治，「対訳コーパスを利用した対訳表現の自動抽出」，情報処理学会論文誌，Vol38，No.4，pp727-736，1997 春野雅彦，「対訳テキストから辞書を自動生成」，IPSJ Magazine，Vol.40， No.4，pp.374-379，Apr. 1999 梶博行、相薗敏子，「共起語集合の類似度に基づく対訳コーパスからの対訳語抽出」，情報処理学会論文誌，Vol92，No.9，pp2248-2258，2001

　技術１を用いることにより翻訳前の文書に対して言い換えを行うシステムでは、事前に換言規則を構築しておく必要があるが、その構築には多大な手間がかかるという問題がある。換言規則を自動的に得るために、技術１に対して技術２を適用することが考えられる。

　しかし、翻訳前換言システム向けに技術２を用いて換言規則を自動構築すると、翻訳前換言システムにとっては本来必要のない換言規則を獲得してしまう可能性がある。一般に、自動構築された換言規則には一定の割合で誤りが含まれる。従って、不必要な換言規則を獲得することで換言規則の誤りも増加し、結果として換言規則を適用した文書の翻訳誤りも増加してしまう。

　そこで、本発明は、翻訳対象文書中の表現を換言するための換言規則を、不必要な規則を含めないようにして生成することができる翻訳前換言規則生成システム、翻訳前換言規則生成方法および翻訳前換言規則生成用プログラムを提供することを目的とする。

　本発明の翻訳前換言規則生成システムは、原言語で記載された翻訳対象文書の表現を置き換える換言規則を生成する翻訳前換言規則生成システムであって、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段と、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定手段と、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成手段と、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成手段とを備えることを特徴とする。

　本発明の翻訳前換言規則生成方法は、原言語で記載された翻訳対象文書の表現を置き換える換言規則を生成する翻訳前換言規則生成方法であって、対訳データ記憶手段が、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶し、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定ステップと、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成ステップと、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成ステップとを含むことを特徴とする。

　本発明の翻訳前換言規則生成用プログラムは、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段を備えたコンピュータに搭載される翻訳前換言規則生成用プログラムであって、コンピュータに、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定処理、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成処理、および、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成処理を実行させることを特徴とする。

　本発明によれば、翻訳対象文書中の表現を換言するための換言規則を、不必要な規則を含めないようにして生成することができる。

本発明の第１の実施形態の構成例を示すブロック図である。本発明の第１の実施形態の処理経過の例を示すフローチャートである。本発明の第２の実施形態の構成例を示すブロック図である。本発明の第２の実施形態の処理経過の例を示すフローチャートである。構造化対訳データの一例を示す説明図である。翻訳における対応関係の例を示す説明図である。翻訳過程で生成される対応関係を示す情報の例を示す説明図である。翻訳可能性判定結果の例を示す説明図である。本発明の概要を示す説明図である。

　以下、本発明の実施形態を図面を参照して詳細に説明する。
　以下の説明において、原言語側の要素とそれに対応する目的言語側の要素の対を要素対と呼ぶ。要素とは、原文と訳文を区切って得られる原文または訳文の一部分である。また、原言語側の要素を対応する目的言語側要素に翻訳可能であるか否かを翻訳可能性と呼ぶ。

　なお、以下の説明において
日本語の「機械」という言葉は、「machine」の意味に相当し、
日本語の「翻訳」という言葉は、「translation」の意味に相当し、
日本語の「用いて」という言葉は、「using」の意味に相当し、
日本語の「し」という言葉は、「performed」に相当し、
日本語の「た」という言葉は、「was」に相当し、
日本語の「機械語翻訳システム」という言葉は、「a machine translation system」に相当するものとする。

実施形態１．
　図１は、本発明の第１の実施形態の構成例を示すブロック図である。本発明の翻訳前換言規則生成システムは、入力手段１と、プログラム制御により動作するデータ処理装置２と、記憶装置３と、出力手段４とを備える。データ処理装置２は、翻訳可能性判定手段２１と、同義表現クラスタ生成手段２２と、換言規則生成手段２３とを含む。記憶装置３は、対訳構造記憶手段３１と、翻訳知識記憶手段３２とを含む。翻訳可能性判定手段２１、同義表現クラスタ生成手段２２、および換言規則生成手段２３は、例えば、プログラム（翻訳前換言規則生成用プログラム）に従って動作するＣＰＵによって実現される。ＣＰＵが、記憶装置に記憶されている翻訳前換言規則生成用プログラムを読み込み、そのプログラムに従って、翻訳可能性判定手段２１、同義表現クラスタ生成手段２２、および換言規則生成手段２３として動作してもよい。また、翻訳可能性判定手段２１、同義表現クラスタ生成手段２２、および換言規則生成手段２３がそれぞれ別々の回路によって実現されていてもよい。

　対訳構造記憶手段３１は、構造化された対訳データを記憶する。構造化された対訳データとは、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである。原文と訳文は、例えば、形態素や文節等で区切られる。また、原文や訳文に、形態素や文節の係り受け等の構文情報が付与されていてもよい。要素の例として、形態素、文節、それらの並び（フレーズあるいは句と呼ぶ。）、構文木の部分構造、原文や訳文の部分文字列等が挙げられる。以下、構造化された対訳データを、構造化対訳データと記す。対訳構造記憶手段３１が記憶する構造化対訳データは、入力手段１を介して入力される。

　翻訳知識記憶手段３２は、機械翻訳処理に用いられる情報（翻訳知識と記す。）を記憶する。例えば、翻訳知識記憶手段３２は、辞書データや翻訳ルールや統計情報等の翻訳知識を記憶する。翻訳知識記憶手段３２には、換言規則に従って換言された後の翻訳対象文書を機械翻訳する際に用いる翻訳知識を記憶させておけばよい。

　翻訳可能性判定手段２１は、構造化対訳データにおける原言語側のそれぞれの要素（すなわち、原文のそれぞれの要素）について、対応する目的言語側の要素（すなわち、対応する訳文の要素）に翻訳可能であるか否かを判定する。翻訳可能性判定手段２１は、例えば、翻訳知識記憶手段３２が記憶する翻訳知識を用いて辞書引きを行って訳語を特定し、訳語がその要素に対応する目的言語側の要素と一致していれば翻訳可能と判定し、一致していなければ翻訳不能と判定する。また、翻訳可能性判定手段２１は、原言語側の要素を、翻訳可能である要素と翻訳不能である要素とに区別する。

　同義表現クラスタ生成手段２２は、構造化対訳データにおける要素対のうち目的言語側の要素が等しい要素対を集める。本発明において、目的言語側の要素が等しい要素対の集合を、同義表現クラスタと記す。なお、既に説明したとおり、要素対とは、原言語側の要素とそれに対応する目的言語側の要素の対である。

　換言規則生成手段２３は、翻訳可能性判定手段２１が原文の各要素について判定した翻訳可能性の判定結果と、同義表現クラスタ生成手段２２が収集した要素対の集合である同義表現クラスタとに基づいて換言規則を生成する。すなわち、換言規則生成手段２３は、同義表現クラスタに属する要素対の原言語側の要素のうち、翻訳可能性判定手段２１によって翻訳不能と判定された要素から、同じ同義表現クラスタに属する要素対の原言語側の要素のうち、翻訳可能性判定手段２１によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する。換言規則生成手段２３は、生成した換言規則を出力手段４から出力する。

　なお、換言規則の出力態様は、特に限定されない。例えば、出力手段４がディスプレイ装置であって、換言規則生成手段２３はそのディスプレイ装置に換言規則を表示させてもよい。

　また、入力手段１は、構造化対訳データが入力される入力インタフェースである。

　次に、動作について説明する。
　図２は、本発明の第１の実施形態の処理経過の例を示すフローチャートである。まず、入力手段１から受け付けた構造化対訳データを対訳構造記憶手段３１に記憶させる（ステップＳ１）。例えば、データ処理装置２が、入力手段１を介して入力された構造化対訳データを対訳構造記憶手段３１に記憶させればよい。

　次に、翻訳可能性判定手段２１は、その構造化対訳データにおける原言語側のそれぞれの要素について、対応する目的言語側の要素に翻訳可能であるか否かを判定する。そして、翻訳可能性判定手段２１は、その判定を行った原言語側の各要素を、翻訳可能である要素と翻訳不能である要素とに区別する（ステップＳ２）。

　ステップＳ２において、翻訳可能性判定手段２１は、例えば、原言語側の要素に対する訳語を、翻訳知識記憶手段３２に記憶されている辞書データにより特定する。そして、その訳語と、その原言語側の要素に対応付けられている目的言語側の要素とが一致するならば翻訳可能と判定し、一致しなければ翻訳不能と判定すればよい。なお、この処理は、翻訳可能性判定処理の一例であり、他の方法で翻訳可能性を判定してもよい。

　続いて、同義表現クラスタ生成手段２２は、構造化対訳データにおける要素対のうち目的言語側の要素が等しい要素対を集め、同義表現クラスタとする（ステップＳ３）。

　次に、換言規則生成手段２３は、ステップＳ３で求められた同義表現クラスタ中の原言語側の要素のうち、翻訳可能性判定手段２１によって翻訳不能とされた要素を、同じ同義表現クラスタ中の、翻訳可能性判定手段２１によって翻訳可能とされた原言語側の要素へ置き換える規則を換言規則として生成し、出力手段４から出力する（ステップＳ４）。

　ステップＳ４で生成された換言規則は、翻訳対象となる原言語の文書に対して、翻訳処理前の換言（言い換え）を行う際に用いられる。すなわち、換言規則において置き換えられるとされた表現が翻訳対象文書中にあれば、換言規則に従って、その要素を他の表現に置き換える。この結果、翻訳対象文書の表現は、翻訳可能な要素を含むように言い換えられ、その後の翻訳処理において、高い精度で翻訳される。

　次に、本実施の形態の効果について説明する。
　本実施の形態では、翻訳可能性判定手段２１が、構造化対訳データにおける原言語側の要素について翻訳可能性を判定する。すなわち、原言語側の要素が翻訳可能であるか否かを判定する。そして、換言規則生成手段２３が、翻訳不能と判定された要素を、翻訳可能と判定された要素に置き換える換言規則を生成する。従って、翻訳対象文書に含まれている表現を翻訳不能な要素に言い換える換言規則が生じることがなく、そのような不必要な規則を含めないようにして、換言規則を生成することができる。

　上記の例では、翻訳可能性判定手段２１が、翻訳知識記憶手段３２に記憶された翻訳知識を用いて翻訳可能性を判定する場合を例示した。翻訳前換言規則生成システムが、翻訳知識記憶手段３２の代わりに、原文を訳文に翻訳するとともに、原文の要素と訳文における訳語との対応関係を示す情報も生成する機械翻訳手段（図１において図示せず）を備えていてもよい。この場合、翻訳可能性判定手段２１は、機械翻訳手段に構造化対訳データの原文を翻訳させ、その翻訳過程で特定される原文の要素に対応する訳語が、構造化対訳データ中でその原文の要素に対応付けられている訳文の要素と一致しているか否かを判定すればよい。そして、一致していれば、その要素について翻訳可能と判定し、一致していなければ翻訳不能と判定すればよい。また、機械翻訳手段を用いて翻訳可能性を判定する場合においても、翻訳知識記憶手段３２を備え、機械翻訳手段が翻訳知識を用いて機械翻訳を行ってもよい。

実施形態２．
　図３は、本発明の第２の実施形態の構成例を示すブロック図である。第１の実施形態の構成要素と同様の構成要素については、図１と同一の符号を付し、詳細な説明を省略する。

　第２の実施形態の翻訳前換言規則生成システムは、入力手段１と、プログラム制御により動作するデータ処理装置２と、記憶装置３と、出力手段４とを備える。記憶装置３は、第１の実施形態と同様に、対訳構造記憶手段３１と、翻訳知識記憶手段３２とを含む。

　第２の実施形態では、データ処理装置２は、翻訳可能性判定手段２１と、同義表現クラスタ生成手段２２と、換言規則生成手段２３と、換言支援手段２４と、翻訳手段２５とを含む。翻訳可能性判定手段２１、同義表現クラスタ生成手段２２、換言規則生成手段２３、換言支援手段２４、および翻訳手段２５は、例えば、プログラム（翻訳前換言規則生成用プログラム）に従って動作するＣＰＵによって実現される。ＣＰＵが、記憶装置に記憶されている翻訳前換言規則生成用プログラムを読み込み、そのプログラムに従って、上記の各手段として動作してもよい。翻訳可能性判定手段２１、同義表現クラスタ生成手段２２、換言規則生成手段２３、換言支援手段２４、および翻訳手段２５がそれぞれ別々の回路によって実現されていてもよい。

　翻訳可能性判定手段２１、同義表現クラスタ生成手段２２、および換言規則生成手段２３は、第１の実施形態と同様である。

　換言支援手段２４は、入力手段１を介して翻訳対象文書が入力されると、その文書の中で、換言規則が適用可能な箇所を特定し、そのそれぞれの箇所について、換言規則適用の可否をユーザに促し、ユーザから換言規則適用の可否を受け付ける。例えば、それぞれの箇所毎に、換言規則に従って換言を行うという指示や、換言を行わないという指示が換言支援手段２４に入力される。

　さらに、換言支援手段２４は、言い換えると指定された箇所の表現に対し、換言規則に従う換言を確定する。

　翻訳手段２５は、換言支援手段２４が表現の換言を行った翻訳対象文書を目的言語の文書に翻訳する。翻訳手段２５は、この翻訳の際に、翻訳知識記憶手段３２に記憶されている翻訳知識を用いて翻訳処理を行う。

　次に、第２の実施形態の動作について説明する。
　図４は、本発明の第２の実施形態の処理経過の例を示すフローチャートである。換言規則生成手段２４が換言規則を生成するまでの動作（ステップＳ１～Ｓ４）は、第１の実施形態で説明したステップＳ１～Ｓ４の動作と同様である。

　換言規則が生成された後、換言支援手段２４は、入力手段１を介して、翻訳対象文書を受け付ける（ステップＳ５）。

　続いて、換言支援手段２４は、ステップＳ５で入力された翻訳対象の文書において、換言規則生成手段２３が生成した換言規則が適用可能な箇所を特定し、その箇所における換言規則適用の可否判断をユーザに促す。換言支援手段２４は、換言規則に従って換言を行うという指示が入力されたならば、その箇所の表現を換言規則に従って変更し、換言を行わないという指示が入力された場合、その箇所における表現は変更しない（ステップＳ６）。

　なお、換言規則生成手段２３は、ステップＳ４で生成した換言規則を記憶装置３に記憶させ、換言支援手段２４は、後述のステップＳ６において、記憶装置３に記憶されている換言規則を参照してもよい。

　換言支援手段２４は、翻訳対象の文書において換言規則が適用可能な全ての箇所についてステップＳ６の処理を完了したか否かを判定する（ステップＳ７）。完了していなければ（ステップＳ７におけるＮｏ）、ステップＳ６の処理を繰り返す。完了していれば（ステップＳ７におけるＹｅｓ）、ステップＳ８に移行する。

　ステップＳ８において、翻訳手段２５が、ステップＳ６の換言処理後の翻訳対象文書を目的言語の文書に翻訳する。翻訳手段２５は、翻訳知識記憶手段３２に記憶されている翻訳知識を参照して翻訳処理を行う。翻訳手段２５は、翻訳された目的言語の文書を出力手段４から出力する。翻訳された文書の出力態様は、特に限定されない。例えば、出力手段４がディスプレイ装置であって、翻訳手段２５はそのディスプレイ装置に翻訳後の文書を表示させてもよい。

　なお、本実施形態では、翻訳対象の文書が入力される前に、換言規則を生成する場合を例にして説明したが、翻訳対象の文書が入力された後に換言規則を生成してもよい。

　また、第２の実施形態では、換言規則が適用された翻訳対象文書に対して翻訳手段２５が機械翻訳を行うので、第２の実施形態の翻訳前換言規則生成システムは機械翻訳システムと称することもできる。

　次に、本実施形態の効果について説明する。本実施形態では、第１の実施形態と同様に、不必要な規則を含めないようにして換言規則を生成することができる。また、換言支援手段２４が、翻訳対象の文書において換言規則が適用可能な箇所を特定し、その箇所における換言規則適用の可否判断をユーザに促すので、ユーザは、換言規則に従った表現の変更が適切かを確認することができる。そして、換言規則には不必要な規則は含まれていないので、そのような確認のための負担は少なくて済む。

　次に、第１の実施形態および第２の実施形態の実施例をそれぞれ説明する。以下の説明では、換言により精度を向上させる機械翻訳処理が、日本語を翻訳元の言語(原言語)とし、英語を翻訳先の言語（目的言語）としている場合を例にして説明する。ただし、原言語は日本語に限定されるわけではなく、目的言語も英語に限定されない。原言語や目的言語が任意の言語であっても、本発明の効果を得ることができる。

　まず、第１の実施形態の実施例について、図１，２等を参照して説明する。

　翻訳知識記憶手段３２は、換言規則に従って換言された後の翻訳対象文書を機械翻訳する際に用いる翻訳知識（例えば、翻訳辞書、翻訳規則、頻度情報等）を記憶する。

　例えば、入力手段１を介して構造化対訳データが入力されると、データ処理装置が、その構造化対訳データを対訳構造記憶手段３１に記憶させる（ステップＳ１）。既に説明したように、構造化されたデータとは、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである。

　原文および訳文を要素（例えば形態素等の要素）に区切ったり、原文や訳文に構文情報を付与する処理は、人手で行ってもよい。あるいは、形態素解析システムや構文解析システムで行ってもよい。また、原文の要素と訳文の要素を対応付ける処理も、人手で行っても、あるいは、情報処理装置が行ってもよい。例えば、情報処理装置が、非特許文献１や非特許文献２に記載された方法で構造化対訳データを生成してもよい。また、換言の単位としない種類の要素に関係のない情報は、必ずしも構造化対訳データに付与されていなくてもよい。例えば、木構造レベルの換言規則を生成しなければ、構造化対訳データに係り受けに関する構文情報が付加されていなくてもよい。

　図５は、構造化対訳データの一例を示す説明図である。図５に示す例では、構造化対訳データにおける原文および訳文に、構文木の情報が付与され、単語やフレーズ単位の対応関係が定められている。

　図５に示す例では、対応関係にある原言語の表現と目的言語の表現とを実線で結んで示している。例えば、原言語の「機械」と目的言語の「machine 」とが対応関係にあり、同様に、「翻訳した」と「Translation was performed 」とが対応関係にある。また、図５に示す点線は単語からなる文節を表す。また、原文の上および訳文の下に示す実線による木構造は、構文木の構造を表し、線と線の交点が係り受けを表している。線が交点部分よりも先に延びている側が構文木上のヘッド（親）である。例えば、「機械翻訳システムを」と「用いて」では「用いて」の方がヘッドとなる。文節やヘッドの定義は実装形態により異なっていてもよい。文節やヘッドの概念は言語処理に従事する者の間では広く知られているため説明を省略する。

　翻訳可能性判定手段２１は、ステップＳ２（図２参照）で、対訳構造記憶手段３１に記憶されている各構造化対訳データの原言語側の各要素を、対応する目的言語側の要素に翻訳可能であるか否かを判定し、翻訳可能である要素とそうでない要素を区別する。

　例えば、構造化対訳データの１つとして、図５に例示するデータがあるとする。この構造化対訳データにおける要素の例は、次のようになる。

　図５に例示する構造化対訳データにおいて、単語レベルの要素として、原言語側では、「機械」、「翻訳」、「を」、「用いて」、「翻訳」、「し」、「た」等が挙げられる。
　また、目的言語側では、「translation 」、「was 」、「performed 」、「using 」、「a 」、「machine 」、「translation 」、「system」等が挙げられる。ただし、ここで示した単語レベルの要素は一例であり、単語の単位は、構造化する際（すなわち対応関係を定める際）に適宜定めてもよい。また、翻訳対象文書における換言の単位により、適宜定めてよい。

　図５に示す例において、フレーズレベルの要素として、原言語側では、「機械翻訳システムを」、「を用いて」、「翻訳した」等が挙げられる。目的言語側では、「was performed 」、「a machine translation system」等が挙げられる。フレーズは、好適には、翻訳システムの研究開発や言語解析システムの解説・研究の際に利用・言及される文法的な一単位であればよい。例えば、フレーズの例として、名詞句、前置詞句、動詞句、動名詞句等があり、日本語の場合には文節、英語の場合にはchunk 等が挙げられる。図５に示す例では、「機械翻訳システムを」は名詞句でありかつ一文節であり、「を用いて」は長単位助詞である。ただし、本例は一例であり、構造化する際に用いた解析手段や求めたい換言の単位の定義によりフレーズレベルとして考慮する要素の単位は変化してよい。

　単語の並びレベルの要素は、原文や訳文の一部分となる任意の数の単語の並びであり、図５に示す例では、例えば、原言語側では「翻訳システムを用いて」「システムを用いて翻訳した」「＊を用いて翻訳した」等が挙げられる。ただし、本例は一例であり、単語の並びレベルとして考慮する要素の単位は主に求めたい換言の単位の定義により変化してよい。また、単語の並びの中に間が存在してもよい。間は、一つないし複数の単語が存在することを示す部分である。例えば、「＊を用いて翻訳した」なる例では、「＊」が間に該当する。本例では、記号「＊」は、一つないし複数の単語による何らかの表現が存在することを意味する。なお、技術２においては、単語の並びレベルでの換言規則を主に扱っている。

　構文木の部分木レベルの要素は、構文木の任意の一部分である。例えば、（Ａ，Ｂ）なる表記によって、Ａという表現がＢという表現に係るという係り受け構造を表すとする。図５に示す例では、（機械翻訳システムを，用いて）、（（＊を，用いて），翻訳した）等を、構文木の部分木レベルの要素とすることができる。ただし、本例は一例であり、部分木レベルとして考慮する要素の単位は主に求めたい換言の単位の定義により変化してよい。上記のように、「＊」は何らかの表現の存在を表す。換言規則では、木構造上で子供がいるか否かによって挙動が異なることが多いため、何らかの表現が存在することを意味する「＊」のような記号で要素を表現可能とすることが重要となる。

　翻訳可能性判定手段２１は、各々の要素についての翻訳可能性を判定する際に、まず、単語レベルおよびフレーズレベルの要素について翻訳可能であるか否かを確認する。この確認処理の好適な例を以下に示す。翻訳可能性判定手段２１は、本発明の翻訳前換言規則生成システムが生成する換言規則によって翻訳精度を向上させる機械翻訳手段（図１において図示せず。）を用いて、構造化対訳データの原言語側表現全体（構造化対訳データにおける原文全体）を翻訳する。なお、この機械翻訳手段は、例えば、第２の実施形態で示した翻訳手段２５であってもよい。一般に、機械的に翻訳を行う機械翻訳手段は、原文全体に含まれる各々の単語や文節が、訳文におけるどの単語や文節と対応しているかという対応関係を示す情報も翻訳過程で生成する。

　本実施例では、翻訳精度を向上させる対象となる機械翻訳手段も、この対応関係を示す情報を生成するものとする。なお、この場合、翻訳前換言規則生成システムは、翻訳知識格納手段３２を必須に備えている必要はなく、代わりに、原言語の原文の入力を受けて目的言語に翻訳して出力する機械翻訳手段を備える。翻訳可能性判定手段２１は、機械翻訳手段を用いて構造化対訳データにおける原文全体を翻訳すると、翻訳過程で生成された上記の対応関係を示す情報に基づいて、原文における単語に対する翻訳結果が、構造化対訳データにおけるその単語に対応する訳文の要素と一致する文字列となっているか否かを判定する。

　例えば、図５に例示する構造化対訳データでは、原言語側表現全体（原文）は、「機械翻訳システムを用いて翻訳した」である。この原文を機械翻訳手段によって翻訳した結果が「It was translated using machine translation system. 」であったとする。図６は、この翻訳における対応関係を示す説明図である。図６に示す実線は、原言語の単語またはフレーズが、目的言語のどの単語またはフレーズに対応しているかを示している。本例では、「機械」という単語は「machine 」という訳語を持ち、「システム」という単語は「system」という訳語を持っていることが分かる。また、図７は、この翻訳過程で生成される対応関係を示す情報の例を示す説明図である。ここでは、説明を簡単にするために、単語対単語の関係を例にして説明するが、機械翻訳手段によって原言語と目的言語の対応関係が単語対単語以外（単語対フレーズやフレーズ対フレーズ等）について定められる場合であっても、以下の処理を行えばよい。

　翻訳可能性判定手段２１は、翻訳過程で生成された単語およびフレーズレベルでの対応関係を示す情報と、構造化対訳データにおいて定められている要素の対応関係とを参照する。そして、原文に含まれる単語やフレーズの要素に対して翻訳過程で対応するとして訳文に含められた単語やフレーズと、構造化対訳データにおいてその要素に対応すると定められた要素とが一致していれば、その要素について翻訳可能であると判定し、一致していなければ翻訳不能であると判定する。例えば、図５に示す原言語側の１つめの表現である「機械」は、構造化対訳データ上で「machine 」という要素に対応している。また、この「機械」は、機械翻訳手段による訳語「machine 」と一致する。従って、翻訳可能性判定手段２１は、「機械」に関して「翻訳可能」と判定する。図５に示す原言語側の２～４番目の表現も同様に「翻訳可能」と判定されるが、５番目の表現「翻訳した」に関しては、構造化対訳データ上で対応付けられている「translation was performed 」と、機械翻訳手段による訳語「be translated」とが異なるため、「翻訳不能」と判定される。

　また、上記の例では、翻訳可能性判定手段２１が、原言語表現全体を機械翻訳手段で機械翻訳することによって単語レベル・フレーズレベルでの翻訳可能性を判定する場合を示した。機械翻訳を行う代わりに、翻訳精度を向上させる対象となる機械翻訳用の辞書データ（本例では日英翻訳辞書）で辞書引きすることにより、構造化対訳データ中の原文の要素に対応する訳語を求め、その訳語が、その原文の要素に対応する訳文の要素と一致するならば、翻訳可能と判定し、一致しなければ翻訳不能と判定してもよい。例えば、図５に示すように「機械」と「machine 」が対応付けられている場合に、「機械」を辞書データで辞書引きしたときに「machine 」という訳語が得られれば、翻訳可能と判定してもよい。

　また、機械翻訳手段によって機械翻訳を行う場合であっても、辞書データを用いて辞書引きを行う場合であっても、必ずしも、機械翻訳や辞書引きの結果得られる第１候補と構造化対訳データ中の訳文の要素とが一致していなくてもよい。第１候補が、構造化対訳データ中の訳文の要素と一致していなくても、第２候補以下の候補が一致するならば、翻訳可能性判定手段２１は翻訳可能と判定してもよい。第２候補以下での一致を見る場合でも、訳文の書き換えを行わなくても訳語選択によって望みの訳文が得られるようになりやすくなる。

　次に、翻訳可能性判定手段２１は、単語レベル・フレーズレベルでの翻訳可能性を元に、更に大きな単位の要素の翻訳可能性を調べる。その大きな単位の要素に含まれる単語やフレーズに「翻訳不能」なものが存在しなければ、翻訳可能性判定手段２１は、その要素について「翻訳可能」と判定し、「翻訳不能」なものが存在していれば「翻訳不能」と判定する。例えば、「機械翻訳システム／machine translation system」というフレーズレベルの要素対に関しては、「機械とmachine 」、「翻訳とtranslation 」、「システムとsystem」というそれぞれの対応関係毎に翻訳可能と判定され、各々の構成要素が過不足無く対応しているので、翻訳可能とする。単語やフレーズより大きな要素の翻訳可能性を判定するときには、その要素に含まれる名詞、動詞、形容詞、副詞、接続詞や一部の助詞、助動詞など、単語自体に明らかな意味がある語、言い換えれば、原言語の場合は目的言語、目的言語の場合には原言語に典型的な訳出表現が存在する語について、翻訳可能であるか否かを判定していけばよい。例えば、「を」、「a 」、「is」については、他方の言語で訳出しないことが多いため、確認対象としなくてもよい。木構造レベルの要素対である「（（（＊　を）　用いて）　翻訳した）　／「（Ｔｒａｎｓｌａｔｉｏｎ　（ｗａｓ　ｐｅｒｆｏｒｍｅｄ）　（ｕｓｉｎｇ　＊））」に関しては、「翻訳した」に対応する表現である「ｂｅ　ｔｒａｎｓｌａｔｅｄ」が構造化対訳データに存在しないため、要素全体としての翻訳可能性も「翻訳不能」とする。

　翻訳可能性判定手段２１は、他の構造化対訳データについても、要素毎に翻訳可能性を判定する。図８は、翻訳可能性判定手段２１による翻訳可能性判定結果の例を示す説明図である。図８では、構造化対訳データの要素対に対する翻訳可能性判定結果のうちの一部を示している。図８に示すＩＤは、説明の便宜上、要素対を区別するために付した識別情報である。出現頻度は、要素の翻訳可能性を判定した構造化対訳データ全体の中で、該当する要素対が出現する回数である。すなわち、出現頻度とは、構造化対訳データにおいて対応すると定められた原言語側の要素と目的言語側の要素同士の組み合わせが同一の組み合わせとなっている要素対の数である。翻訳可能性判定手段２１は、翻訳可能性判定時に、各要素対が、構造化対訳データ全体で出現する回数をカウントして、要素対と、翻訳可能性判定結果と、出現回数とを対応付けてもよい。

　以下、説明を簡単にするため、単語レベルやフレーズレベルに関して説明するが、他のレベルの要素に関しても同様に処理を行えばよい。

　各要素の翻訳可能性判定後、同義表現クラスタ生成手段２２は、原言語の要素の翻訳可能性を判定した各要素対を、目的言語側の要素が等しい要素対毎に分類する。図８に示す例では、ＩＤが"１"，"３"，"４"，"５"の要素対では、それぞれ目的言語側の要素が"machine translation system"であり等しい。従って、同義表現クラスタ生成手段２２は、目的言語側の要素が共通となっているＩＤ"１"，"３"，"４"，"５"の要素対を同一グループに分類する（ステップＳ３）。この目的言語側要素を共通とする各要素対の集合が同義表現クラスタである。

　次に、換言規則生成手段２３は、ステップＳ３で生成された各同義表現クラスタから換言規則を生成する。換言規則生成手段２３は、個々の同義表現クラスタの中で、翻訳可能性判定手段２１によって翻訳不能とされた要素を、翻訳可能とされた原言語側の要素へ置き換える規則を、換言規則として抽出する（ステップＳ４）。例えば、上記のＩＤ"１"，"３"，"４"，"５"の要素対を含む同義表現クラスタでは、ＩＤ"１"，"５"の要素対では翻訳可能と判定され、ＩＤ"３"，"４"の要素対では翻訳不能と判定されている。換言規則生成手段２３は、ＩＤ"３"またはＩＤ"４"における原言語側の要素を、ＩＤ"１"またはＩＤ"５" における原言語側の要素に置き換える規則を換言規則として定める。

　ステップＳ４において、換言規則生成手段２３は、原言語側の翻訳不能な要素を、原言語側の翻訳可能な要素であって出現頻度が高い要素対における原言語側の要素に置き換える規則を換言規則として定めることが好ましい。例えば、ＩＤ"５"の要素対とＩＤ"１"の要素対とで出現頻度を比較すると３２７０＞１２４となっていて、ＩＤ"１"の要素対の方が出現頻度が多い。したがって、換言規則生成手段２３は、ＩＤ"３"またはＩＤ"４"における原言語側の要素を、ＩＤ"１" における原言語側の要素に置き換える規則を換言規則とすればよい。つまり「自動翻訳システム→機械翻訳システム」、「自動通訳システム→機械翻訳システム」という換言規則を定めればよい。なお、「Ｐ→Ｑ」は、「ＰをＱに置き換える」という換言規則を表すものとする。

　このように、翻訳可能と判定された要素対が複数あり、その各要素対の出現頻度が異なる場合、翻訳不能な原言語側要素を、出現頻度が低い要素対（例えば、出現頻度が最大となる要素対以外の要素対）の原言語側要素に置き換える規則は換言規則から除外してもよい。そして、例えば、翻訳不能とされた要素を、翻訳可能と判定されていて、出現頻度が最大となっている要素対の原言語側の要素に置き換える規則を換言規則として定めてもよい。

　具体例を用いて、本発明の効果を技術２と対比して説明する。
　仮に、図８に例示する構造化対訳データに対して技術２を適用して換言規則を生成するとする。技術２では、「マシントランスレーションシステムおよびmachine translation system」という要素対に関しての翻訳可能性が考慮されないため、結果として「マシントランスレーションシステム→機械翻訳システム」という換言規則が得られてしまう。しかし、ＩＤ"５"の要素対に関しては「翻訳可能」であり、元々、「マシントランスレーションシステム」なる原言語表現を正しく"machine translation system"と翻訳することが可能となっている。翻訳精度を向上させようとする機械翻訳システムが不得意な表現を換言するという目的からは、元々、翻訳可能であった「マシントランスレーションシステム」を他の表現に変換する必要はない。技術２では、このように必要のない換言規則を獲得してしまうことにより、誤った換言規則を増やす危険性があった。

　一方、本発明では、翻訳可能性判定手段２１が、原言語側の要素が翻訳可能であるか否かを判定し、換言規則生成手段２３が、翻訳不能と判定された要素を、翻訳可能と判定された要素に置き換える換言規則を生成する。従って、最初から翻訳可能であった要素を他の要素に置き換えるような不必要な換言規則を生成することはなく、上記の問題の発生を抑制することができる。

　また、生成する換言規則の精度をさらに高めるための変形例を示す。

　第１の変形例を示す。構造化対訳データ内の複数の要素対において、目的言語側の複数種類の要素が原言語側の共通の要素に対応付けられている場合がある。すなわち、同一の原言語側要素を持つ要素対が複数存在する場合がある。そのような要素対が定められている場合、同義表現クラスタ生成手段２２は、より高頻度の要素対のみを同義表現クラスタに属させて、他の要素対に関しては同義表現クラスタに属させる対象外としてもよい。例えば、同一の原言語側要素を持つ要素対のうち、出現頻度が最も高い要素対のみを同義表現クラスタに属させ、他の要素対は同義表現クラスタに属させる対象外としてもよい。そして、換言規則生成手段２３は、そのように生成された同義表現クラスタを用いて換言規則を生成してもよい。

　一般に、目的言語表現が異なる場合は、同じ原言語表現でも若干意味合いが異なると考えられる。そのため、その原言語要素にとって低頻度な目的言語要素との要素対が属する同義表現クラスタは、その原言語要素にとって利用頻度の低い換言が含まれる同義表現クラスタである可能性が高い。例えば、その同義表現クラスタからは、利用頻度の少ない表現への換言規則が生成される可能性が高く、そのような換言規則による換言は適当でない場合がある。同義表現クラスタ生成手段２２が、出現頻度の最も多い要素対のみを同義表現クラスタに属させることで、出現頻度の少ない要素対を含む同義表現クラスタから換言規則を生成することを抑制し、誤った換言規則生成を抑制することができる。

　なお、同義表現クラスタ生成手段２２が、同一の原言語側要素を持つ要素対をそれぞれ同義表現クラスタに属させ、換言規則生成手段が、その要素対のうち、出現頻度の最も多い要素対以外の要素対における原言語の要素への換言規則を、換言規則から除外してもよい。この場合も、同様の効果が得られる。

　第２の変形例を示す。構造化データにおいて、同一の原言語側要素を持つ要素対が複数存在しているとする。そして、そのうち原言語側要素が翻訳可能と判定されたある一つの要素対（第１の要素対と記す。）が存在しているとする。さらに、第１の要素対の出現頻度が、その複数の要素対における原言語側要素が翻訳不能と判定された他の要素対（第２の要素対と記す。）の出現頻度よりも多いとする。この場合、同義表現クラスタ生成手段２２が、その第２の要素対を同義表現クラスタに属させる対象外としてもよい。すなわち、同一の原言語側要素を持つ要素対が複数存在し、その中に翻訳可能と判定された要素対があり、その要素対よりも出現頻度が少なく、翻訳不能と判定された要素対が存在する場合、その要素対を同義表現クラスタに属させる対象から除外してもよい。

　共通の原言語側要素を持つ各要素対の出現頻度が違う場合、その原言語側要素の訳として、第２の要素対の目的言語側要素より、第１の要素対の目的言語側要素の方が一般的である。そのため、敢えて、その原言語側要素から第２の要素対の目的言語側要素に訳出可能にする換言行為は一般に翻訳精度の低下に繋がる。従って、第２の変形例のように動作することで、第２の要素対における原言語側要素に換言するような換言規則の生成を抑制することができ、誤った換言規則生成を抑制できるという効果が得られる。

　図８に示す例を用いて説明すると、ＩＤ"３"の「自動翻訳システム」という原言語要素に対して対応する"machine translation system"という訳語は翻訳不能である。一方、その「自動翻訳システム」という原言語側要素を持ち、出現頻度がＩＤ"３"より高い要素対（ＩＤ"２"）が存在する。従って、同義表現クラスタ生成手段２２は、ＩＤ"３"を同義表現クラスタに含めず、その結果、換言規則生成手段２３は、ＩＤ"３"を元にした換言規則を生成しない。これにより、出現頻度から見ても、"machine translation system"という訳語より"automatic translation system"という訳語の方がふさわしい「自動翻訳システム」という原言語表現に対して換言規則を適用し、「機械翻訳システム」に置き換えることによって、よりふさわしくない"machine translation system"という訳になるのを防ぐことができる。

　同義表現クラスタ生成手段２２が、第２の要素対も同義表現クラスタに属させてもよい。この場合であっても、換言規則生成手段２３が第２の要素対に該当する要素対から換言規則を生成することを禁止することで同様の効果が得られる。

　また、換言規則の作成方法として、特許文献２に記載された装置のように、訳文が同一な対訳に関して原文側の差分箇所を求めるという方法で作成してもよい。

　また、実際には、換言の単位が１単語等短すぎる（要素が小さすぎる）場合でも、あるいは、逆に１０単語等のように長すぎる（要素が大きすぎる）場合でも、換言規則としては問題を生じやすい。例えば、短すぎる場合には、換言を行うための条件が適切に換言の単位に含まれないため、不適切な文脈での換言が多くなり、結果として誤った換言となり易い。逆に長すぎる場合には、換言としては問題が少ないが、換言を行うための条件が厳密になりすぎるため、実際には換言が殆ど行われなくなってしまう。よって、本発明を実施するにあたっては、適切な長さ（要素の大きさ）の換言単位を選定することが好ましい。例えば、各要素の出現頻度が一定以下のものを除外することで、長すぎる要素を抑制したり、短くイレギュラーな翻訳を抑制したりできる。また、ある原言語の要素に対して、得られた訳が複数ある場合には、その最も頻度が高い訳をのみ対象にして換言規則獲得処理を行うことで適切な適用条件の含まれない換言規則を抑制したりといったことが可能となる。また、文節単位のみを対象としたり、特定の品詞の並び方に合致した単位のみを対象にするといった方法も適切な単位での換言規則の生成に役立つ。

　次に、第２の実施例について、図３，４を参照して説明する。

　翻訳知識記憶手段３２が記憶する情報は、第１の実施例と同様である。また、入力手段１から構造化対訳データが入力され、換言規則生成手段２３が換言規則を生成するまでの動作（ステップＳ１～Ｓ４）も第１の実施例と同様である。

　ステップＳ４の後、換言支援手段２４には、入力手段１を介して、原言語で記述された翻訳対象の文書が入力される。

　続いて、換言支援手段２４は、入力された翻訳対象文書を表示する。例えば、出力手段４がディスプレイ装置であり、そのディスプレイ装置に翻訳対象文書を表示させてもよい。翻訳対象文書を表示するときに、換言支援手段２４は、その翻訳対象文書中で、ステップＳ４にて生成された換言規則が適用可能な箇所を特定する。例えば、換言規則において置き換えられる側の要素に合致する表現が存在する箇所を、換言規則が適用可能な箇所として特定すればよい。さらに、換言支援手段２４は、その箇所において、換言規則を適用するか否かの判断をユーザに促す。この動作の態様は種々存在するが、好適には、換言支援手段２４は、翻訳対象文書を表示するときに、換言規則を適用して換言を行った結果を表示し、その換言を行った箇所を、翻訳対象文書内の他の箇所とは異なる表示態様で表示させることで、換言箇所における換言を確定してよいか否かの判断をユーザに促す。換言を行った箇所を翻訳対象文書内の他の箇所とは異なる表示態様で表示する例として、例えば、色を変えたり、点滅させたり、換言結果を別リストとして表示させたりすることが挙げられる。このような表示態様でユーザの注意を引き付け、換言を行うか否かをユーザに判断させればよい。

　換言を確定するという指示や、換言を行わないという指示の入力は、例えば、マウスやキーボード等の入力装置を介して行う構成とすればよい。ユーザは、換言規則を適用した換言結果の表現と、換言規則適用前の表現とで意味が異なるか否かを判断し、異ならないならば、換言を確定するという指示を入力し、意味が異なれば、換言を行わないという指示を入力すればよい。換言支援手段２４は、換言を確定するという指示が入力されると、確定と指示された箇所の表示を翻訳対象文書内の他の箇所と同様の表示態様で表示する。また、換言を行わないと指示された箇所の表現を、換言規則適用前の元の表現に戻す。

　換言規則を適用してよいか否かの確認の受付方法は、上記の方法に限定されない。例えば、これまでに数多く提案されている文書校正支援システムが校正対象と判断した表現を本当にシステムが用意した校正候補に置き換えてよいか否かの確認を受け付ける種々の方法を採用することが可能である。

　続いて、翻訳手段２５は、換言規則をユーザの判断により適切に適用した結果の原言語文書を目的言語に翻訳する（ステップＳ８）。翻訳手段２５は、翻訳によって得た目的言語の文書を出力手段４に出力する。

　具体例を用いて、本発明の効果を技術２と対比して説明する。
　実施例１で説明したとおり、図８に例示する構造化対訳データに対して技術２を適用して換言規則を生成する場合、「マシントランスレーションシステムおよびmachine translation system」という要素対に関しての翻訳可能性が考慮されないため、結果として「マシントランスレーションシステム→機械翻訳システム」という換言規則が得られてしまう。しかし、元々「マシントランスレーションシステム」なる原言語表現を正しく"machine translation system"と翻訳することが可能となっている。そのため、翻訳精度を向上させようとする機械翻訳システムが不得意な表現を換言するという目的からは、元々、翻訳可能であった「マシントランスレーションシステム」を他の表現に変換する必要はない。このような必要のない換言規則を生成してしまうことにより、その換言規則による換言を翻訳対象文書に適用するか否かという確認作業が増えてしまう。

　本実施例では、不必要な換言規則の生成を防止しているので、生成した換言規則に従って翻訳対象文書の表現の換言を行うか否かの確認作業の増加を抑制することができる。

　また、本発明の他の効果を、技術３と対比して説明する。
　特許の分野では、昨今の国際化社会の進展により、企業における外国出願による海外での発明権利化が重要視されており、明細書等をより速く正確に翻訳することが求められている。ただし、発明の技術分野に詳しく、かつ翻訳能力も高い人材を数多く揃えることは困難であるため、翻訳前に表現の曖昧性が無くなるように前編集する人間と、その後翻訳する人間とにより役割分担を行うようになってきた。さらに、翻訳者の負担を減らす目的で翻訳時に機械翻訳システムを利用する例も増えてきている。つまり、特許翻訳の分野では、翻訳対象文書の翻訳前に必ずしも目的言語に明るくない人間が翻訳対象文書に対して何らかの前編集を行い、その後、編集された文書に対して機械翻訳をかけるという作業フロー（分業翻訳作業フロー）が生じている。また、特許翻訳に限らず、翻訳結果に正確性が求められ、内容が多岐にわたり、多くの文書の翻訳する必要がある他分野の翻訳（例えば、契約文書等の法律文書の翻訳等）でも同様の作業フローが生じうる。技術３のように、対訳コーパスから翻訳知識の形で知識を獲得してしまうと、その適用結果の可否を判定するためには、目的言語表現の可否を判定することとなり、その結果、目的言語に詳しい人間にしか作業を行えなくなる。

　本発明では、換言規則生成手段２３が、原言語側の翻訳不能と判定された要素を、原言語側の翻訳可能と判定された要素に置き換える換言規則を生成する。そして、翻訳対象文書においてその換言規則を適用するか否かの判断をユーザに促すが、翻訳対象文書も、置き換えられる要素および置き換わる要素も、原言語である。従って、目的言語に詳しくなくても、換言規則を適用した結果が不自然になるか否かを判断することができる。よって、換言規則を適用するか否かの判断を、目的言語に詳しくなくても効率的に行うことができる。

　次に、本発明の概要について説明する。図９は、本発明の概要を示す説明図である。本発明の翻訳前換言規則生成システムは、対訳データ記憶手段７１と、翻訳可能性判定手段７２と、要素対グループ形成手段７３と、換言規則生成手段７４とを備える。

　対訳データ記憶手段７１（例えば、対訳構造記憶手段３１）は、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データ（構造化対訳データ）を記憶する。

　翻訳可能性判定手段７２（例えば、翻訳可能性判定手段２１）は、対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する。

　要素対グループ形成手段７３（例えば、同義表現クラスタ生成手段２２）は、対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める。

　換言規則生成手段７４（例えば、換言規則生成手段２３）は、要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段７２によって翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段７２によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する。

　以上のような構成により、原言語側の要素が翻訳可能であるか否かを翻訳可能性判定手段７２が判定し、換言規則生成手段７４が、翻訳不能と判定された要素を、翻訳可能と判定された要素に置き換える換言規則を生成する。従って、翻訳対象文書に含まれている表現を翻訳不能な要素に言い換える換言規則が生じることがなく、そのような不必要な規則を含めないようにして、換言規則を生成することができる。

　また、上記の実施形態および実施例には、原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を記憶する翻訳知識記憶手段（例えば、翻訳知識記憶手段３２）を備え、翻訳可能性判定手段７２が、翻訳知識を用いて対訳データにおける原文の要素の訳語を求め、その訳語と対訳データにおける訳文の要素とが一致する場合に原文の要素に関して翻訳可能と判定し、一致しない場合に原文の要素に関して翻訳不能と判定する構成が開示されている。

　また、上記の実施形態および実施例には、原文を訳文に翻訳し、原文の要素とその訳文における訳語とを対応付ける機械翻訳手段を備え、翻訳可能性判定手段７２が、対訳データにおける原文を機械翻訳手段に翻訳させ、機械翻訳手段によって原文の要素に対応付けられた訳語が、対訳データで原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの原文の要素に関して翻訳可能と判定し、一致しない場合に対訳データの原文の要素に関して翻訳不能と判定する構成が開示されている。

　また、対訳データで原言語側の要素が共通である複数の要素対が存在するときに、その複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外する要素対除外手段（例えば、実施例１の第１の変形例で説明した同義表現クラスタ生成手段２２）を備える構成が開示されている。

　また、対訳データで原言語側の要素が共通である複数の要素対が存在し、その複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第１の要素対の出現頻度が、その複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第２の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から第２の要素対を除外する要素対除外手段（例えば、実施例１の第２の変形例で説明した同義表現クラスタ生成手段２２）を備える構成が開示されている。

　また、換言規則生成手段７４が、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段７２によって翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成する構成が開示されている。

　また、換言規則生成手段７４に生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、その箇所の表現を換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、その箇所の表現を換言規則に従って置き換えることを確定する換言支援手段（例えば、換言支援手段２４）を備える構成が開示されている。

　また、換言支援手段が、翻訳対象文書が機械翻訳される前に、換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、その箇所の表現を換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、その箇所の表現を換言規則に従って置き換えることを確定する構成が開示されている。

　上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ、ＲＯＭカートリッジ、バッテリバックアップ付きＲＡＭメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性ＲＡＭカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年５月２６日に出願された日本出願特願２００８－１３６３４７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、機械翻訳前に翻訳対象文書の編集を行う際に用いられる換言規則を生成する翻訳前換言規則生成システムに好適に適用可能である。

　１　入力手段
　２　データ処理装置
　３　記憶装置
　４　出力手段
　２１　翻訳可能性判定手段
　２２　同義表現クラスタ生成手段
　２３　換言規則生成手段
　２４　換言支援手段
　２５　翻訳手段
　３１　対訳構造記憶手段
　３２　翻訳知識記憶手段

Claims

　原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段と、
　前記対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定手段と、
　前記対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成手段と、
　前記要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成手段とを備える
　ことを特徴とする翻訳前換言規則生成システム。
　原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を記憶する翻訳知識記憶手段を備え、
　翻訳可能性判定手段は、前記翻訳知識を用いて対訳データにおける原文の要素の訳語を求め、当該訳語と前記対訳データにおける訳文の要素とが一致する場合に前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に前記原文の前記要素に関して翻訳不能と判定する
　請求項１に記載の翻訳前換言規則生成システム。
　原文を訳文に翻訳し、原文の要素と前記訳文における訳語とを対応付ける機械翻訳手段を備え、
　翻訳可能性判定手段は、対訳データにおける原文を機械翻訳手段に翻訳させ、機械翻訳手段によって前記原文の要素に対応付けられた訳語が、前記対訳データで前記原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に対訳データの前記原文の前記要素に関して翻訳不能と判定する
　請求項１に記載の翻訳前換言規則生成システム。
　対訳データで原言語側の要素が共通である複数の要素対が存在するときに、前記複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外する要素対除外手段を備える
　請求項１から請求項３のうちのいずれか１項に記載の翻訳前換言規則生成システム。
　対訳データで原言語側の要素が共通である複数の要素対が存在し、前記複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第１の要素対の出現頻度が、前記複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第２の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から前記第２の要素対を除外する要素対除外手段を備える
　請求項１から請求項３のうちのいずれか１項に記載の翻訳前換言規則生成システム。
　換言規則生成手段は、
　同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定手段によって翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成する
　請求項１から請求項５のうちのいずれか１項に記載の翻訳前換言規則生成システム。
　換言規則生成手段に生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する換言支援手段を備える
　請求項１から請求項６のうちのいずれか１項に記載の翻訳前換言規則生成システム。
　換言支援手段は、翻訳対象文書が機械翻訳される前に、換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する
　請求項７に記載の翻訳前換言規則生成システム。
　対訳データ記憶手段が、原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶し、
　前記対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定ステップと、
　前記対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成ステップと、
　前記要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成ステップとを含む
　ことを特徴とする翻訳前換言規則生成方法。
　翻訳知識記憶手段が、原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を記憶し、
　翻訳可能性判定ステップで、前記翻訳知識を用いて対訳データにおける原文の要素の訳語を求め、当該訳語と前記対訳データにおける訳文の要素とが一致する場合に前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に前記原文の前記要素に関して翻訳不能と判定する
　請求項９に記載の翻訳前換言規則生成方法。
　翻訳可能性判定ステップで、対訳データにおける原文を機械翻訳手段に翻訳させるとともに、原文の要素と訳文における訳語とを対応付けさせ、機械翻訳手段によって前記原文の要素に対応付けられた訳語が、前記対訳データで前記原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの前記原文の前記要素に関して翻訳可能と判定し、一致しない場合に対訳データの前記原文の前記要素に関して翻訳不能と判定する
　請求項９に記載の翻訳前換言規則生成方法。
　対訳データで原言語側の要素が共通である複数の要素対が存在するときに、前記複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外する
　請求項９から請求項１１のうちのいずれか１項に記載の翻訳前換言規則生成方法。
　対訳データで原言語側の要素が共通である複数の要素対が存在し、前記複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第１の要素対の出現頻度が、前記複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第２の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から前記第２の要素対を除外する
　請求項９から請求項１１のうちのいずれか１項に記載の翻訳前換言規則生成方法。
　換言規則生成ステップで、
　同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定ステップで翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成する
　請求項９から請求項１３のうちのいずれか１項に記載の翻訳前換言規則生成方法。
　換言規則生成ステップで生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する換言支援ステップを含む
　請求項９から請求項１４のうちのいずれか１項に記載の翻訳前換言規則生成方法。
　翻訳対象文書が機械翻訳される前に換言支援ステップを行う
　請求項１５に記載の翻訳前換言規則生成方法。
　原言語で表現された原文と、その原文から目的言語に翻訳された訳文とを対にしたデータであって、原文の要素と訳文の要素に対応関係が定められているデータである対訳データを記憶する対訳データ記憶手段を備えたコンピュータに搭載される翻訳前換言規則生成用プログラムを格納した記録媒体であって、
　コンピュータに、
　前記対訳データにおける原文の各要素が対応する訳文の各要素に翻訳可能であるか否かを判定する翻訳可能性判定処理、
　前記対訳データで対応関係が定められている原言語側の要素と目的言語側の要素の対である要素対のうち、目的言語側の要素が等しい要素対の集合である要素対グループを定める要素対グループ形成処理、および、
　前記要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳不能と判定された要素から、同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳可能と判定された要素に置き換える規則を、換言規則として生成する換言規則生成処理
　を実行させるための翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　翻訳可能性判定処理で、原文の要素から目的語の訳語への辞書引きを行うための翻訳知識を用いて対訳データにおける原文の要素の訳語を求めさせ、当該訳語と前記対訳データにおける訳文の要素とが一致する場合に前記原文の前記要素に関して翻訳可能と判定させ、一致しない場合に前記原文の前記要素に関して翻訳不能と判定させる
　請求項１７に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　翻訳可能性判定処理で、対訳データにおける原文を翻訳させるとともに、原文の要素と訳文における訳語とを対応付けさせ、前記原文の要素に対応付けられた訳語が、前記対訳データで前記原文の要素に対応付けられている訳文の要素と一致する場合に対訳データの前記原文の前記要素に関して翻訳可能と判定させ、一致しない場合に対訳データの前記原文の前記要素に関して翻訳不能と判定させる
　請求項１７に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　対訳データで原言語側の要素が共通である複数の要素対が存在するときに、前記複数の要素対のうち対訳データにおける出現頻度が最も高い要素対以外を、換言規則を生成するための要素対から除外させる
　請求項１７から請求項１９のうちのいずれか１項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　対訳データで原言語側の要素が共通である複数の要素対が存在し、前記複数の要素対のうち原言語側要素が翻訳可能と判定された要素対である第１の要素対の出現頻度が、前記複数の要素対のうちの原言語側要素が翻訳不能と判定された他の要素対である第２の要素対の出現頻度よりも多いときに、換言規則を生成するための要素対から前記第２の要素対を除外させる
　請求項１７から請求項１９のうちのいずれか１項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　換言規則生成処理で、
　同じ要素対グループに属する要素対の原言語側の要素のうち翻訳可能性判定処理で翻訳可能と判定された要素が複数存在するときに、その翻訳可能と判定された原言語側の要素を含む要素対のうち対訳データにおける出現頻度が最も高い要素対に含まれる原言語側の要素への置き換えを定める換言規則を生成させる
　請求項１７から請求項２１のうちのいずれか１項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　換言規則生成処理で生成された換言規則における置き換えられる側の要素に合致する表現が存在する箇所を翻訳対象文書中から特定し、当該箇所の表現を前記換言規則に従って置き換えた結果を表示し、その置き換えを適用する旨の指示がユーザによって入力されることを条件に、前記箇所の表現を換言規則に従って置き換えることを確定する換言支援処理を実行させる
　請求項１７から請求項２２のうちのいずれか１項に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。
　コンピュータに、
　翻訳対象文書が機械翻訳される前に換言支援処理を実行させる
　請求項２３に記載の翻訳前換言規則生成用プログラムを格納した記録媒体。