JPWO2008123081A1

JPWO2008123081A1 - 文字データ処理方法、コンピュータプログラム及び文字データ処理システム

Info

Publication number: JPWO2008123081A1
Application number: JP2009509038A
Authority: JP
Inventors: 定政　邦彦; 邦彦定政; 土井　伸一; 伸一土井; 安藤　真一; 真一安藤; 貴士大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-27
Filing date: 2008-03-12
Publication date: 2010-07-15
Also published as: US20100106480A1; WO2008123081A1

Abstract

第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する際、言語現象と、言語現象の中心となる単語と、言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を予め用意する。第１の文字データに含まれる単語Ｗに対して、記憶装置に格納された受付規則を適用し、単語Ｗ、並びに単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出し、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法に従って、当該受付箇所の言い換え表現を生成し、言い換え表現及び第１の文字データに基づいて第２の文字データを生成する。

Description

本発明は機械翻訳システム、機械翻訳方法及び機械翻訳用プログラムに関し、特に、機械翻訳により第１の翻訳結果を生成した後、ユーザからの指示に従って翻訳結果を変化させて第２の翻訳結果を生成する機械翻訳システム、機械翻訳方法および機械翻訳用プログラムに関する。

第１の言語を第２の言語に翻訳する機械翻訳システムは従来から人手での翻訳作業の支援に利用されている。しかし、機械翻訳システムの翻訳精度は必ずしも十分に高くはないため、機械翻訳システムの訳出をユーザが容易に調整するための枠組みが提案されてきた。
例えば、各単語に対して予め訳語を複数用意しておき、翻訳結果中のある訳語を簡単な操作で当該用意しておいた別の訳語に置換することにより、よりユーザに好ましい翻訳結果を作成する仕組みが提案されている。このようなシステムの一例が、１９９９年発行翻訳アダプタＩＩＣｒｏｓｓＲｏａｄＶｅｒ．３．０ＨＡＮＤＢＯＯＫＰ４５−４６２．８翻訳ＢＯＸのメニュー「単語メニュー」［訳語選択］に記載されている。以下、この文献を非特許文献１と呼ぶ。
非特許文献１に記載の機械翻訳システムは、入力手段と、翻訳手段と、単語指定手段と、訳語指定手段と、訳語反映手段と、出力手段とから構成されている。入力手段において、第１の言語の文を入力する。翻訳手段において、入力された文を第２の言語に翻訳する。単語指定手段において、翻訳結果中の訳語を変化させたい単語を訳語指定の受付箇所としてユーザに指定させ、訳語指定手段において、当該単語に対する訳語候補を一覧表示して当該一覧から別の訳語をユーザに選択させる。訳語反映手段において、単語指定手段により指定された単語を訳語指定手段により指定された訳語に置換する。出力手段において、得られた新しい翻訳結果を出力する。
非特許文献１に記載の発明によれば、翻訳結果中の単語レベルで指定するので、名詞句・用言句・副詞句・前置詞句などの句レベル、主節・従属節・関係節などの節レベル、１文全体の文レベルなど、より広い範囲にまたがる訳出を変化させる訳出方法を指定することが出来ない。
これに対して、機械翻訳を行う前に、様々な条件下での訳出方法を予めユーザに設定させることにより、よりユーザに好ましい翻訳結果を作成する仕組みも提案されている。このようなシステムでは、訳語選択のように対象となる単語の訳だけが変化する単語レベルの訳出の指定だけでなく、句レベル、節レベル、文レベルなど、より広い範囲にまたがる訳出を変化させる訳出方法の指定が可能となっている。以下、句レベル・節レベル・文レベルを一括して句レベルと呼び、また句レベル・節レベル・文レベルにまたがる訳出に影響する言語現象を句レベルの言語現象と呼ぶ。
ここでは例として２００５年発行富士通ＡＴＬＡＳＶ１２ユーザーズガイドＰ１９６「（２４）現在形の連体修飾の訳」を挙げる。以下この文献を非特許文献２と呼ぶ。連体節の訳出方法の指定を予め行うシステムが提案されている。この種の機械翻訳システムは、連体節訳出方法指定手段と、入力手段と、翻訳手段と、出力手段とから構成されている。連体節訳出方法指定手段により、機械翻訳前に予め連体節の訳出方法を指定しておく。入力手段において、第１の言語の文を入力する。翻訳手段において、連体節訳出方法指定手段の指定に基づき、入力された文を第２の言語に翻訳する。出力手段において、得られた翻訳結果を出力する。

従来の技術には、１文中に複数の連体節が存在する場合に、各々に対して異なる訳出方法の指定ができないという問題があった。
非特許文献１の発明では、連体節の訳出方法を指定することが出来ない。また、非特許文献２によれば、連体節の訳出方法を翻訳処理前に１つ選択しておく必要がある。つまり、１回の翻訳処理に対して連体節の訳出方法を１種類しか指定できない。
例えば、非特許文献２に記載の発明により、「そこに立っている人は読む本を探しています。」という文を翻訳することを考える。連体節に対して指定可能な訳出方法が「関係詞を用いて訳出／Ｔｏ不定詞を用いて訳出／ｉｎｇ形を用いて訳出」の３種類あるものとする。この文において、連体節は、「そこに立っている」と「読む」の２箇所である。この文を「Ｔｈｅｐｅｒｓｏｎｓｔａｎｄｉｎｇｔｈｅｒｅｗａｓｌｏｏｋｉｎｇｆｏｒａｂｏｏｋｔｏｒｅａｄ．」と訳したいとすると、連体節「そこに立っている」に対しては、「ｉｎｇ形を用いて訳出」、連体節「読む」に対しては「Ｔｏ不定詞を用いて訳出」を指定する必要がある。ところが、従来技術２では、「ｉｎｇ形を用いて訳出」するか「Ｔｏ不定詞を用いて訳出」するかのどちらか一方しか指定することができなかった。
この問題は連体節に限らず、他の種類の句レベルの言語現象に対する訳出方法の指定時についても言える。このように、一般に同種の句レベルの言語現象が１文中に複数箇所存在する場合、非特許文献２に記載の方法では、その各々に異なる訳出方法の指定はできなかった。
本発明はこのような状況に鑑みてなされたものであり、本発明が解決しようとする課題は、原文中に同種の言語現象が複数個所存在する場合であっても、複数個所のそれぞれに対して異なる訳出方法を指定可能な機械翻訳技術を提供することである。

上述の課題を解決するため、本発明は以下のような文字データ処理方法、コンピュータプログラム及び文字データ処理システムを提供する。
即ち、本発明は、その一側面として、句、節または文である第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する方法において、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置（記憶装置３）に格納する段階と、第１の文字データに含まれる単語Ｗに対して、記憶装置に格納された受付規則を適用し、当該単語Ｗ、並びに当該単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出する処理を処理装置（受付箇所計算部２２）にて実行する段階と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法（訳出方法）に従って、当該受付箇所の言い換え表現を生成する処理を処理装置（訳出方法指定部２３）にて実行する段階と、言い換え表現及び第１の文字データに基づいて第２の文字データを生成する処理を処理装置（第２の翻訳部２４）にて実行する段階とを含むことを特徴とする文字データ処理方法を提供する。
また、本発明は、その一側面として、句、節または文である第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する処理を、コンピュータに実行させるコンピュータプログラムにおいて、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置（記憶装置３）に格納する処理と、第１の文字データに含まれる単語Ｗに対して、記憶装置に格納された受付規則を適用し、当該単語Ｗ、並びに当該単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出する処理と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法（訳出方法）に従って、当該受付箇所の言い換え表現を生成する処理と、言い換え表現及び第１の文字データに基づいて第２の文字データを生成する処理とをコンピュータに実行させることを特徴とするコンピュータプログラムを提供する。
更に、本発明は、その一側面として、句、節または文である第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する文字データ処理システム（機械翻訳システム１００）において、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を格納した記憶装置（記憶装置３）と、第１の文字データに含まれる単語Ｗに対して、記憶装置に格納された受付規則を適用し、当該単語Ｗ、並びに当該単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出する処理装置（受付箇所計算部２２）と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法（訳出方法）に従って、当該受付箇所の言い換え表現を生成する処理装置（訳出方法指定部２３）と、言い換え表現及び第１の文字データに基づいて第２の文字データを生成する処理装置（第２の翻訳部２４）とを備えることを特徴とする文字データ処理システムを提供する。

本発明によれば、訳出方法指定部を設けることで、連体節や冠詞といった句レベルの言語現象に対する訳出方法の指定に関しても翻訳結果上から指定が可能である。
また、本発明によれば、翻訳結果中の言語現象の各々に対して、受付規則を参照することで訳出方法の指定が不可能な状態に陥らないような受付箇所を定めることができる。

図１は、本発明の一実施の形態である機械翻訳システム１００の構成を示すブロック図である。
図２は、機械翻訳システム１００における第１の翻訳部２１及び受付箇所計算部２２の動作を説明するための流れ図である。
図３は、機械翻訳システム１００における訳出方法指定部２３及び第２の翻訳部２４の動作を説明するための流れ図である。
図４は、実施例１における、訳語の対応、各単語の品詞、句・節・ヘッドワードの位置を示した図である。
図５は、訳出方法指定処理部２３にてユーザから訳出方法の指定を受け付ける際にユーザに対して表示する画面の例である。
図６は、実施例２における、各単語の品詞、翻訳結果の係り受け構造の例である。

次に、発明を実施するための最良の形態である機械翻訳システム１００について説明する。機械翻訳システム１００は、第１の言語による原文を機械翻訳して第２の言語による訳文を生成するシステムである。以下では第１の言語を第１言語と略記することもある。第２の言語についても第２言語と略記することがある。
図１を参照すると、機械翻訳システム１００は、キーボード、マウス等の入力装置１と、プログラム制御により動作するデータ処理装置２と、情報を記憶する記憶装置３と、ディスプレイ装置や印刷装置等の出力装置４とを備える。
記憶装置３は、翻訳知識記憶部３１と受付規則記憶部３２と訳出方法記憶部３３を備えている。
翻訳知識記憶部３１には、予め第１の言語から第２の言語に翻訳するための翻訳知識が記憶されている。翻訳知識は翻訳辞書及び翻訳規則を含む。
受付規則記憶部３２には、受付箇所を抽出する際に参照する受付規則が記憶されている。ここで、受付箇所とは、再翻訳の対象の候補となる箇所であって、翻訳結果のうち、所定の言語現象を含む箇所をいい、受付規則とは、受付箇所を抽出するための規則をいう。後述するように、機械翻訳システム１００では、翻訳結果から抽出した受付箇所の一部乃至全部に対し、その受付箇所に含まれる言語現象に応じた訳出方法に基づいて再度の翻訳を行う。
訳出方法記憶部３３には、各言語現象に対して指定可能な訳出方法が記憶されている。
データ処理装置２は、第１の翻訳処理部２１と、受付箇所計算処理部２２と、訳出方法指定処理部２３と、第２の翻訳処理部２４とを備えている。これらの処理部はそれぞれ概略以下のように動作する。
第１の翻訳処理部２１は、翻訳知識記憶部３１に記憶された翻訳知識を用いて、入力装置１から入力された第１言語の文を第２言語の文に翻訳する。
受付箇所計算処理部２２は、受付規則記憶部３２に記憶されている受付規則に従って、翻訳結果の中から受付箇所を算出する。より具体的には、翻訳結果中の単語それぞれに対して、受付箇所の中心となる単語か否かの判定を、受付規則に従って行うと共に、該当する単語については受付箇所の範囲を受付規則に従って判定する。
訳出方法指定処理部２３では、受付箇所計算処理部２２において計算された受付箇所の情報と、訳出方法記憶部３３に記憶された訳出方法の情報に従って、ユーザから翻訳結果中の言語現象に対する訳出方法の指定を受け付ける。
第２の翻訳処理部２４は、訳出方法指定処理部２３にて受け付けた訳出方法に従って翻訳結果を変更する。
次に、機械翻訳システム１００の全体の動作について説明する。最初に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける受付箇所を計算する場合の動作について図２を参照して説明する。
まず、第１の翻訳処理部２１において、入力装置１から入力された第１言語の文を翻訳知識記憶部３２に記憶された翻訳知識を用いて、第２言語の文に翻訳する（ステップＡ１）。
次に、受付箇所計算処理部２２において、翻訳結果中の各単語について、言語現象の各々に関する受付規則を参照して、当該単語が当該言語現象の訳出方法の指定を受け付ける受付箇所の中心となる単語となるかを判定する（ステップＡ２）。
続いて、受付箇所計算処理部２２において、当該受付規則に従って当該言語現象に対する受付箇所の範囲を、当該単語を中心に調整する（ステップＡ３）。
最後に、翻訳結果中の全言語現象に対して受付箇所かの判定が終了していなければ終了していない語に関しステップＡ２から処理を行い、終了していれば処理を終了する（ステップＡ４）。
次に、図３を参照して、計算された受付箇所の情報を用いて、ユーザが訳出方法の指定を行う際の機械翻訳システム１００の動作について説明する。
まず、訳出方法指定処理部２３において、計算された受付箇所の情報と、訳出方法記憶部３３に記憶された訳出方法の情報に従って、ユーザから訳出方法の指定を受け付ける（ステップＢ１）。つまり、ここでユーザは、計算された受付箇所の一部乃至全部を選択し、選択した受付箇所のそれぞれに対し、訳出方法を指定する。
次に、第２の翻訳処理部２４において、受け付けた訳出方法に従って翻訳結果を修正する（ステップＢ２）。
最後に、出力装置４より、修正後の翻訳結果を出力する（ステップＢ３）。
以下では本実施の形態の他のバリエーションについて述べる。
受付箇所計算処理部２２においては、翻訳結果中の各単語に対して、受付箇所の中心となる単語となるかを判定しているが、単語の代わりに句や節、文といった単位に対して判定を行っても良い。
また、第２の翻訳処理部においては、訳出方法指定処理部２３で指定された訳出方法に従って翻訳結果を調整するだけでも良いし、指定された訳出方法を参照しながら翻訳知識記憶部３２に記憶された翻訳知識に従って再度翻訳処理を行っても良い。
次に、本実施の形態の効果について説明する。
本実施の形態では、訳出方法指定処理部２３を設けることで、連体節や冠詞といった句レベルの言語現象に対する訳出方法の指定に関しても翻訳結果上から受付が可能である。
また本実施の形態では、受付箇所計算処理部２２において、受付規則記憶部３３に格納された受付規則を参照することにより、翻訳結果中の言語現象に対する訳出方法の受付が不可能な状態に陥らないように受付箇所を定めることができる。

より具体的な例を挙げて機械翻訳システム１００の動作について説明する。実施例１は、日本語から英語への翻訳であり、訳出方法を指定可能な言語現象が冠詞に関する現象、動詞に関する現象、連体節に関する現象である場合について説明する。
翻訳知識記憶部３１には、機械翻訳を行うための翻訳辞書と翻訳規則が記憶されている。本実施例では、翻訳辞書は日本語から英語に機械翻訳する際に参照される辞書データである。同様に、翻訳規則は日本語から英語に機械翻訳する際に、日本語の原文に適用し、英語の訳文を生成するための規則を示すデータである。
受付規則記憶部３２には、冠詞の訳出方法、動詞の訳出方法、連体節の訳出方法のそれぞれを受け付けることができる翻訳結果中の受付箇所を定めるための受付規則が格納されている。各受付規則は、好適には、（１）翻訳結果中の各単語について当該言語現象の訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定する判定規則と、（２）当該単語を中心に受付箇所の範囲を決定する範囲規則とからなる。
訳出方法記憶部３３には、各言語現象に対して指定可能な訳出方法が格納されている。各言語現象に対して指定可能な訳出方法の一覧の例を表１に示す。なお、表１はあくまで例示であり、対象とする言語現象の種別や、各言語現象に対して指定可能な訳出方法は表１の例に限定されない。

表１に例示した各言語現象に対する訳出方法を受け付ける受付箇所を計算するための受付規則は以下の通りである。ここで説明する受付規則は判定規則と範囲規則からなる。
言語現象種別を冠詞と判定する判定規則は、後置修飾句を含まない名詞句のヘッドワードを対象の単語とすることである。範囲規則は、当該ヘッドワードが含まれる後置修飾句を含まない名詞句中の各単語と、当該名詞句に直接従属する冠詞を受付箇所とすることである。尚、範囲規則のバリエーションとして、当該名詞句もしくは冠詞の一方ないし両方に含まれる単語を受付箇所とすることとしてもよい。
言語現象種別が動詞の場合、判定規則は、各節の述部のヘッドワードの品詞が動詞である場合、当該ヘッドワードを対象の単語とすることである。範囲規則は、当該述部中の、当該ヘッドワードを含む動詞、助動詞が連続する範囲を受付箇所とすることである。
言語現象種別が連体節の場合、判定規則は、入力文中の連体節の主節の述部のヘッドワードに対応する翻訳結果中の訳語を対象の単語とすることである。範囲規則は、当該訳語を含む述部中の、当該訳語を含む動詞、形容詞、助動詞が連続する範囲に含まれる単語と、当該連体節に対応する関係節が存在する場合その関係詞を受付箇所とすることである。尚、範囲規則のバリエーションとして、当該連続する範囲もしくは当該関係詞の一方または両方に含まれる単語を受付箇所することとしてもよい。
ヘッドワードとは、ある句や節の中で中心となる単語である。ヘッドワードの定義は機械翻訳で用いる言語解析の手法によって異なるが、どのような言語解析手法でも当該句や節中の１単語が必ず当該句や節のヘッドワードとなる。
名詞句の後置修飾句とは、当該名詞句を後から修飾する前置詞句、関係節、形容詞句や、現在分詞や過去分詞をヘッドワードとする動詞句を指す。
ここで、入力文は「そこに立っている人は読む本を探しています。」であり、システムが最初に出力する翻訳結果は「Ｐｅｒｓｏｎｗｈｏｉｓｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒｔｈｅｒｅａｄｂｏｏｋ．」、目標とする翻訳結果は「Ｔｈｅｐｅｒｓｏｎｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒａｂｏｏｋｔｏｒｅａｄ．」であるとする。
第１に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける翻訳結果中の受付箇所を計算するときの受付箇所計算処理部２２の動作を中心として説明する。
入力文「そこに立っている人は読む本を探しています。」が入力されると、第１の翻訳処理部２１は、翻訳知識記憶部３２に記憶された翻訳知識を用いて、翻訳結果「Ｐｅｒｓｏｎｗｈｏｉｓｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒｔｈｅｒｅａｄｂｏｏｋ．」を作成する。
本実施例における、入力文中の単語と翻訳結果中の訳語の対応関係、入力文中と翻訳結果中の各単語の品詞、入力文における連体節の範囲とその述部の範囲とその述部のヘッドワード、翻訳結果における後置修飾句を含まない名詞句の範囲とそのヘッドワード、翻訳結果における節の範囲とその述部の範囲とその述部のヘッドワードを図４に示す。図４から記載の一部を挙げて説明する。入力文中の単語「そこ」の品詞は「名詞」であり、対応する訳語は「ｔｈｅｒｅ」である。入力文中の連体節は「そこに立っている」と「読む」の２つであり、それぞれの述部は「立っている」と「読む」であり、それぞれのヘッドワードは「立っ」と「読む」である。翻訳結果中の単語「Ｐｅｒｓｏｎ」の品詞は「名詞」である。翻訳結果中の名詞句は「Ｐｅｒｓｏｎ」と「ｔｈｅｒｅａｄｂｏｏｋ」の２つでありそのヘッドワードは「Ｐｅｒｓｏｎ」と「ｂｏｏｋ」である。翻訳結果中の節は翻訳結果全体と「ｗｈｏｉｓｓｔａｎｄｉｎｇｔｈｅｒｅ」の２つでありそれぞれの述部は「ｉｓｌｏｏｋｉｎｇ」と「ｉｓｓｔａｎｄｉｎｇ」でありそれぞれのヘッドワードは「ｌｏｏｋｉｎｇ」と「ｓｔａｎｄｉｎｇ」である。
次に、受付箇所計算処理部２２において、翻訳結果中の各々の単語に対して受付規則記憶部３２中の受付規則を参照して、翻訳結果中の言語現象に対する訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定し、その後受付箇所の範囲を調整する。全単語に対して処理を終えた結果を、予め表２に示す。表２において、ＩＤは翻訳結果中の言語現象の各々に対して１つ割り当てられるＩＤを示し、種別は当該言語現象の種別を示し、範囲は当該言語現象に対する訳出方法の指定を受付可能な翻訳結果中の受付箇所を示し、範囲の中の各単語の先頭に記載した数字は、翻訳結果の先頭の単語から付与した順番を示す。

例えば、翻訳結果末尾の単語「ｂｏｏｋ」について考える。図４を参照すると「ｂｏｏｋ」は後置修飾句を含まない名詞句のヘッドワードであるため、上述した冠詞の受付規則の判定規則を満たす。そこで次に冠詞の受付規則の範囲規則を参照すると、「ｂｏｏｋ」を含む後置修飾句を含まない名詞句「ｔｈｅｒｅａｄｂｏｏｋ」中の全単語を対象とするとあるため、「ｔｈｅ」と「ｒｅａｄ」と「ｂｏｏｋ」に対して同一のＩＤ５を振り、その種別は冠詞とする（表２のＩＤ５）。また、ＩＤ５が振られる元となった単語「ｂｏｏｋ」に対応する原文中の単語「本」も、ＩＤ５に紐付ける。
また例えば、単語「ｓｔａｎｄｉｎｇ」について考える。「ｓｔａｎｄｉｎｇ」は図４を参照すると節の述部のヘッドワードであることが分かるため、動詞の受付規則の判定規則を満たす。そこで次に動詞の受付規則の範囲規則を参照すると、「ｓｔａｎｄｉｎｇ」を含む述部「ｉｓｓｔａｎｄｉｎｇ」中の、当該訳語を含む動詞、助動詞が連続する範囲「ｉｓｓｔａｎｄｉｎｇ」中の全単語を対象とするとあるため、「ｉｓ」と「ｓｔａｎｄｉｎｇ」に対して新たな同一のＩＤ３を振り、その種別は動詞とする（表２のＩＤ３）。また、ＩＤ３が振られる元となった単語「ｓｔａｎｄｉｎｇ」に対応する原文中の単語「立っ」も、ＩＤ３に紐付ける。
また一方で、「ｓｔａｎｄｉｎｇ」に対応する入力文中の単語「立っ」は入力文中の連体節「そこに立っている」の主節の述部のヘッドワードであるため、連体節の受付規則の判定規則も同時に満たす。そこで次に連体節の受付規則の範囲規則を参照すると、「ｓｔａｎｄｉｎｇ」を含む述部「ｉｓｓｔａｎｄｉｎｇ」中の、当該訳語「ｓｔａｎｄｉｎｇ」を含む動詞、形容詞、助動詞が連続する範囲「ｉｓｓｔａｎｄｉｎｇ」中の全単語と、当該連体節「そこに立っている」に対応する関係節「ｗｈｏｉｓｓｔａｎｄｉｎｇ」の関係詞「ｗｈｏ」を対象とするとあるため、「ｗｈｏ」「ｉｓ」「ｓｔａｎｄｉｎｇ」に対し新たな同一のＩＤ２を振り、その種別は連体節とする（表２のＩＤ２）。また、ＩＤ２が振られる元となった単語「ｓｔａｎｄｉｎｇ」に対応する原文中の単語「立っ」も、ＩＤ２に紐付ける。
また例えば、単語「ｗｈｏ」「ｉｓ」「ｔｈｅｒｅ」等はいずれの言語現象の受付規則の判定規則も満たさないため、これらの単語を起点とした受付箇所の計算は行わない。
第２に、本実施例において、計算された受付箇所の情報を用いて、ユーザが訳出方法を指定する動作を説明する。
受付箇所の計算処理により、表２に示す受付箇所が計算されている。ユーザは出力装置４に表示された翻訳結果の一部分に対し、入力装置から訳出方法の指定を行うことができる。入力装置からの指定の方法としては、好適には、画像表示装置にて第１の翻訳処理部２１による翻訳結果（本願請求項にいう第１の文字データ）を表示する。ユーザがマウス等のポインティングデバイスにてマウスポインタを動かして、表示した翻訳結果中の１単語にマウスポインタを合わせた状態で右クリックすると、これに応答して、当該１単語を含む受付箇所に対応する言語現象が選択され、該当する語句を強調表示すると共に、その言語現象に対して指定可能な訳出方法の一覧を表示する。これを見て、ユーザはマウス等を用いてその一覧から訳出方法を選択することによって当該言語現象の訳出方法を指定する。
入力装置からの指定の方法は前記好適な指定の方法に限らない。指定したい単語を指し示す方法としては文字入力のカーソルを合わせる、当該単語を範囲選択する等の入力装置を利用したその他の方法でもよく、また訳出方法の一覧を表示する方法も、ツールバーから指定する、ウィンドウのメニュー項目からたどる等、入力装置を利用したその他の方法でもよい。また単語間の空白部分を指定した場合にも訳出方法の受付を可能としても良い。
指定された言語現象に対して指定可能な訳出方法の一覧を表示した例を図５に示す。この例では、「ｒｅａｄ」にマウスポインタを合わせて右クリックすることにより、「ｒｅａｄ」を含む言語現象に対して指定可能な訳出方法の一覧が表示されている。
表２を参照すると分かるように、「ｒｅａｄ」に対しては、冠詞の訳出方法（表２のＩＤ５）、動詞の訳出方法（表２のＩＤ６）と連体節の訳出方法（表２のＩＤ７）の受付が可能となっている。このように複数の言語現象に対する訳出方法の受付が可能な場合には、好適には一覧中にその全てを表示する。
何らかの理由で受付ができない訳出方法が存在する場合等には、全ての受付可能な訳出方法を表示しなくても良い。ちなみに、受付可能な訳出方法が存在しない場合は、一覧のウィンドウ自体を表示させない、または、一覧中に訳出方法に関する項目を表示させない等の方法が考えられる。
また図５に示すとおり、表示する一覧中には句レベル以外の訳出方法、例えば単語の訳し分け等を含めても良い。図５では「読む」の訳語として「ｒｅａｄ」の他に「ｕｎｄｅｒｓｔｏｏｄ」を表示している。
また、図５中の「○」印はユーザが指定したい訳出方法を表しているが、このように、１つの単語に対して複数の訳出方法の指定も可能である。
ここで、最初のシステムの出力である翻訳結果「Ｐｅｒｓｏｎｗｈｏｉｓｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒｔｈｅｒｅａｄｂｏｏｋ．」を、訳出方法の指定により目標とする翻訳結果「Ｔｈｅｐｅｒｓｏｎｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒａｂｏｏｋｔｏｒｅａｄ．」に近づけることを考える。
まず、ユーザが訳文先頭の「ｐｅｒｓｏｎ」に対して定冠詞「ｔｈｅ」を付与することを考える。ユーザが「ｐｅｒｓｏｎ」上にマウスポインタを合わせ、右クリックすると、訳出方法指定処理部２３は「ｐｅｒｓｏｎ」に対して指定可能な訳出方法の一覧を検索し、検索結果を出力装置４に出力する。
表２を参照すると、「ｐｅｒｓｏｎ」に対しては冠詞の訳出方法（ＩＤ１）の指定が可能であると分かる。そこで、訳出方法指定処理部２３は冠詞に関する訳出方法の一覧「定冠詞（ｔｈｅ）／不定冠詞（ａ）／冠詞なし」を出力装置４に出力する。その後、ユーザが一覧から「定冠詞（ｔｈｅ）」を指定すると、第２の翻訳処理部において、当該指定の結果を翻訳結果に反映し、「Ｔｈｅｐｅｒｓｏｎｗｈｏｉｓｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒｔｈｅｒｅａｄｂｏｏｋ．」なる翻訳結果を生成する。システムは生成した翻訳結果を出力装置から出力する。
以下その他の箇所に関しても同様に訳出方法の指定を行うことで翻訳結果を修正する。まず翻訳結果中の「ｗｈｏｉｓｓｔａｎｄｉｎｇ」上から連体節を「ｉｎｇ形」で訳す訳出方法を指定すると、訳文は「Ｔｈｅｐｅｒｓｏｎｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒｔｈｅｒｅａｄｂｏｏｋ．」に修正される。
続けて「ｔｈｅｒｅａｄｂｏｏｋ」上から冠詞を「不定冠詞（ａ）」で訳す訳出方法を指定すると、翻訳結果は「Ｔｈｅｐｅｒｓｏｎｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒａｒｅａｄｂｏｏｋ．」に修正される。
最後に、「ｒｅａｄ」上から連体節を「Ｔｏ不定詞」で訳す訳出方法を指定すると、翻訳結果は「Ｔｈｅｐｅｒｓｏｎｓｔａｎｄｉｎｇｔｈｅｒｅｉｓｌｏｏｋｉｎｇｆｏｒａｂｏｏｋｔｏｒｅａｄ．」となり、目標とする翻訳結果が得られる。
以下、第１の実施例における本発明の効果について説明する。
第１に、本実施例で挙げた例文のように、１文中に同種の言語現象（本実施例では連体節）が複数存在する場合、従来技術２では、その各々に独立して訳出方法の指定を行うことができなかった。本実施例では、訳出方法指定処理部２３を設けることで、各々に対して翻訳結果上から独立して訳出方法の指定ができる。
第２に、本実施例での「ｐｅｒｓｏｎ」に対する定冠詞ｔｈｅの指定について述べると、従来技術１と２の単なる組み合わせでは、元々の翻訳結果中にｔｈｅの生成を指定するための単語が存在しないため、定冠詞ｔｈｅを翻訳結果上からの指定により生成できなかった。本実施例では、受付箇所計算処理部２２において単語「ｐｅｒｓｏｎ」をｔｈｅの生成を指定するための単語とすることで、定冠詞ｔｈｅを翻訳結果上からの指定により生成可能となっている。
なお、本実施例では日本語から英語への翻訳について説明したが、その他の言語間の翻訳を行う翻訳システムに適用しても良い。
また、翻訳結果修正の出力装置への反映のタイミングについては、好適には訳出方法が１つ指定される毎に翻訳結果を修正し修正後の翻訳結果を出力装置に反映するが、必要な訳出方法の指定を全て行った後でユーザが再翻訳ボタン等から再翻訳の指定をするタイミングで初めて翻訳結果を修正し修正後の翻訳結果を出力装置に反映してもよい。
また、本実施例では、訳出方法の指定を行う単語に対して指定可能な訳出方法の一覧を表示しているが、キーボードショートカット等により一覧の表示をスキップしてもよい。つまり、各訳出方法に対応するキーボードショートカットキーを定めておき、訳出方法を指定したい単語の上に文字入力のカーソルを合わせた状態で、指定したい訳出方法に対応するキーボードショートカットキーを押すという方法でもよい。

実施例１では、第１の翻訳部２１が出力した第１の訳文中の各単語に対して受付規則を適用して受付箇所を判定（受付箇所計算部２２）し、受付箇所の言語現象に応じた訳出方法をユーザに提示（訳出方法指定部２３）し、ユーザが選択した訳出方法に応じて第１の訳文を変更して第２の訳文を生成（第２の翻訳部２４）した。
これに対して実施例２は第２の訳文に対して更に変更を加える例である。このような場合、実施例１では、第２の訳文を受付箇所計算部２２に入力して上述の処理を繰り返すことになる。このとき、訳出方法の候補として、第１の訳文に戻すような変更が可能であることが望ましい。
しかし、第１の訳文から第２の訳文を生成する過程で、第１の訳文に存在した単語が第２の訳文から脱落する場合、特に、脱落した単語が受付規則により訳出方法の受付箇所となる単語である場合、第２の訳文から第１の訳文に戻すことが出来ない。
例として、冠詞の訳出方法の指定を行う場合を考える。冠詞に対して指定可能な訳出方法として「定冠詞（ｔｈｅ）／不定冠詞（ａ）／冠詞無し」の３通りがあるとする。冠詞の訳出方法の指定を行いたい翻訳結果中の箇所に、定冠詞または不定冠詞のどちらかの冠詞が元々存在する場合は、当該冠詞を訳出方法の受付箇所として用いて冠詞に対する訳出方法の指定が可能だが、当該翻訳結果中の箇所に元々冠詞がない場合は、訳出方法の受付に利用可能な冠詞が存在しないため、冠詞の訳出方法の指定が不可能である。
この問題は、他の種類の句レベルの言語現象に対する訳出方法の指定時にも起こり得る。例えば、前述の連体節に対する訳出方法の指定を例に取ると、元々の翻訳結果がｗｈｏ／ｗｈｉｃｈ／ｗｈｅｒｅ等の関係詞を用いない訳出である場合、関係詞を訳出方法の指定の受付箇所として用いることができない。
また別の例として、時を表す接続助詞（ｗｈｅｎ，ｉｆ等）に対する訳出方法（訳出方法は「接続助詞を用いて訳出／分詞構文で訳出」の２種類）の指定について考えると、元々の翻訳結果が分詞構文での訳出の場合、訳出方法の受付箇所とすべき接続助詞が存在しないため、接続助詞を訳出方法の指定の受付に用いることができない。
本実施の形態では、第１の訳文から第２の訳文を生成する際、当該受付規則により訳出方法の指定の受付箇所となる単語が、当該受付規則が対象とする言語現象の少なくとも１つの訳出方法を選択すると翻訳結果から脱落する場合、当該単語が含まれる名詞句もしくは用言句のうち、最短の句のヘッドワードもしくは当該句に含まれる全自立語の一方ないし両方を受付箇所とする。
これにより、受付箇所としたヘッドワードもしくは自立語を介して第２の訳文から第１の訳文に戻すことが可能となる。
以下に本発明の実施例２について詳細に説明する。実施例２では、図１に示した機械翻訳システム１００が実施例１とは異なる動作をする。
翻訳知識記憶部３１の内容は実施例１と同様である。
受付規則記憶部３２には、接続助詞に対する訳出方法を受け付ける受付箇所を計算するための受付規則が格納されている。この受付規則は次の前半部及び後半部からなる。前半部は、判定規則は接続助詞を対象の単語とし、範囲規則は当該単語を受付範囲とすると規定する。後半部は、当該単語が、接続助詞の少なくとも１つの訳出方法を選択した場合に翻訳結果から脱落するならば、当該単語が含まれる名詞句もしくは用言句のうち、最短の句のヘッドワードをも当該訳出方法の指定の受付箇所として追加する。脱落時に受付箇所とする追加箇所は、当該最短の句に含まれる全自立語でもよい。なお、対象とする言語現象や各言語現象に対して指定可能な訳出方法の一覧は表１の一覧に限らない。
訳出方法記憶部３３には、言語現象の種別と、その言語現象に対して指定可能な訳出方法の対応関係として、表３に示すような対応関係が格納されている。この対応関係は、表１に示した対応関係や、その他の言語現象種別と指定可能訳出方法の対応関係と共に訳出方法記憶部３３に格納されていてもよい。

次に具体的な原文及び訳文を挙げて説明する。ここで、原文すなわち入力文は「私は走ると疲れる。」であり、システムが最初に出力する第１の翻訳結果は「ＩｆＩｒｕｎ，Ｉｗｉｌｌｇｅｔｔｉｒｅｄ．」であるとする。
第１に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける翻訳結果中の受付箇所を計算する動作を説明する。
入力文「私は走ると疲れる。」が入力されると、第１の翻訳処理部２１は、翻訳知識記憶部３２に記憶された翻訳知識を用いて、翻訳結果「ＩｆＩｒｕｎ，Ｉｗｉｌｌｇｅｔｔｉｒｅｄ．」を作成する。なお、本実施例の機械翻訳システムにおける入力文中と翻訳結果中の各単語の品詞、翻訳結果中の係り受け構造を図６に示す。図６を参照すると、例えば、翻訳結果中の単語「Ｉｆ」の品詞は「接続助詞」であり、翻訳結果中の「Ｉｆ」が含まれる句は用言句「ＩｆＩｒｕｎ」のみであり、そのヘッドワードは「ｒｕｎ」であると分かる。
次に、受付箇所計算処理部２２において、翻訳結果中の各々の単語に対して受付規則記憶部３２中の受付規則を参照して、翻訳結果中の言語現象に対する訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定し、その後受付箇所の範囲を調整する。全単語に対して処理を終えた結果を、予め表４に示す。表４中の項目は第１の実施例における表２と同様に記載されている。なお、図４、６に示すように、１箇所の言語現象に対応する受付箇所は必ずしも一続きに連続している必要はない。例えば図４におけるＩＤ１の言語現象（接続助詞「と」）に対する訳出方法の受付箇所は、「Ｉｆ」と「ｒｕｎ」であり、図６に示す訳文中で一続きには連続していない。

受付箇所を計算する手順は第１の実施例と同様、翻訳結果中の各単語に対し受付規則の判定規則、範囲規則を順に適用する。翻訳結果中の単語「Ｉｆ」について考えると、「Ｉｆ」は図６に示すように接続助詞であり、接続助詞の受付規則の判定規則を満たす。
そこで次に接続助詞の受付規則の範囲規則の前半を参照すると、「Ｉｆ」を受付範囲とするとあるため、まず「Ｉｆ」に対しＩＤ１を振り、その種別は接続助詞とする。また、ＩＤ１が振られる元となった単語「Ｉｆ」に対応する原文中の単語「と」も、ＩＤ１に紐付ける。
ここで、この「Ｉｆ」に対して接続助詞の訳出方法の１つである「分詞構文」を指定したと仮定すると、翻訳結果は「Ｒｕｎｎｉｎｇ，Ｉｗｉｌｌｇｅｔｔｉｒｅｄ．」となり、「Ｉｆ」は翻訳結果から脱落してしまう。すなわち接続助詞の受付規則の範囲規則の後半の条件を満たすため、「Ｉｆ」が含まれる名詞句もしくは用言句のうち最短の句「ＩｆＩｒｕｎ」のヘッドワード「ｒｕｎ」に対しても同じＩＤ１を振る。この結果、表４に示す受付箇所の情報が得られる。
第２に、計算された受付箇所の情報を用いて、ユーザが訳出方法を指定する動作を説明する。
訳出方法の指定の動作も第１の実施例と同様である。
ここで、ユーザが翻訳結果中の「Ｉｆ」上から接続助詞を「分詞構文」で訳す訳出方法を指定すると、翻訳結果は「Ｒｕｎｎｉｎｇ，Ｉｗｉｌｌｇｅｔｔｉｒｅｄ．」となる。続けて直前まで「Ｉｆ」があった箇所に再度接続助詞「Ｉｆ」を訳出し元の翻訳結果に戻したいとする。
第１の実施例では、訳語が直接変化する「Ｉｆ」に対してのみ訳出方法の指定が可能であったため、現状の「Ｒｕｎｎｉｎｇ，Ｉｗｉｌｌｇｅｔｔｉｒｅｄ．」なる翻訳結果上からの訳出方法の指定によっては元の翻訳結果「ＩｆＩｒｕｎ，Ｉｗｉｌｌｇｅｔｔｉｒｅｄ．」に戻すことは不可能であったが、本実施例においては、「Ｒｕｎｎｉｎｇ」上から接続助詞を「接続助詞利用」で訳す訳し方を指定することで、当該元の翻訳結果を得ることができる。
以下、第２の実施例における本発明の効果について説明する。
本実施例で挙げた例文のように、訳出方法の指定により訳出方法の指定の受付箇所が脱落する場合、従来技術１、２の単なる組み合わせでは、訳出方法の指定が不可能になる可能性があった。本実施例では、受付規則により訳出方法の指定の受付箇所となる単語が当該受付規則が対象とする言語現象の少なくとも１つの訳出方法を選択した場合に翻訳結果から脱落するならば、翻訳結果の係り受け構造上で当該単語の親となる単語も当該訳出方法の指定の受付箇所とするという特徴を持つ受付規則を受付規則記憶部３３に有することにより、受付箇所計算処理部２２において単語「ｒｕｎ」を接続助詞の訳出方法を指定するための受付箇所とすることで、訳出方法の指定の受付箇所を翻訳結果中に必ず存在させ、訳出方法の指定が不可能な状態に陥らないようにできる。
以上、本発明について実施の形態及び実施例を挙げて説明したが、本発明はこれらに限定されるものではなく、本発明の技術的思想の範囲内で種々の変更が可能であることはいうまでもない。
例えば、本発明の一側面として上述した文字データ処理方法は、更に、言い換え表現に単語Ｗ（実施例２の”Ｉｆ”）が含まれていない場合、第１の文字データの単語Ｗを含む句、節、または文のうち、単語Ｗ以外の単語Ｘ（実施例２の”ｒｕｎ”）と、単語Ｗとを関連付ける段階と、単語Ｘと単語Ｗとの関連付けに基づいて、第２の文字データの単語Ｘを含む句、節または文を、単語Ｗを含む句、節または文に言い換えた第３の文字データを生成する段階とを含むこととしてもよい。このようにすれば、第１の文字データから第２の文字データを生成する過程で単語Ｗが脱落しても、単語Ｗと単語Ｘの間の関連付けを辿って単語Ｗを含む表現に戻すことが出来る。本発明の他の側面でも同様である。
これらの文字データ処理方法は、例えば、機械翻訳して得られた翻訳結果を修正する際に適用することが出来る。本発明の他の側面でも同様である。
本願は、２００７年３月２７日出願の日本国特許出願２００７−０８１９１６を基礎とするものであり、同特許出願の開示内容は全て本願に組み込まれる。

Claims

句、節または文である第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する方法において、
言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置に格納する段階と、
前記第１の文字データに含まれる単語Ｗに対して、前記記憶装置に格納された前記受付規則を適用し、当該単語Ｗ、並びに当該単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出する処理を処理装置にて実行する段階と、
前記記憶装置に格納された前記言い換え方法であって、抽出した受付箇所の言語現象に対応する前記言い換え方法に従って、当該受付箇所の言い換え表現を生成する処理を処理装置にて実行する段階と、
前記言い換え表現及び前記第１の文字データに基づいて前記第２の文字データを生成する処理を処理装置にて実行する段階と
を含むことを特徴とする文字データ処理方法。
請求項１に記載の文字データ処理方法において、
前記言い換え表現に前記単語Ｗが含まれていない場合、前記第１の文字データの前記単語Ｗを含む句、節、または文のうち、前記単語Ｗ以外の単語Ｘと、前記単語Ｗとを関連付ける段階と、
前記単語Ｘと単語Ｗとの関連付けに基づいて、前記第２の文字データの前記単語Ｘを含む句、節または文を、前記単語Ｗを含む句、節または文に言い換えた第３の文字データを生成する段階と
を含むことを特徴とする文字データ処理方法。
機械翻訳して得られた翻訳結果を修正する方法において、請求項１に記載の文字データ処理方法を前記翻訳結果に適用することを特徴とする文字データ処理方法。
句、節または文である第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する処理を、コンピュータに実行させるコンピュータプログラムにおいて、
言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置に格納する処理と、
前記第１の文字データに含まれる単語Ｗに対して、前記記憶装置に格納された前記受付規則を適用し、当該単語Ｗ、並びに当該単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出する処理と、
前記記憶装置に格納された前記言い換え方法であって、抽出した受付箇所の言語現象に対応する前記言い換え方法に従って、当該受付箇所の言い換え表現を生成する処理と、
前記言い換え表現及び前記第１の文字データに基づいて前記第２の文字データを生成する処理と
をコンピュータに実行させることを特徴とするコンピュータプログラム。
請求項４に記載のコンピュータプログラムにおいて、
前記言い換え表現に前記単語Ｗが含まれていない場合、前記第１の文字データの前記単語Ｗを含む句、節、または文のうち、前記単語Ｗ以外の単語Ｘと、前記単語Ｗとを関連付ける処理と、
前記単語Ｘと単語Ｗとの関連付けに基づいて、前記第２の文字データの前記単語Ｘを含む句、節または文を、前記単語Ｗを含む句、節または文に言い換えた第３の文字データを生成する処理と
を含むことを特徴とするコンピュータプログラム。
コンピュータに機械翻訳を実行させるコンピュータプログラムにおいて、請求項４に記載の各処理を機械翻訳した翻訳結果に適用することを特徴とするコンピュータプログラム。
句、節または文である第１の文字データの一部乃至全部を他の表現で言い換えた第２の文字データを生成する文字データ処理システムにおいて、
言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を格納した記憶装置と、
前記第１の文字データに含まれる単語Ｗに対して、前記記憶装置に格納された前記受付規則を適用し、当該単語Ｗ、並びに当該単語Ｗを含む句、節及び文のいずれかである受付箇所を抽出する処理装置と、
前記記憶装置に格納された前記言い換え方法であって、抽出した受付箇所の言語現象に対応する前記言い換え方法に従って、当該受付箇所の言い換え表現を生成する処理装置と、
前記言い換え表現及び前記第１の文字データに基づいて前記第２の文字データを生成する処理装置と
を備えることを特徴とする文字データ処理システム。
請求項７に記載の文字データ処理システムにおいて、
前記言い換え表現に前記単語Ｗが含まれていない場合、前記第１の文字データの前記単語Ｗを含む句、節、または文のうち、前記単語Ｗ以外の単語Ｘと、前記単語Ｗとを関連付け、
前記単語Ｘと単語Ｗとの関連付けに基づいて、前記第２の文字データの前記単語Ｘを含む句、節または文を、前記単語Ｗを含む句、節または文に言い換えた第３の文字データを生成する
ことを特徴とする文字データ処理システム。
機械翻訳システムにおいて、請求項７に記載の文字データ処理システムを備え、前記翻訳結果に適用することを特徴とする機械翻訳システム。