JPWO2008123081A1 - 文字データ処理方法、コンピュータプログラム及び文字データ処理システム - Google Patents
文字データ処理方法、コンピュータプログラム及び文字データ処理システム Download PDFInfo
- Publication number
- JPWO2008123081A1 JPWO2008123081A1 JP2009509038A JP2009509038A JPWO2008123081A1 JP WO2008123081 A1 JPWO2008123081 A1 JP WO2008123081A1 JP 2009509038 A JP2009509038 A JP 2009509038A JP 2009509038 A JP2009509038 A JP 2009509038A JP WO2008123081 A1 JPWO2008123081 A1 JP WO2008123081A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- translation
- character data
- paraphrase
- phenomenon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012545 processing Methods 0.000 title claims description 67
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000000034 method Methods 0.000 claims abstract description 205
- 230000014509 gene expression Effects 0.000 claims abstract description 40
- 238000013519 translation Methods 0.000 claims description 388
- 230000014616 translation Effects 0.000 description 380
- 239000002245 particle Substances 0.000 description 20
- 238000004364 calculation method Methods 0.000 description 17
- 239000003607 modifier Substances 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する際、言語現象と、言語現象の中心となる単語と、言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を予め用意する。第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、単語W、並びに単語Wを含む句、節及び文のいずれかである受付箇所を抽出し、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法に従って、当該受付箇所の言い換え表現を生成し、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する。
Description
本発明は機械翻訳システム、機械翻訳方法及び機械翻訳用プログラムに関し、特に、機械翻訳により第1の翻訳結果を生成した後、ユーザからの指示に従って翻訳結果を変化させて第2の翻訳結果を生成する機械翻訳システム、機械翻訳方法および機械翻訳用プログラムに関する。
第1の言語を第2の言語に翻訳する機械翻訳システムは従来から人手での翻訳作業の支援に利用されている。しかし、機械翻訳システムの翻訳精度は必ずしも十分に高くはないため、機械翻訳システムの訳出をユーザが容易に調整するための枠組みが提案されてきた。
例えば、各単語に対して予め訳語を複数用意しておき、翻訳結果中のある訳語を簡単な操作で当該用意しておいた別の訳語に置換することにより、よりユーザに好ましい翻訳結果を作成する仕組みが提案されている。このようなシステムの一例が、1999年発行 翻訳アダプタII CrossRoad Ver.3.0 HANDBOOK P45−46 2.8 翻訳BOXのメニュー「単語メニュー」[訳語選択]に記載されている。以下、この文献を非特許文献1と呼ぶ。
非特許文献1に記載の機械翻訳システムは、入力手段と、翻訳手段と、単語指定手段と、訳語指定手段と、訳語反映手段と、出力手段とから構成されている。入力手段において、第1の言語の文を入力する。翻訳手段において、入力された文を第2の言語に翻訳する。単語指定手段において、翻訳結果中の訳語を変化させたい単語を訳語指定の受付箇所としてユーザに指定させ、訳語指定手段において、当該単語に対する訳語候補を一覧表示して当該一覧から別の訳語をユーザに選択させる。訳語反映手段において、単語指定手段により指定された単語を訳語指定手段により指定された訳語に置換する。出力手段において、得られた新しい翻訳結果を出力する。
非特許文献1に記載の発明によれば、翻訳結果中の単語レベルで指定するので、名詞句・用言句・副詞句・前置詞句などの句レベル、主節・従属節・関係節などの節レベル、1文全体の文レベルなど、より広い範囲にまたがる訳出を変化させる訳出方法を指定することが出来ない。
これに対して、機械翻訳を行う前に、様々な条件下での訳出方法を予めユーザに設定させることにより、よりユーザに好ましい翻訳結果を作成する仕組みも提案されている。このようなシステムでは、訳語選択のように対象となる単語の訳だけが変化する単語レベルの訳出の指定だけでなく、句レベル、節レベル、文レベルなど、より広い範囲にまたがる訳出を変化させる訳出方法の指定が可能となっている。以下、句レベル・節レベル・文レベルを一括して句レベルと呼び、また句レベル・節レベル・文レベルにまたがる訳出に影響する言語現象を句レベルの言語現象と呼ぶ。
ここでは例として2005年発行 富士通ATLAS V12 ユーザーズガイド P196「(24) 現在形の連体修飾の訳」を挙げる。以下この文献を非特許文献2と呼ぶ。連体節の訳出方法の指定を予め行うシステムが提案されている。この種の機械翻訳システムは、連体節訳出方法指定手段と、入力手段と、翻訳手段と、出力手段とから構成されている。連体節訳出方法指定手段により、機械翻訳前に予め連体節の訳出方法を指定しておく。入力手段において、第1の言語の文を入力する。翻訳手段において、連体節訳出方法指定手段の指定に基づき、入力された文を第2の言語に翻訳する。出力手段において、得られた翻訳結果を出力する。
例えば、各単語に対して予め訳語を複数用意しておき、翻訳結果中のある訳語を簡単な操作で当該用意しておいた別の訳語に置換することにより、よりユーザに好ましい翻訳結果を作成する仕組みが提案されている。このようなシステムの一例が、1999年発行 翻訳アダプタII CrossRoad Ver.3.0 HANDBOOK P45−46 2.8 翻訳BOXのメニュー「単語メニュー」[訳語選択]に記載されている。以下、この文献を非特許文献1と呼ぶ。
非特許文献1に記載の機械翻訳システムは、入力手段と、翻訳手段と、単語指定手段と、訳語指定手段と、訳語反映手段と、出力手段とから構成されている。入力手段において、第1の言語の文を入力する。翻訳手段において、入力された文を第2の言語に翻訳する。単語指定手段において、翻訳結果中の訳語を変化させたい単語を訳語指定の受付箇所としてユーザに指定させ、訳語指定手段において、当該単語に対する訳語候補を一覧表示して当該一覧から別の訳語をユーザに選択させる。訳語反映手段において、単語指定手段により指定された単語を訳語指定手段により指定された訳語に置換する。出力手段において、得られた新しい翻訳結果を出力する。
非特許文献1に記載の発明によれば、翻訳結果中の単語レベルで指定するので、名詞句・用言句・副詞句・前置詞句などの句レベル、主節・従属節・関係節などの節レベル、1文全体の文レベルなど、より広い範囲にまたがる訳出を変化させる訳出方法を指定することが出来ない。
これに対して、機械翻訳を行う前に、様々な条件下での訳出方法を予めユーザに設定させることにより、よりユーザに好ましい翻訳結果を作成する仕組みも提案されている。このようなシステムでは、訳語選択のように対象となる単語の訳だけが変化する単語レベルの訳出の指定だけでなく、句レベル、節レベル、文レベルなど、より広い範囲にまたがる訳出を変化させる訳出方法の指定が可能となっている。以下、句レベル・節レベル・文レベルを一括して句レベルと呼び、また句レベル・節レベル・文レベルにまたがる訳出に影響する言語現象を句レベルの言語現象と呼ぶ。
ここでは例として2005年発行 富士通ATLAS V12 ユーザーズガイド P196「(24) 現在形の連体修飾の訳」を挙げる。以下この文献を非特許文献2と呼ぶ。連体節の訳出方法の指定を予め行うシステムが提案されている。この種の機械翻訳システムは、連体節訳出方法指定手段と、入力手段と、翻訳手段と、出力手段とから構成されている。連体節訳出方法指定手段により、機械翻訳前に予め連体節の訳出方法を指定しておく。入力手段において、第1の言語の文を入力する。翻訳手段において、連体節訳出方法指定手段の指定に基づき、入力された文を第2の言語に翻訳する。出力手段において、得られた翻訳結果を出力する。
従来の技術には、1文中に複数の連体節が存在する場合に、各々に対して異なる訳出方法の指定ができないという問題があった。
非特許文献1の発明では、連体節の訳出方法を指定することが出来ない。また、非特許文献2によれば、連体節の訳出方法を翻訳処理前に1つ選択しておく必要がある。つまり、1回の翻訳処理に対して連体節の訳出方法を1種類しか指定できない。
例えば、非特許文献2に記載の発明により、「そこに立っている人は読む本を探しています。」という文を翻訳することを考える。連体節に対して指定可能な訳出方法が「関係詞を用いて訳出/To不定詞を用いて訳出/ing形を用いて訳出」の3種類あるものとする。この文において、連体節は、「そこに立っている」と「読む」の2箇所である。この文を「The person standing there was looking for a book to read.」と訳したいとすると、連体節「そこに立っている」に対しては、「ing形を用いて訳出」、連体節「読む」に対しては「To不定詞を用いて訳出」を指定する必要がある。ところが、従来技術2では、「ing形を用いて訳出」するか「To不定詞を用いて訳出」するかのどちらか一方しか指定することができなかった。
この問題は連体節に限らず、他の種類の句レベルの言語現象に対する訳出方法の指定時についても言える。このように、一般に同種の句レベルの言語現象が1文中に複数箇所存在する場合、非特許文献2に記載の方法では、その各々に異なる訳出方法の指定はできなかった。
本発明はこのような状況に鑑みてなされたものであり、本発明が解決しようとする課題は、原文中に同種の言語現象が複数個所存在する場合であっても、複数個所のそれぞれに対して異なる訳出方法を指定可能な機械翻訳技術を提供することである。
非特許文献1の発明では、連体節の訳出方法を指定することが出来ない。また、非特許文献2によれば、連体節の訳出方法を翻訳処理前に1つ選択しておく必要がある。つまり、1回の翻訳処理に対して連体節の訳出方法を1種類しか指定できない。
例えば、非特許文献2に記載の発明により、「そこに立っている人は読む本を探しています。」という文を翻訳することを考える。連体節に対して指定可能な訳出方法が「関係詞を用いて訳出/To不定詞を用いて訳出/ing形を用いて訳出」の3種類あるものとする。この文において、連体節は、「そこに立っている」と「読む」の2箇所である。この文を「The person standing there was looking for a book to read.」と訳したいとすると、連体節「そこに立っている」に対しては、「ing形を用いて訳出」、連体節「読む」に対しては「To不定詞を用いて訳出」を指定する必要がある。ところが、従来技術2では、「ing形を用いて訳出」するか「To不定詞を用いて訳出」するかのどちらか一方しか指定することができなかった。
この問題は連体節に限らず、他の種類の句レベルの言語現象に対する訳出方法の指定時についても言える。このように、一般に同種の句レベルの言語現象が1文中に複数箇所存在する場合、非特許文献2に記載の方法では、その各々に異なる訳出方法の指定はできなかった。
本発明はこのような状況に鑑みてなされたものであり、本発明が解決しようとする課題は、原文中に同種の言語現象が複数個所存在する場合であっても、複数個所のそれぞれに対して異なる訳出方法を指定可能な機械翻訳技術を提供することである。
上述の課題を解決するため、本発明は以下のような文字データ処理方法、コンピュータプログラム及び文字データ処理システムを提供する。
即ち、本発明は、その一側面として、句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する方法において、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置(記憶装置3)に格納する段階と、第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理を処理装置(受付箇所計算部22)にて実行する段階と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法(訳出方法)に従って、当該受付箇所の言い換え表現を生成する処理を処理装置(訳出方法指定部23)にて実行する段階と、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する処理を処理装置(第2の翻訳部24)にて実行する段階とを含むことを特徴とする文字データ処理方法を提供する。
また、本発明は、その一側面として、句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する処理を、コンピュータに実行させるコンピュータプログラムにおいて、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置(記憶装置3)に格納する処理と、第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法(訳出方法)に従って、当該受付箇所の言い換え表現を生成する処理と、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する処理とをコンピュータに実行させることを特徴とするコンピュータプログラムを提供する。
更に、本発明は、その一側面として、句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する文字データ処理システム(機械翻訳システム100)において、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を格納した記憶装置(記憶装置3)と、第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理装置(受付箇所計算部22)と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法(訳出方法)に従って、当該受付箇所の言い換え表現を生成する処理装置(訳出方法指定部23)と、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する処理装置(第2の翻訳部24)とを備えることを特徴とする文字データ処理システムを提供する。
即ち、本発明は、その一側面として、句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する方法において、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置(記憶装置3)に格納する段階と、第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理を処理装置(受付箇所計算部22)にて実行する段階と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法(訳出方法)に従って、当該受付箇所の言い換え表現を生成する処理を処理装置(訳出方法指定部23)にて実行する段階と、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する処理を処理装置(第2の翻訳部24)にて実行する段階とを含むことを特徴とする文字データ処理方法を提供する。
また、本発明は、その一側面として、句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する処理を、コンピュータに実行させるコンピュータプログラムにおいて、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置(記憶装置3)に格納する処理と、第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法(訳出方法)に従って、当該受付箇所の言い換え表現を生成する処理と、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する処理とをコンピュータに実行させることを特徴とするコンピュータプログラムを提供する。
更に、本発明は、その一側面として、句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する文字データ処理システム(機械翻訳システム100)において、言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を格納した記憶装置(記憶装置3)と、第1の文字データに含まれる単語Wに対して、記憶装置に格納された受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理装置(受付箇所計算部22)と、記憶装置に格納された言い換え方法であって、抽出した受付箇所の言語現象に対応する言い換え方法(訳出方法)に従って、当該受付箇所の言い換え表現を生成する処理装置(訳出方法指定部23)と、言い換え表現及び第1の文字データに基づいて第2の文字データを生成する処理装置(第2の翻訳部24)とを備えることを特徴とする文字データ処理システムを提供する。
本発明によれば、訳出方法指定部を設けることで、連体節や冠詞といった句レベルの言語現象に対する訳出方法の指定に関しても翻訳結果上から指定が可能である。
また、本発明によれば、翻訳結果中の言語現象の各々に対して、受付規則を参照することで訳出方法の指定が不可能な状態に陥らないような受付箇所を定めることができる。
また、本発明によれば、翻訳結果中の言語現象の各々に対して、受付規則を参照することで訳出方法の指定が不可能な状態に陥らないような受付箇所を定めることができる。
図1は、本発明の一実施の形態である機械翻訳システム100の構成を示すブロック図である。
図2は、機械翻訳システム100における第1の翻訳部21及び受付箇所計算部22の動作を説明するための流れ図である。
図3は、機械翻訳システム100における訳出方法指定部23及び第2の翻訳部24の動作を説明するための流れ図である。
図4は、実施例1における、訳語の対応、各単語の品詞、句・節・ヘッドワードの位置を示した図である。
図5は、訳出方法指定処理部23にてユーザから訳出方法の指定を受け付ける際にユーザに対して表示する画面の例である。
図6は、実施例2における、各単語の品詞、翻訳結果の係り受け構造の例である。
図2は、機械翻訳システム100における第1の翻訳部21及び受付箇所計算部22の動作を説明するための流れ図である。
図3は、機械翻訳システム100における訳出方法指定部23及び第2の翻訳部24の動作を説明するための流れ図である。
図4は、実施例1における、訳語の対応、各単語の品詞、句・節・ヘッドワードの位置を示した図である。
図5は、訳出方法指定処理部23にてユーザから訳出方法の指定を受け付ける際にユーザに対して表示する画面の例である。
図6は、実施例2における、各単語の品詞、翻訳結果の係り受け構造の例である。
次に、発明を実施するための最良の形態である機械翻訳システム100について説明する。機械翻訳システム100は、第1の言語による原文を機械翻訳して第2の言語による訳文を生成するシステムである。以下では第1の言語を第1言語と略記することもある。第2の言語についても第2言語と略記することがある。
図1を参照すると、機械翻訳システム100は、キーボード、マウス等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4とを備える。
記憶装置3は、翻訳知識記憶部31と受付規則記憶部32と訳出方法記憶部33を備えている。
翻訳知識記憶部31には、予め第1の言語から第2の言語に翻訳するための翻訳知識が記憶されている。翻訳知識は翻訳辞書及び翻訳規則を含む。
受付規則記憶部32には、受付箇所を抽出する際に参照する受付規則が記憶されている。ここで、受付箇所とは、再翻訳の対象の候補となる箇所であって、翻訳結果のうち、所定の言語現象を含む箇所をいい、受付規則とは、受付箇所を抽出するための規則をいう。後述するように、機械翻訳システム100では、翻訳結果から抽出した受付箇所の一部乃至全部に対し、その受付箇所に含まれる言語現象に応じた訳出方法に基づいて再度の翻訳を行う。
訳出方法記憶部33には、各言語現象に対して指定可能な訳出方法が記憶されている。
データ処理装置2は、第1の翻訳処理部21と、受付箇所計算処理部22と、訳出方法指定処理部23と、第2の翻訳処理部24とを備えている。これらの処理部はそれぞれ概略以下のように動作する。
第1の翻訳処理部21は、翻訳知識記憶部31に記憶された翻訳知識を用いて、入力装置1から入力された第1言語の文を第2言語の文に翻訳する。
受付箇所計算処理部22は、受付規則記憶部32に記憶されている受付規則に従って、翻訳結果の中から受付箇所を算出する。より具体的には、翻訳結果中の単語それぞれに対して、受付箇所の中心となる単語か否かの判定を、受付規則に従って行うと共に、該当する単語については受付箇所の範囲を受付規則に従って判定する。
訳出方法指定処理部23では、受付箇所計算処理部22において計算された受付箇所の情報と、訳出方法記憶部33に記憶された訳出方法の情報に従って、ユーザから翻訳結果中の言語現象に対する訳出方法の指定を受け付ける。
第2の翻訳処理部24は、訳出方法指定処理部23にて受け付けた訳出方法に従って翻訳結果を変更する。
次に、機械翻訳システム100の全体の動作について説明する。最初に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける受付箇所を計算する場合の動作について図2を参照して説明する。
まず、第1の翻訳処理部21において、入力装置1から入力された第1言語の文を翻訳知識記憶部32に記憶された翻訳知識を用いて、第2言語の文に翻訳する(ステップA1)。
次に、受付箇所計算処理部22において、翻訳結果中の各単語について、言語現象の各々に関する受付規則を参照して、当該単語が当該言語現象の訳出方法の指定を受け付ける受付箇所の中心となる単語となるかを判定する(ステップA2)。
続いて、受付箇所計算処理部22において、当該受付規則に従って当該言語現象に対する受付箇所の範囲を、当該単語を中心に調整する(ステップA3)。
最後に、翻訳結果中の全言語現象に対して受付箇所かの判定が終了していなければ終了していない語に関しステップA2から処理を行い、終了していれば処理を終了する(ステップA4)。
次に、図3を参照して、計算された受付箇所の情報を用いて、ユーザが訳出方法の指定を行う際の機械翻訳システム100の動作について説明する。
まず、訳出方法指定処理部23において、計算された受付箇所の情報と、訳出方法記憶部33に記憶された訳出方法の情報に従って、ユーザから訳出方法の指定を受け付ける(ステップB1)。つまり、ここでユーザは、計算された受付箇所の一部乃至全部を選択し、選択した受付箇所のそれぞれに対し、訳出方法を指定する。
次に、第2の翻訳処理部24において、受け付けた訳出方法に従って翻訳結果を修正する(ステップB2)。
最後に、出力装置4より、修正後の翻訳結果を出力する(ステップB3)。
以下では本実施の形態の他のバリエーションについて述べる。
受付箇所計算処理部22においては、翻訳結果中の各単語に対して、受付箇所の中心となる単語となるかを判定しているが、単語の代わりに句や節、文といった単位に対して判定を行っても良い。
また、第2の翻訳処理部においては、訳出方法指定処理部23で指定された訳出方法に従って翻訳結果を調整するだけでも良いし、指定された訳出方法を参照しながら翻訳知識記憶部32に記憶された翻訳知識に従って再度翻訳処理を行っても良い。
次に、本実施の形態の効果について説明する。
本実施の形態では、訳出方法指定処理部23を設けることで、連体節や冠詞といった句レベルの言語現象に対する訳出方法の指定に関しても翻訳結果上から受付が可能である。
また本実施の形態では、受付箇所計算処理部22において、受付規則記憶部33に格納された受付規則を参照することにより、翻訳結果中の言語現象に対する訳出方法の受付が不可能な状態に陥らないように受付箇所を定めることができる。
図1を参照すると、機械翻訳システム100は、キーボード、マウス等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置等の出力装置4とを備える。
記憶装置3は、翻訳知識記憶部31と受付規則記憶部32と訳出方法記憶部33を備えている。
翻訳知識記憶部31には、予め第1の言語から第2の言語に翻訳するための翻訳知識が記憶されている。翻訳知識は翻訳辞書及び翻訳規則を含む。
受付規則記憶部32には、受付箇所を抽出する際に参照する受付規則が記憶されている。ここで、受付箇所とは、再翻訳の対象の候補となる箇所であって、翻訳結果のうち、所定の言語現象を含む箇所をいい、受付規則とは、受付箇所を抽出するための規則をいう。後述するように、機械翻訳システム100では、翻訳結果から抽出した受付箇所の一部乃至全部に対し、その受付箇所に含まれる言語現象に応じた訳出方法に基づいて再度の翻訳を行う。
訳出方法記憶部33には、各言語現象に対して指定可能な訳出方法が記憶されている。
データ処理装置2は、第1の翻訳処理部21と、受付箇所計算処理部22と、訳出方法指定処理部23と、第2の翻訳処理部24とを備えている。これらの処理部はそれぞれ概略以下のように動作する。
第1の翻訳処理部21は、翻訳知識記憶部31に記憶された翻訳知識を用いて、入力装置1から入力された第1言語の文を第2言語の文に翻訳する。
受付箇所計算処理部22は、受付規則記憶部32に記憶されている受付規則に従って、翻訳結果の中から受付箇所を算出する。より具体的には、翻訳結果中の単語それぞれに対して、受付箇所の中心となる単語か否かの判定を、受付規則に従って行うと共に、該当する単語については受付箇所の範囲を受付規則に従って判定する。
訳出方法指定処理部23では、受付箇所計算処理部22において計算された受付箇所の情報と、訳出方法記憶部33に記憶された訳出方法の情報に従って、ユーザから翻訳結果中の言語現象に対する訳出方法の指定を受け付ける。
第2の翻訳処理部24は、訳出方法指定処理部23にて受け付けた訳出方法に従って翻訳結果を変更する。
次に、機械翻訳システム100の全体の動作について説明する。最初に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける受付箇所を計算する場合の動作について図2を参照して説明する。
まず、第1の翻訳処理部21において、入力装置1から入力された第1言語の文を翻訳知識記憶部32に記憶された翻訳知識を用いて、第2言語の文に翻訳する(ステップA1)。
次に、受付箇所計算処理部22において、翻訳結果中の各単語について、言語現象の各々に関する受付規則を参照して、当該単語が当該言語現象の訳出方法の指定を受け付ける受付箇所の中心となる単語となるかを判定する(ステップA2)。
続いて、受付箇所計算処理部22において、当該受付規則に従って当該言語現象に対する受付箇所の範囲を、当該単語を中心に調整する(ステップA3)。
最後に、翻訳結果中の全言語現象に対して受付箇所かの判定が終了していなければ終了していない語に関しステップA2から処理を行い、終了していれば処理を終了する(ステップA4)。
次に、図3を参照して、計算された受付箇所の情報を用いて、ユーザが訳出方法の指定を行う際の機械翻訳システム100の動作について説明する。
まず、訳出方法指定処理部23において、計算された受付箇所の情報と、訳出方法記憶部33に記憶された訳出方法の情報に従って、ユーザから訳出方法の指定を受け付ける(ステップB1)。つまり、ここでユーザは、計算された受付箇所の一部乃至全部を選択し、選択した受付箇所のそれぞれに対し、訳出方法を指定する。
次に、第2の翻訳処理部24において、受け付けた訳出方法に従って翻訳結果を修正する(ステップB2)。
最後に、出力装置4より、修正後の翻訳結果を出力する(ステップB3)。
以下では本実施の形態の他のバリエーションについて述べる。
受付箇所計算処理部22においては、翻訳結果中の各単語に対して、受付箇所の中心となる単語となるかを判定しているが、単語の代わりに句や節、文といった単位に対して判定を行っても良い。
また、第2の翻訳処理部においては、訳出方法指定処理部23で指定された訳出方法に従って翻訳結果を調整するだけでも良いし、指定された訳出方法を参照しながら翻訳知識記憶部32に記憶された翻訳知識に従って再度翻訳処理を行っても良い。
次に、本実施の形態の効果について説明する。
本実施の形態では、訳出方法指定処理部23を設けることで、連体節や冠詞といった句レベルの言語現象に対する訳出方法の指定に関しても翻訳結果上から受付が可能である。
また本実施の形態では、受付箇所計算処理部22において、受付規則記憶部33に格納された受付規則を参照することにより、翻訳結果中の言語現象に対する訳出方法の受付が不可能な状態に陥らないように受付箇所を定めることができる。
より具体的な例を挙げて機械翻訳システム100の動作について説明する。実施例1は、日本語から英語への翻訳であり、訳出方法を指定可能な言語現象が冠詞に関する現象、動詞に関する現象、連体節に関する現象である場合について説明する。
翻訳知識記憶部31には、機械翻訳を行うための翻訳辞書と翻訳規則が記憶されている。本実施例では、翻訳辞書は日本語から英語に機械翻訳する際に参照される辞書データである。同様に、翻訳規則は日本語から英語に機械翻訳する際に、日本語の原文に適用し、英語の訳文を生成するための規則を示すデータである。
受付規則記憶部32には、冠詞の訳出方法、動詞の訳出方法、連体節の訳出方法のそれぞれを受け付けることができる翻訳結果中の受付箇所を定めるための受付規則が格納されている。各受付規則は、好適には、(1)翻訳結果中の各単語について当該言語現象の訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定する判定規則と、(2)当該単語を中心に受付箇所の範囲を決定する範囲規則とからなる。
訳出方法記憶部33には、各言語現象に対して指定可能な訳出方法が格納されている。各言語現象に対して指定可能な訳出方法の一覧の例を表1に示す。なお、表1はあくまで例示であり、対象とする言語現象の種別や、各言語現象に対して指定可能な訳出方法は表1の例に限定されない。
表1に例示した各言語現象に対する訳出方法を受け付ける受付箇所を計算するための受付規則は以下の通りである。ここで説明する受付規則は判定規則と範囲規則からなる。
言語現象種別を冠詞と判定する判定規則は、後置修飾句を含まない名詞句のヘッドワードを対象の単語とすることである。範囲規則は、当該ヘッドワードが含まれる後置修飾句を含まない名詞句中の各単語と、当該名詞句に直接従属する冠詞を受付箇所とすることである。尚、範囲規則のバリエーションとして、当該名詞句もしくは冠詞の一方ないし両方に含まれる単語を受付箇所とすることとしてもよい。
言語現象種別が動詞の場合、判定規則は、各節の述部のヘッドワードの品詞が動詞である場合、当該ヘッドワードを対象の単語とすることである。範囲規則は、当該述部中の、当該ヘッドワードを含む動詞、助動詞が連続する範囲を受付箇所とすることである。
言語現象種別が連体節の場合、判定規則は、入力文中の連体節の主節の述部のヘッドワードに対応する翻訳結果中の訳語を対象の単語とすることである。範囲規則は、当該訳語を含む述部中の、当該訳語を含む動詞、形容詞、助動詞が連続する範囲に含まれる単語と、当該連体節に対応する関係節が存在する場合その関係詞を受付箇所とすることである。尚、範囲規則のバリエーションとして、当該連続する範囲もしくは当該関係詞の一方または両方に含まれる単語を受付箇所することとしてもよい。
ヘッドワードとは、ある句や節の中で中心となる単語である。ヘッドワードの定義は機械翻訳で用いる言語解析の手法によって異なるが、どのような言語解析手法でも当該句や節中の1単語が必ず当該句や節のヘッドワードとなる。
名詞句の後置修飾句とは、当該名詞句を後から修飾する前置詞句、関係節、形容詞句や、現在分詞や過去分詞をヘッドワードとする動詞句を指す。
ここで、入力文は「そこに立っている人は読む本を探しています。」であり、システムが最初に出力する翻訳結果は「Person who is standing there is looking for the read book.」、目標とする翻訳結果は「The person standing there is looking for a book to read.」であるとする。
第1に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける翻訳結果中の受付箇所を計算するときの受付箇所計算処理部22の動作を中心として説明する。
入力文「そこに立っている人は読む本を探しています。」が入力されると、第1の翻訳処理部21は、翻訳知識記憶部32に記憶された翻訳知識を用いて、翻訳結果「Person who is standing there is looking for the read book.」を作成する。
本実施例における、入力文中の単語と翻訳結果中の訳語の対応関係、入力文中と翻訳結果中の各単語の品詞、入力文における連体節の範囲とその述部の範囲とその述部のヘッドワード、翻訳結果における後置修飾句を含まない名詞句の範囲とそのヘッドワード、翻訳結果における節の範囲とその述部の範囲とその述部のヘッドワードを図4に示す。図4から記載の一部を挙げて説明する。入力文中の単語「そこ」の品詞は「名詞」であり、対応する訳語は「there」である。入力文中の連体節は「そこに立っている」と「読む」の2つであり、それぞれの述部は「立っている」と「読む」であり、それぞれのヘッドワードは「立っ」と「読む」である。翻訳結果中の単語「Person」の品詞は「名詞」である。翻訳結果中の名詞句は「Person」と「the read book」の2つでありそのヘッドワードは「Person」と「book」である。翻訳結果中の節は翻訳結果全体と「who is standing there」の2つでありそれぞれの述部は「is looking」と「is standing」でありそれぞれのヘッドワードは「looking」と「standing」である。
次に、受付箇所計算処理部22において、翻訳結果中の各々の単語に対して受付規則記憶部32中の受付規則を参照して、翻訳結果中の言語現象に対する訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定し、その後受付箇所の範囲を調整する。全単語に対して処理を終えた結果を、予め表2に示す。表2において、IDは翻訳結果中の言語現象の各々に対して1つ割り当てられるIDを示し、種別は当該言語現象の種別を示し、範囲は当該言語現象に対する訳出方法の指定を受付可能な翻訳結果中の受付箇所を示し、範囲の中の各単語の先頭に記載した数字は、翻訳結果の先頭の単語から付与した順番を示す。
例えば、翻訳結果末尾の単語「book」について考える。図4を参照すると「book」は後置修飾句を含まない名詞句のヘッドワードであるため、上述した冠詞の受付規則の判定規則を満たす。そこで次に冠詞の受付規則の範囲規則を参照すると、「book」を含む後置修飾句を含まない名詞句「the read book」中の全単語を対象とするとあるため、「the」と「read」と「book」に対して同一のID5を振り、その種別は冠詞とする(表2のID5)。また、ID5が振られる元となった単語「book」に対応する原文中の単語「本」も、ID5に紐付ける。
また例えば、単語「standing」について考える。「standing」は図4を参照すると節の述部のヘッドワードであることが分かるため、動詞の受付規則の判定規則を満たす。そこで次に動詞の受付規則の範囲規則を参照すると、「standing」を含む述部「is standing」中の、当該訳語を含む動詞、助動詞が連続する範囲「is standing」中の全単語を対象とするとあるため、「is」と「standing」に対して新たな同一のID3を振り、その種別は動詞とする(表2のID3)。また、ID3が振られる元となった単語「standing」に対応する原文中の単語「立っ」も、ID3に紐付ける。
また一方で、「standing」に対応する入力文中の単語「立っ」は入力文中の連体節「そこに立っている」の主節の述部のヘッドワードであるため、連体節の受付規則の判定規則も同時に満たす。そこで次に連体節の受付規則の範囲規則を参照すると、「standing」を含む述部「is standing」中の、当該訳語「standing」を含む動詞、形容詞、助動詞が連続する範囲「is standing」中の全単語と、当該連体節「そこに立っている」に対応する関係節「who is standing」の関係詞「who」を対象とするとあるため、「who」「is」「standing」に対し新たな同一のID2を振り、その種別は連体節とする(表2のID2)。また、ID2が振られる元となった単語「standing」に対応する原文中の単語「立っ」も、ID2に紐付ける。
また例えば、単語「who」「is」「there」等はいずれの言語現象の受付規則の判定規則も満たさないため、これらの単語を起点とした受付箇所の計算は行わない。
第2に、本実施例において、計算された受付箇所の情報を用いて、ユーザが訳出方法を指定する動作を説明する。
受付箇所の計算処理により、表2に示す受付箇所が計算されている。ユーザは出力装置4に表示された翻訳結果の一部分に対し、入力装置から訳出方法の指定を行うことができる。入力装置からの指定の方法としては、好適には、画像表示装置にて第1の翻訳処理部21による翻訳結果(本願請求項にいう第1の文字データ)を表示する。ユーザがマウス等のポインティングデバイスにてマウスポインタを動かして、表示した翻訳結果中の1単語にマウスポインタを合わせた状態で右クリックすると、これに応答して、当該1単語を含む受付箇所に対応する言語現象が選択され、該当する語句を強調表示すると共に、その言語現象に対して指定可能な訳出方法の一覧を表示する。これを見て、ユーザはマウス等を用いてその一覧から訳出方法を選択することによって当該言語現象の訳出方法を指定する。
入力装置からの指定の方法は前記好適な指定の方法に限らない。指定したい単語を指し示す方法としては文字入力のカーソルを合わせる、当該単語を範囲選択する等の入力装置を利用したその他の方法でもよく、また訳出方法の一覧を表示する方法も、ツールバーから指定する、ウィンドウのメニュー項目からたどる等、入力装置を利用したその他の方法でもよい。また単語間の空白部分を指定した場合にも訳出方法の受付を可能としても良い。
指定された言語現象に対して指定可能な訳出方法の一覧を表示した例を図5に示す。この例では、「read」にマウスポインタを合わせて右クリックすることにより、「read」を含む言語現象に対して指定可能な訳出方法の一覧が表示されている。
表2を参照すると分かるように、「read」に対しては、冠詞の訳出方法(表2のID5)、動詞の訳出方法(表2のID6)と連体節の訳出方法(表2のID7)の受付が可能となっている。このように複数の言語現象に対する訳出方法の受付が可能な場合には、好適には一覧中にその全てを表示する。
何らかの理由で受付ができない訳出方法が存在する場合等には、全ての受付可能な訳出方法を表示しなくても良い。ちなみに、受付可能な訳出方法が存在しない場合は、一覧のウィンドウ自体を表示させない、または、一覧中に訳出方法に関する項目を表示させない等の方法が考えられる。
また図5に示すとおり、表示する一覧中には句レベル以外の訳出方法、例えば単語の訳し分け等を含めても良い。図5では「読む」の訳語として「read」の他に「understood」を表示している。
また、図5中の「○」印はユーザが指定したい訳出方法を表しているが、このように、1つの単語に対して複数の訳出方法の指定も可能である。
ここで、最初のシステムの出力である翻訳結果「Person who is standing there is looking for the read book.」を、訳出方法の指定により目標とする翻訳結果「The person standing there is looking for a book to read.」に近づけることを考える。
まず、ユーザが訳文先頭の「person」に対して定冠詞「the」を付与することを考える。ユーザが「person」上にマウスポインタを合わせ、右クリックすると、訳出方法指定処理部23は「person」に対して指定可能な訳出方法の一覧を検索し、検索結果を出力装置4に出力する。
表2を参照すると、「person」に対しては冠詞の訳出方法(ID1)の指定が可能であると分かる。そこで、訳出方法指定処理部23は冠詞に関する訳出方法の一覧「定冠詞(the)/不定冠詞(a)/冠詞なし」を出力装置4に出力する。その後、ユーザが一覧から「定冠詞(the)」を指定すると、第2の翻訳処理部において、当該指定の結果を翻訳結果に反映し、「The person who is standing there is looking for the read book.」なる翻訳結果を生成する。システムは生成した翻訳結果を出力装置から出力する。
以下その他の箇所に関しても同様に訳出方法の指定を行うことで翻訳結果を修正する。まず翻訳結果中の「who is standing」上から連体節を「ing形」で訳す訳出方法を指定すると、訳文は「The person standing there is looking for the read book.」に修正される。
続けて「the read book」上から冠詞を「不定冠詞(a)」で訳す訳出方法を指定すると、翻訳結果は「The person standing there is looking for a read book.」に修正される。
最後に、「read」上から連体節を「To不定詞」で訳す訳出方法を指定すると、翻訳結果は「The person standing there is looking for a book to read.」となり、目標とする翻訳結果が得られる。
以下、第1の実施例における本発明の効果について説明する。
第1に、本実施例で挙げた例文のように、1文中に同種の言語現象(本実施例では連体節)が複数存在する場合、従来技術2では、その各々に独立して訳出方法の指定を行うことができなかった。本実施例では、訳出方法指定処理部23を設けることで、各々に対して翻訳結果上から独立して訳出方法の指定ができる。
第2に、本実施例での「person」に対する定冠詞theの指定について述べると、従来技術1と2の単なる組み合わせでは、元々の翻訳結果中にtheの生成を指定するための単語が存在しないため、定冠詞theを翻訳結果上からの指定により生成できなかった。本実施例では、受付箇所計算処理部22において単語「person」をtheの生成を指定するための単語とすることで、定冠詞theを翻訳結果上からの指定により生成可能となっている。
なお、本実施例では日本語から英語への翻訳について説明したが、その他の言語間の翻訳を行う翻訳システムに適用しても良い。
また、翻訳結果修正の出力装置への反映のタイミングについては、好適には訳出方法が1つ指定される毎に翻訳結果を修正し修正後の翻訳結果を出力装置に反映するが、必要な訳出方法の指定を全て行った後でユーザが再翻訳ボタン等から再翻訳の指定をするタイミングで初めて翻訳結果を修正し修正後の翻訳結果を出力装置に反映してもよい。
また、本実施例では、訳出方法の指定を行う単語に対して指定可能な訳出方法の一覧を表示しているが、キーボードショートカット等により一覧の表示をスキップしてもよい。つまり、各訳出方法に対応するキーボードショートカットキーを定めておき、訳出方法を指定したい単語の上に文字入力のカーソルを合わせた状態で、指定したい訳出方法に対応するキーボードショートカットキーを押すという方法でもよい。
翻訳知識記憶部31には、機械翻訳を行うための翻訳辞書と翻訳規則が記憶されている。本実施例では、翻訳辞書は日本語から英語に機械翻訳する際に参照される辞書データである。同様に、翻訳規則は日本語から英語に機械翻訳する際に、日本語の原文に適用し、英語の訳文を生成するための規則を示すデータである。
受付規則記憶部32には、冠詞の訳出方法、動詞の訳出方法、連体節の訳出方法のそれぞれを受け付けることができる翻訳結果中の受付箇所を定めるための受付規則が格納されている。各受付規則は、好適には、(1)翻訳結果中の各単語について当該言語現象の訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定する判定規則と、(2)当該単語を中心に受付箇所の範囲を決定する範囲規則とからなる。
訳出方法記憶部33には、各言語現象に対して指定可能な訳出方法が格納されている。各言語現象に対して指定可能な訳出方法の一覧の例を表1に示す。なお、表1はあくまで例示であり、対象とする言語現象の種別や、各言語現象に対して指定可能な訳出方法は表1の例に限定されない。
言語現象種別を冠詞と判定する判定規則は、後置修飾句を含まない名詞句のヘッドワードを対象の単語とすることである。範囲規則は、当該ヘッドワードが含まれる後置修飾句を含まない名詞句中の各単語と、当該名詞句に直接従属する冠詞を受付箇所とすることである。尚、範囲規則のバリエーションとして、当該名詞句もしくは冠詞の一方ないし両方に含まれる単語を受付箇所とすることとしてもよい。
言語現象種別が動詞の場合、判定規則は、各節の述部のヘッドワードの品詞が動詞である場合、当該ヘッドワードを対象の単語とすることである。範囲規則は、当該述部中の、当該ヘッドワードを含む動詞、助動詞が連続する範囲を受付箇所とすることである。
言語現象種別が連体節の場合、判定規則は、入力文中の連体節の主節の述部のヘッドワードに対応する翻訳結果中の訳語を対象の単語とすることである。範囲規則は、当該訳語を含む述部中の、当該訳語を含む動詞、形容詞、助動詞が連続する範囲に含まれる単語と、当該連体節に対応する関係節が存在する場合その関係詞を受付箇所とすることである。尚、範囲規則のバリエーションとして、当該連続する範囲もしくは当該関係詞の一方または両方に含まれる単語を受付箇所することとしてもよい。
ヘッドワードとは、ある句や節の中で中心となる単語である。ヘッドワードの定義は機械翻訳で用いる言語解析の手法によって異なるが、どのような言語解析手法でも当該句や節中の1単語が必ず当該句や節のヘッドワードとなる。
名詞句の後置修飾句とは、当該名詞句を後から修飾する前置詞句、関係節、形容詞句や、現在分詞や過去分詞をヘッドワードとする動詞句を指す。
ここで、入力文は「そこに立っている人は読む本を探しています。」であり、システムが最初に出力する翻訳結果は「Person who is standing there is looking for the read book.」、目標とする翻訳結果は「The person standing there is looking for a book to read.」であるとする。
第1に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける翻訳結果中の受付箇所を計算するときの受付箇所計算処理部22の動作を中心として説明する。
入力文「そこに立っている人は読む本を探しています。」が入力されると、第1の翻訳処理部21は、翻訳知識記憶部32に記憶された翻訳知識を用いて、翻訳結果「Person who is standing there is looking for the read book.」を作成する。
本実施例における、入力文中の単語と翻訳結果中の訳語の対応関係、入力文中と翻訳結果中の各単語の品詞、入力文における連体節の範囲とその述部の範囲とその述部のヘッドワード、翻訳結果における後置修飾句を含まない名詞句の範囲とそのヘッドワード、翻訳結果における節の範囲とその述部の範囲とその述部のヘッドワードを図4に示す。図4から記載の一部を挙げて説明する。入力文中の単語「そこ」の品詞は「名詞」であり、対応する訳語は「there」である。入力文中の連体節は「そこに立っている」と「読む」の2つであり、それぞれの述部は「立っている」と「読む」であり、それぞれのヘッドワードは「立っ」と「読む」である。翻訳結果中の単語「Person」の品詞は「名詞」である。翻訳結果中の名詞句は「Person」と「the read book」の2つでありそのヘッドワードは「Person」と「book」である。翻訳結果中の節は翻訳結果全体と「who is standing there」の2つでありそれぞれの述部は「is looking」と「is standing」でありそれぞれのヘッドワードは「looking」と「standing」である。
次に、受付箇所計算処理部22において、翻訳結果中の各々の単語に対して受付規則記憶部32中の受付規則を参照して、翻訳結果中の言語現象に対する訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定し、その後受付箇所の範囲を調整する。全単語に対して処理を終えた結果を、予め表2に示す。表2において、IDは翻訳結果中の言語現象の各々に対して1つ割り当てられるIDを示し、種別は当該言語現象の種別を示し、範囲は当該言語現象に対する訳出方法の指定を受付可能な翻訳結果中の受付箇所を示し、範囲の中の各単語の先頭に記載した数字は、翻訳結果の先頭の単語から付与した順番を示す。
また例えば、単語「standing」について考える。「standing」は図4を参照すると節の述部のヘッドワードであることが分かるため、動詞の受付規則の判定規則を満たす。そこで次に動詞の受付規則の範囲規則を参照すると、「standing」を含む述部「is standing」中の、当該訳語を含む動詞、助動詞が連続する範囲「is standing」中の全単語を対象とするとあるため、「is」と「standing」に対して新たな同一のID3を振り、その種別は動詞とする(表2のID3)。また、ID3が振られる元となった単語「standing」に対応する原文中の単語「立っ」も、ID3に紐付ける。
また一方で、「standing」に対応する入力文中の単語「立っ」は入力文中の連体節「そこに立っている」の主節の述部のヘッドワードであるため、連体節の受付規則の判定規則も同時に満たす。そこで次に連体節の受付規則の範囲規則を参照すると、「standing」を含む述部「is standing」中の、当該訳語「standing」を含む動詞、形容詞、助動詞が連続する範囲「is standing」中の全単語と、当該連体節「そこに立っている」に対応する関係節「who is standing」の関係詞「who」を対象とするとあるため、「who」「is」「standing」に対し新たな同一のID2を振り、その種別は連体節とする(表2のID2)。また、ID2が振られる元となった単語「standing」に対応する原文中の単語「立っ」も、ID2に紐付ける。
また例えば、単語「who」「is」「there」等はいずれの言語現象の受付規則の判定規則も満たさないため、これらの単語を起点とした受付箇所の計算は行わない。
第2に、本実施例において、計算された受付箇所の情報を用いて、ユーザが訳出方法を指定する動作を説明する。
受付箇所の計算処理により、表2に示す受付箇所が計算されている。ユーザは出力装置4に表示された翻訳結果の一部分に対し、入力装置から訳出方法の指定を行うことができる。入力装置からの指定の方法としては、好適には、画像表示装置にて第1の翻訳処理部21による翻訳結果(本願請求項にいう第1の文字データ)を表示する。ユーザがマウス等のポインティングデバイスにてマウスポインタを動かして、表示した翻訳結果中の1単語にマウスポインタを合わせた状態で右クリックすると、これに応答して、当該1単語を含む受付箇所に対応する言語現象が選択され、該当する語句を強調表示すると共に、その言語現象に対して指定可能な訳出方法の一覧を表示する。これを見て、ユーザはマウス等を用いてその一覧から訳出方法を選択することによって当該言語現象の訳出方法を指定する。
入力装置からの指定の方法は前記好適な指定の方法に限らない。指定したい単語を指し示す方法としては文字入力のカーソルを合わせる、当該単語を範囲選択する等の入力装置を利用したその他の方法でもよく、また訳出方法の一覧を表示する方法も、ツールバーから指定する、ウィンドウのメニュー項目からたどる等、入力装置を利用したその他の方法でもよい。また単語間の空白部分を指定した場合にも訳出方法の受付を可能としても良い。
指定された言語現象に対して指定可能な訳出方法の一覧を表示した例を図5に示す。この例では、「read」にマウスポインタを合わせて右クリックすることにより、「read」を含む言語現象に対して指定可能な訳出方法の一覧が表示されている。
表2を参照すると分かるように、「read」に対しては、冠詞の訳出方法(表2のID5)、動詞の訳出方法(表2のID6)と連体節の訳出方法(表2のID7)の受付が可能となっている。このように複数の言語現象に対する訳出方法の受付が可能な場合には、好適には一覧中にその全てを表示する。
何らかの理由で受付ができない訳出方法が存在する場合等には、全ての受付可能な訳出方法を表示しなくても良い。ちなみに、受付可能な訳出方法が存在しない場合は、一覧のウィンドウ自体を表示させない、または、一覧中に訳出方法に関する項目を表示させない等の方法が考えられる。
また図5に示すとおり、表示する一覧中には句レベル以外の訳出方法、例えば単語の訳し分け等を含めても良い。図5では「読む」の訳語として「read」の他に「understood」を表示している。
また、図5中の「○」印はユーザが指定したい訳出方法を表しているが、このように、1つの単語に対して複数の訳出方法の指定も可能である。
ここで、最初のシステムの出力である翻訳結果「Person who is standing there is looking for the read book.」を、訳出方法の指定により目標とする翻訳結果「The person standing there is looking for a book to read.」に近づけることを考える。
まず、ユーザが訳文先頭の「person」に対して定冠詞「the」を付与することを考える。ユーザが「person」上にマウスポインタを合わせ、右クリックすると、訳出方法指定処理部23は「person」に対して指定可能な訳出方法の一覧を検索し、検索結果を出力装置4に出力する。
表2を参照すると、「person」に対しては冠詞の訳出方法(ID1)の指定が可能であると分かる。そこで、訳出方法指定処理部23は冠詞に関する訳出方法の一覧「定冠詞(the)/不定冠詞(a)/冠詞なし」を出力装置4に出力する。その後、ユーザが一覧から「定冠詞(the)」を指定すると、第2の翻訳処理部において、当該指定の結果を翻訳結果に反映し、「The person who is standing there is looking for the read book.」なる翻訳結果を生成する。システムは生成した翻訳結果を出力装置から出力する。
以下その他の箇所に関しても同様に訳出方法の指定を行うことで翻訳結果を修正する。まず翻訳結果中の「who is standing」上から連体節を「ing形」で訳す訳出方法を指定すると、訳文は「The person standing there is looking for the read book.」に修正される。
続けて「the read book」上から冠詞を「不定冠詞(a)」で訳す訳出方法を指定すると、翻訳結果は「The person standing there is looking for a read book.」に修正される。
最後に、「read」上から連体節を「To不定詞」で訳す訳出方法を指定すると、翻訳結果は「The person standing there is looking for a book to read.」となり、目標とする翻訳結果が得られる。
以下、第1の実施例における本発明の効果について説明する。
第1に、本実施例で挙げた例文のように、1文中に同種の言語現象(本実施例では連体節)が複数存在する場合、従来技術2では、その各々に独立して訳出方法の指定を行うことができなかった。本実施例では、訳出方法指定処理部23を設けることで、各々に対して翻訳結果上から独立して訳出方法の指定ができる。
第2に、本実施例での「person」に対する定冠詞theの指定について述べると、従来技術1と2の単なる組み合わせでは、元々の翻訳結果中にtheの生成を指定するための単語が存在しないため、定冠詞theを翻訳結果上からの指定により生成できなかった。本実施例では、受付箇所計算処理部22において単語「person」をtheの生成を指定するための単語とすることで、定冠詞theを翻訳結果上からの指定により生成可能となっている。
なお、本実施例では日本語から英語への翻訳について説明したが、その他の言語間の翻訳を行う翻訳システムに適用しても良い。
また、翻訳結果修正の出力装置への反映のタイミングについては、好適には訳出方法が1つ指定される毎に翻訳結果を修正し修正後の翻訳結果を出力装置に反映するが、必要な訳出方法の指定を全て行った後でユーザが再翻訳ボタン等から再翻訳の指定をするタイミングで初めて翻訳結果を修正し修正後の翻訳結果を出力装置に反映してもよい。
また、本実施例では、訳出方法の指定を行う単語に対して指定可能な訳出方法の一覧を表示しているが、キーボードショートカット等により一覧の表示をスキップしてもよい。つまり、各訳出方法に対応するキーボードショートカットキーを定めておき、訳出方法を指定したい単語の上に文字入力のカーソルを合わせた状態で、指定したい訳出方法に対応するキーボードショートカットキーを押すという方法でもよい。
実施例1では、第1の翻訳部21が出力した第1の訳文中の各単語に対して受付規則を適用して受付箇所を判定(受付箇所計算部22)し、受付箇所の言語現象に応じた訳出方法をユーザに提示(訳出方法指定部23)し、ユーザが選択した訳出方法に応じて第1の訳文を変更して第2の訳文を生成(第2の翻訳部24)した。
これに対して実施例2は第2の訳文に対して更に変更を加える例である。このような場合、実施例1では、第2の訳文を受付箇所計算部22に入力して上述の処理を繰り返すことになる。このとき、訳出方法の候補として、第1の訳文に戻すような変更が可能であることが望ましい。
しかし、第1の訳文から第2の訳文を生成する過程で、第1の訳文に存在した単語が第2の訳文から脱落する場合、特に、脱落した単語が受付規則により訳出方法の受付箇所となる単語である場合、第2の訳文から第1の訳文に戻すことが出来ない。
例として、冠詞の訳出方法の指定を行う場合を考える。冠詞に対して指定可能な訳出方法として「定冠詞(the)/不定冠詞(a)/冠詞無し」の3通りがあるとする。冠詞の訳出方法の指定を行いたい翻訳結果中の箇所に、定冠詞または不定冠詞のどちらかの冠詞が元々存在する場合は、当該冠詞を訳出方法の受付箇所として用いて冠詞に対する訳出方法の指定が可能だが、当該翻訳結果中の箇所に元々冠詞がない場合は、訳出方法の受付に利用可能な冠詞が存在しないため、冠詞の訳出方法の指定が不可能である。
この問題は、他の種類の句レベルの言語現象に対する訳出方法の指定時にも起こり得る。例えば、前述の連体節に対する訳出方法の指定を例に取ると、元々の翻訳結果がwho/which/where等の関係詞を用いない訳出である場合、関係詞を訳出方法の指定の受付箇所として用いることができない。
また別の例として、時を表す接続助詞(when,if等)に対する訳出方法(訳出方法は「接続助詞を用いて訳出/分詞構文で訳出」の2種類)の指定について考えると、元々の翻訳結果が分詞構文での訳出の場合、訳出方法の受付箇所とすべき接続助詞が存在しないため、接続助詞を訳出方法の指定の受付に用いることができない。
本実施の形態では、第1の訳文から第2の訳文を生成する際、当該受付規則により訳出方法の指定の受付箇所となる単語が、当該受付規則が対象とする言語現象の少なくとも1つの訳出方法を選択すると翻訳結果から脱落する場合、当該単語が含まれる名詞句もしくは用言句のうち、最短の句のヘッドワードもしくは当該句に含まれる全自立語の一方ないし両方を受付箇所とする。
これにより、受付箇所としたヘッドワードもしくは自立語を介して第2の訳文から第1の訳文に戻すことが可能となる。
以下に本発明の実施例2について詳細に説明する。実施例2では、図1に示した機械翻訳システム100が実施例1とは異なる動作をする。
翻訳知識記憶部31の内容は実施例1と同様である。
受付規則記憶部32には、接続助詞に対する訳出方法を受け付ける受付箇所を計算するための受付規則が格納されている。この受付規則は次の前半部及び後半部からなる。前半部は、判定規則は接続助詞を対象の単語とし、範囲規則は当該単語を受付範囲とすると規定する。後半部は、当該単語が、接続助詞の少なくとも1つの訳出方法を選択した場合に翻訳結果から脱落するならば、当該単語が含まれる名詞句もしくは用言句のうち、最短の句のヘッドワードをも当該訳出方法の指定の受付箇所として追加する。脱落時に受付箇所とする追加箇所は、当該最短の句に含まれる全自立語でもよい。なお、対象とする言語現象や各言語現象に対して指定可能な訳出方法の一覧は表1の一覧に限らない。
訳出方法記憶部33には、言語現象の種別と、その言語現象に対して指定可能な訳出方法の対応関係として、表3に示すような対応関係が格納されている。この対応関係は、表1に示した対応関係や、その他の言語現象種別と指定可能訳出方法の対応関係と共に訳出方法記憶部33に格納されていてもよい。
次に具体的な原文及び訳文を挙げて説明する。ここで、原文すなわち入力文は「私は走ると疲れる。」であり、システムが最初に出力する第1の翻訳結果は「If I run, I will get tired.」であるとする。
第1に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける翻訳結果中の受付箇所を計算する動作を説明する。
入力文「私は走ると疲れる。」が入力されると、第1の翻訳処理部21は、翻訳知識記憶部32に記憶された翻訳知識を用いて、翻訳結果「If I run, I will get tired.」を作成する。なお、本実施例の機械翻訳システムにおける入力文中と翻訳結果中の各単語の品詞、翻訳結果中の係り受け構造を図6に示す。図6を参照すると、例えば、翻訳結果中の単語「If」の品詞は「接続助詞」であり、翻訳結果中の「If」が含まれる句は用言句「If I run」のみであり、そのヘッドワードは「run」であると分かる。
次に、受付箇所計算処理部22において、翻訳結果中の各々の単語に対して受付規則記憶部32中の受付規則を参照して、翻訳結果中の言語現象に対する訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定し、その後受付箇所の範囲を調整する。全単語に対して処理を終えた結果を、予め表4に示す。表4中の項目は第1の実施例における表2と同様に記載されている。なお、図4、6に示すように、1箇所の言語現象に対応する受付箇所は必ずしも一続きに連続している必要はない。例えば図4におけるID1の言語現象(接続助詞「と」)に対する訳出方法の受付箇所は、「If」と「run」であり、図6に示す訳文中で一続きには連続していない。
受付箇所を計算する手順は第1の実施例と同様、翻訳結果中の各単語に対し受付規則の判定規則、範囲規則を順に適用する。翻訳結果中の単語「If」について考えると、「If」は図6に示すように接続助詞であり、接続助詞の受付規則の判定規則を満たす。
そこで次に接続助詞の受付規則の範囲規則の前半を参照すると、「If」を受付範囲とするとあるため、まず「If」に対しID1を振り、その種別は接続助詞とする。また、ID1が振られる元となった単語「If」に対応する原文中の単語「と」も、ID1に紐付ける。
ここで、この「If」に対して接続助詞の訳出方法の1つである「分詞構文」を指定したと仮定すると、翻訳結果は「Running, I will get tired.」となり、「If」は翻訳結果から脱落してしまう。すなわち接続助詞の受付規則の範囲規則の後半の条件を満たすため、「If」が含まれる名詞句もしくは用言句のうち最短の句「If I run」のヘッドワード「run」に対しても同じID1を振る。この結果、表4に示す受付箇所の情報が得られる。
第2に、計算された受付箇所の情報を用いて、ユーザが訳出方法を指定する動作を説明する。
訳出方法の指定の動作も第1の実施例と同様である。
ここで、ユーザが翻訳結果中の「If」上から接続助詞を「分詞構文」で訳す訳出方法を指定すると、翻訳結果は「Running, I will get tired.」となる。続けて直前まで「If」があった箇所に再度接続助詞「If」を訳出し元の翻訳結果に戻したいとする。
第1の実施例では、訳語が直接変化する「If」に対してのみ訳出方法の指定が可能であったため、現状の「Running, I will get tired.」なる翻訳結果上からの訳出方法の指定によっては元の翻訳結果「If I run, I will get tired.」に戻すことは不可能であったが、本実施例においては、「Running」上から接続助詞を「接続助詞利用」で訳す訳し方を指定することで、当該元の翻訳結果を得ることができる。
以下、第2の実施例における本発明の効果について説明する。
本実施例で挙げた例文のように、訳出方法の指定により訳出方法の指定の受付箇所が脱落する場合、従来技術1、2の単なる組み合わせでは、訳出方法の指定が不可能になる可能性があった。本実施例では、受付規則により訳出方法の指定の受付箇所となる単語が当該受付規則が対象とする言語現象の少なくとも1つの訳出方法を選択した場合に翻訳結果から脱落するならば、翻訳結果の係り受け構造上で当該単語の親となる単語も当該訳出方法の指定の受付箇所とするという特徴を持つ受付規則を受付規則記憶部33に有することにより、受付箇所計算処理部22において単語「run」を接続助詞の訳出方法を指定するための受付箇所とすることで、訳出方法の指定の受付箇所を翻訳結果中に必ず存在させ、訳出方法の指定が不可能な状態に陥らないようにできる。
以上、本発明について実施の形態及び実施例を挙げて説明したが、本発明はこれらに限定されるものではなく、本発明の技術的思想の範囲内で種々の変更が可能であることはいうまでもない。
例えば、本発明の一側面として上述した文字データ処理方法は、更に、言い換え表現に単語W(実施例2の”If”)が含まれていない場合、第1の文字データの単語Wを含む句、節、または文のうち、単語W以外の単語X(実施例2の”run”)と、単語Wとを関連付ける段階と、単語Xと単語Wとの関連付けに基づいて、第2の文字データの単語Xを含む句、節または文を、単語Wを含む句、節または文に言い換えた第3の文字データを生成する段階とを含むこととしてもよい。このようにすれば、第1の文字データから第2の文字データを生成する過程で単語Wが脱落しても、単語Wと単語Xの間の関連付けを辿って単語Wを含む表現に戻すことが出来る。本発明の他の側面でも同様である。
これらの文字データ処理方法は、例えば、機械翻訳して得られた翻訳結果を修正する際に適用することが出来る。本発明の他の側面でも同様である。
本願は、2007年3月27日出願の日本国特許出願2007−081916を基礎とするものであり、同特許出願の開示内容は全て本願に組み込まれる。
これに対して実施例2は第2の訳文に対して更に変更を加える例である。このような場合、実施例1では、第2の訳文を受付箇所計算部22に入力して上述の処理を繰り返すことになる。このとき、訳出方法の候補として、第1の訳文に戻すような変更が可能であることが望ましい。
しかし、第1の訳文から第2の訳文を生成する過程で、第1の訳文に存在した単語が第2の訳文から脱落する場合、特に、脱落した単語が受付規則により訳出方法の受付箇所となる単語である場合、第2の訳文から第1の訳文に戻すことが出来ない。
例として、冠詞の訳出方法の指定を行う場合を考える。冠詞に対して指定可能な訳出方法として「定冠詞(the)/不定冠詞(a)/冠詞無し」の3通りがあるとする。冠詞の訳出方法の指定を行いたい翻訳結果中の箇所に、定冠詞または不定冠詞のどちらかの冠詞が元々存在する場合は、当該冠詞を訳出方法の受付箇所として用いて冠詞に対する訳出方法の指定が可能だが、当該翻訳結果中の箇所に元々冠詞がない場合は、訳出方法の受付に利用可能な冠詞が存在しないため、冠詞の訳出方法の指定が不可能である。
この問題は、他の種類の句レベルの言語現象に対する訳出方法の指定時にも起こり得る。例えば、前述の連体節に対する訳出方法の指定を例に取ると、元々の翻訳結果がwho/which/where等の関係詞を用いない訳出である場合、関係詞を訳出方法の指定の受付箇所として用いることができない。
また別の例として、時を表す接続助詞(when,if等)に対する訳出方法(訳出方法は「接続助詞を用いて訳出/分詞構文で訳出」の2種類)の指定について考えると、元々の翻訳結果が分詞構文での訳出の場合、訳出方法の受付箇所とすべき接続助詞が存在しないため、接続助詞を訳出方法の指定の受付に用いることができない。
本実施の形態では、第1の訳文から第2の訳文を生成する際、当該受付規則により訳出方法の指定の受付箇所となる単語が、当該受付規則が対象とする言語現象の少なくとも1つの訳出方法を選択すると翻訳結果から脱落する場合、当該単語が含まれる名詞句もしくは用言句のうち、最短の句のヘッドワードもしくは当該句に含まれる全自立語の一方ないし両方を受付箇所とする。
これにより、受付箇所としたヘッドワードもしくは自立語を介して第2の訳文から第1の訳文に戻すことが可能となる。
以下に本発明の実施例2について詳細に説明する。実施例2では、図1に示した機械翻訳システム100が実施例1とは異なる動作をする。
翻訳知識記憶部31の内容は実施例1と同様である。
受付規則記憶部32には、接続助詞に対する訳出方法を受け付ける受付箇所を計算するための受付規則が格納されている。この受付規則は次の前半部及び後半部からなる。前半部は、判定規則は接続助詞を対象の単語とし、範囲規則は当該単語を受付範囲とすると規定する。後半部は、当該単語が、接続助詞の少なくとも1つの訳出方法を選択した場合に翻訳結果から脱落するならば、当該単語が含まれる名詞句もしくは用言句のうち、最短の句のヘッドワードをも当該訳出方法の指定の受付箇所として追加する。脱落時に受付箇所とする追加箇所は、当該最短の句に含まれる全自立語でもよい。なお、対象とする言語現象や各言語現象に対して指定可能な訳出方法の一覧は表1の一覧に限らない。
訳出方法記憶部33には、言語現象の種別と、その言語現象に対して指定可能な訳出方法の対応関係として、表3に示すような対応関係が格納されている。この対応関係は、表1に示した対応関係や、その他の言語現象種別と指定可能訳出方法の対応関係と共に訳出方法記憶部33に格納されていてもよい。
第1に、翻訳結果中の言語現象の各々に対する訳出方法の指定を受け付ける翻訳結果中の受付箇所を計算する動作を説明する。
入力文「私は走ると疲れる。」が入力されると、第1の翻訳処理部21は、翻訳知識記憶部32に記憶された翻訳知識を用いて、翻訳結果「If I run, I will get tired.」を作成する。なお、本実施例の機械翻訳システムにおける入力文中と翻訳結果中の各単語の品詞、翻訳結果中の係り受け構造を図6に示す。図6を参照すると、例えば、翻訳結果中の単語「If」の品詞は「接続助詞」であり、翻訳結果中の「If」が含まれる句は用言句「If I run」のみであり、そのヘッドワードは「run」であると分かる。
次に、受付箇所計算処理部22において、翻訳結果中の各々の単語に対して受付規則記憶部32中の受付規則を参照して、翻訳結果中の言語現象に対する訳出方法の指定を受け付ける受付箇所の中心の単語となるかを判定し、その後受付箇所の範囲を調整する。全単語に対して処理を終えた結果を、予め表4に示す。表4中の項目は第1の実施例における表2と同様に記載されている。なお、図4、6に示すように、1箇所の言語現象に対応する受付箇所は必ずしも一続きに連続している必要はない。例えば図4におけるID1の言語現象(接続助詞「と」)に対する訳出方法の受付箇所は、「If」と「run」であり、図6に示す訳文中で一続きには連続していない。
そこで次に接続助詞の受付規則の範囲規則の前半を参照すると、「If」を受付範囲とするとあるため、まず「If」に対しID1を振り、その種別は接続助詞とする。また、ID1が振られる元となった単語「If」に対応する原文中の単語「と」も、ID1に紐付ける。
ここで、この「If」に対して接続助詞の訳出方法の1つである「分詞構文」を指定したと仮定すると、翻訳結果は「Running, I will get tired.」となり、「If」は翻訳結果から脱落してしまう。すなわち接続助詞の受付規則の範囲規則の後半の条件を満たすため、「If」が含まれる名詞句もしくは用言句のうち最短の句「If I run」のヘッドワード「run」に対しても同じID1を振る。この結果、表4に示す受付箇所の情報が得られる。
第2に、計算された受付箇所の情報を用いて、ユーザが訳出方法を指定する動作を説明する。
訳出方法の指定の動作も第1の実施例と同様である。
ここで、ユーザが翻訳結果中の「If」上から接続助詞を「分詞構文」で訳す訳出方法を指定すると、翻訳結果は「Running, I will get tired.」となる。続けて直前まで「If」があった箇所に再度接続助詞「If」を訳出し元の翻訳結果に戻したいとする。
第1の実施例では、訳語が直接変化する「If」に対してのみ訳出方法の指定が可能であったため、現状の「Running, I will get tired.」なる翻訳結果上からの訳出方法の指定によっては元の翻訳結果「If I run, I will get tired.」に戻すことは不可能であったが、本実施例においては、「Running」上から接続助詞を「接続助詞利用」で訳す訳し方を指定することで、当該元の翻訳結果を得ることができる。
以下、第2の実施例における本発明の効果について説明する。
本実施例で挙げた例文のように、訳出方法の指定により訳出方法の指定の受付箇所が脱落する場合、従来技術1、2の単なる組み合わせでは、訳出方法の指定が不可能になる可能性があった。本実施例では、受付規則により訳出方法の指定の受付箇所となる単語が当該受付規則が対象とする言語現象の少なくとも1つの訳出方法を選択した場合に翻訳結果から脱落するならば、翻訳結果の係り受け構造上で当該単語の親となる単語も当該訳出方法の指定の受付箇所とするという特徴を持つ受付規則を受付規則記憶部33に有することにより、受付箇所計算処理部22において単語「run」を接続助詞の訳出方法を指定するための受付箇所とすることで、訳出方法の指定の受付箇所を翻訳結果中に必ず存在させ、訳出方法の指定が不可能な状態に陥らないようにできる。
以上、本発明について実施の形態及び実施例を挙げて説明したが、本発明はこれらに限定されるものではなく、本発明の技術的思想の範囲内で種々の変更が可能であることはいうまでもない。
例えば、本発明の一側面として上述した文字データ処理方法は、更に、言い換え表現に単語W(実施例2の”If”)が含まれていない場合、第1の文字データの単語Wを含む句、節、または文のうち、単語W以外の単語X(実施例2の”run”)と、単語Wとを関連付ける段階と、単語Xと単語Wとの関連付けに基づいて、第2の文字データの単語Xを含む句、節または文を、単語Wを含む句、節または文に言い換えた第3の文字データを生成する段階とを含むこととしてもよい。このようにすれば、第1の文字データから第2の文字データを生成する過程で単語Wが脱落しても、単語Wと単語Xの間の関連付けを辿って単語Wを含む表現に戻すことが出来る。本発明の他の側面でも同様である。
これらの文字データ処理方法は、例えば、機械翻訳して得られた翻訳結果を修正する際に適用することが出来る。本発明の他の側面でも同様である。
本願は、2007年3月27日出願の日本国特許出願2007−081916を基礎とするものであり、同特許出願の開示内容は全て本願に組み込まれる。
Claims (9)
- 句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する方法において、
言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置に格納する段階と、
前記第1の文字データに含まれる単語Wに対して、前記記憶装置に格納された前記受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理を処理装置にて実行する段階と、
前記記憶装置に格納された前記言い換え方法であって、抽出した受付箇所の言語現象に対応する前記言い換え方法に従って、当該受付箇所の言い換え表現を生成する処理を処理装置にて実行する段階と、
前記言い換え表現及び前記第1の文字データに基づいて前記第2の文字データを生成する処理を処理装置にて実行する段階と
を含むことを特徴とする文字データ処理方法。 - 請求項1に記載の文字データ処理方法において、
前記言い換え表現に前記単語Wが含まれていない場合、前記第1の文字データの前記単語Wを含む句、節、または文のうち、前記単語W以外の単語Xと、前記単語Wとを関連付ける段階と、
前記単語Xと単語Wとの関連付けに基づいて、前記第2の文字データの前記単語Xを含む句、節または文を、前記単語Wを含む句、節または文に言い換えた第3の文字データを生成する段階と
を含むことを特徴とする文字データ処理方法。 - 機械翻訳して得られた翻訳結果を修正する方法において、請求項1に記載の文字データ処理方法を前記翻訳結果に適用することを特徴とする文字データ処理方法。
- 句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する処理を、コンピュータに実行させるコンピュータプログラムにおいて、
言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を記憶装置に格納する処理と、
前記第1の文字データに含まれる単語Wに対して、前記記憶装置に格納された前記受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理と、
前記記憶装置に格納された前記言い換え方法であって、抽出した受付箇所の言語現象に対応する前記言い換え方法に従って、当該受付箇所の言い換え表現を生成する処理と、
前記言い換え表現及び前記第1の文字データに基づいて前記第2の文字データを生成する処理と
をコンピュータに実行させることを特徴とするコンピュータプログラム。 - 請求項4に記載のコンピュータプログラムにおいて、
前記言い換え表現に前記単語Wが含まれていない場合、前記第1の文字データの前記単語Wを含む句、節、または文のうち、前記単語W以外の単語Xと、前記単語Wとを関連付ける処理と、
前記単語Xと単語Wとの関連付けに基づいて、前記第2の文字データの前記単語Xを含む句、節または文を、前記単語Wを含む句、節または文に言い換えた第3の文字データを生成する処理と
を含むことを特徴とするコンピュータプログラム。 - コンピュータに機械翻訳を実行させるコンピュータプログラムにおいて、請求項4に記載の各処理を機械翻訳した翻訳結果に適用することを特徴とするコンピュータプログラム。
- 句、節または文である第1の文字データの一部乃至全部を他の表現で言い換えた第2の文字データを生成する文字データ処理システムにおいて、
言語現象と、当該言語現象の中心となる単語と、当該言語現象の範囲との対応関係を示す受付規則、及び、言語現象と、当該言語現象の表現を言い換えた他の表現との対応関係である言い換え方法を格納した記憶装置と、
前記第1の文字データに含まれる単語Wに対して、前記記憶装置に格納された前記受付規則を適用し、当該単語W、並びに当該単語Wを含む句、節及び文のいずれかである受付箇所を抽出する処理装置と、
前記記憶装置に格納された前記言い換え方法であって、抽出した受付箇所の言語現象に対応する前記言い換え方法に従って、当該受付箇所の言い換え表現を生成する処理装置と、
前記言い換え表現及び前記第1の文字データに基づいて前記第2の文字データを生成する処理装置と
を備えることを特徴とする文字データ処理システム。 - 請求項7に記載の文字データ処理システムにおいて、
前記言い換え表現に前記単語Wが含まれていない場合、前記第1の文字データの前記単語Wを含む句、節、または文のうち、前記単語W以外の単語Xと、前記単語Wとを関連付け、
前記単語Xと単語Wとの関連付けに基づいて、前記第2の文字データの前記単語Xを含む句、節または文を、前記単語Wを含む句、節または文に言い換えた第3の文字データを生成する
ことを特徴とする文字データ処理システム。 - 機械翻訳システムにおいて、請求項7に記載の文字データ処理システムを備え、前記翻訳結果に適用することを特徴とする機械翻訳システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007081916 | 2007-03-27 | ||
JP2007081916 | 2007-03-27 | ||
PCT/JP2008/055018 WO2008123081A1 (ja) | 2007-03-27 | 2008-03-12 | 文字データ処理方法、コンピュータプログラム及び文字データ処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2008123081A1 true JPWO2008123081A1 (ja) | 2010-07-15 |
Family
ID=39830583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009509038A Withdrawn JPWO2008123081A1 (ja) | 2007-03-27 | 2008-03-12 | 文字データ処理方法、コンピュータプログラム及び文字データ処理システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100106480A1 (ja) |
JP (1) | JPWO2008123081A1 (ja) |
WO (1) | WO2008123081A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10872085B2 (en) * | 2018-11-02 | 2020-12-22 | Microsoft Technology Licensing, Llc | Recording lineage in query optimization |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02140868A (ja) * | 1988-11-22 | 1990-05-30 | Toshiba Corp | 機械翻訳システム |
JP2859882B2 (ja) * | 1988-11-28 | 1999-02-24 | 株式会社東芝 | 機械翻訳装置 |
JPH03110672A (ja) * | 1989-09-26 | 1991-05-10 | Brother Ind Ltd | 機械翻訳装置 |
JPH05158979A (ja) * | 1991-12-03 | 1993-06-25 | Matsushita Electric Ind Co Ltd | 機械翻訳機 |
JP3015223B2 (ja) * | 1993-05-14 | 2000-03-06 | シャープ株式会社 | 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置 |
JP2968151B2 (ja) * | 1993-06-17 | 1999-10-25 | シャープ株式会社 | 機械翻訳装置 |
JP3219938B2 (ja) * | 1994-08-01 | 2001-10-15 | 日本電気株式会社 | 日英変換機能つきワードプロセッサー |
JP3960562B2 (ja) * | 1994-09-30 | 2007-08-15 | 株式会社東芝 | 機械翻訳の学習方法 |
JPH1011444A (ja) * | 1996-06-20 | 1998-01-16 | Nippon Kagaku Gijutsu Joho Center | 機械翻訳システム |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7797303B2 (en) * | 2006-02-15 | 2010-09-14 | Xerox Corporation | Natural language processing for developing queries |
-
2008
- 2008-03-12 US US12/450,275 patent/US20100106480A1/en not_active Abandoned
- 2008-03-12 WO PCT/JP2008/055018 patent/WO2008123081A1/ja active Application Filing
- 2008-03-12 JP JP2009509038A patent/JPWO2008123081A1/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
US20100106480A1 (en) | 2010-04-29 |
WO2008123081A1 (ja) | 2008-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20070233460A1 (en) | Computer-Implemented Method for Use in a Translation System | |
Fernando et al. | Data augmentation and terminology integration for domain-specific sinhala-english-tamil statistical machine translation | |
Xu et al. | Sentence segmentation using IBM word alignment model 1 | |
Nithya et al. | A hybrid approach to English to Malayalam machine translation | |
JP4875040B2 (ja) | 機械翻訳システム及び機械翻訳プログラム | |
JP2010067021A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP4869281B2 (ja) | 機械翻訳装置、プログラム及び方法 | |
JPWO2008123081A1 (ja) | 文字データ処理方法、コンピュータプログラム及び文字データ処理システム | |
JP4881399B2 (ja) | 対訳情報作成装置、機械翻訳装置及びプログラム | |
JP4845857B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP5909123B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP4016037B2 (ja) | 機械翻訳プログラム、機械翻訳装置 | |
JP5039114B2 (ja) | 機械翻訳装置及びプログラム | |
Rikters | K-Translate-Interactive Multi-system Machine Translation | |
JP5032453B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP4023384B2 (ja) | 自然言語翻訳方法及び装置及び自然言語翻訳プログラム | |
JP2008027458A (ja) | 機械翻訳プログラム、機械翻訳装置 | |
JPH0561902A (ja) | 機械翻訳システム | |
JP3389313B2 (ja) | 機械翻訳装置 | |
JP2928246B2 (ja) | 翻訳支援装置 | |
JP3313810B2 (ja) | アスペクト処理装置 | |
JP2007317140A (ja) | 文一致度分析装置および方法、ならびに言語変換装置および方法 | |
JP3051747B2 (ja) | 機械翻訳方法及び機械翻訳システム | |
JPH11282844A (ja) | 文書作成方法および情報処理装置および記録媒体 | |
JP3826071B2 (ja) | 文章作成支援装置及び方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20110607 |