WO2003065245A1

WO2003065245A1 - Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur

Info

Publication number: WO2003065245A1
Application number: PCT/JP2002/013329
Authority: WO
Inventors: Tomohiro Miyahira; Yoshiroh Kamiyama; Hiromi Hatori
Original assignee: International Business Machines Corporation
Priority date: 2002-01-29
Filing date: 2002-12-19
Publication date: 2003-08-07
Also published as: KR20040070168A; JPWO2003065245A1; CN1618064A; DE60237922D1; ATE484029T1; CN1618064B; US20060167675A1; EP1482414A1; EP1482414B1; US20090254334A1; US8005662B2; US7529656B2; EP1482414A4

Description

明細書

翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置 .

技術分野

本発明は、文章中の強調語を認識して機械翻訳するための手法等に関する。

背景技術

従来、パーソナルコンピュータ等.において翻訳用のプログラムが用いられている。このような翻訳用のプログラムでは、モニタ上に表示され 'た文章を機械的に翻訳することが可能であり、例えばインターネットにおけるゥヱブページや、電子メール等の文章を翻訳する際に使用される。

ところで近年においては、インターネットの利用者の増加により、個人が直接情報を発信することが多く行われている。例えば、個人により設立されたウェブページや、伝言板のように個人がコメントを書.き込めるウェブページや、インタラクティブに会話ができるチャットでは、個人により直接記述された文章がそのまま配信されている。このように個人が発信した情報を翻訳する際においても、上記した翻訳用のプロダラムが使用されている。

しかしながら、翻訳用のプログラムを用いて個人が発信した情報を翻訳すると、その情報が含んでいる口語が原因で、翻訳ができなかったり、間違った翻訳がなされることがある。口語には、翻訳用のプログラムが参照する辞書に記録されていない語句が多く含まれており、このような未登録語は動詞や形容詞であっても名詞として扱われてしまうため、翻訳用のプログラムはその文章の翻訳に失敗してしまう。

このような未登録語としては、例えば、文章中において特定の単語を強調するため、意図的に単語を構成する文字を連続的に重複させた語句 (^下、強調語という）がある。具体的には、英語における「COOl」の

「o」を重複させた「coool」や、「work」の「r」を直複させた「worrk」等を挙げることができる。このような強調語を含んだ文章の翻訳時には、形容詞である「_coooi」や動詞である「worrk」が名詞として扱われ、最終的に誤った翻訳文が生成される。

ここで、' 「cool」の強調が、常に「0」が 3文字の「coool」と書かれるのであれば、その「coool」を辞書に登録することで正しく翻訳できるようになるが、強調のために連続する文字の文字数は一定ではなく、「0」が 3個の場合の他、「o」が 4個や 5個の場合等も想定できる。このように、想定できる単語は数に限りが無く、全ての場合に対応した単語を辞書に登録することは、事実上困難である。

このように、個人が記述した文章には口語が用いられることが多く、特に会話のやりとりを文章で行うチヤットでは、その傾向が顕著であり、翻訳処理の失敗が頻発している。

また、上記のような同一文字を重複させることによる単語の強調は、口語等のくだけ fこ表現を用いた文章中で使用される場合が多い。そのような文章に対する翻訳文では、堅い表現ではなく、柔らかく、くだけた表現を用いた方が適切である場合も想定される。このような場合には、原文中で強調された単語を翻訳文中でも強調すると共に、くだけた表現の訳語を選択することで、文章の雰囲気がより適切に伝えられることが期待される。

本発明は、このような技術的課題に基づいてなされたもので、強調語等の未登録語が含まれていても適切な翻訳をすることができる翻訳方法等を提供することを目的とする。

発明の開示

かかる目的のもと、；本発明の翻訳方法は、コンピュータ装置に入力された所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、抽出ステップでは、コンピュータ装置が参照可能なデータベースに登録；されていない未登録語を原文テキストから抽出し、修正語生成ステップでは、抽出された未登録語に、 2以上連続する同じ文字が含まれるときに、連続する文字の文字数を減少させて未登録語から修正語を生成し、翻訳ステップでは、原文テキスト中の未登録語を修正語に置き換え、前記データベースを参照して原文テキストを翻訳することを特徴とする方法である。この翻訳'方法では、原文テキストに未登録語が含まれて翻訳が不可能であっても、その未登録語が口語で使用されるよな連続する文字を含んでいる場合には、未登録語の代わりに修正語を用いることで' 原文テキストの翻^が可能となる。

なお、未登録語における連続する文字の重複数は一定ではなく、また連続する文字はその未登録語中においてどの文字であるかも一定ではない。そこで、例えば、修正語生成ステップにおいて、 3以上連続する前記文字を 2文字に減少、または 2以上連続する前記文字を 1文字に減少することができる。

またこの翻訳方法では、翻訳文中の未登録語に対応する翻訳語が修正語に基づいて翻訳されたものであることを明らかにした状態で、翻訳文を出力する出力ステップをさらに有することができる。

なお、翻訳ステップでは、修正語に対応する修正語用の翻訳語をデータベースから抽出することにより、翻訳を行うことができる。

また本発明は翻訳文の出力方法として捉えることができる。この翻訳文の出力方法は、コンピュータ装置により翻訳された翻訳文を、コンビユータ装置が出力する出力方法であって、特定ステップでは、コンビュータ装置に入力された文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定し、出力ステップでは、造語を含む原文テキストを翻訳して翻訳文を出力し、さらに特定ステップにより特定された造語に対応する翻訳語に、強調表現を適用して翻訳文を出力することを特徴とする方法ある。 ' · この出力ステップでは、強調表現として、翻訳語に所定の表記を付加する、または翻訳語の書式を変化させることができる。例えば、「cool」の翻訳語である「クール」の前後に「*」の表記を付加して「*クール *」と表現したり、その「クール」 'のフォントゃ色を変えることができる。

さらに本発明は、コンピュータ装置に実行させるプログラムを、コンピュータ装置,が読み取り可能に記憶した記憶媒体として捉えることができる。この記憶媒体に記憶されるプログラムは、コンピュータ装置に入力された原文テキストを構成する単語の品詞と属性を、参照可能なデータベースから抽出する形態素解析処理と、その結果に基づいて、原文のツリー構造を有する構文木データを作成する構文解析処理と、構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、原文テキストの単語に対応する翻訳語をデータベースから取得し、訳文の構文木データに基づき翻訳語を繋げて翻訳文を生成する翻訳文生成処理と'をコンピュータ装置に実行させ、形態素解析処理では、原文テキストがデータベースに登録されていない未登録語を含み、且'つ当該未登録語が、 2以上連続する同じ文字を含むときには、連続する文字を 1または 2文字に減少させた修正語を生成し、未登録語の代わり.に修正語の品詞と属性をデータベースから抽出することをコンピュータ装置に実行させることを特徴とするものである。

なお、翻訳文生成処理では、未登録語に代わる修正語の属性が強調属性を有するとき、強調属性と関連づけられた強調訳語を翻訳語としてデータベースから取得し、強調訳語を含む翻訳文を生成したり、修正語に対応する翻訳語に対して修正語を翻訳したものであることを示すためのデータを付与することができる。例えば、このデータに基づいて、修正語に対応する翻訳語を、翻訳文中において識別できるように表示することができる。

また本発明は翻訳処理をコンピュータ装置に実行させるプログラムとして捉えることができる。このプログラムは、コンピュータ装置に入力された原文テキストから、参照可能なデータベースに登録されていない未登録語を抽出する処理と、抽出された未登録語が、未登録語の重複する文字の文字数を変化させることによりデータベースに登録された登録語に合致するとき、未登録語に代えて登録語を用いて原文テキストを翻訳する処理と、未登録語に代えて登録語を用いた部分を、'他の部分から識別できるようにして翻訳文を表示させる処理とをコンピュータ装置に実行させることを特徴とするものである。

例えばこのプログラムでは、翻訳文を表示させる処理において、未登録語に代えて登録語を用いた部分を他の部分から識別できるようにするため、その部分について、所定の強調データ（例えば「*」等）の追加、フォントデータ（書体、スタイル、サイズ,を含む）の変更および色の変更の少なくとも 1つを実することができる。

その他、本発明はコンピュータ装置として捉えることができる。このコンピュータ装置では、データベースが複数の語のデータを格納し、入力部が原文テキストのデータを入力し、翻訳処理部が入力された原文テキストを、データベースを参照して翻訳処理し、出力部が原文テキストの翻訳文データを出力し、且つ翻訳処理部は、 2以上連続する同じ文字を有する強調語において、連続する文字の文字数を減少させた修正語を生成し、修正語に対応する翻訳語をデータベースから取得することを特徴とするものである。データベースには、翻訳語を特定するための属性として強調属性データと、強調属性データに関連づけら'れた強調訳語とが、修正語に関連づけて登録され、出力部は、修正語に関連づけて強調属性データがデータベースに登録されている場合、強調属性データに関連づけられた強調訳語を、翻訳語として用いた翻訳文データを出力することができる。

また、出力部は、翻訳文データ中の翻訳語が、修正語に基づいて翻訳された語句であることを示すデータを、翻訳文データと共に出力することができる。この場合、出力部により出力された翻訳文データに基づいて、翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えさせること'もできる。

図面の簡単.な説明

図 1は、本実施の形態におけるコンピュータ装置の概略構成を示す図でめる。

図 2は、翻訳処理ブロッグの構成を示す図である。

図 3は、辞書データ格納部に格納されたデータの一例を示す図である。図 4は、翻訳の具体例を示し、（a)は翻訳前の原文テキストを、（b)は翻訳後に表示される訳文を示す図である。

図 5は、翻訳処理プロックにおける翻訳処理の流れを示す図である。図 6は、図 5に示す形態素解析の具体的な処理の流れを示す図である。図 7は、図 5に示す訳語生成の具体的な処理の流れを示す図である。図 8は、（A) (B)(C)は、それぞれ強調語の翻訳における他の表記例を示す図である。

発明を実施するための最良の態様

以下、添付図面に示す実施の形態に基づいてこの発明を詳細に説明する。図 1は、本実施の形態におけるコンピュータ装置の概略構成を説明するための図である。

この図 1に示すように、コンピュータ装置 1は、 C P Uやメインメモリ、 H D D等を備えた制御部 2、 C R Tや L Cひパネル等を用いたディスプレイ（表示部） 3、ディスプレイ 3の表示画面上に表示される文字等を入力するためのキーボー'ドゃボインタを操作するためのマウス等の入力デバイス 4を備える。

制御部 2は、ディスプレイ 3において C P Uからの描画命令に基づいて画面の表示を行うための表示制御ブロック 5と、ユーザにより入力'さ .れたデータを制御するための入力デバイス制御プロック 6と、翻訳処理 •を行うための翻訳処理プロック 7としての機能を有する。

表示制御ブロッグ 5は、図示しないビデオドライバ、ビデオチップ等によって実現されるもので、メインメモリ等から転送された画像データに基づいた表示をディスプレイ 3に実行させる。 '

入力デバイス制御ブロック 6は、ポインティングデバイスやキーボード等の入力デバイス 4をユーザが操作したときのィベントを処理するューザィンターフェイスドライバによって実現されるもので、特に、ユーザによる入力デバイス 4の操作に基づいて入力されたデータをディスプレイ 3の表示画面上に表示させるための処理を実行する。

翻訳処理ブロック 7は、 H D D等に格納されたプログラムに基づいた処理を C Pひがメインメモリ等と協働して実行することにより実現されるものである。ここで、翻訳処理ブロック 7について詳しく説明する。図 2は、翻訳処理ブロック 7の機能的な構成を示す図である。

' 翻訳処理ブロック 7は、翻訳すべき原文テキストを取り込む入力部 1 0、取り込んだ原文テキストの翻訳処理を実行する翻訳処理部 2 0、実行された翻訳処理の結果である訳文等をディスプレイ 3に表示させるためのデータを出力する出力部 3 0、翻訳処理を行うに際して用いる辞書データを格納した辞書データ格納部 5 0を備える。辞書データ格納部 5 0は、基本辞書 5 1、ユーザ辞書 5 2の他に、'例えばスポーツ、コンビユータ、アート、エンターテイメント、政治経済、科学、家庭等、分野別のデータを有する分野別辞書 5 3を有している。

'図 3は、辞書データ格納部 5 0に格納されたデータの一例を示す図である。

辞書データ格納部 5 0 ま、例えば図 3に示すようなデータを格納している、すなわち品詞、意味属性、' 強調属性、訳語、日本語属性のデータ ,が単語毎に記録されている。ここで、一例として抜粋されている単語「cool」は品詞として形容詞が特定されており、その訳語として「冷静」 'と「クーール」の二つが登録されている。また、単語「Japanese」は、品詞として名詞と形容詞が特定されており、その訳語として、名詞では「日本人」と「日本語」力形容詞として「日本」が登録されている。「冷静」と「クーール」や、「日本人」と「日本語」のように、 1つの単語に対する訳語の決定において、同じ品詞の訳語が複数ある場合、原文テキストを構成する単語どうしの繋がりにおいて、意味属性、強調属性、日本語属性等に基づいて、どの訳語を使用するかが決定される。なお、強調属性とは、強調表現に用いる訳語の有無を示すものであり、強調属性が YESの場合には、強調表現に用いる訳語であることを意味する。上記のような構成を有するコンピュータ装置 1の翻訳処理プロック 7 では、翻訳処理を行う際に、入力部 1 0に取り込んだ原文テキス卜 (文章や単語)を基に辞書データ格納部 5 0を参照し、翻訳処理部 2 0が翻訳処理を行って訳文を生成し、出力部 3 0から訳文を出力する。翻訳処理では、文法ルール、単語データ等が格納された辞書データ格納部 5 0を参照し、形態素解析、構文解析、構文生成、訳語生成等の処理が翻訳処理部 2 0において順次行われる。このように翻訳処理を行うに際し、原文テキストに強調語が含まれる場合であっても、翻訳処理部 2 0は正しい訳文を得ることができ、さらに強調語を強調.した状態で訳文を出力することができる。例えば、図 4 (a)に示すような翻訳前の英文の原文テキストでは、「cool」力 S 「o」を重複させた強調語「coool」となっており、翻訳後の日本語の訳文では、図 4 (b)に示すように、「*ク^ "一ル *」と強調されて翻訳される。

以下に、強調語を正しく且つ強調して出力するための翻訳処理プロック 7における処理について、図 4 (a)に示す英文の原文テキストを図 4 (b) に示す日本語文に翻訳する例を用いて具体的に説明する。なお、翻訳処理の概要そのものは、一般的な手法であるため、従来公知の翻訳処理について詳細な説明は省略する。また、翻訳処理アルゴリズムや翻訳結果の出力形態については特に限定する意味はない。

図 5は、翻言尺処理ブロック 7における翻訳処理の主な流れを示す図である。

まず、翻訳処理ブロック 7は、入力部 1 0から取り込んだ原文テキストについて形態素解析を行う（ステップ S 1 0 1 ) 。形態.素解析では、辞書データ格納部 5 0に格納されたデータを参照しながら、原文テキストの文章を単語毎に分割し、品詞と属性の決定を行う。

ここで、図 6にステップ S 1 0 1における形態素解析のさらに具体的な処理の流れを示す。

図 6に示すように、まず翻訳処理部 2 0は、原文テキストの分割された単語のそれぞれについて辞書データ格納部 5 0のデータを参照しながら辞書引きを実行する（ステップ S 2 0 1 ) 。ここで、辞書データ格納部 5 0には、図 3に示すように、単語ごとに品詞、意味属性、強調属性、訳語、日本語属性がデータとして記録されている。辞書引きでは、単語毎に,辞書データ格納部 5 0に一致する単語を抽出する処理を行う。したがって、図 4 (a)に示す原文テキストの場合には、分割された単語 It，is，very,cooolのぞれぞれについで辞書引きを行い、辞書データ格納部 5 0中において一致する単語の抽出を行う。

続けて、ステップ S 2 0 1における辞書引きの結果に基づき、原文テキストには、辞書データ格納部 5 0のデータ中に登録されていない単語 (以下、未登録語という）が含まれているか否かを判断する（ステップ S 2 0 3 ) 。ステップ S 2 0 3において、未登録語は含まれていない、すなわち原文テキストを構成する単語は全て辞書データ格納部 5 0に格納されたデータ中に存在すると判断すると、後述のステップ S 2 1 7の処理、すなわち品詞と属性の決定を行う。

一方、 '図 4 (a)に示すような原文テキストには、「coool」という辞書データ格納部 5 0に登録されていない未登録語が含まれている。このような場合、翻訳処理部 2 0はステップ S 2 0' 3において原文テキストは未登録語を含むと判断し、その未登録語において 2以上連続する同じ文字 (以下、連続文字という）があるか否かを判断する (ステップ S 2 0 5 ) 。ステップ S 2 0 5において、未登録語には連続文字が存在しないと判断した場合、翻訳処理部 2 0は、その未登録語を未知の語句（未知語）として処理する決定を行う (ステップ S 2 0 6 ) 。 '

一方、「coool」中の「ooo」のように未登録語に,連続文字が存在するとステップ S 2 0 5において判断した場合、翻訳処理部 2 0は、 3文字以上の連続する連続文字を 2文字に置き換えることで修正した単語（以下、修正語という）を生成し、その修正語について辞書データ格納部 5 0を参照して辞書引きを行う（ステップ S 2 0 7 ) 。すなわち、「coool」を「cool'」に修正し、「cool」について辞書引きを行う。そして翻訳処理部 2 0は、ステップ S 2 0†の辞書引きの結果に基づき、修正語は辞書データ格納部 5 0のデータ中に登録されているかどうかを判断する（ステップ S 2 0 9 ) 。図 4 (a)に示す例の場合、ステップ S 2 0 7において修正された修正語「cool」は図 4に示すように辞書データ格納部 5 0に格納されている単語「_C001」と一致するので、修正語は辞書データ格納部 5 0 に登録ざれていると判断する。

なお、ステップ S 2 0 9において、 3文字以上の連 /铳する連続文字を' 2文字に修正した修正語が辞書データ格納部 5 0のデータ中に登録されていないと判断した場合、あるいは 3文字以上の連続文字でない（例えば、 2文字の連続文字）ために修正語を作成していない場合、翻訳処理部 2 0は、未登録語の 2文字以上の連続文字を 1文字に置き換えることで修正した新たな修正語を生成し、その新たな修正語について辞書データ格納部 5 0を参照して辞書引きを行う（ステップ S 2 1 1 ) 。そして、翻訳処理部 2 0は'、辞書引きの結果に基づき、新たな修正語が辞書データ格納部 5 0のデータ中に登録されているかどうかを判断する（ステツプ S 2 1 3 ) 。

なお、ステップ S 2 0 7やステップ S 2 1 1のように修正語を生成し、辞書引きする処理において、単語によっては「pleeeaaase」の例のように、連続文字部が複数ある場合も見うけられるので、このような場合には、それぞれの連続文字（この場合には「e」の連続と「a」の連続の 2箇所）を、それぞれ 2文字或いは 1文字に削除した場合の組み合わせを修正語として辞書引きする必要がある。図には示さないが、このような処理は、本実施の形態に示した処理から当業者であれば容易に拡張可能である。ステップ S 2 0 9において未登録語に含まれる 3文字以上の連続文字を 2文字に修正した修正語または、ステップ S 2 1 3において未登録語の 2文字以上の連続文字を 1文字に修正した修正語が、辞書データ格納部 5 0のデータ中に登録されていると判断した場合、翻訳処理部 2 0は、その未登録語を修正語として処理する決定を行う（ステップ S 2 1 5 ) 。このとき、その修正語には、未登録語を修正した単語である旨を示すフラグ (データ) が付与される。

以上のようにして、未登録語がある場合には、ステップ S 2 1 5において修正語に決定し、またはステップ S 2 0 6において未知語に決定した上で、原文テキストを構成するそれぞれの単語の品詞と属性の決'定を行い（ステップ S 2 1 7 ) 、ステップ S 1 0 1の形態素解析の処理を終了する。なお、ステップ S 1 0 1の形態素解析では品詞や属性を一意に決定できない場合があり、この場合には複数の品詞や属性'を候補として残しておくことができる。

図 5のステップ S 1 0 1に続けて、翻訳処理ブロック 7は、構文解析を行う (ステップ S 1 0 3 ) 。構文解析では、単語毎に分割された原文テキストを、辞書データ格納部 5 0の基本辞書 5 1に記録されている文法ルールを参照しながら解析し、文木データと呼ばれるッリ一構造のデータを作成する。構文木データとは、原文テキストの中で、例えば、どの部分が主語で、どの部分が述語で、さらに、述語の部分は動詞と目的語からなる動詞句で、目的語の部分は冠詞と名詞からなる名詞句であるというようなことを階層的に表したッリ一構造のデータである。なお、構文解析に使用される文法ルールは、文法的な属性だけでなく意味的な属性が指定されているものであってもよい。

続けて、ステップ S 1 ◦ 3の結果に基づいて、翻訳処理ブロック 7は構文生成を行う（ステップ S 1 0 5 ) 。構文生成では、ステップ S 1 0 3の構文解析で得られた原言語（英日翻訳なら英語）の構文木データを参照しながら、目的言語（英日翻訳なら日本語）の構文木データを作成する。そして、ステップ S 1 0 5で得られた構文木データに基づいて、翻訳処理ブロック 7は訳語生成を行う（ステップ S 1 0 7 ) 。訳語生成では、例えば、構文木データの中で訳語が決定されていない単語（1つの単語について品詞が同じ訳語が複数ある場合等、訳語の候補が複数存在する単語）に関し、辞書データ格納部 5 0を参照して原文テキストの各単語に対応する訳語を特定する。そして、最終的に得られた訳語を繋げて一文を生成する。

ここで、図 7にステップ S 1 0 7における訳語生成のさらに具体的な処理の流れを示す。

図 7に示すように、まず翻訳処理部 2 0は、原文テキストの分割された単語のそれぞれについて、辞書データ格納部 5 0のデータを参照しながら辞書引きを実行する（ステップ S 3 0 1 ) 。この辞書引きは、図 1 に示すステップ S 1 0 5で得られた構文木データに基づき、辞書引きする単語の品詞を特定した上で、最終的な訳語を決定するために行われる処理である。

続けて、翻訳処理部 2 0は、辞書引きした 1つの単語について、品詞がマッチする訳語が複数存在するか否かを判断する（ステップ S 3 0 3 ) 。辞書データ格納部 5 0には、各単語の品詞毎に訳語が登録されている力 S、同じ 1つの品詞に複数の訳語が登録されている場合がある。例えば、図 3に示すように、単語 Japaneseについては、名詞として日本人 (意味属性：人）と日本語（意味属性：言語）という訳語が登録されている。ステップ S 3 0 3において、訳語は複数存在しないと判断した場合、後述のステップ S 3 0 9の処理を行う。 .

一方、ステップ S 3 0 3において、訳語が複数存在すると判断した場合、そのように判断された単語はステップ S 1 0 1 (ステップ S 2 0 7 またはステップ S 2 1 1 ) において生成された修正語であるか否かを判断する（ステップ S 3 0 5 )'。ここでは、前述のステップ S 2 1 5において、未登録語を修正した単語である旨を示すフラグがあるか否かによつて修正語であるか否かが判断される。ステップ S 3 0 5においてその単語は修正語であると判断した場合、その修正語について強調属性の付 .いた訳語が存在するか否かを判断する（ステップ S 3 0 7 ) 。例えば、図 4 (a)に示す「coool」は、ステップ S 1 0 1において修正されて「cool」となった。この「cool」については図 3に示すように、強調属性が YESとして登録された訳語「ク一一ル」が存在する。このように強調属性の付いた訳語が存在すると判断した場合、その語句を訳文に使用する訳語に決定する（ステップ S 3 0 9 ) 。 '

一方、ステップ S 3 0 5においてその単語は修正語ではないと判断した場合、またはステップ S 3 0 7において修正語に対応する訳語は存在しないと判断した場合、その単語について、構文木データ中で要求される意味属性等の他の属性についてのマッチングを行う（ステップ S 3 0 8 ) 。そして、マッチングにより属性が最もマッチする訳語を抽出し、訳文に使用する訳語を決定する（ステップ S 3 0 9 ) 。なお、構文木データ中で属性が決まらない場合には、第 1訳語（最も良く使われる訳語）を選択することができる。

続けて、翻訳処理部 2 0は、訳語が決定された単語は修正語であるか否かを再度判断する（ステップ S 3 1 1 ) 。修正語ではないと判断すると、翻訳処理部 2 0は、訳語を出力部 3 0へそのまま出力し (ステップ S 3 1 2 ) 、本処理を終了する。 . ' 一方、訳語が決定された単語が、修正語であると判断した場合、翻訳 ' 処理部 2 0は、訳語を強調処理して出力部 3 0から出力する（ステップ S 3 1 3 ) 、本処理を終了する。強調処理では、その単語が原文テキストでは強調語であったことを明らかにするため、「*」等の記号がその訳語の前後に付される。

このようにして図 7に示す処理により単語毎の訳語を確定し、繋ぎ合わせることで最終的な訳文を出力部 3 0は出力する。出力された訳文は、コンピュータ装置 1の翻訳処理ブロック 7および表示制御ブロック 5の処理により、ディスプレイ 3に表示される。例えば、図 4 (a)に示した原文テキストは、図 4 (b)に示すような翻訳文となってディスプレイ 3に表示される _P 図 4 (a)(b)に示す例では、強調語である「coool」力強調属性の付いた訳語「ク^ ^一ル」を使用して翻訳され、さらにその享語の前後に符号「*」を付して「*クル *」と表されている。 '

以上のように本実施の形態におけるコンピュータ装置 1では、口語の翻訳において、同一の文字が連続する部分を含む強調語を、連続した文字を減らすことで辞書データ格納部 5 0に登録されている語句と一致させる。したがって、コンピュータ装置 1では強調語の品詞を正しく認識することができ、'誤訳の発生を抑制することができ、また従来の技術におレ、て翻訳不可能であった文章も翻訳することが可能となる。

さらに、強調語を翻訳した場合には、強調語に対応した訳語を使用し、また訳語の前後に記号等を付与することで、原文テキストにおいて強調語であったことを明らかにすることができる。その結果、ユーザは翻訳前の文章の意図を、より的確に理解することが可能となる。

また、そのような強調語を含む文章に対して、強調語として特有の訳語を選択することで、文章の雰囲気がより適切に伝わることが期待される。 '

なお、強調語の翻訳において出力される訳語の強調処理は、図 4 (b)に示すように符号を付する処理に限られない。図 8 (A) (B)(C)に、強調語の翻訳における他の表記例を示す。図 8 (A) では、（a)に示す原文テキストは、「Oops」の「o」が連続文字となって強調された「Oooooooops」が含まれている。それに対して (b) に示す翻訳文では、強調語の訳語が「しまったあ〜」となつでおり、さらに訳語の前後において目立つように複数の符号「* * *」が付与されている。このように、強調データとして付与される符号は特に限定されず、他の形状の符号であってもよい。また付与される位置も特に限定されず、「し *ま *つ *た *あ〜」のように単語の合間に付与されるものであってもよい。

また、例えば、ディスプレイ 3に出力する際に、単なるテキストではなく、 H T M L形式等のフォントデータや色の設定が可能である場合には、書体、スタイル、サイズ等のフォントデータや色を変えることで強 •調されていること明らかにすることができる。

例えば、図 8 (B)では、（a)に示す原文テキストは、「so」の「0」が連続文字となって強調された「sooooooJ が含まれている。それに対して (b)に示す翻訳文では、強調属性が YESの訳語が存在しないために、強調語は通常の語句である（強調属性が YESではない語句）「とても」に翻訳されているが、この「とても」の部分に網掛けがされて表示されている。

さらに、図 8 (C)では、（a)に示す原文テキストは「Please」の「e」と「a」が連続文字となって強調された「Pleeeaaase」が含まれている。それに対して (b)に示す翻訳文では、強調語の訳語が「おねが〜い」となっており、さらにその訳語が目立つように他の文字よりフォントが大きくして表示されている。

その他、強調語についてフォント、スタイル、サイズ、色等の書式を変えたりすることも可能であり、強調語であることを表示する方法は、特に限定されない。また、強調属性を有する訳語を使用する場合や、テキスト表示のみ行うことが好ましい場合等においては強調処理は行わないものであってもよい。 '

その他、本実施の形態の翻訳処理は、英語の原文テキストを日本語に翻訳しているが、本発明はこれに限定されない。例えば、英語をドイツ語に翻訳する場合や、その他の言語をさらにその他^言語に翻訳する場合にも本発明を適用することができる。

また、本実施の形態の翻訳処理は、ノートブック型 P Cやデスクトツプ型 P C等の他、 P D Aや携帯電話等の携帯型コンピュータ装置において実行することが可能である.。また、インターネットのウェブページやチヤットウインドウ上で実行できるようにすることも可能である。

さらに、本実施の形態の翻訳処理は、辞書データ格納部 5 0をコンビユータ装置 1内に備えているが、翻訳時にコンピュータ装置 1が参照する辞書データは、コンピュータ装置 1の外部にあってもよい。例えば、辞書データはネットワークを介してコンピュータ装置 1が取得するものであってもよい。 '

' なお、上記実施の形態で示したような処理を実行するプログラムは、以下のような記憶媒体の形態とすることもできる。

すなわち、記憶媒体としては、コンピュータ装置に上記したような処理を実行させるプログラムを、 C D— R O M、 D V D , メモリ、ハードディスク等の記憶媒体に、コンピュータ装置が読み取り可能に記憶させれば良い。 '

これ以外にも、本発明の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更することが可能である。以上説明したように、本発明によれば、同一文字を連続させることによって強調された強調語を翻訳することが可能となる。

Claims

請求の範囲

1 . コンピュータ装置に入力された所定言語の原女テキストを他の言語に翻訳する翻訳方法であって、

前記コンピュータ装置が参照可能なデータベースに登録されていない未登録語を、前記原文テキストから抽出する抽出ステップと、 '

抽出された前記未登録語に、 2以上連続する同じ文字が含まれるときに、当該連続する文字の文字数を減少させて当該未'登録語から修正語を生成する修正語生成ステップと、

前記原文テキスト中の前記未登録語を前記修正語に置き換え、前記データベースを参照して当該原文テキストを翻訳する翻訳ステップとを有することを特徴とする翻訳方法。 ,

2 . 前記修正語生成ステップでは、 3以上連続する前記文字を 2文字に減少、または 2以上連続する前記文字を 1文字に減少することを特徴とする請求項 1記載の翻訳方法。

3 . 前記翻訳文中の前記未登録語に対応する翻訳語が前記修正語に基づいて翻訳されたものであることを明らかにした状態で、当該翻訳文を出力する出力ステップをさらに有することを特徴とする請求項 1記載の翻訳方法。

4 . 前記翻訳ステップでは、前記修正語に対応する修正語用の翻訳語を前記データベースから抽出することを特徴とする請求項 1記載の翻訳方法。 '

5 . コンピュータ装置により翻訳された翻訳文を、当該コンピュータ装置が出力する出力方法であって、

前記コンビユーダ装置に入力された原文テキストにおいて本来の文字綴りと異なる文字綴りが用いられた造語を特定する特定ステップと、前記造語を含む前記原文テキストを翻訳し、前記翻訳文を出力する出力ステップど

を有し、 '

前記出力ステップでは、前記特定ステップにより特定された前記造語 5 に対応する翻訳語に、強調表現を適用して前記翻訳文を出力することを特徴とする翻訳文の出力方法。

6 . 前記出力ステップでは、前記強調表現として、前記翻訳語に所定の表記を付加する、または当該翻訳語の書式を変化させることを特徴とする請求項 5記載の翻訳文の出力方法。

0 7 . コンピュータ装置に実行させるプログラムを、当該コンピュータ装置が読み取り可能に記憶した記憶媒体において、

前記プログラムは、

' 前記コンピュータ装置に入力された原文テキストを構成する単語の品 ,詞と属性を、当該コンピュータ装置が参照可能なデータベースから抽出5 する形態素解析処理と、

前記形態素解析処理の結果に基づいて、原文のッリ一構造を有する構文木データを作成する構文解析処理と、

前記構文解析処理の結果に基づいて、訳文の構文木データを作成する構文生成処理と、

0 前記原文テキストの前記単語に対応する翻訳語を前記データベースから取得し、前記訳文の構文木データに基づき当該翻訳語を繁げて翻訳文を生成する翻訳文生成処理と

を前記コンピュータ装置に実行させ、

前記形態素解析処理では、前記原文テキストが前記データベースに登5 録されていない未登録語を含み、且つ当該未登録語が 2以上連続する同じ文字を含む'ときには、当該連続する文字を 1または 3文字に減少させた修正語を生成し、，当該未登録語の代わりに当該修正語の前記品詞ど前記属性を前記データベースから抽出することを前記コンビュ ^タ装置に実行させることを特徴とする記憶媒体。

8 . 前記翻訳文生成処理では、前記未登録語に代わる前記修正語の前記属性が強調属性を有するとき、当該強調属性と関連づけられた強調訳語を前記翻訳語として前記データベースから取得し、当該強調訳語を含む前記翻訳文を生成することを前記コンピュータ装置に寒行させることを特徴とする請求項 7記載の記憶媒体。

9 . 前記翻訳文生成処理では、前記修正語対応する前記翻訳語に対し、当該修正語を翻訳したものであることを示すためのデータを付与することを前記コンピュータ装置に実行させることを特徴とする請求項 7 記載の記憶媒体。

1 0 . 翻訳処理をコンピュータ装置に実行させるプログラムであって、コンピュータ装置に入力された原文テキストから、当該コンピュータ装置が参照可能なデータベースに登録されていない未登録語を抽出する処理と、

■ 抽出された前記未登録語が、当該未登録語の重複する文字の文字数を変化させることにより前記データベースに登録きれた登録語に合致するとき、前記未登録語に代えて前記登録語を用いて前記原文テキストを翻訳する処理と、

前記未登録語に代えて前記登録語を用いた部分を、他の部分から識別できるようにして翻訳.文を表示させる処理と

を前記コンピュータ装置に実行させることを特徴とするプログラム。

1 1 . 前記翻訳文を表示ざせる処理では、前記考登録語に代えて前記登録語を用いた部分を前記他の部分から識別できるようにするため、当該部分について、所定の強調データの追加、フォントデータの変更および色の変更の少なくとも 1つを前記コンピュータ装置に実行させることを特徴とする請求項 1 0記載のプログラム。

1 2 . 前記翻訳文を表示ざせる処理では、前記未登録語に代えて前記登録語を用いた部分に対応する翻訳語として、予め登録された強調訳語 5 を用いることを前記コンピュータ装置に実行させることを特徴とする請- 求項 1 1記載のプログラム。

1. 3 . 複数の語のデータを格納したデータベースと、

原文テキス卜のデータを入力する入力部と、

■ 入力された前記原文テキストを、前記データベースを参照して翻訳処 10 理する翻訳処理部と、

前記原文テキ-ストの翻訳文データを出力する出力部と

を懼 t、

前記翻訳処理部は、 2以上連続する同じ文字を有する強調語において、 ' 当該連続する文字の文字数を減少させた修正語を生成し、当該修正語に 15 対応する翻訳語を前記データベースから取得することを特徴とするコンピュータ装置。 ^¾'

1 4 . 前記データベースには、前記翻訳語を特定するための属性として強調属性データと、当該強調属性データに関連づけられた強調訳語と力前記修正語に関連づけて登録され、

20 前記出力部は、前記修正語に関連づけて前記強調属性データが前記データベーズに登録されている場合、当該強調属性データに関連づけられた前記強調訳語を、前記翻訳語として用いた前記翻訳文データを出力することを特徴とする請求項 1 3記載のコンピュータ装置。

1 5 . 前記出力部は、前記翻訳文データ中の前記翻訳語が、前記修正 25 語に基づいて翻訳された語句であることを示すデータを、前記翻訳文データと共に出力することを特徴とする請求項 1 3記載のコンピュータ装

1 6 . 前記出力部により出力された前記翻訳文データに基づいて、前記翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えたことを特徴とする請求項 1 5記載のコンピュータ装置。