WO2003065245A1 - Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur - Google Patents

Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur Download PDF

Info

Publication number
WO2003065245A1
WO2003065245A1 PCT/JP2002/013329 JP0213329W WO03065245A1 WO 2003065245 A1 WO2003065245 A1 WO 2003065245A1 JP 0213329 W JP0213329 W JP 0213329W WO 03065245 A1 WO03065245 A1 WO 03065245A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
translated
translation
computer device
data
Prior art date
Application number
PCT/JP2002/013329
Other languages
English (en)
French (fr)
Inventor
Tomohiro Miyahira
Yoshiroh Kamiyama
Hiromi Hatori
Original Assignee
International Business Machines Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corporation filed Critical International Business Machines Corporation
Priority to DE60237922T priority Critical patent/DE60237922D1/de
Priority to CN02827654XA priority patent/CN1618064B/zh
Priority to EP02806670A priority patent/EP1482414B1/en
Priority to US10/503,112 priority patent/US7529656B2/en
Priority to AT02806670T priority patent/ATE484029T1/de
Priority to JP2003564767A priority patent/JPWO2003065245A1/ja
Priority to KR10-2004-7001553A priority patent/KR20040070168A/ko
Publication of WO2003065245A1 publication Critical patent/WO2003065245A1/ja
Priority to US12/410,887 priority patent/US8005662B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Definitions

  • FIG. 1 is a diagram for explaining a schematic configuration of a computer device according to the present embodiment.
  • the words that make up the original text are connected.
  • which translation is to be used is determined based on the semantic attributes, emphasized attributes, Japanese attributes, and the like.
  • the emphasis attribute indicates whether or not there is a translation used for the emphasis expression.
  • the emphasis attribute is YES, it means that the translation is used for the emphasis expression.
  • the translation processing unit 20 determines whether or not there is a plurality of translations that match the part of speech with respect to one word in the dictionary (step S303).
  • the dictionary data storage unit 50 there are cases where a translation word is registered for each part of speech of each word, and a plurality of translation words are registered for the same one part of speech. For example, as shown in Fig. 3, for the word Japanese, translations of Japanese (semantic attribute: person) and Japanese (semantic attribute: language) are registered as nouns. If it is determined in step S303 that there are not a plurality of translated words, the process of step S309 described below is performed. .
  • the translation processing unit 20 determines again whether or not the word whose translation has been determined is a correction word (step S311). If it is determined that the word is not a modified word, the translation processing unit 20 outputs the translated word as it is to the output unit 30 (step S312), and ends this processing. 'On the other hand, if it is determined that the translated word is a corrected word, the translation' processing unit 20 emphasizes the translated word and outputs it from the output unit 30 (step S313). This processing ends. In emphasis processing, the word is In order to make it clear that the word was emphasized, a symbol such as “*” is added before and after the translation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Jellies, Jams, And Syrups (AREA)

Description

明細書
翻訳方法、 翻訳文の出力方法、 記憶媒体、 プログラムおよびコン ピュータ装置 .
技術分野
本発明は、 文章中の強調語を認識して機械翻訳するための手法等に関 する。
背景技術
従来、 パーソナルコンピュータ等.において翻訳用のプログラムが用い られている。 このような翻訳用のプログラムでは、 モニタ上に表示され 'た文章を機械的に翻訳することが可能であり、 例えばインターネットに おけるゥヱブページや、 電子メール等の文章を翻訳する際に使用される。
ところで近年においては、 インターネットの利用者の増加により、 個 人が直接情報を発信することが多く行われている。 例えば、 個人により 設立されたウェブページや、 伝言板のように個人がコメントを書.き込め るウェブページや、 インタラクティブに会話ができるチャットでは、 個 人により直接記述された文章がそのまま配信されている。 このように個 人が発信した情報を翻訳する際においても、 上記した翻訳用のプロダラ ムが使用されている。
しかしながら、 翻訳用のプログラムを用いて個人が発信した情報を翻 訳すると、 その情報が含んでいる口語が原因で、 翻訳ができなかったり、 間違った翻訳がなされることがある。 口語には、 翻訳用のプログラムが 参照する辞書に記録されていない語句が多く含まれており、 このような 未登録語は動詞や形容詞であっても名詞として扱われてしまうため、 翻 訳用のプログラムはその文章の翻訳に失敗してしまう。
このような未登録語としては、 例えば、 文章中において特定の単語を 強調するため、 意図的に単語を構成する文字を連続的に重複させた語句 (^下、 強調語という) がある。 具体的には、 英語における 「COOl」 の
「o」 を重複させた 「coool」 や、 「work」 の 「r」 を直複させた 「worrk」 等を挙げることができる。 このような強調語を含んだ文章の翻訳時には、 形容詞である 「coooi」 や動詞である 「worrk」 が名詞として扱われ、 最終 的に誤った翻訳文が生成される。
ここで、' 「cool」 の強調が、 常に 「0」 が 3文字の 「coool」 と書かれる のであれば、 その 「coool」 を辞書に登録することで正しく翻訳できるよ うになるが、 強調のために連続する文字の文字数は一定ではなく、 「0」 が 3個の場合の他、 「o」 が 4個や 5個の場合等も想定できる。 このよう に、 想定できる単語は数に限りが無く、 全ての場合に対応した単語を辞 書に登録することは、 事実上困難である。
このように、 個人が記述した文章には口語が用いられることが多く、 特に会話のやりとりを文章で行うチヤットでは、 その傾向が顕著であり、 翻訳処理の失敗が頻発している。
また、 上記のような同一文字を重複させることによる単語の強調は、 口語等のくだけ fこ表現を用いた文章中で使用される場合が多い。 そのよ うな文章に対する翻訳文では、 堅い表現ではなく、 柔らかく、 くだけた 表現を用いた方が適切である場合も想定される。 このような場合には、 原文中で強調された単語を翻訳文中でも強調すると共に、 くだけた表現 の訳語を選択することで、 文章の雰囲気がより適切に伝えられることが 期待される。
本発明は、 このような技術的課題に基づいてなされたもので、 強調語 等の未登録語が含まれていても適切な翻訳をすることができる翻訳方法 等を提供することを目的とする。
発明の開示
かかる目的のもと、;本発明の翻訳方法は、 コンピュータ装置に入力さ れた所定言語の原文テキストを他の言語に翻訳する翻訳方法であって、 抽出ステップでは、 コンピュータ装置が参照可能なデータベースに登録 ; されていない未登録語を原文テキストから抽出し、 修正語生成ステップ では、 抽出された未登録語に、 2以上連続する同じ文字が含まれるとき に、 連続する文字の文字数を減少させて未登録語から修正語を生成し、 翻訳ステップでは、 原文テキスト中の未登録語を修正語に置き換え、 前 記データベースを参照して原文テキストを翻訳することを特徴とする方 法である。 この翻訳'方法では、 原文テキス トに未登録語が含まれて翻訳 が不可能であっても、 その未登録語が口語で使用されるよ な連続する 文字を含んでいる場合には、 未登録語の代わりに修正語を用いることで' 原文テキストの翻^が可能となる。
なお、 未登録語における連続する文字の重複数は一定ではなく、 また 連続する文字はその未登録語中においてどの文字であるかも一定ではな い。 そこで、 例えば、 修正語生成ステップにおいて、 3以上連続する前 記文字を 2文字に減少、 または 2以上連続する前記文字を 1文字に減少 することができる。
またこの翻訳方法では、 翻訳文中の未登録語に対応する翻訳語が修正 語に基づいて翻訳されたものであることを明らかにした状態で、 翻訳文 を出力する出力ステップをさらに有することができる。
なお、 翻訳ステップでは、 修正語に対応する修正語用の翻訳語をデー タベースから抽出することにより、 翻訳を行うことができる。
また本発明は翻訳文の出力方法として捉えることができる。 この翻訳 文の出力方法は、 コンピュータ装置により翻訳された翻訳文を、 コンビ ユータ装置が出力する出力方法であって、 特定ステップでは、 コンビュ ータ装置に入力された 文テキストにおいて本来の文字綴りと異なる文 字綴りが用いられた造語を特定し、 出力ステップでは、 造語を含む原文 テキストを翻訳して翻訳文を出力し、 さらに特定ステップにより特定さ れた造語に対応する翻訳語に、 強調表現を適用して翻訳文を出力するこ とを特徴とする方法 ある。 ' · この出力ステップでは、 強調表現として、 翻訳語に所定の表記を付加 する、 または翻訳語の書式を変化させることができる。 例えば、 「cool」 の翻訳語である 「クール」 の前後に 「*」 の表記を付加して 「*クール *」 と表現したり、 その 「クール」 'のフォントゃ色を変えることができ る。
さらに本発明は、 コンピュータ装置に実行させるプログラムを、 コン ピュータ装置,が読み取り可能に記憶した記憶媒体として捉えることがで きる。 この記憶媒体に記憶されるプログラムは、 コンピュータ装置に入 力された原文テキストを構成する単語の品詞と属性を、 参照可能なデー タベースから抽出する形態素解析処理と、 その結果に基づいて、 原文の ツリー構造を有する構文木データを作成する構文解析処理と、 構文解析 処理の結果に基づいて、 訳文の構文木データを作成する構文生成処理と、 原文テキス トの単語に対応する翻訳語をデータベースから取得し、 訳文 の構文木データに基づき翻訳語を繋げて翻訳文を生成する翻訳文生成処 理と'をコンピュータ装置に実行させ、 形態素解析処理では、 原文テキス トがデータベースに登録されていない未登録語を含み、 且'つ当該未登録 語が、 2以上連続する同じ文字を含むときには、 連続する文字を 1また は 2文字に減少させた修正語を生成し、 未登録語の代わり.に修正語の品 詞と属性をデータベースから抽出することをコンピュータ装置に実行さ せることを特徴とするものである。
なお、 翻訳文生成処理では、 未登録語に代わる修正語の属性が強調属 性を有するとき、 強調属性と関連づけられた強調訳語を翻訳語としてデ ータベースから取得し、 強調訳語を含む翻訳文を生成したり、 修正語に 対応する翻訳語に対して修正語を翻訳したものであることを示すための データを付与することができる。 例えば、 このデータに基づいて、 修正 語に対応する翻訳語を、 翻訳文中において識別できるように表示するこ とができる。
また本発明は翻訳処理をコンピュータ装置に実行させるプログラムと して捉えることができる。 このプログラムは、 コンピュータ装置に入力 された原文テキス トから、 参照可能なデータベースに登録されていない 未登録語を抽出する処理と、 抽出された未登録語が、 未登録語の重複す る文字の文字数を変化させることによりデータベースに登録された登録 語に合致するとき、 未登録語に代えて登録語を用いて原文テキス トを翻 訳する処理と、 未登録語に代えて登録語を用いた部分を、'他の部分から 識別できるようにして翻訳文を表示させる処理とをコンピュータ装置に 実行させることを特徴とするものである。
例えばこのプログラムでは、 翻訳文を表示させる処理において、 未登 録語に代えて登録語を用いた部分を他の部分から識別できるようにする ため、 その部分について、 所定の強調データ (例えば 「*」 等) の追加、 フォントデータ (書体、 スタイル、 サイズ,を含む) の変更および色の変 更の少なく とも 1つを実することができる。
その他、 本発明はコンピュータ装置として捉えることができる。 この コンピュータ装置では、 データベースが複数の語のデータを格納し、 入 力部が原文テキス トのデータを入力し、 翻訳処理部が入力された原文テ キス トを、 データベースを参照して翻訳処理し、 出力部が原文テキス ト の翻訳文データを出力し、 且つ翻訳処理部は、 2以上連続する同じ文字 を有する強調語において、 連続する文字の文字数を減少させた修正語を 生成し、 修正語に対応する翻訳語をデータベースから取得することを特 徴とするものである。 データベースには、 翻訳語を特定するための属性として強調属性デー タと、 強調属性データに関連づけら'れた強調訳語とが、 修正語に関連づ けて登録され、 出力部は、 修正語に関連づけて強調属性データがデータ ベースに登録されている場合、 強調属性データに関連づけられた強調訳 語を、 翻訳語として用いた翻訳文データを出力することができる。
また、 出力部は、 翻訳文データ中の翻訳語が、 修正語に基づいて翻訳 された語句であることを示すデータを、 翻訳文データと共に出力するこ とができる。 この場合、 出力部により出力された翻訳文データに基づい て、 翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えさせ ること'もできる。
図面の簡単.な説明
図 1は、 本実施の形態におけるコンピュータ装置の概略構成を示す図で める。
図 2は、 翻訳処理ブロッグの構成を示す図である。
図 3は、 辞書データ格納部に格納されたデータの一例を示す図である。 図 4は、 翻訳の具体例を示し、 (a)は翻訳前の原文テキストを、 (b)は翻訳 後に表示される訳文を示す図である。
図 5は、 翻訳処理プロックにおける翻訳処理の流れを示す図である。 図 6は、 図 5に示す形態素解析の具体的な処理の流れを示す図である。 図 7は、 図 5に示す訳語生成の具体的な処理の流れを示す図である。 図 8は、 (A) (B)(C)は、 それぞれ強調語の翻訳における他の表記例を示 す図である。
発明を実施するための最良の態様
以下、 添付図面に示す実施の形態に基づいてこの発明を詳細に説明す る。 図 1は、 本実施の形態におけるコンピュータ装置の概略構成を説明する ための図である。
この図 1に示すように、 コンピュータ装置 1は、 C P Uやメインメモ リ、 H D D等を備えた制御部 2、 C R Tや L Cひパネル等を用いたディ スプレイ (表示部) 3、 ディスプレイ 3の表示画面上に表示される文字 等を入力するためのキーボー'ドゃボインタを操作するためのマウス等の 入力デバイス 4を備える。
制御部 2は、 ディスプレイ 3において C P Uからの描画命令に基づい て画面の表示を行うための表示制御ブロック 5と、 ユーザにより入力'さ .れたデータを制御するための入力デバイス制御プロック 6と、 翻訳処理 •を行うための翻訳処理プロック 7としての機能を有する。
表示制御ブロッグ 5は、 図示しないビデオドライバ、 ビデオチップ等 によって実現されるもので、 メインメモリ等から転送された画像データ に基づいた表示をディスプレイ 3に実行させる。 '
入力デバイス制御ブロック 6は、 ポインティングデバイスやキーボー ド等の入力デバイス 4をユーザが操作したときのィベントを処理するュ ーザィンターフェイスドライバによって実現されるもので、 特に、 ユー ザによる入力デバイス 4の操作に基づいて入力されたデータをディスプ レイ 3の表示画面上に表示させるための処理を実行する。
翻訳処理ブロック 7は、 H D D等に格納されたプログラムに基づいた 処理を C Pひがメインメモリ等と協働して実行することにより実現され るものである。 ここで、 翻訳処理ブロック 7について詳しく説明する。 図 2は、 翻訳処理ブロック 7の機能的な構成を示す図である。
' 翻訳処理ブロック 7は、 翻訳すべき原文テキストを取り込む入力部 1 0、 取り込んだ原文テキストの翻訳処理を実行する翻訳処理部 2 0、 実 行された翻訳処理の結果である訳文等をディスプレイ 3に表示させるた めのデータを出力する出力部 3 0、 翻訳処理を行うに際して用いる辞書 データを格納した辞書データ格納部 5 0を備える。 辞書データ格納部 5 0は、 基本辞書 5 1、 ユーザ辞書 5 2の他に、'例えばスポーツ、 コンビ ユータ、 アート、 エンターテイメント、 政治経済、 科学、 家庭等、 分野 別のデータを有する分野別辞書 5 3を有している。
'図 3は、 辞書データ格納部 5 0に格納されたデータの一例を示す図で ある。
辞書データ格納部 5 0 ま、 例えば図 3に示すようなデータを格納して いる、 すなわち品詞、 意味属性、' 強調属性、 訳語、 日本語属性のデータ ,が単語毎に記録されている。 ここで、 一例として抜粋されている単語 「cool」 は品詞として形容詞が特定されており、 その訳語として 「冷静」 'と 「クーール」 の二つが登録されている。 また、 単語 「Japanese」 は、 品 詞として名詞と形容詞が特定されており、 その訳語として、 名詞では 「日本人」 と 「日本語」 力 形容詞として 「日本」 が登録されている。 「冷静」 と 「クーール」 や、 「日本人」 と 「日本語」 のように、 1つの 単語に対する訳語の決定において、 同じ品詞の訳語が複数ある場合、 原 文テキストを構成する単語どうしの繋がりにおいて、 意味属性、 強調属 性、 日本語属性等に基づいて、 どの訳語を使用するかが決定される。 な お、 強調属性とは、 強調表現に用いる訳語の有無を示すものであり、 強 調属性が YESの場合には、 強調表現に用いる訳語であることを意味する。 上記のような構成を有するコンピュータ装置 1の翻訳処理プロック 7 では、 翻訳処理を行う際に、 入力部 1 0に 取り込んだ原文テキス卜 (文 章や単語)を基に辞書データ格納部 5 0を参照し、 翻訳処理部 2 0が翻訳 処理を行って訳文を生成し、 出力部 3 0から訳文を出力する。 翻訳処理 では、 文法ルール、 単語データ等が格納された辞書データ格納部 5 0を 参照し、 形態素解析、 構文解析、 構文生成、 訳語生成等の処理が翻訳処 理部 2 0において順次行われる。 このように翻訳処理を行うに際し、 原 文テキストに強調語が含まれる場合であっても、 翻訳処理部 2 0は正し い訳文を得ることができ、 さらに強調語を強調.した状態で訳文を出力す ることができる。 例えば、 図 4 (a)に示すような翻訳前の英文の原文テキ ス トでは、 「cool」 力 S 「o」 を重複させた強調語 「coool」 となっており、 翻訳後の日本語の訳文では、 図 4 (b)に示すように、 「*ク^ "一ル *」 と 強調されて翻訳される。
以下に、 強調語を正しく且つ強調して出力するための翻訳処理プロッ ク 7における処理について、 図 4 (a)に示す英文の原文テキストを図 4 (b) に示す日本語文に翻訳する例を用いて具体的に説明する。 なお、 翻訳処 理の概要そのものは、 一般的な手法であるため、 従来公知の翻訳処理に ついて詳細な説明は省略する。 また、 翻訳処理アルゴリズムや翻訳結果 の出力形態については特に限定する意味はない。
図 5は、 翻言尺処理ブロック 7における翻訳処理の主な流れを示す図で ある。
まず、 翻訳処理ブロック 7は、 入力部 1 0から取り込んだ原文テキス トについて形態素解析を行う (ステップ S 1 0 1 ) 。 形態.素解析では、 辞書データ格納部 5 0に格納されたデータを参照しながら、 原文テキス トの文章を単語毎に分割し、 品詞と属性の決定を行う。
ここで、 図 6にステップ S 1 0 1における形態素解析のさらに具体的 な処理の流れを示す。
図 6に示すように、 まず翻訳処理部 2 0は、 原文テキストの分割され た単語のそれぞれについて辞書データ格納部 5 0のデータを参照しなが ら辞書引きを実行する (ステップ S 2 0 1 ) 。 ここで、 辞書データ格納 部 5 0には、 図 3に示すように、 単語ごとに品詞、 意味属性、 強調属性、 訳語、 日本語属性がデータとして記録されている。 辞書引きでは、 単語 毎に,辞書データ格納部 5 0に一致する単語を抽出する処理を行う。 した がって、 図 4 (a)に示す原文テキス トの場合には、 分割された単語 It,is,very,cooolのぞれぞれについで辞書引きを行い、 辞書データ格納部 5 0中において一致する単語の抽出を行う。
続けて、 ステップ S 2 0 1における辞書引きの結果に基づき、 原文テ キストには、 辞書データ格納部 5 0のデータ中に登録されていない単語 (以下、 未登録語という) が含まれているか否かを判断する (ステップ S 2 0 3 ) 。 ステップ S 2 0 3において、 未登録語は含まれていない、 すなわち原文テキストを構成する単語は全て辞書データ格納部 5 0に格 納されたデータ中に存在すると判断すると、 後述のステップ S 2 1 7の 処理、 すなわち品詞と属性の決定を行う。
一方、 '図 4 (a)に示すような原文テキストには、 「coool」 という辞書デ ータ格納部 5 0に登録されていない未登録語が含まれている。 このよう な場合、 翻訳処理部 2 0はステップ S 2 0' 3において原文テキストは未 登録語を含むと判断し、 その未登録語において 2以上連続する同じ文字 (以下、 連続文字という) があるか否かを判断する (ステップ S 2 0 5 ) 。 ステップ S 2 0 5において、 未登録語には連続文字が存在しないと判 断した場合、 翻訳処理部 2 0は、 その未登録語を未知の語句 (未知語) として処理する決定を行う (ステップ S 2 0 6 ) 。 '
一方、 「coool」 中の 「ooo」 のように未登録語に,連続文字が存在すると ステップ S 2 0 5において判断した場合、 翻訳処理部 2 0は、 3文字以 上の連続する連続文字を 2文字に置き換えることで修正した単語 (以下、 修正語という) を生成し、 その修正語について辞書データ格納部 5 0を 参照して辞書引きを行う (ステップ S 2 0 7 ) 。 すなわち、 「coool」 を 「cool'」 に修正し、 「cool」 について辞書引きを行う。 そして翻訳処理部 2 0は、 ステップ S 2 0†の辞書引きの結果に基づき、 修正語は辞書デ ータ格納部 5 0のデータ中に登録されているかどうかを判断する (ステ ップ S 2 0 9 ) 。 図 4 (a)に示す例の場合、 ステップ S 2 0 7において修 正された修正語 「cool」 は図 4に示すように辞書データ格納部 5 0に格納 されている単語 「C001」 と一致するので、 修正語は辞書データ格納部 5 0 に登録ざれていると判断する。
なお、 ステップ S 2 0 9において、 3文字以上の連 /铳する連続文字を' 2文字に修正した修正語が辞書データ格納部 5 0のデータ中に登録され ていないと判断した場合、 あるいは 3文字以上の連続文字でない (例え ば、 2文字の連続文字) ために修正語を作成していない場合、 翻訳処理 部 2 0は、 未登録語の 2文字以上の連続文字を 1文字に置き換えること で修正した新たな修正語を生成し、 その新たな修正語について辞書デー タ格納部 5 0を参照して辞書引きを行う (ステップ S 2 1 1 ) 。 そして、 翻訳処理部 2 0は'、 辞書引きの結果に基づき、 新たな修正語が辞書デー タ格納部 5 0のデータ中に登録されているかどうかを判断する (ステツ プ S 2 1 3 ) 。
なお、 ステップ S 2 0 7やステップ S 2 1 1のように修正語を生成し、 辞書引きする処理において、 単語によっては 「pleeeaaase」 の例のように、 連続文字部が複数ある場合も見うけられるので、 このような場合には、 それぞれの連続文字 (この場合には 「e」 の連続と 「a」 の連続の 2箇所) を、 それぞれ 2文字或いは 1文字に削除した場合の組み合わせを修正語 として辞書引きする必要がある。 図には示さないが、 このような処理は、 本実施の形態に示した処理から当業者であれば容易に拡張可能である。 ステップ S 2 0 9において未登録語に含まれる 3文字以上の連続文字 を 2文字に修正した修正語または、 ステップ S 2 1 3において未登録語 の 2文字以上の連続文字を 1文字に修正した修正語が、 辞書データ格納 部 5 0のデータ中に登録されていると判断した場合、 翻訳処理部 2 0は、 その未登録語を修正語として処理する決定を行う (ステップ S 2 1 5 ) 。 このとき、 その修正語には、 未登録語を修正した単語である旨を示すフ ラグ (データ) が付与される。
以上のようにして、 未登録語がある場合には、 ステップ S 2 1 5にお いて修正語に決定し、 またはステップ S 2 0 6において未知語に決定し た上で、 原文テキストを構成するそれぞれの単語の品詞と属性の決'定を 行い (ステップ S 2 1 7 ) 、 ステップ S 1 0 1の形態素解析の処理を終 了する。 なお、 ステップ S 1 0 1の形態素解析では品詞や属性を一意に 決定できない場合があり、 この場合には複数の品詞や属性'を候補として 残しておくことができる。
図 5のステップ S 1 0 1に続けて、 翻訳処理ブロック 7は、 構文解析 を行う (ステップ S 1 0 3 ) 。 構文解析では、 単語毎に分割された原文 テキストを、 辞書データ格納部 5 0の基本辞書 5 1に記録されている文 法ルールを参照しながら解析し、 文木データと呼ばれるッリ一構造の データを作成する。 構文木データとは、 原文テキストの中で、 例えば、 どの部分が主語で、 どの部分が述語で、 さらに、 述語の部分は動詞と目 的語からなる動詞句で、 目的語の部分は冠詞と名詞からなる名詞句であ るというようなことを階層的に表したッリ一構造のデータである。 なお、 構文解析に使用される文法ルールは、 文法的な属性だけでなく意味的な 属性が指定されているものであってもよい。
続けて、 ステップ S 1 ◦ 3の結果に基づいて、 翻訳処理ブロック 7は 構文生成を行う (ステップ S 1 0 5 ) 。 構文生成では、 ステップ S 1 0 3の構文解析で得られた原言語 (英日翻訳なら英語) の構文木データを 参照しながら、 目的言語 (英日翻訳なら日本語) の構文木データを作成 する。 そして、 ステップ S 1 0 5で得られた構文木データに基づいて、 翻訳 処理ブロック 7は訳語生成を行う (ステップ S 1 0 7 ) 。 訳語生成では、 例えば、 構文木データの中で訳語が決定されていない単語 (1つの単語 について品詞が同じ訳語が複数ある場合等、 訳語の候補が複数存在する 単語) に関し、 辞書データ格納部 5 0を参照して原文テキストの各単語 に対応する訳語を特定する。 そして、 最終的に得られた訳語を繋げて一 文を生成する。
ここで、 図 7にステップ S 1 0 7における訳語生成のさらに具体的な 処理の流れを示す。
図 7に示すように、 まず翻訳処理部 2 0は、 原文テキス トの分割され た単語のそれぞれについて、 辞書データ格納部 5 0のデータを参照しな がら辞書引きを実行する (ステップ S 3 0 1 ) 。 この辞書引きは、 図 1 に示すステップ S 1 0 5で得られた構文木データに基づき、 辞書引きす る単語の品詞を特定した上で、 最終的な訳語を決定するために行われる 処理である。
続けて、 翻訳処理部 2 0は、 辞書引きした 1つの単語について、 品詞 がマッチする訳語が複数存在するか否かを判断する (ステップ S 3 0 3 ) 。 辞書データ格納部 5 0には、 各単語の品詞毎に訳語が登録されている 力 S、 同じ 1つの品詞に複数の訳語が登録されている場合がある。 例えば、 図 3に示すように、 単語 Japaneseについては、 名詞として日本人 (意味属 性:人)と日本語 (意味属性:言語) という訳語が登録されている。 ステ ップ S 3 0 3において、 訳語は複数存在しないと判断した場合、 後述の ステップ S 3 0 9の処理を行う。 .
一方、 ステップ S 3 0 3において、 訳語が複数存在すると判断した場 合、 そのように判断された単語はステップ S 1 0 1 (ステップ S 2 0 7 またはステップ S 2 1 1 ) において生成された修正語であるか否かを判 断する (ステップ S 3 0 5 )'。 ここでは、 前述のステップ S 2 1 5にお いて、 未登録語を修正した単語である旨を示すフラグがあるか否かによ つて修正語であるか否かが判断される。 ステップ S 3 0 5においてその 単語は修正語であると判断した場合、 その修正語について強調属性の付 .いた訳語が存在するか否かを判断する (ステップ S 3 0 7 ) 。 例えば、 図 4 (a)に示す 「coool」 は、 ステップ S 1 0 1において修正されて 「cool」 となった。 この 「cool」 については図 3に示すように、 強調属性が YESと して登録された訳語 「ク一一ル」 が存在する。 このように強調属性の付 いた訳語が存在すると判断した場合、 その語句を訳文に使用する訳語に 決定する (ステップ S 3 0 9 ) 。 '
一方、 ステップ S 3 0 5においてその単語は修正語ではないと判断し た場合、 またはステップ S 3 0 7において修正語に対応する訳語は存在 しないと判断した場合、 その単語について、 構文木データ中で要求され る意味属性等の他の属性についてのマッチングを行う (ステップ S 3 0 8 ) 。 そして、 マッチングにより属性が最もマッチする訳語を抽出し、 訳文に使用する訳語を決定する (ステップ S 3 0 9 ) 。 なお、 構文木デ ータ中で属性が決まらない場合には、 第 1訳語 (最も良く使われる訳語) を選択することができる。
続けて、 翻訳処理部 2 0は、 訳語が決定された単語は修正語であるか 否かを再度判断する (ステップ S 3 1 1 ) 。 修正語ではないと判断する と、 翻訳処理部 2 0は、 訳語を出力部 3 0へそのまま出力し (ステップ S 3 1 2 ) 、 本処理を終了する。 . ' 一方、 訳語が決定された単語が、 修正語であると判断した場合、 翻訳 ' 処理部 2 0は、 訳語を強調処理して出力部 3 0から出力する (ステップ S 3 1 3 ) 、 本処理を終了する。 強調処理では、 その単語が原文テキス トでは強調語であったことを明らかにするため、 「*」 等の記号がその 訳語の前後に付される。
このようにして図 7に示す処理により単語毎の訳語を確定し、 繋ぎ合 わせることで最終的な訳文を出力部 3 0は出力する。 出力された訳文は、 コンピュータ装置 1の翻訳処理ブロック 7および表示制御ブロック 5の 処理により、 ディスプレイ 3に表示される。 例えば、 図 4 (a)に示した原 文テキストは、 図 4 (b)に示すような翻訳文となってディスプレイ 3に表 示される P 図 4 (a)(b)に示す例では、 強調語である 「coool」 力 強調属性 の付いた訳語 「ク^ ^一ル」 を使用して翻訳され、 さらにその享語の前後 に符号 「*」 を付して 「*ク ル *」 と表されている。 '
以上のように本実施の形態におけるコンピュータ装置 1では、 口語の 翻訳において、 同一の文字が連続する部分を含む強調語を、 連続した文 字を減らすことで辞書データ格納部 5 0に登録されている語句と一致さ せる。 したがって、 コンピュータ装置 1では強調語の品詞を正しく認識 することができ、'誤訳の発生を抑制することができ、 また従来の技術に おレ、て翻訳不可能であった文章も翻訳することが可能となる。
さらに、 強調語を翻訳した場合には、 強調語に対応した訳語を使用し、 また訳語の前後に記号等を付与することで、 原文テキストにおいて強調 語であったことを明らかにすることができる。 その結果、 ユーザは翻訳 前の文章の意図を、 より的確に理解することが可能となる。
また、 そのような強調語を含む文章に対して、 強調語として特有の訳 語を選択することで、 文章の雰囲気がより適切に伝わることが期待され る。 '
なお、 強調語の翻訳において出力される訳語の強調処理は、 図 4 (b)に 示すように符号を付する処理に限られない。 図 8 (A) (B)(C)に、 強調語 の翻訳における他の表記例を示す。 図 8 (A) では、 (a)に示す原文テキストは、 「Oops」 の 「o」 が連続文 字となって強調された 「Oooooooops」 が含まれている。 それに対して (b) に示す翻訳文では、 強調語の訳語が 「しまったあ〜」 となつでおり、 さ らに訳語の前後において目立つように複数の符号 「* * *」 が付与され ている。 このように、 強調データとして付与される符号は特に限定され ず、 他の形状の符号であってもよい。 また付与される位置も特に限定さ れず、 「し *ま *つ *た *あ〜」 のように単語の合間に付与されるもの であってもよい。
また、 例えば、 ディスプレイ 3に出力する際に、 単なるテキス トでは なく、 H T M L形式等のフォントデータや色の設定が可能である場合に は、 書体、 スタイル、 サイズ等のフォントデータや色を変えることで強 •調されていること 明らかにすることができる。
例えば、 図 8 (B)では、 (a)に示す原文テキストは、 「so」 の 「0」 が連続 文字となって強調された 「sooooooJ が含まれている。 それに対して (b)に 示す翻訳文では、 強調属性が YESの訳語が存在しないために、 強調語は通 常の語句である (強調属性が YESではない語句) 「とても」 に翻訳されて いるが、 この 「とても」 の部分に網掛けがされて表示されている。
さらに、 図 8 (C)では、 (a)に示す原文テキストは 「Please」 の 「e」 と 「a」 が連続文字となって強調された 「Pleeeaaase」 が含まれている。 それに対 して (b)に示す翻訳文では、 強調語の訳語が 「おねが〜い」 となっており、 さらにその訳語が目立つように他の文字よりフォントが大きくして表示 されている。
その他、 強調語についてフォント、 スタイル、 サイズ、 色等の書式を 変えたりすることも可能であり、 強調語であることを表示する方法は、 特に限定されない。 また、 強調属性を有する訳語を使用する場合や、 テ キス ト表示のみ行うことが好ましい場合等においては強調処理は行わな いものであってもよい。 '
その他、 本実施の形態の翻訳処理は、 英語の原文テキストを日本語に 翻訳しているが、 本発明はこれに限定されない。 例えば、 英語をドイツ 語に翻訳する場合や、 その他の言語をさらにその他^言語に翻訳する場 合にも本発明を適用することができる。
また、 本実施の形態の翻訳処理は、 ノートブック型 P Cやデスク トツ プ型 P C等の他、 P D Aや携帯電話等の携帯型コンピュータ装置におい て実行することが可能である.。 また、 インターネッ トのウェブページや チヤットウインドウ上で実行できるようにすることも可能である。
さらに、 本実施の形態の翻訳処理は、 辞書データ格納部 5 0をコンビ ユータ装置 1内に備えているが、 翻訳時にコンピュータ装置 1が参照す る辞書データは、 コンピュータ装置 1の外部にあってもよい。 例えば、 辞書データはネッ トワークを介してコンピュータ装置 1が取得するもの であってもよい。 '
' なお、 上記実施の形態で示したような処理を実行するプログラムは、 以下のような記憶媒体の形態とすることもできる。
すなわち、 記憶媒体としては、 コンピュータ装置に上記したような処 理を実行させるプログラムを、 C D— R O M、 D V D , メモリ、 ハード ディスク等の記憶媒体に、 コンピュータ装置が読み取り可能に記憶させ れば良い。 '
これ以外にも、 本発明の主旨を逸脱しない限り、 上記実施の形態で挙 げた構成を取捨選択したり、 他の構成に適宜変更することが可能である。 以上説明したように、 本発明によれば、 同一文字を連続させることに よって強調された強調語を翻訳することが可能となる。

Claims

請求の範囲
1 . コンピュータ装置に入力された所定言語の原女テキストを他の言 語に翻訳する翻訳方法であって、
前記コンピュータ装置が参照可能なデータベースに登録されていない 未登録語を、 前記原文テキス トから抽出する抽出ステップと、 '
抽出された前記未登録語に、 2以上連続する同じ文字が含まれるとき に、 当該連続する文字の文字数を減少させて当該未'登録語から修正語を 生成する修正語生成ステップと、
前記原文テキスト中の前記未登録語を前記修正語に置き換え、 前記デ ータベースを参照して当該原文テキストを翻訳する翻訳ステップと を有することを特徴とする翻訳方法。 ,
2 . 前記修正語生成ステップでは、 3以上連続する前記文字を 2文字 に減少、 または 2以上連続する前記文字を 1文字に減少することを特徴 とする請求項 1記載の翻訳方法。
3 . 前記翻訳文中の前記未登録語に対応する翻訳語が前記修正語に基 づいて翻訳されたものであることを明らかにした状態で、 当該翻訳文を 出力する出力ステップをさらに有することを特徴とする請求項 1記載の 翻訳方法。
4 . 前記翻訳ステップでは、 前記修正語に対応する修正語用の翻訳語 を前記データベースから抽出することを特徴とする請求項 1記載の翻訳 方法。 '
5 . コンピュータ装置により翻訳された翻訳文を、 当該コンピュータ 装置が出力する出力方法であって、
前記コンビユーダ装置に入力された原文テキストにおいて本来の文字 綴りと異なる文字綴りが用いられた造語を特定する特定ステップと、 前記造語を含む前記原文テキストを翻訳し、 前記翻訳文を出力する出 力ステップど
を有し、 '
前記出力ステップでは、 前記特定ステップにより特定された前記造語 5 に対応する翻訳語に、 強調表現を適用して前記翻訳文を出力することを 特徴とする翻訳文の出力方法。
6 . 前記出力ステップでは、 前記強調表現として、 前記翻訳語に所定 の表記を付加する、 または当該翻訳語の書式を変化させることを特徴と する請求項 5記載の翻訳文の出力方法。
0 7 . コンピュータ装置に実行させるプログラムを、 当該コンピュータ 装置が読み取り可能に記憶した記憶媒体において、
前記プログラムは、
' 前記コンピュータ装置に入力された原文テキストを構成する単語の品 ,詞と属性を、 当該コンピュータ装置が参照可能なデータベースから抽出5 する形態素解析処理と、
前記形態素解析処理の結果に基づいて、 原文のッリ一構造を有する構 文木データを作成する構文解析処理と、
前記構文解析処理の結果に基づいて、 訳文の構文木データを作成する 構文生成処理と、
0 前記原文テキストの前記単語に対応する翻訳語を前記データベースか ら取得し、 前記訳文の構文木データに基づき当該翻訳語を繁げて翻訳文 を生成する翻訳文生成処理と
を前記コンピュータ装置に実行させ、
前記形態素解析処理では、 前記原文テキストが前記データベースに登5 録されていない未登録語を含み、 且つ当該未登録語が 2以上連続する同 じ文字を含む'ときには、 当該連続する文字を 1または 3文字に減少させ た修正語を生成し、, 当該未登録語の代わりに当該修正語の前記品詞ど前 記属性を前記データベースから抽出することを前記コンビュ ^タ装置に 実行させることを特徴とする記憶媒体。
8 . 前記翻訳文生成処理では、 前記未登録語に代わる前記修正語の前 記属性が強調属性を有するとき、 当該強調属性と関連づけられた強調訳 語を前記翻訳語として前記データベースから取得し、 当該強調訳語を含 む前記翻訳文を生成することを前記コンピュータ装置に寒行させること を特徴とする請求項 7記載の記憶媒体。
9 . 前記翻訳文生成処理では、 前記修正語 対応する前記翻訳語に対 し、 当該修正語を翻訳したものであることを示すためのデータを付与す ることを前記コンピュータ装置に実行させることを特徴とする請求項 7 記載の記憶媒体。
1 0 . 翻訳処理をコンピュータ装置に実行させるプログラムであって、 コンピュータ装置に入力された原文テキストから、 当該コンピュータ 装置が参照可能なデータベースに登録されていない未登録語を抽出する 処理と、
■ 抽出された前記未登録語が、 当該未登録語の重複する文字の文字数を 変化させることにより前記データベースに登録きれた登録語に合致する とき、 前記未登録語に代えて前記登録語を用いて前記原文テキストを翻 訳する処理と、
前記未登録語に代えて前記登録語を用いた部分を、 他の部分から識別 できるようにして翻訳.文を表示させる処理と
を前記コンピュータ装置に実行させることを特徴とするプログラム。
1 1 . 前記翻訳文を表示ざせる処理では、 前記考登録語に代えて前記 登録語を用いた部分を前記他の部分から識別できるようにするため、 当 該部分について、 所定の強調データの追加、 フォントデータの変更およ び色の変更の少なくとも 1つを前記コンピュータ装置に実行させること を特徴とする請求項 1 0記載のプログラム。
1 2 . 前記翻訳文を表示ざせる処理では、 前記未登録語に代えて前記 登録語を用いた部分に対応する翻訳語として、 予め登録された強調訳語 5 を用いることを前記コンピュータ装置に実行させることを特徴とする請- 求項 1 1記載のプログラム。
1. 3 . 複数の語のデータを格納したデータベースと、
原文テキス卜のデータを入力する入力部と、
■ 入力された前記原文テキストを、 前記データベースを参照して翻訳処 10 理する翻訳処理部と、
前記原文テキ-ス トの翻訳文データを出力する出力部と
を懼 t、
前記翻訳処理部は、 2以上連続する同じ文字を有する強調語において、 ' 当該連続する文字の文字数を減少させた修正語を生成し、 当該修正語に 15 対応する翻訳語を前記データベースから取得することを特徴とするコン ピュータ装置。 ¾'
1 4 . 前記データベースには、 前記翻訳語を特定するための属性とし て強調属性データと、 当該強調属性データに関連づけられた強調訳語と 力 前記修正語に関連づけて登録され、
20 前記出力部は、 前記修正語に関連づけて前記強調属性データが前記デ ータベーズに登録されている場合、 当該強調属性データに関連づけられ た前記強調訳語を、 前記翻訳語として用いた前記翻訳文データを出力す ることを特徴とする請求項 1 3記載のコンピュータ装置。
1 5 . 前記出力部は、 前記翻訳文データ中の前記翻訳語が、 前記修正 25 語に基づいて翻訳された語句であることを示すデータを、 前記翻訳文デ ータと共に出力することを特徴とする請求項 1 3記載のコンピュータ装
1 6 . 前記出力部により出力された前記翻訳文データに基づいて、 前 記翻訳語を強調した状態で翻訳文を表示する表示部をさらに備えたこと を特徴とする請求項 1 5記載のコンピュータ装置。
PCT/JP2002/013329 2002-01-29 2002-12-19 Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur WO2003065245A1 (fr)

Priority Applications (8)

Application Number Priority Date Filing Date Title
DE60237922T DE60237922D1 (de) 2002-01-29 2002-12-19 Übersetzungsverfahren für hervorgehobene wörter
CN02827654XA CN1618064B (zh) 2002-01-29 2002-12-19 翻译方法与计算机设备
EP02806670A EP1482414B1 (en) 2002-01-29 2002-12-19 Translating method for emphasised words
US10/503,112 US7529656B2 (en) 2002-01-29 2002-12-19 Translating method, translated sentence outputting method, recording medium, program, and computer device
AT02806670T ATE484029T1 (de) 2002-01-29 2002-12-19 Übersetzungsverfahren für hervorgehobene wörter
JP2003564767A JPWO2003065245A1 (ja) 2002-01-29 2002-12-19 翻訳方法、翻訳文の出力方法、記憶媒体、プログラムおよびコンピュータ装置
KR10-2004-7001553A KR20040070168A (ko) 2002-01-29 2002-12-19 번역 방법, 번역문의 출력방법, 기억 매체, 프로그램 및컴퓨터 장치
US12/410,887 US8005662B2 (en) 2002-01-29 2009-03-25 Translation method, translation output method and storage medium, program, and computer used therewith

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002020676 2002-01-29
JP2002/20676 2002-01-29

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US10503112 A-371-Of-International 2002-12-19
US12/410,887 Continuation US8005662B2 (en) 2002-01-29 2009-03-25 Translation method, translation output method and storage medium, program, and computer used therewith

Publications (1)

Publication Number Publication Date
WO2003065245A1 true WO2003065245A1 (fr) 2003-08-07

Family

ID=27654365

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/013329 WO2003065245A1 (fr) 2002-01-29 2002-12-19 Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur

Country Status (8)

Country Link
US (2) US7529656B2 (ja)
EP (1) EP1482414B1 (ja)
JP (1) JPWO2003065245A1 (ja)
KR (1) KR20040070168A (ja)
CN (1) CN1618064B (ja)
AT (1) ATE484029T1 (ja)
DE (1) DE60237922D1 (ja)
WO (1) WO2003065245A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088471A2 (de) * 2004-03-16 2005-09-22 Star Ag Computergestütztes hilfsmittel für ein verfahren zur erstellung von fremdsprachigen dokumenten
JP2006155433A (ja) * 2004-12-01 2006-06-15 Nec Corp 文字入力言語変換表示システム及びその方法並びにそれを用いた通信端末及びプログラム
CN101388011B (zh) * 2007-09-13 2011-07-20 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60237922D1 (de) * 2002-01-29 2010-11-18 Ibm Übersetzungsverfahren für hervorgehobene wörter
US7337115B2 (en) * 2002-07-03 2008-02-26 Verizon Corporate Services Group Inc. Systems and methods for providing acoustic classification
US20040004599A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for facilitating playback of media
US7536293B2 (en) * 2003-02-24 2009-05-19 Microsoft Corporation Methods and systems for language translation
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US7849144B2 (en) * 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US20080140519A1 (en) * 2006-12-08 2008-06-12 Microsoft Corporation Advertising based on simplified input expansion
US8144990B2 (en) * 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
DE102007043803A1 (de) * 2007-09-13 2009-04-09 Vistec Semiconductor Systems Gmbh Einrichtung und Verfahren zur Bestimmung der räumlichen Lage bewegter Elemente einer Koordinaten-Messmaschine
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US8296125B2 (en) * 2008-10-17 2012-10-23 International Business Machines Corporation Translating source locale input string to target locale output string
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
CN101739395A (zh) * 2009-12-31 2010-06-16 程光远 机器翻译方法和系统
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US20130326347A1 (en) * 2012-05-31 2013-12-05 Microsoft Corporation Application language libraries for managing computing environment languages
US9639676B2 (en) 2012-05-31 2017-05-02 Microsoft Technology Licensing, Llc Login interface selection for computing environment user login
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
JP6417649B2 (ja) * 2013-08-22 2018-11-07 株式会社リコー 文章処理装置、文章表示システム、プログラム
JP6226321B2 (ja) * 2013-10-23 2017-11-08 株式会社サン・フレア 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム
US10740573B2 (en) 2015-12-23 2020-08-11 Oath Inc. Method and system for automatic formality classification
US10346546B2 (en) * 2015-12-23 2019-07-09 Oath Inc. Method and system for automatic formality transformation
US20170185587A1 (en) * 2015-12-25 2017-06-29 Panasonic Intellectual Property Management Co., Ltd. Machine translation method and machine translation system
CN107291700A (zh) * 2017-07-17 2017-10-24 广州特道信息科技有限公司 实体词识别方法及装置
CN109522563B (zh) * 2018-10-15 2023-05-23 语联网(武汉)信息技术有限公司 自动判断语句翻译完毕的方法及装置
CA3045132C (en) * 2019-06-03 2023-07-25 Eidos Interactive Corp. Communication with augmented reality virtual agents
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
JP7287412B2 (ja) * 2021-03-24 2023-06-06 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5678051A (en) 1992-12-24 1997-10-14 Matsushita Electric Industrial C., Ltd. Translating apparatus with special display mode for supplemented words
JP2002123281A (ja) * 2000-10-12 2002-04-26 Oki Electric Ind Co Ltd 音声合成装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4730269A (en) * 1983-02-18 1988-03-08 Houghton Mifflin Company Method and apparatus for generating word skeletons utilizing alpha set replacement and omission
JP2815714B2 (ja) * 1991-01-11 1998-10-27 シャープ株式会社 翻訳装置
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JPH10198680A (ja) * 1997-01-07 1998-07-31 Hitachi Ltd 分散辞書管理方法及びそれを用いた機械翻訳方法
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
CN1266235A (zh) * 1999-03-04 2000-09-13 英业达股份有限公司 自动拾取英文原形单词的方法
JP3539479B2 (ja) * 1999-03-11 2004-07-07 シャープ株式会社 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
US6708166B1 (en) * 1999-05-11 2004-03-16 Norbert Technologies, Llc Method and apparatus for storing data as objects, constructing customized data retrieval and data processing requests, and performing householding queries
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US6393389B1 (en) * 1999-09-23 2002-05-21 Xerox Corporation Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US7225199B1 (en) * 2000-06-26 2007-05-29 Silver Creek Systems, Inc. Normalizing and classifying locale-specific information
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US6983238B2 (en) * 2001-02-07 2006-01-03 American International Group, Inc. Methods and apparatus for globalizing software
DE60237922D1 (de) * 2002-01-29 2010-11-18 Ibm Übersetzungsverfahren für hervorgehobene wörter

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5678051A (en) 1992-12-24 1997-10-14 Matsushita Electric Industrial C., Ltd. Translating apparatus with special display mode for supplemented words
JP2002123281A (ja) * 2000-10-12 2002-04-26 Oki Electric Ind Co Ltd 音声合成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SPROAT ET AL.: "COMPUTER SPEECH AND LANGUAGE", vol. 15, 1 July 2001, ELSEVIER, article "Normalization of non-standard words"
TURCATO ET AL.: "Pre-processing closed captions for machine translation", PROCEEDINGS OF ANLP/NAACL 2000 WORKSHOP: EMBEDDED MACHINE TRANSLATION SYSTEMS, 4 May 2000 (2000-05-04)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088471A2 (de) * 2004-03-16 2005-09-22 Star Ag Computergestütztes hilfsmittel für ein verfahren zur erstellung von fremdsprachigen dokumenten
WO2005088471A3 (de) * 2004-03-16 2006-06-08 Star Ag Computergestütztes hilfsmittel für ein verfahren zur erstellung von fremdsprachigen dokumenten
JP2006155433A (ja) * 2004-12-01 2006-06-15 Nec Corp 文字入力言語変換表示システム及びその方法並びにそれを用いた通信端末及びプログラム
CN101388011B (zh) * 2007-09-13 2011-07-20 北京搜狗科技发展有限公司 一种向用户词库中记录信息的方法和装置

Also Published As

Publication number Publication date
KR20040070168A (ko) 2004-08-06
US8005662B2 (en) 2011-08-23
DE60237922D1 (de) 2010-11-18
JPWO2003065245A1 (ja) 2005-05-26
ATE484029T1 (de) 2010-10-15
US7529656B2 (en) 2009-05-05
US20060167675A1 (en) 2006-07-27
EP1482414A4 (en) 2008-11-12
CN1618064A (zh) 2005-05-18
CN1618064B (zh) 2010-05-05
EP1482414A1 (en) 2004-12-01
US20090254334A1 (en) 2009-10-08
EP1482414B1 (en) 2010-10-06

Similar Documents

Publication Publication Date Title
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
Karimi et al. Machine transliteration survey
Laboreiro et al. Tokenizing micro-blogging messages using a text classification approach
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
WO2010046782A2 (en) Hybrid machine translation
US7136803B2 (en) Japanese virtual dictionary
Sharma et al. Word prediction system for text entry in Hindi
US7983899B2 (en) Apparatus for and method of analyzing chinese
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP5185343B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP4843596B2 (ja) 機械翻訳装置及び機械翻訳プログラム
L’haire FipsOrtho: A spell checker for learners of French
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP6325789B2 (ja) 翻訳装置及び翻訳プログラム
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
Ratnam et al. Phonogram-based Automatic Typo Correction in Malayalam Social Media Comments
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム
JP4092861B2 (ja) 自然言語パターン作成装置及び方法
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
Sweta et al. Role of NLP in Indian regional languages
JP2002032369A (ja) 辞書作成装置
JPH04158477A (ja) 機械翻訳装置
JP2008226115A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020047001553

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2003564767

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2002827654X

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2002806670

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2002806670

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2006167675

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10503112

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10503112

Country of ref document: US