JPWO2020039808A1 - 機械翻訳制御装置 - Google Patents

機械翻訳制御装置 Download PDF

Info

Publication number
JPWO2020039808A1
JPWO2020039808A1 JP2020538239A JP2020538239A JPWO2020039808A1 JP WO2020039808 A1 JPWO2020039808 A1 JP WO2020039808A1 JP 2020538239 A JP2020538239 A JP 2020538239A JP 2020538239 A JP2020538239 A JP 2020538239A JP WO2020039808 A1 JPWO2020039808 A1 JP WO2020039808A1
Authority
JP
Japan
Prior art keywords
machine translation
similar
sentences
sentence
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020538239A
Other languages
English (en)
Other versions
JP6976448B2 (ja
Inventor
隆哉 小野
隆哉 小野
哲 溝口
哲 溝口
佳徳 礒田
佳徳 礒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JPWO2020039808A1 publication Critical patent/JPWO2020039808A1/ja
Application granted granted Critical
Publication of JP6976448B2 publication Critical patent/JP6976448B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

機械翻訳制御装置(10)は、機械翻訳モデル(22)を用いて機械翻訳を行う機械翻訳エンジン(20)における利用ログ(21)を参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出部(11)と、抽出された頻出文に類似する1つ以上の類似文および当該類似文の対訳である類似対訳文を対訳DB(30)から取得する取得部(12)と、取得された類似文および類似対訳文に基づいて、機械翻訳モデル(22)をチューニングするチューニング部(13)と、を備える。

Description

本発明の一形態は、機械翻訳モデルを用いて機械翻訳を行う機械翻訳エンジンにおける訳質を向上させるための機械翻訳制御装置に関する。
主にコンピュータプログラムを利用して、ある言語で書かれた文章を他の言語へと翻訳する機械翻訳が普及しつつある。このような機械翻訳では、訳質(翻訳の品質)を向上させることが大きなテーマである。従来は、実際に利用されている機械翻訳の訳質向上を図る場合、実際の利用ログに基づいて、以下のような対応を行うことが一般的であった。
まず、機械翻訳における入力言語と出力言語の両方の言語スキルを有する者(以下「高スキル者」という)により利用ログの評価を行い、機械翻訳誤りがある場合は正解データ(正解文)を作成する。次に、上記の評価で得られた評価データに基づく分析と、上記の正解データ等を用いた機械翻訳モデルチューニング等を行う。
特開2000−154595号公報
しかし、訳質向上を図るには、上記の評価データ、正解データ等が少ないと効果的ではなく、これらは一定数以上必要となるため、高スキル者によって大量の利用ログを評価することが必要となり、訳質向上のための作業時間、コストが共に多くかかる、という課題がある。
一方、機械翻訳に入力されるさまざまな文には、頻出する文(以下「頻出文」という)も有れば、あまり出現しない文も有る(特許文献1参照)。このうち、頻出文について正確に翻訳されずに訳質が悪いと、機械翻訳利用ユーザにとって実質的損失および体感的損失が大きくなるため、訳質の速やかな改善が待望される。
そこで、本発明の一形態は、上記の課題に鑑み、訳質向上のための作業時間およびコストを抑えつつ、頻出文についての訳質向上を実現し、ユーザ利便性を向上させることを目的とする。
上記課題を解決するために、本発明の一形態に係る機械翻訳制御装置は、機械翻訳モデルを用いて機械翻訳を行う機械翻訳エンジンにおける利用ログを参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出部と、機械翻訳の対訳データを保管した対訳データベースから、前記抽出部により抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を取得する取得部と、前記取得部により取得された類似文および類似対訳文に基づいて、前記機械翻訳モデルをチューニングするチューニング部と、を備える。
上記の一形態によれば、機械翻訳制御装置において、抽出部が、機械翻訳エンジンにおける利用ログを参照して、機械翻訳への入力文から1つ以上の頻出文を抽出し、取得部が、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を対訳データベースから取得し、そして、チューニング部が、取得された類似文および類似対訳文に基づいて、前記機械翻訳モデルをチューニングする。なお、上記の「類似文」とは、所定の類似範囲内にある文を意味し、同一の文も含む。このように、従来から存在する機械翻訳エンジンおよび対訳データベースに、さらに上記機械翻訳制御装置を設けることで、従来の高スキル者による利用ログの評価等を経ることなく、対訳データベースを活用して、頻出文についての類似文および類似対訳文に基づく機械翻訳モデルのチューニングが行われる。これにより、訳質向上のための作業時間およびコストを抑えつつ、頻出文についての訳質向上を実現し、ユーザ利便性を向上させることができる。
本発明の一形態によれば、訳質向上のための作業時間およびコストを抑えつつ、頻出文についての訳質向上を実現し、ユーザ利便性を向上させることができる。
発明の実施形態に係る機械翻訳制御装置の機能的構成の一例を示す機能ブロック図である。 機械翻訳制御装置により実行される処理の一例を示すフロー図である。 頻出文の抽出処理の一例を示すフロー図である。 類似文および類似対訳文の取得処理の一例を示すフロー図である。 機械翻訳モデルのチューニング処理の一例を示すフロー図である。 機械翻訳制御装置のハードウェア構成の一例を示す図である。
以下、図面を参照しながら、本発明に係る一実施形態について説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に示すように一実施形態に係る機械翻訳制御装置10は、機械翻訳モデル22を用いて機械翻訳を行う既存の機械翻訳エンジン20における利用ログ21を参照可能とされ、機械翻訳の対訳データを保管した既存の対訳データベース(対訳DB)30を検索可能とされ、機械翻訳の訳質向上のために機械翻訳モデル22をチューニングする機能を有する装置である。
より具体的には、機械翻訳制御装置10は、機械翻訳エンジン20における利用ログ21を参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出部11と、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を対訳DB30から取得する取得部12と、取得された類似文および類似対訳文に基づいて機械翻訳エンジン20における機械翻訳モデル22をチューニングするチューニング部13と、を備える。
このうち、抽出部11は、機械翻訳への入力文の文書分類を行って頻出文を抽出してもよく、また、頻出する言い回しが複数ある場合に、言い回しの頻度をさらに基礎として頻出文を抽出してもよい。
取得部12は、頻出文に類似する類似文が複数ある場合に、所定基準に基づく類似度をさらに基礎として類似文を取得してもよい。
チューニング部13は、例えば、類似文および類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行い、当該評価の結果に基づき機械翻訳エンジンにおける機械翻訳モデルをチューニングしてもよい。
また、図1には、機械翻訳制御装置10が機械翻訳エンジン20および対訳DB30とは別体で構成される例を示した。即ち、抽出部11は、外部に設けられた機械翻訳エンジン20における利用ログ21を参照するよう構成され、また、取得部12は、外部に設けられた対訳DB30から類似文および類似対訳文を取得するよう構成されている。ただし、上記のように別体の構成とすることは必須ではなく、これとは異なる構成、例えば機械翻訳制御装置10が機械翻訳エンジン20と対訳DB30のうち一方又は両方と一体的に構成されてもよい。
次に、図2〜図5を用いて、機械翻訳制御装置10により実行される処理の一例を説明する。
図2に示すように、処理の全体像としては、まず、抽出部11が、機械翻訳エンジン20における利用ログ21を参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出処理を行い(ステップS1)、次に、取得部12が、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を対訳DB30から取得する取得処理を行い(ステップS2)、さらに、チューニング部13が、取得された類似文および類似対訳文に基づいて機械翻訳エンジン20における機械翻訳モデル22をチューニングする処理を行う(ステップS3)。上記のような図2の処理の実行開始トリガーは特定のトリガーに限定されるものではなく、例えば、予め定められた定期的なタイミングで実行開始されてもよいし、オペレータ等による所定操作により実行開始されてもよい。以下、図3〜図5を用いて上記ステップS1〜S3それぞれの処理例を説明する。
図3に示すように、上記ステップS1の抽出処理では、抽出部11が、利用ログにおける機械翻訳入力文の文書分類を行い、頻出文を抽出する(ステップS11)。なお、その抽出基準となる出現頻度は特定のものに限定されるものではない。ここで、頻出する言い回しが複数あるか否かが判断され(ステップS12)、複数ある場合は、抽出部11は言い回しの頻度をさらに基礎として頻出文を抽出する(ステップS13)。抽出された頻出文は取得部12へ転送される。
図4に示すように、上記ステップS2の取得処理では、取得部12が、抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳(類似対訳文)を対訳DB30から取得する(ステップS21)。なお、ここでの「類似文」とは、所定の類似範囲内にある文を意味し、同一の文も含む。また、類似文の取得方法は、特定の方法に限定されるものではなく、既存の方法を採用してもよい。その際、文同士の類似度を計算する方法として、tf-idf(term frequency-inverse document frequency)、LDA(Latent Dirichlet Allocation)、word2vecなどの既存の方法を採用してもよい。ここで、類似文が複数あるか否かが判断され(ステップS22)、複数ある場合は、取得部12は、ステップS21とは異なる所定基準に基づく類似度をさらに基礎として類似文を選択し、選択された類似文および該類似文に関する類似対訳文を対訳DB30から取得する(ステップS23)。取得された類似文および類似対訳文はチューニング部13へ転送される。
図5に示すように、上記ステップS3のチューニング処理では、チューニング部13が、類似文および類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行う(ステップS31)。ここで、評価の結果、期待する動作が成されるか否かが判断される(ステップS32)。その判断方法は、特定の方法に限定されるものではなく、既存の方法を採用してもよい。判断の結果、期待する動作が成される場合は、チューニング部13は、機械翻訳エンジン20への投入を行う。即ち、機械翻訳エンジン20における機械翻訳モデル22をチューニングする(ステップS33)。一方、ステップS32の判断の結果、期待する動作が成されない場合は、チューニング部13は、機械翻訳エンジンへの投入を回避する(ステップS34)。
以上説明した実施形態によれば、従来から存在する機械翻訳エンジン20および対訳DB30に、さらに機械翻訳制御装置10を設けることで、従来の高スキル者による利用ログの評価等を経ることなく、対訳DB30を活用して、頻出文についての類似文および類似対訳文に基づく機械翻訳モデルのチューニングが行われる。これにより、訳質向上のための作業時間およびコストを抑えつつ、頻出文についての訳質向上を実現し、ユーザ利便性を向上させることができる。また、上記のように作業時間およびコストを抑えることで、後述するプロセッサ等における処理負荷を軽減できるという技術的効果も併せて奏する。
個別の機能に着目すると、抽出部11は、機械翻訳への入力文の文書分類を行って頻出文を抽出することができる。その際、頻出する言い回しが複数ある場合でも、抽出部11は言い回しの頻度をさらに基礎とすることで、適切に頻出文を抽出することができる。
取得部12は、頻出文に類似する類似文が複数ある場合でも、所定基準に基づく類似度をさらに基礎とすることで、適切に類似文を取得することができる。
チューニング部13は、類似文および類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行い、当該評価の結果、期待する動作が成されるか否かを判断し、期待する動作が成される場合にのみ、機械翻訳エンジン20への投入を行うよう制御することで、適切に機械翻訳エンジン20における機械翻訳モデル22をチューニングすることができる。
上記の実施形態の説明で用いた図1のブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
例えば、上記の実施形態における機械翻訳制御装置10は、上述した機械翻訳制御装置10の処理を行うコンピュータとして機能してもよい。図6は、機械翻訳制御装置10のハードウェア構成の一例を示す図である。上述の機械翻訳制御装置10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。機械翻訳制御装置10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
機械翻訳制御装置10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。例えば、機械翻訳制御装置10の各機能部は、プロセッサ1001を含んで実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュールおよびデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、機械翻訳制御装置10の各機能部は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施形態に係る方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD−ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。例えば、上述の機械翻訳制御装置10の各機能部は、通信装置1004を含んで実現されてもよい。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、機械翻訳制御装置10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。
本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
入出力された情報などは特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報などは、上書き、更新、または追記され得る。出力された情報などは削除されてもよい。入力された情報などは他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:trueまたはfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
また、本明細書で説明した情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
移動通信端末は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、またはいくつかの他の適切な用語で呼ばれる場合もある。
本明細書で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
「含む(include)」、「含んでいる(including)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または(or)」は、排他的論理和ではないことが意図される。
本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
10…機械翻訳制御装置、11…抽出部、12…取得部、13…チューニング部、20…機械翻訳エンジン、21…利用ログ、22…機械翻訳モデル、30…対訳DB、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。
特開2000−123013号公報

Claims (6)

  1. 機械翻訳モデルを用いて機械翻訳を行う機械翻訳エンジンにおける利用ログを参照して、機械翻訳への入力文から1つ以上の頻出文を抽出する抽出部と、
    機械翻訳の対訳データを保管した対訳データベースから、前記抽出部により抽出された頻出文に類似する1つ以上の類似文、および、当該類似文の対訳である類似対訳文を取得する取得部と、
    前記取得部により取得された類似文および類似対訳文に基づいて、前記機械翻訳モデルをチューニングするチューニング部と、
    を備える機械翻訳制御装置。
  2. 前記抽出部は、前記機械翻訳への入力文の文書分類を行って前記頻出文を抽出する、
    請求項1に記載の機械翻訳制御装置。
  3. 前記抽出部は、頻出する言い回しが複数ある場合、言い回しの頻度をさらに基礎として前記頻出文を抽出する、
    請求項1又は2に記載の機械翻訳制御装置。
  4. 前記取得部は、前記頻出文に類似する類似文が複数ある場合、所定基準に基づく類似度をさらに基礎として前記類似文を取得する、
    請求項1〜3の何れか一項に記載の機械翻訳制御装置。
  5. 前記チューニング部は、前記類似文および前記類似対訳文に基づいてモデル学習を行って、モデル学習した機械翻訳モデルの評価を行い、前記評価の結果に基づき前記機械翻訳エンジンにおける機械翻訳モデルをチューニングする、
    請求項1〜4の何れか一項に記載の機械翻訳制御装置。
  6. 前記抽出部は、前記機械翻訳制御装置の外部に設けられた前記機械翻訳エンジンにおける利用ログを参照し、
    前記取得部は、前記機械翻訳制御装置の外部に設けられた前記対訳データベースから、前記類似文および前記類似対訳文を取得する、
    請求項1〜5の何れか一項に記載の機械翻訳制御装置。
JP2020538239A 2018-08-24 2019-07-18 機械翻訳制御装置 Active JP6976448B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018157554 2018-08-24
JP2018157554 2018-08-24
PCT/JP2019/028349 WO2020039808A1 (ja) 2018-08-24 2019-07-18 機械翻訳制御装置

Publications (2)

Publication Number Publication Date
JPWO2020039808A1 true JPWO2020039808A1 (ja) 2021-02-15
JP6976448B2 JP6976448B2 (ja) 2021-12-08

Family

ID=69593041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020538239A Active JP6976448B2 (ja) 2018-08-24 2019-07-18 機械翻訳制御装置

Country Status (3)

Country Link
US (1) US20210034824A1 (ja)
JP (1) JP6976448B2 (ja)
WO (1) WO2020039808A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633019B (zh) * 2020-12-29 2023-09-05 北京奇艺世纪科技有限公司 一种双语样本生成方法、装置、电子设备及存储介质
KR102365538B1 (ko) * 2021-05-25 2022-02-23 주식회사 메이코더스 크로스보딩 이커머스 시스템에서의 자동 질의 대응 및 전자 서류 생성이 가능한 채팅 인터페이스 제공 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192332B1 (en) * 1998-04-06 2001-02-20 Mitsubishi Electric Research Laboratories, Inc. Adaptive electronic phrase book
US11222185B2 (en) * 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
JP5666937B2 (ja) * 2011-02-16 2015-02-12 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JPWO2013077110A1 (ja) * 2011-11-22 2015-04-27 Necカシオモバイルコミュニケーションズ株式会社 翻訳装置、翻訳システム、翻訳方法およびプログラム
US10068174B2 (en) * 2012-08-02 2018-09-04 Artifical Solutions Iberia S.L. Hybrid approach for developing, optimizing, and executing conversational interaction applications
CN104199813B (zh) * 2014-09-24 2017-05-24 哈尔滨工业大学 基于伪反馈的个性化机器翻译系统及方法

Also Published As

Publication number Publication date
JP6976448B2 (ja) 2021-12-08
WO2020039808A1 (ja) 2020-02-27
US20210034824A1 (en) 2021-02-04

Similar Documents

Publication Publication Date Title
US10430610B2 (en) Adaptive data obfuscation
JP7062056B2 (ja) 作成文章評価装置
US11227116B2 (en) Translation device, translation method, and program
JP6976448B2 (ja) 機械翻訳制御装置
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
US9697194B2 (en) Contextual auto-correct dictionary
JP7222082B2 (ja) 認識誤り訂正装置及び訂正モデル
WO2020003928A1 (ja) エンティティ特定システム
JP6976447B2 (ja) 機械翻訳制御装置
JP7043593B2 (ja) 対話サーバ
US12001793B2 (en) Interaction server
US20230141191A1 (en) Dividing device
WO2020235135A1 (ja) 対話システム
JP6911191B2 (ja) 機能実行指示システム
WO2020235136A1 (ja) 対話システム
JP6745402B2 (ja) 質問推定装置
US11645477B2 (en) Response sentence creation device
WO2019187463A1 (ja) 対話サーバ
WO2019220791A1 (ja) 対話装置
JP2021082125A (ja) 対話装置
JP2020177387A (ja) 文出力装置
JP7339148B2 (ja) 検索支援装置
US20230410795A1 (en) Information processing device
JP7412575B2 (ja) 情報処理装置
JP7477359B2 (ja) 文章作成装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211109

R150 Certificate of patent or registration of utility model

Ref document number: 6976448

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150